scripts readme

master
yihua.huang 2013-11-28 12:04:05 +08:00
parent 633e0fe834
commit 7c43b5146e
2 changed files with 23 additions and 5 deletions

View File

@ -1,4 +1,4 @@
WebMagic-Avalon项目手册
WebMagic-Avalon项目计划
=======
WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫以及一个可分享配置/脚本的平台,从而减少熟悉的开发者的开发量,并且让**不熟悉Java技术的人**也能简单的使用一个爬虫。
@ -21,4 +21,10 @@ WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫
## 如何参与
webmagic目前
webmagic目前由作者业余维护仅仅为了分享和个人提高没有任何盈利也没有商业化打算。
欢迎以下几种形式的贡献:
1. 为webmagic项目本身提出改进意见可以通过邮件组、qq、oschina或者在github提交issue(推荐)的方式。
2. 参与WebMagic-Avalon计划的建设讨论包括产品设计、技术选型等可以直接回复这个issue。
3. 参与webmagic代码开发请fork一份代码修改后提交pull request给我。请使用尽量新的版本并说明修改内容。pull request接受后我会将你加为committer共同参与开发。

View File

@ -1,7 +1,7 @@
webmagic-scripts
======
## 目标:
使得可以用简单脚本的方式编写爬虫,从而为一些常用场景提供可流通的脚本。
使得可以用简单脚本的方式编写爬虫,从而为一些常用场景提供可流通的脚本。如果已经有人写好了脚本,那么你直接使用就可以了!
## 实例:
例如我需要抓github的仓库数据可以这样写一个脚本(javascript)
@ -23,9 +23,17 @@ urls("(https://github\\.com/\\w+/\\w+)")
urls("(https://github\\.com/\\w+)")
```
然后使用webmagic加载并启动它无需下载依赖、编写代码、执行的过程。
然后使用webmagic加载并启动它无需下载依赖、编写代码、执行的过程。目前已经有控制台版本,请下载[http://code4craft.qiniudn.com/webmagic-console.tar.gz](http://code4craft.qiniudn.com/webmagic-console.tar.gz)。
如果已经有人写好了脚本,那么你直接使用就可以了!
解压后,使用以下命令执行:
java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f 脚本文件名 [-l 语言默认是javascript] [-t 线程数] [-s 抓取间隔,毫秒] url1 url2 …
例如对于github这个脚本我可以这样执行
java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f github.js -t 2 -s 0 https://github.com/code4craft
目前这部分使用Java的ScriptEngine机制完成。
## 语言:
@ -44,4 +52,8 @@ urls "(https://github\\.com/\\w+/\\w+)"
urls "(https://github\\.com/\\w+)"
```
多语言通过参数-l区分例如执行这个ruby脚本需要
java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f github.rb -t2 -s0 -l ruby https://github.com/code4craft
这个功能目前仍在实验阶段。欢迎大家积极参与并提出意见。