From 7c43b5146e6eb8c309c3a6cdfd58bda70ab932ec Mon Sep 17 00:00:00 2001 From: "yihua.huang" Date: Thu, 28 Nov 2013 12:04:05 +0800 Subject: [PATCH] scripts readme --- webmagic-avalon.md | 10 ++++++++-- webmagic-scripts/README.md | 18 +++++++++++++++--- 2 files changed, 23 insertions(+), 5 deletions(-) diff --git a/webmagic-avalon.md b/webmagic-avalon.md index 975efed..bcf39ea 100644 --- a/webmagic-avalon.md +++ b/webmagic-avalon.md @@ -1,4 +1,4 @@ -WebMagic-Avalon项目手册 +WebMagic-Avalon项目计划 ======= WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫,以及一个可分享配置/脚本的平台,从而减少熟悉的开发者的开发量,并且让**不熟悉Java技术的人**也能简单的使用一个爬虫。 @@ -21,4 +21,10 @@ WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫, ## 如何参与 -webmagic目前 \ No newline at end of file +webmagic目前由作者业余维护,仅仅为了分享和个人提高,没有任何盈利,也没有商业化打算。 + +欢迎以下几种形式的贡献: + +1. 为webmagic项目本身提出改进意见,可以通过邮件组、qq、oschina或者在github提交issue(推荐)的方式。 +2. 参与WebMagic-Avalon计划的建设讨论,包括产品设计、技术选型等,可以直接回复这个issue。 +3. 参与webmagic代码开发,请fork一份代码,修改后提交pull request给我。请使用尽量新的版本,并说明修改内容。pull request接受后,我会将你加为committer,共同参与开发。 \ No newline at end of file diff --git a/webmagic-scripts/README.md b/webmagic-scripts/README.md index 8077bf9..230e936 100644 --- a/webmagic-scripts/README.md +++ b/webmagic-scripts/README.md @@ -1,7 +1,7 @@ webmagic-scripts ====== ## 目标: -使得可以用简单脚本的方式编写爬虫,从而为一些常用场景提供可流通的脚本。 +使得可以用简单脚本的方式编写爬虫,从而为一些常用场景提供可流通的脚本。如果已经有人写好了脚本,那么你直接使用就可以了! ## 实例: 例如:我需要抓github的仓库数据,可以这样写一个脚本(javascript): @@ -23,9 +23,17 @@ urls("(https://github\\.com/\\w+/\\w+)") urls("(https://github\\.com/\\w+)") ``` -然后使用webmagic加载并启动它,无需下载依赖、编写代码、执行的过程。 +然后使用webmagic加载并启动它,无需下载依赖、编写代码、执行的过程。目前已经有控制台版本,请下载[http://code4craft.qiniudn.com/webmagic-console.tar.gz](http://code4craft.qiniudn.com/webmagic-console.tar.gz)。 -如果已经有人写好了脚本,那么你直接使用就可以了! +解压后,使用以下命令执行: + + java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f 脚本文件名 [-l 语言,默认是javascript] [-t 线程数] [-s 抓取间隔,毫秒] url1 url2 … + +例如,对于github这个脚本,我可以这样执行: + + java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f github.js -t 2 -s 0 https://github.com/code4craft + +目前这部分使用Java的ScriptEngine机制完成。 ## 语言: @@ -44,4 +52,8 @@ urls "(https://github\\.com/\\w+/\\w+)" urls "(https://github\\.com/\\w+)" ``` +多语言通过参数-l区分,例如执行这个ruby脚本需要: + + java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f github.rb -t2 -s0 -l ruby https://github.com/code4craft + 这个功能目前仍在实验阶段。欢迎大家积极参与并提出意见。 \ No newline at end of file