master
yihua.huang 2013-07-30 09:36:00 +08:00
parent aa9bee7b1b
commit 78cfb4d554
1 changed files with 2 additions and 1 deletions

View File

@ -33,6 +33,8 @@ webmagic的功能覆盖整个爬虫的生命周期(链接提取、页面下载
###Get Started
webmagic定制的核心是PageProcessor接口。
项目使用maven托管如果没用maven的可以去[http://git.oschina.net/flashsword20/webmagic-bin](http://git.oschina.net/flashsword20/webmagic-bin)库下载依赖包(这个仓库代码没有实时同步更新,不过依赖应该不会有变化)。
例如我们要实现一个简单的通用爬虫SimplePageProcessor代码如下
@ -73,7 +75,6 @@ webmagic定制的核心是PageProcessor接口。
Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).run();
### 示例
webmagic-samples目录里有一些定制PageProcessor以抽取不同站点的例子。