dep
parent
aa9bee7b1b
commit
78cfb4d554
|
@ -34,6 +34,8 @@ webmagic的功能覆盖整个爬虫的生命周期(链接提取、页面下载
|
||||||
|
|
||||||
webmagic定制的核心是PageProcessor接口。
|
webmagic定制的核心是PageProcessor接口。
|
||||||
|
|
||||||
|
项目使用maven托管,如果没用maven的可以去[http://git.oschina.net/flashsword20/webmagic-bin](http://git.oschina.net/flashsword20/webmagic-bin)库下载依赖包(这个仓库代码没有实时同步更新,不过依赖应该不会有变化)。
|
||||||
|
|
||||||
例如,我们要实现一个简单的通用爬虫SimplePageProcessor,代码如下:
|
例如,我们要实现一个简单的通用爬虫SimplePageProcessor,代码如下:
|
||||||
|
|
||||||
public class SimplePageProcessor implements PageProcessor {
|
public class SimplePageProcessor implements PageProcessor {
|
||||||
|
@ -73,7 +75,6 @@ webmagic定制的核心是PageProcessor接口。
|
||||||
|
|
||||||
Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).run();
|
Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).run();
|
||||||
|
|
||||||
|
|
||||||
### 示例
|
### 示例
|
||||||
|
|
||||||
webmagic-samples目录里有一些定制PageProcessor以抽取不同站点的例子。
|
webmagic-samples目录里有一些定制PageProcessor以抽取不同站点的例子。
|
||||||
|
|
Loading…
Reference in New Issue