update docs

master
yihua.huang 2013-08-10 08:31:03 +08:00
parent 19229dd855
commit 3b1993eaad
2 changed files with 8 additions and 5 deletions

View File

@ -352,6 +352,7 @@ webmagic-extension包括注解模块。为什么会有注解方式
AfterExtractor接口是对注解方式抽取能力不足的补充。实现AfterExtractor接口后会在**使用注解方式填充完字段后**调用**afterProcess()**方法,在这个方法中可以直接访问已抽取的字段、补充需要抽取的字段,甚至做一些简单的输出和持久化操作(并不是很建议这么做)。这部分可以参考[webmagic结合JFinal持久化到数据库的一段代码](http://www.oschina.net/code/snippet_190591_23456)。
* #### OOSpider
OOSpider是注解式爬虫的入口这里调用**create()**方法将OschinaBlog这个类加入到爬虫的抽取中这里是可以传入多个类的例如
OOSpider.create(
@ -362,7 +363,9 @@ webmagic-extension包括注解模块。为什么会有注解方式
OOSpider会根据TargetUrl调用不同的Model进行解析。
* #### PageModelPipeline
可以通过定义PageModelPipeline来选择结果输出方式。这里new ConsolePageModelPipeline()是PageModelPipeline的一个实现会将结果输出到控制台。
PageModelPipeline还有一个实现**JsonFilePageModelPipeline**可以将对象持久化以JSON格式输出并持久化到文件。JsonFilePageModelPipeline默认使用对象的MD5值作为文件名你可以在Model中实现HasKey接口指定输出的文件名。
* #### 分页

View File

@ -31,6 +31,11 @@ public class OschinaBlog implements HasKey{
,new JsonFilePageModelPipeline(), OschinaBlog.class).run();
}
@Override
public String key() {
return title;
}
public String getTitle() {
return title;
}
@ -42,9 +47,4 @@ public class OschinaBlog implements HasKey{
public List<String> getTags() {
return tags;
}
@Override
public String key() {
return title;
}
}