FileCacheQueueScheduler中开启了一个线程周期运行来保存数据但在爬虫结束后没有关闭导致程序无法结束,以及没有关闭io流。 解决方法: 让FileCacheQueueScheduler实现Closable接口,在close方法中关闭线程以及流。 在Spider的close方法中添加对scheduler的关闭操作。 |
||
---|---|---|
.. | ||
src | ||
README.md | ||
pom.xml |
README.md
webmagic-core
webmagic核心部分。只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。