Update FileCacheQueueScheduler.java
在使用过程中发现urls.txt文件存在重复URL的情况,经跟踪源代码,发现初始化加载文件后,读取所有的url放入一集合中,但是之后添加待抓取URL时并未判断是否已存在该集合中(即文件中)了,故导致文件中重复URL的情况.故据此对源码做了修改,还请作者审阅.master
parent
147401ce5e
commit
1db940a088
|
@ -145,6 +145,8 @@ public class FileCacheQueueScheduler extends DuplicateRemovedScheduler implement
|
|||
if (!inited.get()) {
|
||||
init(task);
|
||||
}
|
||||
if(urls.contains(request.getUrl())) //已存在此URL 表示已抓取过 跳过
|
||||
return;
|
||||
queue.add(request);
|
||||
fileUrlWriter.println(request.getUrl());
|
||||
}
|
||||
|
|
Loading…
Reference in New Issue