编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

Heritrix3.1 过滤url

wxchong 2025-01-16 21:14:32 开源技术 22 ℃ 0 评论

现在做Heritrix抓取,由于java版本之类的,我选择用了3.1,可是大部分的资料都是介绍1.14的,太让人生气,尤其一个最简单的功能:让保留的文件是和这个域名下有关的文件,不要被js那些抽取的链接又访问到其他站点抓取。在1.14版本,已经非常多的扩展代码等,可是完全和3.1不同。

在这个前提下,我感觉是可以写个扩展替换的,我这里直接再源码中修改了,所改动的文件是
org.archive.crawler.postprocessor.CandidatesProcessor

写道

protected boolean shouldProcess(CrawlURI puri) {

//return true;

String uris;

uris=puri.toString;

//System.out.println("======>2"+uris);

if (uris.contains("**域名 关键字等")){

return true;

}

return false;

}

我也搞不清true false具体代表什么,代码结果显示false是不执行抓取,true是执行抓取

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表