GitHub 上哪些爬虫以及相关的项目(java)
nutchhttps://github.com/apache/nutch apache下的开源项目 最后更新几个月前
Heritrixhttps://github.com/internetarchive/heritrix3 比较成熟,用的人比较多 最后更新11个月前
crawler4jhttps://github.com/yasserg/crawler4j 最后更新一个月前
Geccohttps://github.com/xtuhcy/gecco 最后更新一个月前
WebCollectorhttps://github.com/CrawlScript/WebCollector 最后更新四个月前
Spidermanhttp://git.oschina.net/l-weiwei/Spiderman2 最后更新一个月前
WebMagichttps://github.com/code4craft/webmagic 最后更新十五天前
SeimiCrawlerhttps://github.com/zhegexiaohuozi/SeimiCrawler 最后更新一个月前
神箭手 https://github.com/ShenJianShou/crawler_samples 最后更新6天前 (各种爬虫源码,可以直接在 神箭手云爬虫开发平台 上运行 http://www.shenjianshou.cn)
jsoup包含http工具以及分析页面的工具包 https://jsoup.org/
okhttpshttp工具包
本文暂时没有评论,来添加一个吧(●'◡'●)