编程开源技术交流，分享技术与知识

网站首页 > 开源技术正文

GitHub上python爬虫工具（python爬虫开发工具）

wxchong 2024-07-19 05:48:05 开源技术 57 ℃ 0 评论

网络相关

通用

urllib - 网络库(标准库)
requests - 网络库
grab - 网络库(基于pycurl)
pycurl - 网络库 (与libcurl绑定)
urllib3 - 具有线程安全连接池、文件psot支持、高可用的Python HTTP库
httplib2 - 网络库
RoboBrowser - 一个无需独立浏览器即可访问网页的简单、pythonic的库
MechanicalSoup - 能完成自动网站交互的Python库
mechanize - 有状态、可编程的网页浏览库。
socket - 底层网络接口(标准库)
Unirest for Python - 一套支持多种语言的轻量级HTTP库
hyper - Python HTTP/2客户端
PySocks - SocksiPy持续更新并维护的版本，指出bug修复和一些其他功能，可以作为socket模块的替代品

异步

treq - 基于twisted、与requests类似的API
aiohttp - asyncio的HTTP客户端/服务器 (PEP-3156)

网络爬虫框架

全能型爬虫

grab - 网络爬虫框架(基于pycurl/multicurl)
scrapy - 网络爬虫框架(基于twisted)
pyspider - 一个强力的爬虫系统
cola - 一个分布式爬虫框架

其他

portia - 基于Scrapy的可视化爬虫
restkit - Python的HTTP资源库。允许影虎简单的访问HTTP资源并用来创建项目
demiurge - 基于PyQuery的微型爬虫框架

HTML/XML解析

通用

lxml - 高效的HTML/XML处理库。支持XPATH，用C语言写成
cssselect - 解析DOM树和css选择器
pyquery - 解析DOM树和jQuery选择器
BeautifulSoup - Python写成的低效HTML/XMl处理库
html5lib - 根据WHATWG规范生成HTML/ XML文档的DOM。WHATWG规范是现在浏览器的通行规范
feedparser - 解析RSS/ATOM信息流
MarkupSafe - Python的XML/HTML/XHTML安全转义字符串工具
xmltodict - 让你处理XML如同处理JSON一样
xhtml2pdf - HTML/CSS to PDF转化器
untangle - 讲XML文档转化为Python项目以简化处理难度
hodor - 支持lxml and cssselect的配置驱动包装工具

清理
Bleach - 清理HTML (需求html5lib)
sanitize - 将混乱的数据世界恢复清楚

浏览器自动化与仿真

浏览器

selenium - 自动化真实浏览器(Chrome, Firefox, Opera, IE)
Ghost.py - QtWebKit封装(需求PyQT)
Spynner - 具备AJAX支持的程序化网页浏览模块
Splinter - 通用API浏览器模拟器（selenium web驱动，Django客户端，Zope）

Headless工具

xvfbwrapper - 用于在X虚拟帧缓冲区（Xvfb）中运行显示的Python包装器

网页内容提取库

HTML页面的文本和元数据

newspaper - 用Python进行新闻提取、文章提取和内容策展
html2text - 将HTML转为Markdown格式文本
python-goose - HTML内容/文章提取器
lassie - 人性化的网页内容检索工具
micawber - 一个从网址中提取丰富内容的小型库
sumy -一个自动汇总文本文件和HTML网页的模块
Haul - 一个可扩展的图像爬虫
python-readability - arc90 readability工具的快速Python接口
scrapely - 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例，scrapely为所有类似的网页构建一个分析器
libextract - 从网站提取数据

视频

youtube-dl - 一个从YouTube下载视频的小型命令行工具
you-get - Python3写成的YouTube/Youku/Niconico视频下载工具

Wiki

WikiTeam - 下载并保存wkiks的工具

上一篇：测试开发 | 开源报告框架Extent report的使用
下一篇：「postman」生成客户端代码（postman自动生成代码）

猜你喜欢

2024-10-25 vue springboot垃圾识别垃圾分类微信小程序前台后台源码免费赠送
2024-07-19 2018 年最好的 45 个 Vue 开源项目汇总
2024-07-19 稀有网名符号大全（稀有符号网名大全花样符号）
2024-07-19 OpenDaylight铍版本初体验--坑还多吗
2024-07-19 一个好用的uniapp请求库（uniapp请求传递和获取数据）
2024-07-19 25款Web开发精品PHP库（php web应用开发）
2024-07-19 使用Postman生成http请求调用代码片段
2024-07-19 Python库大全上（python 库）
2024-07-19 「postman」生成客户端代码（postman自动生成代码）
2024-07-19 测试开发 | 开源报告框架Extent report的使用

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

36℃ie10下载官网（win10下载ie10）

最近发表