网络相关
通用
urllib - 网络库(标准库)
requests - 网络库
grab - 网络库(基于pycurl)
pycurl - 网络库 (与libcurl绑定)
urllib3 - 具有线程安全连接池、文件psot支持、高可用的Python HTTP库
httplib2 - 网络库
RoboBrowser - 一个无需独立浏览器即可访问网页的简单、pythonic的库
MechanicalSoup - 能完成自动网站交互的Python库
mechanize - 有状态、可编程的网页浏览库。
socket - 底层网络接口(标准库)
Unirest for Python - 一套支持多种语言的轻量级HTTP库
hyper - Python HTTP/2客户端
PySocks - SocksiPy持续更新并维护的版本,指出bug修复和一些其他功能,可以作为socket模块的替代品
异步
treq - 基于twisted、与requests类似的API
aiohttp - asyncio的HTTP客户端/服务器 (PEP-3156)
网络爬虫框架
全能型爬虫
grab - 网络爬虫框架(基于pycurl/multicurl)
scrapy - 网络爬虫框架(基于twisted)
pyspider - 一个强力的爬虫系统
cola - 一个分布式爬虫框架
其他
portia - 基于Scrapy的可视化爬虫
restkit - Python的HTTP资源库。允许影虎简单的访问HTTP资源并用来创建项目
demiurge - 基于PyQuery的微型爬虫框架
HTML/XML解析
通用
lxml - 高效的HTML/XML处理库。支持XPATH,用C语言写成
cssselect - 解析DOM树和css选择器
pyquery - 解析DOM树和jQuery选择器
BeautifulSoup - Python写成的低效HTML/XMl处理库
html5lib - 根据WHATWG规范生成HTML/ XML文档的DOM。WHATWG规范是现在浏览器的通行规范
feedparser - 解析RSS/ATOM信息流
MarkupSafe - Python的XML/HTML/XHTML安全转义字符串工具
xmltodict - 让你处理XML如同处理JSON一样
xhtml2pdf - HTML/CSS to PDF转化器
untangle - 讲XML文档转化为Python项目以简化处理难度
hodor - 支持lxml and cssselect的配置驱动包装工具
清理
Bleach - 清理HTML (需求html5lib)
sanitize - 将混乱的数据世界恢复清楚
浏览器自动化与仿真
浏览器
selenium - 自动化真实浏览器(Chrome, Firefox, Opera, IE)
Ghost.py - QtWebKit封装(需求PyQT)
Spynner - 具备AJAX支持的程序化网页浏览模块
Splinter - 通用API浏览器模拟器(selenium web驱动,Django客户端,Zope)
Headless工具
xvfbwrapper - 用于在X虚拟帧缓冲区(Xvfb)中运行显示的Python包装器
网页内容提取库
HTML页面的文本和元数据
newspaper - 用Python进行新闻提取、文章提取和内容策展
html2text - 将HTML转为Markdown格式文本
python-goose - HTML内容/文章提取器
lassie - 人性化的网页内容检索工具
micawber - 一个从网址中提取丰富内容的小型库
sumy -一个自动汇总文本文件和HTML网页的模块
Haul - 一个可扩展的图像爬虫
python-readability - arc90 readability工具的快速Python接口
scrapely - 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例,scrapely为所有类似的网页构建一个分析器
libextract - 从网站提取数据
视频
youtube-dl - 一个从YouTube下载视频的小型命令行工具
you-get - Python3写成的YouTube/Youku/Niconico视频下载工具
Wiki
WikiTeam - 下载并保存wkiks的工具
本文暂时没有评论,来添加一个吧(●'◡'●)