编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

GitHub上python爬虫工具(python爬虫开发工具)

wxchong 2024-07-19 05:48:05 开源技术 22 ℃ 0 评论

网络相关

  • 通用

  • urllib - 网络库(标准库)

  • requests - 网络库

  • grab - 网络库(基于pycurl)

  • pycurl - 网络库 (与libcurl绑定)

  • urllib3 - 具有线程安全连接池、文件psot支持、高可用的Python HTTP库

  • httplib2 - 网络库

  • RoboBrowser - 一个无需独立浏览器即可访问网页的简单、pythonic的库

  • MechanicalSoup - 能完成自动网站交互的Python库

  • mechanize - 有状态、可编程的网页浏览库。

  • socket - 底层网络接口(标准库)

  • Unirest for Python - 一套支持多种语言的轻量级HTTP库

  • hyper - Python HTTP/2客户端

  • PySocks - SocksiPy持续更新并维护的版本,指出bug修复和一些其他功能,可以作为socket模块的替代品

  • 异步

  • treq - 基于twisted、与requests类似的API

  • aiohttp - asyncio的HTTP客户端/服务器 (PEP-3156)

网络爬虫框架

  • 全能型爬虫

    • grab - 网络爬虫框架(基于pycurl/multicurl)

    • scrapy - 网络爬虫框架(基于twisted)

    • pyspider - 一个强力的爬虫系统

    • cola - 一个分布式爬虫框架

  • 其他

  • portia - 基于Scrapy的可视化爬虫

  • restkit - Python的HTTP资源库。允许影虎简单的访问HTTP资源并用来创建项目

  • demiurge - 基于PyQuery的微型爬虫框架

HTML/XML解析

  • 通用

    • lxml - 高效的HTML/XML处理库。支持XPATH,用C语言写成

    • cssselect - 解析DOM树和css选择器

    • pyquery - 解析DOM树和jQuery选择器

    • BeautifulSoup - Python写成的低效HTML/XMl处理库

    • html5lib - 根据WHATWG规范生成HTML/ XML文档的DOM。WHATWG规范是现在浏览器的通行规范

    • feedparser - 解析RSS/ATOM信息流

    • MarkupSafe - Python的XML/HTML/XHTML安全转义字符串工具

    • xmltodict - 让你处理XML如同处理JSON一样

    • xhtml2pdf - HTML/CSS to PDF转化器

    • untangle - 讲XML文档转化为Python项目以简化处理难度

    • hodor - 支持lxml and cssselect的配置驱动包装工具

  • 清理

  • Bleach - 清理HTML (需求html5lib)

  • sanitize - 将混乱的数据世界恢复清楚

浏览器自动化与仿真

  • 浏览器

    • selenium - 自动化真实浏览器(Chrome, Firefox, Opera, IE)

    • Ghost.py - QtWebKit封装(需求PyQT)

    • Spynner - 具备AJAX支持的程序化网页浏览模块

    • Splinter - 通用API浏览器模拟器(selenium web驱动,Django客户端,Zope)

  • Headless工具

    • xvfbwrapper - 用于在X虚拟帧缓冲区(Xvfb)中运行显示的Python包装器

网页内容提取库

  • HTML页面的文本和元数据

    • newspaper - 用Python进行新闻提取、文章提取和内容策展

    • html2text - 将HTML转为Markdown格式文本

    • python-goose - HTML内容/文章提取器

    • lassie - 人性化的网页内容检索工具

    • micawber - 一个从网址中提取丰富内容的小型库

    • sumy -一个自动汇总文本文件和HTML网页的模块

    • Haul - 一个可扩展的图像爬虫

    • python-readability - arc90 readability工具的快速Python接口

    • scrapely - 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例,scrapely为所有类似的网页构建一个分析器

    • libextract - 从网站提取数据

  • 视频

    • youtube-dl - 一个从YouTube下载视频的小型命令行工具

    • you-get - Python3写成的YouTube/Youku/Niconico视频下载工具

  • Wiki

  • WikiTeam - 下载并保存wkiks的工具

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表