分享
爬虫部署
部署环境
测试环境:腾讯云主机一台
操作系统:ubuntu-14.04
数据库: mongodb
安装依赖
pip install -r requirements.txt
修改配置文件
config = {
一般的爬取速度不会有禁IP的情况。如果有被禁IP的情况可以使用tor代理,将config['use_tor_proxy']设置为True,具体方法见python中使用tor代理 · 叁公子的博客:http://nladuo.github.io/2016/07/17/python%E4%B8%AD%E4%BD%BF%E7%94%A8tor%E4%BB%A3%E7%90%86/
运行爬虫
python crawler/item_crawler.py # 爬文胸的商品信息
简单统计与可视化展示
1. 运行脚本
cd simple_analyzer
2. 运行网页显示
cd data_visualization
好多A、B。。
为什么是黑色??
人数最多的竟然是75B,那是什么概念??
感兴趣的学习 女生胸围到底是70B大还是75B大?
关键词分析
运行脚本
cd keyword_analyzer
效果
学习过程中遇到什么问题或者想获取学习资源的话,欢迎加入学习交流群
626062078,我们一起学Python!
本文暂时没有评论,来添加一个吧(●'◡'●)