网站首页 > 开源技术 正文
简介
作为nga忠实用户兼ac娘粉丝以及一个菜鸟数据分析师,为了庆祝前一阵A站的死而复生,决定使用二哥留下的一些论坛接口抓取NGA主题以及回复,以分析AC娘表情的被使用情况。同时根据用户uid,回复内容,和用户移动设备型号以及品牌制作出若干有意思的图表以供大家讨论。并希望抛砖引玉收集大家意见未来看看还可以做到什么内容。
一些数据
本次抓取帖子8391贴;回复124964条;时间跨度大约集中于2018-04-08至2018-04-16;其中有参与讨论用户29759名;其中有8928名用户有使用ac娘表情,占总数30%。期间回复最多用户发表了250贴
AC娘排行
使用最多次数AC娘Top5:1041次我觉得这个丑萌丑萌的
使用最多次数AC娘Top4:1645次
使用最多次数AC娘Top3:1775次 这两个都是发呆表情,楼主上班时就经常这个状态
使用最多次数AC娘Top2:2198次
使用最多次数AC娘Top1:4556次 出乎意料之一,扇子苦笑以这么大幅度领先所有ac娘表情,是不是大家或多或少都有无奈情绪想要发泄
除此之外我使用了一个中文分析库SnowNLP来对每位ngaer的回复作了情感分析指数计算,发现正面情绪回复与负面情绪回复中使用的ac娘表情排序有明显不同(废话)
正面情绪代表性AC娘Top3:萌
正面情绪代表性AC娘Top2:萌死了
正面情绪代表性AC娘Top1:出乎意料之二
负面情绪代表性AC娘Top3:
负面情绪代表性AC娘Top2:这个我一般用在看到黄图瞎眼图的时候
负面情绪代表性AC娘Top1:
可以发现,这次排行榜上全部都是第一版ac娘,看来众ngaer还是怀旧派。如果单独抽出第二版ac娘排行的话:
使用最多第二版AC娘Top3:看戏
使用最多第二版AC娘Top2:看戏之二
使用最多第二版AC娘Top1:具有嘲讽意味的指笑排第一,很尴尬
其他干货
Ngaer们在讨论什么?
Ngaer们开心时在讨论什么?
Ngaer们生气时在讨论什么?
我也很痛恨去公司上班!
简单说一下,我使用了jieba中文语言处理包来将大家的回复分成词语,同时回避了一些无意义的连词比如 就是,一个 等等。然后使用wordcloud包画出nga词云
Ngaer们在用什么牌子的手机?
霸权苹果不可避
Ngaer们在用什么型号的手机?
解释一下短的是按照用户使用的手机型号计,长的条是按照回帖用的手机型号计。为什么你们都这么有钱???
补充
喜欢ac娘的记得点个赞哦,另请和谐讨论。
如果有同行朋友赏脸点进来请狠狠找茬
爬取:urllib2, re, BeautifulSoup, mangoDB
数据清洗:pandas, re
数据分析:SnowNLP, jieba
数据可视化:matplotlib, seaborn, wordcloud
对了
再补充一下,作为业内人士我建议大家在上网时尽量使用HTTPS模式,具体如何做不同的游览器有不同的方法,百度一下你就知道。因为其实追踪一个人的信息是比较容易做到的,包括他的住址,电话,喜好,常去地点等等。当然针对一个人的查询是违法的理论上不应该有人这么做,但是为了自身安全还是尽量减少/掩盖自己在网上的“脚印”为佳
……咩
猜你喜欢
- 2024-09-12 《小美好》短评文本情感分析+生成词云
- 2024-09-12 怎么自学python,大概要多久?(自学python怎么样)
- 2024-09-12 推荐 4 个 Python 新手实战项目(python入门教程推荐)
- 2024-09-12 基于 Python 的网易民谣歌词数据分析
- 2024-09-12 B 站鬼畜区热门评论情感分析(b站鬼畜区热度)
- 2024-09-12 淘宝上“飞机杯”的销量究竟有多大?
- 2024-09-12 教你对抓取的文本进行分词、词频统计、词云可视化和情感分析
- 2024-09-12 20行代码教会Python分析商品评价(python爬取商品评论)
- 2024-09-12 新手怎么自学python,大概要多久?
- 2024-09-12 盘点一个英文文本中统计关键词的方法
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- jdk (81)
- putty (66)
- rufus (78)
- 内网穿透 (89)
- okhttp (70)
- powertoys (74)
- windowsterminal (81)
- netcat (65)
- ghostscript (65)
- veracrypt (65)
- asp.netcore (70)
- wrk (67)
- aspose.words (80)
- itk (80)
- ajaxfileupload.js (66)
- sqlhelper (67)
- express.js (67)
- phpmailer (67)
- xjar (70)
- redisclient (78)
- wakeonlan (66)
- tinygo (85)
- startbbs (72)
- webftp (82)
- vsvim (79)
本文暂时没有评论,来添加一个吧(●'◡'●)