Python爬虫实战,nltk模块,实现推特数据可视化分析
前言
今天为大家带来的是可视化分析一波推特,让我们愉快地开始吧~
开发工具
** Python版本:**3.6.4
** 相关模块:**
nltk模块;
pandas模块;
wordcloud模块;
cutecharts模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
可视化分析
首先,我们要借助panda库读取我们下载到的推特数据,并做一些必要的数据预处理工作。具体而言,代码实现如下:
'''读取csv文件'''
接着,我们就可以借助cutecharts进行一些可爱的可视化分析啦。首先,让我们来看看每年都发了多少推特呗:
ta越来越享受"推特治国"了。而且这货19年的时候怕是一天到晚都在发推特的节奏啊(感觉朋友圈的微商都做不到一年如一日地坚持每天发20多条朋友圈T_T)。
对了,上图的源代码如下,还是蛮简单的:
'''折线图'''
再来看看都是用哪些豪华的设备来发推特的呗(只显示用的最多的5个设备):
再贴一下他用过的所有发推特的设备吧:
Twitter for iPhone 15468
嚯,这货的设备还挺齐全。对了,上面的柱状图实现和折线图类似,只需要把折线图改成柱状图就行了:
chart = Bar(title)
接下来,我们再来看看比较喜欢在哪个时间段发推特吧:
真是个精力旺盛的ZT。T_T
再来看看每年在推特里次数呗:
cutecharts画饼状图的代码实现如下:
def drawPie(title, data, savedir='results'):
再来简单证实一下我的猜测:
再来看看媒体呗:
让我们来看看荣登榜一的FOX是啥吧:
不多废话,我还想看看发推特时对媒体的评价态度。为了画的图比较好看,我们这里假设只要负面评价得分大于0.1的都算负面推特,然后正面评价得分大于0.2的都算正面推特:
这里评分是利用python的nltk库做的,不一定准。对了,画雷达图的代码实现如下:
'''雷达图'''
最后,gei推特画个词云吧:
文章到这里就结束了,喜欢的朋友可以点波关注,Python数据爬虫案例系列到这里暂时停更,下篇系列文章将分享是Python模拟登录系列
为了感谢读者们,我想把我最近收藏的一些编程干货分享给大家,回馈每一个读者,希望能帮到你们。
** 干货主要有:**
① 2000多本Python电子书(主流和经典的书籍应该都有了)
② Python标准库资料(最全中文版)
③ 项目源码(四五十个有趣且经典的练手项目及源码)
④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
⑤ Python学习路线图(告别不入流的学习)
⑥ 两天的Python爬虫训练营直播权限
** All done~完整源代码详见个人简介或者私信获取相关文件。。**