Python爬虫实战,nltk模块,实现推特数据可视化分析


前言

今天为大家带来的是可视化分析一波推特,让我们愉快地开始吧~

开发工具

** Python版本:**3.6.4

** 相关模块:**

nltk模块;

pandas模块;

wordcloud模块;

cutecharts模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

可视化分析

首先,我们要借助panda库读取我们下载到的推特数据,并做一些必要的数据预处理工作。具体而言,代码实现如下:

'''读取csv文件'''

接着,我们就可以借助cutecharts进行一些可爱的可视化分析啦。首先,让我们来看看每年都发了多少推特呗:

ta越来越享受"推特治国"了。而且这货19年的时候怕是一天到晚都在发推特的节奏啊(感觉朋友圈的微商都做不到一年如一日地坚持每天发20多条朋友圈T_T)。

对了,上图的源代码如下,还是蛮简单的:

'''折线图'''

再来看看都是用哪些豪华的设备来发推特的呗(只显示用的最多的5个设备):

再贴一下他用过的所有发推特的设备吧:

Twitter for iPhone          15468

嚯,这货的设备还挺齐全。对了,上面的柱状图实现和折线图类似,只需要把折线图改成柱状图就行了:

chart = Bar(title)

接下来,我们再来看看比较喜欢在哪个时间段发推特吧:

真是个精力旺盛的ZT。T_T

再来看看每年在推特里次数呗:

cutecharts画饼状图的代码实现如下:

def drawPie(title, data, savedir='results'):

再来简单证实一下我的猜测:

再来看看媒体呗:

图片

让我们来看看荣登榜一的FOX是啥吧:

不多废话,我还想看看发推特时对媒体的评价态度。为了画的图比较好看,我们这里假设只要负面评价得分大于0.1的都算负面推特,然后正面评价得分大于0.2的都算正面推特:

这里评分是利用python的nltk库做的,不一定准。对了,画雷达图的代码实现如下:

'''雷达图'''

最后,gei推特画个词云吧:

文章到这里就结束了,喜欢的朋友可以点波关注,Python数据爬虫案例系列到这里暂时停更,下篇系列文章将分享是Python模拟登录系列

为了感谢读者们,我想把我最近收藏的一些编程干货分享给大家,回馈每一个读者,希望能帮到你们。

** 干货主要有:**

① 2000多本Python电子书(主流和经典的书籍应该都有了)

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ Python学习路线图(告别不入流的学习)

⑥ 两天的Python爬虫训练营直播权限

** All done~完整源代码详见个人简介或者私信获取相关文件。。**