使用python制作大数据词云


 1 from wordcloud import WordCloud
 2 import PIL.Image as image
 3 import numpy as np
 4 import jieba
 5 
 6 
 7 # 分词
 8 def trans_CN(text):
 9     # 接收分词的字符串
10     word_list = jieba.cut(text)
11     # 分词后在单独个体之间加上空格
12     result = " ".join(word_list)
13     return result
14 
15 
16 with open(r'C:\Users\SAMSUNG\Desktop\101.txt',encoding='UTF-8') as fp:#填写你的文本文件地址
17     text = fp.read()
18     # print(text)
19     # 将读取的中文文档进行分词
20     text = trans_CN(text)
21     mask = np.array(image.open(r'C:\Users\SAMSUNG\Desktop\131422.jpg'))#放入想要生成的图片模板
22     wordcloud = WordCloud(
23         background_color='#FFFFFF',  # 指定背景颜色,这里用的是颜色代码
24         # 添加遮罩层
25         mask=mask,
26         # 生成中文字的字体,必须要加,不然看不到中文
27         font_path="C:\Windows\Fonts\STXINGKA.TTF"
28     ).generate(text)
29     image_produce = wordcloud.to_image()
30     image_produce.show()
31     wordcloud.to_file('lyxb6.jpg')  # 保存到图片默认保存到python文件目录下,不保存的话生成的图没有办法另存为哦。

导入的模板图:

效果:

再整理文本的时候需要根据特定的词语筛查删掉一些不关键的词语:比如  一个、系统、装置、设备、的、这些不能体现你要分析的数据的名词,以及谓语。这样你的图会更有观赏性。