|NO.Z.00028|——————————|BigDataEnd|——|Arithmetic&Machine.v28|——|Machine:项目实战.v05|舆情分析|


一、舆情分析
### --- 舆情分析

~~~     # 文本挖掘基本流程
~~~     # 使用的数据是评论数据,即文本数据。
~~~     # 文本数据的分析过程主要有:清洗,可视,这里针对中文文本。
~~~     清洗基本流程:
~~~     替换非中英文字符为空格;
~~~     分词(结巴jieba);
~~~     去掉停用词(对描述和建模无意义的词);
~~~     筛选高频词;此流程需要反复尝试对比效果。
~~~     # 可视化:
~~~     一般都是词云,可能配合关键词排序等。
~~~     # 建模:
~~~     建模前需要将数据转成文档词矩阵(dtm);
~~~     有监督的话常用的是贝叶斯,其他偏精度的算法也可以,要注意特征个数;
~~~     无监督常用的是主题模型LDA,其他诸如分群,情感分析也可以。
~~~     # 清洗流程中,
~~~     尤其是口语化较强的数据,例如评论数据,需要去除重复语句,以及字数少于某个阈值的评论。
~~~     # 根据评论数据得到的词云如下:
### --- 关键字提取

~~~     # 基于 TF-IDF 算法的关键词抽取
jieba.analyse.extract_tags(bai64,20,True)

~~~     不管从词云还是关键词来看,评价偏好评,没有明显问题。
~~~     可以在停用词中添加好评,蟑螂可以再看效果。
二、项目总结

                 
Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart                                                                                                                                                    ——W.S.Landor
 

相关