|NO.Z.00028|——————————|BigDataEnd|——|Arithmetic&Machine.v28|——|Machine:项目实战.v05|舆情分析|
一、舆情分析
Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ——W.S.Landor
### --- 舆情分析
~~~ # 文本挖掘基本流程
~~~ # 使用的数据是评论数据,即文本数据。
~~~ # 文本数据的分析过程主要有:清洗,可视,这里针对中文文本。
~~~ 清洗基本流程:
~~~ 替换非中英文字符为空格;
~~~ 分词(结巴jieba);
~~~ 去掉停用词(对描述和建模无意义的词);
~~~ 筛选高频词;此流程需要反复尝试对比效果。
~~~ # 可视化:
~~~ 一般都是词云,可能配合关键词排序等。
~~~ # 建模:
~~~ 建模前需要将数据转成文档词矩阵(dtm);
~~~ 有监督的话常用的是贝叶斯,其他偏精度的算法也可以,要注意特征个数;
~~~ 无监督常用的是主题模型LDA,其他诸如分群,情感分析也可以。
~~~ # 清洗流程中,
~~~ 尤其是口语化较强的数据,例如评论数据,需要去除重复语句,以及字数少于某个阈值的评论。
~~~ # 根据评论数据得到的词云如下:
### --- 关键字提取
~~~ # 基于 TF-IDF 算法的关键词抽取
jieba.analyse.extract_tags(bai64,20,True)
~~~ 不管从词云还是关键词来看,评价偏好评,没有明显问题。
~~~ 可以在停用词中添加好评,蟑螂可以再看效果。
二、项目总结
Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ——W.S.Landor