中文信息处理&机器学习-Kmeans实践


  BagOfWords:

  1. 见上一篇jieba分词。

  2. 见上篇,读取分词后文件

  3. 统计词频并表示成向量:

  sklearn工具包方法:

from sklearn.feature_extraction.text import CountVectorizer as cv

bows = cv(min_df=2,max_df =10) #词频两次以上,最多10次

  NLTK包,人工统计。齐夫(Zipf)定律:若把一篇较长的文章中每个词出现的频次从高到低进行递减排列,其数量关系特征呈双曲线分布。是一种经验定律,有待完善。