中文信息处理&机器学习-Kmeans实践
BagOfWords:
1. 见上一篇jieba分词。
2. 见上篇,读取分词后文件
3. 统计词频并表示成向量:
sklearn工具包方法:
from sklearn.feature_extraction.text import CountVectorizer as cv bows = cv(min_df=2,max_df =10) #词频两次以上,最多10次
NLTK包,人工统计。齐夫(Zipf)定律:若把一篇较长的文章中每个词出现的频次从高到低进行递减排列,其数量关系特征呈双曲线分布。是一种经验定律,有待完善。