中文信息处理&机器学习-Kmeans实践

　　BagOfWords：

　　1. 见上一篇jieba分词。

　　2. 见上篇，读取分词后文件

　　3. 统计词频并表示成向量：

　　sklearn工具包方法：

from sklearn.feature_extraction.text import CountVectorizer as cv

bows = cv(min_df=2,max_df =10) #词频两次以上，最多10次

　　NLTK包，人工统计。齐夫（Zipf）定律：若把一篇较长的文章中每个词出现的频次从高到低进行递减排列，其数量关系特征呈双曲线分布。是一种经验定律，有待完善。

Python文本分析 Kmeans 聚类自然语言处理机器学习

相关

[ML]机器学习中我未见过的概念

[机器学习笔记(一)] TensorFLow安装

机器学习 - 线性回归模型实战 02

机器学习-支持向量机SVM

TensorFlow——机器学习编程框架

机器学习（三、神经网络）

吴恩达机器学习作业2- 逻辑回归与正则化作业（python实现）

深度聚类算法研究综述(A Survey of Deep Clustering Algorithms)

[ 机器学习 - 吴恩达 ] | 1-2 What is machine learning

《神经网络与机器学习》第8章泛化与正则化

【机器学习】逻辑回归（Logistic Regression）

机器学习--决策树算法(CART)

标签