二、数据挖掘


了解统计学 实用统计 教材 高老师 人大吴喜之老师的 《从数据到结论》 教材和资料 需要懂点统计 population 数据全集 sample 一部分数据 实际处理数据 基本为样本 statistics 统计量 《女士品茶》 统计发展史   mean 平均值 median 中位数 mode 众数 出现最多的数字 range 极差   奥卡姆剃刀定律 keep it simple stupid 原假设 怀疑主义 P值 统计显著性 0-1 <0.05 P值 越小 假设结论正确强度越好 Q值 histogram 数据可视化 variance 方差 standard deviation 标准差     变量的分类 三种测量尺度 measurement scales 变量类型 因变量 自变量 定量 定性   三 、数据挖掘算法 分类 c4.5 统计学习 SVM EM 关联分析 apnon 链接挖掘 pagerank hits 聚类 K-Means birch 袋装与推进 adaboost   决策树 神经网络   多层向前神经网络(Multilayer  Feed-Forward Neural Network)                                                              多层向前神经网络组成部分 输入层(input layer),隐藏层(hiddenlayer),输出层(output layer)    每层由单元(units)组成    输入层(input layer)是由训练集的实例特征向量传入    经过连接结点的权重(weight)传入下一层,一层的输出是下一层的输入    隐藏层的个数是任意的,输出层和输入层只有一个    每个单元(unit)也可以被称作神经结点,根据生物学来源定义    上图称为2层的神经网络(输入层不算)    一层中加权的求和,然后根据非线性的方程转化输出    作为多层向前神经网络,理论上,如果有足够多的隐藏层(hidden layers)和足够大的训练集,可以模拟出任何方程   隐藏单元数量 与问题复杂程度 关联 隐藏层数 先当前案例中一般为1层,特殊场景多层  
dm