Day01 基础篇(一)何为数据分析?何为数据挖掘?
一、数据分析的三个重要组成成分
(1)数据采集
获取数据源(Python爬虫、八爪鱼)
(2)数据挖掘
十大算法原理、数学基础、基本流程
(3)数据可视化
工具的使用(微图、DataV、DataGIF Maker)
Python类库的使用(Matplotlib、Seaborn)
二、学习数据分析最好的方法
在工具中灵活运用、在项目中加深理解
三、两条准则
(1)不重复造轮子,要善于灵活运用类库
(2)工具决定效率,使用使用者最多的工具。
四、数据挖掘的基本流程
(1)商业理解:对项目从商业角度进行需求分析,再对挖掘的目标进行定义
(2)数据理解:收集部分数据(自主进行数据描述、质量验证等操作),了解数据
(3)数据准备:清洗数据、集成数据
(4)模型建立:运用数据挖掘模型优化分类结果
(5)模型评估:评价模型、查看其是否实现商业目标
(6)上线发布:用用户可以使用的方式呈现出项目
五、数据挖掘的十大算法
1、分类算法:C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART
(1)C4.5
属于决策树算法,对决策树构造过程进行减枝,可以处理连续属性,也可以对不完整的数据进行处理。
(2)朴素贝叶斯
要给未知物体分类,求解未知物体出现条件下不同类别的概率,概率最大的分类即为未知物体分类。
(3)SVM
支持向量机。用于建立超平面分类模型。
(4)KNN
K最近邻算法。每个样本都可以用最接近的K个邻居代表,若K个邻居属于相同分类A,则样本也属于分类A。
(5)Adaboost
建立联合的分类模型,构建分类器的提升算法,将多个弱分类器组成一个强分类器。
(6)CART
代表分类和回归树,属于决策树算法。
2、聚类算法:K-Means、EM
(1)K-Means
确定类别的中心点,只要计算新点与中心点之间的距离就可以判断新点的类别。
(2)EM
最大期望算法,用于求参数的最大似然估计,赋予A初值,得到B估值,再由B估值重新估计A,一直持续直到收敛。
3、关联分析:Apriori
(1)Apriori
挖掘关联规则的算法,从频繁项集中挖掘出物品之间的关系。
4、连接分析:PageRank
(1)PageRank
通过页面的引用次数划分网站的权重。
六、数据挖掘中的数学原理
1、概率论与数理统计
条件概率、独立性、随机变量、多维随机变量
2、线性代数
向量、矩阵特征值、特征向量
基于矩阵的各种运算的解决方法:PCA、SVD、MF、NMF
3、图论
社交网络中,人与人的关系,可以用图论上的两个节点进行连接,节点的度可以理解为一个人的朋友数,图论对于网络结构的分析非常有效,在关系挖掘和图像分割中具有重要作用。
4、最优化方法
相当于机器学习中的自我学习过程,最优化方法就是用更短的时间得到收敛,取得更好的效果。