Day01 基础篇(一)何为数据分析?何为数据挖掘?


一、数据分析的三个重要组成成分

  (1)数据采集

      获取数据源(Python爬虫、八爪鱼)

  (2)数据挖掘

      十大算法原理、数学基础、基本流程

  (3)数据可视化

      工具的使用(微图、DataV、DataGIF Maker)

      Python类库的使用(Matplotlib、Seaborn)

二、学习数据分析最好的方法

  在工具中灵活运用、在项目中加深理解

三、两条准则

  (1)不重复造轮子,要善于灵活运用类库

  (2)工具决定效率,使用使用者最多的工具。

四、数据挖掘的基本流程

  (1)商业理解:对项目从商业角度进行需求分析,再对挖掘的目标进行定义

  (2)数据理解:收集部分数据(自主进行数据描述、质量验证等操作),了解数据

  (3)数据准备:清洗数据、集成数据

  (4)模型建立:运用数据挖掘模型优化分类结果

  (5)模型评估:评价模型、查看其是否实现商业目标

  (6)上线发布:用用户可以使用的方式呈现出项目

五、数据挖掘的十大算法

  1、分类算法:C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART

    (1)C4.5

        属于决策树算法,对决策树构造过程进行减枝,可以处理连续属性,也可以对不完整的数据进行处理。

    (2)朴素贝叶斯

        要给未知物体分类,求解未知物体出现条件下不同类别的概率,概率最大的分类即为未知物体分类。

    (3)SVM

        支持向量机。用于建立超平面分类模型。

    (4)KNN

        K最近邻算法。每个样本都可以用最接近的K个邻居代表,若K个邻居属于相同分类A,则样本也属于分类A。

    (5)Adaboost

        建立联合的分类模型,构建分类器的提升算法,将多个弱分类器组成一个强分类器。

    (6)CART

        代表分类和回归树,属于决策树算法。

  2、聚类算法:K-Means、EM

    (1)K-Means

        确定类别的中心点,只要计算新点与中心点之间的距离就可以判断新点的类别。

    (2)EM

        最大期望算法,用于求参数的最大似然估计,赋予A初值,得到B估值,再由B估值重新估计A,一直持续直到收敛。

  3、关联分析:Apriori

    (1)Apriori

        挖掘关联规则的算法,从频繁项集中挖掘出物品之间的关系。

  4、连接分析:PageRank

    (1)PageRank

        通过页面的引用次数划分网站的权重。

六、数据挖掘中的数学原理

  1、概率论与数理统计

    条件概率、独立性、随机变量、多维随机变量

  2、线性代数

    向量、矩阵特征值、特征向量

    基于矩阵的各种运算的解决方法:PCA、SVD、MF、NMF

  3、图论

    社交网络中,人与人的关系,可以用图论上的两个节点进行连接,节点的度可以理解为一个人的朋友数,图论对于网络结构的分析非常有效,在关系挖掘和图像分割中具有重要作用。

  4、最优化方法

    相当于机器学习中的自我学习过程,最优化方法就是用更短的时间得到收敛,取得更好的效果。

相关