数据挖掘基础
数据挖掘基础
参考书使用:《Python数据分析与挖掘实战》(第 2 版)
什么是数据挖掘?
从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,
并运用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,
就是数据挖掘。
常用的数据挖掘建模工具
- python
- SOL Server
- SAS Enterprise Miner
- IBM SPSS Modeler
- WEKA
- KNIME
基本任务
数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、偏差检测、智能推荐等方
法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。
建模过程
- 目标定义
- 数据采集
- 数据整理
- 构建模型
- 模型评价
- 模型发布
目标定义
首先要明确本次的挖掘目标是什么,完成后能达到什么样的效果。我们必须了解相关
领域的有关情况、背景知识、用户需求。想要达到好的效果,必须对挖掘目标有着清晰明了
的认识。
数据采集
明确目标后,接下来需要从业务系统中抽取一个与挖掘目标相关的样本数据子集。通过数据样
本的精选,可以减少数据的处理量,减少系统资源,还能使想要寻找的规律能更好的突显出来
抽取数据的标准:一是相关性、二是可靠性、三是有效性。
进行数据取样,一定要严把质量关。任何时候都不能忽视数据的质量,就算它是从数据仓库中进行的数据取样,也不要忘记检查数据质量如何。因为数据掘是要探索企业运作的内在规律性,原始数据如若有错,就很难在从中探索其规律。要时刻注意数据的完整性和有效性。
衡量数据质量的标准:资料完整无缺、各指标项齐全、数据准确无误,反应的都是正常下的水平。
对获取的数据还能再从中进行抽样,抽样的方式多种多样,常见的抽样方式如下:
-
随机抽样:采用随机抽样的方式,数据集中每一组观测值都有相同的被抽取的概率。
-
等距抽样:先将总体的全部单元按照一定顺序排列,采用简单随机抽样抽取第一个样本单元(或称为随机起点),再顺序抽取其余的样本单元。
-
分层抽样:首先将样本总体分成若干层次。每一层中的观测值都具有相同被选用的概率,但对不同的层次可设定不同的概率。这样的抽样通常具有更好的代表性。
-
按起始顺序抽样:从输入数据的起始处开始抽样。抽样的数量依据可以给定一个百分比,或者直接给定选取观测值的组数。
-
分类抽样:在前述的几种抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集。
数据整理
当我们拿到一个样本数据后,它是否达到我们原来设想的要求、其中有没有什么 明显的规律和趋势、有没有出现从未设想过的数据状态、属性之间有没有什么关联性、它们可分成怎样的类别等,这些都是首先要探索的内容。
数据探索的主要包括:异常值分析、缺失值分析、相关分析、周期性分析等。
所采样数据维度过大时,如何进行姜伟处理、缺失值处理等,都是数据预处理要解决的问题。
数据预处理主要包括:数据筛选、数据变换、缺失值处理、坏数据处理、数据标准化、主要分分析、属性选择、数据规划等。
构建模型
完成样本抽取并经预处理后,接下来要考虑的问题是:
本次建模属于数据挖掘应用的哪类问题?(分类、聚类、关联规则、时序模式或智能推荐)
选用哪种算法进行建模构建?这一步是数据挖掘工作的核心环节。
模型评价
从建模过程中会得出一系列的分析结果,模型评价的目的之一就是从这些模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用。对分类与预测模型和聚类分析模型的评价方法是不同的。