预处理复习笔记
-
数据的质量问题(衡量指标)主要包括哪些方面?
答:准确性、完整性、一致性、相关性、时效性和可信性可解释性
-
数据的准确性?
答:数据的准确性是指数据是正确的,数据存储在数据库中的值对应于真实世界的值。
-
造成数据不准确的原因有哪些?
答:比如数据的收集设备出现故障;人为输入的数据错误;数据在传输过程中出错;命名约定、数据代码、输入字段的格式不一致等都能导致数据不准确。
-
数据的完整性?
答:数据的完整性是指信息具有一个实体描述的所有必需的部分,在传统关系型数据库中,完整性通常与空值(NULL)有关,一般包括记录的缺失和记录属性的缺失。
-
造成数据的完整性缺失的原因有哪些?
答:比如涉及个人隐私,无法获取相关属性;数据输入时,由于人为的疏漏导致;数据输入或传输时,由于机器的故障导致等。
-
数据的一致性?
答:数据的一致性是指在数据库中,不同地方存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。
-
数据的不一致性有哪些?
答:逻辑不一致、记录规范不一致、数据冗余时内容不一致。
-
数据的时效性?
答:数据的时效性是指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约着决策的客观效果。
-
数据预处理的目?
答:目的是提升数据的质量,使其能够满足数据挖掘的需求,保证数据挖掘的正确性和有效性。
-
数据预处理的流程。
答:数据处理的流程为数据采集、数据清理、数据集成、数据变换、数据规约。
-
数据清理的主要任务?
答:填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性问题。
-
数据集成?
答:数据集成就是将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。
-
数据规约?
答:数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。
-
数据变换?
答:数据变换是指将数据从一种表现形式变为另一种表现形式的过程。
-
数据仓库?
答:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
-
数据仓库的特征?
答:数据仓库的特征主要有:面向主题,数据是集成的,数据是不可更新的(相对稳定的),数据是随时间不断变化的(反映历史变化的)。
-
Pandas是什么?
答:Pandas是一个基于BSD开源协议的开源库,提供了用于python编程语言的高性能、易于使用的数据结构和数据分析工具。
-
SCD(缓慢变化维度表)三种类型的处理方式。
答:类型1:业务主体数据发生变化时,用当前最新数据覆盖旧数据,只保留最新版本数据。类型2:业务主体数据发生变化时,用当前最新数据生成新的数据行,保存多个历史版本。类型3:业务主体数据发生变化时,用当前最新数据生成新的记录,并且在该行记录中记录上一个版本部分关键信息。
-
Pandas提供了哪些数据结构?这些数据结构分别处理的是什么类型的数据?
答:pandas提供的数据的数据结构包括系列Series、数据帧DataFrame、面板Panel,其中系列处理的是一维数据,数据帧处理二维数据,面板处理三维数据,面板Panel即将被弃用,改用多级索引的DataFrame处理三维数据。
-
代理键与业务键?
答:代理键:为了确定维度表中唯一的行而增加的键
业务主键:来源于源系统的业务,是业务主体的唯一标识
-
CDC(变化数据捕获)的认识。
答: 识别出变化的数据并只导入这部分数据被称为变化数据捕获。
CDC大体可以分为两种:(1)侵入式:是指CDC操作会给源系统带来性能的影响。(2)非侵入式:对源系统不具有侵入性。
CDC变化数据捕获的方法:
(1)时间戳方法(2)快照方法 (3)触发器方式(4)日志方式
-
kettle作业与转换的理解
答:作业:一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳(Hop)和每个作业项的执行结果来决定。
转换:转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据行的各种操作。转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库。
一个作业项代表了一项工作,而转换是一种作业项,即作业里面可以包括多个转换。
转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。数据流的另一个同义词就是记录流。
除了步骤和跳,转换还包括了注释,注释是一个小的文本框,可以放在转换流程图的任何位置。注释的主要目的是使转换文档化。
作业项与转换步骤的区别:1、作业项可以有影子拷贝;2、作业项之间传递一个结果对象;3、 可以并行执行
作业项执行后会返回一个结果对象,包含如下几种信息:1、一组数据行;2、一组文件名;3、读、写、输入、输出、更新、删除、拒绝的行数和转换里的错误数;4、脚本作业项的退出状态。
作业项结果有两个作用,一是决定作业的执行路径,二是向下一个作业项传递一个结果对象。
什么是作业的跳?跳是作业项之间的连接线,定义了作业的执行路径。
在Kettle里,作业是使用一种回溯算法来执行作业里所有作业项的,而作业项运行结果(如真或者假)决定了执行路径。
回溯算法:假设执行到了路径的某一个节点,要依次执行这个节点的所有子路径,直到没有再可以执行的子路径就返回上一个节点,再反复这一过程,是一个类似枚举的搜索尝试过程。
-
pandas的使用(重点)
1.怎么样为属性填上缺失值?
(1)忽略元组 (2)人工填写缺失值 (3)使用一个全局常量填充缺失值 (4)使用属性的中心度量(如均值或中位数)填充缺失值 (5)使用与给定元组属同一类的所有样本的属性值或中位数(6)使用最可能的值填充缺失值
2.噪声数据
噪声是被测量变量的随机误差或方差
3.数据变换策略包括6种
(1)光滑 (2)属性构造 (3)聚集 (4)规范化 (5)离散化 (6)有标称数据产生分层概念
4.数据规约策略包括:
维规约、数量规约、数据压缩
5。属性子集选择:
属性子集选择通过删除不相关或冗余的属性(或维)减少数据量
6.数据行:
数据以数据行的形式沿着步骤移动,一个数据行是零到多个字段的集合
7.数据清理的步骤
(1)计算器 (2)字符串替换 (3)字符串操作 (4)字符串剪切 (5)拆分字段 (6)值映射(7)字段现在(8)去除重复记录
8.字段清理:
拆分字段成多行、拆分字段、合并字段、字段选择
9.与转换的步骤相比作业项有3点不同:
(1)有影子复制 (2)作业项之间传递一个结果对象 (3)可以并行执行
10.回溯:
回溯算法就是假设执行到一条路径的某个节点,要依次执行这个节点的所有子路径,直到没有可执行的子路径时返回上一个节点,再反复这个过程
11.数据仓库:
是一个面向主题的、集成的、相对稳定反映·历史变化的数据集合,用于支持鼓励决策和信息的全局共享,它主要由维度表和事实表组成
Pandas非常适用于以下几种类型的数据。
(1)表格型的数据,(2)有序或无序的时间序列数据。(3 )带有行和列标签的矩阵数据。(4)各种统计、观测数据集。
维度表:主要存放基础属性;事实表:主要存放各个业务数据