数据治理的方法论

来源:中翰软件转发

引言：数据分析师的角色犹如一位大厨，原料有问题，大厨肯定烹饪不出色香味俱佳的大菜，数据有问题，数据分析师得出的结论自然也就不可靠。

先从脏数据的种类及处理方法谈起。

数据治理的原则

前面讲了脏数据的处理方法，但那些都是治标不治本的应对方法，且需要长期耗费大量时间和人力来做这种痛苦的工作。要想从根本上改善脏数据的问题，还是需要做好数据治理的规范工作。

简单来讲，数据治理就是要约束输入，规范输出。

1 约束输入：你永远想不到用户会输入哪些值，所以别给用户太多发挥的空间，做好约束工作。该用户填写的，系统必须设置为“必填”；值有固定选项的，一定用列表让用户选，别再手工输入；系统在录入提交时就做好检查，格式不对，值不在正常范围内，直接报错的情况必须让用户重新输入；设计录入表单时尽量原子化字段，比如上面说的地址，设计时就分成国家、省、市、区、详细地址等多个字段，避免事后拆分；录入数据保存的数据表也尽量统一，不要产生有大量相同数据的表，造成数据重复隐患。

2 规范输出：老板看不同人做的报表，同一个“收益率”指标，每张报表的值都不一样，老板的内心一定是崩溃的，不知该骂谁，只能全骂。排除计算错误的情况，一般都是统计口径不一致造成的。所以要统一语义，做一个公司级别的语义字典（不是数据库的数据字典）。所有给人看的报告上的指标名称，都要在语义字典中备案，语义字典明确定义其统计口径和含义。不同统计口径的指标必须用不同的名词。如果发现一个词已经在语义字典中有了，就必须走流程申请注册一个新词到语义字典。

数据治理的落地

脏数据的处理需要ETL工具，语义字典不一定要借助于系统。事实上，由于这类系统过于复杂，国内鲜见实施成功的案例，用Excel加制度就能达到很好的效果。

关于落地推广策略，说来也简单，老大拍板说必须实行，再用优先话语权吸引一个部门试点，再横向扩展。哪个部门先落地，哪个部门就能按最符合自己习惯的用词来命名指标，相当于占坑。后面的部门都要遵从前人的标准，重名但意义不同的指标需要另外找词儿命名。这样就不怕没人积极主动。

以上，就是精炼版的数据治理方法论。大家都知道这是个苦活，但是笔者还要提醒的是，越晚动手越苦。有了经验以后，做新业务系统设计时，大家就可以充分考虑数据治理的规范了。

数据治理

数据治理的方法论

数据治理的原则

数据治理的落地

相关

YNGAT-JZ数据治理架构

亿信华辰：制造业要想成功实现数字化转型，数据治理是关键

前瞻 | 2022年数据治理六大趋势盘点

数据治理框架：数据驱动型企业的基石

数据治理四个项目

亿信华辰|政务行业数据治理存在哪些问题，该如何应对？

实施数据治理，是房地产企业数字化转型的基础与关键

谈谈医疗行业数据治理的四个关键阶段【后附医院数据治理案例】

标签