数据中台(方法论篇)
从上一篇文章我们知道数据中台是什么,解决什么问题,有什么价值,要做些什么,接下来我们去了解下通过什么方法来指导实施数据中台。
数据中台既不是一项技术,也不是一款产品,而是一套方法论,或者说是企业的一套战略,其本质是企业运营思路和模式的转变。数据中台并不是购买一套产品就能实现的,成功的数据中台战略的实施不仅需要工具和产品的支持,更需要公司架构和流程层面的配合。
数据中台建设过程本身需要一整套的方法论来指导,包括实施路线、技术架构、组织方式、人员协作等各个方面的指导方针。这一套方法论的核心原则是:业务驱动,使用可衡量的成果激发自主积极性;敏捷式的实施和迭代,快速落地和见效;强调规范的制定和工具的使用,可持续发展。
数据中台本质上是符合一定规范的大数据平台和数据仓库体系。这些规范总结为OneID、OneModel、OneService、TotalPlatform和TotalInsight。建设符合这些规范的数据中台,最重要的是建设时遵循一个合理的方法论,采用一个合理的体系架构。在方法论中,最主要的思想是业务驱动,数据赋能,快速落地,小步快跑。
在说数据方法论之前,我们看看阿里巴巴的数据中台。
阿里数据中台OneData
1.阿里数据中台
从阿里巴巴数据中台全景图中我们看到,阿里的数据中台主要由四个部分组成:数据资产管理IPaaS、数据中台DaaS、数据研发平台IPaaS、计算与存储平台IaaS。
(1)数据资产管理IPaaS
数据资产管理其核心是基于元数据管理技术实现数据资产的“可看、可找、可用”,主要提供资产地图、资产分析、资产管理、资产应用、资产运营等功能。通过数据地图让数据管理和使用者,清楚的知道企业都有哪些数据,这些数据存在什么地方,数据被谁管理,如何获取等等;资产分析是利用BI技术对数据资产进行统计分析,并提供可视化服务,例如:按主题、类型的统计数据资产数量、数据资产的质量和数据资产的使用情况等;资产管理可以理解为对元数据的管理,包括元数据的增删改查;资产应用可以理解为通过元数据管理提升数据资产的利用率,比如:数据资产的热度分析、全链分析、影响分析等;而资产运营严格意义上说不能是一个功能,而是为了提升数据资产质量和使用效率的一系列措施,可能涉及组织、制度、绩效考核等等方面。通过数据资产管理激活企业的沉睡的数据,从而促进数据的使用。
(2)数据研发平台IPaaS
数据研发平台包括了数仓规划、模型构建、指标规范、数据同步、数据开发、任务调度、监控告警等功能,可以理解为数据仓库建设过程中所用到的相关技术与工具,而在这方面阿里有一个核心的产品Dataphin(智能数据构建与管理)是一款用于大数据平台建设的智能引擎,提供数仓规划、数据引入、规范定义、数据建模研发、数据资产管理、数据服务等的全链路智能数据构建及管理服务。
(3)计算与存储平台IaaS
计算与与存储平台主要提供计算和存储组件,包括实时计算和离线计算组件
(4)数据中台DaaS
数据中台DaaS主要包含了垂直数据中心:面向各垂直行业应用的统一数据接入平台OneClick;公共数据中心:面向公共数据中心以业务板块+业务过程+分析维度架构的Onedata体系;萃取数据中心:面向业务对象+数据标签的OneID体系;数据开放共享中心:面向应用及开放的统一数据服务中间件OneService。这四个“One”构成了阿里巴巴数据中台的核心!
2.OneData体系
阿里巴巴就提出了"大中台,小前台",倡导数据中台建设,核心方法论:OneData 。阿里云 OneData 数据中台解决方案基于大数据存储和计算平台为载体,以 OneModel 统一数据构建及管理方法论为主干,OneID 核心商业要素资产化为核心,实现全域链接、标签萃取、立体画像,以数据资产管理为皮,数据应用服务为枝叶的松耦性整体解决方案。其数据服务理念根植于心,强调业务模式,在推进数字化转型中实现价值。
数据中台到如今的建设成果主要体现在两方面:一个是数据的技术能力,另一个是数据的资产。
今天阿里的各个业务都在共享同一套数据技术和资产。阿里内部为这个统一化的数据体系命名为 “OneData”。OneData 又主要抽象成三个部分,分别是:OneID、OneModel、OneService。
- 第一部分:OneModel 致力于实现数据的标准与统一;
- 第二部分:OneID 致力于实现实体的统一,让数据融通而非以孤岛存在。
- 第三部分:OneService 致力于实现数据服务统一,让数据复用而非复制。
(1)OneModel
OneModel方法论是以维度建模为理论基础,构建总线矩阵,划分和定义业务板块、数据域、业务过程、维度、度量/原子指标、业务限定、时间周期、派生指标,设计出维度表、明细事实表、汇总事实表的过程。
OneModel 即建立企业统一的数据公共层,从设计、开发、部署和使用上保障了数据口径规范和统一,实现数据资产全链路管理,提供标准数据输出。OneModel方法论可以帮准企业建设标准的、稳定的数据中台,但再好的方法论如果不能规模化、产品化,对于客户而言,开发、管理都是更多的开发投入,以及对更多的数据技术专家的依赖。通过规范定义,定义维度、业务过程、业务限定、原子指标、派生指标,通过定义、配置以后,自动生成维度逻辑表、事实逻辑表、汇总逻辑表,帮助企业建设高效、标准的数据中台。
数据划分主题进行管理:表的命名,字段的命名等规范统一,做到见名知义数据格式和字段命名和定义规范化:具体参考离线数仓项目讲解的表和字段命名规范:数仓分层- 业务主题域-业务过程-基础信息-分区规则指标一致,不存在二义性:提供全局数据字典确保意义一致。
数据模型复用:推荐采用分层的设计方式,通常包括:ODS 原始数据层,DWD 明细数据层, DWS 轻度汇总数据层,ADS应用数据层 / DM数据集市层,DIM 公共维度层。
数据完善:数据中台尽可能的覆盖到所有业务过程,用户和系统的一切行为都被记录下来永久保存 OneData 体系的目标是构建统一的数据规范标准,让数据成为一种资产,而不是成本。资产和成本的差别在于资产是可以沉淀的,是可以被复用的。成本是消耗性质的、是临时的、无法被复用的。
(2)OneID
OneID 指统一数据萃取,是一套解决数据孤岛问题的思想和方法。即建立业务实体要素资产化为核心,实现全域链接、标签萃取、立体画像,其数据服务理念根植于心,强调业务模式。
数据孤岛是企业发展到一定阶段后普遍遇到的问题。各个部门、业务、产品,各自定义和存储其数据,使得这些数据间难以关联,变成孤岛一般的存在。OneID的做法是通过统一的实体识别和连接,打破数据孤岛,实现数据通融。简单来说,用户、设备等业务实体,在对应的业务数据中,会被映射为唯一识别(UID)上,其各个维度的数据通过这个UID进行关联。各个部门、业务、产品对业务实体的UID的定义和实现不一样,使得数据间无法直接关联,成为了数据孤岛。
基于手机号、身份证、邮箱、设备ID等信息,结合业务规则、机器学习、图算法等算法,进行 ID-Mapping,将各种 UID 都映射到统一ID上。通过这个统一ID,便可关联起各个数据孤岛的数据,实现数据通融,以确保业务分析、用户画像等数据应用的准确和全面。
(3)OneService
OneService,数据即服务,强调数据中台中的数据应该是通过 API 接口的方式被访问。即数据被整合和计算好之后,需要提供给产品和应用进行数据消费,为了更好的性能和体验,需要构建数据服务层,通过统一的接口服务化方式对外提供数据服务。
从不同的系统取数据,应用开发需要定制不同的访问接口。而且如果数据发生异常,还不能查出 影响到下游应用的那些应用或者报表。所以当你想下线一张表的时候,就无法实施,造成了上线容易, 下线难的囧状。而 API 接口一方面对应用开发屏蔽了底层数据存储,使用统一标准的 API 接口查询数据,提高了数据接 入的速度。另一方面,对于数据开发,提高了数据应用的管理效率,建立了表到应用的链路关系。
数据中台方法论
看完上面的阿里数据中台,发现中台的建设涉及到很多的东西:基础平台计算和存储,开发工具,业务驱动,不同部门,数据规范,数据融合,数据建模,数据资产等,根据这些要建设的内容,《数据中台:让数据用起来》这本书中提出了数据中台的建设方法论。
1种战略行动:把用数据中台驱动业务发展定位为企业级战略,全局谋划。
2项保障条件:通过宣导统一组织间的数据认知,通过流程加速组织变革。
3条目标准则:将数据的可见、可用、可运营3个核心准则始终贯穿于中台建设的全过程,保障建设在正确轨道上。
4套建设内容:通过技术体系、数据体系、服务体系、运营体系建设保证中台建设的全面性和可持续性。
5个关键步骤:通过理现状、立架构、建资产、用数据、做运营5个关键行动控制中台建设关键节点的质量。
1种战略行动
建设数据中台是为了支撑企业数字化、智能化升级,通过全局的维度支撑业务,让企业在市场上更具竞争优势,因此需要从公司战略层面来规划。在中台建设过程中,会涉及所有相关业态、各块资源的协调和推进,这都需要站在更高的层面来考虑。当然,具体在实施过程中,为了能快速迭代推进,也会采取从点到面的突破方法,从某个业务或者某个部门开始,初步构建看到成效再逐步推广,但不影响其作为核心战略的定位。
1种战略行动建设数据中台是为了支撑企业数字化、智能化升级,通过全局的维度支撑业务,让企业在市场上更具竞争优势,因此需要从公司战略层面来规划。在中台建设过程中,会涉及所有相关业态、各块资源的协调和推进,这都需要站在更高的层面来考虑。当然,具体在实施过程中,为了能快速迭代推进,也会采取从点到面的突破方法,从某个业务或者某个部门开始,初步构建看到成效再逐步推广,但不影响其作为核心战略的定位。
2种保障条件
数据中台是企业级战略,支撑企业数字化转型,涉及企业的方方面面,数据中台战略的执行必然伴随着企业组织保障以及整个企业数据意识的提升。
首先,中台战略的实施需要有组织保障。与组织对应的是资源与责任,数据中台由谁来建、谁来维护、谁来经营、业务需求怎么承接、效果怎么衡量等问题,已经超出IT的范畴,需要企业更高层面对应的组织来保障。图所示为中台组织架构。企业实施数据中台战略,必须首先建立起数据中台团队,让他们负责中台的建设、维护、运营以及业务的承接和中台服务的推广等。另外,有了中台,企业的运转模式发生了变化,业务、后台、管理等团队也需要有对应的组织人员与中台团队对接。
其次,中台战略的实施需要提升全企业的数据意识(数据采集意识,数据标准化意识,数据使用意识,数据安全意识)。数据文化是数据中台战略不可或缺的部分,数据中台的推进依赖于数据文化的建立,反过来,企业数据文化的沉淀又是数据中台建设的产出。大家谈论大数据比较多,但经常对什么是大数据感到困惑,在笔者们看来,大数据和当年提的“互联网+”一样,是一种考虑问题的思维方式,用互联网思维、数据思维来发现问题,解决问题。因此,用一句话来概括数据文化:用数据说话
3项目标准则
数据中台的3项目标准则——可见、可用、可运营,不仅可作为企业在数据中台建设中的具体建设指引,也可用来客观评估目前建设内容的完整度。
数据可见:(指标管理,元数据管理,数据资产目录管理,数据源,数据集成,数据ETL,数据消费,数据建模,算法建模通通进行可视化)
数据可用:(数据内容,数据服务,数据任务,数据指标,数据标签,数据资产通通可用)
数据可运营:(质量量化管理,价值量化管理,数据运营角色)
4套建设内容
建设内容是数据中台建设的核心,是可呈现的产出物,也是数据中台价值所在,前面的战略措施、保障条件、目标准则都是为了建设内容能够顺利产出并且可以持续发挥价值。数据中台的建设内容包含技术体系、数据体系、服务体系、运营体系四大体系,通过这四套体系的建设实现数据中台让数据持续用起来的目标。技术体系是基础支撑,就像是骨架一样撑起整个数据中台。数据体系就像是数据中台的血肉,数据中台对外呈现的主要内容就是数据体系。服务体系是数据中台的价值所在,就像数据中台的灵魂一样,激活静止的骨架、血肉,让中台动起来,发挥价值。运营体系是数据中台的守护者,通过运营体系保证整个中台的健康、持续运转。
(1)技术体系
技术体系分两个层面:大数据存储计算技术和数据中台工具技术组件,技术体系主要关注点是工具技术组件。大数据存储计算技术,比如Hadoop、Spark、Flink、Greenplum、Elasticsearch、Redis、Phoenix等,相对标准,企业只需要进行合理选型即可,并不需要自己建设,而且技术难度很大,企业也不太可能自己建设。数据中台工具技术组件包括数据汇聚、数据开发、数据资产管理、数据服务管控等。数据中台是企业制定和实施数据汇聚、建模和加工规范的场所,也是企业数据体系存储管理的工具平台。通过工具化、产品化、可视化降低技术门槛,让数据能够被更方便地加工使用。对于平台有不同的用户对应到不同的技术:
- 面向数据运维,包括集群运维。
- 面向数据开发,包括ETL。
- 面向数据管理,比如数据治理的具体的管理人员,元数据的管理人员,还有数据标准的相关管理人员。
- 面向应用开发。IT团队的应用开发也是数据中台的一个用户,我们后面在服务体系里边会给大家重点阐述。
- 面向数据分析。因为我们看到部分的企业里面把一些BI或者一些大屏也当作数据中台的平台工具类。
(2)数据体系
数据体系是数据中台建设、管理、使用的核心要素,全企业的数据通过各种方式汇聚到数据中台,在数据中台按照一定的建模方式进行加工,形成企业的数据资产体系。数据中台始终围绕着数据体系的建设和使用,让数据体系尽可能完整、准确、使用广泛。不同企业的业务不同、数据不同,数据体系的内容不同,但是建设的方法和对工具的要求是相似的,需要在中台工具和建设方法的基础上针对不同的企业建设不同的数据体系。
(3)服务体系
数据中台与大数据平台的最主要区别是数据能更方便地以服务化的方式支撑业务,而这是通过数据中台服务体系实现的。服务体系是通过数据中台的服务组件能力,把数据变为一种服务能力,比如客户微观画像服务、信用评估服务、风险预警服务等,让数据能够方便地参与到业务中并为业务带去价值。笔者经常听到的数字化转型、数据化经营,就是让业务决策通过数据而不是仅凭经验,需要的正是数据服务能力。每家企业的业务不同,对数据服务的诉求也不同,数据中台无法产品化地提供企业所需的所有数据服务能力。数据中台通过提供数据服务生成、发布、监控、管理功能,帮助企业逐个建立属于自己的每一个数据服务,逐步完成企业数据服务体系的构建
(4)运营体系
运营体系是数据中台得以健康、持续运转的基础。运营体系包括平台流程规范执行监督、平台资源占用的监管及优化推动、数据质量的监督及改进推动、数据价值的评估、数据服务的推广、稽查排名等。其目标是让平台可以持续健康运转,产生持续价值。数据中台是个复杂工程,数据的汇聚、开发、管理、服务都是要持续进行的工作,如果没有运营体系的保障,可能会导致后期的参与者无从下手,随着时间的推移,数据的质量、服务的效率也会持续下降,进而导致中台无法使用。数据中台是一个持续的过程,一旦启动,就不能暂停,更不能停止,而保障数据中台持续高效运转的就是这套运营体系。
5个关键步骤
数据中台在具体落地实施时,要结合技术、产品、数据、服务、运营等5个方面,逐步开展相关的工作,在构建闭环时会多考虑基础设施部分的能力。一旦闭环建设完成,就可以在各个环节不断丰富能力,逐步成为数据应用的完整体系。根据笔者的实践经验,数据中台的建设过程主要通过5个关键步骤来完成,如图所示。
(1)理现状
梳理企业的系统建设、已经拥有的数据以及业务特点等现状,了解企业对数据中台的认知,以及相应的数据文化建设情况。点对点地与业务部门、IT部门进行沟通,获取企业的产品和服务信息,形成业务现状调研报告,同时了解目前企业以怎样的组织形态来保证客户的服务能力。详细调研目前企业的IT建设情况和业务数据沉淀情况,比如采用的什么数据库、数据量、数据字段和更新周期等,以便后续更好地设计技术架构。
(2)立架构
根据现状形成整体的规划蓝图,形成技术产品、数据体系、服务方式以及运营重点等相关的方案,梳理并确立各块架构。企业信息架构经常谈到的4A,即业务架构、技术架构、应用架构和数据架构都需要在这个阶段进行确认。这4个架构具体介绍如下:
- 业务架构:保障数据中台能够适用于企业的业务运管模型和流程体系。
- 技术架构:主要是指技术体系中的数据基座,主要根据业务架构近远期规划,对数据的存储和计算进行统一的选型
- 应用架构:特指数据中台应用架构,后面几个关键步骤的内容所依赖的工具主要由数据中台作为平台应用来承接。
- 组织架构:主要是保证中台项目的顺利落地需要企业考虑的整体组织保障,其中的角色有业务人员、IT人员、供应商和相关负责人。
(3)建资产
结合数据架构的整体设计,通过数据资产体系建设方法,帮助企业构建既符合场景需求又满足数据架构要求的数据资产体系并实施落地。这个步骤涉及数据汇聚、数据仓库建设、标签体系建设以及应用数据建设,其中最关键的是标签体系建设。所谓标签体系是面向具体对象构建的全维度数据标签,通过标签体系可以方便地支撑应用,大数据的核心魅力和服务能力主要就体现在标签体系的服务能力上。
(4)用数据
从应用场景出发,将已经构建的数据资产通过服务化方式,应用到具体的业务中,发挥数据价值。将数据资产快速形成服务能力并与业务进行对接,在业务中产生数据价值,实现数据的服务化、业务化。在服务过程中,数据安全是不得不考虑的问题,哪些人能看到什么数字资产,能选择什么类型的服务都是需要严格审核的
(5)做运营
数据应用于业务后,其产生的价值通过运营的能力不断优化迭代,并让更多的人感知到数据的价值点。数据中台建设是一个持续建设和运营的过程,所谓持续建设和运营是指在架构基本稳定的情况下,不断循环第3~5步,多方角色会围绕核心KPI不断挖掘数据和业务场景的结合点,不断根据质量和价值两个点来运营优化。企业通过多个组织之间的配合推进,会逐步形成企业特有的数据文化和认知,这是企业在数字化转型中非常重要但很难跨越的点。
参考:
OneData之OneID
什么是One Data体系?阿里数据中台解读
什么是 OneData?阿里数据中台实施方法论解读
多图详解数据中台建设框架
《云原生数据中台:架构、方法论与实践》
《数据中台:让数据用起来》