金融行业数据仓库的建设思路


金融机构建设数据仓库并非一朝一夕之事,需要投入巨大的人力物力,是整个公司战略级的项目,本文只是结合自己的行业知识,整理下大概的建设思路。

什么是数据仓库?来自百度百科的解释:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

从上面概念中,大概可以知道数据仓库是用于上层分析性报告和决策支持的基石,也就是现在流行的数据中台中重要的组成部分。所以搭建好数据仓库,是整个数据中台建设的重中之重。

数据仓库一般分为4个层,依次是数据缓冲层-->数据整合层-->数据基础层-->数据服务层,加上底层应用系统的数据源层,和上层分析应用的数据集市层,整个分布图大概如下:

下面主要说明下,每个层的作用,以及层与层之前的转换边界问题。

数据源:主要是企业早期建立的各个独立的业务系统或者数据中心,简单的说就是各个数据库DB实例。

数据缓冲层:也称贴源层或ODS层,存储的表数据基本和数据源一致,只是扩展了数据导入时间和导入日期,因为它的数据来源需要通过ETL从数据源层抽取转换过来。

数据整合层:也称模型层,这层是整个数据仓库最重要的,它的作用是对公司的全域数据进行系统建模,相关人员必须对整个行业的业务十分熟悉,比如基金行业,需要对证券主信息标准化,证券市场信息标准化,数据字典标准化,数值(单位)标准化,记录(数据来源)标准化等等。数据缓冲层到数据整合层,会涉及到数据的简单清洗和转换,但不会涉及到计算过程。关于行业标准,这里引用下《中国资本市场标准网》http://www.csisc.cn/zbscbzw/hysjmx/index_hysjmx.shtm

  

数据基础层:也称基础指标层,从数据整合层到数据基础层,会涉及指标因子的计算,比如持仓市值=持仓数量*收盘价,不过基本都是简单的计算。

数据应用层:也称指标准备层,从数据基础层到数据应用层,会涉及指标的深度计算,比如由数据基础层计算的收益率,延伸计算为7日收益率,成立以来收益率等等。数据基础层形成的指标,也会直接复用到数据应用层。

数据集市:这层主要是业务场景的应用,根据具体的业务场景,由数据应用层的指标进行拼凑,形成具体的解决方案,供上层应用分析,决策。

本文只是对数据仓库做个简单介绍,后续有时间再针对每个点涉及的技术(比如大数据平台的应用)作深入剖析。