数据仓库和数据湖的区别


在实际项目开发中,需要和数据仓库以及数据湖那边的开发同事进行对接,头一次听到这两个名词,自己也是一头雾水。

下面我就以我自己的理解,简单的向大家介绍一下。

数据库:就是存储当前的业务数据,集中存储的是公司经常使用到的数据(存储的是公司近50年的数据);

数据仓库:也是存储的公司的各种业务数据,主要集中存储的是结构化的数据。当然也存储少量非结构化的数据(存储的是近100年的业务数据);

数据湖:也是存储公司的各种各样的数据,主要集中存储结构化和非结构化的数据。(存储的是公司好几百年之前的数据)。

数据仓库和数据湖,我生成的文件,是可以直接分别给他们进行传递的。两者之间,没有必然的联系。