什么是数据仓库

数据仓库发展历史

萌芽阶段

  • 20世纪70年代MIT提出将业务处理系统和分析系统分开,针对各自不同特点设计不同的架构

探索阶段

  • 20世纪80年代中后期DEC结合MIT理论,建立TA2规范定义分析系统的四个组成部分:数据获取、数据访问、目录和用户服务

雏形阶段

  • 1988年IBM第一次提出信息仓库的概念并称之为VITAL规范。VITAL定义了85种信息仓库组件,包括PC、图形化界面、面向对象的组件以及局域网等

确立阶段

  • 1991年Bill Inmon出版《Build the Data Warehouse》标志着数据仓库概念的确立

数据仓库的两本经典著作(中译版)

第一本书的理念是:
数据仓库一个面向主题的
(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(DecisionMaking Support)

第二本书的理念是:
数据仓库是一个将源系统数据抽取、清洗、规格化、提交到维度数据存储的系统,为决策的制定提供查询和分析功能的支撑与实现。

这两本书的理念有一些区别,国内的数据仓库是糅合了这两本数的理念,数仓的定位是第一本的理念,而实际操作是按照第二本书的理念来的。

数据 + 仓库 = 数据仓库?

什么时候需要建立数据仓库?

  • 1、当你需要集中化管理你的数据时
  • 2、当你希望以更高效的方式使用数据时
  • 3、当你的数据量和复杂度到了需要一个团队来维护时
  • 4、当你希望想要数据驱动业务时
  • 5、当你想要借助大数据的力量来提升产品竞争力时
  • 6、当你想时刻知道业务发展情况时

数据仓库和数据中台关系

数据仓库是中间的方框部分,是数据中台的基础设施,而数据采集又是数据仓库的基础设施。

参考:https://www.bilibili.com/video/BV1Z4411m7NV?p=3