什么是数据仓库
数据仓库发展历史
萌芽阶段
- 20世纪70年代MIT提出将业务处理系统和分析系统分开,针对各自不同特点设计不同的架构
探索阶段
- 20世纪80年代中后期DEC结合MIT理论,建立TA2规范定义分析系统的四个组成部分:数据获取、数据访问、目录和用户服务
雏形阶段
- 1988年IBM第一次提出信息仓库的概念并称之为VITAL规范。VITAL定义了85种信息仓库组件,包括PC、图形化界面、面向对象的组件以及局域网等
确立阶段
- 1991年Bill Inmon出版《Build the Data Warehouse》标志着数据仓库概念的确立
数据仓库的两本经典著作(中译版)
第一本书的理念是:
数据仓库一个面向主题的
(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(DecisionMaking Support)
第二本书的理念是:
数据仓库是一个将源系统数据抽取、清洗、规格化、提交到维度数据存储的系统,为决策的制定提供查询和分析功能的支撑与实现。
这两本书的理念有一些区别,国内的数据仓库是糅合了这两本数的理念,数仓的定位是第一本的理念,而实际操作是按照第二本书的理念来的。
数据 + 仓库 = 数据仓库?
什么时候需要建立数据仓库?
- 1、当你需要集中化管理你的数据时
- 2、当你希望以更高效的方式使用数据时
- 3、当你的数据量和复杂度到了需要一个团队来维护时
- 4、当你希望想要数据驱动业务时
- 5、当你想要借助大数据的力量来提升产品竞争力时
- 6、当你想时刻知道业务发展情况时
数据仓库和数据中台关系
数据仓库是中间的方框部分,是数据中台的基础设施,而数据采集又是数据仓库的基础设施。