> 文章列表 > 数仓必备概念

数仓必备概念

数仓必备概念

目录

数据仓库

三范式建模

维度建模


数据仓库

           是一个面向主题的(Subject)、集成的(Integrated)、非易失(Non-Volatile)、时变性(Time Variant)的数据集合,用于支持管理决策(Decision Support System)

概念 解释 备注
主题

在较高层次上将企业信息系统中数据进行综合、归类分析利用的一个抽象概念每一个主题基本对应一个宏观分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。

面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系

主题域 对某个主题进行分析后确定的主题的边界。比如,对于餐饮公司管理层需要分析的主题一般包括供应商主题、商品主题、客户主题等。其中商品主题的内容包括记录超市商品的采购情况、商品的销售情况和商品的存储情况;客户主题包括的内容可能有客户购买商品的情况;
基础主题 数仓按实体进行综合、归类,每一个主题基本对应一个或多个核心实体,并对其进行完整并且一致的描述,刻画其所涉及的企业各项数据。主题间数据是高度解耦的
分析主题 数仓中根据实际的分析主体对数据综合、归类分析利用的集合。一个分析主题一般是对某一分析主体的高度汇总的数据集合,可以多个基础主题的数据聚集而成,如 “客户分析主题
集成 数据进入数仓进行转换、重新格式化、重新排列以及汇总等操作,结果是只要是存在与数据仓库中的数据就具有企业的单一物理映像
非易失 数仓的数据通常以批量方式载入与访问,但一般不进行数据更新,以静态快照的格式进行装载。当产生后继变化时,一个新的快照记录就会写入数仓,这样数仓就保持了数据的历史状况
时变性 数仓中的每个数据单元在某一时间是准确的,数仓的数据是反映历史变化的
OLTP OLTP 系统主要用来记录某类业务事件的发生,数据会以增删改的方式在数据库中进行数据的更新处理操作,要求实时性高、稳定性强、确保数据及时更新成功,像公司常见的业务系统如ERPCRMOA等系统都属于OLTP
OLAP 联机分析处理。OLAP 系统主要为公司做决策提供支持,当数据积累到一定的程度,需要对过去发生的事情做总结分析,并从中获取信息

三范式建模

业界一般叫实体关系模型,是指提炼业务,归纳并设计对应的实体关系模型的过程。ER建模最终输出的结果为实体关系图(ERD-Entity Relationship Diagram),ERD有三个基本元素,分别是:实体、属性、联系。

概念 解释 备注
实体 一般认为,客观上可以相互区分的事物,实体可以是具体的人或物,也可以是抽象的概念与特质。关键在于一个实体能否与另一个实体相互区分。
属性 属性是依托于实体存在的,如商家是一个实体,属性包括:地址,经纬度,经营品类等
联系 联系也称关系,实体内部的关系或者是实体与实体之间的关系。实体内部的关系(实体各属性之间的联系);实体之间的关系(不同实体间的联系)
一般性约束 实体-联系数据模型中的联系型,存在3种一般性约束:一对一约束(联系)、一对多约束(联系)和多对多约束(联系),它们用来描述实体集之间的数量约束。在约束中可以分为强制参与 或 选择参与。

维度建模

由于这块的概念网上比较多,大家自行百度即可,有几个关键的几个地方需要牢牢掌握,如常问的星型模型,雪花模型,事实表分哪几种,等

部分概念:

事实:表示某个业务度量。

不可加事实:如价格。

半可加事实:部分维度下不可加,如余额不可以按照时间累加。

---关注我,持续更新中。