当前位置: 首页 > >

第7章_数据仓库的数据建模和元数据

发布时间:

第7章数据仓库的数据建模和元数据 章数据仓库的数据建模和元数据
7.1数据仓库的数据概念模型

前端工具

数据概念模型

数据存储的设计

OLAP的查询引擎

数据仓库概念模型示意图

多维模型产生的OLAP分析方法 多维模型产生的OLAP分析方法 :

旋转(pivoting) 上钻和下钻(roll up or drill down) 切片(slice and dice)

7.2数据仓库的数据组织
数据仓库的数据组织形式: 数据仓库的数据组织形式: 虚拟存储方式 简单、花费少、使用灵活,数据 没冗余是才容易定义 基于关系表的存储方式 通用性差,很难维护 多维数据库存储方式 采用多维数据结构文件进行存储, 并有维索引及相应的元数据管理文件与数据相对应

多维数据库的组织方式

以一个公司为例的多为数据模型示意图 稠密维(dense dimensions) 稀疏维(sparse dimensions)

稠密维示意图如下
在上面的多维模型中时间、项目和统计是稠密维

稠密维及其示意图 三维产品 销售方式 销售地区 稀疏维

OLAP的数据组织
其基本思想是,企业的决策者应灵活地操纵企业的数据, 以多维的形式从多维的角度来观察企业的变化。

当OLAP作为独立使用方式时,其数据组织与数 据仓库的组织方式相同。 当OLAP与数据仓库结合时,OLAP的数据来源 于数据仓库

7.3数据源建模

? 技术:数据源建模一般采用传统的数据建模技术 , 实体—关系模型 ? 工具:一般用CASE工具 ,其特点是可提供从已 有数据库中抽取模型的抽取能力,所抽取的模型 代表已有数据库的精确的物理模型

7.4数据仓库建模 7.4数据仓库建模

星状模型 雪花模型 综合模型

星状模型 是一种由一点向外辐射的建模范例,中间 有一单一对象沿半径向外连接到多个对象,如下图

星状模型举例 事实表中的每一元组包含一些指针 (是外键,主键在其他表中),每个指针指向一张维 表,这就构成了数据库的多维联系。

雪花模型 是对星状模型的扩展,每一个点都沿半径 向外连接到多个点。雪花模型范例如下

雪花模型举例

星状模型

混合模型

雪花模型

在混合模型中,只有最大的维表才进行标 准化,这些表一般包含一列列完全标准化 的(重复的)数据

7.5元数据的概念 其定义为“关于数据的数据” 在数据库中,元数据是对数据库各对 象的描述 在关系数据库中,这种描述就是对表、 列、数据库、观点和其他对象的定义

元数据元素的一个范例

实体名称: 客户 可选名称: 顾客,账户 定义: 客户就是从公司中至少购买一次商品或服务的人或企业 创建日期: 1992年1月15日 上次更新日期: 1995年4月5日 关键字: 客户标识,客户定位 更新周期: 每月抽取 归档同期: 6个月后归档 数据服务员: 高建秋 数据业主: 张英雄 访问模式: 上次访问日期为1995年5月30日

属性元数据的一个范例

属性名称 可选名称: 定义: 创建日期: 上次更新日期: 关键字指示: 数据来源: 转移/转换信息: 概括/推导算法: 默认值: 多个运作资源:

客户名 账户名,顾客名 客户名是个人或企业所用的正式名称 1992年3月30日 1995年4月5日 无 汇票入口系统,客户文件属性是账户名 从20字符至35字符 无 无 无

7.6元数据在数据仓库中的重要性
两个例子说明重要性
1、图书馆中的卡片目录指出了图书馆内书的内容 简介和位置,元数据与此非常相似,它能够指出 数据仓库内各种信息的位置和含义。 2、储存商品的大型货物仓库,要买东西的客户必 须从仓库目录表上才能知道当前有什么商品,目 录单提供所购商品的分类号及其价格,然后进行 选择

元数据在数据仓库开发期间的重要性

在数据仓库开发期间元数据所起的作用是非常重要的,这时元 数据主要用于以下构件: (1)数据源抽取, (2)数据源转换, (3)数据源净化, (4)数据源概括与聚集, (5)数据刷新, (6)数据仓库中的数据库设计, (7)查询与报表设计

元数据的一个重要方面,是在抽取、求精和重构工程过 程中时刻保持从源数据到数据仓库之间的映射关系

确认数据质量 关系之目的 同步化与刷新 集成

数据仓库各块所创建和存储的不同类型的元数据

元数据在对多个来源的数据集成的过程中可能遇到 的6个难点:
(1) 资源领域的确定 (2) 跟踪历史数据结构变化的过程 (3) 为不打算输入或忘记输入值的数据字段选择合适的默 认值 (4) 解决编码方案的不一致性。 (5) 属性到属性的映射 (6) 属性转换

数据求精与重构工程
数据求精的作用 净 化 资 源 中 的 数 据 增 加 资 源 戳 和 时 间 戳 将数 据转 换为 符合 数据 仓库 的数 据格 式 预算 概括 和衍 生数 据的 值 保 证 数 据 质 量

重构工程块要完成如下4个方面工作

(1) 集成与分割 (2) 概括与聚集 (3) 预算与推导 (4) 转换与再映像

7.7元数据的管理功能
数据仓库内容的描述 定义数据抽取和转换 基于商业事件的抽取调度 描述数据同步需求 衡量数据质量指标 数据仓库信息的目录 信息目录的现状 元数据的数据字典和纲目库

数据仓库内容的描述
为了能够描述数据仓库中的数据及数据间各种复杂 关系,元数据要定义以下6个方面的内容 (1) I/O对象 (2) 关系 (3) 关系成员 (4) 关系关键字 (5) 域分配 (6) 数据元素

以上元数据间关系图

定义数据抽取和转换
从目标数据库抽取数据到目标数据转移主要涉及以 下两个问题 (1) 抽取工作间的复杂关系:① 获取② 过滤③ 验证⑦ 存档⑤ 综合⑥ 装载④ 融合

定义数据抽取和转换
(2) 元数据与目标数据之间的映射是一种复杂的多对多关 系。 ① 抽取工作 描述每个抽取工作,并为其标识源系统 ② 抽取工作步骤 提供过滤机制,进行记录筛选 ③ 抽取表映射骤 建立输入文件/表和输出文件/表之间的关联 ④ 抽取域映射 ⑤ 记录筛选规则 定义抽取工作中的步骤及其控制语言

基于商业事件的抽取调度
抽取调度(extract schedule)是指数据抽取的时间 安排,以及什么时间进行从元数据到数据仓库的抽 取工作。抽取调度的合理与否对整个数据仓库的有 效正常运行影响很大

基于商业事件的抽取调度
基于商业事件抽取调度的元数据要定义的内 容有以下6点 (1) 事件。 (2) 时间依赖 (3) 事件日 (4) 抽取调度 (5) 抽取日 (6) 时间戳日志

描述数据同步需求
对数据质量负责的元数据要定义的内容有以下4点 (1) 目标质量特征。 (2) 实际质量特征 (3) 用户描述的VV&C (4) 用户功能

数据仓库信息的目录
数据仓库管理者和设计者在 元数据存在形式上的管理具 有独立的需要,

信息目录建立

假设基础

商业最终用户希望在商业层 次上查看并理解元数据 商业用户需要某种形式的导 航工具,以便能够查找数据 仓库

数据仓库信息的目录
各种信息目录及导航工具

元数据的数据字典和纲目库

在大多数单位中,一般由以下系统支持元 数据管理: 数据字典,数据纲目库和关 系数据库系统的目录表和单独管理的词汇 表

元数据的数据字典和纲目库
上述系统至少包含以下7个部分 (1) 将元数据组织为易于理解的分类方案的灵活方法 (2) 效果分析和查找能力的有效范围 (3) 将设计和开发元数据与运作元数据分隔开的、各自独立 的功能 (4) 反映修改历史的元数据版本信息 (5) 用于维护元数据定义和描述的工具 (6) 将数据命名和数据标准约定用于描述相似元数据的工具

7.8元数据的标准化和商品化

元数据的标准化 元数据的商品化

元数据的标准化

随着数据仓库的不断发展,元数据标准化一直进 展缓慢,其难点主要有以下两点: (1) 元数据管理。元数据管理的主要目标是使 企业内部元数据的定义标准化 (2) 元数据描述与分类。描述与分类方案的主 要目标是根据技术将元数据分成不同的类

元数据的商品化

客户 销售者

直接购买

销售者 客户

信息目录买




友情链接: