关闭

关闭

关闭

封号提示

内容

首页 第2章.ppt

第2章.ppt

第2章.ppt

上传者: kevin 2011-08-09 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《第2章ppt》,可适用于IT/计算机领域,主题内容包含第章数据仓库开发模型第章数据仓库开发模型在创建数据仓库之时需要使用各种数据模型对数据仓库进行描述。数据仓库的开发人员依据这些数据模型才能开发出一个满符等。

第章数据仓库开发模型第章数据仓库开发模型在创建数据仓库之时需要使用各种数据模型对数据仓库进行描述。数据仓库的开发人员依据这些数据模型才能开发出一个满足用户需求的数据仓库。使开发人员能够将注意力集中在数据仓库开发的主要部分。模型有更好的适应性更易于修改。当用户的需求改变时仅对模型做出相应的变化就能反映这个改变。数据仓库开发模型数据仓库开发模型数据仓库开发模型数据仓库概念模型数据仓库逻辑模型数据仓库的物理模型数据仓库的元数据模型数据仓库的粒度和聚集模型练习数据仓库开发模型数据仓库开发模型模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理这就需要依靠数据模型作为这种转换的桥梁。这种转换一般需要经历从现实到概念模型从概念模型到逻辑模型从逻辑模型到物理模型的转换过程。数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用指导着数据仓库的具体实现。数据仓库概念模型数据仓库概念模型概念数据模型数据仓库的数据模型中不包含操作型的数据数据仓库的数据模型只包含用户所感兴趣的分析数据、描述数据和细节数据。数据仓库的数据模型扩充了关键字结构增加了时间属性作为关键字的一部分数据仓库的数据模型中还增加了一些由基本数据所导出的衍生数据这些导出的衍生数据主要用于对企业的管理决策进行分析指标实体(事实实体)维度实体详细类别实体(引用实体)规范的数据模型规范的数据模型第一范式、第二范式、第三范式数据仓库的反规范化处理星型模型星型模型星型模型是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统为用户提供分析服务对象。核心是事实表围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来各个维度表都连接到中央事实表。雪花模型雪花模型雪花模型是对星型模型的扩展每一个维度都可以向外连接到多个详细类别表。雪花模型对星型模型的维度表进一步标准化对星型模型中的维度表进行了规范化处理。数据仓库逻辑模型数据仓库逻辑模型事实表模型设计事实表模型设计事实表()客户事实表客户基本情况表(账号Integer姓名Character出生地Character初次交易时间Date……)。.事实表中的事实特性事实表中一般包含两部分一是由主键和外键所组成的键部分另一是用户希望在数据仓库中所了解的数值指标。派生事实主要有两种一是可以用同一事实表中其他事实计算得到还有一类派生事实是非加法性事实。维模型设计维模型设计客户主题维度表模型时间维度表(年Date月Date日Date)。地点维度表(省Character市Character县Character街道Character)。数据仓库的物理模型数据仓库的物理模型数据仓库物理模型的存储结构确定数据的存储结构并行存储结构RAID(RedundantArrayofInexpensiveDisk廉价冗余磁盘阵列)。RAIDRAID级。RAID级。RAID级。RAID级。RAID级。数据仓库物理模型的索引构建数据仓库物理模型的索引构建位图索引数据仓库物理模型的索引构建数据仓库物理模型的索引构建数据仓库物理模型的索引构建数据仓库物理模型的索引构建.广义索引的构建.连接索引连接索引Aagelevelidtimeidyearidmonthidgeoidprovidcityidcountyidproduidagelevelidtimeidgeoidproduidamoumoneagelevelidtimeidyearidmonthidgeoidprovidcityidcountyidproduidamoumoneagelevelidtimeidgeoidproduid全连接结果timeidgeoid连接索引B数据仓库物理模型的优化问题数据仓库物理模型的优化问题合并表:几个表的记录分散存放在几个物理块中时多个表的存取和连接操作的代价会很大。建立数据序列:按照某一固定的顺序访问并处理一组数据记录。将数据按照处理顺序存放到连续的物理块中形成数据序列。引入冗余:一些表的某些属性可能在许多地方都要用到将这些属性复制到多个主题中可以减少处理时存取表的个数。表的物理分割:每个主题中的各个属性存取频率是不同的。将一张表按各属性被存取的频率分成两个或多个表将具有相似访问频率的数据组织在一起。生成派出数据:在原始数据的基础上进行总结或计算生成派出数据可以在应用中直接使用这些派出数据减少IO次数免去计算或汇总步骤在更高级别上建立了公用数据源避免了不同用户重复计算可能产生的偏差。数据仓库的元数据模型数据仓库的元数据模型元数据的类型与组成元数据在数据仓库中的作用元数据在数据仓库中的作用元数据描述了数据的结构、内容、键、索引等项内容。在数据仓库中元数据定义了数据仓库中的许多对象表、列、查询、商业规则或是数据仓库内部的数据转移。元数据是数据仓库的重要构件是数据仓库的指示图(roadmap)。数据仓库的元数据重要性为数据仓库服务与DSS分析员及高层决策人员服务提供便利解决操作型环境和数据仓库的复杂关系数据仓库中数据的管理元数据在数据仓库开发期间的使用确认数据质量、同步化和刷新、映射元数据在数据源抽取中的作用资源领域的确定、跟踪历史数据结构变化的过程、属性到属性的映射、属性转换元数据在数据求精与重构工程上的作用数据的分割、概括与聚集、预算与推导、转换与再映像元数据的收集元数据的收集数据源的元数据数据模型的元数据数据源与数据仓库映射的元数据数据仓库应用的元数据数据仓库的粒度和聚集模型数据仓库的粒度和聚集模型粒度可定义成数据仓库中数据细节的最低层次如事务层次。这种数据层次是高度细节化的这样就能使用户按所需的任何层次进行汇总。根据粒度的划分标准可以将数据划分为:详细数据、轻度总结、高度总结三级或更多级粒度。粒度的具体划分将直接影响到数据仓库中的数据量以及查询质量。数据粒度的划分数据粒度的划分第一步是估算数据仓库中将来要使用的数据行数和所需的直接存取存储设备数。每一个表的存储空间应该是每一个表的数据存储空间和索引存储空间之和。确定粒度的级别确定粒度的级别考虑因素:要接受的分析类型、可接受的数据最低粒度和能存储的数据量。粒度的层次定义越高就越不能在该仓库中进行更细致的分析。在同一模式中使用多重粒度。如果存储资源有一定的限制就只能采用较高粒度的数据粒度划分策略。粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷。数据粒度划分策略一定要保证数据的粒度确实能够满足用户的决策分析需要这是数据粒度划分策略中最重要的一个准则。数据仓库的聚集模型确定数据仓库的聚集模型确定聚集数据主要是为了使用户获得更好的查询性能聚集模型设计时应该注意将聚集数据存储在其事实表中并与其底层数据相区别。设计聚集模型时首先需要考虑用户的使用要求。其次要考虑数据仓库的粒度模型和数据的统计分布情况。数据仓库的聚集模型的设计与数据仓库的粒度模型紧密相关建立聚集模型时还需要考虑作为聚集属性的数量因素聚集模型的处理聚集模型的处理聚集事实表已经独立存在并且可以与基本事实表一同保存通过将当前加载数据添加到系统中的累积“桶”中将数据的聚集与数据仓库的加载过程组合为同一处理过程在将数据仓库数据加载以后再进行聚集处理每次在加载数据仓库数据时都需要对各种聚集进行计算和增加及时保持聚集与基本数据的同步性聚集模型的管理聚集模型的管理要根据使用情况删除不经常使用的聚集需要减少层次过于接近的聚集生成注意将聚集独立存储在自己的事实表中练习练习在一般的信息管理中采用哪些概念模型来描述信息处理的对象这些概念数据模型是否适合数据仓库的开发环境?航空公司希望能够分析在其服务旅客中的常客旅行趋势这样可以为公司正确定位航空市场中的常客市场。并且希望能够跟踪不同航线上旅客的季节变化情况和增长并跟踪在不同航班上所消费的食品和饮料情况这样可以帮助航空公司安排不同航线上的航班和食品供应。现在所面对的任务是为其设计一个数据仓库的概念模型、逻辑模型和物理数据模型。为建立第题中的数据仓库需要哪些元数据?这些元数据在不同的阶段应该发挥什么作用?第题中航空公司希望能够将旅客数据至少保持三年公司每天有条航线共架次飞行每架次的旅客平均为人。每架次的食品种类有种前后共采购过种。食品受到季节影响较大每年的食品价格呈现一种周期性变化。食品的详细数据只需一年就可以。请为航空数据仓库设计一个合适的数据粒度模型。

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/30
0下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部