关闭

关闭

关闭

封号提示

内容

首页 第3章.ppt

第3章.ppt

第3章.ppt

上传者: kevin 2011-08-09 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《第3章ppt》,可适用于IT/计算机领域,主题内容包含第章数据仓库开发应用过程第章数据仓库开发应用过程数据仓库的开发应用像生物一样具有其特有的、完整的生命周期数据仓库的开发应用周期可以分成:数据仓库规划符等。

第章数据仓库开发应用过程第章数据仓库开发应用过程数据仓库的开发应用像生物一样具有其特有的、完整的生命周期数据仓库的开发应用周期可以分成:数据仓库规划分析阶段、数据仓库设计实施阶段以及数据仓库的使用维护三个阶段。这三个阶段是一个不断循环、完善、提高的过程。在一般情况下数据仓库系统不可能在一个循环过程中完成而是经过多次循环开发每次循环都会为系统增加新的功能使数据仓库的应用得到新的提高。本章学习目标:()了解数据仓库开发应用的特点。()掌握数据仓库的规划、数据仓库的概念模型设计、数据仓库的逻辑模型设计、数据仓库的物理模型设计和数据仓库的实施。()了解数据仓库的应用、支持和增强。数据仓库开发应用过程数据仓库开发应用过程数据仓库开发应用过程数据仓库的规划数据仓库的概念模型设计数据仓库的逻辑模型设计数据仓库的物理模型设计数据仓库的实施数据仓库的应用、支持和增强练习数据仓库开发应用的特点数据仓库开发应用的特点数据仓库开发应用的阶段性数据仓库的开发应用过程划分为:创始阶段成长阶段控制阶段成熟阶段数据仓库的螺旋式开发方法规划分析阶段数据仓库开发过程设计实施使用维护阶段阶段数据仓库的规划数据仓库的规划选择数据仓库实现策略开发策略主要有:自顶向下:实际应用比较困难。自底向上:用于一个数据集市或一个部门的数据仓库开发容易获得成功。两种策略的联合使用:能够快速地完成数据仓库的开发与应用而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操作。确定数据仓库的开发目标和实现范围确定数据仓库的开发目标和实现范围首要目标是确定所需要信息的范围确定数据仓库在为用户提供决策帮助时在主题和指标领域需要哪些数据源。另一个重要目标是确定利用哪些方法和工具访问和导航数据?其它目标是确定数据仓库内部数据的规模从用户的角度分析从技术的角度分析数据仓库的结构数据仓库的结构数据仓库的应用结构基于业务处理系统的数据仓库单纯数据仓库单纯数据集市数据仓库和数据集市数据仓库的技术平台结构单层结构客户服务器两层结构三层客户服务器多层式结构数据仓库使用方案和项目规划预算数据仓库使用方案和项目规划预算实际使用方案还可以将最终用户的决策支持要求与数据仓库的技术要求联系起来开发方案的预算进行估计编制数据仓库开发说明书:说明系统与企业战略目标的关系系统与企业急需处理的、范围相对有限的开发机会。业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。计划中需要阐明期望取得的有形和无形利益业务价值计划最好由目标业务主管来完成规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。数据仓库的概念模型设计数据仓库的概念模型设计概念模型的设计可以分为以下几个阶段:用户需求调查、模型定义、模型分析和模型设计。概念模型的需求调查数据仓库开发的任务书首先要明确用户的信息需求了解管理人员在信息需求方面的内容了解关于信息的来源组织所使用的系统环境概念模型的定义概念模型的定义数据仓库用户的决策分析支持决策的数据需求分析数据需求分析工具概念模型的定义概念模型的定义CRUD矩阵C:Create产生、R:Read引用、U:Update更新D:Delete删除。概念模型的定义概念模型的定义企业业务处理系统数据存储表概念模型的分析概念模型的分析概念模型的设计概念模型的设计概念模型文档与评审概念模型文档与评审概念模型设计文档数据仓库开发需求分析报告概念模型分析报告概念模型概念模型的评审报告。概念模型的评审概念模型的评审人员概念模型的评审内容数据仓库开发任务书用户决策分析信息需求调查表数据仓库主题ER图、星型模型和雪花模型。数据仓库的逻辑模型设计数据仓库的逻辑模型设计数据仓库的逻辑模型设计任务:分析主题域确定要装载到数据仓库的主题确定粒度层次划分确定数据分割策略关系模式的定义和记录系统定义、确定数据抽取模型等。逻辑模型最终设计成果:每个主题的逻辑定义并将相关内容记录在数据仓库的元数据中粒度划分数据分割策略表划分和数据来源等。分析主题域分析主题域粒度层次和聚集的确定粒度层次和聚集的确定确定数据分割策略数据分割标准数据量数据分析处理的对象粒度分割的策略关系模型定义数据仓库的实体定义数据仓库的实体定义实体的逻辑分析实体所有列的具体特征数据仓库的实体定义数据仓库的实体定义数据仓库的数据抽取模型数据仓库的数据抽取模型F数据抽取规则P清理数据记录数据仓库的数据抽取模型数据仓库的数据抽取模型数据仓库的数据抽取、转换与加载计划()影响数据抽取、转换与加载的因素数据格式坏数据系统的兼容性数据源的变化数据抽取的时间()数据抽取、转换与加载对策全库比较利用程序日志利用数据库日志利用时间戳或利用位图索引数据仓库的数据抽取模型数据仓库的数据抽取模型数据仓库的数据清理转换方法()类型转换()串操作()数学函数()参照完整性()关键字翻译()聚集运算数据仓库的数据抽取、清理与转换模型数据仓库的数据抽取模型数据仓库的数据抽取模型数据源抽取对象表数据仓库的数据抽取模型数据仓库的数据抽取模型数据源抽取规则表数据仓库的数据抽取模型数据仓库的数据抽取模型数据抽取的目标列与源列对应关系表数据仓库的数据抽取模型数据仓库的数据抽取模型数据抽取过程的排序、概括和导出情况表数据仓库的数据抽取模型数据仓库的数据抽取模型数据概括表与事实表对应关系数据仓库的元数据模型建立与应用数据仓库的元数据模型建立与应用逻辑模型的评审逻辑模型的评审逻辑模型的文档内容:主题域分析报告数据粒度划分模型数据分割策略指标实体、维实体与详细类别实体的关系模式和数据抽取模型。对逻辑模型的评审主要集中在主题域是否可以正确地反映用户的决策分析需求。从用户对概括数据使用的要求评审数据粒度的划分和数据分割策略是否可以满足用户决策分析的需要。为提高数据仓库的运行效率是否需要对关系模式进行反规范化处理。数据的抽取模型是否正确地建立了数据源与数据仓库的对应关系。数据的约束条件和业务规则是否在这些模型中得到了正确的反映。数据仓库的物理模型设计数据仓库的物理模型设计表的数据结构类型、索引策略、数据存放位置以及数据存储分配等等。物理模型设计因素:IO存取时间、空间利用率和维护的代价。工作:全面了解所选用的数据库管理系统特别是存储结构和存取方法。了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。了解外部存储设备的特征。数据仓库设计的规范数据仓库设计的规范保证数据仓库的设计、实施和管理保持稳定不产生混乱需要对物理数据模型中的实体、表、列等进行规范化处理。使整个数据仓库的物理数据模型能够保持一致。规范化内容主要有:完整清晰的数据定义、合适的数据格式等。数据仓库中的每个组件或部件都确定相应的设计标准。确定数据结构的类型确定数据结构的类型数据非规范化处理的优点有:能减少对表联结的需求提高数据仓库运行性能。能减少编写专门决策支持应用程序的工作量因为运用一些专门的查询工具可以更容易访问数据。可以让用户以直观的易于理解的工具来操作数据例如可以利用电子报表来查看数据。数据仓库索引的创建数据仓库索引的创建索引创建策略建立索引时按照索引使用的频率由高到低逐步添加。按主关键字和大多数外部关键字建立索引事实表索引的创建事实表中一定要设置主键维表索引的创建数据加载索引的创建确定数据存放位置确定数据存放位置数据的布局原则:不要把经常需要连接的几张表放在同一存储设备上。如果几台服务器之间的连接会造成严重的网络业务量的问题则要考虑服务器复制表格。考虑把整个企业共享的细节数据放在主机或其他集中式服务器上。别把表格和它们的索引放在同一设备上。一般可以将索引存放在高速存储设备上而表格则存放在一般存储设备上以加快数据的查询速度。确定存储分配确定存储分配数据仓库物理模型的评审理设计评审的目标要确定:物理模型在满足数据仓库使用的灵活性、性能、数据完整性、系统可用性、数据的当前性和用户的满意度等具体的评审项目有:表空间、分区、表格、数据压缩、控制表和引用表、索引、数据量、数据分布、线路通信量、数据仓库的更新、概况数据、预期变动和数据的文档化。数据仓库的实施数据仓库的实施实施过程中需要完成的工作:建立数据仓库与业务处理系统的接口数据仓库的体系结构建立实现数据仓库物理仓库与元数据库进行数据仓库的数据初次加载完成数据仓库的中间件设计进行数据仓库的测试。数据仓库与业务处理系统接口的设计数据仓库与业务处理系统接口的设计接口应该具有这样一些功能:从面向应用和操作环境生成完整的数据数据基于时间的转换数据的聚集对现有数据系统的有效扫描以便今后数据仓库的数据追加。数据仓库的创建数据仓库的创建关系型数据库、多维数据库和对象数据库创建数据仓库的工具:MSSQLServerOracleiSybaseInformixRedBrickDecisionServer数据仓库的数据加载、复制与发行数据仓库的数据加载、复制与发行数据加载之前首先需要对准备加载的数据进行清理复制技术复制结构应完成以下的复杂任务:不会受到系统失败等问题的影响保证提供可靠的数据复制。只传送符合数据完整性规则的一致数据。可以优化传送过程减少在捕获或修改数据和复制品作为结果传送之间的等待时间。技术和数据结构应保证数据发行系统完成以下的功能:保证数据以适时和有效的方式发行。保证只发送被排序的数据。建立正确的和所需要的服务水平标准。数据仓库的中间件设计数据仓库的中间件设计代码发生器数据复制工具数据泵广义数据获取工具和设备拷贝中间件还应该能够进行数据清洁工作可对记录或列重组、去除业务数据、供给已丢失的字段值和检查数据的完整性和一致性对列值的解码和转换增加数据的时间戳数据的概括或者衍生值的计算数据仓库的测试数据仓库的测试单元测试单元测试的目的是寻找出存在于单个程序、存储过程和其它位于一些独立环境中模块的错误。系统集成测试测试目的是验证每个单元与数据仓库系统和子系统之间的接口是否完好是否能够正常传递数据与执行系统的整体功能。数据仓库的应用、支持和增强数据仓库的应用、支持和增强数据仓库的用户培训及支持用户的培训向用户解释清楚数据仓库的作用与原理用各种案例向用户说明如何使用数据仓库对数据仓库用户的支持对数据仓库应用成功案例的推广初始阶段的支持技术人员、商业分析人员与用户一起讨论数据仓库的使用方式数据仓库的使用方式信息处理分析处理数据挖掘数据仓库使用中的数据刷新从已有数据资源中获取更多数据从单位内部获取新的数据源获取新的或更多的行业数据源数据仓库的增强数据仓库的增强元数据库的局限性缺乏外部数据源数据仓库数据加载性能不能满足要求数据仓库应用范围的扩大数据仓库整体性能的调整数据仓库重新规划练习练习为什么说数据仓库的开发是一个不断循环、逐步提升的开发过程?数据仓库的生命周期应该包含哪几个阶段?需要完成哪些工作?在数据仓库的需求分析中需要对哪些人员进行需求调查应该调查哪些内容?数据仓库的设计包含那些内容?怎样通过数据仓库的应用来增强数据仓库的功能与作用?练习练习请为购买商品趋势分析设计一个数据仓库的星型模型并给出维表的层次结构。请为航空公司的航班分析数据仓库确定其主题的详细描述。为航空公司的航班分析数据仓库设计一种数据抽取和转换方案并提出选择此方案的理由。在数据仓库的开发过程中需要对哪些模型进行评审不同模型的评审内容有哪些?

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/48
0下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部