首页 数据仓库设计与开发培训课件

数据仓库设计与开发培训课件

举报
开通vip

数据仓库设计与开发培训课件第四章数据仓库设计与开发本章目标了解数据仓库开发应用过程熟悉数据仓库的规划内容、目标等掌握数据仓库的分析与设计过程、内容了解数据仓库的实施过程第四章数据仓库设计与开发本章内容4.1数据仓库开发应用过程4.2数据仓库的规划4.3数据仓库的分析与设计4.4数据仓库的实施4.5数据仓库技术与开发的困难4.1数据仓库开发应用过程数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成三个阶段:数据仓库规划分析数据仓库设计实施数据仓库使用维护这三个阶段是一个不断循环、完善、提高的过程(螺旋式)...

数据仓库设计与开发培训课件
第四章数据仓库 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 与开发本章目标了解数据仓库开发应用过程熟悉数据仓库的规划 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 、目标等掌握数据仓库的分析与设计过程、内容了解数据仓库的实施过程第四章数据仓库设计与开发本章内容4.1数据仓库开发应用过程4.2数据仓库的规划4.3数据仓库的分析与设计4.4数据仓库的实施4.5数据仓库技术与开发的困难4.1数据仓库开发应用过程数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成三个阶段:数据仓库规划分析数据仓库设计实施数据仓库使用维护这三个阶段是一个不断循环、完善、提高的过程(螺旋式)。螺旋式开发应用过程设计体系结构开发概念模型开发逻辑模型数据库与元数据设计数据抽取转换与加载开发中间件填充与测试数据仓库数据仓库应用数据仓库维护数据仓库评价规划与确定需求规划分析阶段设计实施阶段使用维护阶段4.2数据仓库的规划选择数据仓库实现策略自顶向下:实际应用比较困难。自底向上:用于一个数据集市或一个部门的数据仓库开发,容易获得成功。两种策略的联合使用:能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 。在实际使用中难以操作。用自顶向下方法建造企业数据仓库建设中心数据模型一次性的完成数据的重构工作最小化数据冗余度和不一致性存储详细的历史数据从企业数据仓库中建造数据集市得到大部分的集成数据直接依赖于数据仓库的可用性问题投资效益的时间?建设中心数据模型的必要性和可能性?初始费用?数据集市外部数据数据集市操作数据企业数据仓库用自底向上方法建立部门数据集市限制在一个主题区域快速投资收益区域自治–设计的可伸缩性强对相关部门的应用容易复制对每个数据集市需要数据重构存在一定的冗余及不一致性逐步扩展到企业数据仓库(EDW)把建造EDW作为一个长期的目标存在的问题:数据集市的数据都是可用的吗?能生成数据模型吗?如何解决不一致性?操作数据(全局)/外部数据企业数据仓库数据集市操作数据(局部)操作数据(局部)数据集市采用从顶向下VS从底向下企业内部、各个业务部门和各个工作岗位对数据仓库的理解和期望不同。作为具体的部门,有特定的信息需求,都希望能在尽可能短的时间内需求获得满足。建立局部的系统,所需信息能够立即为其使用。因此对部门而言,他们追求的是一种短期的局部目标,关心的是基于所在位置的局部解决方案。整个企业看,建立数据仓库的目的之一是获得对整个企业业务信息的视图。以便能把握和管理企业的经营运行,并对企业进行业务重组。企业现有系统往往不同程度上存在各自为政,缺乏统一的规划和设计。数据出自各部门,提供的信息不一致,使得高层无法获得可靠、统一和协调的信息。企业追求的是长期的集成目标,关心的是基于整个企业的全面解决方案。两者的目标是有矛盾的!确定数据仓库的开发目标和实现范围首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。另一个重要目标是确定利用哪些方法和工具访问和导航数据?其它目标是确定数据仓库内部数据的规模从用户的角度分析从技术的角度分析数据仓库的结构数据仓库的应用结构基于业务处理系统的数据仓库单纯数据仓库单纯数据集市数据仓库和数据集市数据仓库的技术平台结构单层结构客户/服务器两层结构三层客户/服务器多层式结构数据仓库使用方案和项目规划预算实际使用方案还可以将最终用户的决策支持要求与数据仓库的技术要求联系起来开发方案的预算进行估计编制数据仓库开发说明 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf :说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有限的开发机会。业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 中需要阐明期望取得的有形和无形利益业务价值计划最好由目标业务主管来完成规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。4.3数据仓库的分析与设计4.3.1需求分析4.3.2概念模型设计4.3.3逻辑模型设计4.3.4物理模型设计4.3.5数据仓库的索引技术4.3.1需求分析确定主题域支持决策的数据来源数据仓库的成功标准和关键性能指标数据量与更新频率确定主题域(1)明确对于决策分析最有价值的主题领域有哪些?(2)每个主题域的商业维度是哪些?每个维度的粒度层次有哪些?(3)制定决策的商业分区是什么?(4)不同地区需要哪些信息来制定决策?(5)对哪个区域提供特定的商品和服务?支持决策的数据来源(1)哪些源数据(操作型)与商品主题有关?(2)在已有报表和在线查询中得到什么样的信息?(3)提供决策支持的细节程度是怎样的?数据仓库的成功标准和关键性能指标(1)衡量数据仓库成功的标准是什么?(2)哪些关键的性能指标?如何监控?(3)对数据仓库的期望是什么?(4)对数据仓库的预期用途有哪些?(5)对计划中的数据仓库的考虑要点是什么?数据量与更新频率(1)数据仓库的总数据量有多少?(2)决策支持所需的数据更新频率是多少?时间间隔是多长?(3)每种决策分析与不同时间的标准对比如何?(4)数据仓库中的信息需求的时间界限是什么?开发模型模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过程。现实世界概念世界逻辑世界计算机世界信用特性属性列(字段、数据项)张三个体实体记录客户整体同质总体表文件客户与产品整体间联系异质总体数据库4.3.2概念模型设计概念模型的特点是:能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。易于向数据仓库的数据模型(星型模型)转换。概念模型表示概念模型最常用的表示方法是实体-关系法(E-R法)。E-R图将现实世界表示成信息世界,便利向计算机的表示形式进行转化。建立概念模型:对每个决策主题与属性以及主题之间的关系用E-R图模型表示。例子有两个主题:商品和客户,主题也是实体。商品有如下属性组:商品的固有信息(商品号、商品名、类别、价格等);商品库存信息(商品号、库房号、库存量、日期等);商品销售信息(商品号、客户号、销售量等);客户有如下属性组:客户固有信息(客户号、客户名、住址、电话等);客户购物信息(客户号、商品号、售价、购买量等)。商品的销售信息与用户的购物信息是一致的,它们是两个主题之间的联系。商品商品固有信息商品号商品库存信息销售信息购物信息客户客户固有信息客户号=4.3.3逻辑模型设计主要工作:分析主题域进行概念模型(E—R图)到逻辑模型(星型模型)的转换确定粒度层次划分确定数据分割策略关系模式定义定义记录系统分析主题域主题名公共码键属性组商品商品号商品固有信息:商品号,商品名,类型,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品库存信息:商品号,库房号,库存量,日期等销售销售单号销售单固有信息:销售单号,销售地址等销售信息:客户号,商品号,销售价,销售量、销售时间等客户客户号客户固有信息:客户号,客户名,性别,年龄,文化程度,住址,电话等客户经济息:客户号,年收入,家庭总收入等概念模型到逻辑模型的转换星型模型的设计步骤如下:(1)确定决策分析需求。决策需求是建立多维数据模型的依据。(2)从需求中识别出事实。选择或设计反映决策主题业务的表,如在“商品”主题中,以“销售业务”作为事实表。(3)确定维。确定影响事实的各种因素,对销售业务的维包括商店,地区,部门,城市,时间,商品等。销售数据和维销售数据商品促销时间部门城市地区商店概念模型到逻辑模型的转换星型模型的设计步骤如下:(4)确定数据汇总水平。数据仓库中对数据不同粒度的集成和综合,形成了多层次、多种知识的数据结构。例如,对于时间维,可以以“年”、“月”或者“日”等不同水平进行汇总。(5)设计事实表和维表。设计事实表和维表的具体属性。在事实表中应该记录哪些属性是由维表的数量决定的。一般来说,与事实表相关的维表的数量应该适中,太少的维表会影响查询的质量,用户得不到需要的数据,太多的维表又会影响查询的速度。概念模型到逻辑模型的转换星型模型的设计步骤如下:(6)按使用的DBMS和分析用户工具,证实设计方案的有效性。根据系统使用的DBMS,确定事实表和维表的具体实现。由于不同的DBMS对数据存储有不同的要求,因此设计方案是否有效还要放在DBMS中进行检验(7)随着需求变化修改设计方案。随着应用需求的变化,整个数据仓库的数据模式也可能会发生变化。因此在设计之初,充分考虑数据模型的可修改性可以节省系统维护的代价。转换示例(1)业务数据的E-R图销售销售日期商店号商品号销售数量销售单位商品商品号商品名商品类号存货星期商店号商品号数量1m1m商店商店号商店名地址城市省邮编地区号1mm11商品类商品类号商品类名部门号m1m地区地区号地区名转换示例(2)E-R图向多维表的转换商品维地区维时间维部门地区年商品大类商店月商品周日销售事实转换示例(3)利用维关键字制定的星型模型转换示例(4)修改后的星型模型确定粒度层次粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,层次级别就越低;数据综合度越高,粒度越大,层次级别就越高。决定数据仓库采取的是单一粒度还是多重粒度,以及粒度划分的层次。通过聚集的设计为数据仓库的使用提供各种可能的聚集查询便利进行粒度划分,首先要确定所有在数据仓库中建立的表,然后估计每个表的大约行数。确定数据分割策略把逻辑上整体的数据分割成较小的、可以独立管理的物理单元进行存储。便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率数据分割标准:1.数据量2.数据分析处理的对象3.粒度分割的策略定义关系模式在概念模型设计时,我们就确定了数据仓库的基本主题,并对每个主题的公共码键、基本内容等做了描述。在这一步里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。“商品”主题公共码键:商品号。商品固有信息:商品表(商品号、商品名、类型、颜色)——细节级商品销售信息:销售表1(商品号、客户号、销售量、…)——细节级销售表2(商品号、时间段1、销售量、…)——综合级……销售表n(商品号、时间段n、销售量、…)——综合级定义记录系统定义记录系统是建立数据仓库中的数据以源系统中的数据的对照记录。记录系统的定义要记入数据仓库的元数据。商品主题的记录系统在元数据中可描述如表主题名属性名数据源系统源表名源属性名商品商品商品商品商品商品商品商品商品商品号商品名类别客户号销售日期售价销售量库存量库存号库存子系统库存子系统库存子系统销售子系统销售子系统销售子系统销售子系统库存子系统库存子系统商品商品商品客户销售销售销售库存仓库商品号商品名类别客户号日期单价数量库存量仓库号4.3.4物理模型设计物理模型设计因素:I/O存取时间空间利用率维护的代价主要工作:全面了解所选用的数据库管理系统,确定一个最适合应用要求的物理结构,特别是存储结构和存取方法。了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。了解外部存储设备的特征。确定一个最适合应用要求的物理结构(1)估计存储容量(2)确定数据的存储计划(3)确定索引策略(4)确定数据存放位置(5)确定存储分配(1)估计存储容量对每一个数据库表确定数据量对所有的表确定索引估计临时存储(2)确定数据的存储计划建立聚集(汇总)计划确定数据分区方案建立聚类选项(3)确定索引策略在数据仓库中由于数据量很大,需要对数据的存取路径进行仔细设计和选择,建立专用的复杂的索引,以获得最高的存取效率。采用B—Tree索引,它是一个高效的索引,见图4.7所示。B树是一个平衡(balance)树,即每个叶结点到根节点的路径长度相同。B树索引是一个多级索引。(4)确定数据存放位置在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。(5)确定存储分配物理存储中以文件、块和记录来实现。一个文件包括很多块,每个块包括若干条记录。文件中的块是数据库的数据和内存之间I/O传输的基本单位,在那里对数据进行操作。用一个简例来说明逻辑模型和物理模型的内容,见下图所示。名称类型长度注释产品维表包括公司所有产品的信息Product-Keyinteger10主键Product-Namechar25产品名称Product-SKuchar20库存单位销售员维表包括不同地区的所有销售员信息Salpers-Keyinteger15主键Salpers-Namechar30销售员姓名Territorychar20销售员所在区域Regionchar20所在地区订单事实表包括公司收到的所有订单Order-Keyinteger10订单键Order-Namechar20订单名称Product-refinteger10参考产品主键Salpers-refinteger15参考销售员主键Order-AmountNum8,2销售额Order-CostNum8,2订单成本逻辑模型产品维表产品键产品名库存单位品牌订单事实表订单键订单名产品键销售员键销售额订单成本销售员维表销售员键姓名地域地区4.3.5数据仓库的索引技术位索引技术Bit-Wise索引技术B-Tree技术与Bit-Wise索引技术对比标识技术广义索引Bit-Wise索引技术对于每一个记录的字段满足查询条件的真假值用“1”或“0”的方式表示,或者用该字段中不同取值(即多位二进制)来表示。例如,检索“美国加州有多少男性未申请保险?”利用Bit—Wise技术得到有两个记录满足条件。性别保险州1MYMA2MNCA3FYIL4MNCA男未保险加州100111000111B-Tree技术与Bit-Wise索引技术对比Bit-Wise索引技术比B-Tree技术能提高相应速度10—100倍。对于检索“美国加州有多少男性未申请保险?”为例,假设数据库有10M记录,每个记录长800个字节,每一页16K字节。按传统的关系数据库的检索:需要经过50万次I/O操作。按Bit—Wise检索:对于10M个记录建立三列的Bit—Wise索引。存取这些索引只要进行235次I/O操作。标识技术样本记录数据库中的每个实体创建一个标识。“江西”在籍贯中是01标识。“28”在年龄中是02标识。“讲师”在职称名中有一个03标识。姓名籍贯职称年龄陈文东江西教授56何玉辉河北讲师32李宝湖南副教授37施东江苏讲师28曹文湖南副教授36赵玉吉林讲师32黄小斌江苏讲师28赛英花山东副教授32彭宏江西讲师25廖宇宙湖南教授42标识技术姓名籍贯职称年龄陈文东01江西01教授012501何玉辉02河北02副教授022802李宝03湖南03讲师033203施东04江苏043604曹文05吉林053705赵玉06山东064206黄小斌075607赛英花08彭宏09廖宇宙10记录101,01,01,07记录202,02,03,03记录303,03,02,05记录404,04,03,02记录505,03,02,05记录606,05,03,03记录707,04,03,02记录808,06,02,03记录909,01,03,01广义索引对数据仓库的一个很广泛的应用问题是“这个月销售最好和最差的10种商品是哪些?”,我们可以设计这么一块“黑板”,在上面标明了当月销售最好和最差的10种商品的名称或者它们相关记录的存放地址。这块“黑板”就是我们所说的“广义索引”。4.4数据仓库的实施实施过程中需要完成的工作:建立数据仓库与业务处理系统的接口数据仓库的体系结构建立实现数据仓库物理仓库与元数据库进行数据仓库的数据初次加载完成数据仓库的中间件设计进行数据仓库的测试。数据仓库与业务处理系统的接口接口应该具有这样一些功能:从面向应用和操作环境生成完整的数据;数据基于时间的转换;数据的聚集;对现有数据系统的有效扫描,以便今后数据仓库的数据追加。数据仓库的建立关系型数据库、多维数据库和对象数据库创建数据仓库的工具:MSSQLServer2000,2005,2008Oracle9i,10iSybaseInformixRedBrickDecisionServer数据仓库的加载、复制和发行数据加载之前,首先需要对准备加载的数据进行清理复制技术,复制结构应完成以下的复杂任务:●不会受到系统失败等问题的影响,保证提供可靠的数据复制。●只传送符合数据完整性规则的一致数据。●可以优化传送过程,减少在捕获或修改数据和复制品作为结果传送之间的等待时间。技术和数据结构应保证数据发行系统完成以下的功能:保证数据以适时和有效的方式发行。保证只发送被排序的数据。建立正确的和所需要的服务水平标准。数据仓库的测试单元测试单元测试的目的是寻找出存在于单个程序、存储过程和其它位于一些独立环境中模块的错误。系统集成测试测试目的是验证每个单元与数据仓库系统和子系统之间的接口是否完好,是否能够正常传递数据与执行系统的整体功能。4.5数据仓库技术与开发的困难4.5.1数据仓库技术4.5.2数据仓库开发的困难4.5.1数据仓库技术(1)管理大量数据数据仓库要管理大量的数据,是因为它们:包括粒状的、原子的细节包括历史数据包括细节和汇总数据包括元数据有好多种管理大量数据的方法——通过寻址,通过索引,通过数据的外延,通过有效的溢出管理等(2)数据的高效装入和数据压缩数据仓库的一个重要的技术就是能够高效地装入数据。有好多种装入数据的方法:通过一个语言接口一次一条记录。当数据能够被压缩时,它便能存储在很小的空间中。(3)存储介质的管理存储介质访问速度存储费用主存非常快非常贵扩展内存非常快贵高速缓存非常快贵磁盘快适中光盘不慢不贵微缩胶片慢便宜考虑到访问速度和存储费用,对数据的存储要分层次,层次的区分如下:(4)多维DBMS和数据仓库多维数据库管理系统(多维DBMS)使得对数据的访问非常灵活,可以用多种方法对数据进行切片、分割,动态地考察汇总数据和细节数据的关系。数据仓库和多维DBMS的区别:数据仓库有大量的数据;多维DBMS中的数据至少要少一个数量级。数据仓库只适合于少量的灵活访问;而多维DBMS适合大量的非预知的数据的访问和分析。数据仓库内存储了很长时间范围内的数据——从5年到10年;多维DBMS中存储着比较短时间范围内的数据。数据仓库允许分析人员以受限的形式访问数据,而多维DBMS允许自由的访问。多维DBMS和数据仓库决策支持系统(DSS)分析者大部分时间里可以在多维DBMS中享受其操作高效的优点,同时如果需要的话,还可以向下钻取最低层次的细节数据。一些多维DBMS建立在关系模型上,而一些多维DBMS建立在多维立方体内.4.5.2数据仓库开发的困难没有理解数据的价值未能理解数据仓库概念尚未清楚了解用户将如何使用数据仓库之前,便贸然开发数据仓库对数据仓库规模的估计模糊忽视了数据仓库体系结构和数据仓库开发方法演讲完毕,谢谢观看!
本文档为【数据仓库设计与开发培训课件】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
言言无悔一生
暂无简介~
格式:ppt
大小:490KB
软件:PowerPoint
页数:62
分类:
上传时间:2022-01-21
浏览量:0