首页 电子商务数据仓库

电子商务数据仓库

举报
开通vip

电子商务数据仓库     电子商务数据仓库                  构造数据仓库和数据预处理是数据挖掘前的一个重要步骤。此外,联机分析处理用于从多个视角进行多维数据分析,这种分析有利于数据挖掘。因此在介绍数据挖掘之前,我们概括地介绍数据仓库、数据预处理和联机分析等内容。本章,我们将学习数据仓库的一些基本概念。2.1数据仓库概述2.1.1数据仓库的概念及特点数据仓库之父W.H.Inmon[1]在1991年出版的BuildingtheDataWarehouse一书中所提出的定义受到了广泛认同,他认为:数据仓库(DataWar...

电子商务数据仓库
     电子商务数据仓库                  构造数据仓库和数据预处理是数据挖掘前的一个重要步骤。此外,联机分析处理用于从多个视角进行多维数据分析,这种分析有利于数据挖掘。因此在介绍数据挖掘之前,我们概括地介绍数据仓库、数据预处理和联机分析等 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 。本章,我们将学习数据仓库的一些基本概念。2.1数据仓库概述2.1.1数据仓库的概念及特点数据仓库之父W.H.Inmon[1]在1991年出版的BuildingtheDataWarehouse一 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf 中所提出的定义受到了广泛认同,他认为:数据仓库(DataWarehouse,简称DW)是一个面向主 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 的(SubjectOriented)、集成的(Integrated)、稳定的(Non-Volatile)、随时间变化的(TimeVariant)数据集合,用于支持管理决策(DecisionMakingSupport)。这个定义概括出了数据仓库的四个特点,让我们进一步了解一下这些特点。1.面向主题的操作型数据库的数据是面向事务处理任务来进行组织的,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向应用相对应的,它是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,例如客户、供应商、商品都可以成为一个主题。数据仓库排除了对于决策无用的数据,提供特定主题的简明视图。以保险公司为例,应用问题可能是健康保险、财产保险、汽车保险等,而主题可以是客户等。2.集成的数据仓库中的数据通常是在对不同数据源中的数据进行抽取、清理的基础上经过系统加工、汇总和整理得到的,在这个过程中必须消除不同数据源中对同一数据描述的不一致性,如同样是对性别的描述,有的数据源用‘1’表示男性,‘0’表示女性,而有的数据源用‘M’表示男性,‘F’表示女性,因此放入数据仓库时就要对这些不同数据源中的数据表示方法进行统一,以保证数据在数据仓库内的信息是一致的。3.稳定的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期加载、刷新。4.随时间变化的数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性,而且数据仓库中的数据是随时间变化的。因此,在决策中,时间属性很重要。同样都是累计购买过某种商品的顾客,一位顾客是最近一个月购买过该商品,一位顾客是最近半年都没有买过该商品,这个信息对于决策者来说其意义是不同的。2.1.2数据库与数据仓库的区别数据库与数据仓库都是用来存储数据的,但由于数据库主要支持普通的事务处理,而数据仓库支持决策处理,所以二者在很多方面有所不同。主要体现在以下几个方面。1.设计的出发点不同数据库在设计过程中是面向事务处理的,是为存储操作型数据而设计的;数据仓库是面向主题的,是为分析型数据而设计的,它的两个基本元素是维度表和事实表。维是看问题的角度,比如商品、地区、时间等,事实表里放着要查询的数据,如销售量等。2.设计的思想不同数据库在设计过程中要尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计过程中则有意引入冗余,采用反范式的方式来设计。3.数据量不同数据库一般存储在线交易数据,它只存储很短一段时间的数据。数据仓库存储的一般是历史数据,与数据库中的数据相比,数据仓库中的数据是海量的。因为数据仓库中数据量比较大,所以数据仓库在建设过程中就必须注意以下几点。(1)数据质量客户要看各种信息,肯定要准确的数据。数据源有脏数据或者代码不严谨,都可以导致数据失真。客户看到错误的信息就可能分析出错误的决策,造成损失,而不是效益。(2)扩展性由于数据量不断增加,数据处理技术不断发展,数据仓库在设计过程中必须考虑未来3~5年的扩展性,如果系统具备这样的扩展性,客户就不用担心花费时间和精力去重建数据仓库系统。4.设计的方法不同(1)数据仓库的开发是从数据出发的创建数据仓库是在原有的数据库系统中的数据基础上进行的,我们称之为“数据驱动”,数据驱动设计方法的核心是利用数据模型有效识别原有数据库中的数据。(2)数据仓库使用的需求不能在开发初期完全明确①在数据仓库环境中,并不存在固定的且较确切的物流、数据流和信息流;②数据分析处理的需求更加灵活,没有固定的模式;③甚至用户本身也对自己的需求不能事先全部确定,而是需要一个不断修正的过程。(3)数据仓库的开发是一个不断循环的过程,是启发式的开发数据仓库的开发是一个动态反馈和循环的过程。一方面数据仓库的数据内容、结构、力度、分割以及其他物理设计应该根据客户所反馈的信息不断地调整和完善,以提高系统的效率和性能;另一方面,通过不断分析、理解客户的需求,不断地调整和完善,以求向客户提供更准确、更有效的决策信息。因此,数据仓库的构建是一个不断循环、反馈、修正,进而不断完善的过程,所以很多情况下数据仓库的开发步骤不是固定的。尽管数据仓库在上述方面与数据库有很多不同,但数据仓库的出现,并不是要取代数据库。可以说,数据库、数据仓库相辅相成、各有千秋。目前,大部分数据仓库还是用关系数据库管理系统来管理的。2.1.3数据仓库的技术支持数据仓库的特点决定了数据仓库需要以下数据库技术的支持:1.并行数据库技术数据仓库中的数据量很大,一般要达到GB级,有的甚至要到TB级。面对如此大规模的数据,使用并行技术对提高运行效率是很有帮助的。传统数据库的应用是面向操作型数据的,而数据仓库的应用是面向分析型数据的,它需要有高性能的数据库服务器配合工作,对数据库管理系统核心的性能也有更高的要求。2.数据库互操作技术数据仓库的数据来源多种多样,可能来自数据库,也可能来自文件系统。即使都来自数据库,这些数据库也往往是异构的。为了从这些异构数据源中定期抽取、转换和集成所需要的数据并存入数据仓库中,异构数据源之间的互操作技术是必需的。3.数据库分析工具数据仓库技术在近几年蓬勃发展起来,不少厂商都推出了他们的数据仓库产品,同时也推出了一些分析工具。仅仅拥有数据仓库是不够的,在其上应用各种工具进行分析,才能使数据仓库真正发挥作用。联机分析处理和数据挖掘就是这样的分析工具。2.2数据仓库的设计数据仓库使用的需求尽管在开发初期不能完全明确,但数据仓库的设计仍可遵循一定的规律,通过对这些规律的归纳,人们可以总结出数据仓库设计的大体步骤[2]如下:商务智能下面我们以上面所列的几个主要设计步骤为主线,介绍各个设计步骤中的基本内容。1.总体分析设计(1)确定研究内容。数据仓库是要为决策分析提供服务的,但在数据仓库创建之初,用户的需求常常不是十分明确的,这就需要研究人员与用户一起确定一个大致的、方向性的需求,这一环节主要是明确要研究的内容,即要研究的问题,围绕该问题所需要的数据和信息以及如何获得这些信息等方面的问题进行研究。(2)确定主题。在这一步中,需要根据所研究的内容确定相应的主题,进而对每个主题域的内容进行较明确的描述,并尽可能明确主题之间的关系。以企业为例,当企业在选择促销商品的时候,它可能考虑的主题包括:商品、顾客、供应商。其中商品主题包含的内容有商品编号、商品名称、价格、库存量、产品、颜色、大小尺寸等;顾客主题包括顾客编号、姓名、年龄、职业、性别等;供应商主题包含供应商编号、供应商所在地、供应商品编号、供应商品名称等。在这三个主题中,供应商可以供应多种商品,一种商品可以由多个供应商供应,供应商主题和商品主题之间的联系就是商品供应关系;一位顾客可以买多种商品,一种商品可以被多个顾客购买,商品主题和顾客主题之间的联系是购买关系;顾客主题和供应商主题之间没有直接的联系,它们之间的联系是通过商品来实现的。(3)技术环境准备在这一阶段,第一,要根据要处理的问题来确定数据仓库的各项性能指标。一般情况下,需要在这一步里确定的性能指标包括:·管理大数据量数据的能力;·进行灵活数据存取的能力;·根据数据模型重组数据的能力;·数据发送和接收能力;·周期性成批装载数据的能力;·可设定完成时间的作业管理能力。第二,就是要根据上面的各项性能指标来确定相应的软硬件配置。2.数据建模(1)概念模型设计概念模型最常用的表示方法就是用E-R图法(实体—关系图法)来表示实体和实体之间的联系,这种方法形式简单、易于理解,便于与用户的交流,在数据库设计方面得到了广泛的应用。尽管数据仓库与数据库在开发设计方法上有些不同,但E-R图作为数据仓库的概念模型仍是适合的。图2-1用E-R图表示了商品、供应商和顾客这三个主题之间的关系。相应的各主题及其属性的描述如表2-1所示。从上面的分析可以看出,所谓数据仓库的概念模型设计,就是要确定要研究的内容及内容之间的相互关系,并集成来自各个面向应用的数据库中的数据而形成一个统一的概念视图。图2-1用E-R图表示商品、供应商和顾客三个主题之间的关系表2-1主题及属性(2)逻辑模型设计逻辑模型是指数据之间的逻辑结构。数据仓库中的逻辑模型主要有三种:星形图、雪花图和星座模型。①星形图星形图由于其外观类似五角星而得名。该方法设计简单,容易被用户理解,星形图主要包含两部分:指标实体和维度实体。指标实体是位于星形图中间的实体,它是用户最关心的实体,为用户的商务活动提供定量的数据,指标实体用矩形表示。维度实体是位于星形图星角上的实体,其作用是限制用户的查询结果,用菱形表示(见图2-2)。图2-2星形图在图2-2中,有四个维,分别是日期、产品、顾客和供应商。销售分析是一个指标实体,一般来说,指标实体与维度实体之间的联系是通过指标实体中的外键(如产品ID)与维度实体中的主键(如产品ID)来建立的。②雪花图雪花图是星形图的进一步细化。与星形图相比,雪花图增加了一个详细类别实体,详细类别实体代表维度内的一个单独层次,用结束符号表示,如图2-3所示。图2-3雪花图③星座模型相对于星形图和雪花图都只有一个指标实体的情况,星座模型相对复杂,它有两个以上的指标实体并且两个指标实体共用一个类别实体。此外,逻辑模型设计过程中的主要工作还有以下几方面内容:第一,分析主题域。分析主题域是在概念模型设计中确定几个基本主题域后,对主题域进行分析,以达到逐步求精,一般是一次一个主题或一次若干个主题地逐步完成。第二,粒度层次划分。数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。所谓粒度是指数据仓库中数据单元细节程度或综合程度的级别。数据越详细,粒度就越小,级别就越低,相对来说这种情况下的数据量就大,存储时就需要更大的空间,但在查询时可以得到很多细节性的数据;相反数据综合程度越高,粒度就越大,级别就越高,相对来说数据量就越小,需要的存储空间也少,但查询时往往看不到细节性的数据。以电话 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 为例,如果把每次通话都作为一个记录,以一个人为例,如果该人平均每天通话两次,那么一个月就有60条记录,这种存储方式的粒度就小,但在查询时可以查出这个人在某一天什么时候通了多长时间的电话;如果把每个月的通话时间长度作一个记录,在这种情况下,粒度大,存储量小,查询时就查不到细节的数据。因此要想确定数据仓库的粒度,可以通过估算数据行数和所需的DASD(直接存取存储设备)等,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。第三,确定数据分割策略。在考虑数据分割策略时,可选择适当的数据分割的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 ,一般要考虑以下几方面因素:数据量(而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等。数据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的;我们还要考虑到所选择的数据分割应当是自然的、易于实施的,同时也要考虑数据分割的标准与粒度划分层次是否合适。第四,关系模式的定义。数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。在设计概念模型时,我们就确定了数据仓库的基本主题,并对每个主题的公共码键、基本内容等作了描述。在这一步里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。3.物理模型设计物理模型设计主要是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。要实现数据仓库的物理模型,设计人员必须做到以下几点:全面了解所选用的数据库管理系统,特别是存储结构和存取方法。了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些是对时间和空间效率进行平衡和优化的重要依据。了解外部存储设备的特性,如分块原则、块大小的规定、设备的I/O特性等。根据这些要求,所做的工作包括以下四点。(1)确定数据的存储结构一个数据库管理系统往往都提供多种存储结构以供设计人员选用,不同的存储结构有不同的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的存储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维护代价。(2)确定索引策略数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选择。由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索引结构来提高数据存取效率。在数据仓库中,设计人员可以考虑对各个数据存储建立专用的、复杂的索引,以获得最高的存取效率。(3)确定数据存放位置在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。(4)确定存储分配许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理,如:缓冲区的大小和个数等,它们都要在物理设计时确定。4.数据仓库的生成这一环节主要是把数据放入数据仓库中,所包含的内容有:(1)设计接口将操作型环境下的数据装载进数据仓库环境,需要在两个不同环境的记录系统之间建立一个接口。在这一过程中,还要考虑到物理设计的一些因素和技术条件限制,根据这些内容,严格地制定规格说明。(2)数据装入在这一步里所进行的就是运行接口程序,将数据装入到数据仓库中。主要的工作是:·确定数据装入的次序;·清除无效或错误数据;·数据粒度管理;·数据刷新等。需要注意的是:数据仓库生成完后并不是一成不变的,在使用过程中需要不断地维护和更新。2.3数据仓库的构建实例——以Foodmart2000.mdb数据集为例Foodmart2000.mdb数据集是SQLServer以前版本所带的示例数据库,它是一家大型食品连锁店在运营过程中产生的模拟数据,该数据以Access格式存储,其中包括了客户、销售、库存等数据。本部分以该数据集中库存部分的数据为例讲述数据仓库的建立过程,在这一过程中首先由SQLServer2005BusinessIntelligenceDevelopmentStudio中的ETL工具SSIS把Access形式的数据库转换成SQLServer2005中的数据库,然后再搭建本部分拟研究问题中所涉及的数据表之间的逻辑关系。由于该数据集是已经清理过的数据,并且该数据集已按数据仓库中事实表、维度表等基本形式进行存储,因此关于如何对数据进行清洗以及如何把操作型的数据转换成按数据仓库中的事实表、维度表等存储形式的数据过程在本部分并没有体现,本部分只是根据数据库中已有的表来介绍数据的提取、转换、装载过程,并在此基础上构建一个雪花形的数据源视图。具体过程[3]如下:1.打开BusinessIntelligenceDevelopmentStudio依次执行“开始”→“所有程序”→“SQLServer2005”→“SQLServerBusinessIntelligenceDevelopmentStudio”命令,进入“起始页-MicrosoftVisualStudio”界面。2.提取-转换-装载数据1)执行菜单栏的“文件”→“新建”→“项目”命令,选中“IntegrationServices项目”,打开如图2-4所示的“新建项目”对话框。图2-4新建IntegrationServices项目对话框2)分别在“名称”、“解决方案名称”文本框中,填写名称和解决方案名称,它们都是用foodmartis来表示;在“位置”文本框中,点击右侧的“浏览”钮,选择解决方案的保存路径。点击“确定”命令钮,进入如图2-5所示的界面,该界面右上角显示“解决方案资源管理器”字样。图2-5解决方案资源管理器3)选择“项目”→“SSIS导入和导出向导”命令,进入“SQLServer导入和导出向导”界面,单击“下一步”按钮。在“选择数据源”窗口中的“数据源”下拉列表框中选择Access数据源选项,如图2-6所示。从该下拉列表框中可以看出在数据源这项中可以选择很多不同类型的数据,然后在路径选择中选择foodmart2000.mdb文件。图2-6选择foodmart2000.mdb数据源4)单击“下一步”按钮,在随即弹出的窗口中选择数据的导出目标为“SQLNativeClient”,单击“新建”按钮,在弹出的“创建数据库”窗口中创建数据库,在此窗口中与名称对应的文本框中输入新建数据库的名称,本部分输入“foodmartkc”,如图2-7所示。图2-7创建数据库5)单击“确定”按钮继续,回到选择目标页面,这时看到在“数据库(T)”旁边的文本框中名称已变成了刚输入的“foodmartkc”,单击“下一步”按钮继续,进入“指定表复制或查询”界面,如图2-8所示,在这个窗口中需要指定从数据源复制一个或多个表和视图,还是从数据源复制查询结果,这里选择“复制一个或多个表或视图的数据”单选按钮。图2-8指定复制类型6)单击“下一步”按钮继续,进入“选择源表和源视图”界面,这里可以按需要选择部分表,也可以全选,本部分点击了“全选”按钮,如图2-9所示。图2-9选择源表和源视图7)单击“下一步”按钮,进入“完成该向导”界面,该界面要求用户确认,并提示将会把包以“Package1.dtsx”作为文件名保存在项目文件夹下面,而且不会立即执行。确认无误后单击“完成”按钮。进入执行页面,执行成功后,点击“关闭”按钮。8)在“解决方案资源管理器”中展开“SSIS包”文件夹,在Package1.dtsx上单击鼠标右键,在弹出的快捷菜单中选择“设为启动对象”命令,如图2-10所示。9)单击工具条上的按钮,可以发现在SSIS设计界面的“控制流”和“数据流”等选项卡内都有对象在活动,这是系统正把数据从Foodmart2000.mdb数据库中按照前面所确定的规则装载入foodmartsalekc数据仓库中。系统成功运行后,会出现“包执行完毕,单击回到控制流”字样。单击该字样回到控制流界面。至此完成了数据的提取、转换和装载过程。10)数据装载过程完成后,切换到SQLServerManagementStudio(依次执行“开始”→“所有程序”→“SQLServer2005”→“SQLServerManagementStudio”命令),展开foodmartsalekc数据仓库可以发现,已经按照设计要求建立好了数据仓库,并且仓库中已经存储了业务数据,如图2-11所示。图2-10设置Package1.dtsx为启动对象图2-11完成数据装载后的foodmartsalekc11)在“MicrosoftSQLServerManagementStudio”界面中,点击“新建查询”菜单项,可用数据库选择“foodmartkc”,查询界面输入“select*frominventory_fact_1997”,点击“执行”按钮,结果如图2-12所示。图2-12查询结果由图2-12可以看出,该库存事实表中有四个维度,即product、time、warehouse和store,该事实表共有记录4070个。3.建立数据仓库的逻辑模型数据仓库逻辑模型的建立要用到“SQLServer2005”中“BusinessIntelligenceDevelopmentStudio”的“AnalysisServices”组件,即SSAS。具体操作如下:1)执行菜单栏的“文件”→“新建”→“项目”命令,点击“AnalysisServices项目”,打开如图2-13所示的“新建项目”对话框。图2-13新建AnalysisServices项目对话框2)分别在“名称”、“解决方案名称”文本框中,填写名称和解决方案名称,本部分用foodmartas;在“位置”文本框中,点击右侧的“浏览”钮,选择解决方案的保存路径。点击“确定”命令钮,进入下一界面,该界面左上角显示“解决方案资源管理器”字样,下面有8个选项,如图2-14所示。3)在“解决方案资源管理器”中的“数据源”文件夹上单击鼠标右键,在弹出的快捷菜单中选择“新建数据源”命令,如图2-15所示。图2-14解决方案资源管理器图2-15新建数据源4)在弹出的“数据源向导”界面中,单击“下一步”,在接下来的“选择如何定义连接”窗口中选择默认的“基于现有连接或新连接创建数据源”单选按钮。可以选择已有连接,也可根据需要单击“新建”按钮建立数据连接。本处单击“新建”按钮进入如图2-16所示的“连接管理器”界面。图2-16连接管理器5)切换到“SQLServerManagementStudio”(依次执行“开始”→“所有程序”→“SQLServer2005”→“SQLServerManagementStudio”命令),在弹出的如图2-17所示的对话框中,复制服务器名称,把该服务器名称粘贴到图2-16中的服务器名称文本框中后,图2-16变成图2-18的形式。图2-17连接服务器图2-18填入服务器名称后的连接服务器界面6)由图2-18可以看出,“选择或输入一个数据库名(D)”下的文本框中内容就可以选择,本处选前面导入的foodmartkc库,单击“确定”,重新回到“如何定义连接”界面,这时可以看到已有一个连接进入数据连接文本框中,如图2-19所示。图2-19“选择如何定义连接”界面7)单击“下一步”按钮,进入“模拟信息”界面,该界面用来定义“AnalysisServices”使用何种凭证来连接数据源,选择“默认值”单选钮,单击“下一步”,进入“完成向导”界面,这个界面需要提供一个名称来完成向导,本部分选择默认名称,单击“下一步”完成数据源的建立。8)数据源提供与数据库的简单连接,但如缓存元数据、添加关系、创建计算和设置逻辑键等功能还需要通过数据源视图来完成。右键单击解决方案资源管理器下的第二项“数据源视图”,在弹出的快捷菜单中选择“新建数据源视图”命令,然后在弹出的“数据源视图向导”窗口中选择foodmartsaleis作为关系数据源,单击“下一步”按钮,弹出如图2-20所示的“名称匹配”窗口,这是因为在前面SSIS的数据装载操作中没有为数据仓库中的表设置主键及其关系,SSAS试图在匹配的列上创建逻辑关系,可以选择“与主键同名”单选按钮,单击“下一步”按钮继续。图2-20设置名称匹配9)接下来进入“选择表和视图”窗口,可以从选定的数据源提供的对象列表中选择表和视图。这里主要的商务需求是对库存数据进行分析,所以本处把product等数据表选中放入包含的对象中,如图2-21所示。图2-21选择表和视图10)点击“下一步”,进入“完成向导”界面,单击“完成”按钮结束此向导。同样也是由于数据源中的表没有设置主键的原因,现在的数据源视图上的表都是独立的,相互之间没有关系(如图2-22所示),这就需要再进一步设置各个表的主键及其关系才能成为可用的视图。一般来说,事实表是没有主键的,而维度表都有主键,且每一个维度表的主键都是事实表的外键。因而,需要为每一个维度表设置主键,具体方法是在维度表中选择应该为主键的字段,然后单击鼠标右键,在弹出的快捷菜单中选择“设置逻辑主键”命令,即可设置维度表的主键。图2-22各数据表之间相互独立的数据源视图11)在每一个维度表设置好主键后,就可进一步设置维度表和事实表之间的关系,方法是把事实表中的外键作为源,拖动到维度表中的相关字段,这时会弹出“创建关系”窗口。需要注意的是一定要把事实表中的相应外键作为源,维度表中的主键作为目标,如果方向错了,可以单击弹出界面的“反向”按钮以保证其关系符合数据之间的逻辑关系。按上述步骤操作完后,得到的结果如图2-23所示。图2-23设置好表之间关系的数据源视图12)在视图空白处,单击右键,选择“排列表”选项,变成比较规整的视图,如图2-24所示。图2-24排列后的数据源视图至此,我们已经把数据仓库中要分析问题的数据表之间的关系建立起来了。从中可以看出,这是一个雪花模型。关于对多维数据集的建立及在此基础上的联机分析将在第4章中进行介绍。思考题1.什么是数据仓库,它的主要特点是什么?2.设计数据仓库的主要步骤有哪些? -全文完-
本文档为【电子商务数据仓库】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥16.9 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
IT人
暂无简介~
格式:doc
大小:3MB
软件:Word
页数:28
分类:
上传时间:2021-12-07
浏览量:9