关闭

关闭

关闭

封号提示

内容

首页 数据挖掘讲义.pdf

数据挖掘讲义.pdf

数据挖掘讲义.pdf

上传者: yang 2011-09-19 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《数据挖掘讲义pdf》,可适用于IT/计算机领域,主题内容包含教科书和参考书„教科书‰数据挖掘:概念与技术JiaweiHan和MichelineKamber著机械工业出版社()„参考书‰数据挖掘原理,David符等。

教科书和参考书„教科书‰数据挖掘:概念与技术JiaweiHan和MichelineKamber著机械工业出版社()„参考书‰数据挖掘原理,DavidHand,HeikkiMannila和PadhraicSmyth著机械工业出版社()中文版英文影印版主要内容„数据挖掘综述„数据仓库和数据挖掘的OLAP技术„数据预处理数据挖掘的发展动力需要是发明之母„数据爆炸问题‰自动数据收集工具和成熟的数据库技术使得大量的数据被收集存储在数据库、数据仓库或其他信息库中以待分析。„我们拥有丰富的数据但却缺乏有用的信息„解决方法:数据仓库技术和数据挖掘技术‰数据仓库(DataWarehouse)和在线分析处理(OLAP)‰数据挖掘:在大量的数据中挖掘感兴趣的知识(规则规律模式约束)数据库技术的演化„s和以前:‰文件系统„s:‰层次数据库和网状数据库„s早期:‰关系数据模型,关系数据库管理系统(RDBMS)的实现„s晚期:‰各种高级数据库系统(扩展的关系数据库,面向对象数据库等等)‰面向应用的数据库系统(spatial数据库时序数据库多媒体数据库等等)„s:‰数据挖掘,数据仓库,多媒体数据库和网络数据库„s‰流数据管理和挖掘‰基于各种应用的数据挖掘‰XML数据库和整合的信息系统什么是数据挖掘?„数据挖掘(从数据中发现知识)‰从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识‰挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)„数据挖掘的替换词‰数据库中的知识挖掘(KDD)、知识提炼、数据模式分析、数据考古、数据捕捞、信息收获等等。„并非所有东西都是“数据挖掘”‰查询处理‰专家系统或是小型的数学计算统计程序数据挖掘的应用„数据分析和决策支持‰市场分析和管理„目标市场,客户关系管理(CRM),市场占有量分析,交叉销售,市场分割‰风险分析和管理„风险预测,客户保持,保险业的改良,质量控制,竞争分析‰欺骗检测和异常模式的监测(孤立点)„其他的应用‰文本挖掘(新闻组,电子邮件,文档)和WEB挖掘‰流数据挖掘‰DNA和生物数据分析数据挖掘应用市场分析和管理()„数据从那里来‰信用卡交易,会员卡,商家的优惠卷,消费者投诉电话,公众生活方式研究„目标市场‰构建一系列的“客户群模型”这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等‰确定顾客的购买模式„交叉市场分析‰货物销售之间的相互联系和相关性以及基于这种联系上的预测数据挖掘应用市场分析和管理()„顾客分析‰哪类顾客购买那种商品(聚类分析或分类预测)„客户需求分析‰确定适合不同顾客的最佳商品‰预测何种因素能够吸引新顾客„提供概要信息‰多维度的综合报告‰统计概要信息(数据的集中趋势和变化)数据挖掘应用公司分析和风险管理„财务计划‰现金流转分析和预测‰交叉区域分析和时间序列分析(财务资金比率趋势分析等等)„资源计划‰总结和比较资源和花费„竞争‰对竞争者和市场趋势的监控‰将顾客按等级分组和基于等级的定价过程‰将定价策略应用于竞争更激烈的市场中数据挖掘应用欺诈行为检测和异常模式的发现„方法:对欺骗行为进行聚类和建模并进行孤立点分析„应用:卫生保健、零售业、信用卡服务、电信等‰汽车保险:相撞事件的分析‰洗钱:发现可疑的货币交易行为‰医疗保险„职业病人,医生以及相关数据分析„不必要的或相关的测试‰电信:电话呼叫欺骗行为„电话呼叫模型:呼叫目的地持续时间日或周呼叫次数分析该模型发现与期待标准的偏差‰零售产业„分析师估计有%的零售额下降是由于雇员的不诚实行为造成的‰反恐怖主义其他应用„体育竞赛‰美国NBA的个球队中有个球队使用了IBM分析机构的数据挖掘工具通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。„天文学‰JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了颗新的恒星„网上冲浪‰通过将数据挖掘算法应用于网络访问日志从与市场相关的网页中发现消费者的偏爱和行为,分析网络行销的有效性改善网络站点组织。这就是新兴的WEB挖掘研究数据挖掘:数据库中的知识挖掘(KDD)‰数据挖掘知识挖掘的核心数据清理数据集成数据库数据仓库任务相关数据选数据挖掘模式评估知识挖掘的步骤„了解应用领域‰了解相关的知识和应用的目标„创建目标数据集:选择数据„数据清理和预处理:(这个可能要占全过程%的工作量)„数据缩减和变换‰找到有用的特征维数缩减变量缩减不变量的表示。„选择数据挖掘的功能‰数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等„选择挖掘算法„数据挖掘:寻找感兴趣的模式„模式评估和知识表示‰可视化转换消除冗余模式等等„运用发现的知识数据挖掘和商业智能支持商业决策的潜能不断增长最终用商业分析数据分析DBA决策支持数据表可视化技数据挖信息发数据探索在线分析处理(OLAP)多维分析统计分析查询和报数据仓库数据市数据论文,文件,信息提供商,数据库系统,联机事务处理系统体系结构:典型数据挖掘系统数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成在何种数据上进行数据挖掘„关系数据库„数据仓库„事务数据库„高级数据库系统和信息库‰空间数据库‰时间数据库和时间序列数据库‰流数据‰多媒体数据库‰面向对象数据库和对象关系数据库‰异种数据库和遗产(legacy)数据库‰文本数据库和万维网(WWW)空间数据库„空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。„常见的空间数据库数据类型‰地理信息系统(GIS)‰遥感图像数据‰医学图像数据„数据挖掘技术的应用:通过空间分类和空间趋势分析引入机器学习算法对有用模式进行智能检索时间数据库和时间序列数据库„时间数据库和时间序列数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的时间。时间序列数据库存放随时间变化的值序列。„对时间数据库和时间序列数据库的数据挖掘,可以通过研究事物发生发展的过程有助于揭示事物发展的本质规律可以发现数据对象的演变特征或对象变化趋势。流数据„与传统的数据库技术中的静态数据不同流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。„主要应用场合‰网络监控‰网页点击流‰股票市场‰流媒体…等等„与传统数据库技术相比流数据在存储、查询、访问、实时性的要求等方面都有很大区别。多媒体数据库„多媒体数据库实现用计算机管理庞大复杂的多媒体数据主要包括包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。„对于多媒体数据库的数据挖掘需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。面向对象数据库和对象关系数据库„面向对象数据库是面向对象技术和数据库技术结合的产物该技术对数据以对象的形式进行存储并在这个基础上实现了传统数据库的功能包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。„对象-关系数据库基于对象-关系模型构造该模型通过处理复杂对象的丰富数据类型和对象定位等功能扩充关系模型。„面向对象数据库和对象-关系数据库中的数据挖掘会涉及一些新的技术比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。异构数据库和历史(legacy)数据库„历史数据库是一系列的异构数据库系统的集合包括各同种类的数据库系统像关系数据库、网络数据库、文件系统等等。„有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。„对于异构数据库系统实现数据共享应当达到两点:一是实现数据库转换二是实现数据的透明访问。„WEBSERVICE技术的出现有利于历史数据库数据的重新利用。文本数据库和万维网(WWW)„文本数据库存储的是对对象的文字性描述。„文本数据库的分类‰无结构类型(大部分的文本资料和网页)‰半结构类型(XML数据)‰结构类型(图书馆数据)„万维网(WWW)可以被看成最大的文本数据库„数据挖掘内容‰内容检索‰WEB访问模式检索数据挖掘的主要方法()„概念类描述:特性化和区分‰归纳总结和对比数据的特性。比如:对每个月来网站购物超过元的顾客的描述:-岁有正常职业信用程度良好。„关联分析‰发现数据之间的关联规则这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。‰广泛的用于购物篮或事务数据分析。数据挖掘的主要方法()„分类和预测‰通过构造模型(或函数)用来描述和区别类或概念用来预测类型标志未知的对象类。„比如:按气候将国家分类按汽油消耗定额将汽车分类‰导出模型的表示:判定树、分类规则、神经网络‰可以用来预报某些未知的或丢失的数字值„聚类分析‰将类似的数据归类到一起形成一个新的类别进行分析。‰最大化类内的相似性和最小化类间的相似性数据挖掘的主要方法()„孤立点分析‰孤立点:一些与数据的一般行为或模型不一致的孤立数据‰通常孤立点被作为“噪音”或异常被丢弃但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。„趋势和演变分析‰描述行为随时间变化的对象的发展规律或趋势„趋势和偏差:回归分析„序列模式匹配:周期性分析„基于类似性的分析„其他定向模式或统计分析所有模式都是有趣的吗?„数据挖掘可能产生数以千计的模式或规则但并不是所有的模式或规则都是令人感兴趣的。„模式兴趣度的度量‰一个模式是有趣的如果()它易于被人理解()在某种程度上对于新的或测试数据是有效的()具有潜在效用()新颖的()符合用户确信的某种假设„模式兴趣度的客观和主观度量‰客观度量:基于所发现模式的结构和关于它们的统计比如:支持度、置信度等等‰主观度量:基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等能够产生所有有趣模式并且仅产生有趣模式吗?„找出所有有趣的模式:数据挖掘算法的完全性问题‰数据挖掘系统能够产生所有有趣的模式吗‰试探搜索vs穷举搜索‰关联vs分类vs聚类„只搜索有趣的模式:数据挖掘算法的最优化问题‰数据挖掘系统可以仅仅发现有趣的模式吗?‰方法„首先生成所有模式然后过滤那些无趣的„仅仅生成有趣的模式挖掘查询优化数据挖掘:多个学科的融合数据挖掘数据库系统统计学其他学科算法机器学习可视化数据挖掘系统的分类„一般功能‰描述性的数据挖掘‰预测性的数据挖掘„不同的视角,不同的分类‰根据所挖掘的数据库类型分类‰根据挖掘的知识类型分类‰根据挖掘所用的技术分类‰根据数据挖掘的应用分类多种数据挖掘的视角„根据所挖掘的数据库分类‰关系数据库,事务数据库,流式数据,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,历史数据库,WWW„根据挖掘的知识类型‰特征分析,区分,关联分析,分类聚类,孤立点分析演变分析,偏差分析等等‰多种方法的集成和多层机挖掘„根据挖掘所用的技术‰面向数据库的挖掘、数据仓库、OLAP、机器学习、统计学、可视化等等„根据挖掘所用的应用‰金融,电信,银行,欺诈分析,DNA分析,股票市场,Web挖掘等等OLAP挖掘:数据挖掘技术和数据仓库技术的集成„数据挖掘系统、数据库管理系统和数据仓库系统的耦合‰无耦合,松耦合,半紧耦合,紧耦合„联机分析和挖掘数据(OLAM)‰挖掘和OLAP(联机分析处理)技术的集成„多个抽象层的交互知识挖掘‰在不同层次上通过交互地在数据空间和知识空间下钻、上卷和转轴来挖掘知识和模式的必要性„多种挖掘功能的集成‰特性化分类,先聚类分析后关联分析OLAM体系结构数据仓库元数据多维数据库MDDBOLAM引擎OLAP引擎UserGUIAPIDataCubeAPIDatabaseAPI数据清数据集成第层OLAPOLAM第层MDDB第层数据储存第层用户接口过滤集成过滤数据库挖掘查询挖掘结果数据挖掘的主要问题()„挖掘方法‰在不同的数据类型中挖掘不同类型的知识,eg,生物数据,流式数据,Web数据‰性能:效率,有效性,和可伸缩性‰模式评估:兴趣度问题‰背景知识的合并‰处理噪声何不完全数据‰并行,分布式和增量挖掘算法‰新发现知识与已有知识的集成:知识融合数据挖掘的主要问题()„用户交互‰数据挖掘查询语言和特定的数据挖掘‰数据挖掘结果的表示和显示‰多个抽象层的交互知识挖掘„应用和社会因素‰特定域的数据挖掘不可视的数据挖掘‰数据安全,完整和保密的保护数据仓库和数据挖掘的OLAP技术数据仓库和数据挖掘的OLAP技术„什么是数据仓库?„多维数据模型„数据仓库的体系结构„数据仓库实现„数据立方体技术的进一步发展„从数据仓库到数据挖掘什么是数据仓库„数据仓库的定义很多但却很难有一种严格的定义‰它是一个提供决策支持功能的数据库它与公司的操作数据库分开维护。‰为统一的历史数据分析提供坚实的平台对信息处理提供支持„“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合支持管理部门的决策过程”WHInmon(数据仓库构造方面的领头设计师)„建立数据仓库(datawarehousing):‰构造和使用数据仓库的过程。数据仓库关键特征一面向主题„围绕一些主题如顾客、供应商、产品等„关注决策者的数据建模与分析而不是集中于组织机构的日常操作和事务处理。„排除对于决策无用的数据提供特定主题的简明视图。数据仓库关键特征二数据集成„一个数据仓库是通过集成多个异种数据源来构造的。‰关系数据库一般文件联机事务处理记录„使用数据清理和数据集成技术。‰确保命名约定、编码结构、属性度量等的一致性。‰当数据被移到数据仓库时它们要经过转化。数据仓库关键特征三随时间而变化„数据仓库的时间范围比操作数据库系统要长的多。‰操作数据库系统:主要保存当前数据。‰数据仓库:从历史的角度提供信息(比如过去年)„数据仓库中的每一个关键结构都隐式或显式地包含时间元素而操作数据库中的关键结构可能就不包括时间元素。数据仓库关键特征四数据不易丢失„尽管数据仓库中的数据来自于操作数据库但他们却是在物理上分离保存的。‰操作数据库的更新操作不会出现在数据仓库环境下。„不需要事务处理恢复和并发控制等机制„只需要两种数据访问:‰数据的初始转载和数据访问(读操作)数据仓库与异种数据库集成„传统的异种数据库集成:‰在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)‰查询驱动方法当从客户端传过来一个查询时首先使用元数据字典将查询转换成相应异种数据库上的查询然后将这些查询映射和发送到局部查询处理器‰缺点:复杂的信息过虑和集成处理竞争资源„数据仓库:更新驱动‰将来自多个异种源的信息预先集成并存储在数据仓库中供直接查询和分析‰高性能数据仓库与操作数据库系统„操作数据库系统的主要任务是联机事务处理OLTP‰日常操作:购买库存银行制造工资注册记帐等„数据仓库的主要任务是联机分析处理OLAP‰数据分析和决策„OLTP和OLAP的主要区别:‰用户和系统的面向性:顾客VS市场‰数据内容:当前的、详细的数据VS历史的、汇总的数据‰数据库设计:实体-联系模型(ER)和面向应用的数据库设计VS星型雪花模型和面向主题的数据库设计‰视图:当前的、企业内部的数据VS经过演化的、集成的数据‰访问模式:事务操作VS只读查询(但很多是复杂的查询)OLTP系统和OLAP系统的比较特征OLTPOLAP任务特点操作处理信息处理面向事务分析用户办事员、DBA、数据库专业人员经理、主管、数据分析员功能日常操作长期信息分析、决策支持DB设计基于ER面向应用星型雪花面向主体数据最新的、详细的历史的、汇总的视图详细的、二维关系型汇总的、多维的任务单位简短的事务复杂的查询访问数据量数十个数百万个用户数数千个数百个DB规模M数GBGB数TB优先性高性能、高可用性高灵活性、端点用户自治度量事务吞吐量查询吞吐量、响应时间为什么需要一个分离的数据仓库„提高两个系统的性能‰DBMS是为OLTP而设计的:存储方式,索引,并发控制,恢复‰数据仓库是为OLAP而设计:复杂的OLAP查询,多维视图汇总„不同的功能和不同的数据:‰历史数据:决策支持需要历史数据而这些数据在操作数据库中一般不会去维护‰数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)‰数据质量:不同的源使用不一致的数据表示、编码和格式对这些数据进行有效的分析需要将他们转化后进行集成从关系表和电子表格到数据立方体„数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织该主题用事实表表示。事实是数值度量的。„数据立方体允许以多维数据建模和观察。它由维和事实定义。„维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联称为维表。„事实表包括事实的名称或度量以及每个相关维表的关键字„在数据仓库的研究文献中一个n维的数据的立方体叫做基本方体。给定一个维的集合我们可以构造一个方体的格每个都在不同的汇总级或不同的数据子集显示数据方体的格称为数据立方体。维方体存放最高层的汇总称作顶点方体而存放最底层汇总的方体则称为基本方体。数据立方体一个方体的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplierDcuboidsDcuboidsD(apex)cuboidDcuboidsD(base)cuboid数据仓库的概念模型„最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。‰星型模式(Starschema):事实表在中心周围围绕地连接着维表(每维一个)事实表含有大量数据没有冗余。‰雪花模式(Snowflakeschema):是星型模式的变种其中某些维表是规范化的因而把数据进一步分解到附加表中。结果模式图形成类似于雪花的形状。‰事实星座(Factconstellations):多个事实表共享维表,这种模式可以看作星型模式集因此称为星系模式(galaxyschema)或者事实星座(factconstellation)星型模式实例timekeydaydayoftheweekmonthquarteryeartimelocationkeystreetcitystateorprovincecountrylocationSalesFactTabletimekeyitemkeybranchkeylocationkeyunitssolddollarssoldavgsalesMeasuresitemkeyitemnamebrandtypesuppliertypeitembranchkeybranchnamebranchtypebranch雪花模式实例timekeydaydayoftheweekmonthquarteryeartimelocationkeystreetcitykeylocationSalesFactTabletimekeyitemkeybranchkeylocationkeyunitssolddollarssoldavgsalesMeasuresitemkeyitemnamebrandtypesupplierkeyitembranchkeybranchnamebranchtypebranchsupplierkeysuppliertypesuppliercitykeycitystateorprovincecountrycity事实星座模式实例timekeydaydayoftheweekmonthquarteryeartimelocationkeystreetcityprovinceorstatecountrylocationSalesFactTabletimekeyitemkeybranchkeylocationkeyunitssolddollarssoldavgsalesMeasuresitemkeyitemnamebrandtypesuppliertypeitembranchkeybranchnamebranchtypebranchShippingFactTabletimekeyitemkeyshipperkeyfromlocationtolocationdollarscostunitsshippedshipperkeyshippernamelocationkeyshippertypeshipper一种数据挖掘查询语言:DMQL„DMQL首先包括定义数据仓库和数据集市的语言原语这包括两种原语定义:一种是立方体定义一种是维定义‰立方体定义(事实表)definecube<cubename><dimensionlist>:<measurelist>‰维定义(维表)definedimension<dimensionname>as(<attributeorsubdimensionlist>)‰特殊案例(共享维表的定义)„第一次作为维表定义“cubedefinition”„然后:definedimension<dimensionname>as<dimensionnamefirsttime>incube<cubenamefirsttime>实例:使用DMQL定义星型模式definecubesalesstartime,item,branch,location:dollarssold=sum(salesindollars),avgsales=avg(salesindollars),unitssold=count(*)definedimensiontimeas(timekey,day,dayofweek,month,quarter,year)definedimensionitemas(itemkey,itemname,brand,type,suppliertype)definedimensionbranchas(branchkey,branchname,branchtype)definedimensionlocationas(locationkey,street,city,provinceorstate,country)实例:使用DMQL定义雪花模式definecubesalessnowflaketime,item,branch,location:dollarssold=sum(salesindollars),avgsales=avg(salesindollars),unitssold=count(*)definedimensiontimeas(timekey,day,dayofweek,month,quarter,year)definedimensionitemas(itemkey,itemname,brand,type,supplier(supplierkey,suppliertype))definedimensionbranchas(branchkey,branchname,branchtype)definedimensionlocationas(locationkey,street,city(citykey,provinceorstate,country))度量的分类„一个数据立方体的度量是一个数值函数该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类:‰分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。„比如:count()sum()min()max()等‰代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数)而每个参数值都可以有一个分布的聚集函数求得。„比如:avg()minN()standarddeviation()‰整体的(holistic):描述函数的子聚集所需的存储没有一个常数界。„比如:median()mode()rank()概念分层:location维的一个概念分层allEuropeNorthAmericaMexicoCanadaSpainGermanyVancouverMWindLChanallregionofficecountryTorontoFrankfurtcity多维数据模型上的OLAP操作„上卷(rollup):汇总数据‰通过一个维的概念分层向上攀升或者通过维规约„下钻(drilldown):上卷的逆操作‰由不太详细的数据到更详细的数据可以通过沿维的概念分层向下或引入新的维来实现„切片和切块(sliceanddice)‰投影和选择操作„转轴(pivot)‰立方体的重定位可视化或将一个维立方体转化维一个维平面序列„其他OLAP操作‰钻过(drillacross):执行涉及多个事实表的查询‰钻透(drillthrough):使用关系SQL机制钻到数据立方体的底层到后端关系表数据仓库设计:一个商务分析框架„数据仓库设计的四种视图‰自顶向下视图„允许我们选择数据仓库所需的相关信息‰数据源视图„揭示被操作数据库系统所捕获、存储和管理的信息‰数据仓库视图„有事实表和维表所组成‰商务查询视图„从最终用户的角度透视数据仓库中的数据数据仓库的设计过程„自顶向下法、自底向上法或者两者的混合方法‰自顶向下法:由总体设计和规划开始(成熟)‰自底向上法:以实验和原型开始(快速)„从软件过程的观点‰瀑布式方法:在进行下一步前每一步都进行结构化和系统的分析‰螺旋式方法:功能渐增的系统的快速产生相继版本之间间隔很短„典型的数据仓库设计过程‰选取待建模的商务过程‰选取商务过程的粒度‰选取用于每个事实表记录的维‰选取将安放在事实表中的度量三层数据仓库架构DataWarehouseExtractTransformLoadRefreshAnalysisQueryReportsDataminingOLAP服务器MonitorIntegratorMetadata数据源前端工具ServeDataMartsOperationalDBsothersources数据仓库服务器OLAPServer三种数据仓库模型„企业仓库‰搜集关于跨越整个组织的主题的所有信息„数据集市‰企业范围数据的一个子集对于特定的客户是有用的。其范围限于选定的主题比如一个商场的数据集市„独立的数据集市VS非独立的数据集市(数据来自于企业数据仓库)„虚拟仓库‰操作数据库上的一系列视图‰只有一些可能的汇总视图被物化数据仓库开发一个推荐的方法定义高层数据模数据集市数据集市分布式数据集市多层数据仓库企业数据仓库模型提炼模型提OLAP服务器类型„关系OLAP服务器(ROLAP)‰使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据而用OLAP中间件支持其余部分‰包括每个DBMS后端优化聚集导航逻辑的实现附加的工具和服务‰较大的可扩展性„多维OLAP服务器(MOLAP)‰基于数组的多维存储引擎(稀疏矩阵技术)‰能对预计算的汇总数据快速索引„混合OLAP服务器(HOLAP)‰结合上述两种技术更大的使用灵活性„特殊的SQL服务器‰在星型和雪花模型上支持SQL查询数据仓库的实现„难点‰海量数据‰快速反应„OLAP服务器要在几秒内响应决策支持查询„方法‰高效的数据立方体计算技术‰高效的存取方法‰高效的查询处理技术数据立方体的有效计算„数据立方体可以被看成是一个方体的格‰最底层的方体是基本方体‰最顶端的方体(顶点)只包含一个单元的值‰一个n维的数据立方体每维L层可能产生的方体总数是多少?„数据立方体的物化‰预先计算所有方体(全物化)不预先计算任何“非基本”方体(不物化)有选择的计算一个所有方体的适当子集(部分物化)‰确定物化哪些方体„考虑工作负荷下的查询、它们的频率和它们的开销等等)(==niiLT方体的操作„DMQL中的方体定义和计算‰definecubesalesitem,city,year:sum(salesindollars)‰computecubesales„上述的computecube子句可以转化为一个类似于SQL的语句‰SELECTitem,city,year,SUM(amount)‰FROMSALES‰CUBEBYitem,city,year„需要计算以下的groupby子句‰(item,city,year)‰(item,city),(itemyear),(city,year)‰(item),(city),(year)‰()(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)方体计算:关系型OLAP的方法(ROLAP)„方体计算的有效方法‰基于ROLAP的方体算法(Agarwaletal’)‰基于数组的算法(MOLAP)(Zhaoetal’)‰自底向上的计算方法(BeyerRamarkrishnan’)‰Hcubing技术(Han,Pei,DongWang:SIGMOD’)„基于ROLAP的方法‰将排序、散列(hashing)和分组操作应用于维的属性以便对相关元组重新排序和聚类‰在某些子聚集上分组作为“部分分组步骤”。‰可以由以前计算的聚集计算新的聚集而不必有基本事实表计算方体计算的多路数组聚集方法()„将数组分成块(chunk,一个可以装入内存的小子方)„压缩的稀疏数组寻址:(chunkid,offset)„通过访问立方体单元计算聚集。可以优化访问单元组的次序使得每个单元被访问的次数最小化从而减少内存访问和磁盘IO的开销。A(month)BaaccccbbbbaaC(item)B(city)哪个是多路数组聚集的最佳遍历次序?方体计算的多路数组聚集方法()A(month)BaaccccbbbbaaC(item)B(city)方体计算的多路数组聚集方法()ABaaccccbbbbaaCB方体计算的多路数组聚集方法()„方法:各平面要按他们大小的升序排列进行排序和计算‰详见书P例‰思想:将最小的平面放在内存中对最大的平面每次只是取并计算一块„这种方法的限制:只有在维数比较小的情况下效果才比较理想(要计算的立方体随维数指数增长)‰如果维的数目比较多可以考虑使用“自底向上的计算”或者时“冰山方体”计算元数据存储„在数据仓库中元数据就是定义数据仓库对象的数据。有以下几种:‰数据仓库结构的描述„仓库模式、视图、维、层次结构、导出数据的定义以及数据集市的位置和内容‰操作元数据„包括数据血统(datalineage)、数据类别(currencyofdata)以及监视信息‰汇总用的算法‰由操作环境到数据仓库的映射‰关于系统性能的数据„索引profiles数据刷新、更新或复制事件的调度和定时‰商务元数据„商务术语和定义、数据拥有者信息、收费政策等元数据的使用„元数据与数据一起构成了数据仓库中的数据模型元数据所描述的更多的是这个模型的结构方面的信息。„在数据仓库中元数据的主要用途包括:‰用作目录帮助决策支持系统分析者对数据仓库的内容定义‰作为数据仓库和操作性数据库之间进行数据转换时的映射标准‰用于指导当前细节数据和稍加综合的数据之间的汇总算法指导稍加综合的数据和高度综合的数据之间的汇总算法。数据仓库后端工具和使用程序„数据提取:‰从多个外部的异构数据源收集数据„数据清理‰检测数据种的错误并作可能的订正„数据变换‰将数据由历史或主机的格式转化为数据仓库的格式„装载‰排序、汇总、合并、计算视图检查完整性并建立索引和分区„刷新‰将数据源的更新传播到数据仓库中数据仓库的应用„数据仓库的三种应用‰信息处理„支持查询和基本的统计分析并使用交叉表、表、图标和图进行报表处理‰分析处理„对数据仓库中的数据进行多维数据分析„支持基本的OLAP操作切块、切片、上卷、下钻、转轴等‰数据挖掘„从隐藏模式中发现知识„支持关联分析构建分析性模型分类和预测并用可视化工具呈现挖掘的结果„三种应用间的差别从联机分析处理到联机分析挖掘„为什么要联机分析挖掘‰数据仓库中有高质量的数据„数据仓库中存放着整合的、一致的、清理过的数据‰围绕数据仓库的信息处理结构„存取、集成、合并多个异种数据库的转换ODBCOLEDB连接,Web访问和访问工具等‰基于OLAP的探测式数据分析„使用上卷、下钻、切片、转轴等技术进行数据挖掘‰数据挖掘功能的联机选择„多种数据挖掘功能、算法和任务的整合联机分析挖掘的体系结构数据仓库元数据多维数据库OLAM引擎OLAP引擎用户图形界面API数据方体数据库数据清数据集成LayerOLAPOLAMLayer多维数据库Layer数据存储Layer用户界面数据的过滤、集成过滤数据库基于约束的数据挖掘挖掘结果数据预处理主要内容„为什么要预处理数据?„数据清理„数据集成和变换„数据归约为什么要预处理数据?„现实世界的数据是“肮脏的”‰不完整的:有些感兴趣的属性缺少属性值或仅包含聚集数据‰含噪声的:包含错误或者“孤立点”‰不一致的:在编码或者命名上存在差异„没有高质量的数据就没有高质量的挖掘结果‰高质量的决策必须依赖高质量的数据‰数据仓库需要对高质量的数据进行一致地集成数据质量的多维度量„一个广为认可的多维度量观点:‰精确度‰完整度‰一致性‰合乎时机‰可信度‰附加价值‰可访问性„跟数据本身的含义相关的‰内在的、上下文的、表象的数据预处理的主要任务„数据清理‰填写空缺的值平滑噪声数据识别、删除孤立点解决不一致性„数据集成‰集成多个数据库、数据立方体或文件„数据变换‰规范化和聚集„数据归约‰得到数据集的压缩表示它小得多但可以得到相同或相近的结果„数据离散化‰数据归约的一部分通过概念分层和数据的离散化来规约数据对数字型数据特别重要数据预处理的形式空缺值„数据并不总是完整的‰例如:数据库表中很多条记录的对应字段没有相应值比如销售表中的顾客收入„引起空缺值的原因‰设备异常‰与其他已有数据不一致而被删除‰因为误解而没有被输入的数据‰在输入时有些数据应为得不到重视而没有被输入‰对数据的改变没有进行日志记载„空缺值要经过推断而补上如何处理空缺值„忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述)当每个属性缺少值的百分比变化很大时它的效果非常差。„人工填写空缺值:工作量大可行性低„使用一个全局变量填充空缺值:比如使用unknown或„使用属性的平均值填充空缺值„使用与给定元组属同一类的所有样本的平均值„使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法噪声数据„噪声:一个测量变量中的随机错误或偏差„引起不正确属性值的原因‰数据收集工具的问题‰数据输入错误‰数据传输错误‰技术限制‰命名规则的不一致„其它需要数据清理的数据问题‰重复记录‰不完整的数据‰不一致的数据如何处理噪声数据„分箱(binning):‰首先排序数据并将他们分到等深的箱中‰然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等„聚类:‰监测并且去除孤立点„计算机和人工检查结合‰计算机检测可疑数据然后对它们进行人工判断„回归‰通过让数据适应回归函数来平滑数据数据平滑的分箱方法„price的排序后数据(单位:美元):„划分为(等深的)箱:‰箱:‰箱:‰箱:„用箱平均值平滑:‰箱:‰箱:‰箱:„用箱边界平滑:‰箱:‰箱:‰箱:聚类回归xy=xyXY’Y数据集成„数据集成:‰将多个数据源中的数据整合到一个一致的存储中„模式集成:‰整合不同数据源中的元数据‰实体识别问题:匹配来自不同数据源的现实世界的实体比如:Acustid=Bcustomerno„检测并解决数据值的冲突‰对现实世界中的同一实体来自不同数据源的属性值可能是不同的‰可能的原因:不同的数据表示不同的度量等等处理数据集成中的冗余数据„集成多个数据库时经常会出现冗余数据‰同一属性在不同的数据库中会有不同的字段名‰一个属性可以由另外一个表导出如“年薪”„有些冗余可以被相关分析检测到„仔细将多个数据源中的数据集成起来能够减少或避免结果数据中的冗余与不一致性从而可以提高挖掘的速度和质量。数据变换„平滑:去除数据中的噪声„聚集:汇总数据立方体的构建„数据概化:沿概念分层向上汇总„规范化:将数据按比例缩放使之落入一个小的特定区间‰最小-最大规范化‰zscore规范化‰小数定标规范化„属性构造‰通过现有属性构造新的属性并添加到属性集中。数据变换规范化„最小-最大规范化„zscore规范化„小数定标规范化AAAAAAminnewminnewmaxnewminmaxminvv)('=AAdevstandmeanvv'=jvv'=其中j是使Max(||)<的最小整数'v数据归约策略„数据仓库中往往存有海量数据在其上进行复杂的数据分析与挖掘需要很长的时间„数据归约‰数据归约可以用来得到数据集的归约表示它小得多但可以产生相同的(或几乎相同的)分析结果„数据归约策略‰数据立方体聚集‰维归约‰数据压缩‰数值归约‰离散化和概念分层产生„用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。数据立方体聚集„最底层的方体对应于基本方体‰基本方体对应于感兴趣的实体„在数据立方体中存在着不同级别的汇总‰数据立方体可以看成方体的格‰每个较高层次的抽象将进一步减少结果数据„数据立方体提供了对预计算的汇总数据的快速访问‰使用与给定任务相关的最小方体‰在可能的情况下对于汇总数据的查询应当使用数据立方体维归约„通过删除不相干的属性或维减少数据量„属性子集选择‰找出最小属性集使得数据类的概率分布尽可能的接近使用所有属性的原分布‰减少出现在发现模式上的属性的数目使得模式更易于理解„启发式的(探索性的)方法‰逐步向前选择‰逐步向后删除‰向前选择和向后删除相结合‰判定归纳树探索性选择方法„d个属性有d个可能的子集„逐步向前选择‰由空属性集开始选择原属性集中最好的属性并将其添加入该集合重复该步骤。„逐步向后删除‰由整个属性集开始每一步都删除掉尚在属性集中的最坏属性„向前选择和向后删除相结合‰每一步选择一个最好属性并删除一个最坏属性„可以使用一个临界值来判定上述三种方法的结束条件„判定归纳树数据压缩„有损压缩VS无损压缩„字符串压缩‰

用户评论(1)

0/200
  • xdw8933 2012-06-21 18:36:33

    3q,挺清晰

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/49
仅支持在线阅读

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部