《数据挖掘与数据仓库技术》试卷
姓名 ----------------- ,班级 ------------------------ ,学号 ----------------------
一、问答题:
1.数据仓库和数据库有何不同?它们有哪些相似之处?
答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,
数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据.它用表组织数据,采用ER数据模型。
它们都为数据挖掘提供了源数据,都是数据的组合.
2.什么是数据挖掘?请举例。
数据挖掘:是从大量数据中提取或"挖掘"知识,也就是从存放在数据库,数据仓库或其他信息库中的数据挖掘有趣知识的过程.数据挖掘是可以从数据库中提取有趣的知识规律或高层信息发现的知识,可以用于决策,过程控制,信息管理,查询处理.
它不是一种从数据库,统计学和机器学习发展的技术的简单转化,它涉及多学科技术的集成,包括数据库技术,统计学,机器学习,高性能计算模式识别,神经网络,数据可视化,信息检索,图象与信号处理和空间数据
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
.随着数据库技术发展,数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为"数据丰富,但信息贫乏",所以数据挖掘出来了.
当把数据挖掘看作知识发现过程时,它涉及的步骤为:
1)数据清理 2)数据集成 3)数据选择
4)数据变换 5)数据挖掘 6)模式评估 7)知识表示
3.试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。
因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理,另外,还支持复杂的多维查询。
当异种数据源上的数据格式一致或者转换比较容易,并且所要求的查询比较简单,不需要复杂的多维查询时,查询驱动方法可能更受欢迎。
4.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。
答:1)忽略元组 2)人工填写空缺值 3)使用一个全局常量填充空缺值
4)使用属性的平均值填充空缺值 5)使用与给定元组属同一类的所有样本的平均值 6)使用最可能的值填充空缺值。其中,方法3到6使数据倾斜,填入的值可能不正确。不过,方法6是最常用的方法
5.对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。
数据立方体方法是基于数据仓库的,面向预计算的,物化视图的方法。它在OLAP或数据挖掘查询提交处理之前,脱机计算聚集。
面向属性归纳是面向关系数据库查询的,基于概化的,联机的数据分析处理技术。
面向属性归纳方法更有效,因为在面向属性归纳之前进行数据聚焦,根据数据挖掘提供的信息进行数据收集,选择相关的数据集不仅使数据挖掘更有效,而且与整个数据库挖掘相比,能产生更有意义的规则。
二、 填空题:
1. 数据挖掘是一个多学科领域,这些学科包括:,数据库系统,统计学,机器学习,可视化和信息科学。
2. 数据挖掘的功能有概念/类描述,关联分析,分类与预测,聚类分析,孤立点分析,演变分析。
3. 数据挖掘的主要问题包括:挖掘方法和用户交互问题,性能问题,数据库类型的多样性问题。
4. 数据挖掘的性能问题包括:数据挖掘算法的有效性,算法的可伸缩性,并行、分布式、增量挖掘算法的研究。
三、证明题:
Apriori算法使用子集支持度性质的先验知识。
1.证明频繁集的所有非空子集必须也是频繁的。
证明:根据定义,如果项集
不满足最小支持度阈值min_sup,则
不是频繁的,即
如果
想添加到
,则结果项集不可能不更频繁出现。因此,也不是频繁的,即矛盾。
2.证明项集
的任意非空子集
的支持度至少和s的支持度一样大。
同理可证。
四、算法分析与扩展
任意选择《数据挖掘》书的第一章至第八章中一个算法进行分析与扩展,要求:
1 .描述该算法的思想,层次结构。
2.写出比较易懂的算法
流程
快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计
图或伪代码
3.如果让你用程序来实现算法,你准备采用什么数据结构实现(包括怎样读入和存放要处理的数据以及算法处理流程中需要用到的数据结构),并做具体说明。
4.指出算法的不足之处,应该从哪些方面增强算法的功能和性能。
K-平均算法:
算法描述:
首先,随机地选择什对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。
通常,采用平方误差准则,其定义如下:
这里的E是数据库中所有对象的平方误差的总和,P是空间中的点,表示给定的数据对象,m;是簇C;的平均值k和m;都是多维的人这个准则试图使生成的结果簇尽可能地紧凑和独立。
这个算法尝试找出使平方误差函数值最小的k个划分。当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好。对处理大数据集,该算法是相对可伸缩的和高效率的,因为它的复杂度是o(n),其中k<
本文档为【数据挖掘与数据仓库试卷】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。