首页 浅谈数据挖掘的技术应用及其在Web中的发展

浅谈数据挖掘的技术应用及其在Web中的发展

举报
开通vip

浅谈数据挖掘的技术应用及其在Web中的发展浅谈数据挖掘的技术应用及其在Web 中的发展 摘要: 随着信息产业的迅猛快速的发展以及Internet/Web技术的快速普及,使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息,从而不能有效地进行分析处理。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。并且由于数据挖掘技术对网络应用提供了强大支持,所以如何在Web这个全球最大的数据集合中发现有用信息无...

浅谈数据挖掘的技术应用及其在Web中的发展
浅谈数据挖掘的技术应用及其在Web 中的发展 摘要: 随着信息产业的迅猛快速的发展以及Internet/Web技术的快速普及,使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化,无法从 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 面上看出他们所蕴涵的有用信息,从而不能有效地进行分析处理。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。并且由于数据挖掘技术对网络应用提供了强大支持,所以如何在Web这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。本文从现阶段出发简要的概述数据库技术的现状、数据挖掘的技术方法,并对其在Web 挖掘中的应用,出现的问题和发展方向进行说明。 关键字:数据挖掘数据挖掘技术 Web挖掘发展方向 一、数据挖掘的起源和概念 数据是进行信息化处理的基础,从数据中获取重要信息并将其转化为实际的生产和应用效果变得越来越广泛,也推动着社会生产和市场经济的快速发展。尽管现代的数据库技术已经相当优秀能够使我们使我们很容易的存储大量的数据流,但还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。以往,我们通常由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则来获取有用信息。但由于专家所拥有知识的有局限性,所以对于获取的信息是否完全表达了数据本身还不是很确定。传统的知识获取技术已经无法满足巨型数据仓库,数据挖掘技术就应运而生。 数据挖掘是指从数据中自动地抽取模型。数据挖掘包括以下步骤:从大规模数据库中(或从其他来源)取得数据;选择合适的特征属性;挑选合适的样本策略;剔除数据中不正常的数据并补足不够的部分;用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配;辨别所得到的是否是知识则需将得到的结果信息化或可视化,然后与现有的知识相结合比较。这些步骤是从数据到信息的必由之路。数据挖掘的研究领域涉及广泛,主要包括数据库系统,基于知识的系统,人工智能,机 器学习,知识获取,统计学,空间数据库和数据可视化等领域。 二、数据挖掘技术的方法和应用 数据挖掘技术的方法很多,根据开采任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据开采对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据开采方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。 由于数据的独特性质使得数据挖掘技术应用的领域非常广泛。一般包括一下几个方面: 科学研究:从科学研究方法学的角度看,科学研究可分为三类:理论科学、实验科学和计算科学。计算科学是现代科学的一个重要标志。计算科学工作者主要和数据打交道,每天要分析各种大量的实验或观测数据。随着先进的科学数据收集工具的使用,如观测卫星、遥感器、DNA分子技术等,数据量非常大,传统的数据分析工具无能为力,因此必须有强大的智能型自动数据分析工具才行。数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的研究上。基因研究中,同功能的蛋白质)和RNA分子的结构和功能。近几年,通过用计算生物分子系列分析方法,尤其是基因数据库搜索技术已在基因研究上作出了很多重大发现。 市场行销:由于管理信息系统和POS系统在商业尤其是零售业内的普遍使用,特别是条形码技术的使用,从而可以收集到大量关于用户购买情况的数据,并且数据量在不断激增。对市场行销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据的分析,可以得到关于顾客购买取向和兴趣的信息,从而为商业决策提供了可靠的依据。数据库数据挖掘在行销业上的应用可分为两类:数据库行销(databasemarketing)和货篮分析(basketanalysis)。 金融投资:典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。由于金融投资的风险很大,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。 产品制造:随着现代技术越来越多地应用于产品制造业,制造业已不是人们想象中的手工劳动,而是集成了多种先进科技的流水作业。在产品的生产制造过程中常常伴随有大量的数据,如产品的各种加工条件或控制参数(如时间、温度等控制参数),这些数据反映了每个生产环节的状态,不仅为生产的顺利进行提供了保证,而且通过对这些数据的分析,得到产品质量与这些参数之间的关系。这样通过数据挖掘对这些数据的分析,可以对改进产品质量提出针对性很强的建议,而且有可能提出新的更高效节约的控制模式,从而为制造厂家带来极大的回报。 通信网络管理:现代社会越来越依赖于通信系统来沟通信息,通信系统的结构非常复杂,如何保证通信系统安全运转成为一个极其重要的问题。在通信网络运行过程中,会产生一系列警告,这些警告有的可以置之不理,而有的如果不及时采取措施则会带来不可挽回的损失。由于警告产生的随机性很大,究竟哪些警告可以不予理睬,哪些警告必须迅速处理往往很难判断,一般需要由人工根据经验进行处理,效率不高。数据挖掘可以通过分析已有的警告信息的正确处理方法以及警告之间的前后关系的 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 ,得到警告之间的关联规则,这些有价值的信息可用于网络故障的定位检测和严重故障的预测等等任务中。 如今,数据挖掘技术的应用已经深入各行各业,并对其发展产生积极的作用。 三、Web数据挖掘的产生和概念 当下,随着 Internet/Web 技术的快速普及和迅猛发展,使各种信息能以非常低的成本在网络上获得,而从中取得的数据量非常巨大难以计算,而且 Internet/WWW 的还会不断发展,特别是电子商务的蓬勃发展为网络应用提供了强大支持。因此,如何在WWW 这个全球最大的数据集合中获取有用信息,无疑将成为数据挖掘研究的热点。Web 数据挖掘便是指使用数据挖掘技术在WWW 数据中发现潜在的、有用的模式或信息。它建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具 体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析,最后作出归纳性的推理。 Web Mining(Web数据挖掘)是由Oren Etzioni在1996年首先提出的,“因特网的数据挖掘”、“Web知识发现”、“网络信息挖掘”、“Web信息挖掘”等也可以认为是Web挖掘的同义词。一般,对Web 数据挖掘做如下定义:Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么Web 挖掘的过程就是从输入到输出的一个映射。 四、Web数据挖掘技术应用及其发展 Web数据挖掘的对象包括一切通过Web形成的数据。根据挖掘对象的不同,可将Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用挖掘。Web数据挖掘的流程1)资源发现(Resource Finding):是指从Web获取并返回文本资源的过程。文本资源最常见的是HTML文档,其他的还有电子邮件、新闻组、BBS、网站的日志数据或通过Web形成的交易数据库中的数据等。2)信息选择和预处理(Information Selection and Pre—processing):是从取得的Web资源中剔除无用信息和将信息进行必要的整理。3)模式识别(Model Identify):这个阶段主要运用数据挖掘技术和统计方法,从Web使用记录中挖掘知识。实现算法可以是统计分析、路径分析、关联规则、序列模式以及分类聚类等。4)模式分析(Model Analysis):这个阶段的任务是采用合适、成熟的技术和工具,进行模式的分析,从而辅助分析人员的理解,使采用各种工具挖掘出的模式得到很好的利用。 Web数据挖掘的应用涉及到电子商务、网站 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 和搜索引擎服务等方面。1)电子商务运用Web数据挖掘技术能够从Web Server的日志记录中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而做出预测性分析。2)网站设计通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信息。3)搜索Google搜索的最大特色就体现在它所采用的对网页Links信息的挖掘技术上。 Web数据挖掘的发展方向:在未来一段时间内,Web挖掘中的以下方面可能成为研究和应用热点。 1)高性能Web搜索引擎。尽管搜索引擎性能已有了较大提高,但搜索引擎的最终目标是“理解用户需求精确返回所需”。如何 翻译 阿房宫赋翻译下载德汉翻译pdf阿房宫赋翻译下载阿房宫赋翻译下载翻译理论.doc 用户的非专业搜索请求,实现自然语言处理,涉及兴趣爬虫、元搜索引 擎、垂直搜索、移动搜索和多媒体搜索等方面的研究。 2)Web数据的特征描述与监控。如何表示Web文本内容的特征数据,如何表示和识别Web中的图像、flash等多媒体数据,进而进行网页分类、内容跟踪、过滤和报警等,对于不良网站的监控等有着积极意义。 3)Web数据的获取与集成。包括Web文本特征的提取和表示,如何用一种广泛兼容的半结构化数据模型表示网页,如何抽取动态网页中的数据,如何在分布的Web中获取信息,如何在指定网页中快速定位所需的数据区,如何利用数据库和数据仓库技术查询和存储Web内容等。 结语: 本文简要的阐述了数据挖掘的起源和概念从并实际应用环境下分析了数据挖掘技术在当今社会中的许多方面所起的重要作用。并从中就数据挖掘在Web中的应用与发展进行了简要的分析,讨论了Web数据挖掘的概念,阐述了Web数据挖掘的分类、工作流程、应用领域及未来的发展方向。不难发现在信息化非常发达的当下,数据挖掘技术正为我们的生产生活提供着巨大的帮助,认真完善数据挖掘技术,发挥数据的潜能相信一定可以充分利用信息资源,为生活工作提供巨大的帮助。 参考文献: [1] Jiawei Han , Micheline Kamber. DataMining: Concept and Techniques. Morgan Kaufmann Publishers,Inc.2001. [2] R. Kosla and H. Blockeel, “Web mining research a survey,” SIG KDD Explorations, vol. 2, pp. 1–15, July 2000. [3] J. Srivastava, R. Cooley, M. Deshpande and P. Tan, Web usage mining:discovery and applications of usage patterns from web data. SIGKDDExplorations, 1(2):12–23, 2000. [4] R. Kosla and H. Blockeel, “Web mining research a survey,” SIG KDD Explorations, vol. 2, pp. 1–15, July 2000. [5]Raymond Kosala,Hdendrik Blockeel. Web Mining Research: A Survey SIGKDD Exploration,2(1),2000. [6]Stumme,Hotho,Berendt. Usage Mining for and on the Semantic Web.2003.4 [7]王军.数据挖掘技术[J] .计算机世界, 1998 [8]陶浦周,李强.Sybase数据库技术大全[M] .北京:科学出版社, 1995 [9]张蓉.Web挖掘技术研究[J].计算机工程,2006,32(15):4-6. [10]刘敏钰,薛鸿民.WEB数据挖掘系统的设计及关键技术研究.航空技术计算,2005(35) [11]庄小叶,周新生,郝中军,李轲 WEB数据挖掘研究探析[期刊论文]-数字技术与应用2010(4)
本文档为【浅谈数据挖掘的技术应用及其在Web中的发展】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_219945
暂无简介~
格式:doc
大小:22KB
软件:Word
页数:0
分类:互联网
上传时间:2020-03-06
浏览量:1