基于Web数据挖掘的资源服务系统

基于Web数据挖掘的资源服务系统第 25卷 � 第 6期 2010年 12月郑州轻工业学院学报 ( 自然科学版 ) JOURNAL OF ZHENGZHOU UNIVERS ITY OF L IGHT INDUSTRY( Natu ral S cience) Vo .l 25� No. 6 Dec. 2010 � � 收稿日期: 2010- 05- 25 基金项目: 河南省科技厅项目 ( 102300410244) 作者简介: 王春霞 ( 1975� ), 女,河南省沈丘县人, 商丘师范学院副教授,硕士, 主要研...

第 25卷 � 第 6期 2010年 12月郑州轻工业学院学报 ( 自然科学版 ) JOURNAL OF ZHENGZHOU UNIVERS ITY OF L IGHT INDUSTRY( Natu ral S cience) Vo .l 25� No. 6 Dec. 2010 � � 收稿日期: 2010- 05- 25 基金项目: 河南省科技厅项目 ( 102300410244) 作者简介: 王春霞 ( 1975� ), 女,河南省沈丘县人, 商丘师范学院副教授,硕士, 主要研究方向为数据挖掘、数据流. 文章编号: 1004- 1478( 2010) 06- 0037- 04 基于 W eb数据挖掘的资源服务系统王春霞 (商丘师范学院计算机系, 河南商丘 476000) 摘要: 根据W eb数据流的特点,采用W eb数据挖掘技术设计了一个资源服务系统:利用关联、聚类、分类等算法对离线数据进行挖掘,利用概要数据库、滑动窗口、近似因子等技术对动态数据进行处理.该系统由用户层、挖掘层及数据层组成,可实现用户交互、数据流挖掘及数据处理、提供数据资源等功能.该系统还可进行各种类型网站的W eb数据挖掘,作为推广开发服务平台,实现网站资源服务系统的功能,应用于校园网挖掘的效果较好. 关键词:数据流挖掘; W eb数据流;资源服务系统中图分类号: TP393� � � � 文献标志码: A Resource service system based onW eb datam in ing WANG Chun�x ia (D ep t. of Comp., Shangq iu Normal C ollege, Shangq iu 476000, China) Abstract: Based on the characterist ics o fW eb da ta stream, a resource service system w as established w ith W eb datam ining technology wh ich includes associating, c lustering and sort ing used in o ffline data m in ing, and outline da ta base, slip w indow s and sim ilar facto rs used in dynam ic data m ining, and it is composited by user layer, m in ing layer and data layer prov id ing the function of user interaction, data stream m in ing, da� ta processing and data resource co llecting. A lso it can carry out data stream m ining on a ll types ofW ebsite, promo te the development o f serv ice platform, and implement the serv ice ofW eb resource serv ice system. The system is sat isfied for app licat ion in campusW eb m in ing. Key words: m in ing data stream; Web stream; resource serv ice system 0� 引言数据挖掘是从海量数据中找出隐藏在数据背后的知识,挖掘并发现隐含在其中有意义的模式和规则. 被挖掘的数据主要分为静态和动态 2种类型, 针对静态数据挖掘的研究已有很多报道, 主要有以下 2个方面:一是针对W eb数据挖掘技术与应用的研究, 侧重于针对静态数据的挖掘; 二是W eb数据流算法的研究与应用. 而动态数据流挖掘作为数据挖掘技术的分支,近年来逐渐成为研究热点. 本文拟结合静态和动态 2种类型的W eb数据资源,对数据挖掘的资源服务系统设计过程进行全面综述, 以期为今后的系统实现工作提供理论依据.对于静态数据, 本文拟利用关联、聚类、分类等算法 [ 1- 5]进行离线数据的挖掘;而对于动态数据, 则利用概要数据库、滑动窗口、分类、近似因子等技郑州轻工业学院学报 ( 自然科学版 ) 术 [ 6]对在线数据流进行处理. 1� 开发W eb资源服务系统的思想 W eb资源服务系统是针对不同用户上网搜索资源和访问资源的数据需求,对大量用户需求数据进行分类、加工、分析、研究与整合, 从而帮助用户获取多种类型的资源服务. 挖掘W eb数据要从 2方面考虑: 一方面, 从已有的W eb服务器日志记录中去提取离线数据, 利用 W eb挖掘技术进行过滤处理, 提取出 W eb样本库, 为后续挖掘提供参考; 同时对一些异常数据进行独立分析,建立异常数据库样本. 另一方面, 利用数据流的连续、实效和量大的特点, 采用数据流挖掘技术,实现在线数据流的挖掘. 在挖掘的W eb数据结果的基础上, 结合用户资源访问请求, 生成资源服务界面,提供给用户所需的资源. 数据挖掘的关键思想是先对少量的数据进行挖掘、处理和测试, 然后把结果应用于大量数据的挖掘, 从而更好地体现 W eb资源服务. 2� W eb数据挖掘服务系统框架 W eb数据挖掘服务系统由数据层、挖掘层、应用层 3层组成.数据层主要提供各种类型的数据.挖掘层首先对数据层提供的各种类型的数据进行处理和分类, 然后再采用不同的挖掘算法进行挖掘, 进而实现各类库的建设. 应用层主要在各类库的基础上根据用户提出的需求,利用资源决策树提供各类服务资源,进而提升网站的利用率. W eb数据挖掘服务系统的实现由 3个模块组成: 1)W eb数据挖掘模块,该模块针对离线数据进行. 2)W eb数据流挖掘模块,该模块针对在线数据挖掘,实现单条、多条数据流的挖掘. 3)W eb系统服务模块将挖掘出的结果应用在资源服务中. W eb资源服务系统框架见图 1. 3� W eb数据挖掘服务系统的实现 3. 1� 数据层 W eb数据挖掘服务系统的最下层是数据层,提供 2种类型的数据:离线数据和在线数据. 1)离线数据的收集. 数据收集可以从服务器端、客户端、代理服务器端进行. 服务器端数据收集主要通过W eb服务器记录用户访问日志,记录用户图 1� Web资源服务系统框架每次访问网站的网页请求信息. 客户端的用户比较繁杂,数据的收集不便于进行, 但是可通过远程代理进行. 大多用户都是通过代理服务器登录网站的,所以通过代理服务器不仅可以收集多个用户的行为,还可以收集对多个网站的行为. 2)在线数据的收集.数据流的来源主要是用户访问网站点击的数据流, 针对数据流具备特殊、动态、快速变化等特性, 对短时间内大量连续到达的数据流,利用有限的存储空间进行快速挖掘以获取有用信息,这是很关键的步骤. 数据流的存储空间和数据的准确性均需要利用概要描述数据库对数据进行存储,以便根据数据的概要描述获取资源服务的近似结果. 3. 2� 挖掘层 Web数据挖掘层是资源服务系统的核心层, 对收集到的离线数据和在线数据,分别利用W eb数据挖掘算法和Web数据流挖掘算法进行处理. 根据 2 类数据的性质不同分为W eb数据挖掘模块和 W eb 数据流挖掘模块. 3. 2. 1� W eb数据挖掘模块 � 1)数据处理: 由于得到的数据一般具有冗余性及模糊性的特性, 要有效挖掘出数据, 就需要对数据进行预处理, 去掉不相关的数据项, 减少数据库的存储空间, 比如操作系统和浏览器、文件大小等. 2)模式分析:利用数据挖掘的算法解决实际问题 .在优化网站设计时, 就是将每一个用户访问的页面抽象为点, 页面到页面之间的链接抽象为线, 这样就构造出用户访问页面的拓扑结构图, 然后找 �38� 2010年 � 王春霞 :基于W eb数据挖掘的资源服务系统出这些图之间的相关性及其从一些页面到另一些页面之间的最高访问频率的链接, 最后可构造出整个W eb站点的拓扑图, 将整个 W eb站点的所有页面抽象为数字, 那么可以得出很多路径的数字排序.利用聚类中的页面聚类, 找出这些数字之间的相关性,很容易得出页面到页面间的访问频度. 最后找出页面访问频度最高的路径, 重新构造该网站的拓扑结构图. 根据该网站的拓扑结构图, 重新构建该网站,进而提高网站的利用率. 3)模式识别: 得到一个用户访问的页面数据库,并且按照针对不同的用户所访问页面字母序的形式排列; 字母序有助于挖掘的快速进行. 自动在统一站点内部或者预先设计的模型集合中进行模型发现,并挖掘新模型. 4)异常检测:先定义出系统正常状态下的数据参数, 如果出现和正常数据不一样的情况, 就把这种异常定义为 �攻击�.异常检测只能识别那些与正常过程有较大偏差的行为,而无法知道具体的入侵情况. W eb日志中的异常检测是指发现用户不断地重复请求一个页面, 可以分析日志文件进行判断; 用户连续请求某个页面, 说明该页面有可能是被攻击的对象,可以通过用户连续向服务器提出请求的次数和失败的次数来判断.如果请求次数或失败次数超出某个值的时候, 服务器应该拒绝该用户提出的请求,并查看该用户的情况. 5)样本的建立:将各种数据挖掘算法 (聚类、分类、序列模式、关联规则 )集成到样本库中, 网管人员根据需要选择合适的算法.这个过程体现了日志数据挖掘的可选择性和可扩充性. 同时也可根据日志数据的不同选择不同的算法. W eb数据挖掘经过数据收集、信息处理、模式分析和模式识别 4个阶段, 实现概要数据库的建立, 结合离线数据的样本库和数据的异常检测库,实现资源集成, 按照用户访问需求成立网站服务系统, 为用户提供资源服务. 3. 2. 2� W eb数据流挖掘模块 � 1)数据流采集、存储和处理.数据流采集的关键在于如何找到合适的数据流,只有找到合适的数据流, 才能使挖掘的结果更有效、更有用地服务用户. 数据流的来源主要是用户访问的数据流, 根据用户访问的数据流信息,采用数据流模型过滤策略来比对、净化、筛选、整理出有效的数据源. 数据流存储是指利用概要数据结构保留已经处理过的信息, 提取出有用数据的过程. 概要数据库是对一般的数据流进行压缩的一种手段. 因此, 可以定期从概要数据库中抽取数据进行处理. 数据流处理利用滑动窗口技术,从海量数据流中提取一部分样本数据进行处理,将处理后的数据及时有效地保存到样本库和处理库中,同时对一些不确定的数据进行单独处理, 成立异常数据库. 随着时间的推移,将会出现数据量增大而无法存储的情况,这时应及时删除一些过期数据. 直接删除过期数据,会使以后挖掘结果失去参考对象, 影响挖掘准确性,因此应该利用概要数据库提取概要信息并结合新的数据库情况及时更新保留数据. 所以, 当数据流积累一段时间后,应及时提取概要信息. 2)数据流算法的选取. 挖掘数据流是一个长期、动态的过程, 针对各种不同数据流模型设计出不同的数据流处理算法, 数据流算法在处理时, 应按照所取一段时间内的数据或定期抽取, 按时间点等多种方式进行. W eb数据流经常采用滑动窗口模型对最近时间段内的数据进行处理.数据流算法的选取是一个关键问题. 3)挖掘数据流的过程. 增加在线数据流的处理,一般需要先分类、再关联和聚类,最后实现数据流样本库的及时更新. 具体做法是利用分类器, 实现多种分类, 给出算法的阈值, 利用增量算法不断处理来自数据流的新数据, 然后修改分类模型, 将多个已分类的数据应用于样本库, 并修改样本库. 除此之外,还要考虑样本的抽样, 要做到用更少的样本获得更好的精度, 所以分类的精度也是非常关键的一步. 3. 3� 应用层应用层是W eb资源服务系统的最高层,是为用户提供资源服务的层, 是用户使用服务系统的桥梁.该层利用改进站点信息的组成结构, 形成用户感兴趣的W eb页, 并将其存在W eb服务器上, 最后在用户访问的时侯显示给用户. 首先对从挖掘层提取到的数据进行全面的分析,形成集成化的数据, 并建立数据原始链接的有效索引.也可以对各种数据进行分类, 将分好类的数据利用分类用户决策树的决策,把用户的需求和 �39�� 第 6期郑州轻工业学院学报 ( 自然科学版 ) 请求信息或者拟请求信息, 重新重构在网站上. 通过推送服务为用户提供服务资源, 从而为用户定制一份属于自己的网站, 并向用户提供个性化和共性化的W eb页面. 如果用户想查看热点资源,可以将挖掘之后的结果提交给用户.同时还可增加一些针对其他资源的服务策略, 给用户带来更多的服务体验.用户还可通过W eb挖掘技术学习其他用户的访问信息, 并结合 Cook ie等挖掘出相应的页面信息, 为用户进行下一次访问提供资源参考依据. 4� W eb资源服务系统应用实现 W eb资源服务系统是根据用户提出的问题,利用W eb数据流挖掘出的结果, 以满足用户需要. 以下说明资源服务在校园网和企业网的应用情况. 校园网站开设有专门的数字图书馆栏目,读者进入数字图书馆可以在线借书、还书, 查看在馆图书信息等, 这是数字图书馆的一些必备功能. 每天有大量用户在数字图书馆登录, 他们留下了大量的与服务器交互的数据和信息,利用W eb挖掘技术可以从这些信息中提取出一些统计分析信息, 为图书馆的管理和服务提供进一步的决策支持. 具体体现为 2点: 1)利用 W eb挖掘技术对用户借阅行为的历史信息进行分析, 可以得到用户的借阅习惯和爱好等统计信息,基于这些统计信息主动为用户提供更有针对性的特色服务, 从而实现数字图书馆的个性化服务. 2)利用 W eb挖掘技术对用户借阅的书籍信息进行分析,可以按照书籍专业类型统计出用户对书籍的需求信息, 从而为今后的图书采购提供依据, 对于需求量较大的书籍可以加大购买量, 对于需求量较小的书籍可适当减少采购, 从而实现对图书资源的合理配置. 公司网站进行W eb数据挖掘, 并构建 W eb挖掘服务系统,可以帮助用户分析并挖掘出网站的访问热点、安全问题和共享资源, 搭建服务平台,最大化满足用户的访问需求, 为其提供便利的个性化服务.同时,公司网站应具有广告宣传、品牌策划及网站设计业务的内容 ,通过对用户访问页面信息的挖掘分析,发现热点及潜力业务、潜在客户, 进而改进并完善网站, 促进公司业务提升, 也明显提升公司的收益率,辅助公司开展全面周到的服务, 大大提高客户满意度. 此外, 还可分析出用户对该公司业务项目感兴趣度的排名次序, 然后制定出改进和完善网站的具体方案 , 细化用户感兴趣的服务项目, 扩充用户可能感兴趣的项目, 为用户提供符合其需求的个性化服务. 5� 结论构建一个真正完善的资源服务系统, 需要进一步深入挖掘和利用不同类型用户在访问网站时的各种信息和网络资源, 综合考虑资源的有效利用, 应用数据交流和服务平台, 实现数据、信息和挖掘过程的全面集成,从而帮助用户更有效地发现网站资源服务、推送服务等, 达到优化网站、提高资源利用率的目的. 参考文献: [ 1] � Gaber M M, Zaslavsky A, K r ishnasw amy S. M ining data streams[ J]: A Rev iew SIGMOD Record, 2005, 34( 2): 18. [ 2] � Aggarw alH an J, W ang J. A Fram ewo rk for c lustering evol� v ing data stream s [ C ] / /P roc of the 29 th VLDB Con,f Ber lin: M o rgan Kanfman Publisher, 2003. [ 3] � Aggarw alH an J, W ang J. A F ram ew ork for pro jected c lus� ter ing o f h igh dim ensiona l data stream s[ C] / /P roc o f the 30 th VLDB Con,f T oronto: M o rgan Kan fm an Pub lisher, 2004. [ 4] � G ianne lla C, H an J, Pe i J. M ining frequent pa tterns in da� ta stream s a tm ultip le tim e g ranu lar ities[ C ] / /Nex t Gen� era tion Data M ining Cam br idge, M assachusetts: M IT P ress, 2003: 191. [ 5] � 冯兴杰,黄亚楼. 增量式 CURE 聚类算法研究 [ J]. 小型微型计算机系统, 2004, 25( 10): 1847. [ 6] � 金澈清,钱卫宁, 周傲英. 流数据分析与管理综述 [ J]. 软件学报, 2004, 15( 8) : 1172. �40� 2010年 �

                    本文档为【基于Web数据挖掘的资源服务系统】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于Web数据挖掘的资源服务系统

你可能还喜欢