第 25卷 � 第 6期
2010年 12月
郑 州 轻 工 业 学 院 学 报 ( 自 然 科 学 版 )
JOURNAL OF ZHENGZHOU UNIVERS ITY OF L IGHT INDUSTRY( Natu ral S cience)
Vo .l 25� No. 6
Dec. 2010
� � 收稿日期: 2010- 05- 25
基金项目: 河南省科技厅项目 ( 102300410244)
作者简介: 王春霞 ( 1975� ), 女,河南省沈丘县人, 商丘师范学院副教授,硕士, 主要研究方向为数据挖掘、数据流.
文章编号: 1004- 1478( 2010) 06- 0037- 04
基于 W eb数据挖掘的资源服务系统
王春霞
(商丘师范学院 计算机系, 河南 商丘 476000)
摘要: 根据W eb数据流的特点,采用W eb数据挖掘技术
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
了一个资源服务系统:利用关联、聚类、
分类等算法对离线数据进行挖掘,利用概要数据库、滑动窗口、近似因子等技术对动态数据进行处
理.该系统由用户层、挖掘层及数据层组成,可实现用户交互、数据流挖掘及数据处理、提供数据资源
等功能.该系统还可进行各种类型网站的W eb数据挖掘,作为推广开发服务平台,实现网站资源服
务系统的功能,应用于校园网挖掘的效果较好.
关键词:数据流挖掘; W eb数据流;资源服务系统
中图分类号: TP393� � � � 文献标志码: A
Resource service system based onW eb datam in ing
WANG Chun�x ia
(D ep t. of Comp., Shangq iu Normal C ollege, Shangq iu 476000, China)
Abstract: Based on the characterist ics o fW eb da ta stream, a resource service system w as established w ith
W eb datam ining technology wh ich includes associating, c lustering and sort ing used in o ffline data m in ing,
and outline da ta base, slip w indow s and sim ilar facto rs used in dynam ic data m ining, and it is composited
by user layer, m in ing layer and data layer prov id ing the function of user interaction, data stream m in ing, da�
ta processing and data resource co llecting. A lso it can carry out data stream m ining on a ll types ofW ebsite,
promo te the development o f serv ice platform, and implement the serv ice ofW eb resource serv ice system.
The system is sat isfied for app licat ion in campusW eb m in ing.
Key words: m in ing data stream; Web stream; resource serv ice system
0� 引言
数据挖掘是从海量数据中找出隐藏在数据背
后的知识,挖掘并发现隐含在其中有意义的模式和
规则. 被挖掘的数据主要分为静态和动态 2种类型,
针对静态数据挖掘的研究已有很多报道, 主要有以
下 2个方面:一是针对W eb数据挖掘技术与应用的
研究, 侧重于针对静态数据的挖掘; 二是W eb数据
流算法的研究与应用. 而动态数据流挖掘作为数据
挖掘技术的分支,近年来逐渐成为研究热点.
本文拟结合静态和动态 2种类型的W eb数据
资源,对数据挖掘的资源服务系统设计过程进行全
面综述, 以期为今后的系统实现工作提供理论依
据.对于静态数据, 本文拟利用关联、聚类、分类等
算法 [ 1- 5]进行离线数据的挖掘;而对于动态数据, 则
利用概要数据库、滑动窗口、分类、近似因子等技
郑 州 轻 工 业 学 院 学 报 ( 自 然 科 学 版 )
术 [ 6]对在线数据流进行处理.
1� 开发W eb资源服务系统的思想
W eb资源服务系统是针对不同用户上网搜索
资源和访问资源的数据需求,对大量用户需求数据
进行分类、加工、
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
、研究与整合, 从而帮助用户
获取多种类型的资源服务.
挖掘W eb数据要从 2方面考虑: 一方面, 从已
有的W eb服务器日志记录中去提取离线数据, 利用
W eb挖掘技术进行过滤处理, 提取出 W eb样本库,
为后续挖掘提供参考; 同时对一些异常数据进行独
立分析,建立异常数据库样本. 另一方面, 利用数据
流的连续、实效和量大的特点, 采用数据流挖掘技
术,实现在线数据流的挖掘. 在挖掘的W eb数据结
果的基础上, 结合用户资源访问请求, 生成资源服
务界面,提供给用户所需的资源. 数据挖掘的关键
思想是先对少量的数据进行挖掘、处理和测试, 然
后把结果应用于大量数据的挖掘, 从而更好地体现
W eb资源服务.
2� W eb数据挖掘服务系统框架
W eb数据挖掘服务系统由数据层、挖掘层、应
用层 3层组成.数据层主要提供各种类型的数据.挖
掘层首先对数据层提供的各种类型的数据进行处
理和分类, 然后再采用不同的挖掘算法进行挖掘,
进而实现各类库的建设. 应用层主要在各类库的基
础上根据用户提出的需求,利用资源决策树提供各
类服务资源,进而提升网站的利用率.
W eb数据挖掘服务系统的实现由 3个模块组
成: 1)W eb数据挖掘模块,该模块针对离线数据进
行. 2)W eb数据流挖掘模块,该模块针对在线数据
挖掘,实现单条、多条数据流的挖掘. 3)W eb系统服
务模块将挖掘出的结果应用在资源服务中. W eb资
源服务系统框架见图 1.
3� W eb数据挖掘服务系统的实现
3. 1� 数据层
W eb数据挖掘服务系统的最下层是数据层,提
供 2种类型的数据:离线数据和在线数据.
1)离线数据的收集. 数据收集可以从服务器
端、客户端、代理服务器端进行. 服务器端数据收集
主要通过W eb服务器记录用户访问日志,记录用户
图 1� Web资源服务系统框架
每次访问网站的网页请求信息. 客户端的用户比较
繁杂,数据的收集不便于进行, 但是可通过远程代
理进行. 大多用户都是通过代理服务器登录网站
的,所以通过代理服务器不仅可以收集多个用户的
行为,还可以收集对多个网站的行为.
2)在线数据的收集.数据流的来源主要是用户
访问网站点击的数据流, 针对数据流具备特殊、动
态、快速变化等特性, 对短时间内大量连续到达的
数据流,利用有限的存储空间进行快速挖掘以获取
有用信息,这是很关键的步骤. 数据流的存储空间
和数据的准确性均需要利用概要描述数据库对数
据进行存储,以便根据数据的概要描述获取资源服
务的近似结果.
3. 2� 挖掘层
Web数据挖掘层是资源服务系统的核心层, 对
收集到的离线数据和在线数据,分别利用W eb数据
挖掘算法和Web数据流挖掘算法进行处理. 根据 2
类数据的性质不同分为W eb数据挖掘模块和 W eb
数据流挖掘模块.
3. 2. 1� W eb数据挖掘模块 � 1)数据处理: 由于得
到的数据一般具有冗余性及模糊性的特性, 要有效
挖掘出数据, 就需要对数据进行预处理, 去掉不相
关的数据项, 减少数据库的存储空间, 比如操作系
统和浏览器、文件大小等.
2)模式分析:利用数据挖掘的算法解决实际问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
.在优化网站设计时, 就是将每一个用户访问的
页面抽象为点, 页面到页面之间的链接抽象为线,
这样就构造出用户访问页面的拓扑结构图, 然后找
�38� 2010年 �
王春霞 :基于W eb数据挖掘的资源服务系统
出这些图之间的相关性及其从一些页面到另一些
页面之间的最高访问频率的链接, 最后可构造出整
个W eb站点的拓扑图, 将整个 W eb站点的所有页
面抽象为数字, 那么可以得出很多路径的数字排
序.利用聚类中的页面聚类, 找出这些数字之间的
相关性,很容易得出页面到页面间的访问频度. 最
后找出页面访问频度最高的路径, 重新构造该网站
的拓扑结构图. 根据该网站的拓扑结构图, 重新构
建该网站,进而提高网站的利用率.
3)模式识别: 得到一个用户访问的页面数据
库,并且按照针对不同的用户所访问页面字母序的
形式排列; 字母序有助于挖掘的快速进行. 自动在
统一站点内部或者预先设计的模型集合中进行模
型发现,并挖掘新模型.
4)异常检测:先定义出系统正常状态下的数据
参数, 如果出现和正常数据不一样的情况, 就把这
种异常定义为 �攻击�.异常检测只能识别那些与正
常过程有较大偏差的行为,而无法知道具体的入侵
情况. W eb日志中的异常检测是指发现用户不断地
重复请求一个页面, 可以分析日志文件进行判断;
用户连续请求某个页面, 说明该页面有可能是被攻
击的对象,可以通过用户连续向服务器提出请求的
次数和失败的次数来判断.如果请求次数或失败次
数超出某个值的时候, 服务器应该拒绝该用户提出
的请求,并查看该用户的情况.
5)样本的建立:将各种数据挖掘算法 (聚类、分
类、序列模式、关联规则 )集成到样本库中, 网管人
员根据需要选择合适的算法.这个过程体现了日志
数据挖掘的可选择性和可扩充性. 同时也可根据日
志数据的不同选择不同的算法.
W eb数据挖掘经过数据收集、信息处理、模式
分析和模式识别 4个阶段, 实现概要数据库的建立,
结合离线数据的样本库和数据的异常检测库,实现
资源集成, 按照用户访问需求成立网站服务系统,
为用户提供资源服务.
3. 2. 2� W eb数据流挖掘模块 � 1)数据流采集、存
储和处理.数据流采集的关键在于如何找到合适的
数据流,只有找到合适的数据流, 才能使挖掘的结
果更有效、更有用地服务用户. 数据流的来源主要
是用户访问的数据流, 根据用户访问的数据流信
息,采用数据流模型过滤策略来比对、净化、筛选、
整理出有效的数据源.
数据流存储是指利用概要数据结构保留已经
处理过的信息, 提取出有用数据的过程. 概要数据
库是对一般的数据流进行压缩的一种手段. 因此,
可以定期从概要数据库中抽取数据进行处理.
数据流处理利用滑动窗口技术,从海量数据流
中提取一部分样本数据进行处理,将处理后的数据
及时有效地保存到样本库和处理库中,同时对一些
不确定的数据进行单独处理, 成立异常数据库. 随
着时间的推移,将会出现数据量增大而无法存储的
情况,这时应及时删除一些过期数据. 直接删除过
期数据,会使以后挖掘结果失去参考对象, 影响挖
掘准确性,因此应该利用概要数据库提取概要信息
并结合新的数据库情况及时更新保留数据. 所以,
当数据流积累一段时间后,应及时提取概要信息.
2)数据流算法的选取. 挖掘数据流是一个长
期、动态的过程, 针对各种不同数据流模型设计出
不同的数据流处理算法, 数据流算法在处理时, 应
按照所取一段时间内的数据或定期抽取, 按时间点
等多种方式进行. W eb数据流经常采用滑动窗口模
型对最近时间段内的数据进行处理.数据流算法的
选取是一个关键问题.
3)挖掘数据流的过程. 增加在线数据流的处
理,一般需要先分类、再关联和聚类,最后实现数据
流样本库的及时更新. 具体做法是利用分类器, 实
现多种分类, 给出算法的阈值, 利用增量算法不断
处理来自数据流的新数据, 然后修改分类模型, 将
多个已分类的数据应用于样本库, 并修改样本库.
除此之外,还要考虑样本的抽样, 要做到用更少的
样本获得更好的精度, 所以分类的精度也是非常关
键的一步.
3. 3� 应用层
应用层是W eb资源服务系统的最高层,是为用
户提供资源服务的层, 是用户使用服务系统的桥
梁.该层利用改进站点信息的组成结构, 形成用户
感兴趣的W eb页, 并将其存在W eb服务器上, 最后
在用户访问的时侯显示给用户.
首先对从挖掘层提取到的数据进行全面的分
析,形成集成化的数据, 并建立数据原始链接的有
效索引.也可以对各种数据进行分类, 将分好类的
数据利用分类用户决策树的决策,把用户的需求和
�39�� 第 6期
郑 州 轻 工 业 学 院 学 报 ( 自 然 科 学 版 )
请求信息或者拟请求信息, 重新重构在网站上. 通
过推送服务为用户提供服务资源, 从而为用户定制
一份属于自己的网站, 并向用户提供个性化和共性
化的W eb页面. 如果用户想查看热点资源,可以将
挖掘之后的结果提交给用户.同时还可增加一些针
对其他资源的服务策略, 给用户带来更多的服务体
验.用户还可通过W eb挖掘技术学习其他用户的访
问信息, 并结合 Cook ie等挖掘出相应的页面信息,
为用户进行下一次访问提供资源参考依据.
4� W eb资源服务系统应用实现
W eb资源服务系统是根据用户提出的问题,利
用W eb数据流挖掘出的结果, 以满足用户需要. 以
下说明资源服务在校园网和企业网的应用情况.
校园网站开设有专门的数字图书馆栏目,读者
进入数字图书馆可以在线借书、还书, 查看在馆图
书信息等, 这是数字图书馆的一些必备功能. 每天
有大量用户在数字图书馆登录, 他们留下了大量的
与服务器交互的数据和信息,利用W eb挖掘技术可
以从这些信息中提取出一些统计分析信息, 为图书
馆的管理和服务提供进一步的决策支持. 具体体现
为 2点: 1)利用 W eb挖掘技术对用户借阅行为的
历史信息进行分析, 可以得到用户的借阅习惯和爱
好等统计信息,基于这些统计信息主动为用户提供
更有针对性的特色服务, 从而实现数字图书馆的个
性化服务. 2)利用 W eb挖掘技术对用户借阅的书
籍信息进行分析,可以按照书籍专业类型统计出用
户对书籍的需求信息, 从而为今后的图书采购提供
依据, 对于需求量较大的书籍可以加大购买量, 对
于需求量较小的书籍可适当减少采购, 从而实现对
图书资源的合理配置.
公司网站进行W eb数据挖掘, 并构建 W eb挖
掘服务系统,可以帮助用户分析并挖掘出网站的访
问热点、安全问题和共享资源, 搭建服务平台,最大
化满足用户的访问需求, 为其提供便利的个性化服
务.同时,公司网站应具有广告宣传、品牌策划及网
站设计业务的
内容
财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容
,通过对用户访问页面信息的挖
掘分析,发现热点及潜力业务、潜在客户, 进而改进
并完善网站, 促进公司业务提升, 也明显提升公司
的收益率,辅助公司开展全面周到的服务, 大大提
高客户满意度. 此外, 还可分析出用户对该公司业
务项目感兴趣度的排名次序, 然后制定出改进和完
善网站的具体
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
, 细化用户感兴趣的服务项目,
扩充用户可能感兴趣的项目, 为用户提供符合其需
求的个性化服务.
5� 结论
构建一个真正完善的资源服务系统, 需要进一
步深入挖掘和利用不同类型用户在访问网站时的
各种信息和网络资源, 综合考虑资源的有效利用,
应用数据交流和服务平台, 实现数据、信息和挖掘
过程的全面集成,从而帮助用户更有效地发现网站
资源服务、推送服务等, 达到优化网站、提高资源利
用率的目的.
参考文献:
[ 1] � Gaber M M, Zaslavsky A, K r ishnasw amy S. M ining data
streams[ J]: A Rev iew SIGMOD Record, 2005, 34( 2): 18.
[ 2] � Aggarw alH an J, W ang J. A Fram ewo rk for c lustering evol�
v ing data stream s [ C ] / /P roc of the 29 th VLDB Con,f
Ber lin: M o rgan Kanfman Publisher, 2003.
[ 3] � Aggarw alH an J, W ang J. A F ram ew ork for pro jected c lus�
ter ing o f h igh dim ensiona l data stream s[ C] / /P roc o f the
30 th VLDB Con,f T oronto: M o rgan Kan fm an
Pub lisher, 2004.
[ 4] � G ianne lla C, H an J, Pe i J. M ining frequent pa tterns in da�
ta stream s a tm ultip le tim e g ranu lar ities[ C ] / /Nex t Gen�
era tion Data M ining Cam br idge, M assachusetts: M IT
P ress, 2003: 191.
[ 5] � 冯兴杰,黄亚楼. 增量式 CURE 聚类算法研究 [ J]. 小
型微型计算机系统, 2004, 25( 10): 1847.
[ 6] � 金澈清,钱卫宁, 周傲英. 流数据分析与管理综述 [ J].
软件学报, 2004, 15( 8) : 1172.
�40� 2010年 �