【word】基于过滤器的Web访问模式挖掘

【word】基于过滤器的Web访问模式挖掘【word】基于过滤器的Web访问模式挖掘基于过滤器的Web访问模式挖掘第33卷 Vo1.33 第6期 No.6 计算机工程 ComputerEngineering 2007年3月 March2OO7 ? 软件技术与数据库?文章编号:100o一3428(2伽7)0岳-_0059一l3文献标识码:A中圈分类号:TP311.13 基于过滤器的Web访问模式挖掘佟强1,3IP周园春?,吴开超1,2,3IP阀保平 (1.中国科学院计算技术研究所,北京100080;2.中国科学院计算机网络...

【word】基于过滤器的Web访问模式挖掘基于过滤器的Web访问模式挖掘第33卷 Vo1.33 第6期 No.6 计算机工程 ComputerEngineering 2007年3月 March2OO7 ? 软件技术与数据库?文章编号:100o一3428(2伽7)0岳-_0059一l3文献标识码:A中圈分类号:TP311.13 基于过滤器的Web访问模式挖掘佟强1,3IP周园春?,吴开超1,2,3IP阀保平 (1.中国科学院计算技术研究所,北京100080;2.中国科学院计算机网络信息中心,北京100080;3.中国科学院研究生院,北京100080) 摘要:针对传统Web访问模式挖掘系统中用户识男?和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统. 它能够准确地识别用户和会话,为挖掘算法提供优质的数据.给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算法.目前该方法已经广泛地应用于科学数据库系统中. 关健词:数据挖掘;Web日志;访问模式;频集 Filter?basedWebAccessPatternMining TONGQiang?.ZHOUYuanchun?,WUKaichao1,2,3,YANBaoping2 (1.InstituteofComputingTechnology,ChineseAcademyofSciences.Beijing100080;2.ComputerNetworkInformationCenter, ChineseAcademyofSciences,Beijing100080;3.GraduateSchoolofChineseAcademyofSciences,Beijing100080) [Abstract]DuetOthecomplexityandinaccuracyofuseridentificationandsessionidentificationinthetraditionalWebaccesspatternmining system,thispaperproposesthefilterbasedonWebaccesspatternminingsystem,whichcanidentifyauserandasessionaccurately,andprovides gooddatafortheminingalgorithms.Itpresentstheimplementationanddeploymentofthelogfilter,andproposestheWebaccesspatternmining algorithm.Themethodiswidelyusedinthescientificdatabase. [KeywordsIDatamining;Weblog;Accesspattern;Frequentset l概述随着Internet的飞速发展,企业级的Web应用已经变得非常普遍.各种B2B,B2C和C2C站点使得企业可以在网络上采购世界各地厂商生产的产品,个人可以足不出户进行网上购物,也可以在网上开设自己的店铺.Web应用无处不在, 它改变了人们生活的方方面面.在竞争日益激烈的网络经济中,只有赢得用户才能赢得竞争的优势.客户行为的电子化, 使得收集每个用户的每个行为的数据,深入研究用户的行为成为可能.同时,数据挖掘技术的研究发展为分析和挖掘这些数据提供了理论基础….Web应用服务器的日志记录了用户每次访问Web应用的信息,传统的做法是把Web日志经过用户识别和会话识别,使用相应的挖掘算法获得用户访问模式,然后对这些模式进行分析.分析的结果对企业具有重要的现实意义. Web访问模式挖掘的一个主要任务就是获得用户浏览网页的模式,通过它可以了解用户在网站上的行为.传统的做法是:首先收集原始的Web日志,并对收集到的Web日志做数据预处理,然后应用挖掘算法来发现用户的浏览模式J. 数据预处理分数据净化,用户识别和会话识别几个步骤.由于网络的复杂性和用户访问的随机性,因此用户识别和会话识别是非常困难的.例如多个用户可能使用同一个代理服务器或者透明网关,这样服务器看到这些用户的地址都将是同一个IP地址;如果一个用户下线之后另外一个用户获得了这个用户的IP地址,并且也访问同一个站点,那么就很难区分这2个用户.一个会话是一个用户在Web站点上持续活动的一段时间,如何准确地把一个用户在Web站点上的活动分成不同的有意义的会话,也是非常困难的.通常会话是靠超时来控制的,用户超时之后认为是下一个会话,但是也有例外的情况,例如一个用户登录站点之后立即退出,然后再登录, 这就应该看成是2次会话,而不是简单地根据超时看成一次会话.可见,传统的预处理方法很难为模式挖掘算法提供准确的数据. 本文提出了一种基于过滤器的用来发现Web访问模式的方法.这种方法利用Servlet 规范提供的过滤器功能,在用户访问一个网页的时候截获用户请求,并获取用户和会话信息, 然后写入数据库生成自定义日志.这种方法在用户访问的时候准确地记录了用户信息和会话信息,避免了传统方法用户识别和会话识别的不准确性,能够为访问模式挖掘算法提供准确的数据.挖掘算法可以根据实际需要从自定义日志数据库里面发现感兴趣的模式. 2基于过滤器的Web访问模式挖掘系统 2,1过滤器的概念 Servlet2.3技术规范引入一种新的Web应用程序组件——过滤器J.过滤器位于用户和基层的Web应用程序之间,用于检查和修改二者之间流过的请求和响应.过滤器作为一种Web应用程序组件,可以传输或者修改用户请求与 Servlet响应.它可以在用户请求到达Servlet之前对请求进行处理,也可以在响应离开Servlet之后修改响应信息.一次请求可能经过多个过滤器,这些过滤器形成了一个”过滤器链”, 过滤器链的实现与维护工作是由Servlet容器生产厂商负责基金项目:国家”863” 计划基金资助项目(2002AAl04240);中国科学院”十五”信息化建设基金资助重大项目(INF105一SDB) 作者简介:佟强(1978--),男,博士生,主研方向:数据库,数据仓库,数据挖掘;周园春,博士生;吴开超,在职博士生;阎保平, 博士后,研究员,博导收稿日期:2006—04—12E-mail:tongqiang@sdb.cnic.ca 实现的.过滤器链中不同过滤器的先后顺序是在部署文件 Web.xml中设定的.最先截获客户请求的过滤器最后才能截获Servlet响应信息.利用过滤器的这种特性,可以实现以前很难或者实现起来很复杂的功能. 在基于过滤器的Web访问模式挖掘系统中,可以利用过滤器的这种性质,截获用户的请求并从中获取用户信息,包括IP地址,用户的会话ID,请求的时间,请求的URL和请求参数等. 2.2系统结构过滤器位于用户和基层的Web应用程序之间,可以截获用户的请求和响应信息.利用过滤器的这种性质,本文提出的基于过滤器的Web访问模式挖掘系统的结构如图l所示. 在Web应用的过滤器链中,部署一个日志过滤器.这个日志过滤器用来获取IP地址,会话ID,请求时间,请求的URL 和请求参数等用于挖掘的信息.日志过滤器把获取的用户信息保存到自定义日志数据库中. 由于在采集用户信息的时候就已经获得了用户会话信息,因此避免了直接挖掘传统日志所需要用户识别和会话识别的不准确性.挖掘算法可以直接作用于自定义日志数据库里面的表或者视图. 挖掘算法得到的模式经过进一步的模式分析最终得到合理模式.Web站点管理者可以参考挖掘到的合理模式,分析用户的行为,提出对Web站点的改进意见. 图1基于过滤器妁访问模式挖曩系统结构 2.3过滤器的实现过滤器类LogFilter继承了LogDatabase类,实现了Filter 接13.LogDatabase类实现了数据库的连接,SQL语句执行和插入记录等方法,LogFilter类可以通过LogDatabase类提供的方法向数据库写入自定义日志.LogFilter类实现了Filter 接13定义的doFilter0方法来获取用户信息,包括用户会话 ID,用户IP地址,请求时间,用户请求的URL和请求参数等信息.通过调用LogDatabase提供的方法把这些信息作为自定义日志写入自定义日志数据库.过滤器的实现过程如下: publicclassLogFilterextendsLogDatabaseimplementsFilter( publicvoiddoFilter(ServletRequestrequest,//请求 ServletResponseresponse,//响应 FilterChainfilterChain)//过滤器链 throwsIOException,SerVletExcepti0n( 获得用户会话ID,唯一地标识一个用户的一次会话获得用户的IP地址获得用户请求的URI 获得用户请求时间获得用户请求参数获得其它需要记录的信息调用LogDatabase类的方法把自定义日志信息写到数据库里面转到过滤器链中的下一级过滤器}l 2.4部署过滤器在创建了过滤器之后必须将它添加到部署描述符 Web.xml中,这样容器才会将过滤器部署到Web应用中.首先是声明过滤器,它将过滤器的名字和对应的实现类进行映射,还可以通过设置初始化参数向过滤器传递一些初始化信息.然后使用filter—mapping标记将过滤器映射到一个URL 模式.LogFilter的部署如下: <filter> <filter—name>L0gF订ter</fille卜name> <filter—class>cn.cnic.sdb.L0gFiller</fille卜class> <init—param> <param—name>Versi0n<,param—name> <param—value>1.0</param—value> </init—param> </filter> <filter.mapping> <filter.name>L0gF订ter</filte卜name> <url—pattern>/</url—pattern> </filter—mapping> 3挖掘算法 Web访问模式挖掘的主要任务就是获得用户在网站上浏览的模式,通过它可以了解用户在网上的行为,这可以包括很多方面的内容.例如统计用户频繁访问的网页或者频繁提交的请求参数就可以知道用户对网站的哪些内容更感兴趣; 挖掘用户频繁访问的网页的集合可以知道哪些网页同时被用户访问,这可以利用Agrawal等提出的关联规则挖掘算法 Apriori[5]来实现;挖掘频繁的用户浏览路径可以参考Srikant 等提出的序列模式挖掘算法AprioriAll和AprioriSome,下面主要讨论如何从自定义日志数据库中发现频繁的用户浏览路径. 3.1基本定义自定义日志数据库里面已经记录了用户会话的信息.日志数据库里面的一条记录包括:sessionlD,IP地址,访问时间,请求的URL和请求参数等信息.sessionlD相同的记录对应的是用户的一次会话,即用户在一次会话内所访问的 URL的序列.下面给出这些信息的形式化定义: 定义1一个用户会话序列是有序的若干条访问记录组成的队列,S=<S1~S,,…,Sn>是一个长度为n的序列,其中 s.(1Jn)是一条访问记录. 定义2访问记录的相等,即S.=S,,定义为两条记录分别对应的URL和请求参数相同.这里包含请求参数相同主要是考虑到目前动态网页的大量使用,相同的URL由于请求参数的不同将会响应用户不同的内容.因此需要URL和请求参数都相同才代表用户请求的内容相同. 定义3一个序列a=<aIa,,.一a>是另一个序列 b=<,b2,...,>的子序列,如果存在整数i.<i2<…<in使得 al:l,a2=2….,a=bin. 定义4如果一个序列S是一个用户会话序列的子序列, 则该用户会话序列支持序列S.一个序列的支持度定义为支持该序列的用户会话数和总用户会话数之比. 定义5给定一个自定义日志数据库,用户访问模式挖掘问题就是对于一个给定的最小支持度,在日志数据库中发现最大的序列,每一个这种最大的序列代表一个序列模式.所谓最大序列S就是不存在一个序列t,使得S是t的子序列. 3.2用户访问模式挖掘算法t 序列的长度是序列中所含访问记录的条数,一个长度为 k的序列称为k序列.由2个序列x和Y拼接起来所形成的序列定义为x,Y.将序列模式发现问题分解成以下几个步骤: (1)排序:利用会话标识sessionID作为主关键词及用户请求的时间作为次关键词对自定义日志数据库进行排序. (2)计算频繁记录集:所谓频繁记录集就是用户频繁访问的URL 和请求参数的集合.首先给出一个最小支持度S,这一步发现所有支持度大于最小支持度的记录的集合. (3)生成频繁序列:利用第(2)步计算出来频繁记录集,计算所有的频繁序列.一个频繁记录可以认为是一个长度为1的频繁序列, 然后利用它来产生长度为2的频繁序列,再利用长度为2的频繁序列产生长度为3的频繁序列,直到不存在长度为k的频繁序列为止. 这里利用了频繁序列的一个重要性质:如果一个序列是频繁的,那么它的子序列必然是频繁的.用于生成频繁序列的算法如下: L-:长度为L的频繁序列,即频繁记录的集合 for(k=2;Lk—l?;k++)do begin C=从L-中产生的新的候选序列 foreach自定义日志数据库中的每条记录 begin 所有记录r支持的C内的所有候选序列的支持度计数加 end Lk=候选序列C中满足最小支持度的候选者 End (4)计算最大序列:在频繁序列阶段,已经得到所有的频繁序列, 下面的算法可用来发现最大序列,设最长的频繁序列的长度为n, 则计算最大序列:在频繁序列阶段,已经得到所有的频繁序列,可用来发现最大序列的算法如下.设最长的频繁序列的长度为n,则 for(k=n;k>l:k,)do foreach每个k序列Skdo Begin 从S中删除S的所有子序列 end 4结论与应用 Web访问模式挖掘是通过对用户访问Web站点的访问日志进行分析和挖掘,从中发现用户访问模式的过程.发现用户的访问模式对Web站点的经营者和管理者具有重要的现实意义.Web访问模式挖掘一般分为预处理阶段,挖掘算法实施阶段和模式分析阶段.其中预处理是整个过程第一个阶段, 预处理的好坏直接影响到挖掘结果的好坏.预处理中最重要的环节是用户识别和会话识别.由于网络的复杂性和用户访问的随机性,因此判断不同的请求是否是一个用户在一次会话中的请求是很困难的.过滤器位于客户和基层Web应用程序之间,用于检查和修改二者之间流过的请求和响应.本文通过在过滤器链中部署一个过滤器用来截获用户的请求,获取会话信息,然后把挖掘需要的信息存到数据库中.这种方法能够准确地识别用户和会话,为运用挖掘算法获得更准确的挖掘结果创造了极好的前提条件.挖掘算法可以根据实际需要从自定义日志数据库里面发现感兴趣的模式. 科学数据库是中国科学院从1983年开始建设的一个大型综合性数据库群,是国内信息量最大,学科专业最广,服务层次最高,综合性最强的科技信息服务系统.本文提出的基于过滤器的Web访问模式挖掘系统已经广泛地应用于科学数据系统中,实际应用效果明显优于以前直接挖掘Web日志. 参考文献 1HanJiawei,KamberM.DataMining:ConceptsandTechniques[M]. MorganKaufmannPublishers,2000—08. 2SrivastavaJ,CooleyR,DeshpandeM,eta1.WebUsageMining: DiscoveryandApplicationsofUsagePatternsfromWebData[J]. SIGKDDExplorations,2000,l(2). 3CooleyR,MobasherB,SrivastavaJ.WebMining:Informationand PatternDiscoveryontheWorldWideWeb[C]//Proceedingsofthe9 IEEEInternationalConferenceonToolswithArtificialIntelligence. 1997. 4BodoffS.JavaServletTechnology[Z].2002. j2ee/index.jsp. 5AgrawalR,SrikantR.FastAlgorithmsforMiningAssociationRules inLargeDatabases[C]//Proc.ofthe20thInternationalonVeryLarge D, atabases.1994. 6SrikantR,AgrawalR.MiningSequentialPatterns:Generalizations andPerformanceImprovements[C]//Proc.ofthe5Int’1.Conference onExtendingDatabaseTechnology.1996. ………,………………,…………………………………………… ………………… (上接第58页) 参考文献 1ColajanniM,YuPS.APerformanceStudyofRobustLoadSharing StrategiesforDistributedHeterogeneousWebServerSystems[J]. IEEETrans.onKnowledgeandDataEngineering,2002,13(14):398. 2LeeJYB.ParallelVideoServers[J].IEEEMultimedia,1998,5(5). 3VenkatasubramanianN,RananathanS.LoadManagementin DistributedVideoSerVers【C】,/ProceedingsoftheInternational ConferenceonDistributedComputingSystems.1997—05. 4ChouC,GolubchikL,LuiJ.StripingDoesn’tScale:HowtoAchieve ScalabilityforContinuousMediaServerswithReplication[C]//Proc. ofthe20InternationalConferenceonDistributedComputing Systems.2000—04:64—71. 5SerpanosDN,GeorgiadisL,BouloutasT.MMPacking:ALoadand StorageBalancingAlgorithmforDistributedMultimediaServers[J]. IEEETransactionsonCircuitsandSystemsforVideoTechnology, 1998,8(2):13—17. 6姚超,周敬利,余胜生.基于存储局域网络的集群多媒体服务器[J1.华中理工大学,2000,28(7):19—21. 7任彦琦,彭勤科,胡保生.一种基于内容的Web集群服务器负载均衡算法[J1.计算机工程,2005,3l(2):122—124.

                    本文档为【【word】 基于过滤器的Web访问模式挖掘】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

【word】 基于过滤器的Web访问模式挖掘

你可能还喜欢

【word】基于过滤器的Web访问模式挖掘