首页 【word】 基于过滤器的Web访问模式挖掘

【word】 基于过滤器的Web访问模式挖掘

举报
开通vip

【word】 基于过滤器的Web访问模式挖掘【word】 基于过滤器的Web访问模式挖掘 基于过滤器的Web访问模式挖掘 第33卷 Vo1.33 第6期 No.6 计算机工程 ComputerEngineering 2007年3月 March2OO7 ? 软件技术与数据库?文章编号:100o一3428(2伽7)0岳-_0059一l3文献标识码:A中圈分类号:TP311.13 基于过滤器的Web访问模式挖掘 佟强1,3IP周园春?,吴开超1,2,3IP阀保平 (1.中国科学院计算技术研究所,北京100080;2.中国科学院计算机网络...

【word】 基于过滤器的Web访问模式挖掘
【word】 基于过滤器的Web访问模式挖掘 基于过滤器的Web访问模式挖掘 第33卷 Vo1.33 第6期 No.6 计算机工程 ComputerEngineering 2007年3月 March2OO7 ? 软件技术与数据库?文章编号:100o一3428(2伽7)0岳-_0059一l3文献标识码:A中圈分类号:TP311.13 基于过滤器的Web访问模式挖掘 佟强1,3IP周园春?,吴开超1,2,3IP阀保平 (1.中国科学院计算技术研究所,北京100080;2.中国科学院计算机网络信息中心,北京100080;3.中国科学院研究生院,北京100080) 摘要:针对传统Web访问模式挖掘系统中用户识男?和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统. 它能够准确地识别用户和会话,为挖掘算法提供优质的数据.给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算法.目前该 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 已经广泛地应用于科学数据库系统中. 关健词:数据挖掘;Web日志;访问模式;频集 Filter?basedWebAccessPatternMining TONGQiang?.ZHOUYuanchun?,WUKaichao1,2,3,YANBaoping2 (1.InstituteofComputingTechnology,ChineseAcademyofSciences.Beijing100080;2.ComputerNetworkInformationCenter, ChineseAcademyofSciences,Beijing100080;3.GraduateSchoolofChineseAcademyofSciences,Beijing100080) [Abstract]DuetOthecomplexityandinaccuracyofuseridentificationandsessionidentificationinthetraditionalWebaccesspatternmining system,thispaperproposesthefilterbasedonWebaccesspatternminingsystem,whichcanidentifyauserandasessionaccurately,andprovides gooddatafortheminingalgorithms.Itpresentstheimplementationanddeploymentofthelogfilter,andproposestheWebaccesspatternmining algorithm.Themethodiswidelyusedinthescientificdatabase. [KeywordsIDatamining;Weblog;Accesspattern;Frequentset l概述 随着Internet的飞速发展,企业级的Web应用已经变得 非常普遍.各种B2B,B2C和C2C站点使得企业可以在网络 上采购世界各地厂商生产的产品,个人可以足不出户进行网 上购物,也可以在网上开设自己的店铺.Web应用无处不在, 它改变了人们生活的方方面面.在竞争日益激烈的网络经济 中,只有赢得用户才能赢得竞争的优势.客户行为的电子化, 使得收集每个用户的每个行为的数据,深入研究用户的行为 成为可能.同时,数据挖掘技术的研究发展为 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 和挖掘这 些数据提供了理论基础….Web应用服务器的日志 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 了用 户每次访问Web应用的信息,传统的做法是把Web日志经过 用户识别和会话识别,使用相应的挖掘算法获得用户访问模 式,然后对这些模式进行分析.分析的结果对企业具有重要 的现实意义. Web访问模式挖掘的一个主要任务就是获得用户浏览网 页的模式,通过它可以了解用户在网站上的行为.传统的做 法是:首先收集原始的Web日志,并对收集到的Web日志做 数据预处理,然后应用挖掘算法来发现用户的浏览模式J. 数据预处理分数据净化,用户识别和会话识别几个步骤.由 于网络的复杂性和用户访问的随机性,因此用户识别和会话 识别是非常困难的.例如多个用户可能使用同一个代理服务 器或者透明网关,这样服务器看到这些用户的地址都将是同 一 个IP地址;如果一个用户下线之后另外一个用户获得了这 个用户的IP地址,并且也访问同一个站点,那么就很难区分 这2个用户.一个会话是一个用户在Web站点上持续活动的 一 段时间,如何准确地把一个用户在Web站点上的活动分成 不同的有意义的会话,也是非常困难的.通常会话是靠超时 来控制的,用户超时之后认为是下一个会话,但是也有例外 的情况,例如一个用户登录站点之后立即退出,然后再登录, 这就应该看成是2次会话,而不是简单地根据超时看成一次 会话.可见,传统的预处理方法很难为模式挖掘算法提供准 确的数据. 本文提出了一种基于过滤器的用来发现Web访问模式的 方法.这种方法利用Servlet 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 提供的过滤器功能,在用户 访问一个网页的时候截获用户请求,并获取用户和会话信息, 然后写入数据库生成自定义日志.这种方法在用户访问的时 候准确地记录了用户信息和会话信息,避免了传统方法用户 识别和会话识别的不准确性,能够为访问模式挖掘算法提供 准确的数据.挖掘算法可以根据实际需要从自定义日志数据 库里面发现感兴趣的模式. 2基于过滤器的Web访问模式挖掘系统 2,1过滤器的概念 Servlet2.3技术规范引入一种新的Web应用程序组 件——过滤器J.过滤器位于用户和基层的Web应用程序之 间,用于检查和修改二者之间流过的请求和响应.过滤器作 为一种Web应用程序组件,可以传输或者修改用户请求与 Servlet响应.它可以在用户请求到达Servlet之前对请求进行 处理,也可以在响应离开Servlet之后修改响应信息.一次请 求可能经过多个过滤器,这些过滤器形成了一个”过滤器链”, 过滤器链的实现与维护工作是由Servlet容器生产厂商负责 基金项目:国家”863” 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 基金资助项目(2002AAl04240);中国科 学院”十五”信息化建设基金资助重大项目(INF105一SDB) 作者简介:佟强(1978--),男,博士生,主研方向:数据库,数据 仓库,数据挖掘;周园春,博士生;吴开超,在职博士生;阎保平, 博士后,研究员,博导 收稿日期:2006—04—12E-mail:tongqiang@sdb.cnic.ca 实现的.过滤器链中不同过滤器的先后顺序是在部署文件 Web.xml中设定的.最先截获客户请求的过滤器最后才能截 获Servlet响应信息.利用过滤器的这种特性,可以实现以前 很难或者实现起来很复杂的功能. 在基于过滤器的Web访问模式挖掘系统中,可以利用过 滤器的这种性质,截获用户的请求并从中获取用户信息,包 括IP地址,用户的会话ID,请求的时间,请求的URL和请 求参数等. 2.2系统结构 过滤器位于用户和基层的Web应用程序之间,可以截获 用户的请求和响应信息.利用过滤器的这种性质,本文提出 的基于过滤器的Web访问模式挖掘系统的结构如图l所示. 在Web应用的过滤器链中,部署一个日志过滤器.这个日志 过滤器用来获取IP地址,会话ID,请求时间,请求的URL 和请求参数等用于挖掘的信息.日志过滤器把获取的用户信 息保存到自定义日志数据库中. 由于在采集用户信息的时候就已经获得了用户会话信 息,因此避免了直接挖掘传统日志所需要用户识别和会话识 别的不准确性.挖掘算法可以直接作用于自定义日志数据库 里面的表或者视图. 挖掘算法得到的模式经过进一步的模式分析最终得到合 理模式.Web站点管理者可以参考挖掘到的合理模式,分析 用户的行为,提出对Web站点的改进意见. 图1基于过滤器妁访问模式挖曩系统结构 2.3过滤器的实现 过滤器类LogFilter继承了LogDatabase类,实现了Filter 接13.LogDatabase类实现了数据库的连接,SQL语句执行 和插入记录等方法,LogFilter类可以通过LogDatabase类提 供的方法向数据库写入自定义日志.LogFilter类实现了Filter 接13定义的doFilter0方法来获取用户信息,包括用户会话 ID,用户IP地址,请求时间,用户请求的URL和请求参数 等信息.通过调用LogDatabase提供的方法把这些信息作为 自定义日志写入自定义日志数据库.过滤器的实现过程如下: publicclassLogFilterextendsLogDatabaseimplementsFilter( publicvoiddoFilter(ServletRequestrequest,//请求 ServletResponseresponse,//响应 FilterChainfilterChain)//过滤器链 throwsIOException,SerVletExcepti0n( 获得用户会话ID,唯一地标识一个用户的一次会话 获得用户的IP地址 获得用户请求的URI 获得用户请求时间 获得用户请求参数 获得其它需要记录的信息 调用LogDatabase类的方法把自定义日志信息写到数据库 里面 转到过滤器链中的下一级过滤器}l 2.4部署过滤器 在创建了过滤器之后必须将它添加到部署描述符 Web.xml中,这样容器才会将过滤器部署到Web应用中.首 先是声明过滤器,它将过滤器的名字和对应的实现类进行映 射,还可以通过设置初始化参数向过滤器传递一些初始化信 息.然后使用filter—mapping标记将过滤器映射到一个URL 模式.LogFilter的部署如下: <filter> <filter—name>L0gF订ter</fille卜name> <filter—class>cn.cnic.sdb.L0gFiller</fille卜class> <init—param> <param—name>Versi0n<,param—name> <param—value>1.0</param—value> </init—param> </filter> <filter.mapping> <filter.name>L0gF订ter</filte卜name> <url—pattern>/</url—pattern> </filter—mapping> 3挖掘算法 Web访问模式挖掘的主要任务就是获得用户在网站上浏 览的模式,通过它可以了解用户在网上的行为,这可以包括 很多方面的内容.例如统计用户频繁访问的网页或者频繁提 交的请求参数就可以知道用户对网站的哪些内容更感兴趣; 挖掘用户频繁访问的网页的集合可以知道哪些网页同时被用 户访问,这可以利用Agrawal等提出的关联规则挖掘算法 Apriori[5]来实现;挖掘频繁的用户浏览路径可以参考Srikant 等提出的序列模式挖掘算法AprioriAll和AprioriSome,下 面主要讨论如何从自定义日志数据库中发现频繁的用户浏览 路径. 3.1基本定义 自定义日志数据库里面已经记录了用户会话的信息.日 志数据库里面的一条记录包括:sessionlD,IP地址,访问时 间,请求的URL和请求参数等信息.sessionlD相同的记录 对应的是用户的一次会话,即用户在一次会话内所访问的 URL的序列.下面给出这些信息的形式化定义: 定义1一个用户会话序列是有序的若干条访问记录组 成的队列,S=<S1~S,,…,Sn>是一个长度为n的序列,其中 s.(1Jn)是一条访问记录. 定义2访问记录的相等,即S.=S,,定义为两条记录分 别对应的URL和请求参数相同.这里包含请求参数相同主要 是考虑到目前动态网页的大量使用,相同的URL由于请求参 数的不同将会响应用户不同的内容.因此需要URL和请求参 数都相同才代表用户请求的内容相同. 定义3一个序列a=<aIa,,.一a>是另一个序列 b=<,b2,...,>的子序列,如果存在整数i.<i2<…<in使得 al:l,a2=2….,a=bin. 定义4如果一个序列S是一个用户会话序列的子序列, 则该用户会话序列支持序列S.一个序列的支持度定义为支 持该序列的用户会话数和总用户会话数之比. 定义5给定一个自定义日志数据库,用户访问模式挖掘 问题就是对于一个给定的最小支持度,在日志数据库中发现 最大的序列,每一个这种最大的序列代表一个序列模式.所 谓最大序列S就是不存在一个序列t,使得S是t的子序列. 3.2用户访问模式挖掘算法t 序列的长度是序列中所含访问记录的条数,一个长度为 k的序列称为k序列.由2个序列x和Y拼接起来所形成的 序列定义为x,Y.将序列模式发现问题分解成以下几个步骤: (1)排序:利用会话标识sessionID作为主关键词及用户请求的时 间作为次关键词对自定义日志数据库进行排序. (2)计算频繁记录集:所谓频繁记录集就是用户频繁访问的URL 和请求参数的集合.首先给出一个最小支持度S,这一步发现所有 支持度大于最小支持度的记录的集合. (3)生成频繁序列:利用第(2)步计算出来频繁记录集,计算所有 的频繁序列.一个频繁记录可以认为是一个长度为1的频繁序列, 然后利用它来产生长度为2的频繁序列,再利用长度为2的频繁序 列产生长度为3的频繁序列,直到不存在长度为k的频繁序列为止. 这里利用了频繁序列的一个重要性质:如果一个序列是频繁的,那 么它的子序列必然是频繁的.用于生成频繁序列的算法如下: L-:长度为L的频繁序列,即频繁记录的集合 for(k=2;Lk—l?;k++)do begin C=从L-中产生的新的候选序列 foreach自定义日志数据库中的每条记录 begin 所有记录r支持的C内的所有候选序列的支持度计数加 end Lk=候选序列C中满足最小支持度的候选者 End (4)计算最大序列:在频繁序列阶段,已经得到所有的频繁序列, 下面的算法可用来发现最大序列,设最长的频繁序列的长度为n, 则计算最大序列:在频繁序列阶段,已经得到所有的频繁序列,可 用来发现最大序列的算法如下.设最长的频繁序列的长度为n,则 for(k=n;k>l:k,)do foreach每个k序列Skdo Begin 从S中删除S的所有子序列 end 4结论与应用 Web访问模式挖掘是通过对用户访问Web站点的访问日 志进行分析和挖掘,从中发现用户访问模式的过程.发现用 户的访问模式对Web站点的经营者和管理者具有重要的现实 意义.Web访问模式挖掘一般分为预处理阶段,挖掘算法实 施阶段和模式分析阶段.其中预处理是整个过程第一个阶段, 预处理的好坏直接影响到挖掘结果的好坏.预处理中最重要 的环节是用户识别和会话识别.由于网络的复杂性和用户访 问的随机性,因此判断不同的请求是否是一个用户在一次会 话中的请求是很困难的.过滤器位于客户和基层Web应用程 序之间,用于检查和修改二者之间流过的请求和响应.本文 通过在过滤器链中部署一个过滤器用来截获用户的请求,获 取会话信息,然后把挖掘需要的信息存到数据库中.这种方 法能够准确地识别用户和会话,为运用挖掘算法获得更准确 的挖掘结果创造了极好的前提条件.挖掘算法可以根据实际 需要从自定义日志数据库里面发现感兴趣的模式. 科学数据库是中国科学院从1983年开始建设的一个大 型综合性数据库群,是国内信息量最大,学科专业最广,服 务层次最高,综合性最强的科技信息服务系统.本文提出的 基于过滤器的Web访问模式挖掘系统已经广泛地应用于科学 数据系统中,实际应用效果明显优于以前直接挖掘Web日志. 参考文献 1HanJiawei,KamberM.DataMining:ConceptsandTechniques[M]. MorganKaufmannPublishers,2000—08. 2SrivastavaJ,CooleyR,DeshpandeM,eta1.WebUsageMining: DiscoveryandApplicationsofUsagePatternsfromWebData[J]. SIGKDDExplorations,2000,l(2). 3CooleyR,MobasherB,SrivastavaJ.WebMining:Informationand PatternDiscoveryontheWorldWideWeb[C]//Proceedingsofthe9 IEEEInternationalConferenceonToolswithArtificialIntelligence. 1997. 4BodoffS.JavaServletTechnology[Z].2002. j2ee/index.jsp. 5AgrawalR,SrikantR.FastAlgorithmsforMiningAssociationRules inLargeDatabases[C]//Proc.ofthe20thInternationalonVeryLarge D, atabases.1994. 6SrikantR,AgrawalR.MiningSequentialPatterns:Generalizations andPerformanceImprovements[C]//Proc.ofthe5Int’1.Conference onExtendingDatabaseTechnology.1996. ………,………………,…………………………………………… ………………… (上接第58页) 参考文献 1ColajanniM,YuPS.APerformanceStudyofRobustLoadSharing StrategiesforDistributedHeterogeneousWebServerSystems[J]. IEEETrans.onKnowledgeandDataEngineering,2002,13(14):398. 2LeeJYB.ParallelVideoServers[J].IEEEMultimedia,1998,5(5). 3VenkatasubramanianN,RananathanS.LoadManagementin DistributedVideoSerVers【C】,/ProceedingsoftheInternational ConferenceonDistributedComputingSystems.1997—05. 4ChouC,GolubchikL,LuiJ.StripingDoesn’tScale:HowtoAchieve ScalabilityforContinuousMediaServerswithReplication[C]//Proc. ofthe20InternationalConferenceonDistributedComputing Systems.2000—04:64—71. 5SerpanosDN,GeorgiadisL,BouloutasT.MMPacking:ALoadand StorageBalancingAlgorithmforDistributedMultimediaServers[J]. IEEETransactionsonCircuitsandSystemsforVideoTechnology, 1998,8(2):13—17. 6姚超,周敬利,余胜生.基于存储局域网络的集群多媒体服务 器[J1.华中理工大学,2000,28(7):19—21. 7任彦琦,彭勤科,胡保生.一种基于内容的Web集群服务器负载 均衡算法[J1.计算机工程,2005,3l(2):122—124.
本文档为【【word】 基于过滤器的Web访问模式挖掘】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_003124
暂无简介~
格式:doc
大小:35KB
软件:Word
页数:0
分类:生活休闲
上传时间:2017-11-10
浏览量:8