关闭

关闭

关闭

封号提示

内容

首页 Web挖掘研究.pdf

Web挖掘研究.pdf

Web挖掘研究.pdf

上传者: 闲庭散步 2010-12-18 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《Web挖掘研究pdf》,可适用于IT/计算机领域,主题内容包含第!"卷第#期$年#月计算机研究与发展’()*,(()**,*(:!"<#,=>$原稿收到日期$A$ABCD挖掘研究韩家炜E孟小峰F王静G李盛恩GE符等。

第!"卷第#期$年#月计算机研究与发展’()*,(()**,*(:!"<#,=>$原稿收到日期$A$ABCD挖掘研究韩家炜E孟小峰F王静G李盛恩GEH加拿大西蒙弗雷泽大学智能数据库系统研究实验室加拿大IFH中国人民大学信息学院北京"J$IGH中国科学院计算技术研究所北京"IHKLMNOPQ=RS:TUSVWONVUOI摘要因特网目前是一个巨大X分布广泛X全球性的信息服务中心<它涉及新闻X广告X消费信息X金融管理X教育X政府X电子商务和许多其它信息服务YNS包含了丰富和动态的超链接信息<以及YNS页面的访问和使用信息<这为数据挖掘提供了丰富的资源YNS挖掘就是从YNS文档和YNS活动中抽取感兴趣的潜在的有用模式和隐藏的信息对YNS挖掘最新技术及发展方向做了全面分析<包括YNS结构挖掘X多层次YNS数据仓库方法以及YNSP挖掘等关键词数据挖掘<YNS挖掘<YNS仓库<YNSP挖掘<YNS使用记录挖掘中图法分类号!ZZ^‘aBbcdadaefZgh,’TWAYNTE<ijTWANOPF<Y,i’TOP<WOklmNOPAOGEHnopqrrstqopuvpvwvxqyzxpq{x|qxqv}~!"vw#}v}p#}z<ys{#o$}vxq}osq}xspz<’vov(vIFHy~!##r#)no)#}{vps#o<|qo{soosq}xspz#)’!sov<*qssot"IGHnoxpsp,pq#)’#{,psotq~!o#r#tz<’!soqxq~v(q{z#)y~sqo~qx<*qssot"IDmNY>:kYTkNYNSN>NWmRPN<TkN:kTV>TSRVNk<P:SW:TOL>MWVTON>TUNUNOVN>L>W>TRW==:TUWVTOYNSUOVWTOW>TUmWOkkOWMTUU::NUVTOLm=N>:TOTOL>MWVTOWOkYNS=WPNWUUNWOkRWPNTOL>MWVTO<=>TkTOP>TUmR>UNL>kWVWMTOTOPmNPW:LYNSMTOTOPTVkTUN>VmNWUUN=WVVN>OWOkmTkkNOTOL>MWVTOL>MVmNmRPNU::NUVTOLkURMNOV=:Rm=N>:TOTOL>MWVTO<WUUNWOkRWPNTOL>MWVTOiTNOTOVmT=W=N>TWON>TNLYNSMTOTOPVNUmOT:RNWOkONV>NOk<MWTO:TO:TOPYNSV>RUVR>NMTOTOP<WMR:VT:WN>NkYNSTOL>MWVTOSWNSRT:kTOP<WOkYNSPMTOTOPC<=>kWVWMTOTOP<YNSMTOTOP<YNSW>NmRN<YNSPMTOTOP<YNSRWPNMTOTOP引言A年代<大的物理流伴随着大信息流传统的文件方式不能适应信息处理的需求<因此出现了数据库技术B年代<人类积累的数据量以高于每月CDH或每年C!倍I的速度增加<数据海洋不能产生决策意志<为了进行决策<人们不断地扩大数据库能力<搜集海量数据<但这使得决策者更难于决策<因此出现了数据挖掘技术<以便从数据库中发现知识数据挖掘技术包括特征X分类X关联X聚类X偏差X时间序列X趋势分析等EF!G近年来<lOVN>ONV正以令人难以置信的速度在飞速发展<越来越多的机构X团体和个人在HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHlOVN>ONV上发布信息!查找信息"虽然#$’$上有海量的数据(但由于)*是无结构的!动态的(并且)*页面的复杂程度远远超过了文本文档(人们要想找到自己想要的数据犹如大海捞针一般"信息检索界开发了许多搜索引擎,(但其覆盖率有限(因此查全率低(一般的搜索引擎是基于关键字的查询(命中率较低(另外不能针对特定的用户给出特殊的服务(因为每个人感兴趣的东西是不一样的(因此不具有个性化"解决这些问题的一个途径(就是将传统的数据挖掘技术和)*结合起来(进行)*挖掘")*挖掘就是从)*文档和)*活动中抽取感兴趣的潜在的有用模式和隐藏的信息(,(")*挖掘可以在很多方面发挥作用(如对搜索引擎的结构进行挖掘(确定权威页面()*文档分类(()*挖掘(!智能查询(建立:)*数据仓库等"万维网目前是一个巨大!分布广泛!全球性的信息服务中心(它涉及新闻!广告!消费信息!金融管理!教育!政府!电子商务和许多其它信息服务")*还包含了丰富和动态的超链接信息(以及)*页面的访问和使用信息(这为数据挖掘提供了丰富的资源"然而从以下的分析可以看出(对)*进行有效的资源和知识发现具有极大的挑战性"<=对有效的数据仓库和数据挖掘而言()*似乎太庞大了")*的数据量目前以兆兆字节<’:*>=计算(而且仍然在迅速地增长"许多机构和社团都在把各自大量的可访问信息置于网上"这使得几乎不可能去构造一个数据仓库来复制!存储或集成)*上的所有数据"最近(有一些工作在致力于存储或集成)*上的所有数据"例如(在ABCCDDD":’EFG"’CF$HI"JK下(可访问到一个巨大的数十兆兆字节的因特网存档"<=)*页面的复杂性高于任何传统的文本文档")*页面缺乏同一的结构(它包含了远比任何一组书籍或其它文本文档多得多的风格和内容")*可以看做一个巨大的数字图书馆L然而(这一图书馆中的大量文档并不根据任何有关排列次序加以组织"它没有分类索引(更没有按标题!作者!扉页!目次等的索引"在这样一个图书馆中搜索希望得到的信息是极具挑战性的"<=)*是一个动态性极强的信息源")*不仅以极快的速度增长(而且其信息还在不断地发生着更新"新闻!股票市场!公司广告和)*服务中心都在不断地更新着各自的页面"链接信息和访问记录也在频繁地更新之中"<,=)*面对的是一个广泛的形形色色的用户群体"目前因特网上连接有约千万台工作站(其用户群仍在不断地扩展当中"各个用户可以有不同的背景!兴趣和使用目的"大部分用户并不了解信息网络结构(不清楚搜索的高昂代价(极容易在M黑暗N的网络中迷失方向(也极容易在M跳跃式N访问中烦乱不已和在等待信息中失去耐心"<=)*上的信息只有很小的一部分是相关的或有用的"据说O的)*信息相对O的用户是无用的"虽然这看起来不是很明显(但一个人只是关心)*上的很小很小一部分信息确是事实()*所包含的其余信息对用户来说是不感兴趣的(而且会淹没所希望得到的搜索结果"这些挑战已经推动了如何高效且有效地发现和利用因特网上资源的研究工作")*挖掘是一个更具挑战性的课题(它实现对)*存取模式!)*结构!规则和动态的)*内容的查找"PQRS挖掘的分类我们可以将)*挖掘一般地定义为B从与)))相关的资源和行为中抽取感兴趣的!有用的模式和隐含信息"一般地()*挖掘可分为类B)*内容挖掘<)*E$$JF$F$=!)*结构挖掘<)*’TET’JF$F$=和)*使用记录的挖掘<)*T:JF$F$="图给出了)*挖掘的分类图"<=)*内容挖掘)*内容挖掘是从文档内容或其描述中抽取知识的过程")*文档文本内容的挖掘(基于概念索引的资源发现(以及基于代理的技术都属于这一类")*内容挖掘有两种策略B直接挖掘文档的内容(或在其它工具搜索的基础上进行改进"采用第种策略的有针对)*的查询语言)*()*UV等(利用启发式规则来寻找个人主页信息的W>(等等"采用第种策略的方法主要是对搜索引擎的查询结果进行进一步的处理(得到更为精确和有用的信息"属于该类的有)*XV(及对搜索引擎的返回结果进行聚类的技术等"<=)*结构挖掘)*结构挖掘是从)))的组织结构和链接关系中推导知识"由于文档之间的互连()))能够,计算机研究与发展年提供除文档内容之外的有用信息!利用这些信息"可以对页面进行排序"发现重要的页面!这方面工作的代表有#$’$()*,和’*!此外"在多层次数据仓库中也利用了页面的链接结构!:使用记录的挖掘使用记录挖掘的主要目标则是从的访问记录中抽取感兴趣的模式*!中的每个服务器都保留了访问日志$<<==>"记录了关于用户访问和交互的信息!分析这些数据可以帮助理解用户的行为"从而改进站点的结构"或为用户提供个性化的服务!这方面的研究主要有两个方向一般的访问模式追踪和个性化的使用记录追踪!一般的访问模式追踪通过分析使用记录来了解用户的访问模式和倾向"以改进站点的组织结构!而个性化的使用记录追踪则倾向于分析单个用户的偏好"其目的是根据不同用户的访问模式"为每个用户提供定制的站点!图A挖掘的分类BCDE结构挖掘结构是可以挖掘的*A"A,"A!挖掘结构的目的是发现页面的结构和的结构"在此基础上对页面进行分类和聚类从而找到权威页面!有关这方面的研究提出了如下的方法!B!FGHIDJKHLM方法NKOLHLPGHID"FQQR*AS假设要搜索某一给定话题的页面"例如金融投资方面的页面!这时我们除了希望得到与之相关的页面外"还希望所检索到的页面具有较高质量和权威性!这里基于了一个有意思的发现"即权威性$TUVWXUY可由页面链接来反映!不仅由页面组成"而且还包含了从一个页面指向另一个页面的超链接!超链接包含了大量人类潜在的语义"它有助于自动分析出权威性语义!当一个页面的作者建立指向另一个页面的指针时"这可以看做是作者对另一页面的注解!把对一个页面的来自不同作者的注解收集起来"就可以用来反映该页面的重要性"并可以很自然地用于权威页面的发现!因此"大量的链接信息提供了丰富的关于内容相关性Z质量和结构方面的信息"这对挖掘是可以利用的一个重要资源!基于以上考虑"人们提出了如下的权威页面识别算法!首先可以用一个有向图来表示""^"是页面的集合"^是页面之间的超链接集合!页面抽象为图中的顶点"而页面之间的超链接抽象为图中的有向边!顶点的入边表示对的引用"出边表示引用了其它的页面!所以页面之间的超链接揭示了结构!链接文本$(<VWU‘U=可以用来对被引用的页面进行索引例如W""a>!超链接可以用来计算页面的W$()X(=<W"通过超链接可以将一个页面的W$()X(=<W传递到相邻的页面!#$bW$()的基本思想是一个页面被多次引用"则这个页面很可能是重要的c一个页面尽管没有被多次引用"但被一个重要页面引用"则这个页面很可能是重要的c一个页面的重要性被均分并被传递到它所引用的页面!定义F!d是一个页面"ed是d引用的页面集合"fd是引用d的页面集合"gdhedh"则d的重要性为idjkfdilg!mn,,期韩家炜等挖掘研究对于一个查询!"搜索引擎首先利用相似度函数找到#个页面"然后利用公式$’#(’)*,!"*(!""计算每个页面的重要性"然后进行排名这里"":<"=""*(!"是相似函数"*(!"":<"=>ABCDAEFGHIEJ方法KLMINBMHO"PQQRS=在TTT出现之前"引用分析在信息获取领域已经进行了长时间的研究UVWXYZ^Y‘VabXVabcWSd对杂志的引用采用了数值化的评价方法"eYf^gYVfhVWYfSdi对此提出了重要的改进"他们观察到并不是所有的引用都有相同的重要性"一个有影响的杂志是递归地被其它的有影响的杂志大量引用"一个杂志j的影响力等于所有引用它的杂志的影响力之和再根据引用j的杂志的数量对该和进行加权然而"与杂志的引用率不同"TZk链接结构具有特殊的特征首先"不是每一个超链接都具有注解性有些链接是为其它目的而创建的"如为了导航或为了付费广告总体上"若大部分超链接具有注解功能"就可以用于权威判断其次"基于商业或竞争的考虑"很少有TZk页面会指向其竞争领域的权威页面例如"可口可乐不会链接到其竞争对手百氏可乐的TZk页面第l"权威页面很少具有特别的描述如mVncco主页面不会明确给出pTZk搜索引擎q之类的自描述信息由于TZk链接结构存在这些局限性"人们提出了另外一种重要的TZk页面"称为nrk页面一个nrk是指一个或多个TZk页面"它提供了指向权威页面的链接集合nrk页面本身可能并不突出"或者说可能没有几个链接指向它们但是"nrk页面却提供了指向就某个公共话题而言最为突出的站点链接此类页面可以是主页上的推荐链接列表"例如一门课程主页上的推荐参考文献站点"或商业站点上的相关信息站点nrk页面起到了隐含说明某话题权威页面的作用通常"好的nrk是指向许多好的权威的页面s好的权威是指由许多好的nrk所指向的页面这种nrk与VrbncWYbt之间的相互作用"可用于权威页面的挖掘和高质量TZk结构和资源的自动发现这就是nrkCVrbncWYbt方法的基本思想算法uvwxnt‘ZWYfgyYfraZbc‘YaZ^VWan是利用nrkCVrbncWYbt方法的搜索算法"其内容如下$将查询!提交给普通的基于相似度的搜索引擎"搜索引擎返回很多页面"从中取前’个页面作为根集,,z*z"用{表示通过向{中加入被{引用的页面和引用{的页面将{扩展成一个更大的集合|以|中的nrk页为顶点集}"以VrbncWYbt页为顶点集}"}中的页面到}中的页面的超链接为边集~"形成一个二分有向图{!}"}"~对}中的任一个顶点""用#"表示页面"的nrk值"对}中的顶点$用$表示页面$的VrbncWYbt值开始时$#""对$执行操作修改它的$"对"执行操作修改它的#"$操作$$’"(""$:~#""操作$#"’"(""$:~$每次迭代后对$和#"进行规范化处理$$$’!:}!=)"#"#"’!:}#!=)式反映了若一个页面由很多好的nrk所指"则其VrbncWYbt权重会相应增加即权重增加为所有指向它的页面的现有nrk权重之和式反映了若一个页面指向许多好的权威页"则nrk权重也会相应增加即权重增加为该页面链接的所有页面的VrbncWYbt权重之和uvwx算法输出一组具有较大nrk权重的页面和具有较大VrbncWYbt权重的页面许多实验表明"该算法对许多查询具有非常良好的搜索结果在实际应用中"由{生成|的代价可能是很昂贵的为了找出{所引用的页面"需要将{中的所有页面下载"为了找出引用{的页面"对{中的页面需要搜索引擎能根据给出的*,能找出引用该*,的页面"另外需要排除重复的页面一般情况下{<<"而|可能达到<<<因此根据|生成有向图{!可能是昂贵的虽然基于链接的算法可以带来很好的结果"但这种方法由于忽略文本内容"也遇到一些困难例如当nrk页包含多个话题的内容时"uvwx有时会发生偏差这一问题可以按如下的方法加以克服"即将式和式置换为相应权重的和"降低同一站点内多链接的权重"使用VfancW文本TZk页面中与超链接相连的文字调整参与VrbncWYbt计算的链接的权重"将大的nrk页面分裂为小的单元基于uvwx的系统包括,UccZ也基于了同样的原理这些系统由于纳入了TZk链接和文本内容信息"查询效果明显优于基于词类索引引<计算机研究与发展<<年擎产生的结果!如"#$’($)和基于本体论生成的结果!如*,,)使用记录的挖掘除了内容和链接结构挖掘的另一个重要任务是使用记录挖掘它通过挖掘日志记录来发现用户访问页面的模式:<=通过分析和探究日志记录中的规律可以识别电子商务的潜在客户增强对最终用户的因特网信息服务的质量和交付并改进服务器系统的性能和结构目前研究较多的使用记录挖掘技术和工具可分为两大类>模式发现和模式分析使用记录中的模式发现用户访问模式的发现采用了来自人工智能数据挖掘信息论等领域的成熟技术从使用记录中挖掘知识但在新的环境中有许多新的问题需要考虑和研究在模式发现中首先要解决的问题就是数据的预处理它主要包括如下两个部分>数据清洗!A$B#C’CD)包括无关记录的剔除判断是否有重要的访问没有被记录用户的识别等问题E事务识别!$FC(B$’,C’AC$’G’B$’,C)是指将页面访问序列划分为代表事务或用户会话的逻辑单元在对事务进行了划分后就可以根据具体的分析需求选择访问模式发现的技术如路径分析关联规则挖掘时序模式以及聚类和分类技术路径分析!H$C#I(’()可以用来发现站点中最经常被访问的路径从而可以调整站点的结构在使用记录挖掘的环境下关联规则挖掘的目标是发现用户对站点各页面的访问之间的关系这对于电子商务是非常有用的时序模式的发现各种聚类和分类技术的采用对于使用记录中的模式发现都有其各自的作用现有JK多种商用的L,D挖掘工具=大部分速度慢并且做了一些假设以便减少要分析的L,D文件的大小这些工具的性能包容性和分析的深度还有一定的限制一般包含一些经常使用的报告>点击数和传输字节数的汇总报告排名靠前的被请求的MNL引用者以及最常用的浏览器列表每个互联网域的点击次数出错报告目录树报告等O模式的分析如果没有合适的技术和工具来辅助分析人员的理解采用各种技术挖掘出来的模式将不能得到很好的利用所以开发各种分析技术和工具也是非常必要的目前这个领域的工作还不是很多是一个较新的领域可视化技术在其它领域中的应用已经取得了巨大的成功因此对于理解用户的行为模式来讲也是一个自然的选择P’$Q,R等人已经开发了’S系统来将的访问模式可视化此外联机分析处理!TL"P)技术也可以应用到模式的分析中来U=在VWXYZVN=系统中还提出了类似于L的形式化的查询机制由于L,D可以提供很多关于的信息通过对日志文件的多维分析可以提供各种各样的统计报告完成日常管理工作发现潜在的客户用户和市场等计划挖掘!H#C^’C’CD)挖掘通常的存取规律可以调整连接改善性能E相关序列存取模式分析可以对服务器的缓存预取和交换参数进行调整E趋势分析可以了解正在发生的变化E用户的个性化分析可以为用户提供定制的服务下面给出一个系统的例子’F$‘#aM是一个基于服务器的软件系统它具有个性化的设计交付和增强通过发布的教育和训练课程的功能由DF,‘HMaB$((’DC^C$(‘^’((’,CB,‘F(($F‘B$‘F’CD$B’CD(‘HH,F$’CDR,FQ(HBG’#‘H#,ADFA,,Q和(I(A^’C子系统组成’F$‘#aM的日志不记录如客户使用了浏览器哪些功能像页面内的回退页面的翻滚等对存放在缓存中页面的请求对存放在代理服务器上页面的请求信息’F$‘#aM日志文件也有一些特殊情况>不同的用户调用相同的bcY脚本相同的用户动作在不同的时间可能调用不同的bcY脚本同一个用户有时使用不止一个浏览器’F$‘#aM有两个日志文件一个日志文件包含浏览器的类型和请求的页面另一个的格式如下>AAJa:B,^H‘(FdB,^F‘’K"HF<>KK>KJ>:aKUKK=ecVfgMBD’’CccA(H^(DBD’hB’iK:j^’ikffPKlKK<K期韩家炜等>挖掘研究根据日志文件提供的信息!一个是做联机分析"#$’!对一些常用的数据进行汇总!如统计由用户(域和会话发出的单一动作的频率!统计各种不同错误的频率!将用户发出的动作划分为行为!例如)*,***)**通过联机分析可以回答诸如哪个部件或特征被经常不经常引用!哪个事件是经常发生的!不同领域用户的分布情况!不同领域或不同地区用户的存取方式是否不同!有什么不同等问题另一个是做联机挖掘"#$’!包括模式分析和趋势分析前者分析当增加或修改):<=的*:)*时!不同用户之间(不同课程之间():,*和*)之间的关系!后者分析用户行为随时间的变化趋势!网络流量随时间的变化趋势通过联机挖掘可以回答一些深层次上的问题!例如各种部件和特征在什么上下文中使用!什么是典型的事件序列!在不同的用户中对资源的使用和存取模式有什么不同!针对课程的使用和存取模式有什么不同!对一个给定的环境全部的使用模式是什么!用户的行为随着时间是怎样变化的!随着服务质量"速度的快或慢’的变化!使用模式是怎样变化的!网络流量随时间的分布是什么>AB使用记录挖掘的基本流程对C*D$进行分析和挖掘要经过一系列的数据准备工作和建模工作一个基本的流程如图E所示"F’首先要对C*D$进行清洗(过滤和转换!从中抽取感兴趣的数据处理过程如图G所示图EC*D$挖掘的过程图GC*D$的清洗(过滤和转换"E’将=H$(动作(资源的类型(资源的大小(请求的时间(在资源上停留的时间(请求者的I*)*域名(用户(服务器状态作为JK:D*的维变量!将对模块(页面和文件请求次数(来自不同I*)*域请求次数(事件(会话(带宽(错误次数(不同浏览器种类(用户所在组织作为度量变量建立JK:D*通过对JK:D*的切块(切片分析可以回答L哪些成分或特色被经常或偶尔使用!网络流量随时间的变化规律"按时(日(月等’!用户在不同I*)*域的分布情况!来自不同地区的用户在存取方式上是否有有什么差异"G’利用成熟的数据挖掘技术"如特征(分类(关联(预测(时间序列分析(趋势分析’进行C*D流量分析(典型的事件序列和用户行为模式分析(事务分析!可以回答成分和特色在什么上下文中被使用MNFO计算机研究与发展ENNF年什么是典型的事件序列!在用户中是否有共同的行为模式"是什么!不同用户群在使用和行为上有什么差异!用户的行为是否随时间变化"怎么变化等问题#通过分析$存取日志能帮助理解用户的行为和$结构"因此"可以改进$页面的设计和$应用程序"发现潜在的电子商务客户#目前的日志并没有收集足够的信息#在分析过程中对数据清洗和转换是非常重要的"并且经常需要站点结构知识’元数据(#)*,从不同的视角不同的概念层次提供了数据视图"而$*数据挖掘提供了深层次的报告"像时间序列分析相关分类等#通过使用这类$*文件"可以进行一些研究工作"如系统性能分析"通过$缓存改进系统设计$页面预取$页面交换’(!认识$信息访问的本质!理解用户的反映和动机#例如"有些研究提出了可适应站点’(的概念即可以通过用户访问模式的学习改进其自身的$站点#$*分析还有助于建立针对个体的个性化$服务#由于$*数据提供了用户访问$页面的信息"因此$*信息可以与$内容和$链接结构挖掘集成起来"用于$页面的等级划分$文档的分类和多层次$信息库的构造#:多层次<=数据仓库的建立与操作>A与BA>$是一个没有标准没有结构异构的系统"并且在以很快的速度增长变化"造成为进行搜索而建的索引很快不能反映真实情况而失效#如何对一个巨大的分布的高度异构的半结构的支持超文本和超媒体经过网络互相连接的不断变化的信息库进行查询和挖掘C建立一个多层数据库’DEFFFGH"I*JK("用数据库技术来管理$的元数据’IL$(是其中的一个方法MNOP#它是一个分层的数字图书目录"其作用类似于电话号码本中的黄页#由于$上信息的多样性多变性和巨大的数量"对原始信息进行结构化处理"再利用数据库技术进行管理和查询是非常困难的"也是不实际的#多层数据库的主要思想是概括’HFQ("即根据经常出现的查询模式"对$上的原始信息进行概括归纳"形成多层次的结构化的数据库#:#R>A一个I*JK由N个主要部分构成ST"U"VW"各部分的定义如下’X(T一个数据库模式"它包含了关于分层数据库结构的元信息!’Y(U概念层次的集合!’N(VI*JK各层中数据库关系的集合#数据库模式描述了I*JK的全局结构"存储了包括结构数据类型取值范围等在内的通用信息#此外"它还描述了从低层关系得到高层关系的路径图"以及所采用的归纳方法#概念层次的集合是预先定义的"可以协助系统向高层概括低层信息"以及将查询映射到相应的层次#V不仅包括原始的全局信息库"而且包括经过概括归纳的各层次的数据库关系#我们可以将$上的原始信息作为I*JK的最底层*GHLO"该层信息的多样性和海量使得对其的管理是非常困难的#基于全局信息的访问模式和访问频率"*GHLX可以被组织为多个关系表"如ZED"H"HQ"D"E"H"ZDDHZF等#*GHLX是对最底层信息的抽象或描述"它是数据库系统可管理的最底层信息#该层信息由各个站点分别构建和存储"每个站点对自己的文档进行综合以后在每个站点形成*GHLX#在*GHLX的基础上构建更高层的数据库需要采用概括归纳技术"这种概括归纳可能在多个方向上进行"例如根据不同的分类原则进行划分"或者进一步概括某些属性"合并相同的元组"形成汇总表"或者对两个或多个关系进行连接"形成新的关系表等等#在进行抽象时"需要领域专家提供一个概念层次"然后利用面向属性的综合方法自动完成综合工作#下面用一个例子来说明信息组织的这种层次关系#例R#’X(假设*GHLX由Y个关系组成ZED和H"一种可能的结构如下ZED’FH"EH"F"EFZ"EFZ"HZ"FE"FZ"ZHGZH"GH"^"DEFDZ"ED"HD"HHH"QZ"DD"ZZHEZG"F"FE"‘(H’FD"HD"DH""ZEHZ""LDF"XXaa期韩家炜等$挖掘研究!""#$’’())*’$,#!*()($#,(),)*#$,#!)*)#!"!*,#),*$$))"($*以’!$,为例*关系中的一个元组是(:中一个文档的抽象*"#’’(表示了存放文档的文件名和<=*)#’!$是文件的大小*,#),是文件的最后一次修改时间*$$))"($记录了存取频率*它或者是该元组的存取次数*或者是从>!中统计出来的文档的存取次数等等A将上面的(:B经过简化得到(:AC’!$(#""#’’(*,!()*,#,*#$,#!*#$,#!’,*),($,**$,!(’)$(#,#!*DE!(’)*F!(#’G*)*"!(,*)#’!$*$$))"($*#D)!,()!(#"),*"#(),*#$:,#!)*""##,#!*:#*()($#,(),)*)#!*$$))"($H对第A层采用多种技术概括归纳*可能得到如下的(:HC$)’!$"#’’(*,!()*,#,*#$,#!*#$,#!’,*),($,**$,!(’)$(#,#!*DE!(’)*)*"!(*)#’!$*#D)!,’!$)(""##,#!*"#’*#$,#!(*$!,*"#(),,!(#),*"#’’(#),’!$,!((#""#’’(*,!()*""##,#!*,#,*#$,#!*’,*$,!(’)$(#,#!*DE!(’)*)*"!(,*)#’!$*#D)!,()!)(""##,#!*()($#,(),*(*#$,#!)*$!,图I多层次>数据仓库的建立建立多层数据库的第B步是实现(:B*即从原始的无结构的信息向具有较好结构的可管理的数据转换和归纳首先要解决异构问题*因为不同的站点可能采用不同的数据库管理系统*可以采用将不同数据库中的数据以JK文档的形式来表现*目前很多商用数据库都提供该功能JK文档利用LML来对文档使用的标签,*标签的顺序N标签之间的嵌套关系进行自我描述*从而达到描述文档结构的目的*但由于JK允许用户自由定义标签,*不同的>维护者对同一个事物可能采用不同的标签来描述*不利于信息的共享自BOOP年以来*为了方便>上的信息查询*L#Q!(E!(D)!集中了来自世界各地的相关领域的专家*提出了一套描述符用以描述文档的内容N表现形式和相关属性*目前共有BP个描述符CMRMS*Q=STMU=*V<WXSQM*LSVQ=RYMRUZ*Y<WRVS=*QUZM=RW<MU=*LTMS*MYS*U=KTM*RLSZMRRS=*VU<=QS*TZ^<:T^S*=STMRUZ*QUS=T^S*=R^MV可以将这套描述符作为第B层的标准描述符*就像数学领域采用K,K作为交换数学信息的标准描述符一样*这样就解决了结构的问题对于目前大量MK语言的站点*可以采用专门的抽取和转换工具逐步过渡到JK各站点通过各种转换工具*形成自己的(B数据库*这些数据库通过R,(,构成了一个巨大的全局(B数据库虽然可以在(B数据库上完成查询*但对于涉及大量站点的查询*其效率一定是低下的因此*有必要通过抽象和综合形成更高层的数据库*由于这些数据库的体积相对较小*可以在主干网的站点上或本地服务器上存放多个副本*从而提高查询响应速度‘abcdef>SWKgHBh是采用类似Vi语法的查询语言*它针对的是>资源查询和>知识挖掘因为在KLW中概念是按层次综合的*查询条件不一定与当前抽象层次一致*可能更抽象或更特例化*因此ABI计算机研究与发展AB年引入了以下的操作符!"#$’(覆盖)"#$*,包容)同义词)"#’#近似这些操作符可以完成对不同层次概念的互操作下面是:的顶层语法!<=>ABCDEF*AGHIJF#D’KHLMNOLPOIDFQ’RKST#"F#D’RUVLHLWX"FY’KIHPLHZF,Y’DFQ’RKHNTZDWF*^#YWF*^F""’’RDEF*ABC‘LMLaO^MS‘OF,YDFQ’^b^c’",EF*A^dF’’eEF*Ac’",EF*ABCJSTLPL‘aHSfOSITSTHLMLgNTaLOIF,YDFQ’^bdF’’eEF*ABCJSTLaMN‘‘SGSaNOSITNaaIHPSThOIF,YDFQ’STHLMLgNTaLOIF,YDFQ’^b:在许多方面借鉴了数据挖掘语言ij:k提供了对抽象概括数据的查询和知识挖掘能力随着结构化标记语言l:越来越流行k被人们接受和采纳k可以预期未来将会有大量的LZ页面用l:书写k并遵循一组好的文档类型说明mPIanJLTOOfLPLaMNHNOSIT‘kioip类似l:的标准化语言k可以有利促进不同LZ站点间的信息交换和方便构造多层次LZ信息库的信息提取而且更便于设计和实现基于LZ的信息搜索和知识发现语言总之k基于以上讨论k构造多层次LZ信息库应该是可能的k它可以方便因特网上的资源发现q多维分析和数据挖掘可以预期基于LZ的多维分析和数据挖掘将成为因特网上信息服务的重要部分r结束语万维网目前是一个巨大q分布广泛q全球性的信息服务中心k它包含了丰富和动态的超链接信息以及LZ页面的访问和使用信息k这为数据挖掘提供了丰富的资源本文重点介绍了用于识别权威页面的LZ链接结构挖掘q多层次LZ信息库的建立以及LZ:Ih挖掘的技术和方法LZ挖掘是一个较新的研究领域k还有许多问题有待于进一步的研究和深化在这里我们给出一些LZ使用记录挖掘的未来研究方向首先k在数据的预处理方面k开发更好的数据收集机制和技术是非常必要的k可以为分析提供更丰富的信息此外k多种信息m如LZ使用记录q用户注册信息等p的智能集成也值得进一步的研究在挖掘处理方面k已有的挖掘方法的性能有待于进一步的改进)针对LZ使用记录的增量变化和分布特性k可以开发新的模型开发能够协助理解挖掘出的知识的智能工具也是该领域的一个重要方向未来随着l:的兴起kLZ页面会蕴涵更多的结构化和语义信息k这会使LZ挖掘工作变得更为有效k也更为容易同时LZ文档的自动分类q多层次LZ信息库的建立以及LZ:Ih挖掘仍然会是LZ挖掘的主题参考文献stNTukvNJZLHiNONSTSTh!wITaLfO‘NTPoLaVTSxnL‘yNTNOLIkwz!IHhNTvNnGJNTTk{|||{}JSLMST‘SokNTTSMNtzPNONZN‘LfLH‘fLaOSgLITTIUMLPhLPS‘aIgLHwIJJnTSaNOSIT‘IGzwks~~!k"~mssp!#$!"LIk’‘NSMN(kwLHSyzTLUyj:MSLIfLHNOIHGIHJSTSThN‘‘IaSNOSITHnML‘}T!):i*~!IJZNk}TPSNks~~!s{{s""uITL‘vykSMMLOO’FLNPSTh‘ST}TGIHJNOSITLOHSLgNMk"HPLPyNTNOLIkwz!IHhNTvNnGJNTTks~~#O,SITSoVLIHMPSPLLZ!jnNhJSHLIHhIMPJSTLwIJJnTSaNOSIT‘IGzwks~~!k"~mssp!!#!$!NNPk’SNOLO‘yVNfSHI(kyJOV’FzPgNTaL‘STvTIUMLPhLiS‘aIgLHNTPiNONSTSThzzz}}o’HL‘‘ks~~!NMInO‘I‘wzaaL‘‘JLOVIP‘GIHOLOzwwIJfnOLHynHgks~$#ksmsp!~$LMPJNTkiNhNT}vTIUMLPhLPS‘aIgLHSTOLOnNMPNONZN‘L‘mviop}T!’HIaIGs‘O}TO*MwITGITvTIUMLPhLiS‘aIgLHNTPiNONSTSThITOHLNMkwNTNPNks~~#~wVNHNZNHOSyiNONJSTSThGIHVfLHOLO!zOnOIHSNM‘nHgLy}(viifMIHNOSITk{|||ksm{p!ssss|(HNgNTI:k(NHaSNIMSTNtkoIJN‘SazoVLLGGLaOSgLTL‘‘IGhSI‘‘GIHOVLOLOPNONZN‘LPS‘aIgLHfHIZMLJ}T!y}(i*~STTLNfIMS‘kks~~s{!s"ssyNMOIT(znOIJNOSaoLO’HIaL‘‘SThLNPSThkz!zPPS‘ITL‘MLks~$~s{yNMOIT(kzMMLTuknaMLwFznOIJNOSaNTNM‘S‘kOVLJLhLTLHNOSITkNTP‘nJJNHS,NOSITIGJNaVSTLHLNPNZMLOLO‘"s期韩家炜等!LZ挖掘研究!"#$"$’(()*),’)*’’)*’$$:!:#<=<>$A##B,CD:A=#EF==$:E#"<$:=$:E#E$$C,G:"D=$(=C=HDIJ#=K:=#D#"#C=$#B$"$LCIKCH(MNK’((MOOPOM’)G$:QJ#=RS=R##KEF=#<$#=$,KT=A=#"$:#BD:AT$:""$F==$:C,G:"D=C=H:E#E$$D!=:#D:#’((M’OG#=QJ>C$:"D:$#$TB$E==$C,G:"D=C=H:E#E$$D!=:#D:#’((M’Q::=#!UASVWXY##B=$$H#Q=:T"=T:$AFT=$:’(((*L’PN,ZM’M$#$:B>IAQ#KKFF#"=#D#$:B$:##D:A=#:$=:#$<EF$:=$=#C,G:"D’P=K!AFG#E$F#GK’(((’PO’(’P:#!GB$I$=AD:B$^"$F$:=$=TJ$$:"$B#$C,G:"DM=:E#E$$DLH(PN:#$KT=:#’((P’($#$:B>KT=:#==#<$T:"$#F$:#Q$E$<#:A$=>T:DK’((()LON,Z)**ZQ::=#!UASCEQGS"$EF$:=$="#D#"=#T#BF$:^#QC,G:"DK!^CUC=HDB$A$=DU=L!CUH(PN!$==$K’((PZM’P*’B‘T!#$J!T#E#B#$::"#""#D#$:T#B"F:#A#=C,G:"DaUH(MSE#T:Bb’(((M)**"QAUT#>$B#,c#E#B:$"#F$D:T""$’((M==F,dd=$"J$"AF"Ad"dP’’dP’’"*=A*‘#$e#f>U#"<$:#B$""$F==$:E=:$EFF#BKGEE=A##B=$"B$BC,G:"DKE<"$#U#B#=#::#$DLKUH(PN!=::K’((P’(*(*)!=#ISc#:=#AF:$#,M"AA$:"#BF:"$#B=#"$gE#"$BT:J’((M==F,ddJJJ$="F$J:E"Ad$="F$J:EdJ^ZP^’((MdJ^ZP^B#=A*O!T#<I$E#B:$E$::$"=#,KF:FD:#D$:$=##D$$:<$:BD#$C,G:"D:EDfTAc"=:g=$$U$<$::E’((M*!:#<=<>VWXY$TB$A##B,U#"<$:EFF#"=#DTB$F==$:D:A$E=!CUUSF:=#*ZZZ’L*N,’***M:A^TAA#B>f#=EA#^$,K$:J="#B=$$C,G:"D=C=H:E#E$$D!=:#D:#’((M*P$E$aT=$:T=E#A$#""$A$=EKAFT=$:!T:<’((PZL’N,’MZ*’*($:>#hfSVWXY$A##B,G==$:E#"<$:D:A:E#E$$=:"=#b#<$:#=D#$=I$"$F,I(^ZOZ’((Z‘#$f>$T:"$EQJ$BE$E#"<$:#B#D:A=#=$A,KF:$#A#:E$#BE$F$:#A$=C,G:"DUUH(O=:$

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/23
0下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部