关闭

关闭

关闭

封号提示

内容

首页 网页作弊与反作弊技术综述.pdf

网页作弊与反作弊技术综述.pdf

网页作弊与反作弊技术综述.pdf

上传者: 海上有仙山 2012-12-31 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《网页作弊与反作弊技术综述pdf》,可适用于高等教育领域,主题内容包含第卷第期VolNo山东大学学报(理学版)JournalofShandongUniversity(NaturalScience)年月May收稿日期:网符等。

第卷第期VolNo山东大学学报(理学版)JournalofShandongUniversity(NaturalScience)年月May收稿日期:网络出版时间:网络出版地址:http:wwwcnkinetkcmsdetailNhtml基金项目:国家自然科学基金资助项目(,)高等学校博士学科点专项科研基金项目()国家重点基础研究()项目(CB)国家高技术研究发展计划(计划)项目(AAZ)作者简介:李智超(),男,博士研究生,研究方向为反作弊技术,观点挖掘Emai:llizhichaoxyzsohucom文章编号:()网页作弊与反作弊技术综述李智超,余慧佳,刘奕群,马少平(清华大学智能技术与系统国家重点实验室,北京)摘要:随着网络信息爆炸式的增长,搜索引擎成为人们首选的获取信息的主要途径。能否在搜索引擎的排名中占有比较靠前的位置,将在一定程度上决定网页的访问量。一些网站并不是通过提高网页质量来提高其在搜索引擎中的排名,而是根据搜索引擎自身的特点,采用欺骗手段来提高排名,这就是网页作弊。网页作弊是搜索引擎面临的重大挑战之一。本文将结合常见的网页作弊的方法,阐述当前已经存在的比较有效的反作弊技术。关键词:网页作弊反作弊搜索引擎中图分类号:TP文献标志码:AAsurveyofwebspamandantispamtechniquesLIZhichao,YUHuijia,LIUYiqun,MAShaoping(StateKeyLabofIntelligentTechnologyandSystems,TsinghuaUniversity,Beijing,China)Abstract:WiththeincreaseofWebinformation,searchengineshavebecometheprincipalapproachtoinformationretrievalTheaccessingofapageisbasicallydecidedbyitsrankinginsearchenginesSomesitesboosttheirpagerankingwithoutimprovingthequalityofthepages,butdeceivethesearchenginesaccordingtoitscharacteristic,whichiscalledWebSpamWebspamisoneofthechallengesofsearchenginesValidantispamtechniquesarepresentedwithanintroductionofcommonWebspamKeywords:webspamantispamsearchengine引言互联网在最近的十几年间得到了飞速的发展,网络上的信息也成爆炸式的增长,我国域名总数量已经超过了万个,截至年月,域名注册者在我国境内的网站数目为万,由于动态网页的广泛使用以及Web的普及,真实的网页数目更是难以估算。在如此众多的网页中查找所需要的信息,搜索引擎(searchengine)成为了人们的首选。搜索引擎也是发现新网站的主要途径。我国亿网民中有声称搜索引擎是他们经常使用的网络服务。在对大规模的搜索引擎用户日志(userlog)的分析之后,发现的搜索引擎用户只查看返回结果的第页的内容,也就是排名在前名的页面。所以为了能够得到更高的点击率,获得更高的商业利润,网站要尽可能使自己的页面排在搜索引擎返回结果中更靠前的位置。常规的提高页面排名的做法就是努力提高页面的质量,使页面中的内容更为用户所需要,与用户的查询更相关。但是有些网站试图通过其他不正当的方法来产生同样的效果,这就产生了网页作弊(webspam)。ZGyongyi和HGarciaMolina给出了网页作弊的定义:相对于网页本身的实际价值来讲,使得网页获得不公正的查询相关性和重要性的行山东大学学报(理学版)第卷为就是作弊,这样的网页被称为作弊网页(spampage)。通常一般的网站很难通过自身的力量来实现页面作弊,因而一种被称为搜索引擎优化(searchengineoptimizers,SEO)的产业应运而生。SEO专门帮助商业网站来提高网页的排名,然而大部分SEO并不是通过建立良好的网页结构和提高页面内容质量等方法来实现网页价值的提高,而是通过作弊的手段来提高页面排名。随着Web的发展,互联网上的作弊手段更加丰富。Web使得用户能够更方便地对互联网上的内容添加社会标签(socialbookmarking),这也就使得通过对网页添加不相关的标签而使网页获得更高的排名这种作弊手段(socialspam)变得更加方便。作弊网页的存在不但降低了搜索引擎的搜索性能,将许多不相关的结果返回给用户,降低了用户搜索引擎的信任度,而且还使搜索引擎索引了大量无用页面,增加索引的空间开销和查询的时间开销,降低了搜索引擎的效率。通过抽样研究发现,互联网上大约有~的页面是作弊页面,这也使反作弊(antispam)成为了现代搜索引擎所面临的重大挑战之一。网页作弊技术作弊网页为了使自己排在搜索引擎返回结果的前面,通常根据搜索引擎的技术特点,修改页面本身内容或者页面之间的链接结构,来实现页面评分的提高。还有的网页通过隐藏技术间接地将实际页面内容排在搜索引擎结果列表中本不属于它的位置,。ZGyongyi和HGarciaMolina将网页作弊技术分为两大类,如图所示。图网页作弊技术分类FigWebspamtaxonomy提高评分的作弊方法主要针对搜索引擎在进行排序时对网页进行的评分,这个评分主要来自于两个方面的因素:一方面是网页和查询的相关性,通常使用BM概率模型计算,网页中含有查询词数目越多,获得的相关性评分一般也会越高另一方面是页面本身的重要性,网页重要性的计算使用的是基于链接的PageRank算法和HITS算法,通常情况下,若一个页面有越多的其他网页链向它,它就会获得更高的重要性评分。作弊网页会针对搜索引擎计算排序评分的算法特点,对自身内容和链接关系进行不正当的构造,以提升自己在搜索引擎中的排序。如果说采用提高评分的作弊方法是针对搜索引擎排序策略的欺骗,那么采用隐藏技术的作弊方法就是欺骗搜索引擎的抓取模块(爬虫crawler),它使得作弊页面能够被搜索引擎作为正常页面进行抓取和索引。下面将针对各种作弊手段进行更详细的探讨。基于内容的作弊技术基于内容的作弊的主要目的在于提高搜索引擎计算网页得到的相关性评分。作弊网页往往在页面中添加一些热门的查询词,使得页面能够在用户进行热门词查询时被检索到,并且获得较高的相关性评分,从而达到提升页面排名的目的,即便是页面内容和检索的热门词之间没有任何关系。这些热门词汇将分布在网页的各个不同的域里面,比如在标题域(title)中,这样更能提高页面和热门词的相关性。此外,热门词还可能被填充到meta标签中、锚文本中、URL中以及社会标签中。有的页面甚至将整个词典级别的词语集合全都放入页面中,使得页面能够被任意查询检索到。有的网页并不是将热门词填充到页面中,而是引用一段内容丰富的文章,提高页面内容的质量,从而达到提高排名的目的。有时候为了能够达到将作弊页面真正呈现在用户眼前的效果,页面将会对填充到页面中的热门词和大段无关的内容进行处理,使用户看不到这部分内容,而只是对搜索引擎进行索引时起作用。比如将热门词的字体设成很小,或者将其颜色设置成和背景颜色相同等。或者将实际要呈现在用户眼前的内容做成iframe的形式,躲避搜索引擎的过滤。基于页面内容的作弊技术是成本最低的作弊方法,也是比较容易识别的一类作弊方法。基于链接关系的作弊技术作弊页面通过构建链接关系来误导PageRank算法和HITS算法,从而提高自身的重要性评分。由于在整个网络环境中,页面的PageRank值的分布不均衡,PageRank算法也是易受攻击的,PageRank值稍有提高,就会使页面排名得到较为显著的提升。ZGyongyi等给出了基于链接关系进行作弊的主要手段如下:构建蜜罐诱饵(Honeypot):作弊者首先构造一第期李智超,等:网页作弊与反作弊技术综述些提供有用资源的网页,像蜜罐一样吸引其他页面链向它们,然后它们再链向目标作弊页面,从而间接提高目标作弊页面的PageRank值。蜜罐页面为了能够吸引链接,会将指向目标作弊页面的链接进行隐藏。渗入网页目录(webdirectory):一些具有很高PageRank值和hub值的Web分类目录允许网站所有者将其网站提交到目录中的某个主题下。作弊者可以将带有目标作弊页面链接的网页提交到目录中,从而提高目标作弊页面的PageRank值和authority值。张贴留言链接:在博客(Blog)、信息板、访客留言板或者wiki等网络平台上,网络使用者都可在上面张贴信息。作弊者可以在他们所张贴出的评论和信息中加入指向目标作弊页面的链接,以提高目标作弊页面的PageRank值。为了能够大量地张贴链接,作弊者往往采用机器自动添加的方法,这样也造成了评论和主题内容偏离的现象。作弊链接交换:作弊者和作弊者之间为了提高各自页面的重要性,通常会进行合作,令在各自的页面中添加指向对方页面的链接,从而达到互利的目的。购买过期域名:站点域名过期时,链向它的其他站点很难在第一时间将链接信息进行更新。作弊者可以购买过期域名,然后安排给自己的作弊网页,利用陈旧链接来获得较高的PageRank值。构造链接工厂(linkfarm):作弊者通常将大量的作弊页面组织在一起,通过链接关系精心设计一个相互链接的复杂的结构,再利用渗透网页目录或者张贴留言链接等手段将外部链接链入结构中的某些页面,从而使结构中的所有作弊页面都会得到一个相对较高的PageRank值。这样的结构被称为链接工厂。二级域名作弊:作弊者利用了具有相同二级域名的大量域名,它们的最低一级域名是随机生成的,这些域名的页面要么互相有链接指向,要么指向同一个目标作弊页面,从而提高自身或目标作弊页面的PageRank值。掩盖技术作弊网页采用掩盖(Cloaking)技术来欺骗搜索引擎的爬虫,在搜索引擎要进行抓取的时候,作弊页面向搜索引擎发送一个包含有用资源的高质量页面,从而使搜索引擎认为它是一个有价值的页面,并且在用户进行查询时,将其排在比较靠前的位置,但是在用户点击时,这个页面会向网络用户浏览器(Browser)发送不同内容,比如含有赌博、色情等内容的无意义的页面,这些内容和用户查询完全不相关。这种同一页面给搜索引擎爬虫和给用户浏览器端发送不同内容的方法被称为掩盖技术。作弊者之所以能够完成掩盖技术作弊,是因为作弊网站能够比较容易地识别访问它的客户端是不是一个搜索引擎的抓取模块。一方面,作弊者可以维护一个搜索引擎抓取时使用的IP地址列表,并通过IP地址匹配来识别另一方面,可以通过HTTP请求消息中的用户代理域来进行识别。并不是所有的使用了掩盖技术的页面都是作弊页面,一些页面在发送给搜索引擎爬虫的内容中去掉了一部分广告信息和链接信息,而主要的内容和发送给用户浏览器的一样,从而使得搜索引擎在进行索引时的负荷减轻,这是搜索引擎所能够接受的。BaoningWu等人将所有的掩盖技术称为语法层掩盖技术(syntacticcloaking),将真正影响了搜索引擎工作的掩盖技术称为语义层掩盖技术(semanticcloaking)。研究表明在搜索引擎对热门词的检索结果中,排名靠前的页面有~使用了掩盖技术。重定向技术重定向(redirection)技术,指的是当用户浏览器加载一个URL之后,将会跳转到另外一个URL所指向的页面。页面的跳转可以通过种方式来实现:()使用HTTP状态码:浏览器在接收到HTTP请求后,将会根据HTTP状态码进行响应,当状态码为、、时将会发生跳转()使用META域刷新:当页面的meta域中出现refresh标签时,页面将会发生跳转()使用JavaScript脚:JavaScript是可以镶嵌在网页中的脚本语言,通过简单的语句就能使页面发生跳转。但是,大多数重定向作弊页面中会使用非常复杂的方法来掩饰跳转语句,例如编码解码、HTML标签重构等。页面的重定向技术可以用于广告页面的轮换、论坛发表文章之后跳转等方面,但是网页作弊者则利用这项技术进行网页作弊。由于搜索引擎很难将页面重定向之后的内容抓取下来,所以作弊者可以将URL对应的原始页面做成一个含有有用资源的页面,令搜索引擎对其索引,然后在用户点击URL之后,通过meta域刷新或者JavaScript脚本跳转到其他页面,实现作弊。KChellapilla等人的研究表明在热门的URL中有大约使用了JavaScript作弊。山东大学学报(理学版)第卷作弊网页通常不会只包含一种作弊技术,而是将各种作弊技术相结合,以得到最佳的欺骗搜索引擎的效果。作弊页面识别技术通过对网页作弊技术的研究,一些反作弊技术也逐渐发展起来。针对各种作弊技术,大都有了相应的识别方法。但是作弊技术多种多样,针对作弊技术进行识别的方法并不能够满足搜索引擎的需求,所以近年来一些并非针对特定类别作弊技术的作弊页面识别算法得到了很大的发展。特定类别的作弊页面识别技术基于内容作弊页面的识别基于内容的作弊方法是针对页面文本域的各部分区域进行关键词填充等,因此识别这类作弊页面的方法主要是通过挖掘作弊页面不同于正常页面的特征来进行识别。ANtoulas等提出了一种基于内容的作弊页面识别方法,并给出了很多特征分析结果。他们通过MSNBot的爬虫在年月期间抓取个真实网络页面组成数据集。对数据集中的约个英文页面进行了抽样标注,在个抽样页面中共有个作弊页面,比例为。文献中给出了一些易于计算的页面内容特征,其中包括标题长度、词语的平均长度、可见内容的比例、内容压缩比等。标题长度:作弊者会将关键词堆砌到标题域中,所以那些标题很长的页面大部分是作弊页面。词语的平均长度:很多英文页面中会存在将一些词合成起来作为新词的作弊现象,如freebook等等,以满足和更多的查询词相关。分析后发现,如果页面的平均词语长度(字母数)很长,那就很可能是作弊页面。可见内容的比例:这是针对内容隐藏作弊情况考察的,但这类作弊页面识别较容易,现有的搜索引擎已基本解决。内容压缩比:将文本通过GZIP算法进行压缩,压缩前的文本大小除以压缩后的文本大小即为压缩比。这个特征主要是针对重复部分热门关键词的作弊手法,压缩比越高说明文档中词语重复度越高,是作弊页面的可能性就越大。最后,作者选了一些区分度比较明显的特征对标注的数据集通过C进行了次交叉验证,结果是对作弊页面的识别有的查全率和的精确度,非作弊页面的识别召回率为,精确度为,比作弊页面稍高。WWang等在ANtoulas等所提出的页面特征的基础上增加了更多的特征来进行作弊页面的识别,其中包括锚文本的数量、页面中含有热门词汇的数量等。此外他们还融合了一些非页面内容的特征,比如页面最近一次被更新的时间、页面链接中已经失效的链接比例、页面中有用信息所占的比例、页面制造者的名声、链向该页面的链接数量、页面内容专注于单一话题的程度等。在综合多个特征之后,文中使用learningtorank的方法对页面进行作弊程度的排序,而并非使用分类的形式将作弊页面抽取出来。DFetterly等用两个独立收集的数据集进行实验,并着重分析了一些特征的规律分布图上出现的特殊噪声点,提出了另外一些有用的特征,如URL属性,即作者发现含有很多字符、圆点、破折号和数字的主机名字更像是作弊站点映射到同一IP地址的不同主机数目超过一定阈值后就很可能是作弊站点在一个给定站点上的页面变化率,那些每周页面几乎完全变化的站点基本都是作弊站点。Fetterly等还介绍了针对短语级别作弊的识别算法等。我们对中文网页中作弊页面进行了页面内容的特征提取和分析。在对个URl页面中的作弊页面和非作弊页面进行分析之后,发现网页的内容压缩比、标题长度、标题词语在正文中出现的比例、meta标签的长度等内容特征在中文作弊页面的识别中也有一定区分度。图中给出了中文页面中标题长度和作弊页面分布之间的关系。图中横坐标为标题长度,柱状图为含有对应标题长度的页面在中文页面中的比例Ratio,曲线表示含有对应标题长度的页面中作弊页面的比例Ratio。从图中可以看出在不同标题长度的页面中,作弊页面的分布有明显的不同,通过机器学习的方法能够有效识别这一类作弊页面。基于内容作弊的页面比较容易识别,这是由于内容作弊的针对性强,而且这类作弊仅仅依靠自身的变化,从而使得特征的发现和提取都易于实现。图中文页面中标题长度的分布和作弊页`面所占比例FigThedistributionoftitlelengthofChinesewebpageandtheproportionofwebspam第期李智超,等:网页作弊与反作弊技术综述基于链接作弊页面的识别相比于较容易的基于内容作弊的页面识别,基于链接关系作弊的识别则相对困难,研究者们提出了多种方法来识别链接工厂、消弱作弊页面的Rank值等。TrustRank是由ZGyongyi等人提出的一个反链接作弊的算法,它可以算作PageRank的改进版本。这个算法的核心思想是认为优质页面将链向优质页面,而很少会链向作弊页面。作者先在众多的页面中挑选出一部分种子页面,通过人工选择,得到一个优质页面的集合。对于这些页面,赋一个TrustRank的初始值,然后在整个页面集合中进行迭代,迭代的过程和PageRank算法类似,如下:t*=Tt*()d,其中t*为页面的TrustRank值,为衰减因子,T为邻接矩阵,d为页面初始的TrustRank值,对优质页面而言这个值是一个正数,而对非优质页面,这个值为。经过若干次迭代后,优质页面的TrustRank值将会通过链接关系传递给它所指向的页面,这样被优质页面所链接的页面也将会得到较高的Trustrank值。最终认为TrustRank值高的页面不是基于链接的作弊页面,那么它们可以被搜索引擎作为结果页面返回给用户。实验结果表明,通过TrustRank进行排名比通过PageRank进行排名的作弊页面的位置明显靠后。TrustRank算法虽然不能直接识别出作弊页面,但是能够通过降低作弊页面排名的方式来提高搜索引擎的检索性能。另一种思路和TrustRank的思想相对,即认为链向作弊页面的页面大多是作弊页面。那么可以事先从网页中人工选择一个作弊网页集合,对这些页面赋一个表征作弊可能性的值,可以称为作弊度,然后通过链入作弊网页的链接,将这个作弊度迭代传播给链向作弊页面的网页,这个迭代过程也与PageRank算法类似。经过迭代之后,作弊度高的页面将被认为是基于链接的作弊页面。有很多研究者运用这个思路设计了作弊页面识别算法,由AABenczr等人在年提出的SpamRank算法就是其中之一。在SpamRank算法作用下,作弊度较高的页面有将近的是作弊页面。VKrishnan等人在年也提出了类似的AntiTrustRank算法。对在博客上张贴链接而形成的链接作弊,GMishne等人给出了一个基于语言模型的识别方法。他认为在博客上张贴的作弊链接大多是机器自动张贴,从而张贴的内容和原帖的主题并没有相关性,通过对原帖和张贴内容在语言模型上的分析比较,来判断他们之间的相关性,根据相关性就可以识别作弊链接,从而识别作弊页面。但通常在博客上张贴的内容比较简短,单单比较这部分内容的语言模型,不容易得出很高的识别率,所以文中跟踪了张贴的链接,将链接指向的内容也进行语言模型的分析。如果张贴的语言模型和原帖的有很大不同,那么就认为这是机器自动张贴的作弊内容。这个算法可以得到的准确率。判断博客上的作弊链接的主要的困难还是在于在原帖内容较短时,对语言模型的估计存在偏差,况且博客中本身存在主题漂移的现象,这都对作弊链接的识别产生影响。JMartinezRomo等也给出了类似的语言模型的算法,并且还综合考虑了链接锚文本、URL、页面标题等之间的KL距离、以及链接为站内链接还是站外链接等因素,能够使准确率达到。AABenczr等人从检索的角度给出了一个识别链接作弊的方法。文中先构造一个页面集合,然后对页面集合中的部分页面是否为作弊页面进行人工标注。对于待判定的页面,计算它和页面集合中每个页面的相关性,再根据相关性将集合中的页面进行排序。这个相关性主要是指链接的相关性,两个页面同时被同一页面所链接,那么认为这两个页面的链接相关性大于,这个相关性可以通过链接层数进行迭代计算。在根据链接相关性排好序的页面集合中,如果排名靠前的页面中被标注为作弊的页面居多,则认为待判定的页面更可能是作弊页面。实验表明最好的结果可以在的查全率时得到左右的准确率。各种识别基于连接作弊的方法,都是针对互联网中页面之间的复杂链接关系,而且大都是建立在物以类聚这样一个基本假设上,也就是认为产生基于链接作弊的主要原因是有大多数页面链向作弊页面,而这些提供出链接的页面也大多是作弊页面,因为正常页面没有理由去链向作弊页面。然而作弊者最核心的作弊方法就是产生正常页面链向作弊页面的链接,这在前面一章中已经提到过。识别由正常页面链向作弊页面的链接应当是识别链接作弊的重点所在,同时也是难点所在。图中被标记为SL的链接就是一个正常页面链向作弊页面的链接。从图中可以发现TrustRank值可以通过SL从节点传递给节点,从而使得节点,,都获得TrustRank值,SpamRank也可能会认为节点为作弊网页。又由于节点和节点同时被节点链接,也有可能会被认为是相似网页,从而出现识别错误。山东大学学报(理学版)第卷这也是各种算法都很难得到非常高的准确率的主要原因。如果能够识别SL链接,将会很大程度地提高链接作弊的识别率。HYu等通过用户浏览行为将这样的链接最大程度地进行了去除。文中在构造链接关系图的时候,只选取了被用户点击过的链接,因为用户一般不会从一个正常页面点击进入一个作弊页面,这样SL链接将会很少出现在链接关系图中,在这样构造的链接关系图中使用TrustRank算法,就能够有效地找出作弊页面。文中使用站点级别数据进行实验,在用户浏览链接关系图中使用TrustRank算法得到的TrustRank值最低的个站点中,有个站点为作弊站点或低质量站点。图互联网链接结构,其中黑色节点为作弊网页,白色节点为正常页面FigLinkstructureofweb,inwhichblacknodesarespampageswhilewhiteonesareregular掩盖作弊页面的识别对于掩盖作弊的页面,BaoningWu在年给出了一种检测方法。他建立了两个不同的网页抓取程序,一个模拟Google搜索引擎爬虫,另一个模拟InternetExplorer浏览器。用两个程序对同一个URL分别进行两次抓取,得到个版本的页面内容,分别记作C,C,B,B。通过比较各个版本之间的区别,来判断对应的URL是否使用了掩盖技术。如果模拟爬虫抓到的内容和模拟浏览器抓到的内容差别比较大,就认为页面可能使用了掩盖技术进行作弊。定义C和C两个版本之间的差异度为NCC,C和B两个版本之间的差异度为NBC,这个差异度可以认为是两个版本之间存在不同的词语的数目或者是不同的链接的数目。NBC与NCC的差则更能表征页面使用掩盖技术的可能性。根据这个假设,对个URL进行语法层掩盖技术作弊的判断,F值最高可以达到。年,KChellapilla等人对BaoningWu的方案进行了改进。他们并没有盲目地对每一个URL抓取个版本的内容,而是先使用模拟搜索引擎爬虫和模拟web浏览器分别抓取次,得到C和B,比较两个版本之间的差异,如果两个版本内容相同,则认为该URL没有使用掩盖作弊技术的可能,便直接认定为非作弊页面。然后对两个版本不同的URL,再抓取C和B,进行掩盖技术作弊的判别。在判别上,KChellapilla等人将NBC和NCC的差的评价指标进行了归一化,因为直接使用NBC和NCC的差对于页面长度较长的URL来说,更容易被划分为作弊页面,导致误判,归一化之后则不存在这个问题。他们在实验中得到最好的结果可以在查全率下得到的准确率。到目前为止,识别掩盖作弊的主要方法中,都需要对每个URL抓取两个版本的内容,如果直接应用到实际系统中,搜索引擎爬虫的效率将会大大下降,而真正使用了掩盖作弊的页面最多也不到。所以如何根据爬虫抓取的网页的自身特征来首先排除大部分不可能使用掩盖作弊的页面,将是提高识别掩盖作弊效率的重要手段。重定向作弊页面的识别BaoningWu和BDDavison在对重定向作弊页面进行抽样分析时,指出的在meta域中含有refresh标签的页面都会发生页面的跳转,剩余的页面的refresh标签位于NOSCRIPT域中,不产生跳转。但是作者在抽样时只抽取了个带有refresh标签的页面,并不能很好地说明根据refresh标签判断重定向作弊具有很好的性能。况且有的页面本身也使用refresh标签来进行正常的网页刷新,这并不能算作是作弊行为。KChellapilla等提出了一个收集基于JavaScript跳转作弊页面的方法,可以用来进行JavaScript重定向作弊的识别。他们使用了一个带有JavaScript解析功能的爬虫和一个不带JavaScript解析功能的爬虫分别对同一个URL进行抓取。有解析功能的爬虫将会跟踪页面中的JavaScript语句,抓取最终跳转到的页面及其URL,判断这个URL和初始URL的异同,如果相同,则不存在JavaScript作弊,否则判断这个URL和原始URL是否在同一域名下。因为如果两URL在同一域名下,可能是论坛内部跳转,并不是重定向作弊,但如果不是同一域名下的URL,那么这个页面将被认定为JavaScript重定向作弊页面。非特定类别的作弊页面识别技术下面要介绍的作弊识别技术中并不是针对特定的某类作弊技术,而是通过其他角度来进行识别。传统的针对作弊技术的识别方法都依赖于作弊技术本身,需要等作弊技术被搜索引擎发现并认知之后才能进行针对性的反作弊,不能及时地对作弊网页第期李智超,等:网页作弊与反作弊技术综述进行识别。而非特定类别的作弊页面识别技术则能够克服传统方法中的这个问题,而且能够应对各种类型的作弊技术,即使是新出现的作弊类型也能够有效地进行识别。基于用户行为的作弊识别技术YLiu等认为作弊网页的用户访问大多数都是由搜索引擎所引导的。基于这样的假设,文中使用用户浏览日志,抽取用户访问行为的一些特征,来进行作弊页面的识别。其中包括:()搜索引擎引导访问率:即由搜索引擎引导到页面的访问次数与页面被用户总的访问次数之比。通过统计,的正常网页从搜索引擎获得的访问比例不到,然而大约有的作弊页面从检索结果列表中获得的引导访问比例超过了。()链接源比例:在日志中页面作为链接源被用户点击到其他页面的次数占页面被访问次数的比例。用户通常不会在作弊页面上点击链接,所以作弊页面的链接源比例会比较小。()少次数引导比例:用户在一次会话中访问站点中页面数量小于N的比例。用户在浏览到作弊站点之后,通常不会再在作弊站点中浏览其他的页面,所以一次会话中浏览站点页面数都会比较少。在使用这些特征对页面进行分类之后发现,在被分类为作弊页面的个页面中,有的页面为基于内容的作弊页面,的页面为基于链接的作弊页面,的页面为其他类型的作弊页面,只有的页面是非作弊页面。这说明基于用户行为的作弊页面识别技术不但能够达到很高的准确率,还能应对各种类型的作弊页面。基于作弊目的的作弊识别技术余慧佳等认为无论对于那一种作弊方法,作弊的目的都是为了获取经济利益,虽然作弊者能够更新作弊技术以应对搜索引擎反作弊技术,但是作弊者生成作弊页面的目的却基本不会发生变化,一般只有如下几类:第一,广告类,这类作弊主要是为了引导用户去点击广告,从而获取代理商处的利益,广告类作弊主要有JavaScript嵌入的列表型、视频类和广告联盟等形式第二,增值服务类,这一类作弊主要目的是给用户提供一些收费的服务从而获取利益第三,博客类,主要通过发布链接等行为为其他站点提供流量或进行广告。余慧佳等还通过了对页面中广告在页面中所占的比例、已经非法查询词引导比例等特征对广告类作弊和一些非法宣传类作弊页面进行了识别,识别的准确率超过了。以上两类作弊页面的识别技术都是从作弊页面的作用结果出发来进行识别的,从作弊页面的成因出发不同,所以它能够更高效地进行工作,这也是未来作弊页面识别技术发展的主要方向之一。结论目前,网页作弊已经成为了网络搜索引擎所面临的重大挑战之一。作弊者通过使用各种各样的网页作弊手段,使自己的页面获得本不属于它们的高排名,以不正当的行为获得经济利益。这些作弊方法主要包括基于内容的作弊、基于链接关系的作弊、掩盖技术作弊和重定向技术作弊等,实际网页中更是将各种作弊技术相结合,增加了搜索引擎识别作弊页面的困难。研究人员不但从作弊技术的成因出发,针对每一种作弊技术都展开了研究,而且从作弊产生的作用结果出发,从用户行为、作弊目的等方面也进行反作弊的研究,并取得了一定的成果。但是在反作弊的征途中,依然有很多的困难摆在眼前。首先,由于作弊页面通常不仅仅使用一种作弊技术,所以现有的研究成果大都准确率并不高。其次,由于在复杂性和效率上存在问题,很难在实际的搜索引擎系统中得到应用。但也正是这样那样的困难推动着搜索引擎技术的不断进步。参考文献:中国互联网络信息中心(CNNIC)第次中国互联网络发展状况统计报告R北京:CNNI,SILVERSTEINC,HENZINGERM,MARAISH,etalAnalysisofaverylargewebsearchenginequerylogJACMSIGIRForum,,():余慧佳,刘奕群,张敏,等基于大规模日志分析的搜索引擎用户行为分析J中文信息学报,,():GYONGYIZ,GARCIAMOLINAHWebspamtaxonomyCAIRWebChiba,Japan:sn,:GKANOGIANNISA,KALAMBOUKISTAnovelsupervisedlearningalgorithmanditsuseforspamdetectioninsocialbookmarkingsystemsCEuropeConferenceonMachineLearningandPrinciplesandPracticeofKnowledgeDiscoveryinDatabasesSl:sn,:MARKINESB,CATTUTOC,MENCZERFSocialspamdetectionCAIRWebNewYork:ACMPress,:HENZINGERM,MOTWANIR,SILVERSTEINC山东大学学报(理学版)第卷ChallengesinwebsearchenginesJACMSIGIRForum,,():SAHAMIM,MITTALV,BALUJAS,etalThehappysearcher:challengesinwebinformationretrievalCProceedingsofthPacificRimInternationalConferenceonArtificialIntelligenceBerlin,Heidelberg:SpringerVerlag,,:FETTERLYD,MANASSEM,NAJORKMSpam,damnspam,andstatisticsCProceedingsofthethInternationalWorkshopontheWebandDatabasesNewYork:ACMPress,:BAEZAYATESR,RIBEIRONETOBModerninformationretrievalMLondon:AddisonWesley,PAGEL,BRINS,MOTWANIR,etalThePageRankcitationranking:bringingordertothewebRStanford:DepartmentofComputerScience,StanfordUniversity,KLEINBERGJAuthoritativesourcesinahyperlinkedenvironmentJJournaloftheACM,,():BAEZAYATESR,CASTILLOC,LOPEZVPagerankIncreaseunderdifferentcollusiontopologiesCAIRWebChiba,Japan:sn,:MISHNEG,CARMELD,LEMPELRBlockingblogspamwithlanguagemodeldisagreementCAIRWebChiba,Japan:sn,:GYONGYIZ,GARCIAMOLINAHLinkspamalliancesCProceedingsofstVLDBConferenceSl:sn,:茹立云新信息检索与Web链接分析方法研究D北京:清华大学,CHELLAPILLAK,CHICKERINGDImprovingcloakingdetectionusingsearchquerypopularityandmonetizabilityCProceedingsofthendInternationalWorkshoponAdversarialInformationRetrievalontheWeb(AIRWeb)Sl:sn,NewYork:ACMPress,:WUB,DAVISONBCloakingandredirection:apreliminarystudyCProceedingsofthendInternationalWorkshoponAdversarialInformationRetrievalontheWeb(AIRWeb)NewYork:ACMPress,:CHELLAPILLAK,MAYKOVAAtaxonomyofjavascriptredirectionspamCProceedingsoftherdInternationalWorkshoponAdversarialInformationRetrievalontheWeb(AIRWeb)NewYork:ACMPress,:NTOULASA,NAJORKM,MANASSEM,etalDetectingspamwebpagesthroughcontentanalysisCProceedingsofthInternationalWorldWideWebConferenceNewYork:ACMPress,:WANGWe,iZENGGuosun,TANGDaizhongUsingevidencebasedcontenttrustmodelforspamdetectionJExpertSystemswithApplications,,():FETTERLYD,MANASSEM,NAJORKMDetectingphraselevelduplicationontheworldwidewebCSIGIRNewYork:ACMPress,:GYONGYIZ,GARCIAMOLINAH,PENDERSENJCombatingwebspamwithtrustrankCProceedingsofthInternationalVLDBConferenceSl:sn,:BENCZU'RAA,CSALOGNYK,SARLST,etalSpamRankfullyautomaticlinkspamdetectionworkinprogressCProceedingsofthestInternationalWorkshoponAdversarialInformationRetrievalontheWeb(AIRWeb)Sl:sn,:KRISHNANV,RAJRWebspamdetectionwithantitrustrankCProceedingsofthendInternationalWorkshoponAdversarialInformationRetrievalontheWeb(AIRWeb)Sl:sn,:MARTINEZROMOJ,ARAUJOLWebspamidentificationthroughlanguagemodelanalysisCProceedingsofthendInternationalWorkshoponAdversarialInformationRetrievalontheWeb(AIRWeb)Madrid,Spain:ACMPress,:BENCZU'RA,CSALOGNYK,SARLSTLinkbasedsimilaritysearchtofightwebspamCProceedingsofthendInternationalWorkshoponAd

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/8
1下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部