首页 管窥_网络蜘蛛_之网上爬行

管窥_网络蜘蛛_之网上爬行

举报
开通vip

管窥_网络蜘蛛_之网上爬行 0 2008 / 8技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场 TECHNOLOGYANDMARKET 近年来,整个互联网络像泡沫极速膨胀,而搜索引擎也在 极度丰富的网络世界里尽量延伸。在这种趋势下,SEO也成为 一热门词汇。 SEO是SearchEngineOp...

管窥_网络蜘蛛_之网上爬行
0 2008 / 8技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场技 术 与 市 场 TECHNOLOGYANDMARKET 近年来,整个互联网络像泡沫极速膨胀,而搜索引擎也在 极度丰富的网络世界里尽量延伸。在这种趋势下,SEO也成为 一热门词汇。 SEO是SearchEngineOptimization的缩写,主要工 作是通过了解各类搜索引擎如何抓取互联网页面,来对网页进 行相关的优化。在全文搜索引擎里,离不开一个强大的网络资 源收集器,它就是所谓的“网络蜘蛛”,也叫“网页机器人”。 1.“网络蜘蛛”的简况介绍 “网络蜘蛛”(WebSpider),如同网络间的爬虫,采用循环的 结构自动提取网页上的信息。用搜索到的信息建立索引库,并将 查询结果返回给用户。在现有技术下,“蜘蛛”爬行的范围也在不 断增大。但是纯粹依靠简单的循环是不可能抓取到互联网上全 部的相关网页的,从目前公布的数据来看,容量最大的搜索引擎 也不过能抓取了整个网页数量的40%。因此一个优秀的搜索引 擎要提升其性能,需要不断的优化网络蜘蛛的算法。 2.“网络蜘蛛”的搜索策略分析 2.1现有策略的分类和评价 网络蜘蛛在抓取网页的时候,使用类似有向图遍历法对其 进行遍历。传统的通用搜索引擎通常采用广度或深度优先策 略搜索,以求较高的web覆盖率。专业搜索引擎用于特定的内 容和更细致的方面,简单的广度或深度优先策略已不能完全满 足用户需求。以何种策略访问web,是近年来网络蜘蛛研究的 焦点之一,而这其中评价链接价值的算法是决定网络蜘蛛搜索 策略的关键。根据评价链接价值所采用的方法不同,基本上现 有的网络蜘蛛搜索策略分为两大类:基于即时回报价值评价的 搜索策略和基于远期回报价值评价的搜索策略。前者计算链 接价值的依据主要是在搜索过程中同步获得的信息,如已访问 页面中的文本信息、链接周围的文本信息等。后者主要依据经 预先训练而获得的某些“经验信息”,用于对远期回报的预测。 近年来对网络信息资源分布的研究表明,Web上信息资源的分 布存在某种程度“相似性”。因此,有些学者考虑先对网络蜘蛛 进行一些训练,使其具备一些“经验信息”,利用这种相似性, 以期预测较远的回报。 从上面的简单概括就可以看出,不同类别的网络蜘蛛各具 优缺点。基于立即回报价值评价的搜索策略,评价链接价值的 依据主要是搜索时同步获得的信息,这些信息往往不具备整体 性,因而这类网络蜘蛛普遍存在“近视症”。基于未来回报的搜 索策略的本质是通过训练获得某些“全局性”信息,因而相比较 而言在搜索远期回报方面具有一定优势。但是不可避免的,由 用户选择典型站点进行训练增加了用户的负担。 2.2“网络蜘蛛”搜索策略的优化 当前最受欢迎的搜索引擎Google最大的优点,正是它检索 的高效性和正确性。而Google开发出来的PageRank,有效地利 用了 Web所拥有的庞大链接构造的特性。 从网页A导向网页 B的链接被看作是对页面A对页面B的支持投票,Google根据这 个投票数来判断页面的重要性。可是 Google不单单只看投票 数(即链接数),对投票的页面也进行分析。 根据这样的分析,得到了高评价的重要页面会被给予较高 的 Page Rank (网页等级),在检索结果内的名次也会提高。 PageRank是Google中表示网页重要性的综合性指标,而且不 会受到各种检索(引擎)的影响。 鉴于上面的例子,可以在整个搜索引擎的搜索策略中引入 一个权值Rank,搜索结果排序和搜索优先级都可以依据这个 参数做出调整,以达到效率和数量的平衡。可以把Rank设计成 与Google的PageRank相似,但可以增加考虑蜘蛛访问的时耗。 3.当前网络环境中“网络蜘蛛”有待升级 “网络蜘蛛”是通过网页的链接地址在网际爬行。过去情况 下网页大多是静态网页,网络蜘蛛可以直接从网页脚本中提取 出文本内容和超链接进行爬行。但随着IT技术的迅速发展,动 态网页的数量急增。常以asp、jsp、php、等形式为后缀,并且在动 态网页网址中有一个标志性的符号———“?”。动态网页实际上 并不是独立存在于服务器上的网页文件,只有当用户请求时服 务器才返回一个完整的网页;另外,动态网页中的“?”对搜索引 擎检索存在一定的问题,搜索蜘蛛不去抓取网址中“?”后面的 内容,因此采用动态网页的网站在进行搜索引擎推广时需要做 一定的技术处理,才能适应搜索引擎的要求。这些大大影响网 络蜘蛛对网站的爬行覆盖率。为了更好地适应当前的网络环 境,有必要进一步研究针对动态网页的网络蜘蛛爬行策略,以 保证搜索的覆盖全面性。 参考文献: [1]刘刚,于力超.搜索引擎中网络蜘蛛的设计与实现[J].电脑 与信息技术,2007,(4). [2]骆庆.中文搜索引擎中的网络蜘蛛[J].福建电脑,2006,(12). [3]李学勇,欧阳柳波,李国徽.网络蜘蛛搜索策略比较研究Ⅱ [J].计算机工程与应用,2004. [4]中文搜索引擎技术揭密[EB/OL]. http://www.fullsearcher.com. [5]Introduction toGoogle PageRank[EB/OL]. http://pr.efactory.de/ 管窥“网络蜘蛛”之网上爬行 丁 婕 西南财经大学经济信息工程学院 成都 610074 摘要:搜索经济正在一步步崛起,我们开始越加关注全球各大搜索引擎的性能、技术。而此时不得不提起另一高度 相关的:网络蜘蛛。本文结合当前资料数据对网络蜘蛛的基本要点和爬行策略做了简单介绍。 关键词:搜索引擎 网络蜘蛛 搜索策略 Rank动态网页的新策略 专 题 研 究 49
本文档为【管窥_网络蜘蛛_之网上爬行】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_350567
暂无简介~
格式:pdf
大小:32KB
软件:PDF阅读器
页数:1
分类:互联网
上传时间:2010-03-31
浏览量:54