下载

1下载券

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 《搜索的思想》十、——URL地址库

《搜索的思想》十、——URL地址库.pdf

《搜索的思想》十、——URL地址库

晓月泮荷升
2012-09-19 0人阅读 举报 0 0 0 暂无简介

简介:本文档为《《搜索的思想》十、——URL地址库pdf》,可适用于IT/计算机领域

文章来自超越SEO博客带你一起探索新型SEO!《搜索的思想》十、URLURLURLURL地址库一、URLURLURLURL地址库为了避免重复爬行和抓取网址搜索引擎会建立一个地址库记录已经被发现还没有抓取的页面以及已经被抓取的页面。地址库中的URL有几个来源。一是人工录入的种子网站(比如hao就是一个好的种子网站)。二是蜘蛛抓取页面后从HTML中解析出新的链接URL与地址库中的数据对比如果是地址库中没有的网址就存入待访问地址库。三是站长通过搜索引擎网页提交表格提交进来的网址。蜘蛛按重要性从待访问地址库中提取URL访问并抓取页面然后把这个URL从待访问地址库中删除放进已访问地址库中。大部分主流搜索引擎都提供一个URL提交入口让站长提交网址。不过这些提交来的网址都只是存入地址库而已是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。二、做内链接和外链接的比例问题网页搜集的过程中要保证每个网页不要被重复的抓取由于一篇网页可能被多个网页链接搜索引擎蜘蛛爬取过程中就有可能多次得到该网页的url,所有解决这个问题的有效方法是使用两个数据表分别为unvisitedtable和visitedtable。前者包含尚未访问的url后者记录已访问的url。系统首先将要搜集的种子url放入unvisitedtable然后spider从其中获取要搜集网页的url搜集过的网页url放入visitedtable中新解析出的并且不在visitedtable中的url加入unvisitedtable读完这个算法后如果我们做了一个网站想要增加网站页面的收录我们应该如何导入链接给我们的页面。根据以上算法和URL地址库的分析我们不难推断出我们做内链接和外链接的时候一定要注意比例的问题不要都指向首页很多朋友就经常用这种错误的优化方法假如搜索引擎的抓取的过程一维的从A来A指向BB指向CABC如果它发现B已经抓取过了那么就有可能倒致C不会被发现和抓取了所以我们可以做内链接和外链接的时候采用::的比例另外我在上一篇文章还提到了一个空间点击距离的问题如果你非常想让你的某一页面被收录就直接给它做链接最好比如发外链的时候就可以这样做好了这篇文章我就写到这里原理都说的很明白了至于可以推理出来的优化方法会有很多就看你们的理解分析程度了我也只能引路到这里了。文章来自超越SEO博客带你一起探索新型SEO!更多seo方法欢迎加我交流。《搜索的思想》十、URL地址库

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

评分:

/2

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利