关闭

关闭

封号提示

内容

首页 搜索引擎原理:分词与索引库5-v.org.doc

搜索引擎原理:分词与索引库5-v.org.doc

搜索引擎原理:分词与索引库5-v.org.doc

上传者: 郑州战戟seo博客 2012-08-30 评分 5 0 188 26 854 暂无简介 简介 举报

简介:本文档为《搜索引擎原理:分词与索引库5-v.orgdoc》,可适用于IT/计算机领域,主题内容包含分词是很多做SEO的人常听到的概念可能很多人在这个方面有疑惑本文就来讲一下分词与索引库。希望大家能对搜索引擎处理方式有个更深入的了解。搜索引擎的功能符等。

分词是很多做SEO的人常听到的概念可能很多人在这个方面有疑惑本文就来讲一下分词与索引库。希望大家能对搜索引擎处理方式有个更深入的了解。搜索引擎的功能就是满足用户的搜索需求:当用户搜索一个关键词时搜索引擎需要对这一关键词进行快速分析并立刻给用户提供相关的网页信息。搜索引擎如何实现这个过程呢?首先搜索引擎把互联网上的尽可能多的网页进行采集这样能提供大量的网页给用户查询。这一部分由爬虫来解决顺着互联网上的链接一个个不断深入抓取。最后形成了一堆记录着相关信息网页的资料库。目前的现状最后能使这个资料库里有大概多亿个网页。资料库里记录了这些网页的URL整个网页的HTML代码网页标题等等信息。然后搜索引擎接收到用户输入关键词后搜索引擎负责从这个资料库里把相关的网页找出来给用户。这里可能碰到几个问题:、要怎么做到快速的从上亿个网页里找出匹配的网页信息的呢?要知道这是从上百亿的网页里找符合这个关键词内容的网页如果像用word里那种用ctrlF轮询的查找方式的话即使用超级计算机也不知道要消耗多少时间。但是现在的搜索引擎在几分之一秒里就实现了。所以一定是做了一些处理才实现的。解决办法也倒简单就是建立一份索引库。就像我们查《新华字典》一样我们不会翻遍《新华字典》的每一页来查那个字在哪页而是先去索引表那里找这个字拿到页码后直接翻到那页就可以了。搜索引擎也会为上百亿的网页建立一个索引库用户查询信息的时候是先到搜索引库里查一下要找的信息在哪些网页然后就引导你去那些网页的。、索引库里采用什么样的分类方式?大家都知道我们用的《新华字典》索引表是用字母列表或者偏旁部首的进行分类的。那么搜索引擎的索引库里是按照什么方式分类的呢?难道也是用用字母列表的方式?搜索引擎如果以字母列表的方式排列索引库那么平均每个字母下要查询的网页数量是亿=亿也还是一个很大的数字。而且搜索引擎上今天是亿个网页过不了多久就是亿个网页了。最后终于找到一个解决办法:索引库里用词语来分类。因为尽管互联网上的网页是不断激增的但是每一种语言里词语的数量都是相对固定的。比如英语就是一百多万个单词亿百万=万汉语是万多个词语亿万=万千。都是计算机很容易处理得过来的。用词语来分类还有一个好处就是可以匹配用户查询的那个词语。本来用户就是要查这个词语的那我就按这个词语去分类就是。理论上当用户输入关键词“mpplayer”搜索时搜索引擎就从“mp”那行和“player”那行里拿出同时都有的、交集的url来即可。上图也是现在英文版的googlecom上的真实排名情况可以看到wwwwinampcom这个网站在搜索“mp”的时候排第位在搜索“player”的时候也排第位。当搜索“mpplayer”的时候因为没有其他网站比它更匹配这个词语所以它排在了第一位。当搜索引擎把一个网站抓取下来后接下来要做的事情就是把网页里的词语分开放到索引库里。分词在这个时候就要应用到了所谓的分词其实很简单就是把词语分开而已。英语的分词好处理一点因为英语的每个单词之间是用空格分开的基本上就只要处理一些虚词、介词还有一些词语的单复数变形词等等。但是中文的分词就复杂很多了句子中的每个字都连在一起有时候即使是人来判断都还有产生歧义的时候。中文的分词有很多方法也很容易弄懂的如正向切分法逆向切分法等等网上有很多相关的资料。谷歌的中文分词方法是从国外一家第三方公司买的。百度的分词方法是自己创立的可能在词库上面比谷歌有点优势。不过其他方面稍差了一些。在这里建议大家再去看一下《把Web标准化进行得更彻底一点》这篇文章还有《丰富网页摘要”让你的网站与众不同》以及《SEO案例:锚文本、关键字、nofollow、Web标准化(一)》和《SEO案例:锚文本、关键字、nofollow、Web标准化(二)》。那些文章和这篇文章一样都是在讲同一个问题。希望大家能静下心来慢慢品读如果能真的理解了弄明白了相信你的seo路更宽了。就像销售站在客户的角度看问题一样我们也要站在搜索引擎的角度了解搜索引擎的喜好只有投其所好搜索引擎才能更好的青睐你。所以我们要能清楚它的工作原理了解我们应该关注的重点是什么。很多人说:SEO成功就是重在细节。这应该算是经验之谈。可能大家有没有想过的问题是:是不是可能原本这些看似细节的东西其实就是应该我们注意的重要的东西呢?如果你的网站没有好的排名是不是你没有想过可能你以前特别在意的一些SEO因素其实有些并不是SEO重点?而只是你把影响排名的主要因素弄错了?所以我们的不断的去调整我们在SEO中的注重方向。找找现在关心的重点是不是错误的。上面的很多知识其实在《搜索引擎营销:网站流量大提速》里都有提及的。那本书要去精读的原因之一就是它讲了很多看似很普通的原理但是都是非常有用的。例如在选择目标关键词的时候也可以参照一下这个关键词的索引量。从上面的原理可以看出这个索引量反应了这个关键词在这种语言当中人们使用的频繁程度。所以国外有些计算关键词KEI指数的公式里也把这个关键词的索引量加入了进来。

类似资料

该用户的其他资料

手把手教你.doc

手把手教你.doc

手把手教你.doc

手把手教你.doc

手把手教你.doc

职业精品

精彩专题

上传我的资料

精选资料

热门资料排行换一换

  • 第十章 高效液相色谱法.ppt

  • 第九章 气相色谱法.ppt

  • 第八章 色谱法导论.ppt

  • 第五章 原子吸收法.ppt

  • 第四章 红外光谱法.ppt

  • 第三章 紫外可见分光光度法.ppt

  • 第一章 绪 论 仪器分析.ppt

  • 01-introdoction.…

  • 第十一章 质谱分析法.doc

  • 资料评价:

    / 3
    所需积分:0 立即下载

    意见
    反馈

    返回
    顶部