关闭

关闭

封号提示

内容

首页 搜索引擎原理:分词与索引库5-v.org.doc

搜索引擎原理:分词与索引库5-v.org.doc

搜索引擎原理:分词与索引库5-v.org.doc

上传者: 郑州战戟seo博客 2012-08-30 评分1 评论0 下载41 收藏0 阅读量854 暂无简介 简介 举报

简介:本文档为《搜索引擎原理:分词与索引库5-v.orgdoc》,可适用于IT书籍领域,主题内容包含分词是很多做SEO的人常听到的概念可能很多人在这个方面有疑惑本文就来讲一下分词与索引库。希望大家能对搜索引擎处理方式有个更深入的了解。搜索引擎的功能符等。

分词是很多做SEO的人常听到的概念,可能很多人在这个方面有疑惑,本文就 来讲一下分词与索引库。希望大家能对搜索引擎处理方式有个更深入的了解。 搜索引擎的功能就是满足用户的搜索需求:当用户搜索一个关键词时,搜索引擎 需要对这一关键词进行快速分析,并立刻给用户提供相关的网页信息。搜索引擎 如何实现这个过程呢? 首先,搜索引擎把互联网上的尽可能多的网页进行采集,这样能提供大量的网页 给用户查询。这一部分由爬虫来解决,顺着互联网上的链接一个个不断深入抓取。 最后形成了一堆记录着相关信息网页的资料库。目前的现状,最后能使这个资料 库里有大概100多亿个网页。资料库里记录了这些网页的URL,整个网页的 HTML代码,网页标题等等信息。 然后,搜索引擎接收到用户输入关键词后,搜索引擎负责从这个资料库里把相关 的网页找出来给用户。这里可能碰到几个问题: 1、要怎么做到快速的从上100亿个网页里找出匹配的网页信息的呢? 要知道这是从上百亿的网页里找符合这个关键词内容的网页,如果像用word里 那种用ctrl+F轮询的查找方式的话,即使用超级计算机,也不知道要消耗多 少时间。但是现在的搜索引擎,在几分之一秒里就实现了。所以一定是做了一些 处理才实现的。 解决办法也倒简单,就是建立一份索引库。就像我们查《新华字典》一样,我们 不会翻遍《新华字典》的每一页来查那个字在哪页,而是先去索引表那里找这个 字,拿到页码后,直接翻到那页就可以了。搜索引擎也会为上百亿的网页建立 一个索引库,用户查询信息的时候,是先到搜索引库里查一下要找的信息在哪些 网页,然后就引导你去那些网页的。 2、索引库里采用什么样的分类方式? 大家都知道,我们用的《新华字典》索引表是用字母列表或者偏旁部首的进行分 类的。那么搜索引擎的索引库里是按照什么方式分类的呢?难道也是用用字母列 表的方式? 搜索引擎如果以字母列表的方式排列索引库,那么平均每个字母下要查询的网页 数量是100亿÷26=3.85亿,也还是一个很大的数字。而且搜索引擎上, 今天是100亿个网页,过不了多久就是300亿个网页了。 最后,终于找到一个解决办法:索引库里用词语来分类。 因为尽管互联网上的网页是不断激增的,但是每一种语言里,词语的数量都是相 对固定的。比如英语就是一百多万个单词,100亿÷1百万=1万;汉语是 8万多个词语,100亿÷8万=12万5千。都是计算机很容易处理得过来的。

第1页

类似资料

该用户的其他资料

手把手教你.doc

手把手教你.doc

手把手教你.doc

手把手教你.doc

手把手教你.doc

职业精品

精彩专题

中秋节除了赏月,你还想怎么过?

“仰头望明月,寄情千里光”,算算你有多久没回家了。庆幸这个中秋节赶上了国庆节,不用悲伤“故乡再无春夏,只有秋冬”,独自一人赏月,8天长假,回家一趟,妥妥的!

用户评论

0/200
    暂无评论
上传我的资料

精选资料

热门资料排行换一换

  • 汉语方言地理学.pdf

  • 中小尺度天气学 张杰编着.pdf

  • 大气物理基础.pdf

  • 波兰简史.pdf

  • 二号首长.pdf

  • 《美人图》(实体封面1-23集)…

  • 清宫宛妃传(全).txt

  • 航海气象学与海洋学 .pdf

  • 少年哲学向导丛书_启蒙思想的光华…

  • 资料评价:

    / 3
    所需积分:0 立即下载

    意见
    反馈

    返回
    顶部