关闭

关闭

封号提示

内容

首页 搜索引擎(1).pdf

搜索引擎(1).pdf

搜索引擎(1).pdf

上传者: 武汉七草 2012-11-01 评分 3 0 24 3 107 暂无简介 简介 举报

简介:本文档为《搜索引擎(1)pdf》,可适用于IT/计算机领域,主题内容包含武汉七草网络营销培训中心wwwqicaoitcomQQ学习序言错过网络营销你错过的不是一次机会而是一个时代!一、比尔盖茨:二、马云:不做电子商务五年符等。

武汉七草网络营销培训中心wwwqicaoitcomQQ学习序言错过网络营销你错过的不是一次机会而是一个时代!一、比尔盖茨:二、马云:不做电子商务五年后你会后悔的!三、百度CEO李彦宏:“年后不会再有互联网公司因为所有的公司都在用互联网!”互联网即将迎来第四波浪潮即搜索引擎的时代“所有企业都在利用网络营销”。四、网络营销案例:成立仅三年的凡客诚品借力网络营销年销售额高达亿元!!!七草网络助你借力网络营销:高薪就业零成本创业公司业绩飙升!武汉七草网络营销培训中心wwwqicaoitcomQQ学习网络营销教程SEO搜索引擎本教程由武汉七草网络营销培训中心(wwwqicaoitcom)教程制作组整理作者:武汉七草网络营销培训中心制作者:武汉七草网络营销培训中心教程制作组制作时间:年月制作网站:武汉七草网络营销培训中心wwwqicaoitcom版权:武汉七草网络营销培训中心使用说明继上次推出搜索引擎优化基础教程有一段时间了上本教程介绍的都是些SEO最基本的知识而此次推出的教程介绍的是高级优化技巧对于SEO优化更加实用如果您看了上一本书(搜索引擎优化基础)后再看本教程的话会有更好的效果。本电子书的内容来源于网上搜集的资料以及一些SEO相关的教程。制作组人员把搜集的相关的资料进行了整理“去其糟粕取其精华“把SEO最基本的内容、最基本的知识以最简便的方式展现给大家。本电子书为PDF格式为了方便您浏览我们为电子书制作了书签。可以用两种方式来导航:点击左侧的书签标志打开书签点击书签的内容就可以转到对应页面使用本电子书的目录点击可进入相应页面。您也可以利用PDF的搜索功能来快速查找您需要的内容。本电子书是我们推出的第二本电子教程由武汉七草网络营销培训中心教程组制作虽然是对收集的资料进行整理但是教程制作组人员为此也付出了的辛勤的汗水所以请勿私自将全部或部分用于商业用途。转载书中内容请注明出处。本电子书由武汉七草网络营销培训中心(wwwqicaoitcom)制作武汉七草网络营销培训中心wwwqicaoitcomQQ学习一、搜索引擎的基本工作机制大型互联网搜索引擎的数据中心一般运行数千台甚至数十万台计算机而且每天向计算机集群里添加数十台机器以保持与网络发展的同步。搜集机器自动搜集网页信息平均速度每秒数十个网页检索机器则提供容错的可缩放的体系架构以应对每天数千万甚至数亿的用户查询请求。企业搜索引擎可根据不同的应用规模从单台计算机到计算机集群都可以进行部署。搜索引擎一般的工作过程是:首先对互联网上的网页进行搜集然后对搜集来的网页进行预处理建立网页索引库实时响应用户的查询请求并对查找到的结果按某种规则进行排序后返回给用户。搜索引擎的重要功能是能够对互联网上的文本信息提供全文检索。二、搜索引擎的工作流程搜索引擎通过客户端程序接收来自用户的检索请求现在最常见的客户端程序就是浏览器实际上它也可以是一个用户开发的简单得多的网络应用程序。用户输入的检索请求一般是关键词或者是用逻辑符号连接的多个关键词搜索服务器根据系统关键词字典把搜索关键词转化为wordID然后在标引库(倒排文件)中得到docID列表对docID列表中的对象进行扫描并与wordID进行匹配提取满足条件的网页然后计算网页与关键词的相关度并根据相关度的数值将前K篇结果(不同的搜索引擎每页的搜索结果数不同)返回给用户。描述了一般搜索引擎的系统架构其中包括页面搜集器、索引器、检索器、索引文件等部分下面对其中的主要部分的功能实现进行了介绍。三、搜索引擎抓取网页过程(一)搜集器搜索引擎通过一种程序robot(又称spider)搜集器的功能是在互联网中漫游发现并搜集信息它搜集的信息类型多种多样包括HTML页面、XML文档、Newsgroup文章、FTP文件、字处理文档、多媒体信息等。搜索器是一个计算机程序其实现常常采用分布式和并行处理技术以提高信息发现和更新的效率。商业搜索引擎的搜集器每天可以搜集几百万甚至更多的网页。搜索器一般要不停地运行要尽可能多、尽可能快地搜集互联网上的各种类型的新信息。因为互联网上的信息更新很快所以还要定期更新已经搜集过的旧信息以避免死链接和无效链接。另外因为Web信息是动态变化的因此搜集器、分析器和索引器要定期更新数据库更新周期通常约为几周甚至几个月。索引数据库越大更新也越困难。互联网上的信息太多即使功能强大的搜集器也不可能搜集互联网上的全部信息。因此搜集器采用一定的搜索策略对互联网进行遍历并下载文档例如一般采用以广度优先搜索策略为主、线性搜索策略为辅的搜索策略。在搜集器实现时系统中维护一个超链队列或者堆栈其中包含一些起始URL(理解成像DMOZ、Yahoo目录Googlesitemap等)搜集器从这些URL出发下载相应的页面并从中抽取出新的超链加入到队列或者堆栈中上述过程不断重复队列直到堆栈为空。为提高效率搜索引擎将Web空间按照域名、IP地址或国家域名进行划分使用多个搜集器并行工作让每个搜索器负责一个子空间的搜索。为了便于将来扩展服务搜集器应能改变搜索范围。武汉七草网络营销培训中心wwwqicaoitcomQQ学习、线性搜集策略线形搜索策略的基本思想是从一个起始的IP地址出发按IP地址递增的方式搜索后续的每一个IP地址中的信息完全不考虑各站点的HTML文件中指向其他Web站点的超链地址。此策略不适用于大规模的搜索(主要原因在于IP可能是动态的)但可以用于小范围的全面搜索利用此种策略的搜集器可以发现被引用较少或者还没有被其他HTML文件引用的新HTML文件信息源。、深度优先搜集策略深度优先搜集策略是早期开发搜集器使用较多的一种方法它的目的是要达到被搜索结构的叶结点。深度优先搜索顺着HTML文件上的超链走到不能再深入为止然后返回到上一个接点的HTML文件再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时说明搜索已经结束。深度优先搜索适宜遍历一个指定的站点或者深层嵌套的HTML文件集但对于大规模的搜索由于Web结构相当深也许永远也出不来了、广度优先搜集策略广度优先搜集策略是先搜索同一层中的内容然后再继续搜索下一层。假如一个HTML文件中有三个超链选择其中之一并处理相应的HTML文件(注意:这里的处理文件指的是对文件内容进行检索文件上的其他超链接先不作处理)然后返回并选择刚才第一个网页的第二个超链处理相应的HTML文件再返回。一旦同一层上的所有超链都已被处理过就可以开始在刚才处理过的HTML文件中搜索其余的超链。(广度链接的定义)这样保证了对浅层的首先处理当遇到一个无穷尽的深层分支时也就不会再陷进去。宽度优先搜集策略容易实现并被广泛采用但是需要花费比较长的时间才能到达深层的HTML文件、收录搜集策略有些网页可以通过用户提交的方式进行搜集例如某些商业网站向搜索引擎发出收录申请搜集器就可以定向搜集提交申请网站的网页信息并加入到搜索引擎的索引数据库中。(二)分析器对搜集器搜集来的网页信息或者下载的文档一般要首先进行分析以用于建立索引文档分析技术一般包括:分词(有些仅从文档某些部分抽词如Altavista)、过滤(使用停用词表stoplist)、转换(有些对词条进行单复数转换、词缀去除、同义词转换等工作)这些技术往往与具体的语言以及系统的索引模型密切相关。(三)索引器索引器的功能是对搜索器所搜索的信息进行分析处理从中抽取出索引项用于表示文档以及生成文档库的索引表。索引项有元数据索引项和内容索引项两种:元数据索引项与文档的语意内容无关如作者名、URL、更新时间、编码、长度、链接流行度为元数据索引项等等内容索引项是用来反映文档内容的如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词比较容易提取因为单词之间有天然的分隔符(空格)对于中文等连续书写的语言必须进行词语的切分。在搜索引擎中一般要给单索引项赋予一个权值以表示该索引项对文档的区分度同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。为了快速查找到特定的信息建立索引数据库是一个常用的方法即将文档表示为一种便于检索的方式并存储在索引数据库中。索引数据库的格式是一种依赖于索引机制和算法的特殊数据存储格式。索引的质量是Web信息检索系统成功的关键因素之一。一个好的索引模型应该易于实现和维护、检索速度快、空间需求低。搜索引擎普遍借鉴了传统信息检索中的索引模型包括倒排文档、矢量空间模型、概率模型等。武汉七草网络营销培训中心wwwqicaoitcomQQ学习例如在矢量空间索引模型中每个文档d都表示为一个范化矢量V(d)=(t,w(d)…ti,w(d)…tn,wn(d))。其中ti为词条项wi(d)为ti在d中的权值一般被定义为ti在d中出现频率tfi(d)的函数。索引器的输出是索引表它一般使用倒排形式(InversionList)即由索引项查找相应的文档。索引表也可能记录索引项在文档中出现的位置以便检索器计算索引项之间的相邻或接近关系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时必须实现实时索引(InstantIndexing)否则就无法跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量(四)检索器检索器的功能是根据用户的查询在索引库中快速检出文档进行文档与查询的相关度评价对将要输出的结果进行排序并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型等多种可以查询到文本信息中的任意字词无论出现在标题还是正文中。检索器从索引中找出与用户查询请求相关的文档采用与分析索引文档相识的方法来处理用户查询请求。如在矢量空间索引模型中用户查询q首先被表示为一个范化矢量V(q)=(t,w(q)…ti,wi(q)…tn,wn(q))然后按照某种方法来计算用户查询与索引数据库中每个文档之间的相关度而相关度可以表示为查询矢量V(q)与文档矢量V(d)之间的夹角余弦最后将相关度(怎样判断相关度?文件内容、文件的反响链接数与质量)大于阀值的所有文档按照相关度递减的顺序排列并返还给用户。当然搜索引擎的相关度判断并不一定与用户的需求完全吻合。(五)用户接口用户接口的作用是为用户提供可视化的查询输入和结果输出界面方便用户输入查询条件、显示查询结果、提供用户相关性反馈机制等其主要目的是方便用户使用搜索引擎高效率、多方式地从搜索引擎中得到有效的信息。用户接口的设计和实现必须基于人机交互的理论和方法以适应人类的思维和使用习惯。在查询界面中用户按照搜索引擎的查询语法制定待检索词条及各种简单或高级检索条件。简单接口只提供用户输入查询串的文本框复杂接口可以让用户对查询条件进行限制如逻辑运算(与、或、非)、相近关系(相邻、NEAR)、域名范围(如edu、com)、出现位置(如标题、内容)、时间信息、长度信息等等。目前一些公司和机构正在考虑制定查询选项的标准。在查询输出界面中搜索引擎将检索结果展现为一个线性的文档列表其中包含了文档的标题、摘要、快照和超链等信息。由于检索结果中相关文档和不相关文档相互混杂用户需要逐个浏览以找出所需文档。在线客服QQ:客服:客服:客服:预约电话:蔡老师地址:武汉市洪山区街道口珞珈山大厦A座室武汉七草网络营销培训中心wwwqicaoitcomQQ学习第一网络营销论坛:wwwwlyxcom官方网址:http:wwwqicaoitcomSEO资源站:http:wwwwhseopxcomSEO培训课程网络营销培训课程武汉网络营销培训武汉SEO培训首选七草网络营销培训中心元即可参加系统的网络营销实战训练和多位实战专家一对一交流实现您的创业梦想!重在分享更多精华文章请访问以下链接:现在加群即可获赠价值元的电子书课程讲义(联系群主领取)免费到群共享下载大量的学员实战分享经验电子书学习交流超级QQ群:

精彩专题

职业精品

上传我的资料

热门资料

资料评价:

/ 6
所需积分:1 立即下载

意见
反馈

返回
顶部

Q