关闭

关闭

关闭

封号提示

内容

首页 搜索引擎-原理技术与系统_李晓明.pdf

搜索引擎-原理技术与系统_李晓明.pdf

搜索引擎-原理技术与系统_李晓明.pdf

上传者: 搜狗彭文林 2011-09-19 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《搜索引擎-原理技术与系统_李晓明pdf》,可适用于IT/计算机领域,主题内容包含华夏英才基金学术文库搜索引擎原理、技术与系统SearchEngine:Principle,TechnologyandSystems李晓明闫宏飞王继民符等。

华夏英才基金学术文库搜索引擎原理、技术与系统SearchEngine:Principle,TechnologyandSystems李晓明闫宏飞王继民著byLiXiaoming,YanHongfeiandWangJimin科学出版社内容简介本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共章内容从基本工作原理概述开始到一个小型简单搜索引擎实现的具体细节进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术最后面向主题和个性化的Web信息服务阐述了中文网页自动分类等技术及其应用。本书层次分明由浅入深既有深入的理论分析也有大量的实验数据具有学习和实用双重意义。本书可作为高等院校计算机科学与技术、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料对广大从事网络技术、Web站点的管理、数字图书馆、Web挖掘等研究和应用开发的科技人员也有很大的参考价值。前言随着互联网的不断发展和日益普及网上的信息量在爆炸性增长在年月全球Web页面的数目已经超过亿中国的网页数估计也超过了亿。目前人们从网上获得信息的主要工具是浏览器而通过浏览器得到信息通常有三种方式。第一直接向浏览器输入一个关心的网址(URL)例如http:netpkueducn浏览器返回所请求的网页根据该网页内容及其包含的超链文字(anchortext)的引导获得自己需要的内容第二登录到某个知名门户网站例如http:wwwyahoocom根据该网站提供的分类目录和相关链接逐步“冲浪”浏览寻找自己感兴趣的东西第三登录到某个搜索引擎网站例如http:epkueducn输入代表自己所关心信息的关键词或者短语依据返回的相关信息列表、摘要和超链接引导试探寻找自己需要的内容。这三种方式各有特点各有自己最适合的应用场合。第一种方式的应用是最有针对性的例如要了解北京大学计算机系网络与分布式系统实验室在做些什么工作从某个渠道得知该实验室的网址为http:netpkueducn于是直接用它驱动浏览器就是最有效的方式。第二种方式的应用类似于读报用户不一定有明确的目的只是想看看网上有什么有意思的消息当然这其中也可能是关心某种主题例如体育比赛家庭生活等等。第三种方式适用于用户大致上知道自己要关心的内容例如“国有股减持”但不清楚哪里能够找到相关信息(即不知道哪些URL能给出这样的信息)在这种场合搜索引擎能够为用户提供一个相关内容的网址及其摘要的列表由用户一个个试探看是否为自己需要的。现在的搜索引擎技术已经能做到在多数情况下满足用户的这种需要。CNNIC的信息统计指出目前搜索引擎已经成为继电子邮件之后人们用得最多的网上信息服务系统。同时随着网上信息资源规模的增长尤其是其内容总体和我们社会的演化发生着越来越密切的联系研究网上存在的海量信息逐渐成为许多学科关注的一个方向。为此不少研究人员也有采样搜集特定内容、一定数量网页的需要。本书以我们设计、实现并维护运行北大“天网”搜索引擎的经验介绍大规模搜索引擎的工作原理和实现技术。我们要向读者揭示为什么向搜索引擎输入一个关键词或者短语就能够在秒钟内得到那么多相关的文档及其摘要而点击其中的链接就能够被引导到文档的全文且其中相当一部分可能正是用户需要的。我们按照上、中、下三篇展开相关的内容。上篇讲搜索引擎的基本工作原理要解决的是为什么搜索引擎能提供如此信息查找服务的问题以及它在功能上有什么本质的局限性。这一篇的内容包括网页的搜集过程网页信息的提取、组织方式和索引结构查询提交和响应的过程以及结果产生等i等。这其中虽然我们假定读者熟悉URLHTMLHTTPCGIMIME等基本概念但在上下文中也给予了必要的介绍力图保持行文的流畅性。这一部分内容对于需要构建小规模搜索引擎的研究人员会有直接的参考价值。中篇讨论和大规模实用搜索引擎有关的技术问题。所谓大规模在这里指至少维护超过千万的网页信息提供相关的查询服务。所涉及的内容包括并行分布处理技术的应用数据局部性的开发缓存技术的应用以及搜集的网页在提供服务之前的预处理问题和高效倒排文件的建立技术等等。这一部分的讨论有比较强的计算机系统结构的风格我们向读者展示计算机系统结构课程中的那些概念是如何生动地体现在一个实际应用系统中的。这一部分的内容对构建大规模数字图书馆的技术人员也应该有帮助。下篇介绍挑战性更强一些的内容。一般地讲前面所述可以称为是“通用搜索引擎”为最广泛的人群提供信息查询服务是它的基本宗旨。这意味着它的应用模式必须尽量简单即关键词或查询短语的提交和匹配响应。尽管这已经可以解决许多问题了但对有些重要的信息需求依然显得力不从心。例如一个人可能会关心最近半年来网上出现了哪些关于他(她)的信息一个企业可能要关心它做了一次大规模促销活动后一个月内网上有什么反响一个政府机构可能会关心在一项政策法规颁布后的网上舆论。面向主题和个性化的信息查询服务就是我们试图描述的一种基本途径。这一部分内容更多的和网上中文信息处理技术有关。更准确地讲我们要介绍网络与并行分布处理技术与中文处理技术的结合从而实现大规模、高性能、高质量、有针对性地网上信息查询服务。这一部分内容反过来可能对从事中文信息处理的研究人员有启发作用。本书的内容是集体智慧的结晶主要概括了北大计算机系网络与分布式系统实验室自年以来的研究成果。其中许多段落直接来自同学的博士和硕士论文他们是雷鸣、赵江华、冯是聪、单松巍、谢正茂、彭波、张志刚、龚笔宏、孟涛、昝红英等等。署名作者的主要工作是将这些内容系统化使其表述的风格统一。我们特别感谢陈葆珏教授是她在北京大学计算机系开创了搜索引擎这一研究方向从而使我们能在其后发扬光大还要感谢刘建国和王建勇是他们分别带领攻关队伍实现了天网和天网版本。感谢黄蕊为本书进行的文字校对。最后我们感谢国家“九五”攻关计划“”计划和“”计划的支持是它们的不断支持使我们得以将天网不断推上新的台阶实现“让天网和中国网上信息资源规模同步成长”的理想。作者年月于北大燕园ii目录前言第一章引论第一节搜索引擎的概念第二节搜索引擎的发展历史第三节一些著名的搜索引擎上篇WEB搜索引擎基本原理和技术第二章WEB搜索引擎工作原理和体系结构第一节基本要求第二节网页搜集第三节预处理第四节查询服务第五节体系结构第三章WEB信息的搜集第一节引言一、超文本传输协议二、一个小型搜索引擎系统第二节网页搜集一、定义URL类和Page类二、与服务器建立连接三、发送请求和接收数据四、网页信息存储的天网格式第三节多道搜集程序并行工作一、多线程并发工作二、控制对一个站点并发搜集线程的数目第四节如何避免网页的重复搜集一、记录未访问、已访问URL和网页内容摘要信息二、域名与IP的对应问题第五节如何首先搜集重要的网页第六节搜集信息的类型第七节本章小结iii第四章对搜集信息的预处理第一节信息预处理的系统结构第二节索引网页库第三节中文自动分词第四节分析网页和建立倒排文件第五节本章小结第五章信息查询服务第一节查询服务的系统结构第二节检索的定义第三节查询服务的实现一、结果集合的形成二、查询结果显示第四节本章小结中篇对质量和性能的追求第六章可扩展搜集子系统第一节天网系统概述和集中式搜集系统结构一、天网系统结构二、集中式搜集系统第二节利用并行处理技术高效搜集网页的一种方案一、节点间URL的划分策略二、关于性能的讨论三、性能测试和评价四、系统的动态可配置性设计第三节本章小结第七章网页净化与消重第一节网页净化与元数据提取一、引言二、DocView模型三、网页的表示四、提取DocView模型要素的方法五、模型应用及实验研究第二节网页消重算法一、消重算法iv二、算法评测第八章高性能检索子系统第一节检索系统基本技术一、系统设计与结构二、索引创建三、检索过程第二节倒排文件性能模型一、引言二、倒排文件的概念三、倒排文件的一种性能模型四、结合计算机性能指标的考虑第三节混合索引技术一、引言二、混合索引原理三、混合索引实现第四节倒排文件缓存机制一、引言二、倒排文件缓存三、负载特性四、缓存策略的选择第五节本章小结第九章用户行为的特征及缓存的应用第一节用户查询与点击日志第二节用户行为特征的统计分析一、用户查询词的分布情况二、雷同查询词的衰减统计三、相邻N项查询词的偏差分析四、用户在输出结果中的翻页情况统计五、用户点击URL的分布情况六、考虑与不考虑查询项时点击URL分布的对比分析七、查询过程的自相似性第三节查询缓存的使用一、基于用户行为的启示二、缓存替换策略研究v第四节用户行为与WEB信息的分布特征一、基本术语二、海量Web信息的特征分析第十章相关排序与系统质量评估第一节传统IR的相关排序技术第二节链接分析与相关排序一、链接分析二、Web查询模式下的新信息第三节相关排序的一种实现方案一、形成网页中词项的基本权重二、利用链接的结构三、收集用户反馈信息四、计算最终的权重第四节搜索引擎系统质量评估一、引言二、查询类别分析与查询集的构建三、评估实验的建立与分析下篇面向主题和个性化的WEB信息服务第十一章中文网页自动分类技术第一节引言第二节文档自动分类算法的类型第三节实现中文网页自动分类的一般过程第四节影响分类器性能的关键因素分析一、实验设置二、训练样本三、特征选取四、分类算法五、截尾算法六、一个中文网页分类器的设计方案第五节天网目录导航服务一、问题的提出二、天网目录导航服务的体系结构三、天网目录的运行实例第六节本章小结vi第十二章搜索引擎个性化查询服务第一节基于WEB挖掘的个性化技术一、Web挖掘技术二、典型个性化Web服务系统的比较三、基于Web挖掘的个性化技术的发展第二节天网知名度系统一、系统结构二、网页与命名实体的相关度评价第十三章面向主题的信息搜集与应用第一节主题信息的搜集一、主题信息分布的局部性二、一种主题信息搜集系统第二节主题信息的一种搜集与处理模型及其应用一、模型设计二、应用实验:以“十六大”为主题三、总结与讨论参考文献附录术语后记vii图示图年月日在天网上检索“伊拉克战争”的结果图年月日在搜狐上检索“伊拉克战争”的结果图搜索引擎示意图图搜索引擎三段式工作流程图搜索引擎的体系结构图TSE搜索引擎界面图TSE查询结果页面图TSE网页快照页面图TSE系统结构图Web信息的搜集图Sockets和端口图通过Socket建立连接图Web象个海洋图网页预处理系统结构

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/49
仅支持在线阅读

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部