首页 计算机学科新技术论文

计算机学科新技术论文

举报
开通vip

计算机学科新技术论文学科新技术期末论文 姓名:  学号: 班级: 学院: 学科新技术 -------之信息化检索及搜索引擎初探 引言:在学科新技术里我们了解了搜索引擎技术。与常用的泛信息搜索引擎(百度、google)不同,信息化搜索引擎是针对IT从业者、研究机构人员或相关人员对信息化建设相关的技术、解决方案、案例等信息的专业检索工具,国内比较常用的是苦力搜索。 一、发展背景 1.1数据爆炸中的信息冗杂 从20世纪末开始,经济文化领域就迅速进入了信息时代,知识和信息的爆炸式发展与网络的应用成为信息扩张的先锋。面对着网络中浩如星海的...

计算机学科新技术论文
学科新技术期末论文 姓名:  学号: 班级: 学院: 学科新技术 -------之信息化检索及搜索引擎初探 引言:在学科新技术里我们了解了搜索引擎技术。与常用的泛信息搜索引擎(百度、google)不同,信息化搜索引擎是针对IT从业者、研究机构人员或相关人员对信息化建设相关的技术、解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 、案例等信息的专业检索工具,国内比较常用的是苦力搜索。 一、发展背景 1.1数据爆炸中的信息冗杂 从20世纪末开始,经济文化领域就迅速进入了信息时代,知识和信息的爆炸式发展与网络的应用成为信息扩张的先锋。面对着网络中浩如星海的庞大知识信息库, 无法准确全面的找到所需要的信息成为制约网络信息发展的枷锁。信息检索的索引技术发展弥补了这一缺陷, 搜索引擎应运而生, 成为海量网络信息准确全面定位的应用技术。搜索引擎是网络信息精准定位的应用, 实现了庞大网络信息量的查询。而索引技术是搜索引擎的核心技术。 1.2什么是搜索引擎技术 随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题。搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。 1.3从商业方面讲 如今因特网上的信息呈几何级数增长,快速有效地查询信息是一项艰巨的任务,这个需求直接导致了广域网信息检索技术的快速发展,各类搜索引擎层出不穷。但是如同因特网上的信息一样,搜索引擎的发展本身也是无序的,如何选择最符合需要的搜索引擎,通过其在因特网上找到我们所需要的信息,也是一个需要研究和解决的课题。基于这个目的,本文对目前因特网上较有规模的中文搜索引擎的优劣势做了一个粗浅的比较,以期抛砖引玉,使现有的中文搜索引擎发展得更快更好,为您的投资带来一定的辅助作用 1.4搜索引擎的发展趋势。 一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的 资料 新概念英语资料下载李居明饿命改运学pdf成本会计期末资料社会工作导论资料工程结算所需资料清单 库中精确地找到正确的资料。 ⒈提高搜索引擎对用户检索提问的理解。 为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“病毒”这个词来检索,结果中必然会包括各类病毒的介绍,病毒是怎样产生的等等许多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将怎样杀死病毒的信息提供给用户,提高了检索效率。 ⒉垂直主题搜索引擎有着极大的发展空间。 网上的信息浩如烟海,网络资源以惊人的速度增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一席之地。目前,一些主要的搜索引擎,都提供了新闻、Mp3、图片、Flash等的搜索,加强了检索的针对性。 ⒊元搜索引擎,能够提供全面且较为准确的查询结果。 现在的许多搜索引擎,其收集信息的范围、索引方法、排名规则等都各不相同,每个搜索引擎平均只能涉及到整个Web资源的30-50%,这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。元搜索引擎(META Search Engine)是将用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的 格式 pdf格式笔记格式下载页码格式下载公文格式下载简报格式下载 提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。 二、搜索引擎的类型 2.1搜索引擎的分类 获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。 全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。 分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家” 全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索;把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索和雅虎中国搜索。 在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类: ⒈元搜索引擎(META Search Engine)。 这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”,它就调用和整合Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。 ⒉集成搜索引擎(All-in-One Search Page)。 集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示。 三、搜索引擎的商业模式 3.1蓬勃发展的搜索引擎——搜索引擎发展现状 根据位于北京的央视市场研究股份有限公司(CTR)的数据,2008年中国的广告市场增长了15%,达到了4,415亿元(合650亿美元)。其中,搜索引擎的增长率尤为引人注目。百度——中国市场最大的搜索引擎,市场份额超过70%——从2004年到2008年的总收入和净收入的年复合增长率分别为128.4%和205.7%。2008会计年度,该公司的总收入比2007年增长了83.3%,达32亿元(合4.688亿美元)。2008会计年度的营业利润比2007年增长100%,达到了11亿元(合1.607亿美元),2008会计年度的净利润比2007年增长66.6%,达到了10亿元(合1.536亿美元)。2009年第三季度,该公司的总收入继续以比去年同期增长39%的速度增长,其营业利润也比去年同期增长了42%。整个在线广告市场的份额虽然发展迅速,但比百度要逊色。据艾瑞市场咨询集团(iResearch Consulting)的调查,2008年中国的整个在线广告市场达到170亿元,比前一年增长了60.4%。该机构预测今年这一市场将以27%的增长率达到216.4亿元。全球的景象也与此相似。搜索引擎营销(Search engine marketing,简称SEM)已经从其他媒体,尤其是从平面杂志广告、直邮广告以及平面报纸广告中攫取了大量市场份额。此外,搜索引擎在在线广告市场同样居于领先地位。 谷歌仍然是全球搜索引擎市场的领头羊。今年3月,在一篇题为《经济和互联网发展趋势》(Economy + Internet Trends)的 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 中,摩根士丹利(Morgan Stanley)的玛丽·米克(Mary Meeker)指出,2008年第四季度,谷歌在全球在线广告收入中占有67%的份额,而该数字在2005年是48%。与此形成对照的是,雅虎在2005年第四季度的广告收入占全球在线广告收入33%,但在去年同期,这一比例则下降到了20%。 3.2一个强大的商业模式 就在传统报纸专注于为订阅用户提供高质量的内容时,搜索引擎则把精力集中于为搜索用户和在线营销提供更好的搜索工具。“搜索引擎在信息和用户之间构建起了一座高效能的桥梁,它满足了信息爆炸时代的用户需求,”上海的研究咨询机构弘亚世代咨询公司(JLM Pacific Epoch)的分析师周正倩谈到,“因此它可以在短时间内聚集数量庞大的用户。” 2008年,中国的搜索查询数量达到了1,500亿条;现在中国已拥有2.44亿搜索引擎用户,超过世界上的任何其他国家,而这一群体有望在今年过3亿人。上海天擎信息技术有限公司(Sky-Tech)的首席执行官计建认为,在线信息太庞杂了,所以用户需要用搜索引擎组织这些信息。“现如今,你不但可以搜索在线网页,你还可以搜索新闻、音乐、视频或者图片,搜索引擎为用户提供了一个获取丰富资源的有效入口。”天擎科技是一家市场营销服务公司,同时也是谷歌公司的授权代理机构。搜索引擎营销的高增长率尚没有显示出减速的迹象。据摩根士丹利的上述报告估计,去年,搜索引擎营销的增长率为35%,在2007年所有形式的互联网营销中占有52%的份额,而与此同时,其他的互联网广告形式——包括横幅式网络广告(banner ads)、视频和音频内容以及分类广告和电子邮件推广——不是日渐衰落,就是增长缓慢。这一趋势非常清楚:搜索引擎正在抢夺不断增长的在线广告蛋糕中最大的一块,而传统报业集团的收入却未见起色。默多克等报业大亨有足够的理由对传统媒体的未来感到担心。这一问题的核心就是广告。传统媒体提供一般广告服务,这些广告会抵达范围广泛的读者;与传统媒体不同的是,搜索引擎能提供对企业极具吸引力的精准目标式的广告平台。 计建 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示,搜索引擎营销方式之所以越来越受欢迎,主要在于这种营销方式非常精准。“首先,它是基于关键词的搜索,有着非常明确的目标。其次,它可以投放在广告客户希望投放的地方。比如说,如果我只想让我的广告出现在中国的某些特定区域,或者我只想知会意大利米兰的消费者,那么,谷歌就能确保只有这些地区的用户能在特定时间看到这些广告。”此外,搜索引擎广告根据点击量收费,这就是“按点击数付费”(pay per click,简称PPC)的模式,这也意味着它更便宜和有效。“用几千块钱,你就可以在搜索引擎上投放广告,而且付费的方式还非常灵活。”周正倩说,“你可以决定自己要投入多少钱、使用什么关键词以及何时开始。对中小型企业(small and medium enterprises,简称SME)来说,这样更容易让它控制广告预算,从而满足了这一个预算有限、以前未曾被开发过的庞大客户群体的广告需求。 目前,中小企业为百度贡献了大部分的广告收入。“现在,大客户(每年在百度投入的广告费用至少达到50万元(合73,530美元)的客户)对该公司广告收入的贡献只占15%。”周谈到,“其他全部来自中小型企业,在其他市场中这个比例也与此类似。” 最后,跟踪搜索引擎广告的结果也更容易。“我们可以为客户提供非常详尽的跟踪报告,其中包括已经花费了多少广告费,哪些网页被点击了,以及用户的地区分布和时间分布等等。”天擎科技的计建表示,所有这些特色都带来了较高的投资回报。他还补充说,电视或者报纸广告,甚至也包括横幅式网络广告,都很难追踪这些数据。 四、搜索引擎技术——索引技术 1)文本索引——文本索是查找与用户查询词相关页面的主要方法。可以使用任何传统索引方法为页面内容建立索引,如倒排文件、倒排索引、后缀数组、签名文件等。倒排索引方式是Web环境中最常用的索引方法。 2)链接索引——为了创建链接索引, 可以将Web看做是一个巨大的图,图中节点表示页面。从页面A到页面B的超链接构成图的边。链接索引的目的是实现对图的高效访问。搜索算法最常用的访问方式是找出与某一页面邻接的页面。使用Web 构成的图及其补图的邻接链表可以有效地对这种邻接信息进行访问。其他类型的链接信息也可以通过邻接链表方便地得到。例如,若要获得某一页面的兄弟节点, 可以通过2个邻接矩阵得到。 3)辅助索引——辅助索引的数量及类型是CollectionAnalysis模块根据搜索引擎的特色及搜索算法所利用的Web特性所决定的。例如,若需要在指定网站范围内响应查询,建立网站索引将会高效率地处理该查询。同样,采用链接索引包含的邻接信息,可以比较容易地计算每个页面的PageRank权值。 4)倒排索引——倒排索引由倒排列表构成。每个词对应一个倒排列表。倒排列表是词在页面中的位置的有序列表。在最简单情况下,位置信息包括页面标识及词在页面中出现的位置。查询算法通常还要用到词的其他特征信息。例如,该词是否被加粗,是否在标题中,是否是超链接的锚文本。评估算法可能对这样的词分配高的权重。为了实现这样的功能,需要为每个词配置一些额外的信息。除了倒排列表之外,许多文本索引还保存语汇信息。语汇信息列出所有在倒排索引中出现的词及其统计信息,例如,某个词在页面集中出现的次数。这些统计信息同样也被评估算法使用。由于Web的数据规模庞大,为Web建立倒排索引是一个极具挑战性的工作。一般地,建立倒排索引首先需要按词排序,然后再按词位置排序,最后将这些信息保存到磁盘中。对于小规模的数据集,例如,传统的信息检(IR)系统,建立索引的时间可以忽略不计。但是对于Web上的中大规模数据集,这种简单的建立索引的方案不可操作,需要耗费很大的资源及时间。例如,WebBase存储了4百万的页面,只占可索引Web信息总量的4%,但这已经比最大的IR测试数据集TREC-7(100GB)大了许多。此外,由于Web内容不断变化,需要定时地对索引进行更新,以便保持数据的??新鲜??程度。这样,也需要不断地重建索引。通常的增量式索引更新方法对于Web的情况不适用,因为通常相邻时间采集的2 个页面集合差别很大。倒排索引的存储格式必须仔细考虑。有效的压缩方法对索引访问性能的影响很大, 因为在内存中同时可以保存更多的索引条目。此时, 必须对性能上的收益与解压缩的代价进行权衡。 五、搜索引擎工作原理 全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。 和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站。 参考文献: 《搜索引擎的体系结构与索引技术探析》王改香 《搜索引擎的类型及应用》孙桂荣 《搜索引擎的优劣势比较赢璟网络分析》 另外还参考了其它文献和百度百科相关知识。
本文档为【计算机学科新技术论文】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_435706
暂无简介~
格式:doc
大小:27KB
软件:Word
页数:10
分类:互联网
上传时间:2019-05-18
浏览量:63