首页 传播技术第3章+检索原理和搜索引擎+2学时

传播技术第3章+检索原理和搜索引擎+2学时

举报
开通vip

传播技术第3章+检索原理和搜索引擎+2学时nullnull农业传播技术与应用农业传播技术与应用第三章 检索原理和 搜索引擎本章内容本章内容第一节 信息检索原理: 关键词匹配原则第一节 信息检索原理: 关键词匹配原则1、从“图灵实验”说起1、从“图灵实验”说起 大家都知道,计算机发展史上有一个重要人物图灵,他在上世纪50年代曾经提出了一个假想的实验,认为计算机可以具有人类的思维能力,被称为“图灵实验”。他并且预言,在20世纪末,具有人工智能的计算机将会出现。但时至今日,仍未有任何一台计算机能通过“图灵实验”。2、计算机检索的奥妙:关键词匹配2...

传播技术第3章+检索原理和搜索引擎+2学时
nullnull农业传播技术与应用农业传播技术与应用第三章 检索原理和 搜索引擎本章内容本章内容第一节 信息检索原理: 关键词匹配原则第一节 信息检索原理: 关键词匹配原则1、从“图灵实验”说起1、从“图灵实验”说起 大家都知道,计算机发展史上有一个重要人物图灵,他在上世纪50年代曾经提出了一个假想的实验,认为计算机可以具有人类的思维能力,被称为“图灵实验”。他并且预言,在20世纪末,具有人工智能的计算机将会出现。但时至今日,仍未有任何一台计算机能通过“图灵实验”。2、计算机检索的奥妙:关键词匹配2、计算机检索的奥妙:关键词匹配 计算机既然如此“无能”,连三岁小孩的智能都不具有,那么为什么人们要在网上查找信息,却总要通过计算机帮忙呢?计算机检索的奥妙在哪里呢? 原来,计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。null存 储检 索原始文献加工整理数据库提 问检 索输 出“爱因斯坦论文”“论文”“爱因斯坦”“论文”“爱因斯坦”4、信息检索原理4、信息检索原理检索 提问式信息 的选 择与 收集信息 特征标 识 语 言检索工具 匹配检 索 结 果信 息 源用 户信 息 需 求检索 提问数据库5、信息检索的要领5、信息检索的要领What? Where? How?6、信息检索类型6、信息检索类型依信息存储和检索的方式 手工检索(Manual Retrieval) 也叫传统信息检索,是利用各种印刷型检索工具来查找文献的一种方法。 计算机检索(Camputer-based Retrieval) 也叫现代信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。 7、主要计算机检索系统类型7、主要计算机检索系统类型 检索系统由一定的检索设备(计算机)和经过加工整理并存储在相应载体上的信息集合及其他设备共同构成的具有存储和检索功能的信息服务系统。 联机检索(online search) 脱机检索(offline search) 光盘检索(CD search) 网络检索(Internet/Web search) 全球数字图 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf 馆系统(digital global system)8、“关键词原则”是信息检索的根本原则8、“关键词原则”是信息检索的根本原则四次文献三大系列中文网站两类搜索引擎Keyword原则第二节 搜索引擎的原理 和发展概况第二节 搜索引擎的原理 和发展概况1、网络信息资源种类1、网络信息资源种类WWW信息资源:web网页 FTP信息资源:远程计算机上的文件夹 Blog信息资源:博客、播客等等信息资源 Telenet信息资源:直接调用远程主机 BBS 、新闻组信息资源:相当于论坛信息 P2P信息资源:私人计算机上的信息资源 数据库和收费网站:如三大库三大馆2、网络信息资源的特点2、网络信息资源的特点信息量大、传播广泛 信息类型多样、内容丰富 信息时效性强、变化频繁 信息分散无序、但关联程度高 信息缺乏管理、良莠不齐 所以在网络信息检索中,我们常常要借助于搜索引擎来帮助我们“大海里捞针”。null3、搜索引擎的概念4、搜索引擎的发展历史4、搜索引擎的发展历史搜索引擎发展历史搜索引擎发展历史第三代搜索 网页搜索搜索引擎的起源——Archie搜索引擎的起源——Archie 所有搜索引擎的祖先,是1990年由蒙特利尔的McGill University三名学生发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf ,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 第二代搜索: 目录 工贸企业有限空间作业目录特种设备作业人员作业种类与目录特种设备作业人员目录1类医疗器械目录高值医用耗材参考目录 式搜索 Yahoo!第二代搜索:目录式搜索 Yahoo! 1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo!---几乎成为20世纪90年代的因特网的代名词。第三代搜索:网页搜索第三代搜索:网页搜索它们都属于网页自动搜索引擎,有的还带有智能 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 或FTP、P2P搜索功能5、搜索引擎的工作原理5、搜索引擎的工作原理nullnull 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 搜索引擎至少由三部分组成: 爬行器(即机器人、蜘蛛等搜索程序) 索引生成器(即网页索引数据库) 查询检索器(即用户检索界面) 随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。搜索引擎的工作原理就像超市搜索引擎的工作原理就像超市索引生成器 (网页数据库)爬行器 (蜘蛛)查询检索器 (用户查询)因特网nullnull第三节 两类搜索引擎及 网页搜索引擎第三节 两类搜索引擎及 网页搜索引擎两类搜索引擎的代表两类搜索引擎的代表百度、Google、Yahoo等迅雷、天网Maze等第一类搜索引擎: 网页搜索引擎 以谷歌和百度为代表第一类搜索引擎: 网页搜索引擎 以谷歌和百度为代表1、Google搜索引擎 1、Google搜索引擎 Google搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。 Google 目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过 80 亿个网址的索引。 “Google”来自于数学名词“Googol”, Googol表示一个 1 后面跟着 100 个零。Google Int.使用这一术语体现了公司整合网上海量信息的远大目标。地址: http://www.google.com/ Google 简介:Google 简介:Larry Page,创始人之一,主管产品 的总裁。密西根安娜堡大学的荣誉毕 业生,拥有理工科学士学位。他还因 其出色的领导才能获得过多项荣誉,以奖励他对工学院 的贡献。他曾担任密西根大学 Eta Kappa Nu 荣誉学会 的会长。目前他暂时从斯坦福大学计算机研究所博士班 休学,其指导教授是 Terry Winograd 博士。Google 就是由Page在斯坦福大学发起的研究项目转变而来的。Google 简介:Google 简介:Sergey Brin,创始人之一,主管技术的总裁。出生于莫斯科,是马里兰大学校本部的荣誉毕业生,拥有数学专业和计算机专业的理学士学位。已取得斯坦福大学计算机专业硕士学位,目前暂时从博士班休学。29 岁的 Sergey 是美国国家科学基金会的奖学金得主。他在斯坦福 遇到了 Larry Page 并参与了后来成为 Google 的研究项目。他们于1998年 共同创立了 Google。null注意用“ ”与*功能null谷歌其他功能谷歌其他功能2、百度(baidu)2、百度(baidu) 全球最大中文搜索引擎。提供网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索、百度搜霸、搜索援助中心。 地址: http://www.baidu.com/ http://www.baidu.comhttp://www.baidu.comnull 一、概况 百度(Baidu.com,Inc)于1999年底 成立于美国硅谷,2000年,落户中国。 2001年8月,发布Baidu.com搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式。 2001年10月22日正式发布Baidu搜索引擎。 2005年8月5日,百度在美国纳斯达克上市。null “百度”二字取自辛弃疾的《青玉案》 “众里寻她千百度” 。 现在百度已成为世界上最大的中文搜索引擎。用户能够访问超过6亿的中文网页,5000多万张图片、500多万首中文mp3及各种格式的音乐。 null3、其它中文搜索引擎 3、其它中文搜索引擎 新浪:http://www.sina.com/ 搜狐:http://www.sohu.com/ 网易:http://www.yeah.net/ 雅虎中国:http://cn.yahoo.com/ 一搜: http://www.yahoo-cool.com/ 搜狗:http://www.sogou.com/(智能搜索) 网格之窗:www.chinabuy.cn/net/default.asp(元搜索)null© 北京正望咨询有限公司百度 VS Google百度 VS Google重要提示重要提示 目标信息一定含有的关键字:用双引号连起来 目标信息不能含有的关键字:用“ - ”去掉 目标信息可能含有的关键字:用“OR”或空格连起来关于搜索的一些思想关于搜索的一些思想 不是互联网上所有的信息都能被搜索引擎搜集。 动手前多动脑。 不要盲目信任搜索得到的信息。 不要期望一次搜索解决问题。用搜索引擎查英文一次文献用搜索引擎查英文一次文献 有时会碰到查不到的英文文献,而这些文献的数据库我们所在研究所或大学又没有买,怎么办?可以通过以下几个途径来得到文献。 1.首先在Google学术搜索里进行搜索,里面一般会搜出来你要找的文献,在Google学术搜索里通常情况会出现“每组几个”等字样,然后进入后,分别点击,里面的其中一个就有可能会下到全文,当然这只是碰运气,不是万能的,因为我常常碰到这种情况,所以也算是得到全文文献的一条途径吧。可以试一下。 null 2.如果上面的方法找不到全文,就把文章作者的名字或者文章的title在Google 里搜索,用作者的名字来搜索,是因为我发现很多国外作者都喜欢把文章的全文(PDF)直接挂在网上,一般情况下他们会把自己的文章挂在自己的个人主页(home page)上,这样可能也是为了让别的研究者更加了解自己的学术领域,顺便推销自己吧。这样你就有可能下到你想要的文献的全文了。甚至可以下到那个作者相近的内容的其它文章。null 如果文献是由多个作者写的,第一作者查不到个人主页,就按上面的方法查第二作者,以此类推。用文章的title来搜索,是因为在国外有的网站上,例如有的国外大学的图书馆可能会把本校一年或近几年的学术成果的Publication的PDF全文献挂在网上,或者在这个大学的ftp上也有可能会有这样类似的全文.这样就很可能会免费下到你想要的全文了.null 3.如果上面两个方法都没有查到你要的文献,那你就直接写邮件向作者要。一般情况下作者都喜欢把自己的文献给别人,因为他把这些文献给别人,也相当于在传播他自己的学术思想。一般讲英语的国家的作者给文章的机率会大,一般你要就会给,其它不讲英语的国家,如德国,法国,日本等国家的作者可能不会给。出于礼貌,如果你要的文献作者E-mail给你了,千万别忘记回信致谢.向老外作者要文献的一个常用的 模板 个人简介word模板免费下载关于员工迟到处罚通告模板康奈尔office模板下载康奈尔 笔记本 模板 下载软件方案模板免费下载 向老外作者要文献的一个常用的模板Dear Professor ××× I am in ××× Institute of ×××, Chinese Academy of Sciences. I am writing to request your assistance. I search one of your papers: 。。。。。。。。。。。。。。。。。(你的文献题目) but I can not read full-text content, would you mind sending your papers by E-mail? Thank you for your assistance. Best wishes !(or best regards) ×××第四节 P2P搜索引擎 使用方法第四节 P2P搜索引擎 使用方法第二类搜索引擎: FTP或P2P搜索引擎 以迅雷和天网为代表第二类搜索引擎: FTP或P2P搜索引擎 以迅雷和天网为代表什么是FTP资源什么是FTP资源  FTP 是在 Internet 网上使用最广泛的一种服务, 使用FTP几乎可以传送任何类型的文件: 如文本文件、二进制的可执行程序、科学论文、图像文件、压缩文件、声音文件等。因此有大量有价值的信息资源存储在Internet网上的FTP服务器上, 获取这些资源也是信息检索的一项内容。FTP的工作原理FTP的工作原理  FTP(File Transfer Protocol) 是 TCP/IP 协议的一种, 它是在Internet网上使用最广泛的一种服务, 它可被用来在两台位于Internet网上的计算机之间传输文件, 它是一种实时的联机服务, 使用时, 用户应首先登录到对方的主机上, 登录成功后, 可以进行文件搜索和文件传送的操作, 如列文件目录, 改变当前目录, 设置传送参数等。null  像其它Internet服务一样, FTP采用 Client / Server 结构。用户在使用FTP服务时,需要输入远程主机的用户名和口令才能被允许登录, 在Internet 网上有许多数据服务中心提供一种称为匿名文件传送服务 (Anonymous FTP) , 用户在登录时, 以Anonymous 作为用户名, 以自己的邮件地址做为 Password 即可。一旦主机提供了匿名的FTP服务, 它有限制地允许客户访问远程主机。因此,网页搜索引擎一般不能访问到FTP服务器上的信息资源。什么是P2P什么是P2P P2P在IT界最初的含义是Peer-to-peer(点对点)。现在P2P已经被更广泛的理解为Point-to-Point, PC-to-PC等等。 简单来说,P2P就是指数据的传输不再通过服务器,而是网络用户之间直接传递数据 。 null 举一个简单的例子,在QQ出现之前,人们上网聊天大多通过聊天室,信息的传递方式是:用户A-聊天室服务器-用户B。这些不是P2P的方式。 在QQ时代,用户与服务器的交互仅用来完成登陆、维持在线状态等等,信息用户之间的信息传递不需要服务器参与,信息传递方式为:用户A-用户B。这就是典型的P2P应用。 不过,当信息的接收方不在线时,信息会通过服务器中转,这就又变成了上面提到的C/S模式第二类搜索引擎第二类搜索引擎 从FTP和P2P的工作方式可以看出,它们都不是传统意义上的www网站,而是直接在两台计算机之间进行的远程通信和文件传输。所以象百度和谷歌这类搜索引擎对这两种信息资源的搜索往往不能奏效。这就需要有新的类型的搜索引擎诞生。其中有代表性的是迅雷和天网搜索引擎。一、迅雷在线搜索引擎一、迅雷在线搜索引擎null迅雷在线搜索引擎迅雷在线搜索引擎    迅雷是一款免费下载工具,号称第三代快速下载工具,它使用的多资源超线程技术基于网格原理,能够将网络上存在的服务器和计算机资源进行有效的整合,构成独特的迅雷网络,通过迅雷网络各种数据文件能够以最快的速度进行传递,据说下载速度是网际快车的7-8倍,支持断点续传。     迅雷还拥有一个强大的资源网络,实际上构成了一个独特的搜索引擎。任何人都可以将自己在因特网搜索到的资源再次在迅雷上发布,成为迅雷的“雷友”,拥有自己的迅雷博客。这样,迅雷就可以通过对雷友博客的搜索,提供更多的信息资源。作业4 迅雷在线搜索作业4 迅雷在线搜索    本作业要求,对2006年最火爆的“明星学者”易中天先生的力作:CCTV百家讲坛《易中天品三国》在迅雷上进行搜索,将这套系列视频教程的总目录列出来(据说有30多集),按演讲顺序编号,并附上资源发布站点的屏幕抓图,以使读者能够方便地下载自己需要的讲座内容。二、天网搜索引擎二、天网搜索引擎null天网中文搜索引擎天网中文搜索引擎北大天网 http://e.pku.edu.cn/ 由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在中国教育和科研网CERNET上提供服务。收录网页约6000万,主要搜索CERNET上的信息,有强大的FTP搜索功能。nullnull主要以P2P资源搜索为主的搜索引擎2主要以P2P资源搜索为主的搜索引擎2  北京天网时代科技有限公司(http://www.tianwang.com/)的前身是北大天网(http://e.pku.edu.cn/),北大天网是中国第一家为互联网用户提供服务的搜索引擎。 2003年7月,北京天网时代科技有限公司完全收购了北大天网,开展搜索相关业务。天网资源:Web、FTP、Maze等天网资源:Web、FTP、Maze等天网FTP资源天网FTP资源“天网妹子”“天网妹子”  天网资源最具特色的是Maze资源,天网Maze是一款集搜索和下载为一体的、基于P2P底层技术的客户端软件,它的特点是同时具有搜索、下载和共享发布的功能,当你安装此软件并注册后,就可以输入关键词进行搜索。但它搜索的对象主要是所有的Maze用户,你可以直接从找到的在线Maze用户的个人计算机共享文件夹上下载你感兴趣的任何文件。null天网Maze大学课程在线搜索 天网Maze大学课程在线搜索   它的下载方式类似BT下载方式,浏览方式类似FTP浏览方式,下载速度快,支持断点续传。特别是它的主要用户都是教育网上的用户,所以在校园网上下载速度极快。      本作业要求从天网大学课程在线上下载一部指定的视频教程。这也将是本课程期末考试的必考题目之一,请用心掌握下述操作技巧。 用天网妹子搜索到的大学课程在线 用天网妹子搜索到的大学课程在线大学课程在线项目理念大学课程在线项目理念 来源于如下一些理想中的场景: 场景一: 新疆石河子大学计算机系讲授《计算机体系结构》的张老师对他的学生说:关于“指令流水线部分”的内容请大家点播“大学课程在线”上北京大学李老师相关的视频,我们的答疑时间是本周星期四。null 场景二: 西北大学的王老师的《文科计算机基础》课程刚刚被评选为教育部优秀课程,全国高校的学生和老师很快就能在“大学课程在线”上看到王老师的风采。 null 场景三: 未名湖边,博雅塔下,一位北大的学生打开自己的笔记本电脑,开始在“大学课程在线”上聆听周老师关于离散数学中的组合计数定理部分的内容,这已经是他第三次学习这部分内容了。null 场景四:东北大学的学生们在自己学校的机房里打开“大学课程在线”,开始观看前一天到访清华大学的诺贝尔奖获得者的精彩演讲。 场景五:五十年后,我突然想看看国学大师在北大讲坛上的音容笑貌,于是我打开了“大学课程在线”。null 场景六: 一个没有读过大学的人,却对中国高校里面的名师如数家珍,因为他在闲暇时候观看了“大学课程在线”的所有课程并认真地阅读了老师们指定的参考书。这成了他事业成功的坚实基础。 三、其他P2P搜索引擎三、其他P2P搜索引擎BT 电驴 电骡 ……null第五节 门户网站和 “看不见的”网站第五节 门户网站和 “看不见的”网站一、门户网站的概念一、门户网站的概念 中国有三大网站被称为“门户网站”(新浪、搜狐和网易)。之所以他们被称为中国最大的三大门户网站,除了因为它们有搜索引擎以外,还因为它们安排了多种多样的信息服务,使得人们能自觉自愿地登陆这些网站开始“网上冲浪”,恰似因特网的大门一样。一、搜狐网站及其搜索引擎 一、搜狐网站及其搜索引擎 Keyword searching互动式搜索引擎搜狗互动式搜索引擎搜狗 搜狗是搜狐(www.sohu.com)推出的互动式搜索引擎,在用户输入一个查询词后,尝试理解用户可能的查询意图,给出多个主题概念的搜索提示,通过人机交互过程,智能展开多组相关的主题概念,引导用户更快速准确定位自己所关注的内容。搜狗的地图功能搜狗的地图功能nullnullnull搜狐博客null二、新浪网站及其搜索引擎新浪网的搜索引擎新浪网的搜索引擎nullnullnull爱问共享资料 nullnullnullnull三、网易网站及其搜索引擎Keyword searchingnull网易博客 网易相册网易相册null二、看不见的网站二、看不见的网站 与门户网站相反,有相当一批网络信息资源是搜索引擎看不到的,譬如天网妹子上的大学视频教程,以及私人服务器上的BT资源,百度、谷歌就对它们无能为力。因而就有了“看不见、搜不着的网站”的说法。但这些信息资源绝不是不重要的。看得见和看不见的网站看得见和看不见的网站WWW信息资源 FTP信息资源 Blog信息资源 Telenet信息资源 BBS 、新闻组信息资源 P2P信息资源 数据库和收费网站信息资源这三类资源可见度较高,但每个搜索引擎最多能搜到其中的40%大多数情况下,搜索引擎对这几类资源无能为力,只能另想办法查找。轻轻松松学检索轻轻松松学检索四次文献三大系列中文网站两类搜索引擎Keyword原则本章思考题本章思考题1、什么是网页搜索引擎?它的工作原理是什么?常见的搜索引擎有哪些? 2、什么是FTP搜索引擎?常见的FTP搜索引擎有哪些? 3、什么是“三大门户网站”?其中有特色的信息资源有哪些?
本文档为【传播技术第3章+检索原理和搜索引擎+2学时】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_747643
暂无简介~
格式:ppt
大小:7MB
软件:PowerPoint
页数:0
分类:互联网
上传时间:2011-07-23
浏览量:6