首页 信息检索概论03-基本原理

信息检索概论03-基本原理

举报
开通vip

信息检索概论03-基本原理nullnull信息检索概论 Introduce to Information Retrieval课程介绍第三章第一章第五章第四章第二章主讲:吕昭前第七章第九章课后练习第六章第八章null 第三章 信息检索 基本原理与方法 ——掌握航海工具箱 信息检索概论主要内容主要内容3.1 信息检索原理 3.2 检索系统 3.3 检索语言 3.4 检索技术 3.5 检索策略 3.6 信息检索评价null信息检索作为一门学科,其历史可追溯到19世纪下半叶。但在20世纪中期以前,信息存储和传播主要以纸...

信息检索概论03-基本原理
nullnull信息检索概论 Introduce to Information Retrieval课程介绍第三章第一章第五章第四章第二章主讲:吕昭前第七章第九章课后练习第六章第八章null 第三章 信息检索 基本原理与 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 ——掌握航海工具箱 信息检索概论主要内容主要内容3.1 信息检索原理 3.2 检索系统 3.3 检索语言 3.4 检索技术 3.5 检索策略 3.6 信息检索 评价 LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载 null信息检索作为一门学科,其历史可追溯到19世纪下半叶。但在20世纪中期以前,信息存储和传播主要以纸质文献为载体,信息检索活动也围绕着文献的获取和控制展开,因此,信息检索研究关注的是如何检索利用文献中记载的信息,文献检索一度成为信息检索的同义词。20世纪50年代开始了计算机应用时代,信息检索得到迅速发展并使用情报检索一词。由于汉语中“信息”较“情报”的含义更为宽泛,加上英文information可以理解为“信息”或“情报”,随着通讯技术与计算机技术的紧密结合,信息载体类型的多样化及传播手段的改进,情报检索研究和文献检索研究逐渐归入信息检索研究这一具兼容性的概念。null随着信息学的快速发展,作为信息贮存、获取技术方法的信息检索的研究范围也日趋扩展,主要包括:信息检索原理,信息检索系统,信息检索语言与技术,信息检索评价方法等。本章首先对这些理论基础及概念做简要介绍。 3.1 信息检索原理3.1 信息检索原理信息检索 (Information Retrieval) 是在 1949 年国际数学会议上由 Galvin W. Mooers 首次提出,在其发表的《把信息检索看作是时间性的通讯》论文中指出:“信息检索是一种时间性的通讯形式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可能还在同一地点”,并强调“信息接受者是最活跃的一方”。这一看法,揭示了信息存储与获取两个环节是一种延时行的通讯形式。我们可以用一句话概括信息检索的基本原理,即对信息集合与需求集合的匹配和选择。3.1.1 信息检索的概念3.1.1 信息检索的概念信息检索有广义和狭义的之分。 广义的信息检索全称为“信息存储与检索” (information storage and retrieval ),是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。 狭义的信息检索仅指信息的查询,即从信息集合中迅速、准确地查找出所需信息的程序和方法。信息集合可以是数据库的全部 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 ,也可以是某种检索工具,还可以是某个图书馆的全部馆藏。信息检索也就是从数据库、检索工具以及馆藏中查找所需信息的活动。示例:《3D计算机图形学》示例:《3D计算机图形学》自动化技术、计算技术类TP计算机应用--模式识别装置TP391.41TP391.41/H293TPTP391.41TP391.41/H293书的信息存储过程书的信息检索过程信息存储信息存储存储标识信息集合null存储过程就是按照检索语言(主题词表或分类表)及其使用原则对原始文献信息进行处理,形成文献信息特征标识,为检索提供经过整序(即形成检索途径)的文献信息集合的过程。 具体来说,文献信息的存储包括对文献信息的著录、标引以及编排正文和所附索引等。所谓文献信息的著录是按照一定的规则对文献信息的外表特征和内容特征加以简单明确的表述。文献信息的标引是就文献信息的内容按一定的分类表或主题词表给出分类号或主题词。信息检索信息检索检索过程则是按照同样的主题词表(或分类表)及组配原则分析课题,形成检索提问标识,根据检索系统所提供的检索途径,从文献信息集合中查获与检索提问标识相符的信息特征标识的过程。 因此只有了解文献信息处理人员如何把文献信息存入检索系统,才能懂得如何从检索系统中检索所需信息。null这里,匹配的相似性 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 一般是通过把信息集合和需求集合预先进行某种形式化的加工和表示来提供的。对于文本而言,最主要、最常用的匹配标准是由某个或若干个词汇表达的“主题”、“关键词”、分类号等。 也就是说,存储与检索所依据的规则必须一致,标引者与检索者必须遵守相同的标引规则。这样,无论什么样的标引者,对同一篇文献的标引结果一致,不论是谁来检索,都能查到这篇文献。3.1.2 信息检索的原理3.1.2 信息检索的原理信息检索的基本原理是:通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中存储是为了检索,而检索又必须先进行存储。 概括地说,信息检索的原理就是对信息集合与需求集合的匹配和选择。 null检索时将用户需求集合中的检索标识提交到检索系统中,与信息检索系统中存储的信息特征标识进行进行逐一比对,两者完全一致或基本一致时,即为检索命中信息,可按用户要求从检索系统中输出。 为了在信息集合与需求集合之间建立起联系和沟通,以便能从信息集合中快速获取用户所需要的信息和知识,信息检索提供了一种“匹配”机制,这种机制的主要功能在于能快速把需求集合与信息集合依据某种相似性标准进行比较和判断,进而选择出符合用户需要的信息。null这种“匹配”和“选择”机制的实现,在很大程度上依赖于信息检索系统所采用的信息检索模型的优劣。 信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。null最简单的信息检索模型是单项检索模型。它将文献集合中的每一篇文献用1个或多个主题词标引,提问式由单个主题词构成。系统对提问的响应是:检中或不检中。匹配标准是:若提问式中的主题词属于某文献标引词集合中的成员,则该文献为检中。反之,为不检中。此模型由于检索过程简单,较为人们熟知且广泛使用。但此种模型的检索效果往往不好,尤其当文献集合很大时,检中的文献很大部分是无用的文献。null1957年,Y. Bar-Hillel最先探讨了布尔逻辑应用于计算机检索的可能性,10年后,布尔逻辑模型正式被大型文献检索系统所采用,并逐渐成为各种大型联机检索系统、甚至是网络搜索引擎的典型、标准检索模式。为弥补布尔逻辑模型的不足,相继也出现了向量空间模型、概率检索模型、模糊集合模型、扩展布尔逻辑模型、相关反馈模型等。null目前,商用信息检索系统主要以布尔模糊逻辑加向量空间模型为主,辅以部分自然语言处理。自然语言理解在信息检索中应用,将大大提高信息检索的精度和相关性。文本检索中常用布尔模型,向量空间、相关反馈模型常被用在多媒体检索、搜索引擎、自动分类、智能检索、数据挖掘等技术中。3.2 信息检索系统3.2 信息检索系统3.2.1 检索系统的概念 3.2.2 检索系统的分类3.2.1 检索系统的概念3.2.1 检索系统的概念所谓检索系统,是指按某种方式方法建立起来,具有信息检索功能的信息资源体系。它们由一定的设施和设备、信息资源和服务构成。 例如:中国知网(CNKI)、在线公共目录检索系统(OPAC)、工程索引(EI)、Dialog等。null计算机信息检索系统的逻辑构成主要指它所包括的功能模块或子系统及其相互关系。 一个完整的信息检索系统,通常由以下几个功能模块组成: 信息源选择与采集子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。 null狭义的检索系统又称为检索工具,是人们用来报道、存储和查找各类信息的系统(工具)。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,以及基于Internet的网络信息检索系统、网上工具书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。 3.2.2 检索系统的分类3.2.2 检索系统的分类目录检索系统全文检索系统按照著录 形式的不同文摘检索系统null缩微式书本式、 卡片式按照载体 形式的不同机读式null机械检 索工具手工检索 工具按照检索 手段的不同计算机 检索系统null检索工具是随着信息检索技术的不断发展而发展的。随着时间的推移,有些检索工具曾在一定历史时期为信息检索的发展做出过重要贡献,但已经完成了历史使命而现在不再使用了,例如机械检索工具在当前信息检索利用中已经很少使用了。1)目录检索系统1)目录检索系统目录检索系统:用于对出版物进行报道和对图书资料进行科学管理。 常用目录检索系统:图书馆在线公共目录检索系统(OPAC)、中国高等教育文献保障系统(CALIS)联合目录公共检索系统图书馆在线公共目录检索系统(OPAC)举例图书馆在线公共目录检索系统(OPAC)举例CALIS联合目录公共检索系统举例CALIS联合目录公共检索系统举例2)文摘检索系统2)文摘检索系统文摘检索系统:用于对信息题录和文摘的检索,检索结果一般是文献的来源信息。 常用文摘检索系统:工程索引(EI)、引文索引(SCI) EI检索界面EI检索界面EI检索词选择字段EI检索结果EI检索结果3)全文检索系统3)全文检索系统全文检索系统:全文也包括内容简短的事实和数据,全文检索系统集文摘检索与全文提供于一体。 常用的全文检索系统:中国知网(CNKI)、Science DirectCNKI检索界面CNKI检索界面林钟高null3.3 检索语言3.3 检索语言检索 原理检索 语言作用概念null由信息检索原理课知,信息检索包括信息的存储和检索两个方面。信息存储指的是编制检索工具和建立检索系统,信息检索则是利用这些检索工具和检索系统来获取所需要的信息。因此,信息的存储和检索是两个有着密切联系的过程。其关系如图所示。 检索语言在信息存储与检索给出中的作用检索语言在信息存储与检索给出中的作用输入检索输出null信息检索系统必须在文献信息与用户提问之间,建立起一定的对应关系,因而就必须依赖一种统一的交流“语言”,以此来描述文献信息的特征,同时,也以此来描述用户需求的特征。只有两者采用共同的“语言”,才能把文献信息特征的标识与用户需求特征的标识彼此对应、互相联系起来,完成检索的标识匹配和选择过程。3.3.1 检索语言的概念3.3.1 检索语言的概念信息检索语言是根据信息检索的需要而创制的人工语言,又称信息存储与检索语言、索引语言、标引语言、标引符号、标识系统等等。用于描述信息系统中信息的内容特征和外表特征,并可以表达用户提问。目前世界上有两千种左右的信息检索语言。如:《中国图书馆图书分类法》、《汉语主题词表》、《Subject Headings for Engineering》、《INSPEC Thesaurus》等都是信息检索语言的一种。null标引人员根据信息的内容特征,依据检索语言的规则对信息进行标引,将其整理、加工、存储于检索系统中。同时,检索人员根据需要检索的信息内容特征,依据检索语言从检索系统中获取所需信息。null概念逻辑和知识分类是信息检索语言的基础。   任何一种信息检索语言,都是表达一系列概括文献信息内容的概念及其相关关系的概念标识系统。因此,它们全都是建立在概念逻辑基础上的。在信息检索过程中,概念则是用各种信息检索语言的语词(标识)来表达的。为揭示一个事物与其他各种事物之间的联系与区别,达到检全和检准的要求,信息检索语言不仅要表达一个个不同的概念,而且还要显示出各概念之间的逻辑关系。 null概念之间的关系有相容关系和不相容关系两类。相容关系中可分为同一关系、属种关系、交叉关系、整体与部分的关系、以及全面与某一方面的关系,此外还有外延不相排斥的并列关系。在不相容关系中可分为并列关系(外延互相排斥的)、矛盾关系和对立关系。3.3.2 检索语言的分类3.3.2 检索语言的分类外部特征 书名/刊名 著者名/团体著者 出版事项 代码/序号内容特征 分类语言 分类表 主题语言 主题词表表示文献内容特征的检索语言表示文献内容特征的检索语言按构成原理划分分类语言: 体系分类法 组面分类法主题语言: 标题词语言 叙词语言 单元词语言 关键词语言1)分类语言1)分类语言分类语言:是以号码(一般为字母和数字的组合)为基本字符,用分类号和类目表达文献主题概念的检索语言。 特点:是用分类号表达各种概念,根据概念之间的关系,把它们组织成一个逻辑体系。 作用:反映知识的分类或者社会实践活动的职能分工,具有较好的系统性;把同一学科、同一专业、同一职能活动的文献集中在各个类目之下,满足族性检索(类检索)需要。 常用的等级体系分类语言简称分类法。null等级体系分类语言是按一定的观点,以科学分类为基础,用逻辑分类的原理,结合信息的内容特征,运用概念划分与概括的方法,按照知识门类的逻辑次序从总到分,从上到下,从抽象到具体,从一般到特殊,从简单到复杂,层层进行概念划分,从而产生存在隶属关系的不同级别,逐级展开组成体现知识等级体系的分类表,并以分类表来标引、存储和检索信息。在分类表中,上位类包括下位类的总和,下位类隶属于其上位类,同位类互不相容,每一个类目分别以不同的符号(分类号)作标识,从而形成了以分类号为标记的一个严格有序的层次式结构体系。null由于体系分类语言体现的是知识等级体系,因此,用体系分类语言标识文献能按学科或专业集中而系统地揭示信息,便于从学科或专业角度进行族性检索,并且查全率高。null分类语言的具体表现形式是分类表,信息检索系统中,常用的分类表有: 《中国图书馆分类法》(简称中图法) 《中国科学院图书馆分类法》(简称科图法) 《人民大学图书馆分类法》(简称人大法) 《国际十进制图书分类法》(Dewey Decimal Classification) (美国国会图书馆分类法》(Library of Congress Classification) 或者采用自行编制的分类法。 分类表的作用:指导存储文献,正确标引出分类号;帮助从分类的角度检索某一类文献。null中图法分类表基本结构中图法分类表基本结构索书号索书号G252.7/H66、TP311.5/H226 Head First设计模式(中文版)网 络 信 息 检 索 与 利 用TP311.5 H226G252.7 H682)主题语言2)主题语言主题语言:是一种描述语言,即用自然语言中的名词、名词性词组或句子描述文献所论述或研究的事物概念 。 例如:我们在搜索引擎中查找文献时输入的“汽车燃料”就是主题语言的一种。 特点:直接用词语来表达各种概念。通过概念组配用于表达任何专指概念。具有较高的专指性,便于特性组配检索,直指性强。主题语言的分类主题语言的分类叙词: 最有代表性的主题语言,由规范化的概念及其关系组成。 叙词表关键词: 题目、摘要、全文中出现的,对表述文献主题内容具有实质意义的词汇,是未经规范化的自然语言词汇。叙词语言的概念:叙词语言的概念:叙词语言是以自然语言为基础,规范化的基本概念,以概念组配为基本原理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。叙词是从信息内容中抽选出来的能够概括表达信息内容基本概念的名词或术语,是不可再分的基本概念单元。如:“反坦克地雷”中的“反坦克武器”和“地雷”;“面向公众的电子政务信息资源的开发与管理”中的“公众服务”、“信息资源”、“电子政务”等都是叙词。叙词语言的特点:叙词语言的特点:叙词语言具有直观性、专指性强和组配性高等优点。尤其是组配性,显示出更强的多维检索功能。无论多复杂的文献主题概念,都可以通过叙词的组配,实现有效的检索。例如,“数控车床”这一概念,就可以用“数控机床”和“车床”的概念组配来表达。叙词表:叙词表:叙词表是将叙词按一定规则编制而成的,反映叙词的语义规范和语法规则。不同的叙词表其编制内容和方式都不同,如INSPEC叙词表有字顺表(Alphabetic display of thesaurus terms)和词族表(Hierarchical display of thesaurus terms),而《汉语主题词表》除叙词字顺表外,还有词族索引、范畴索引、英汉对照索引等三个辅助索引。叙词字顺表是叙词表的主表,是正确选择叙词的依据。叙词表中的关联关系:叙词表中的关联关系:Y(用)USE 指引正式主题词 D(代)UF 指引非正式主题词 S(属)BT 指引上位主题词 F(分)NT 指引下位主题词 C(参)RT 指引相关主题词 Z(族)CC 指引族首主题词(最上位词)null《汉语主题词表》是我国第一部大型的综合性的叙词表,由中国科技信息研究所和北京图书馆负责主持,1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册,全表收录主题词108568个。其中正式主题词91158个,非正式主题词17410个,词族数3707个,一级范畴数58个,二级674个,三级1080个。 叙词表编排体系结构举例叙词表编排体系结构举例字顺表的结构:电磁波测距 [39C] Electromagnetic distance measurement D 电子测量法 无线电测距 物理测距 F 光电测距 雷达测距 微波测距 S 精密测距 Z 测量* C 三边测量 电磁簇射 Electromagnetic showers Y 电磁级联簇射款目主题词范畴号非正式主题词英文主题词下位主题词上位主题词族首词相关词正式主题词非正式主题词关键词语言关键词语言关键词是从文献的标题、文摘和正文中直接抽取的,能够揭示和表达文献主题内容并具有实质意义的未经规范化处理的自然语言词汇。关键词语言以关键词作为文献内容的标识和检索依据。 关键词语言属于自然语言,未经严格的规范化处理,不像标题词、叙词一样编有词表,一般只列有“非关键词表”(stop words list)来限制关键词的选择。null关键词语言的优点是适用于计算机自动化编排各种关键词索引,从而加速文献的标引速度和缩短检索工具出版的滞后时间。如美国《化学文摘》的期关键词索引,就是在卷主题索引出版前提供了一条迅速、便利的关键词检索途径。 由于关键词未经规范化处理,存在的明显缺点是检索质量较差,可能会在标引和检索之间造成歧义或误差,从而导致漏检或误检。null检索语言由词汇和语法组成。词汇是指登录在分类表、词表、代码表中的全部标识,一个标识(分类号、检索词、代码)就是它的一个语词,而分类表、词表、代码表则是它的词典。语法是指如何创造和运用那些标识来正确表达文献内容和情报需要,以有效地实现情报检索的一整套规则。 检索语言实质就是检索途径。 检索途径分为:分类途径、主题途径、著者途径和其他途径。 3.4 检索技术3.4 检索技术信息检索常用技术有:布尔检索、截词检索、限制检索、全文位置检索、加权检索、多媒体检索 。3.4.1 布尔逻辑检索3.4.1 布尔逻辑检索>>布尔逻辑运算符优先级布尔逻辑运算符优先级布尔运算符优先级比较:有括号时:括号内的先执行;无括号时:NOT > AND > OR 例:检索“唐宋诗歌”的有关信息。 关键词:唐、宋、诗歌; 检索表达式(以CNKI为例) : TI=唐 and TI=宋 and TI=诗歌 (TI=唐 or TI=宋) and TI=诗歌 TI=唐 and TI=诗歌 or TI=宋 and TI=诗歌 错误表达式: TI=唐 or TI=宋 and TI=诗歌 TI=唐 or TI=宋 or TI=诗歌 唐 and 宋 or 诗歌布尔逻辑式的变换处理*布尔逻辑式的变换处理*逆波兰变换法(福岛法)准波兰变换法——占用工作区最少的逆波兰表达式 范式法——任一布尔逻辑检索式都可以化成与之等价的析取(或合取)范式布尔逻辑检索举例布尔逻辑检索举例例:检索“打印机驱动程序”方面的文献。(以CNKI为例) 查询关键词:打印机、驱动程序 检索表达式:TI=打印机 AND TI=驱动程序null例:检索“微型计算机在图书馆中的应用”方面的有关信息。(以CNKI为例)查询关键词:微型计算机、微机、图书馆 检索表达式: (KY=微型计算机 or KY=微机) and TI=图书馆(KY=微型计算机 or KY=微机) and TI=图书馆null例:检索有关“非师范类大学生信息素养”方面的文献信息。(以CNKI为例)检索式:TI=大学生 and TI=信息素养 not 师范布尔逻辑算符小结布尔逻辑算符小结逻辑非缩小检索范围:逻辑非用于排除不希望出现的检索词,能够缩小命中文献范围,增强检索的准确性。 逻辑与缩小检索范围:增加限制条件,增加检索的专指性,缩小提问范围,减少文献输出量,提高查准率。 逻辑或扩大检索范围:增加检索条件,放宽提问范围,增加检索结果,起扩检作用,提高查全率。 注意事项注意事项在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“and、or、not” 有的用“*、+、-”。 一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。 一些网络检索工具如搜索引擎甚至用“︺、,、-”(即空格、逗号、减号)来表示。 在不同的数据库中,逻辑运算符的优先级规定也不相同,使用时应关注具体数据库的规定。3.4.2 截词检索3.4.2 截词检索截词检索是指在检索词的合适位置加上截词符或通配符进行截断,表示检索词的某一部分允许有一定的词形变化,让计算机按照检索词的部分片段同索引词进行对比,以提供族性检索的功能。 通配符和截词符主要用于西文电子资源的检索。 各数据库使用的通配符和截词符大同小异,举例说明如下:EI的通配符和截词符:EI的通配符和截词符:EBSCO的通配符和截词符EBSCO的通配符和截词符3.4.3 字段限定检索3.4.3 字段限定检索通过限制检索范围,达到优化检索结果的方法。不能完全确定检索词(关键词、主题词)在数据库记录中出现的字段位置,特别在使用自由词进行全文检索时,需要用字段限制检索的范围。常用的字段代码有标题(TI)、文摘(AB)、叙词(DE)、识别词或自由词(ID)、作者(AU)、语种(LA)、刊名(JN)、文献类型(DT)、年代(PY)等。这些限制符在不同的数据库系统有不同的表达形式和使用规则。null数据库中可供检索的字段通常分为基本检索字段和辅助检索字段。 基本检索字段主要有TI(题名)、 AB(文摘)、 DE(叙词)、 SU(主题词)、标识词(ID)和KW (关键词),适用于各种数据库。 辅助检索字段主要有AU(著者)、 JN(刊名)或JA(刊号)、 LA(语种)、 BN(国际标准书号)、SN(国际标准刊号)、CC(分类类目)、CS(机构)、DT(文献类型)或PT(出版物类型)、PY(出版年)、SO(来源出版物)等字段。null常用的字段限制符有前缀字段限制符和后缀字段限制符 。 前缀字段限制符格式:字段名=检索词 后缀字段限制符格式:检索词/字段名 检索词 wn 字段名 字段限制符一般用于高级检索或专家检索。前缀字段限制符举例前缀字段限制符举例ScienceDirect:CNKI: TI=中国 and KY=生态文明 and (AU%胡+李) 可以检索到“篇名”包括“中国”并且关键词包括“生态文明”并且作者为“李”姓和“胡”姓的所有文章。后缀字段限制符举例后缀字段限制符举例财务管理/TI——查找题名中包含“财务管理”的文献。 EI中用后缀字段限制符 “wn”,如: {test bed} wn ALL AND {atm networks} wn TI (window wn TI AND sapphire wn TI) OR Sakamoto, K* wn AU3.4.4 位置限制检索3.4.4 位置限制检索位置检索 (Proximity Searching、Adjacent Operators)又称邻近检索,主要是通过检索式中的位置限制符来规定多个检索词在结果中的相对位置。一般用于高级检索或专家检索。 例如检索“生物防治”的文献,若用检索式“biological*control”检索,则会将“抑制生物”(control biological)的文献也查出来,这显然不是所需文献。 位置限制符主要有:相邻位置算符(W)、(N),句子位置算符(S),字段算符(F)。(W) 算符 (W) 算符 )加一个自然数n,表示此算符两侧的检索词允许插入最多n个词,且词序不可变。 如biological W0 control相当于检索biological control CD W0 ROM相当于检索CD ROM或CD-ROM。 tax W8 reform 可以是 tax reform、 tax (8个单词) reform 但不能是 reform of income tax。 (N)算符(N)算符N加一个自然数n,表示两词间可插入最多n个词,词序可变。 如检索式environment N2 protection 可检索出“environment protection”、“environment of the protection ”、“environment of water protection”、“protection of forest environment” tax N5 reform 可命中 tax reform 以及 reform of income tax (S)、(F)算符 (S)、(F)算符 (S)是sentence的缩写,表示两个检索词须同时出现在文献记录的同一子字段中,两词的词序不限,两词间插入词的数量不限。 (F)表示此算符两侧的检索词必须同时出现在信息记录的同一个字段内,两词的词序不限,两词间插入词的数量不限。用此算符时须指定所要查找的字段,如题名字段、文摘字段、叙词字段等。例如digital (F) computer/TI表示在题名字段(TI)中同时出现这两个检索词的才算命中信息。null在不同的数据库中,位置算符检索功能及算符不同,应参看数据库的使用说明。 算符小结算符小结布尔逻辑算符 AND、OR 、NOT截词符和通配符 *、?、$、#字段限制符 前缀、后缀位置限制符 W、N、S、Fnull例1:汽车替代燃料vehicle alternative fuel、 substitutive fuel for automobiles、methanol gasoline、ethanol、gasoholvehicle alternative fuel((vehicle $alter fuel) or (substitutive fuel for automobiles)) and (methanol gasoline or ethanol or gasohol)nullnull例2:在EBSCO数据库检索中,某一用户需检索有关“数字图书馆与信息检索、参考咨询”方面的文献信息,检索要求:题名或文摘中包含数字图书馆digital library,数字图书馆要求考虑单复数,主题包含信息检索“information retrieval”或参考咨询reference,请编制其检索策略(检索式)。 检索式: (TI digital librar* or AB digital librar*) and SU (reference or information N2 retrieval)null3.4.5 多媒体检索(Multimedia Search) 3.4.5 多媒体检索(Multimedia Search) 随着多媒体计算技术的迅猛发展,各种音频、图像、视频信息开始层出不穷,人们已不再满足于传统的文字检索,提出了对多媒体信息的检索需求,因此,基于内容的多媒体信息检索应运而生。 基于内容的检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它是通过在没有人类参与的情况下能自动识别或理解声音、图像、视频重要特征的算法来实现的。null基于内容的声频检索包括以语音为中心,采用语音识别技术的语音检索;以音乐为中心,采用音乐音符和旋律等音乐特征的音乐检索;及以波形声音为对象的音频检索。基于内容的音乐检索系统主要研究音高、音长、音强等音乐特征的提取、识别和检索。包括音乐特征的规范化和提取、用户输入识别及特征提取、音乐特征的匹配检索及输出、相关反馈等。目前已成熟的系统有:MUSCLEFISH、新西兰数字图书馆研究项目组所开发的MELDEX、卡内基-梅隆大学开发的QPD等。null基于内容的图像信息检索的主要工作集中在识别和描述图像的颜色、纹理、形状、空间关系上,对于视频数据,还有视频分割、关键帧提取、场景变换探测以及故事情节重构等问题。由此可见,这是一门涉及面很广的交叉学科,需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础,还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。 示例:Google Goggles示例:Google GogglesGoogle Goggles是谷歌公司于2009年12月7日发布的手机搜索应用,能通过图形图像检索出相关信息,是视觉检索的突破性应用,是搜索引擎向真正的智能化发展的一个标志性应用。 用户使用Android操作系统的手机拍摄照片即可搜索相关信息。 如果被拍摄的主体是风景,用户会得到相关的旅游和建筑信息; 如果被拍摄的是书籍,用户将会搜到基本信息、价格比较和书评信息; 如果对准某一件商品的条形码或是商标一拍,就可以找到与该产品相关的信息;null如果用户想要收录某张名片上的所有资料,也只需按下拍摄键就可以提取相关信息。 在拍下照片的一刹那,这款软件会将照片与数据库里的10亿张带有有效信息的图片进行比对,并迅速给出答案。而本次摄下的图像也会成为Google庞大的数字储备中的一部分。 对于商业网点的识别,则连拍照都省略了。采用类似“增强现实”技术的方式,将摄像头指向该店铺,Android系统即可利用GPS、电子罗盘信息,给出该店铺名称和更多信息。3.4.6 超文本检索(Hypertext Search) 3.4.6 超文本检索(Hypertext Search) 超文本是一种信息的组织方法,它把不定长的基本信息单元存放在结点上,这些基本信息单元可以是单个字、句子、章节、文献,甚至是图像、音乐或录像,结点以链路方式链接,链路可以分为层次链、交叉引用链、索引链等,构成网状层次结构。超文本的特点是以联想式的、非线性的,链路的网状层次关系,允许用户在阅读过程中从其认为有意义的地方入口,直接快速地检索到所需要的目标信息。null  超文本检索时其内容排列是非线性的,按照知识(信息)单元及其关系建立起知识结构网络,操作时用鼠标去点击相关的知识单元,检索便可追踪下去,进入下面各层菜单。这种检索方式常用在多媒体电子出版物中,这类出版物不仅采用超文本,而且常采用超媒体(hypermedia),提供文本和图形接口,Internet上的Web便是典型例子。3.5 检索策略3.5 检索策略检索策略就是在分析课题内容的基础上,确定检索系统、检索途径、检索表达式(检索词之间的位置关系、逻辑联系)、查找步骤等。 在数据库和系统功能相同的前提下,检索策略是否考虑周全,以及在检索过程中能否根据实际情况修改原来的策略,使其更加切题,都会影响检索结果的查全率和查准率。所以检索策略的构建与调整对检索者来说十分重要。null检索表达式是检索策略的具体表现。检索表达式也称“提问式”、“检索式”、“逻辑式”。它是将各检索词(关键词、主题词)之间用布尔逻辑符、关键词检索、位置算符检索、截词符检索和字段限制符检索等系统规定的组配符连接起来。 制定正确恰当的检索策略,可以指导和优化检索过程,提高检索效率,全面、准确、快速、低成本地找到所需信息。 检索策略体现在检索步骤中。null问题1 应按照什么步骤完成信息检索?信息检索过程是一个检索操作过程,如选择数据库、确定关键词、构造检索式等?╳这种对信息检索过程公式化的理解,不能帮助我们真正把握解决问题的思考方式,也就无法产生一个全局的检索思路,以至于最终无法有效实现检索目标。信息检索实质是解决信息问题,信息检索的一般步骤实际上是提出问题和解决问题的过程。 信息检索技能的提高要围绕三个层次,把握七项准则。3.5.1 信息检索三层次3.5.1 信息检索三层次信息检索从技能和能力综合来看,分为三个层次(如图 ):(1) 熟悉信息资源、(2)掌握检索技术、(3)信息综合利用。 随着学习的深入和实践应用的不同,不同的人一般处于不同的层次上。因而,学习信息检索,需要不断地根据这三个层次进行比较和对照,并加强学习和实践,努力提高检索能力。3.5.2 信息检索七准则3.5.2 信息检索七准则1. 你得到什么检索结果,取决于你怎么提问。 即课题分析的重要性和信息需求的正确表达,要求能将信息需求提取出合适的主题概念并能利用信息检索技术实现“人机对话”。 2. 去信息应该在的地方检索。 即信息检索工具(如数据库)的选择。 3. 评价你的检索结果 ―― 信息可能是真的,但内容仍然会有错的。 “尽信书则不如无书”,对检索结果的需要进行判断、选择和甄别,选取合适的内容为己所用。null4. 检索是一个多步骤的过程。 信息检索是一个不断探索和发现的过程,通过不断的“人机对话”,从检索结果的反馈中不断得到启发和提示,并采用扩展检索、缩小检索、调整检索词和检索途径等方法,甚至重新选择检索工具,最终完成检索需求。希望一个检索策略就能完成检索任务的想法显然是没有了解信息检索的精髓,任何一蹴而就的想法都与信息检索的要求背道而驰。null信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:Information Need 信息需求Query 信息提问Retrieved Objects 检出对象Indexed Objects 标引对象Document Objects 文献对象Representation 表述 Evaluation/Feedback 评价/反馈Comparison 比较匹配Representation 标引null5. 检索结果必须符合需求。 通过题名、摘要等的浏览选择合适的检索结果。 6. 咨询图书馆员。 一个人的力量总是有限的,从专业人士中获得帮助始终是不错的选择。 7. 信息本身是无意义的,只有人检索利用之后才有价值。 撰写论文吧,让信息增值。3.5.3 信息检索步骤3.5.3 信息检索步骤1.分析检索课题,明确信息需求 2.选择检索工具,了解检索系统 3.确定检索途径,选定检索方法 4.实施检索策略,评估检索结果 5.调整检索策略,获取所需信息 6.分析管理信息,合理利用信息六步进阶六步进阶第一步 分析检索课题,明确信息需求第一步 分析检索课题,明确信息需求在进行信息检索之前,必须对检索课题进行分析,明确检索目的,界定主题范围。通常我们可以从课题类型、信息的深度与广度、主题的时效性、资料的数据类型等方面进行分析。 课题的类型主要包括下面几种情况: (1)寻找针对具体问题的准确答案,或解决问题,或作为论据和引证。查找事实或数值型信息大多属于此类。 (2)查找特定文献,根据某一篇文献的线索查找原文,或已知某一作者,查询其所有发表的文章。 (3)对某一问题做大致的了解,并就问题的一个方面,表述自己的观点撰写小型论文。null(4)查阅某一专题的前沿和最新资料,了解研究动态、发展趋势。 (5)对某一课题做全面的调查研究,了解该课题的整个发展过程。全面而细致地了解国内外有关的所有出版物的情况,不仅包括书籍、期刊、报纸、报告、政府出版物,还包括声像、多媒体等新兴的载体形式。年代范围不仅包括现期的资料,也要对过期的资料进行回溯,撰写综述或研究报告。 (6)对某一课题做深入的专题研究,在充分掌握材料和该领域重要研究成果的基础上,提出创新性的具有一定学术水平的观点或论断,撰写研究报告或学术论文。null在确定了检索课题的类型之后,我们可以在此基础上确定该课题需要多少信息?查检信息的广度与深度如何?对时效性有什么要求?对信息资料的数据类型是否有所限定或侧重? 第(1)、(2)种检索课题的类型很简单,只要正确选择了检索工具和参考资源,便可以一步到位查到所需要的信息,很快地达到检索目的。有的课题(如第(3)种类型)可能只需要浏览一些简短的摘要或者参考几篇概论性文章就可以了。有的课题则需要搜罗各种翔实、深入的信息,才能圆满完成。null从主题的时效性讲,第(4)种类型的检索课题,需要最原始、最新颖的第一手资料,需要参考最新的期刊、会议资料、未发表的预印本文献;有些课题如第(5)种类型却讲求系统全面,必须以时间为轴做纵向、深度的考察。 从参考的数字信息资源类型上讲,创新性的课题项目、研究成果或要求较高的学位论文必须保证取材的数量和学术质量达到一定的深度和广度,因此第(6)种类型应着重参考各种学术品质较高的期刊论文、会议论文、研究报告、学位论文、重要专著;而有的课题则可以参考一般的图书、教材、杂志、报纸甚至视听资料。 null检索课题分析的另外一项主要任务就是明晰检索的主题内容,提取主题概念,确定中文及相应的英文检索词。同时注意挖掘隐含的主题概念,将表达同一概念的同义词一一列出,并确定主题词之间的逻辑关系。 ①根据检索课题所涉及的学科专业和技术内容选词,少数课题可直接选用课题名称中的主要概念作为检索词。null②分析主题,找出课题所包含的显性概念和隐含概念。将分析得到认为最关键的概念定为检索关键词,排除无关概念和重复概念。 ③确定包含主题概念的上位词、近义词或下位词。 ④从待检数据库和检索工具的词表中选取规范化的词或词组。 选定可能包含检索主题的组织或机构。null使用关键词作为主题概念进行检索,它的选取可以非常宽泛,只要在文章中出现过,就能被检索到。但由于是自由词,作者的使用非常随意,这就需要我们把所有可能出现的自由词都尽可能考虑完全,才不至于漏检。在检索的初期建议尽量使用。 当对问题有了一定的了解后,可选用一些规范的、被数据库生产商用来做标引的“主题词”进行检索。如对化学物质确定的课题,采用CAS登记号检索是一种既准、有全、又快的方式。此外,EI中的“EI Controlled term”和“EI Main Heading”均可以用来对主题概念进行规范。例1:检索“石油工业的废水处理”方面的文献例1:检索“石油工业的废水处理”方面的文献若用“废水处理”作为主题,概念太大,在CNKI中用篇名途径检索到36765篇。若用“石油工业”来限制也不适合,一方面“石油工业的废水处理”概念仍然太大,另一方面,一般文献会专注于具体物质,不一定会出现“石油工业”字样,这样就会造成漏检。如果知道石油工业主要排放的是毒性较大的含酚废水,那么主题概念定位在“含酚废水”和“处理”就比较恰当了。例2:车用甲醇燃料的应用情况研究例2:车用甲醇燃料的应用情况研究假定这样一个生活场景:你所在的单位主要从事车用燃料的生产和销售,近年来由于生产原料价格上涨导致利润率下降,并且有控制碳排量的要求,开始考虑结合市场形势开拓“车用替代燃料”的生产。 需要你在较短的时间内初步对目前车用替代燃料的应用情况作一个预调研,并以报告的形式提供给同事参考。这一任务该如何完成?null界定问题是信息检索的第一步 其内涵主要包括: 1.分析研究问题 2.建立背景知识 3.拟定主题概念 1)分析所研究问题1)分析所研究问题对研究问题的了解越多,所走的弯路越少明确研究问题需要查找的文献类型、学科领域、地域范围和时间阶段。 明确研究目标,以确定检索的深度和广度。null研究课题分析 ——以“车用替代燃料的应用情况研究”为例null经过初步分析之后,再进一步思考以下几个问题,可以更快、更准确地把握研究问题: 研究问题本身包含的主题概念有哪些? 研究问题中可能包含哪些子问题,涉及哪些学科领域?子问题是否过多,需要缩小研究问题的范围? 研究问题是否过于狭窄,意义不大,需要扩大研究问题的范围? 需要原始资料或经过专家学者整理过的资料?一般性信息还是学术性信息? 对信息的新颖性要求多高? 地域范围的选择是应该越宽越好,还是越典型越好?2)建立背景知识2)建立背景知识研究问题分析过程中的许多问题往往不能一步回答得比较准确 。 这时就需要通过初步的阅读和检索,建立背景知识。null阅读与研究主题相关的概览性资料,是建立背景知识的最佳渠道。 概览性资料通常出现在三次文献中,如百科全书、字词典及年鉴等参考资料中。 建立背景知识的过程往往也是辨别待解决信息问题研究的必要性及可行性的重要时机。null在本题中,如果对“车用替代燃料”的具体含义并不清楚,则需要查找资料进一步理解。 可利用网络搜索引擎如百度,用 “车用替代燃料”作检索词查得: 中长期车用替代燃料的主体将是煤基燃料、生物燃料和天然气燃料。包括煤直接液化、煤间接液化、二甲醚、生物燃料、甲醇汽油、天然气合成油、压缩天然气、液化天然气、液化石油气等。 进一步的文献研究可知,“车用替代燃料”包括的能源类型相当丰富。总体上可分为三类:一是含氧燃料(醇/醚/酯);二是合成油(BTL/CTL/GTL);三是气体燃料(甲烷气/合成气/氢气)。null?在规定的时间内能完成吗? 根据具体要求、目标和原有的知识结构我们选其中一点——“甲醇燃料”为研究对象。车用甲醇燃料的应用情况研究车用甲醇燃料的应用情况研究第二步 选择检索工具,了解检索系统 第二步 选择检索工具,了解检索系统 选择检索工具或检索系统首先要考虑其中包含的信息源是否符合课题需要,哪些是比较易得而有意义的?使用成本是可以接受的? 然后在这些可获得的检索系统中, 了解其内容特点及其检索功能,加以比较,确定优先使用的顺序。 目前常用的检索系统有: 图书馆OPAC系统、数据库系统、搜索引擎、WWW、开放存取等。null对于学术研究课题,有条件的话应尽可能利用数据库进行检索,文献质量较有保障。 如果要查找英文文献,可以优先在EI和SCI这两个综合性的文摘数据库中检索。 EI 偏重工程,不报道纯理论文献,期刊论文、会议论文收录的多。 SCI 则收录涵盖所有学科、侧重基础理论研究的文章,它的文献品味高、可信度大,并可对文章的学术价值、著者的学术水平做出评价,寻找热点课题等。null如果需要查找中文文献则可选用:中国知网CNKI、万方数据、维普资讯等数据库,都是收录量大,综合性的全文检索工具。 对于没有条件检索各种数据库的读者,Google Scholar、开放存取资源(OA)等工具也是必要的选择。null回顾一下有哪些常用的信息源?你了解它们各自不同特点,知道解决什么问题应该查找哪个或哪些信息源吗?我们来设置几个场景,你考虑一下应该查找的信息源。 场景一:查阅最近一个场次的NBA比分 场景二:要参加某家公司的面试了,想了解该公司的基本情况 场景三:想查找影评,关于一部近期上映的电影,以决定周末是否去电影院看看 场景四:写一篇关于计算机发展历史的小论文 场景五:写一篇有关商业智能系统研究现状的报告null场景六:你需要基于学术信息写一篇综述文章,该选用的检索系统应该包含下列信息源: A.学术期刊 B.杂志 C.报纸 D.文献数据库 场景七:某产品要出口到美国,需要通过包含A.标准信息 B.科技报告 C.中国专利与商标信息 D.美国专利与商标信息的检索系统来查找相关资料。 第三步 确定检索途径,选定检索方法第三步 确定检索途径,选定检索方法信息检索途径一般包括文献信息的内容特征途径和外表特征途径。 内容特征途径: 主题途径和分类途径是从文献内容特征检索文献信息的主要途径。 主题途径以主题词或关键词作为检索标识,能直接、灵活、准确地表达课题和检索提问的主要概念,能集中检索出特指内容的有关文献信息。 分类途径按照学科分类的方法,检索的学科专业系统性强。适合于学科的族性检索。 代码途径通常作为一种辅助检索途径。null主题途径:按文献信息的内容主题进行检索的途径,对课题进行主题概念分析,提炼主题概念,选择能表达主题概念的语词,确定主题词、关键词、叙词或标题词。 分类途径:按照文献信息所属学科(专业)类别进行检索的途径。对课题内容进行分类分析,按分类法进行分类,获取分类号。分类检索能较好地满足族性检索的要求,提高课题信息的查全率。null代码途径:许多文献信息具有唯一的或一定的代码,如化学分子式、结构式、化学物质登记号等。在已知代码的前提下,利用代码途径能查到所需文献,满足特性检索的需要。利用代码途径,需对代码的编码规则和排检方法有一定的了解。null外表特征途径: 外表特征主要包括题名、责任者、机构名称、文献编号以及其他特征。 题名途径是根据文献信息的题名来查找文献的途径,文献信息的题名包括书刊名称、论文名称、专利名称、标准名称等。 责任者途径是根据已知文献责任者来查找文献信息的途径。文献责任者包括个人责任者、团体责任者、专利发明人、专利申请人等。null机构名称途径:根据机构名称检索该机构出版或发表的文献信息情况,以了解和统计该机构的学术和科研成果。 编号途径是根据文献信息出版或发布时给出的编号来检索文献信息的途径。这些号码包括图书ISBN号、连续出版物ISSN号、专利申请号、专利号、标准编号、报告合同号和论文存取号等。检索方法检索方法信息检索的方法有多种,分别使用于不同的检索目的和检索要求。归纳起来,常用的信息检索方法有常规检索法、回溯检索法、循环检索法。 常规检索法。又称常用检索法、工具检索法。它以主题、分类、作者等为检索点,利用检索工具获得信息的方法。根据检索方式,常规检索法又分为直接检索法和间接检索法;根据检索需求,常规检索法又分为顺查法、倒查法和抽查法。null直接检索法:是指直接利用参考工具书进行信息检索的方法。如利用字典、词典、 手册 华为质量管理手册 下载焊接手册下载团建手册下载团建手册下载ld手册下载 、年鉴、图录、百科全书等进行检索。这种方法多用于查找一些内容概念较稳定较成熟、有定论可依的指示性问题的答案。即可解决事实性的检索和数据性的检索。 间接检索法:利用检索工具间接检索信息资源的方法。null顺查法:根据检索课题的起始年代,利用选定的检索工具按照从旧到新、由远及近、由过去到现在顺时序逐年查找,直至满足课题要求为止的查检方法。这种方法费力、费时,工作量大,多在缺少评述文献采取此法。因此可用于事实性检索。 倒查法:倒查法与顺查法相反。这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。此法查处的信息新颖,但查全率不高。null抽查法:是利用检索工具进行重点抽查检索的方法。针对某学科的发展重点和发展阶段,拟出一定时间范围,进行逐年检索的一种方法。此法检索效率较高,但漏检的可能性大,检索人员必须熟悉学科的发展特点。null回溯检索法。又称追溯法、引文法、引证法、是一种跟踪查找的方法。即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。在没有检索工具或检索工具不齐全的情况下,利用此法能够获取一些所需要的文献资料,但往往查全率不高,回溯年代越远,所获取的文献越成旧。这类检索工具著名的有美国的《科学引文索引》《社会科学引文索引》《艺术和人文科学索引》,中国的有《中国科学引文索引》、《中国社会科学引文索引》。null循环检索法。又称交替法、综合法、分段法,检索时,先利用检索工具从分
本文档为【信息检索概论03-基本原理】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_256556
暂无简介~
格式:ppt
大小:1MB
软件:PowerPoint
页数:0
分类:理学
上传时间:2011-04-16
浏览量:64