首页 信息检索-数字信息检索概论

信息检索-数字信息检索概论

举报
开通vip

信息检索-数字信息检索概论null第三讲第三讲数字信息检索概论null 2.1 检索的概念及原理 2.2 检索语言 2.3 检索工具概述 2.4 检索方法及检索途径 null 2.1 信息检索的概念与原理一、信息检索的基本概念 狭义:是指依据一定的方法,从已经组织好的大量有关文献信息集合中,查找并获取特定的相关文献信息的过程。 广义:将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。 null信息检索的类型(根据不同的检索手段): 手工检索:利用目录、索引、文摘等手工检索工具 光盘检...

信息检索-数字信息检索概论
null第三讲第三讲数字信息检索概论null 2.1 检索的概念及原理 2.2 检索语言 2.3 检索工具概述 2.4 检索方法及检索途径 null 2.1 信息检索的概念与原理一、信息检索的基本概念 狭义:是指依据一定的方法,从已经组织好的大量有关文献信息集合中,查找并获取特定的相关文献信息的过程。 广义:将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。 null信息检索的类型(根据不同的检索手段): 手工检索:利用目录、索引、文摘等手工检索工具 光盘检索:中国大百科全书、不列颠大百科全书 联机检索:dialog 网络检索:数据库、搜索引擎、OPAC 网络检索是信息检索的发展方向,我们目前最常用的也是网络检索,因此我们这门课程主要讲授的就是网络检索。null 信息检索的类型(根据不同的检索对象): 一、数据检索: 检索的结果是数据。如某种材料的电阻;某变压器的参数;化学分子式、数据图 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 等(手册), 某地方GDP增长情况(年鉴) 二、事实检索: 检索的结果是事实结论。查询某一事物(事件)的性质、定义、原理以及发生的时间、地点过程等。如某产品是哪个厂家生产,哪个牌子的最好;第一颗人造卫星是什么时候升空的(年鉴) 三、文献检索: 检索的结果是文献资料。查找相关文献的内容、出处、收藏单位等。如系统地查找信息检索方面的相关文献(论文) 文献检索是信息检索的一种最基本的、最主要的形式。四、文献信息检索语言四、文献信息检索语言 思考:信息检索就是从一定的文献集合(即检索系统)中查找出符合特定需要的文献,那么这个过程是如何实现的呢?null标引检索输入存储 过程一次 信息信息 特征信息特征 标识检索 过程检索 课题检索 提问检索提问标识分析分析标引输入图2-1 信息检索原理图信息检索语言检索系统存储信息与检索信息所依据的规则不一致null 2.2 检索语言 检索语言是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。 null 1.检索语言的主要作用: ①标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性; ②保证检索提问与文献信息标引的一致性; ③使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索; ④提供检索入口即检索点,如著者、分类号、主题词、关键词等;保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。 2.信息检索语言的种类2.信息检索语言的种类检索语言按规范化程度划分:自然语言和受控语言 自然语言:信息检索系统中使用的标引词直接来自文献和用户提问而不加控制的一类检索语言,主要依赖于计算机自动抽词技术完成。 关键词:直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。 题名:信息资源的名称,如论文篇名、网站名称等。 全文:从资源的内部内容中自动抽取、查找,是目前网上各类搜索引擎使用的最多的方法。 引文:将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。 自然语言的应用以计算机为前提,否则,自然语言检索将难以实现。 2.信息检索语言的种类2.信息检索语言的种类 受控语言:标引词来自文献或者用户,并受到信息检索系统的控制的一类检索语言的总称,又叫规范化语言,可以将同义词、近义词、多义词及缩略词规范在一起,由人工控制,主要包括分类语言和主题语言。信息检索语言 按照其结构原理来划分,信息检索语言主要有 : 信息检索语言 分类语言 名称语言 主题语言 代码语言 引文语言 等级体系分类语言 分面组配分类语言 标题词语言 元词语言 叙词语言:自行车、脚踏车、单车——自行车 关键词语言null 检索工具是人们用来存储、报道和查找各类信息的工具 。 按著录信息的特征划分 著录是指编制检索工具时对文献的内容和形式特征进行分析、选择和记录的过程。 目录型检索工具 文摘型检索工具 索引型检索工具 全文型检索工具 一、检索工具的定义及类型2.3 检索工具概述1、目录型检索工具1、目录型检索工具按收录的范围可分为:国家书目、联合目录、馆藏目录、出版社目录。 作用: 了解本学科的研究历史和研究现状。 通过古今种类书目,可查寻与研究课题密切相关的事实和资料。 null各时期有代表性书目: 《四库全书总目提要》、《民国时期总书目》、《中国国家书目》、《全国总书目》、《全国新书目》。 联合目录主要有:OCLC联机目录和CALIS联合目录。 OCLC(联机计算机图书馆中心)是世界上最大的提供网络文献信息服务和研究的机构。 CALIS(中国高等教育文献保障系统)提供以中国高等教育数字图书馆为核心的中国高校图书馆联合目录。2、文摘型检索工具 2、文摘型检索工具 特点:具有摘要。如: 《中国生物学文摘》、美国《化学文摘》 null图2-2 EI的一例文摘3、索引型检索工具3、索引型检索工具 索引一般是附在专著或年鉴、百科全书等工具书之后以及收录内容较多的二次文献之后,按主题词、人名、地名、事件、概念等内容要项编排,按其内容可分为主题索引、分类索引、关键词索引、引文索引。 图2-3 《中国大百科全书》的一例索引4、全文型检索工具特点:提供全文下载4、全文型检索工具null 按载体划分: 计算机检索工具 电子图书、网络版期刊库、专利文献、学位论文数据库。 印刷本检索工具 百科全书、手册、统计资料、年鉴和各个专业的文摘、索引,还有提供检索依据的分类表和主题词表。 目前的电子版图书与印刷版图书相比没有明显优势,特别是古籍的电子版图书还不能代替纸本图书。 按所收信息的学科内容划分: 综合性检索工具 我国的综合性数据库其加工深度不及专业性检索工具,检索途径少。 专科性检索工具 能够比较集中、迅速准确和全面地反映某学科领域的最新发展状况和最前沿的科研水平。详细完整的专业信息极具针对性。 二 、检索工具的选择二 、检索工具的选择考虑学科范围、信息类型和数据量 【例题】用____检索α-呋喃甲醇羧酸酯的合成、含有碳和氢元素的化合物的英文综合学术性文献。 A.外文Elsevier数据库 B.外文农业类CAB文摘数据库 C.外文农业类AGRICOLA数据库 D.外文食品科技文摘数据库FSTA 了解收录的文献类型 【例题】已知参考文献:徐经长等.国际会计学.中国人民大学出版社.1999.要找原文,使用____检索《国际会计学》。 A.中文科技期刊数据库 B.中国人民大学报刊全文数据库 C.国务院发展研究中心 D.图书馆的馆藏查询 信息网 null【例题】使用——检索中国专利:CN03250961.8苗间除草机构密封传动箱。 A.维普中文科技期刊数据库 B.图书馆馆藏查询 C.中国人民大学报刊全文数据库D.中国国家知识产权 大 局专利数据库 E.中国国家科技图书文献中心(NSTL)null【例题】用——检索编号是GB/T17302.2-1998的文献 A.中国国家知识产权局 B.中国国家科技图书 专利数据库 文献中心(NSTL) C.国务院发展研究中心信息网 D. 中国 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 信息服务网null考虑信息的时间范围 同一个数据库版本不同,时效性也不一定相同。 例如清华大学图书馆收藏的《 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 索引》(EI)各种载体及馆藏的简况比较: 印刷版(EI)月刊,年度更新,收录文献源2600种,馆藏年限1968-1996。 光盘版(Ei Compendex)季度更新,收录文献源2600种,馆藏年限1970—1997年。 网络版(Ei CompendexWeb)包括光盘版(Ei Compendex)和Ei PageOne两部分,半月更新,收录文献源5000种,馆藏年限1970至今。 因此网络版(Ei CompendexWeb)信息更新最快,量最大。三、检索方法三、检索方法1.常规法: 所谓常规法就是利用常规检索工具查找有关文献的方法 顺查法、倒查法、时间抽样法 2.引文法 就是查找参考文献的方法。由远及近地搜寻 ;由近及远地追溯 3.交替法 引文法和常规法结合四、检索途径 四、检索途径 1、主题途径 2、分类途径 3、责任者/著者途径 4、号码途径 null【什么是主题】 主题“是一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题”,即文献的“中心内容”。 【什么是主题词】 表达主题概念的词汇就是主题词。 狭义的主题词仅指叙词 ; 广义主题词可以分为规范词汇和自由词汇,包括标题词、单元词、叙词、关键词。 【主题词的规范】 同义词(近义词)、多义词(一词多义)和相关关系词的规范化处理。 1、主题途径(3)主题途径的优缺点(3)主题途径的优缺点1)优点 适合特性检索,查准率高 【实例】主题词“C语言—程序设计”就比分类号TP312表达得更准 2)缺点 通常不适合族性检索,查全率比分类号低。 【实例】计算机类词典采用“计算机”、“词典”等词组合检索,不如用一个分类号“TP3-61”检索的数量多。 由于很规范,非专业人士难以掌握。 【实例】图书《C++ Builder5程序设计》应该用“C语言—程序设计”作为主题词。 null【获取主题词的技巧】在图书的版权页可以找到在版编目里面的主题词和分类号码。或者在图书馆的馆藏数据找到主题词。例如查找《C++ Builder6实用编程100例 》一书在图书馆的馆藏数据中可以找到主题词是“C语言—程序设计”等。 【实例】版权页样例如右图所示2、分类途径2、分类途径(1)图书期刊分类法 (2)专利分类法 (3)标准文献分类法 (4)分类途径的优缺点 (1)图书期刊分类法 (1)图书期刊分类法 世界三大图书分类法: 《杜威十进分类法》(DDC)(Dewey decimal Classification) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification) 中国图书分类法: 《中国图书馆分类法》(中图法) 《中国科学院图书馆分类法》(科图法) 《中国人民大学图书馆分类法》(人大法)null《中图法》介绍《中图法》——《中国图书馆分类法》,以学科来组织知识,将全部知识领域划分为5个基本部类,22大类。 五大部类分别为: 马列主义、毛泽东思想; 哲学; 社会科学; 自然科学; 综合性图书。 nullA 马克思主义、列宁主义 毛泽东思想、 邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书U1 综合运输 U2 铁路运输 U4 公路运输 U6 水路运输 [U8] 航空运输U41 道路工程 U44 桥涵工程 U45 隧道工程 U46 汽车工程 U48 其他道路 运输工具 U49 交通工程与公路 运输技术管理U441 结构原理、 结构力学 U442 勘测、设计 与计算 U443 桥梁构造 U444 桥梁建筑材料 U445 桥梁施工 U446 桥梁试验观测 与检定 U447 桥梁安全与 事故 U448 各种桥型 U449 涵洞工程图 2-4 《中图法》结构示意图简表马列哲学社会科学自然科学综合基本大类详表nullT类又可分为以下几类 TB 一般工业技术 TD 矿业技术 TE 石油、天然气工业 TF 冶金工业 TG 金属学、金属工艺 TH 机械、仪表工艺 TJ 武器工业 TK 动力工程 TL 原子能技术 TM 电工技术 TN 无线电电子学,电信技术 TP 自动化技术,计算机技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑科学 TV 水利工程 null 《中图法》从大类到小类,层层展开,不断细分,形成完整的知识体系。 例如: 关于红楼梦研究资料的分类为 I207.411 I 文学 I2 中国文学 I207 文学评论和研究 I207.4 小说研究 I207.41 古代小说研究 I207.411 《红楼梦》研究与评论 null 有关互联网的知识分类为TP393.4 T 工业技术 TP 自动化技术 计算机技术 TP3 计算机技术 TP39 计算机的应用 TP393 计算机网络 TP393.4 国际互联网null【例题】《哲学辞典》类号为:B-61 【例题】《法国的货币与银行 》的类号为:F825.65【例题】通过分类途径检索有关“会计检查和监督”的期刊论文 【例题】通过分类途径检索有关“会计检查和监督”的期刊论文 【题解】 (1)分析课题属于经济大类,具体是会计学。 (2)时间要求一般是10年。 (3)选择检索工具维普《中文科技期刊数据库》 (4)确定检索途径 采用具有族性检索功能分类途径。 (5)确定检索标识 此处的检索标识就是准确的分类号。    通过维普《中文科技期刊数据库》的“分类检索”可以更快捷地检索分类号。null结果如下: F23会计 F230 会计学(簿记学、会计核算理论入此) F231 会计簿记方法 F231.1 资产负债表 F231.2 复式记帐和帐户 F231.3 会计凭证和财产清查 F231.4 帐簿和记帐技术 F231.5 会计报表 F231.6 会计检查和监督   确认 “会计检查和监督”的分类号是“F231.6”。  (6)检索  在分类号字段输入“F231.6”就能检索出期刊论文。 (2)专利分类法 (2)专利分类法 专利类法是根据专利的功能(效果)或其用途所属的行业部分来分类,目前,世界上大部分国家采用国际专利分类法(International Patent Classification,简称IPC)国际专利分类法(简称IPC), IPC适用于发明和实用新型专利的分类。第 2 讲 信息检索基础 IPC分类简表 第 2 讲 信息检索基础 null(3)标准文献分类法 世界各国的标准分类法同文献资料分类法类似,或以数字为标记、或以字母为标记、或以字母和数字混合为标记。 我国的标准分类法采用混合标记,一级类目以专业划分,用字母表示类号,二级类目采用等级列类方法用双位制数字表示。排检时先按照字母顺序,大类相同再按双位数字顺序排列。中国标准分类法(Chinese Classification for Standards,简称CCS) 【部分分类】 (4)分类途径的优缺点(4)分类途径的优缺点1)优点 (1)族性检索,查全率较高。 (2)按照人们认识事物的习惯,以学科分类为基础,容易被人们接受和应用 【例题】检索英语会话类辞典,例如《美国语会话百科》、《英语会话大全》、《现代英汉生活用语图解词典》,请选择,哪种检索途径才能够同时查出这3本书? 【选项】 A.用关键词“会话”和“词典” B.用中国图书分类号H319.9-61 C.用书名“英语会话”和“大全” D.用书名“英语会话”和“词典”null 2)缺点 (1)不适用于特性检索,查准率比主题词低 (2)不能适应学科发展中的变化,难以反映新学科和新名词术语 【实例】食品风险分析是保证食品安全的一种新模式,同时也是一门正在发展中的新兴学科。风险分析的目标在于保护消费者的健康和促进公平的食品贸易。目前的文章在分类上暂时归入[ R155.5 ] 食品卫生与检验和[ TS201.6 ] 食品安全与卫生。没有一个专门的“食品风险分析”分类号。 3、责任者/著者途径3、责任者/著者途径英文版著者索引中人名规则 1.按姓、名次序排列。 2.同姓名著者,先按名字的首字母顺序排列,不全者排在全者之前,单名排在双名之前,简名排在全名之前。 3.复姓作者,将复姓作整体看待 4.团体著者也同个人著者一样,按团体单位名称的字顺排列。 【实例】Arrow B. Smith 著录为: Smith , Arrow B. 【实例】Smith,Amey Smith,A.A Smith,Alice Amey【实例】Margaret Martin-Smith著录为: Martin-Smith, Margaretnull5.翻译为英文的中国著者姓名 (1)翻译的规则 分为音译和意译。中国著者姓名和团体机构名称的音译,一般用汉语拼音。 【实例】原西南师范大学在欧洲专利数据库就有三种写法:Southwest China Normal University Southwest Normal University Xinan Teachers, University 有的数据库例如《工程索引》常将University缩写成Univ。 null(2)拼写形式 【例题】在英文数据库检索作者“金长青”的论文,作者名除了“Jin, ChangQing”还有其他拼写形式? 【题解】Jin, Chang-Qing JinCQ Jin, C.Q Jin, C.Q. Jin, C.-Q 4、 号码途径 4、 号码途径 常见的号码索引: ISBN号、索书号、ISSN号、专利号、入藏号、报告号、标准编号 常见的专用符号代码索引: 元素符号、分子式、结构式等 常见的专用名词术语索引 地名、机构名、商品名、生物属名等 注:索书号 :由两部分组成,中间用空格隔开。 第一部分是根据图书的学科主题所取用的分类号码。 第二部分是按照图书作者姓名所编排的著者号码,或者是按照图书进入馆藏时间的先后所取用的顺序号码。种次号中图分类号 nullThank You !
本文档为【信息检索-数字信息检索概论】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_647848
暂无简介~
格式:ppt
大小:836KB
软件:PowerPoint
页数:0
分类:工学
上传时间:2012-08-22
浏览量:110