首页 情报检索语言研究综述

情报检索语言研究综述

举报
开通vip

情报检索语言研究综述情报检索语言研究综述 80国家图书馆学刊2004年第3期(总第49期) 画被瀛 情报检索语言研究综述 沙淑欣 摘要从人工语言研究,自然语言研究,网络情报检索语言研究,自然语言与人工语言一体化研 究,兼容与互换问题研究及其他方面问题的研究六个方面对2000年至今有关检索语言方面 的文章 进行梳理,以呈现新世纪情报检索语言研究的全貌.参考文献36. 关键词情报检索语言人工语言自然语言网络环境兼容 分类号G254.0 检索语言是信息交流的工具,是知识组 织的中心环节,是信息用户开启信息资源的 钥匙...

情报检索语言研究综述
情报检索语言研究综述 80国家图书馆学刊2004年第3期(总第49期) 画被瀛 情报检索语言研究综述 沙淑欣 摘要从人工语言研究,自然语言研究,网络情报检索语言研究,自然语言与人工语言一体化研 究,兼容与互换问题研究及其他方面问题的研究六个方面对2000年至今有关检索语言方面 的文章 进行梳理,以呈现新世纪情报检索语言研究的全貌.参考文献36. 关键词情报检索语言人工语言自然语言网络环境兼容 分类号G254.0 检索语言是信息交流的工具,是知识组 织的中心环节,是信息用户开启信息资源的 钥匙,其重要性得到学术界及全社会的普遍 重视.有关检索语言的研究一直是图书情报 学,语言学,计算机科学共同关注的领域.现 对2000年至今有关检索语言方面的120余 篇(不包括《中图法》方面的文章)学术论文进 行梳理,以明确新世纪情报检索语言研究的 现状,成就,热门研究课题及其发展趋势. 1人工语言研究 对于高要求的检索来说,控制是绝对必 要的.人工语言就是对概念及其标识系统实 施严格 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 的检索语言.人工语言按其结构 原理可分为主题语言,代码语言三 分类语言, 种类型.近四年来对这方面研究的文章较 少,且主要集中在网络环境下的知识分类组 织,情报检索语言发展趋势,分类主题一体化 以及对《中图法》的研究上. 1.1分类法理论与实践研究 情报检索语言中的受控语言最初是为克 服很早就被纳入了情报检索语言系统的自然 语言的不足而产生的?.自汉代刘向,刘歆 的《七略》算起,图书分类法已经有2000多年 悠久的历史,而且分类语言是现今所有情报 检索系统中使用最普遍的一种检索语言.新 世纪,除少量文章对国内外其他分类法做比 较粗浅概略的介绍外,大多数文章围绕《中图 法》展开.据不完全统计,相关文章有360多 篇,包括《中图法》与其他分类法的比较研究; 各学科文献分类研究;《中图法》类目复分,组 配技术,标记体系,类目修订,类目注释等研 究.韩立栋在《<中图法>(第四版)问题述 评》一文中,分析了《中图法》(第四版)中存在 的类名问题,仿分问题,沿革注释问题,总论 复分号问题及印刷中的错误,并指出了相应 的解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 及措施.罗雅琴在《(中图法)第 四版研究述评》中对《中图法》进行了内容分 析和重点问题述评.指出,《中图法》第四版 从总体上看是《中图法》实施以来修订最成功 沙淑欣:情报检索语言研究综述81 的,其科学性,实用性都有很大的提高. 情报检索语言,尤其是分类表的电子化 是当前检索语言发展和应用的关键领域,它 不仅直接影响到分类法在网络环境中的使用 能力,同时也关系到分类理论和技术的探讨. 检索语言联机显示的方法主要有:按字顺显 示词和词频;合成词表显示;按等级关系显示 词族;图形显示;类号和主题显示.对我国 第一部电子分类法——《中国图书馆分类法》 电子版的介绍是一个热点.《中图法》电子版 的问世标志着我国分类法的研究和应用进入 了一个崭新的阶段,必将对我国文献信息处 理自动化系统的发展起到巨大的推动作用. 《中图法》电子版的特点主要有:完整的数据 格式;方便的显示和浏览功能;完备的检索和 统计功能;通用的编目接口;实用的评注功 能;方便友好的用户界面;为主题检索的兼容 留有余地J.在《中国法》电子版的各项功能 中,其强大的检索功能尤其是印刷版所无法 比拟的,它提供两种检索方式:一是通过类目 树直接进行浏览检索,二是通过在检索栏中 输入相关项来检索.《中图法》电子版的问 世虽然是我国分类法研究和应用的一个里程 碑,但它也存在临近类目框编排格式;”剪贴 板链接口”的 使用说明 爱威a9效果器使用图word使用说明在哪儿钻床数控系统用户手册玻璃钢风机使用说明书控制器用户说明书 问题.开发,研制 《中图法》web版有其现实意义及有利条件, 可在《中图法》电子版的基础上,增加Web接 口,将原有界面形式更改为能在网络环境下 使用的HTML形式.对《中图法》数字化的 研究是其未来发展走向,一方面要采用现代 化的改造技术,克服其目前已呈现出来的各 种弊端,另一方面还要博采众家之长,从整体 上达到最佳效果-s. 1.2分类主题一体化研究 分类主题一体化语言,实质是人工语言 内部的一体化,是检索语言发展的重要趋势 之一.基于共同点结合的这一体系,不但能 从学科分类的角度揭示主题概念的系统关系 和等级关系,而且能从主题角度充分揭示主 题概念的相关关系,同一关系及组配关系,实 现概念的扩检和缩检功能,使得一体化词表 的整体功能高于它的各个部分(如分类表,叙 词表)功能的总和.分类主题一体化词表 包括分面叙词表,分类主题词表,集成词 表?...分类表——叙词表对照索引式一体 化检索语言的实现成果是《中国分类主题词 表》;分类法主题法一体化新模式的实现成果 是《社会科学检索词表》…,分类主题检索语 言两者结合的优势使互联网上也需要向用户 提供分类主题一体化的检索功能,即在特定 的知识范畴内进行字顺检索和用特定的类限 定字顺检索.此外,不少文章还讨论了分 类主题一体化理论的可行性,必要性,优越性 及其研究态势. 2自然语言研究 自然语言在情报检索中的应用是情报检 索语言领域在受控语言占绝对统治地位时代 的重大变革.文榕生指出,”回顾检索语言的 嬗变,十分突出的一点就是存在螺旋上升形 式的返朴归真现象o,,[133自然语言的重新被 重视及其快速发展是与计算机技术,网络环 境密不可分的.”利用自然语言和计算机技 术的结晶,实现检索语言的智能化,将是21 世纪情报语言学的发展方向.”„网络环境 下,检索语言必朝着自然语言,用户界面友好 的方向发展.” 在研究自然语言的文献中,对自然语言 优缺点的介绍是其必不可少的一部分.自动 标引在打破了词表的桎梏的同时也加大了选 词的盲目性,尤其是给集体标引和联机标引 中的标引一致性带来了麻烦,也为文献的交 流造成了障碍?.自然语言在情报检索中 有无标引,自动标引,人工标引三种方式. 但由于自然语言自身的缺陷,其在情报检索 中面临两个难题:一是如何从自然语言文本 中抽出最能准确,充分地表达文献有价值内 容的词,以及这些词与检索课题有效匹配的 问题.二是克服自然语言由于不规范和缺乏 语义关联性而对检索不利的问题.面对 82国家图书馆学刊2004年第3期(总第49期) 难题,此时,情报检索的基本原理——对词汇 的控制,成为提高信息检索质量的重要手段. “受控的自由化结构是情报检索语言实现结 构发展的必然方向.”“现阶段理想的网络 情报检索模式如下:以自然语言检索为主,同 时辅以必要的先控制手段和后控制方法”. 先控制是在自然语言检索要求输入系统之前 和输入时进行控制,目的在于改善自然语言 “先天词汇控制不足”的问题.包括:粗标引, 利用自然语言接口用对应词表.后控制是指 在自然语言检索要求过程中和输出时进行引 导和控制所采取的手段和方法?加,即”自由 标引+后控词表”有机结合的混合系统,或 “简略的人工语言标引+自然语言检索+较 完善的后控技术控制结果”模式.后控制 词表的性质类似于入口词表,是一种转换工 具,是一种扩检工具,是一种罗列自然语言检 索标识供选择的工具.薛山顺在《网络时 代的文献检索与后控词表》中对后控制词表 的作用,建立及其对检索词的控制做了介绍. 此外,姚佳梅在《基于自然语言理解技术 的网络检索》一文中指出,解决自然语言检索 的核心技术是自然语言理解技术,分析了这 项技术与网络检索相结合中存在的问题. 3网络情报检索语言研究 信息网络化与全球信息化是情报检索语 言在当前面临的新的社会环境,在这种环境 下,资源依然需要组织,整理,描述和控制. 面对新环境,情报检索语言需开拓研究思路. 3.1网络信息分类组织研究 分类法与主题法是各种网络信息资源最 主要的组织和揭示工具,其中尤以分类法的 应用前景更为看好.对网络信息分类体 系的研究多从搜索引擎自身分类体系的不完 善引入,这种不完善主要与分类 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 不统一, 网络术语不规范有关.网络信息检索系统使 用的分类法类型基本可划分为两种:一种是 采用文献信息工作中所使用的文献分类法, 另一种是由各检索系统依据自身的特点自行 编制.由此,对网络信息分类体系进一步 发展的意见,建议及设想成为这一专题研究 的重点.傅欣,李伟指出,”搜索引擎的分类 只有在分析用户检索需求的基础上,适应计 算机网络化发展的趋势,并充分汲取已有的 传统分类体系的优点,不断改进,提高目录分 类式搜索引擎分类体系的科学性,使其日臻 完善,才能更好地为广大客户提供方便,快捷 的服务.”陈树年认为,建立网上信息的知 识分类系统,必须遵循面向网络信息资源,面 向网络技术环境,面向网络用户的原则,突出 其实用性和易用性.王知津,肖洪论述的 网上信息知识分类体系包括,有一个涵盖各 知识领域,结构清晰,层次简明,能满足网上 信息组织需要的分类体系;采用等级结构展 示知识的系统联系,构成枝干分类的主题树 或脉络清晰的地图;采用对用户最有利的排 列次序J.刘延章在对1998--2002年间涉 及网络信息分类组织的162篇文章进行研究 的基础上,汇总各家的意见和看法,并陈述自 己的观点.他认为,《中图法》不适合用于组 织网络信息;建立全国统一的中文通用网络 信息分类法是当务之急;编制网络信息分类 法必须把实用性和易用性放在第一位;只有 将自然语言和人工语言有机地结合在一起, 才能编制出高质量的网络信息分类法. 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 网络信息分类体系方案是对网络信 息分类组织研究的深化和理论与实践相结合 的表现.虽然其实用性尚待考证,但无疑为 网络信息分类的统一和规范提供了可资借鉴 的参考.梁树柏在文献语言因特网民化思想 上,设计了一个因特网简明分类法参考大纲. 该大纲坚持全球范围内求同存异原则和客观 发展原则,列出70多个一级类目,涵盖今后 存现的各种学科,分别归入9个门.这个参 考大纲期于既适合一般用户,又适合学术和 技术用户J.吴丹在科学性,易用性,针对 性,动态性原则指导下的网络信息分类大纲 包括18个一级类目.陈树年的适用于面 向一般用户的综合性中文搜索引擎的网上中 沙淑欣:情报检索语言研究综述83 文信息分类大纲包括22个一级类目. 分类法在网络信息组织与揭示中的应 用,还有待解决以下方面问题:机读化;兼容 性和国际通用性;分类主题一体化;利用新技 术,新方法改造原有的分类法,提高分类法描 述网上信息主题的能力;分解和分段标记化 分类法的先组类号;情报语言易用性的研 究圳. 3.2其他网络检索语言的研究 按事物的概念(主题)组织,按语词查询 是主题语言的特点,它包括标题词语言,单元 词语言,叙词语言,关键词语言.主题检索语 言的前三种因庞大,繁杂及标引难度大逐渐 失去了手工检索时代的魅力,只有关键词语 言(即自然语言)日益受到网络信息检索工具 的重视.对引文语言介绍的文献也非常少, 只有丛石在《三种信息检索语言的功能及其 应用》一文中提及. 4自然语言与人工语言一体化的研究 满足系统内部高度规范化与外部用户接 口高度自由化的语言是自然语言与人工 语言结合的一体化语言,有学者将其称为第 四种情报检索语言.张琪玉老师指出, “情报检索用语言发展的大趋势,是情报检索 语言的自然语言化和自然语言的情报检索语 言化,是两者的初级结合到完全融合的过 程.”严峰也认为,”人工创制的检索语言 与自然语言的和谐统一是一种检索语言变化 趋势.”对自然语言与人工语言一体化的 探讨,是当前情报检索语言研究最热门也最 有发展前景的领域. 第四种情报检索语言的产生是人工语言 向易用方向发展的必然,是用户在网络环境 中浏览——检索式检索行为的客观需求,有 自我学习的知识库及完善的专家系统功能的 该语言恰恰满足了用户信息需求的变化引. 人工语言与自然语言和谐统一是人工语言的 “回归”,同时也是自然语言向人工语言的”回 归”.二者和谐统一的实质是对概念词汇控制 的科学性,规范化程度上及方法上的研究与 创新J.固定的概念代码是第四种情报检 索语言系统的主体,其最典型的两个范例是 《军用主题词表》应用管理系统(EMT)和一体 化医学语言系统(UMI_S).EMT是我国也是 世界上最大的一部系列化的《军用主题词表》 应用管理系统,由于《军用主题词表》的字顺 表与5个索引(范畴,词族,轮排,英汉对照, 主题释义词典)的对应表编制完善,使互联显 示浏览得以实现;同时,由于词素数据项的增 加,使EMT中用自然语言标引和检索得以实 现.UMLS是由美国国立医学图书馆(NLM) 主持,有多学科专家参与研制的一个自然语 言处理系统.柏J.此外,林青还从关键词法和 叙词法二者的理论逻辑关系出发,提出建立 “关键词法一叙词法链接模型”,该模型主要 是在二者之间建立一个包括转换程序软件和 词库的非控词系统. 在分类法与主题法一体化,自然语言与 人工语言一体化基础上提出的分类语言,主 题语言与自然语言一体化是张琪玉老师对检 索语言领域的又一贡献.三种语言一体化的 原理是在类名(或分类号),主题词,关键词之 间建立对应关系,以便互相转换,互相控制. 编制关键词一主题词一类名对应表是实现三 种语言一体化的核心技术.其可能的模式有 以等级体系型分类检索语言(体系分类法)作 为标引用语言的一体化模式;以主题词型主 题检索语言(叙词法)作为标引用语言的一体 化模式;以自然语言(关键词法)作为标引用 语言的一体化模式;以使用关键词抽词词典 自动抽取的关键词作为标引用语言的一体化 模式,从标识的专指度,灵活修改的自由度, 标引质量综合考虑,第三种模式是较好的选 择].在文章的最后.张琪玉老师还对三种 语言一体化检索系统的实例《中国财经报刊 数据库》进行了介绍. 5兼容与互换问题研究 实现检索语言的兼容就是要找到一种方 84国家图书馆学刊2004年第3期(总第49期) 法,使具有不同标识,结构,物质载体的类表 和词表的成分互相联系起来.兼容与互换, 是提高检索效率,实现资源共享的一个重要 条件.分类主题一体化,人工语言与自然语 言一体化,三种语言一体化都属于检索语言 兼容的研究.佘诗武,江汶认为,”如果把情 报检索语言当作一个系统来加以研究,开发 出专业化情报检索语言系统,再在此基础上 结合各系统,各环境的特点开发出相应的应 用程序,则能很好地解决情报检索语言兼容 性差的问题.”4王建平提出,务实的研究大 多集中在实现各种情报检索语言的相互兼 容,实现兼容的方法主要有两种:一是创造兼 容的词表或词库,二是利用计算机系统的功 能,实现机读词表的联合和混合显示J.郑 贵宇在介绍国内外检索语言兼容现状后,提 出检索语言国际兼容对策,包括翻译国外流 行的检索语言,编制多语种检索语言,编制中 外主要检索语言之间对应转换工具,积极采 用国际标准,编制中外主要自然语言之间的 对应转换工具. 计算机网络环境下的兼容与互补已不是 传统意义上的兼容与互补,表现在:在手工操 作环境的题名与分类两个检索途径基础上实 现检索语言量的扩展;文献数字化根据对等 与并列原则就可实现兼容. 对兼容互换工具的设计,侯汉清,薛春香 在《中文搜索引擎分类体系兼容互换工具的 设计》一文中指出,”虽然我们不能要求各系 统采用统一的分类体系,但是能够通过采用 一 定的中介系统实现不同体系之间的转换, 这对于用户和搜索引擎服务提供商都是能够 接受的.”他们设计以《中图法》类号作为兼容 互换基础,建立各个体系间的对应关系. 6其他方面的研究 6.1学科建设研究 情报语言学学科的框架体系通过张琪玉 先生的《情报检索语言》这一理论专着的产生 而构建.当前,情报检索语言的生存环境出 现网络化发展趋向,研究的领域,前沿问题也 随之发生变化,必须把网络信息组织的情报 语言问题纳入情报语言学的学科体系之 中蚰.此外,情报检索语言还应在概念更 新,拓展研究对象,改进研究方法基础上加强 学科建设. 6.2研究方法的研究 传统检索语言研究多使用定量,定性,分 析,综合,比较等方法,为全面研究,系统探讨 组织知识与揭示信息,还应将归纳法,演绎 法,语言分析,矩阵算法,控制论,逻辑方法, 实验比较,计算机科学分析,面向对象,人工 智能原理与方法等引人情报语言研究J. 6.3新技术的研究 计算机技术的应用是情报检索语言发生 深刻变化的主要动力.借助于计算机,语言 学,统计学,认识论等学科和领域的知识,继 续加强自动标引,自动分类,自动摘要,自然 语言理解,智能情报检索等方面研究的力度 是重中之重. 6.4创新的研究 创新是科学研究的灵魂,情报检索语言 亦需在创新中不断发展.梁树柏借鉴ontolo— gY思路,提出大众分类板——分类口岸设 想,以应急于信息检索的过渡性需要.具体 做法是:设计一个人口式信息界面,在信息文 献进互联网前,也就是在计算机及信息家电 开启时,先出现一个说明,即以其内容为根据 的分类号和版权两项说明的简单对话框,让 网页作者填写,经过这个对话框注册的信息 才能进入网络.分类口岸是从源头人手,有 效地控制信息泛滥的一种设想. 伴随新世纪的到来,国内学者已越来越 重视对情报检索语言的研究,特别是检索语 言的一体化,网络信息分类组织,兼容与互补 的研究,并不断扩大研究的范围,注重理论创 新与实践应用相结合.但从总体来看,研究 的深度和系统性仍待加强.今后,随着计算 机网络的进一步发展,自动标引,自然语言理 解,智能情报检索,国外先进理论技术介绍方 沙淑欣:情报检索语言研究综述85 面的研究需引起重视.同时,需以现有检索 语言专业学生和核心作者为基础,培养一支 高水平的研究队伍,并积极争取国家有关部 门的重视与支持,以将理论研究成果更好地 应用于实践,加强规范,服务社会. 参考文献 l,20陈晶.论网络环境下情报检索语言的发 展.情报杂志,2o02(6) 2罗雅琴.《中图法》第4版研究述评.图书馆学 研究,2o02(1) 3,44王建平.网络(联机)环境中情报检索语言 的几个问题.情报科学.2000(4) 4陈树年.我国第一部电子分类法——《中国图 书分类法》电子版的功能与特点.图书情报工 作,2002(3) 5柳丽花.《中图法》电子版的检索功能.国家图 书馆学刊,2003(1) 6周欣,于新国.《中图法》电子版的应用技巧与 问题续谈.图书馆学研究,2003(9) 7贺定安.论我国Web版分类法的研制开发.中 国图书馆学报,2o03(3) 8黄筱玲,宋少华.对《中图法》未来发展走向的 思考.图书馆,2003(3) 9,39,43佘诗武,江汶.网络环境下情报检索语 言的发展趋势初探.情报杂志,2001(10) l0,l2武琳.网络环境下分类法主题法一体化的 发展.津图学刊.2003(4) ll,47余晓寒.对于中国情报检索语言发展脉络 的探究.国家图书馆学刊,2002(1) l3文榕生.论网络与数字化环境的检索语言发展 趋势.四川图书馆学报,2002(6) l4纪纯.自然语言在情报检索中的作用和地位. 高校图书馆工作,2002(3) l5吴慰慈.网络环境下信息存贮与检索技术的发 展.四川图书馆学报,20o3(1) l6郭晓兰.文献数字化过程中的受控词与自由词 标引.图书馆学研究,2003(8) l7,2l,24,33,48,5l包冬梅.2l世纪情报语言学 研究面临的新课题.图书馆学刊,2001(3) l8,36张琪玉.网络信息检索用语言的发展趋 势.图书馆杂志,2001(3) 19余晓寒.受控的自由化结构是情报检索语言宏 观结构发展的必然方向.贵图学刊,2002(1) 22林茵.关于情报检索语言的控制问题.情报科 学,2001(3) 23薛山顺.网络时代的文献检索与后控制词表. 图书与情报,2000(3) 25丛石.三种信息检索语言的功能及其应用.图 书情报知识,2003(3) 26傅欣,李伟.网络信息分类组织发展趋势探析. 图书情报工作,2002(3) 27,32陈树年.搜索引擎及网络信息资源的分类 组织.图书情报工作,2000(4) 28王知津,肖洪.网络信息组织对传统信息组织 的借鉴.图书馆工作与研究,2003(4) 29刘延章.关于网络信息分类组织研究中的几个 问题.中国图书馆学报,2003(5) 30梁树柏.文献语言的因特网民化.图书馆建设, 2002(6) 3l吴丹.网络信息分类体系设计.图书情报知识, 2002(5) 34,49,50张自然.新形势下情报检索语言研究. 图书与情报,2000(4) 35,38,40吕娟,袁相琴.论第四种情报检索语言 系统.中国图书馆学报,2002(1) 37严峰.论现代信息条件下检索语言的应用及检 索效率变化.中国图书馆学报,2001(6) 4l林青.关键词法——叙词法链接模型——自然 语言与人工情报检索语言的结合.情报探索, 20o3(2) 42张琪玉.分类语言,主题语言与自然语言一体 化检索系统与《中国财经报刊数据库》的实践. 现代图书情报技术,2002(1) 45郑贵宇.我国检索语言国际兼容初探.情报学 报,2001(8) 46文榕生,闻桦.兼容与互补——论检索语言的 发展趋势.图书情报工作,2003(2) 47侯汉清,薛春香.中文搜索引擎分类体系兼容 互换工具的设计.中国图书馆学报.2003(1) 52梁树柏.检索语言创新的实践——以分类口岸 为例.图书情报工作.2003(10) (沙淑欣硕士研究生南开大学商学院图 书馆学系)
本文档为【情报检索语言研究综述】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_882336
暂无简介~
格式:doc
大小:42KB
软件:Word
页数:19
分类:生活休闲
上传时间:2017-10-19
浏览量:24