首页 情报检索语言的自然语言化

情报检索语言的自然语言化

举报
开通vip

情报检索语言的自然语言化情报检索语言的自然语言化 第3期(总第95期)情报探索2OO5年5月 情报检索语言的自然语言化 朱丹 (武汉大学信息管理学院湖北430034) 摘要在比较自然语言与受控语言的基础上,提出了情报检索语言自然语言化的内 在因素与外在因 素,并论述了情报检索语言自然语言化的多种模式. 关键词受控语言自然语言情报检索 情报检索语言作为情报检索专用的人工语言, 在人类漫长的手工检索时代一直占据着主流地位, 并发挥着巨大功能,这类语言主要有分类语言和主 题语言,归属于受控语言行列.自然语言虽然很早 就已存在,但在手工...

情报检索语言的自然语言化
情报检索语言的自然语言化 第3期(总第95期)情报探索2OO5年5月 情报检索语言的自然语言化 朱丹 (武汉大学信息管理学院湖北430034) 摘要在比较自然语言与受控语言的基础上,提出了情报检索语言自然语言化的内 在因素与外在因 素,并论述了情报检索语言自然语言化的多种模式. 关键词受控语言自然语言情报检索 情报检索语言作为情报检索专用的人工语言, 在人类漫长的手工检索时代一直占据着主流地位, 并发挥着巨大功能,这类语言主要有分类语言和主 题语言,归属于受控语言行列.自然语言虽然很早 就已存在,但在手工检索时代无法广泛应用.随着 计算机技术,网络技术的飞速发展,自然语言渐渐浮 出水面,并逐渐有取而代之的迹象,但因其本身的局 限性,单纯的自然语言检索并不能完全满足网络时 代多样化的检索要求.事实上,受控语言与自然语 言在功能上是互为补充的.情报界正致力于使两者 互相融合,使情报检索语言自然语言化或使自然语 言情报检索语言化. 1受控语言与自然语言的比较 所谓受控语言,是指人们从自然语言出发,根据 检索的需要,依据一定的规则对自然语言进行事先 规范而形成的人工语言,其实质是表达文献情报特 征的概念及其相互关系的概念标识系统.自然语言 则是指人们日常生活中使用的语言,是在情报检索 中使用文献作者原来所用的语言,或文摘编写者原 来所用的语言. 受控语言与自然语言各有其优缺点,而且在很 多方面表现为一种互逆的关系,两者的性能比较见 表1. 表1受控语言与自然语言性能比较表 性能受控语言自然语言 自易用性使用一种普遍用户不熟悉的人工语言,易用性差因采用人们日常使用的语言,易用性好 然专指度具有一定的专指度,但因词表结构等问题,专指度不 语如自然语言直接使用文章中原来的语词,专指度高 女标引难度高,对标引人员的要求很高,标引速度慢,成标引难度低,对标引人员的要求较低,标引速度快,成本亩标引 优本高,一致性差一些,且不易实现自动标引低,一致性好,易于实现自动标引 于词表的诃表的编制和更新需要投人大量的人力物力财力,成其后控诃表结构较松散,维护成本低,可根据诃汇的增长 受适应性本高;不能及时反映新事物,新概念不断调整,随时增加新词,及时反映新事物,新概念 控兼容性不同的检索系统使用不同的受控语言,兼容性差因自然语言具有通用性,兼容性好 语 女检准率因专指度不如自然语言,且存在词汇和类目的滞后因有很高的专指度 ,检准率高亩性 ,检准率相对来说不如自然语言 受适应性可同时应用于机检和手检,适应性强只适应于计算机检索 控 语反映概语诃与概念一一对应,能控制同义词,多义词和其他不受规范化的控制,不能反映概念语词之间的一一对应 ? 念语词词义上相关的词,排除了多词一义和一词多义及词意关系,无法排除多词一 义,一词多义及词意含糊的现象,亩 优的关系含糊的现象影响标引的一致性 于表达概 自能显示概念之间的等级关系,上下位关系等多种相关 然念之间不能显示概念之间的关系 语的关系关系 吉检全率检全率高若不进行较好的后控,检索噪音大,易漏检,检全率低目 2情报检索语言自然语言化的必然性 2.1受控语言和自然语言的性能互补是情报检索 语言自然语言化的内在因素 通过表1可以看到,两者具有天然的互补性,这 3 2005年5月情报探索第3期(总第95期) 是两者能够结合发展成一种更高级的语言和检索系 受控语言和自然语言最大的区别在 统的优越条件. 于受控语言是为了特定的需要对自然语言进行了人 为的控制,以便能唯一地表达事物.从某种意义上 说,受控语言是为了克服自然语言的不足而产生的, 而另一方面,自然语言的优点却能很好地弥补受控 语言的不足.要避免二者的缺点对文献检索发展的 束缚,就要很好地把两者结合起来发挥它们的优点, 形成符合时代需求,满足用户需要的新型语言.正 如张琪玉老师在《情报语言学基础》一书中指出的: "既然两者各有优缺点又不可能互相取代,为什么不 可以使两者结合或融合呢?""自然语言或情报检索 语言的未来将是自然语言的情报检索语言化或情报 检索语言的自然语言化." 2.2计算机技术和网络技术的飞速发展是情报检 索语言自然语言化的外在因素 计算机技术的发展,网络信息资源的迅速膨胀, 全文数据库的出现,超文本技术的实现,以及自然语 言自身的某些突出优点,使自然语言检索倍受青睐, 受控语言面临严峻的挑战,甚至有人预言自然语言 必将取代受控语言,这是一个非常片面的认识.虽 然在计算机检索时代,自然语言比受控语言表现了 更好的适用性,但因其固有的词汇无语义关联等缺 点,影响了文献的检索效率,单纯的自然语言并不优 于受控语言,正如张琪玉老师指出的:"不利用情报 检索语言的原理和 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 的自然语言检索如果说不是 不可能的,也将是低水平的."现在普遍的共识是在 自然语言检索中引入受控语言的控制原理和方法, 对情报检索中各种不利因素进行控制,使情报检索 语言自然语言化或自然语言情报检索语言化. 3情报检索语言自然语言化的多种模式 情报检索过程绝对不能没有控制,完全无控制 的自然语言只能满足要求很低的普通网络信息用户 的需求,而且也往往会因为太多无意义检索结果的 困扰让用户感到焦虑.但从另一方面讲,在网络信 息检索时代,自然语言确实具有比受控语言优越的 地方,如果要完全满足情报用户迅速,准确,完整地 查找文献的需要,必须两者结合使用,实现情报检索 语言的自然语言化.目前主要有以下几种模式: (1)受控语言与自然语言结合使用.即用受控 词与自由词一起标引文献,或只用受控词标引文献, 而在检索时则首先用受控语言进行检索,再在检出 4 的结果中利用文本中的关键字(词)进行精确检索. (2)受控语言与自然语言并行使用.即同时使 用受控语言和自然语言建立两套并行的检索系统, 根据专业用户和普通用户的不同使用要求使用不同 的检索系统,但这种做法的编制成本比较高. (3)建立后控制词表.后控制词表的性质类似 于人口词表,它是一种转换工具,兼有自然语言和受 控语言的性质和优点,其特点是:其中的控制词并非 直接用于标引,而是对作为文献检索标识的自然语 言词进行控制(建立"等同,等级,相关"关系).使用 后控制词表既可充分发挥自然语言检索的优势,又 可利用所显示的词间关系进行族性检索,极大提高 检索效率,是一种被广泛应用的模式. (4)入口词表.入口词表是存在于计算机内的 一 它允许用户利用自然语言提出检索 种转换工具, 要求,计算机自动将自然语言转换成对应的受控语 言.常见的人口词表分两种,一种是在现有的受控 词表基础上增加自然语言入口词,以提供更多的可 供直接检索的人口词,从而提高查全率.另一种是 建立专用的人口词表. (5)以自然语言作为自由词进行补充标引.这 里的自由词多指一些专有名词,其专指度一般都高 于词表中的正式词,是作为专指度不足的补充.用 自由词补充标引既可弥补受控语言表达新概念滞后 的缺点,也可以弥补它专指度低的缺点. (6)自动赋词标引或自动赋分类号.这是在自 动抽词基础上,根据自然语言词和检索词或分类号 的对应表,将关键词转换成检索词或分类号,建立倒 排索引文档或编成书本式检索工具,其实质是自然 语言与受控语言的结合. 综上所述,在网络信息检索时代,任何一种类型 的检索语言都不可能单独满足网络信息检索多样化 的要求,受控语言和自然语言的结合使用,即情报检 索语言的自然语言化是未来情报检索的发展趋势. 参考文献 1张琪玉.情报语言学基础.武汉:武汉大学出版社, 1997 2徐成兵.情报检索中的受控语言和自然语言.情报 杂志,1998(1) 3伍宪,徐建华,胡燕菘.自然语言与受控语言检索. 深圳大学,2ooo(5) 4王群,敬卿.论自然语言的优势与人工语言的消亡. 大学图书馆,20o4(2)
本文档为【情报检索语言的自然语言化】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_614050
暂无简介~
格式:doc
大小:17KB
软件:Word
页数:0
分类:生活休闲
上传时间:2017-10-20
浏览量:9