下载

1下载券

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 自然语言的理解综述

自然语言的理解综述.pdf

自然语言的理解综述

Aaron_左岸
2013-01-19 0人阅读 举报 0 0 0 暂无简介

简介:本文档为《自然语言的理解综述pdf》,可适用于IT/计算机领域

自然语言的理解综述AnOverviewonTheoryofNaturalLanguageUnderstanding谭俊明TanJunming(南昌大学计算机系江西南昌)(DepartmentofComputerScience,NanchangUniv,JiangxiNanchang)摘要:为了解决计算机理解自然语言问题,产生了自然语言理解这一研究方向。文章介绍了自然语言理解的一些特点和发展状况并归纳了自然语言理解研究中的一些关键问题。关键词:自然语言理解人工智能信息技术中图分类号:TP文献标识码:A文章编号:()Abstract:Inordertosolvecomputerhowtocomprehendnaturallanguage,havinggivenbirthtoresearchareaofnaturallanguageunderstandingThethesisintroducessometraitsanddevelopmentstatusofnaturallanguageunderstanding,concludssomekeyproblemsduringworkingovernaturallanguageunderstandingKeywords:NaturalLanguageUnderstandingArtificialIntelligenceInformationTechnology科学发展到今天,信息技术已经成为无处不在的主流,而其中最能显示“以人为本”特色的,就是自然语言处理技术。认知心理学研究表明,人类的自然语言包含了非常复杂的心理活动,同时也是知觉、记忆、思维等许多不同心理活动的主要参与者。自然语言处理技术是语言文字信息处理的一项高层次技术,是人工智能的重要内容和组成部分,也是现今计算机科学技术领域最活跃的研究方向之一。自然语言处理(NLP,NaturalLanguageProcessing)是使用自然语言同计算机进行通讯的技术。因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguageUnderstanding),也称为计算语言学(ComputationalLinguistics)。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI,ArtificialIntelligence)的核心课题之一。所谓自然语言,是人类借以思维和互相交际的一个音义结合的符号系统,是一个变动的音义结合的系统结构。计算机理解的自然语言可分为两个方面:①口语的理解(如语音识别、语音合成、语音分析等)②书面语的理解(如机器翻译、自动文摘、信息过滤等)。下面就自然语言理解展开论述。自然语言理解的层次性语言学上对语言有这样的层次划分:第一层次是语音和文字,即基本语言信号的构成第二层次是语法和句法(合称“语法”),即语言基本运用单位的构成和组合的形式规律第三层次是语义,即语言所要表达的概念结构第四层次是语用,即语言与语言使用环境的相互作用。相应地,语言的分析和理解过程也应当是一个层次化的过程。许多语言学家把这一过程分为四个层次:语音分析、语法分析、语义分析、语用分析。其中,语法分析又可分为词法分析和句法分析。语音分析是根据音位规则,从语音中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。需要说明的是,在汉语中找出词素容易,汉语分析难在词的切分。句法分析是对句子和短语的结构进行分析。句法分析的方法有很多,格语法、扩充转移网络和功能语法等。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。这种层次结构可以是从属关系、直接成分关系和语法功能关系。语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。语用分析,就是对语言符号与语用符号使用者之间联系的研究分析。自然语言理解的发展状况年以前,人们主要进行自然语言处理的基础性研究工作。年Shannon把离散马尔可夫过程的概率模型应用科技广场于描述语言的自动机同时又把“熵”(Entropy)的概念引用到语言处理中。而Kleene在同一时期研究了有限自动机和正则表达式。年,Chomsky又提出了上下文无关语法。这些工作导致了基于规则和基于概率两种不同的自然语言处理方法的诞生,使得该领域的研究分成了采用规则方法的符号派(Symbolic)和采用概率方法的随机派(Stochastic)两大阵营,进而引发了数十年有关这两种方法孰优孰劣的争执。年,人工智能诞生以后,自然语言处理迅速融入了人工智能的研究中。随机派学者在这一时期利用贝叶斯方法等统计学原理取得了一定的进步而以Chomsky为代表的符号派也进行了形式语言理论、生成句法和形式逻辑系统的研究。由于这一时期,多数学者注重研究推理和逻辑问题,只有少数学者在研究统计方法和神经网络,所以符号派的势头明显强于随机派的势头。年美国心理学家Neisser提出了认知心理学,从而把自然语言处理与人类的认知联系起来。年代初,由于自然语言处理研究中的一些问题未能在短时间内得到解决,而新的问题又不断地涌现,许多人因此丧失了信心,自然语言处理的研究进入了低谷时期。尽管如此,一些发达国家的学者依旧地研究着。基于隐马尔可夫模型(HiddenMarkovModel,HMM)的统计方法和话语分析(DiscourseAnalysis)在这一时期取得了重大进展。年代,在人们对于过去的工作反思之后,有限状态模型和经验主义的研究方法开始复苏。年代以后,随着计算机的速度和存储量大幅增加,自然语言处理的物质基础大幅改善,语音和语言处理的商品化开发成为可能同时网络技术的发展和年Internet商业化使得基于自然语言的信息检索和信息抽取的需求变得更加突出。自然语言处理的应用面不再局限于机器翻译、语音控制等早期研究领域了。从年代末到世纪初,人们逐渐认识到,仅用基于规则的方法或仅用基于统计的方法都是无法成功进行自然语言处理的。基于统计、基于实例和基于规则的语料库技术在这一时期开始蓬勃发展,各种处理技术开始融合,自然语言处理的研究又开始兴旺起来。自然语言理解所面临的问题目前,自然语言理解研究已经取得了令人瞩目的成绩,在某些方面,有的研究成果已达到了实用化的程度,比如根据数据库里的信息回答问题或处理事务,按照自然语言的命令做一些简单的事情等等。但自然语言理解并未取得根本性的突破。文献甚至认为“整个自然语言理解获得成功的例子,不过是解决了一个极为微小的积木世界的问题”。要使计算机达到人的理解力,目前在技术上还面临着艰巨的挑战。首先,自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如,但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接受的方式彻底说清楚。传统的语言学是在没有计算机参与的条件下发展起来的,虽然为自然语言理解积累了宝贵的财富,但那是讲给人的,真正要让语言学知识变得在计算机上可操作,绝不是那么简单,也不能那么模糊。其次,自然语言的各个层次上都含有巨大的不确定性。在语音和文字层次上,有一字多音、一音多字的问题在词法和句法层次上,有词类词性、词边界、句法结构的不确定性问题在语义和语用层次上,也有大量的因种种原因造成的内涵、外延、指代、言外之义的不确定性。语言学上把这些不确定性叫做“歧义”。歧义一般不能通过发生歧义的语言单位自身获得解决,而必须借助于更大的语言单位乃至非语言的环境、背景因素和常识来解决。人类有很强的依靠整体消除局部不确定性的能力和常识推理能力,使计算机获得同样强大的能力,还有很长的路要走。自然语言不是一成不变的,它在社会生活中发展,在操不同语言和同一语言的不同变体的人们之间相互影响变化。一个词、一个说法可能在一夜之间突然流行起来特殊的人群结构变化会导致新的语言或新的语言变体(如方言)的出现。这就要求理解自然语言的计算机程序要具有对外界语言环境的应变能力。最后,自然语言是人们交流思想的工具。既然交流的是思想,那思想本身在计算机里的组织结构就显得格外重要。在人工智能里,这就是“知识表示”的问题。可以说,在知识表示问题上的突破,对于自然语言理解的进展将产生决定性的影响。自然语言理解的本质自然语言是在人类文明发展的漫长过程中自然形成的。所谓自然形成,意味着它的形成是基于每个人所拥有的一种基本权利:自由创造语言符号和自由约定符号语义。而自然语言的“标准化”工作,则不得不以自由创造成果的自然流行为基础和前提。令人眼花缭乱的网络语言虽然有点另类,但却是自然语言这一基本特征的有力证明。俞士汶教授曾撰文指出自然语言理解一直是计算机科学中的一个引人入胜的、富有挑战性的课题。由于自然语言十分复杂,人是如何理解语言的,怎样给“理解”下一个确切的定义是极其困难的。结构主义理论认为机器的理解机制与人相同,问题在于谁也说不清自己理解语言的步骤而功能主义理论认为机器的表现与人相同,从图灵测试可知,至少有以下四条准则可用于判断计算机是否“理解”了某种自然语言:机器能正确回答输入文本中的有关问题机器有能力生成输入文本的摘要机器可以用不同的词语和句型来复述输入文本机器具有将一种自然语言(源语)的输入文本翻译成另一种自然语言(目标语)文本的能力。若我们再仔细思考一下会发现这些准则并不完全符合机器自然语言理解的特点。首先,回答问题的过程也不是对问题语句的简单理解过程。回答文本的生成不仅要“理解”问题,而且还要对储存的信息(即与问题有关的背景知识)进行筛选和组织。因此,问题回答不正确也不能说明机器没有理解问题。其次,用不同的词语和句型复述输入文本,实际上是一种释义。复述表现了对输入文本的字面理解,但并不反映理解的全过程和全部内容,也不能表示“意在言外”的微妙之处。理解过程除释义之外,实际上还包括一定的推理,MARGIE系统的设计者认为,人类从一个句子中所领悟到的东西,远比这个句子显式表现的东西多,即使采取一定的推理手段,仍然可能丢失某些隐含意义。推理文本反映对输入文本隐含意义的发掘,虽然这种对隐含意义的反映可能有遗失、歪曲的现象存在,但总归是对输入文本含义的理解。释义和推理对输入文本进行的信息加工是一种直接处理,并不进行补充、概括、转换语种等后续工作,输入文本的基本含义和语种没有变化。释义文本可能增加或减少输入文本的附属意义,这是由于不同词语所表达的概念通常是难以完全重合的,即使是两个同义词,也难以做到所表达的概念完全重合推理文本则存在遗失隐含意义、产生歧义、增加不应有的含义等问题。最后,无论是机器还是人,在生成摘要文本和译文文本时,都要在理解输入文本的基础上,对储存的信息进行进一步的处理。它们可以用于判断机器是否理解了输入文本,但它们并不是“理解本身的直接反映,因此,不是语言理解的直接判断准则。即使在人的自然语言理解情况中,不能生成摘要文本或译文文本,也并不代表人没有理解输入文本。人脑对自然语言的理解是在多个层次上同时进行的,并不局限于语言的字面意义及逻辑关系等浅表层次,还可深入到感觉、表象层次。人脑的理解集中地表现在“悟”,是对语言的综合思考,并从思想内容上去把握语言。机器自然语言理解只是简单的字符运算处理。虽然采用了机器推理后,可表现出一定的对隐式含义的发掘,但由于其只能在字面、逻辑关系等浅表层次进行理解,并不具有“悟”的能力。机器与人的自然语言理解层次的不同是本质的不同。虽然在思维物质的基础层次上,机器的,代码可近似模拟人的神经元脉冲的有和无。但由于模式和机制的不同,机器与人的自然语言理解是不同的。总体上讲,人的自然语言是以大量的感觉、印象、实践材料为基础的,这里面主要是形象概念,是“只可意会,不能言传”。语法学、语义学和语用学等语言知识是人们对自然语言规律和规则的认识,并不代表自然语言本身。机器自然语言实际上是人为地将人的自然语言中可以形式化的那部分抽取出来,并按照语言学知识制定一些规则,构造出的一种自然语言。机器自然语言的基础不是感觉、印象等形象概念的集合,而是词语概念的集合。因此,在计算机科学中,经常使用“自然语言处理”或“语言信息处理”这类术语来概括这些研究内容。目前理论界公认自然语言处理是一门交叉学科,它涉及到语言学、数学、逻辑学、计算机学等等多个学科。前景展望和研究意义国内外关于自然语言处理与理解方法的研究,长期专注于“语法”层次的研究。世纪末期以来,人们认识到单纯在语法层次上的研究不能解决问题,开始进到了“语义”的层次,最好的例子就是互联网络这几年的研究正在从WWW走向语义网SemanticWeb。然而,自然语言是语法、语义、语用三者的“有机统一体”,只从语法、语义两个层次上研究也不能很满意地解决问题。语用研究的空缺已经日益阻碍了自然语言处理的发展。只有语用、语义和语法信息的研究都成熟了,才能真正通过分析获得自然语言所表达的信息,达到与人类交流对话的水平。因此,未来的趋势是要充分研究和利用自然语言的语法、语义和语用信息。实际上,走向语法语义语用三位一体的层次是必然的出路,语用作为自然语言中体现效用价值的因素不可能因为困难总被回避,现在已经到了必须要面对的时候了。人类已经迈入世纪,计算机和互联网的广泛应用昭示着信息时代的到来。计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理研究必将对我们的生活产生深远的影响。随着我国现代化建设的发展,信息处理技术的自动化愈来愈显得紧迫。人类历史上用语言文字形式记载和流传的知识占到知识总量的以上。据统计,目前计算机的应用范围,用于数学计算的仅占,用于过程控制的不到,其余以上都是用于语言文字和信息处理的,并且随着计算机的普及和性能的提高、价格的降低,这一趋势还在增大。语言信息处理的技术水平和每年所处理的信息总量已经成为衡量一个国家现代化技术水平的重要标志之一。因此自然语言(汉语)处理已成为一个引人注目的重要学科,是我国实现信息化和现代化的必经之路。可以这样说,汉语自然语言理解作为中文信息自动化处理的关键技术,每提高一步给我国的科学技术、文化教育、经济建设、国家安全所带来的效益,将是无法用金钱的数额来计算的。反之,如果落后了,不管是落后于国际水平还是落后于现实需求,后果都是严重科技广场的。结束语在自然语言理解研究的实践中,研究者虽然认识到计算机的“自然语言”是一种人工语言,但仍希望电脑能达到人脑对自然语言理解的水平,其中“知识表示”问题就典型地反映出这种矛盾状况。人们至今不能确定,计算机究竟应该储存多少常识和专门知识,才能达到令人满意的自然语言理解水平。机器自然语言理解本质界定的不明确性是出现上述情况的一个重要原因实际上,这也是目前存在颇多分歧的问题之一。因此要真正达到机器完全理解自然语言还有很长一段路程。参考文献王,汪安圣认知心理学M北京:北京大学出版社,蔡自兴等,人工智能及其应用M北京:清华大学出版社,马健等对机器自然语言理解本质的认识J宁夏大学学报(自然科学版),,()周锡令关于自然语言理解的理解J语言文字应用,,()赵光武思维科学研究M北京:中国人民大学出版社,许嘉璐现状和设想试论中文信息处理与现代汉语研究J中国语文,,()郭艳华,周昌乐自然语言理解研究综述J杭州电子工业学院学报,,()俞士汶自然语言理解与语法研究M北京:商务印书馆,,KrichmarJL,EdelmanGMMachinePsychology:AutonomousBehavior,PerceptualCategorizationandConditioninginaBrainbasedDeviceJOxfordJournals,CerebralCortex,,,():CHOMSKYNAspectsoftheTheoryofSyntaxMMITPress,CHOMSKYNLecturesonGovernmentandBindingMDordrecht,FILLMORECJThecaseforcaseCUniversalsinLinguisticTheory,NewYork:Holt,RinehartandWinston,GAZDARGKLEINEPULLUMGetalGeneralizedPhraseStructureGrammarMBasilBlackwellPublisherLtd,HARRISMDIntroductiontoNaturalLanguageProcessingMRestonPublishingCompany,Inc,KAYMParsinginjunctionunificationgrammarCNaturalLanguageParsing:PsychologicalComputational,andTheoreticalPerspectivesCambridgeUniversityPress,BROWNW,YULEGDiscourseAnalysisMCambridgeUniversityPress,WOODSWAContextSensitiveParsingJCACM,,():作者简介谭俊明()男、汉族、江西南昌人、南昌大学在读硕士研究生主要研究方向:模糊逻辑、数据融合。

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

评分:

/4

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利