下载

2下载券

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 自然语言理解的全信息方法论

自然语言理解的全信息方法论.pdf

自然语言理解的全信息方法论

xueyuqz
2011-12-31 0人阅读 举报 0 0 暂无简介

简介:本文档为《自然语言理解的全信息方法论pdf》,可适用于IT/计算机领域

Z年月第Z卷第期北京邮电大学学报JOurnalOfBeijingUniversityOfPOstsandTelecOmmunicatiOnsAugZVOlZNO文章编号:Z(Z)Z自然语言理解的全信息方法论钟义信(北京邮电大学智能科学技术研究中心北京)摘要:在经济全球化需求的推动下世界在酝酿一场自然语言信息技术革命它的基础和核心是自然语言理解的理论与方法全信息自然语言理解方法论是作者的全信息理论在自然语言理解领域的应用与文献中已有的其他工作不同其主要特色是:一方面试图实现语法信息语义信息语用信息的综合利用另一方面寻求规则方法和统计方法的和谐互补从而有效增强对自然语言的理解能力近几年来应用这一方法论完成了一系列自然语言理解方面的课题取得了一批可喜的研究成果表明全信息自然语言理解方法论具有很好的前景关键词:自然语言理解全信息理论规则方法统计方法全信息自然语言理解方法论中图分类号:TP文献标识码:AComprehensiveInformationBasedmethodologyforNaturallanguageUnderstandingZONGYixin(CenterOfIntelligenceScienceandTechnOlOgyResearchBeijingUniversityOfPOstsandTelecOmmunicatiOnsBeijingChina)Abstract:TheCOmprehensiveInfOrmatiOnBasedMethOdOlOgyfOrNaturalLanguageUnderstandingpresentedinthepaperisanapplicatiOnOftheCOmprehensiveInfOrmatiOn(CI)TheOrywhichwasestablishedbytheauthOrOfthepaperyearsagOfOrmeetingtheneedsinartificialintelligenceresearchDifferentfrOmOtherwOrksinthefieldOfnaturallanguageprOcessingthemajOrfeaturesOfthemethOdOlOgypresentedinthepaperincludetwOfOldsFirstlyinsteadOfthesyntacticOrandsemanticinfOrmatiOnisusedallcOmpOnentsOfthecOmprehensiveinfOrmatiOnarefullyutiliZedfOrnaturallanguageunderstandingSecOndlyinsteadOfusingOneOranOtherapprOachpreferablybOththerulebasedapprOachandthestatisticsbasedapprOachhavebeencOmplementarilyintegratedThesuccessesOftheresearchprOjectsguidedbythemethOdOlOgyandcOmpletedlastfewyearsprOvethemethOdOlOgyprOmising收稿日期:Z基金项目:国家自然科学基金项目(Z)国家计划项目(ZAAZ)作者简介:钟义信()男教授博士生导师Email:yxZhOng@ieee一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一OrgKeyWOrdS,naturallanguageunderstandingcomprehensiveinformationtheoryrulebasedapproachstatisticalapproachCIbasedmethodologyfornaturallanguageunderstanding全球化的进程正在推动一场自然语言信息技术革命'它涉及非常丰富的内容但是最具本质意义的核心内容是自然语言理解'信息检索信息抽取数据挖掘知识发现文本分类内容分析信息监控自动摘要机器学习机器翻译人机自然语言对话基于自然语言的人机合作等都是自然语言理解的具体应用~自然语言理解是人工智能的重要研究方向目的是使机器能够在一定程度上理解人类的自然语言是语言学认知学信息学的交叉领域涉及的问题很多而且难度很大~本文将着重探讨自然语言理解的基本方法论问题~自然语言理解与自然语言处理要使机器能够理解人类的自然语言显然是一个非常困难的问题~尤其如果要求机器达到像人一样的水平来理解人类的自然语言就更是遥不可及要使无生命的机器系统同有智慧的人类一样理解人类的自然语言几乎不可思议~因此人们通常回避对自然语言进行理解'的目标退而求其次希望利用一定的方法和技术对自然语言进行某些处理'于是在科学技术文献中就把这一研究领域称为自然语言处理(NLPnaturallanguageprocessing)'而不是自然语言理解(NLUnaturallanguageunderstanding)'~事实上作为科学技术的研究目标人们所追求的不可能是具有与人类理解自然语言的能力'完全一样的机器而是在人类理解自然语言的机理'启发下实现机器对自然语言的一定意义上的'理解正如飞机不同于飞鸟雷达也不同于蝙蝠那样~一般而言科学技术意义上的自然语言处理'泛指对于人类自然语言所进行的一切有意义的操作和分析包括自然语言的分词操作词性标注词义标注搭配关系标注语法分析语义分析语用分析段落解析篇章分析以及与此相应的各种语言学统计如字频统计词频统计特征提取关键词识别短语识别专有名词识别语言模型的统计和提取虚词的识别语句的表示语句的相关性计算以及从大规模语料库的语料中提取各种典型的语句样本和语言学规则等等这些都是人们比较熟悉的内容~依据应用目标的不同不同场合所进行的自然语言处理的具体内容当然也会各不相同~至于科学技术意义上的自然语言理解'它是在自然语言处理'基础上展开的一类操作目的是为了理解自然语言~可以认为自然语言处理是实现自然语言理解的必要基础没有这个基础不可能实现自然语言理解~所谓对于某种自然语言实现了某种程度的理解'可以通过一些准则来判定~以语句的理解为例这些准则可以包括,()能够判断语句的结构是否合乎语法(Z)能够判断语句的逻辑含义是否合理()能够以不同方式表达同一语句内容()能够把一种自然语言正确地表达为另一种自然语言()能够判断语句所表达的语言效用~满足其中的准则()可以认为对语句实现了浅层的理解满足准则()~()可以认为实现了中等程度的理解如果个准则全部都能够得到满足则意味着实现了比较深层的理解Z北京邮电大学学报第Z卷不仅把握了语句的语法结构和逻辑含义,而且了解了它的效用价值当然,机器对于自然语言的浅层理解相对比较容易实现,中等程度的理解就比较困难,实现深层的理解就更为困难但是,不同程度的理解可以找到不同的用途Internet的广泛应用,提供了一个很有意义的启迪,这就是,用户并不坚持要求网络提供绝对理想的服务质量(gualityofservices)'相反,乐于接受价格廉宜尽力而为(besteffort)'的网络信息服务这是明智的选择正像一位哲人所说,理想的东西是不现实的现实的东西都不理想我们必须学会接受和适应不那么理想的现实否则,就会陷于可望而不可及'的境地过去对于机器理解人类自然语言的要求可能过于理想化,因此,长期不敢直接面对自然语言理解'的问题其实,只要不把理解'的概念过于绝对化,那么,自然语言理解'是比自然语言处理'更加明确的表述换句话说,自然语言理解'是研究的目的,自然语言处理'则是必须掌握的研究手段研究自然语言处理的重要目的,就是为了实现机器对自然语言(一定程度)的理解正是在这个意义上,本文将探讨自然语言理解'的方法论问题规则方法与统计方法为了使机器理解人类自然语言,在长期研究的基础上形成了种基本的方法,基于规则的方法和基于统计的方法前者从语言学和认知学的观念出发,希望建立一组语言学规则,使机器可以按照这组规则来正确理解它面对的自然语言后者从统计学和计算机科学的观念出发,希望通过对大规模语料库的统计处理,使机器可以正确理解所给定的自然语言基于规则的方法是一种理论化的方法,它的基本信念是有限规则支配无限现象'因此,在理想情况下只要能够找出完备而有限的语言规则系统,就能利用这些规则解释无限丰富的语言现象这当然是一种很自然的想法基于统计的方法是一种经验性方法,它的基本信念是多者为真'因此,在理想情况下只要语料规模足够充分,结构足够合理(遍历),通过统计就可以实现对所有语言现象的统计理解'所以,无论是基于规则的方法还是基于统计的方法,似乎都可以单独解决自然语言理解的全部问题然而,实际上的情况却不是那么乐观,无论是基于规则的方法还是基于统计的方法,各自都面临一个难以逾越的障碍理想的东西都不现实'对于规则方法'来说,首先,由于对于客观世界的认识不断向深度和广度发展,表达这种认识的语言规则体系也必然不断扩展,从而使规则系统的有限性和封闭性'受到质疑而现实世界的语言现象更是无限多样和层出不穷,这就使得规则方法只能在有限的语言现象中发挥作用,面对鲜活多变的自然语言,规则很难覆盖全部自然语言现象其次,即使可以不断增加新的规则来覆盖新的语言现象,但是随着规则数量的增加,推理的难度和计算复杂度也随之急剧增加而且,随着新的规则的引入,可能导致规则之间出现互相矛盾最后,由于规则数量不断增多,规则的手工获取需要很大的工作量,而机器获取规则的质量又不能得到足够的保证同样,统计方法'也面临着类似的问题首先,统计方法的符号统计独立性'等统计假设在实际语言现象中很难成立,语言符号之间原则上不可能真正独立,也不可能是阶数固定'的Markov概率模型,这使统计方法的前提受到很大的质疑,成为先天不足'的方法其次,语料规模的有限性可能导致统计的非遍历性,即使规模巨大的语料库,在更为庞大的自然语言现象面前,也经常发生数据稀疏的问题最后,统计方法本身的统计平均性质',只能保证统计平第期钟义信,自然语言理解的全信息方法论均意义上的正确不能保证每一个具体事件结果的实际正确性:概率小的事件不一定不发生概率大的事件也不一定必然发生这就使统计方法的O多者为真'受到挑战顺便提及O基于例子的机器翻译'是近年来出现的一类机器翻译方法它具有与统计方法类似的问题:如果例子太少没有实际的价值例子太多则带来搜索困难基于例子的机器翻译是典型的O人云亦云'由于缺乏理解能力因而不能充分保证翻译的正确性应当承认种方法都有自己的根据也都有一定的效力因此种方法都得到了相应的发展也都拥有自己的支持者颇为有趣的是语言学家~心理学家~传统人工智能专家比较喜欢基于规则的方法而计算机专家~统计学家~信息学家则往往偏爱基于统计的方法这当然也各有一定的道理但是这也与这些学科自身的学术观点及方法论传统有关当然如果不追求O绝对理想'的理解那么规则方法中O有限规则'不能覆盖的语言现象和统计方法中O多者为真'的例外现象就都可以看作是O可以容忍'的差错于是种方法又都为自然语言理解带来了希望不过从当前的情况看种方法所提供的O必须容忍'和人们能够接受的O可以容忍'之间还存在较大的差距因此单独应用种方法中的任何一种方法都还不能获得令人满意的结果仔细地考察可以发现这种方法的非对立性和互补性:基于规则的方法在本质上是演绎的基于统计的方法在本质上是归纳的基于规则的方法属于逻辑思维方式基于统计的方法属于经验思维方式理论研究和实践经验都表明统计方法在解决自然语言理解的浅层问题方面比较有效规则方法在解决自然语言理解的深层问题场合具有优势真正有希望的出路必然是种方法有机的综合互补按照规则方法和统计方法各自的本性可以判断两者互补的总体途径可能是O通过统计方法完成自然语言的表层处理(包括获得各种统计数据~对海量语料的加工~语言规则的学习和提取等D和常规分析通过规则方法完成自然语言的深层分析和理解'当然在不同的场合规则方法和统计方法的互补会有不同的实现方式而且两者的分工也并不是那样绝对事实上在浅层理解的场合也可能要用到规则方法在深层理解的场合也会需要统计方法的支持互补可能出现在各种不同的层次但是总的来说如果单纯讨论自然语言的O处理'也许统计方法可以解决大部分问题但是如果目标是自然语言的O理解'那么统计方法与规则方法的互补综合利用是必然的选择如果分析人类自身理解自然语言的情况可以发现也存在种基本的途径:基于经验的途径基于规则的途径起初是经验途径然后是经验途径与理论途径的综合运用初生婴儿一张白纸没有理解能力只能O人云亦云不求甚解'信奉O多者为真'(这大体上是统计方法的原型D随着人的智力成长理解能力逐步增强理论思维发挥越来越大的作用特别在研究疑难问题的时候不得不O字斟句酌由此及彼由表及里反复推敲'(这大体上是规则方法的原型D这是种比较极端的情形在大多数情形下人类能够灵活地运用这种基本的途径达到理解的目的这是人类理解自然语言的高明之处人类自身理解自然语言的这种过程提供了一个非常有益的启示:在人工智能科学技术发展的初级阶段(类似于人类个体发育的幼儿阶段D或者设定的研究目标是自然语言处理(而不是理解D基于经验的统计方法必然成为基本手段但是随着人工智能科学技术的进步(类似于人类个体发育的逐步成长D或者设定的研究目标是自然语言理解(而不止是处理D那么基于理性的规则方法必然发挥越来越重要的作用一般而言统计方法的优势是快捷规则方法北京邮电大学学报第卷的优势是合理规则方法和统计方法互相补足应是解决自然语言理解问题的合理途径~当前人工智能理论与技术的发展水平显然处在幼儿阶段理解能力还很差确实是统计方法发挥优势的时候但这并不意味着这种格局将维持到永远~这是应有的估计~在实现基于规则的方法和基于统计的方法两者相互结合的方面也存在许多不同的方式一种是以规则方法为基础的结合另一种是以统计方法为基础的结合再一种是同时发挥两者优势的结合~这种多样性是事物复杂性的必然表现~但是既然所面对的是自然语言理解的问题而不是其他领域的计算或统计问题因此不管愿意不愿意或者喜欢或不喜欢语言规则的宏观框架统计处理的微观实现必然成为自然语言理解的一般原则而在具体应用中规则方法和统计方法两者犬牙交错互动互补也必然会成为自然语言理解的基本特征~当然在简单场合这种交错~互动~互补也会变得相对简单~这就是对于自然语言理解研究中规则方法和统计方法相互关系的基本判断~语言理解与信息理论各种自然语言是人类在实践过程中所创造的不同符号系统它们的功能都是用来表达客观世界的信息和主观世界的知识<和信息>~因此研究自然语言理解问题的主要关注点至少应当包括个基本方面一方面是回答给定的符号系列所表达的信息<和知识>是什么<说的是什么>另一方面是回答怎样用符号系列来表达给定的信息<和知识><怎么说>~前者是语言的理解问题后者是语言的表达问题~表面上看自然语言理解所关心的只是说的是什么但是如果能够明白怎么说则必定有助于理解说的是什么~因此这是个互相关联~互相支持的问题~众所周知语言是信息<和知识>的一种符号载体<其他的载体还包括数据~图形~图像~音乐等>符号载体所产生的具体符号系列是它所表达的信息<和知识>的外壳而其中所表达的信息<和知识>则是符号系列的内涵~因此运用信息理论来研究自然语言的理解问题应当是顺理成章的选择~所谓自然语言理解实际上是让机器理解人类自然语言所载荷的信息~怎样才能对自然语言所载荷的信息实现某种程度的理解首先需要了解信息本身的理论~按照信息科学的理论自然语言所载荷的是一种全信息包括语法信息~语义信息~语用信息几个互相联系又互相区别的层次~一般来说如果理解了全信息的语法信息只能说是理解了它的形式如果进一步理解了它的语义信息就可以说理解了它的内容如果不仅理解了语法信息和语义信息而且还理解了它的语用信息就可以说理解了它<相对于主体的目标而言>的价值~对照第部分列举的自然语言理解的个准则可以明白准则<>涉及的是语法信息层次的问题准则<>~<>涉及的是语义信息层次的问题准则<>涉及的则是语用信息层次的问题~因此为了理解自然语言所载荷的信息就要实现对它的语法~语义和语用信息的全面理解即实现对全信息的理解~这里首先需要说明与全信息相关的一些基本概念其中主要包括信息~全信息和全信息理论以及全信息在自然语言理解过程中的作用~有了这些概念基础就可以比较容易地说明全信息自然语言理解方法的含义~目前学术界公认的信息理论是ClaudeEShannon在年创立的通信的数学理论<<AMathematicaltheoryofCommunication>>~由于其阐明了通信系统中信息的概念~信第期钟义信自然语言理解的全信息方法论息量的计算~信息在通信系统中传递的原理,后人便把通信的数学理论更名为信息理论,简称为信息论但是正如Shannon在这篇信息论奠基论文中所指出的那样,通信工程所关注的中心问题是在随机噪声背景下信号(信息的载体D波形的复制,只需要关心通信信号的波形(即形式D,不必关心信号波形的内容和价值信号波形所包含的内容和价值问题则由通信用户(人D自己去处理因此,它是一种关于统计波形复制的信息理论,一种统计的通信理论如果利用Shannon信息论的方法来研究自然语言问题,原则上只能研究自然语言形式的处理问题,而不能有效地解决自然语言理解中的语义理解和效用判断问题信息是一类复杂的研究对象,因此,不同的人从不同的角度对于信息建立了不同的理解,提出了许多不同的定义这种情形很容易使人联想到盲人摸象的寓言事实上,对信息的笼统研究难以奏效,各取所需的研究也不能真正解决问题有效的系统性的研究方法应当是,按照不同的条件把信息划分成不同的层次来刻画,然后根据条件的性质和关系把这些不同层次的研究结果汇聚成为有机的整体按照这个思想,依据不同的研究条件,信息可以划分成为许多不同的层次其中最基本和最有意义的是个层次:一是没有任何约束条件的层次,因而是最基本的层次和最普遍的层次(称为本体论层次D二是仅有一个约束条件存在认识主体并从主体的立场来观察的层次,因而是最重要层次和最有意义的层次(称为认识论层次D本体论层次的信息是事物本身的信息,是无条件的信息一个事物的本体论信息,就是这个事物的运动状态以及状态变化方式的自我表述它与是否有认识主体的存在无关,也与是否被主体所感知无关可见,本体论信息是事物运动直接产生的结果只要有事物的运动,就会产生相应的本体论信息而这里所说的事物,既可以是外部世界(包括自然界和人类社会D的物质客体,也可以是人们主观世界的精神现象这里所说的运动,泛指一切意义上的变化可见,本体论意义的信息是一种普遍的存在哪里有事物,哪里存在事物的运动,那里就有本体论的信息存在正是在本体论信息的意义上,控制论的创始人维纳(NWienerD在文献中把信息理解为既不是物质,也不是能量而是与物质和能量并驾齐驱的新的研究对象认识论层次的信息与本体论层次的信息不同,认识论层次的信息是有条件的信息,它必须以有认识主体的存在为前提如果仅仅存在事物本身的运动而没有认识主体的存在,或者仅有本体论信息存在而没有认识主体对它的感知,那么就只有本体论的信息而没有认识论意义的信息于是,某个认识主体关于一个事物的认识论层次的信息乃是这个认识主体所感知(或表述D的关于那个事物的运动状态及其变化方式,包括这种状态及其变化方式的形式~含义和效用可见,它与认识主体的情形密切相关如果取消这个条件,它就会退化为本体论层次的信息反之,加上这个条件,本体论层次的信息就会变为认识论层次的信息自然语言所表达的信息都是(各种D认识主体所表述的信息,当然属于认识论层次信息的范畴这里所说的认识主体,一般而言可以是人,也可以是人造的机器系统从认识论的观点看,正常的认识主体通常都具有观察力~理解力~目的性个基本特性认识主体通过观察就可以感知事物运动状态及其变化方式的形式通过理解就可以了解事物运动状态及其变化方式的含义通过与自身的目的相比较就可以判断事物运动状态及其变化方式对于实现自身目的而言的效用北京邮电大学学报第卷因此作为主体所感知或所表述的*事物运动状态及其变化方式认识论层次的信息必然包含:()*事物运动状态及其变化方式的形式方面称为事物的语法信息(Z)*事物运动状态及其变化方式的含义方面称为事物的语义信息图全信息概念图解()*事物运动状态及其变化方式对于认识主体的目的而言的效用方面称为事物的语用信息而语法信息~语义信息和语用信息三者的有机整体则称为主体关于该事物的*全信息~它是对于认识论层次信息的完整的描述图示出了全信息概念的形象化解释如上所述事物的*运动状态及其变化方式的形式是事物的语法信息它是可以直接观察到的结果如果用某种符号来记录这些*状态那么*状态及其变化方式就表现为符号及其转移的序列这就是图的中间部分一旦这种*状态及其变化方式的形式与它相应的实际*事物联系起来这种符号及其转移序列就会具有具体的实际含义(图的中间和左边部分)这就是语义信息它不再是抽象的符号而成为十分具体的内容进一步如果*状态及其变化方式的形式以及它的含义一旦与特定的*认识主体联系起来它就会表现出对主体目的的效用(全图)这就是语用信息由此可见语法信息是一个抽象的信息层次语义信息是语法信息与其相应事物互相关联的结果语用信息则是语法信息~语义信息与认识主体相互关联的结果因而是最具体的层次语法信息对于一切具有正常观察能力的主体来说是一致的语义信息对于一切具有相同理解能力的主体来说是一致的它们只与事物本身的情况有关~语用信息对于一切具有同样目的的主体来说也是一致的但是对于具有不同目的的主体语用信息却不可能一致可见全信息概念是一个有机的体系从主体与客体联系的立场上全面刻画了信息问题为了描述和测度全信息需要引入语法信息~语义信息~语用信息的描述参量它们分别是:描述事物运动状态及其变化方式的形式的*肯定度参量(记为C)描述事物运动状态及其变化方式含义的*逻辑真实度参量(记为T)以及描述事物运动状态及其变化方式对主体的效用的*效用度参量(记为U)因此描述全信息的基本模型就构成了一个矩阵:nNnNttntN~~n~N()其中事物X的运动状态集合为{ZnN}定义在上述状态集合上的肯定度集合C~逻辑真实度集合T和效用度集合U分别为{ZnN}~{ttZtntN}和{~~Z~n~N}分别称为事物X的状态的广义肯定度分布~广义逻辑真实度分布和广义效用度分布给定具体的客体与主体模型之后全信息的概念就具体化了不仅如此还可以在此基础上建立全信息的定量测度方法从而建立完整的全信息的理论Z第期钟义信:自然语言理解的全信息方法论总之当面对某个事物比如自然语言)如果通过分析它的语法信息了解了它的形式结构通过分析它的语义信息了解了它的逻辑内容通过分析它的语用信息了解了它的效用价值就可以说s理解了这个事物或者更明确地说如果了解了一个事物的语法信息可以认为对这个事物有了浅层的理解如果了解了这个事物的语法信息和语义信息就可以认为对这个事物有了中等层次的理解只有了解了这个事物的语法信息语义信息语用信息即全信息)才可以认为对这个事物有了深层的理解这就是自然语言理解与全信息理论的关系在自然语言理解领域当前还存在一种误解即虽然承认仅仅进行语法分析还远远不够希望从语法分析的层次上升到语义分析的层次但是认为只要把语义问题分析清楚了一切语言问题就都解决了从全信息的观点来看从语法分析上升到语义分析当然是一个很大的进步但是语法信息语义信息语用信息是一个完整的系统由语法层次上升到语义层次毕竟仍然是全信息的一部分s系统学原理告诉我们整体永远大于部分的s和因而不能满足于对语法和语义层次的分析一定要进入s语法语义语用三位一体的分析才能达到深层理解的目的道理很明显由图的全信息概念就会明白语义信息只涉及符号及其相关事物完全没有涉及到s认识主体的因素因此凡是与认识主体目的相关联的因素只有进入语用信息层次的分析才能得到澄清而s语用往往正是自然语言理解最敏感最要紧的因素至于有些场合只要求对自然语言进行浅层理解自然就应另当别论全信息理论与自然语言理解怎样把全信息理论应用于自然语言理解明确具体问题所需要的理解深度具体问题所需要的理解深度需要具体问题具体分析全信息理论可以对认识论层次信息给出全面的描述这是其他理论不可比拟的优点但是也并非所有语言问题都一定要同时涉及全信息的三要素比如语法检查只关心语句的语法是否规范只需要涉及语法信息文本分类和机器翻译主要关心文本语义准确性而不需要考虑主体因素只需要涉及语法和语义信息信息抽取或文本摘要问题则需要区分文本中的主要部分和次要部分而所谓主要和次要则与主体的目的有关于是就必须关注语用信息信息内容安全监控的问题因为需要分析文本内容是否符合用户设定的安全目标所以需要利用文本的语用信息才能做出判断一般来说不同的语言问题需要利用不同深度的信息应当在事先做出决断根据实际的需要来利用相应层次的信息诚然在浅层理解的语言问题中应用全信息理论并不会产生什么严重的错误但是会带来不必要的计算复杂性和资源浪费这也是应当避免的设法在给定的自然语言序列中提取所需要的语法语义和语用信息按照定义先要明确事物运动的s状态集合或状态矢量)及s状态变化的方式这里的s事物就是自然语言序列因此这里的s状态矢量实际上就是表现自然语言序列基本特征的s特征矢量s状态变化的方式就是s特征之间的衔接关系也即状态矢量的具体构成方式假定所关注的是自然语言的一个语句这个语句可以看作是一个矢量这个语句的主语谓语宾语以及各种修饰成分可以看作是这个矢量的各个分量状态变化的方式就是这些成分之间的衔接关系它们就描述了这个语句的语法信息如果所关注的层次是一个语言篇章整个篇章也可以看作是一个篇章矢量它的分量就是满足某种要求的一些语句状态变化的方式就是这些语句之间的连接关系它们描述了一个语言篇章的语法结构信息北京邮电大学学报第卷进一步为了提取这些语句或篇章的语义和语用信息就要在此基础上明确这些O状态及其变化方式s的含义和效用如果关注的层次是语句那么O状态及其变化方式s的含义和效用就是语句成分及其间的相互关系的含义和效用这可以从辞典(全信息辞典)中逐一检索出来然后按照语句的语法规则由这些O状态及其变化方式s的语义和语用信息推断整个语句的语义和语用信息如果关注的层次是语言篇章就需要在各个语句的语义和语用信息的基础上推断整个语言篇章的语义和语用信息在不太严格的场合可以用语句的O关键词矢量s表征语句的语法信息和语义信息用篇章的O关键词矢量s表征整个篇章的语法信息和语义信息s用语句的O词组矢量s表征语句的语用信息用篇章的O词组矢量s表征整个篇章的语用信息由于O关键词s和O词组s并不能全面地表达语句的信息这种简化会导致信息的丢失导致自然语言理解水平的降级表示语言序列中的语法~语义~语用信息表示语言序列中的语法~语义~语用信息(全信息辞典)就是所谓O全信息辞典s的语言资源构造问题一部好的全信息辞典必须包含足够丰富(起码够用)的基本元素(字或词)每个基本元素又必须包含:D基本元素的结构形式即语法信息s基本元素的各种的含义即语义信息s与这些形式含义相对应的效用(褒贬)因素即语用信息s这一基本元素与其他基本元素的各种可能结合(关系)以及这些结合的语法~语义和语用信息可以认为O全信息辞典s与当前关注的O本体表示(ontology)s具有类似的结构和功能但是本体表示没有强调语用信息全信息辞典则必须包含语用信息全信息辞典的结构和内容可以由人工建造也可以通过机器学习来不断扩充和维护它的基本要求是内容丰富全面容易检索调用显然全信息辞典的建造是自然语言理解的一项根本性的基础建设全信息自然语言理解方法论这里以语句理解为例讨论全信息自然语言理解方法论语句的理解过程通常可以分为个阶段:D通过对语句语法信息的分析判断它的语句结构是否合乎语法s通过语义信息的分析判断语句在逻辑上是否合理(真实)s通过对语用信息的分析判断语句是否有效用和有什么样的效用(效用是针对具体的目的而言的s而目的是在事前由主体设定的)这样通过语句的语法~语义和语用个方面的分析就可以认为O理解s了这个语句:知道了这个语句的语法结构懂得了这个语句所表达的逻辑含义也了解了这个语句所表达的内容对于主体有什么样的效用从而可以回答与这个语句相关的各种问题可以做出与之相应的决策(理解是决策的基础和前提)需要再次强调的是为了使机器能够O理解s自然语言首先需要建立高质量的O全信息知识库s它是自然语言理解系统的O头脑s和核心(如图所示)全信息知识库的内容一般包括词法知识(词形~词类~词性~词义~词的搭配结构以及不同词义的频度~不同搭配的频度等)常常也需要包括可以作为示范例句的句型和各种各样的语料~短语知识~句法知识~逻辑知识~常识等对于专门用途的自然语言理解系统全信息知识库还必须有充分的领域知识和工作目标的知识等没有这样一个全信息知识库再高明的算法也将无济于事对比人类对于自然语言理解的情况这个道理不言自明:人类在能够理解自然语言之前已经积累了大量必要的语言知识和领域知识(统称为O先验知识s)没有这些知识再聪明的人也不可能真正有所作为这个知识库可以先由人工建造然后通过机器学习来维护和扩展基于以上讨论可以构第期钟义信:自然语言理解的全信息方法论建图的全信息自然语言理解系统的框架模型图中示出了全信息自然理解的基本过程图全信息自然语言理解框架模型图中表明在全信息知识库的支持下语法分析的任务是要回答:所分析的语句在语法结构的意义上是否为一个合法语句如果回答为是就送给下一级进行分析否则就略去这个语句(这里假定对一个非法语句进行分析没有实际意义如果不是这样就要根据语法知识对它进行另外的处理D同样在全信息知识库支持下语义分析的任务是要回答:所分析的语句在逻辑含义上是否为真~如果回答为是就继续下一步的分析否则就被略去(这里也假定分析逻辑不真的语句是没有意义的D最后也是在全信息知识库支持下语用分析的任务是要回答所分析的语句对于主体设定的目标而言是否有效用从而根据效用的正负大小做出相应的决策(当然决策本身已经超出了理解的范围理解只为决策提供依据D通常正如图所示为了便于机器理解自然语言事前需要进行必要的预处理对于汉语这种自然语言来说预处理可以包括分词~断句~词性标注~专名识别~词法分析等各种步骤另外由于自然语言理解的目的和用途不同所以在理解的基础上通常必须经过适当的后处理来适应具体的用途可见这里在整体框架上(宏观上D是规则型的而在全信息的表示和分析以及全信息知识库的建构方面(微观上D却是统计型的也就是说无论是语法分析还是语义和语用的分析都可以建筑在统计分析的基础上(详见第部分D因此它是宏观的规则型与微观的统计型两种方法的有机统一应当说明图所示的全信息自然语言理解框架模型在原理上是一个通用模型适用于各种自然语言理解的场合但是在具体实现的时候它又是一种专用模型因为不同领域的自然语言理解系统要求给定不同的目标信息和领域知识因此全信息自然语言理解方法论的特色是:原理是通用的~统一的实现是具体的~个别的这样就可以在统一的原理框架下演绎出各种各样的专用系统全信息自然语言理解方法论的应用近几年作者应用全信息自然语言理解方法完成了一系列自然语言理解的应用系统其中包括:基于概念网络的智能型搜索引擎<倚天>(已经在北京市政府网站<首都之窗>正式使用D~理解型的中文文本自动摘要系统(LADIES和GLANNCED~多个领域的中文文本自动分类系统~面向Internet的电子邮件信息内容安全过滤系统(IMFSD和网页信息内容安全监控系统~面向文本自动摘要系统的知识库机器学习系统以及面向多领域中文自动文摘的群体北京邮电大学学报第卷智能(mutiagent)系统等这些系统的成功,证明了N全信息自然语言理解方法论s的有效性这里,仅以新近完成的IMFS为例,对N全信息自然语言理解方法s略加说明选择这一实例,是因为N网络信息内容安全s问题已经在全世界范围内引起人们越来越高度的关注,成为信息安全问题的新热点,而传统的N信息安全s理论和方法又不能有效地解决这类新出现的信息安全问题,是N自然语言理解s可以一显身手的大舞台IMFS的系统结构如图所示图IMFS的系统结构不难看出,它的核心系统理解的框架结构和图完全一样因此,系统能够利用N全信息自然语言理解方法s对输入文本所包含的全信息(语法信息~语义信息和语用信息)进行分析和N理解s,并在理解文本内容的基础上,根据用户提供的N安全领域定义s和监控规则做出相应的决策具体来说,系统的N预处理s模块是系统与Internet之间的接口,任务是从Internet提取所要监控的电子邮件,消除非文本因素(有些非法文本为了逃避过滤,往往会在文本内故意插入一些空格或其他无关的符号,这些与文本无关的符号可以在这里剔除),然后把它转换成为系统所需要的格式系统所用的N语法分析s模块是常规的,它的任务是判别输入的符号序列是否为合法语句,只有合法语句才送到下一级分析系统N语义分析s模块的任务是要判别所分析的电子邮件内容是否属于本系统所关注的安全领域(N安全领域s由用户定义),只有属于本系统所关注的安全领域范围内的电子邮件才需要送到下一级进行分析,不属于该领域的邮件则直接转发N语用分析s模块的任务,是要判别落入安全监控领域的电子邮件内容对于系统所设定的安全目标而言究竟是有利的还是有害的(N安全目标s由用户定义),有益的以及无害的就予以转发,有害的则交给后处理系统处理系统的N后处理s根据监控规则采取相应的措施在系统功能实现上,可以把输入文本统一表达为N语法信息矢量s~N语义信息矢量s和N语用信息矢量s,于是可以方便地运用N向量空间模型s或N支持向量机模型s以及N人工神经网络s的方法,进行语法~语义和语用的统计分析和判决系统的全信息知识库首先由人工建造,然后可以通过机器学习和数据挖掘的方法对全信息知识库进行维护和扩展因此,系统在宏观上是N理解方法s,而在微观上则是N统计方法s,实现了理解方法与统计方法的有机结合IMFS在北邮电信和北京邮电大学校园网络上经过半年之久的运行和开放测试,对于所设定的安全领域和安全目标的召回率和准确率两个指标双双优于,为所有N非自然语言理解s的系统所不能及目前,IMFS已经通过国家相关部门的检验测试,并被转化为正式的安全产品第期钟义信,自然语言理解的全信息方法论需要指出,IMFS的理论框架可以相对稳定,它的实现技术(特别是语法信息~语义信息~语用信息的表示方法和分析技术)可以随着技术的进步而不断改进结论与展望自然语言处理和理解的研究具有重大的意义,社会的需求已经十分迫切目前的研究状况与需求相比存在很大的差距,需要付出巨大的努力自然语言理解是多学科交叉的研究领域,需要语言学~认知学~信息学~人工智能等各个学科的通力合作可以期待,在未来的O年内外,在信息化和全球化的社会需求牵引下,在智能科学~语言科学~认知科学和信息科学等科学技术进步的推动下,机器理解人类自然语言的研究将取得重大进展,而全信息自然语言理解方法论将为此做出积极的贡献参考文献:ShannonCEAmathematicaltheoryofcommunicationJ,BellSystemtechJ,,:BB,B钟义信信息科学原理M第B版北京:北京邮电大学出版社,OOZhongYXPrinciplesofinformationscienceMthethirdedtionBeijing:BeijinguniversityofPostsandtelecommunicationsPress,OOBWienerNCyberneticsMNewYork:Wiley,钟义信知行学:信息知识智能的统一理论J中国工程科学,OO,():ZhongYXAunifiedtheoryofinformation,knowledgeandintelligenceJChinaEngineeringScience,OO,():郭祥昊基于概念网络的NEWS系统D北京:北京邮电大学信息工程学院,GuoX~NEWSanautomaticabstractsystemDBeijing:InformationEngineeringSchool,BeijinguniversityofPostsandtelecommunications,李蕾基于全信息的LADIES系统D北京:北京邮电大学信息工程学院,OOOLiLLADIESCIbasedsummarizationsystemDBeijing:InformationEngineeringSchool,BeijinguniversityofPostsandtelecommunications,OOO刘伟权基于规则与统计相结合的GLANNCE系统D北京:北京邮电大学信息工程学院,LiuWGGLANNCEanabstractsystembasedonthecombinationofruleandstatisticsDBeijing:InformationEngineeringSchool,BeijinguniversityofPostsandtelecommunications,胡舜耕多智能体的理论研究与实现D北京:北京邮电大学信息工程学院,OO~uSGMultiagent:theoreticalresearchandimplementationDBeijing:InformationEngineeringSchool,BeijinguniversityofPostsandtelecommunications,OO落红卫智能防火墙的研究与开发D北京:北京邮电大学信息工程学院,OOBLuo~WAnRSDinintelligentfirewallDBeijing:InformationEngineeringSchool,BeijinguniversityofPostsandtelecommunications,OOB北京邮电大学学报第卷自然语言理解的全信息方法论作者:钟义信作者单位:北京邮电大学,智能科学技术研究中心,北京,刊名:北京邮电大学学报英文刊名:JOURNALOFBEIJINGUNIVERSITYOFPOSTSANDTELECOMMUNICATIONS年卷(期):,()被引用次数:次参考文献(条)落红卫智能防火墙系统的研究与实现学位论文胡舜耕多智能体的理论研究与实现刘伟权基于规则与统计相结合的GLANNCE系统李蕾基于全信息的LADIES系统郭祥昊基于概念网络的NEWS系统钟义信知行学:信息知识智能的统一理论期刊论文中国工程科学()WienerNCybernetics钟义信信息科学原理第版ShannonCEAmathematicaltheoryofcommunication引证文献(条)鲁慧民冯博琴李旭面向多源知识融合的扩展主题图相似性算法期刊论文西安交通大学学报()阳小华周座基于查询与内容的文档表示模型期刊论文南华大学学报(自然科学版)()赵慧臣知识可视化视觉表征的分析框架期刊论文开放教育研究()刘德喜吴世汉万常选XML文本自动文摘研究综述期刊论文计算机应用研究()陈彦萍李增智语用Web服务管理框架期刊论文解放军理工大学学报(自然科学版)()化柏林张新民从情报学与相关学科的差异性看情报学的核心技术期刊论文情报理论与实践()顾铮顾平信息抽取技术在中医研究中的应用期刊论文医学信息()张帆基于多智能技术融合的智能系统核心机制研究与应用学位论文博士滕弘飞王奕首史彦军人机结合的关键支持技术期刊论文机械工程学报()张素香文娟秦颖袁彩霞钟义信实体关系的自动抽取研究期刊论文哈尔滨工程大学学报(z)郭燕慧王枞钟义信语言认知与主题内容识别期刊论文北京邮电大学学报(z)张素香李蕾谭咏梅特定领域下关系模板的研究期刊论文北京

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/14

自然语言理解的全信息方法论

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利