下载

1下载券

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 自然语言理解与机器翻译实现

自然语言理解与机器翻译实现.pdf

自然语言理解与机器翻译实现

bluealbin
2012-01-18 0人阅读 举报 0 0 0 暂无简介

简介:本文档为《自然语言理解与机器翻译实现pdf》,可适用于人文社科领域

第卷第期年月许昌学院学报JOURNAlOFXUCHANGUNIVERSITYVo..No.Mar.o文章编号:()自然语言理解与机器翻译实现李振亭任靖娟(河南师范大学物理与信息工程学院河南新乡)摘要:计算机技术对人类社会的全方位渗透引起了语言的重构不断创造出不同于传统自然语言的计算机语言这种语言从简单的应用到各种复杂的对话并逐步发展到能象自然语言一样表达和传递.但基于语料库技术的应用潜力有限机器翻译的人工修正也十分必要.关键词:自然语言理解机器翻译人工智能中图分类号:H.文献标识码:A引言自然语言理解研究是实现人与计算机之间用自然语言进行有效通信的各种理论和方法.语言信息处理也就是机器翻译(简称MT)是数字计算机在非数值领域的最早应用.自然语言理解和机器翻译是计算机科学与人工智能领域中的一个重要方向⋯.随着计算机和人工智能技术的发展自然语言理解不断取得进展机器翻译是自然语言理解最早的研究领域.由于早期研究中理论和技术的局限所开发的机译系统的技术水平较低不能满足实际应用的要求.上世纪年代之后自然语言理解的应用研究广泛开展机器学习研究又十分活跃并出现了许多具有较高水平的实用系统.这标志着自然语言理解在理论上和应用上取得了突破性进展.谈到自然语言理解NLU(NaturalLanguageUnderstanding)与机器翻译MT(MachineTranslation)有关专家曾经提出这样的设想:利用现代信息技术特别是自然语言理解的最新科学技术成就研制“面向奥运的多语言智能信息服务网络系统”力争在年北京奥运会期间为各国运动员、记者、观众和来自全世界数以百万计的旅游者提供综合、全面、多语种、可定制的信息服务以实现申奥报告提出的“任何人、在任何时间、任何场所都能够安全、方便、快捷高效地获取可支付得起的、丰富的、无语言障碍的、个性化的信息服务”Lj的承诺.这个设想非常有启发性和学科导向意义对于从事自然语言理解和机器翻译技术的工作人员提出了具有创造性的挑战和思考.对自然语言理解和机器翻译的认识自然语言是在人类文明发展的漫长过程中自然形成的.所谓自然形成意味着它的形成是基于每个人所拥有的一种基本权利:自由创造语言符号和自由约定符号语义.而自然语言的“标准化”工作则不得不以自由创造成果的自然流行为基础和前提.令人眼花缭乱的网络语言虽然有点另类但却是自然语言这一基本特征的有力证明.俞士汶教授曾撰文指出:自然语言理解一直是计算机科学中的一个引人人胜的、富有挑战性的课题.由于自然语言十分复杂人是如何理解语言的怎样给“理解”下一个确切的定义是极其困难的J.结构主义理论认为机器的理解机制与人相同问题在于谁也说不清自己理解语言的步骤而功能主义理论认为机器的表现与人相同由图灵测试表明如果通过自然语言的问答一个人无法识别和他对话的是人还是机器那么就应该承认机器具有智能.从信息处理的角度看语言既然是信息的载体如果计算机实现了机器翻译或自动文摘或人机会话等语言信息处理功能则认为计算机具备了理解自然语言的能力.为了实现这些功能计算机除了需要具备会分析输入给计算机的文章或话语的能力之外还需要具备能生成语句与文章的本领J.因此在计算机科学中经常使用“自然语言处理”或“语言信息处理”这类术语来概括这些研究内容.目前理论界公认自然语言处理是一门交叉学科它涉及到语言学、数学、逻辑收稿日期:作者简介:李振亭(一)男河南禹州人副教授硕士研究生导师研究方向:现代教育技术、计算机辅助教育及数字媒体创作维普资讯http:wwwcqvipcom第卷第期李振亭等:自然语言理解与机器翻译实现ll学、计算机学等等多个学科口j.机器翻译MT是利用计算机把一种自然语言转变成另一种自然语言的过程.用以完成这一过程的软件组合叫做机器翻译系统.机器翻译的理论基础计算机语言学有两大目标:技术方面和心理学方面.前者借助计算机分析和处理自然语言后者则有助于理解人类如何处理自然语言.关于机器翻译的历史lj可以追述到年笛卡儿主张的一种“泛语言”(universallanguage)就是对各种不同语声而有相同含义的词赋以同一个符号.这实际上就是语言转换和语言翻译最初的设想.到年贝尔试验室在纽约的世界博览会第一次演示了电子语音合成设备年YehoshuaBarHillel作为MIT的全职机器翻译的研究员组织了第一次MT的学术会议此后长期以来世界上许多国家都一直在从事机器翻译研究尤其是在上廿纪年代电子计算机的诞生之起就开始了将计算机应用于语言翻译的探索但一直没有获得成功.到年美国向全世界发表了有名的ALPAC报告宣布了机器翻译在可预见的将来是不可实现的由此机器翻译走入低谷.上世纪年代中期一直到整个年代由于需求的推动和计算机软、硬件技术的飞速发展使得机器翻译的研究开始在世界范围内复苏并日趋走向繁荣.这时的机器翻译系统主要采用两种方法:基于转换的方法与基于中介语言的方法.这两种系统都依赖于对语言的分析也就是某种程度的“理解”.由于这时的系统主要依赖于语言专家人工编写语言规则所以这一类方法又被称为基于“规则”的方法.但人们也发现由于机器翻译涉及的知识过于复杂知识库规模庞大规则之间的冲突变得越来越多翻译的正确率在达到一定程度后很难再提高.年联合国教科文组织委托日本联合国大学组织实施重大跨国世纪性异种语言自动处理软件开发工程通用网络语言(UniversalNetworkingLan.guage简称UNL)工程的研究开发工作受到机器翻译界的瞩目该项目的最终目的是通过中间语言实现联合国一百八十多个成员国之间的语言自动转换从而克服语言障碍达到各国语言的网上互通增进各成员国之间在政治、经济、科技、文化等领域的联系和交流.该项目的提出是在机器翻译界进行的一次有益探索.我国的机器翻译研究从年开始就得到了国家的高度重视具有多方面不同知识结构人员的协同攻关的特点.这是该项研究自身的特点所决定的因为它需要至少计算机科学、数学、语言学等多方面知识.年中国的机器翻译研究者成功地进行了中国首次机器翻译试验表演成为世界上第五个进行这种实验的国家.年心理研究所李家治陈永明建立了机器理解汉语的CLUS系统语言研究所范继淹、徐志敏开发了RJD一汉语人机对话系统年马希文设计了FINL通用句法分析系统年董振东、张德王A研制了科译一号年由中软总公司、清华大学、北京语言大学、中国人民大学等单位参加的研制了亚洲多国语机器翻译系统年计算研究所陈肇雄等开发了智能英汉机译系统J.从上世纪年代初期至今中国的机器翻译走入了快速发展的时期出现了许多商品化系统.近期的机译系统大体上有这样一些特点:多数配有大规模的多种领域的专业词典多数能在网上运行有相当不错的方便用户的界面.基于语法分析和基于语料库的机器翻译技术机器翻译是一个极其复杂的系统工程它所涉及的每一个领域的发展都会严重制约机器翻译的进展.由于人工智能技术在现阶段还不成熟与人脑机制存在很大的差距计算机实现自动识别、自动推理的功能还很有限很难在没有固定规律的语言学之中提取出我们想要的信息现阶段的电脑没有办法“看懂”人类的语言而机器翻译取得突破性进展依赖于计算机技术与人工智能的发展.实际上机器翻译的复杂性是由人类自然语言本身的复杂性所决定的是无法避免的.由于影响人类自然语言的因素太多(包括韵律、词法、句法和语义等等)而这些因素又互相交错在一起再加上自然语言处理技术(NLP)需要的知识非常复杂理解语言的过程是动态的而不是静态NLP需要的知识大多是归纳的而不是演绎的对于同样的语言现象即使人也不一定能够得出一致的理解结果所有这些因素决定了NLP的非确定性加上对歧义的限制和系统的覆盖率矛盾以及领域词典不充分等这些都大大制约着机器翻译研究的进展.机器翻译之所以被列为“二十世纪的十大科技难题之一”是因为从目前机译系统的现状看无论是基于规则的系统还是基于经验的系统都无法突破高准确率这一难关有人甚至把这个技术难题称为机器翻译系统研究的“哥德巴赫猜想”.现今的机器翻译实现技术原理主要有两大分支:基于语法分析和基于语料库.①基于语法分析的技术就是对源语言语句的词法、语义、语法和句法进行分析并进行判断和取舍然后重新进行排列组合最后生成目标语言.这一系列过程均是模仿人脑进行翻译的过程尽管计算机具有维普资讯http:wwwcqvipcoml许昌学院学报年月良好的存储记忆和执行功能但它却缺少良好的思维功能.而人类的翻译工作恰恰是一种极其复杂的逻辑思维过程.要解决这一矛盾就必须将输入计算机的语言公式化、规则化.规则设计的实质是寻找一种“规则描述语言”用于描述自然语言使其能被计算机处理.由于自然语言具有灵活性、复杂性和开放性等特点规则的建立完善是很难的目前用该方法做出的翻译软件其译文的可读性不太理想.该方法在机器翻译研究的初期占主导地位.②基于语料库技术的工作原理是利用统计学和概率方法建立对照语料库在翻译时从语料库中抽取与输入句子相类似的例句然后模仿例句来实现源语言与目标语言的转换.采用这种技术能够得到可读性和准确性较好的译文这种技术目前已越来越受到重视并已在很多产品的开发中得到应用而且成为人们机器翻译的关键技术.为使机器翻译能更好的体现原文的意思达到译文最优化的翻译效果应从以下几方面努力:①建立基于语料库的机器翻译的运行机制通过文本扫描、文体缓冲文本缓冲、译文缓冲最终译文等四个过程经过计算机处理环节后源语文本的机译结果将以文本文件的形式出现在用户指定的文件夹.②开发人机交互机器翻译系统这样在翻译过程中把离散的、没有一定规则的工作交给人来做使机器和人二者互补长短、各尽其能就会解决机器翻译带来的语法、语义和句法上的歧义现象ll。。.③建立一系列面向机器翻译的语料库、句型库、文体特征库、认知知识库.④开发一系列针对面向机器翻译的语料库、句型库、文体特征库、认知知识库的自然语言处理工具、分析工具、检索工具.⑤不断融合各种语言学理论、翻译理论和信息技术(包括人工智能技术)的最新成果改善基于语料库的机器翻译系统的性能和质量.人工监控和修正的必要性虽然语料库的机器翻译系统具有一系列的明显优势但有时离开了人工修正也很难达到对原文的正确理解.下面我们试以“联通多语种在线翻译系统”和“雅信CAT。”为例来分析阐述机器翻译的缺陷与人机互助翻译的必要性.与机器自动翻译系统(MachineTranslationMT)不同雅信CAT.是一种计算机辅助翻译系统(ComputerAidedTranslationCAT)主要采用翻译记忆(TranslationMemo~TIM)和灵活的人机交互技术它的优点在于彻底改变了传统的翻译工作方式由译员把握翻译质量让计算机辅助人工快速完成工作由此可以大幅提高翻译效率、保证译文质量、从而满足精确翻译的要求.为了便于理解下面引用一些翻译实例加以分析:范例:Artificialintelligencefollowsastatisticorderinsteadofmechanicallaws.雅信系统:人工智能遵循统计命令而不是机械法律.人工修正:人工智能的行为指向遵守统计性规则而不是机械规则.范例:AshorttermoraninstantvaluejudgmentisoneofthemostdifficultproblemsinAIresearch.雅信系统:一短的期限或一立刻价值判断是最困难的问题之一在ai研究.人工修正:对于人工智能来说最难的就是即时或短期价值的判定范例:Highintelligentcyberbrainmadebymancangreatlyshortenallscientificresearches.雅信系统:高级的智能的制造被可以极大地缩短全部的科学研究.人工修正:人类制造高级智能电脑可以大大缩短所有科研项目.从以上翻译实例可以看出机器翻译虽然能够方便快捷地处理文字材料但离开了人工监控与修正很难达到准确翻译的要求甚至会得出风马牛不相及的结果.尤其是在处理超出“自然语言”之外的文字材料必须考虑文化、语境的差异在翻译时得更加小心才是.作为译者必须保证自己能够熟悉文本所涉及到的相关文化意境正确地理解原文做出正确的语境假设并在语境中寻求关联才能成功地进行翻译.由此可以看出机器翻译只能作为一种辅助手段只有人机互助才能达到满意的效果.自然语言应如此文学语言更应如此.总而言之机器翻译的难点在于自然语言理解程度.虽然如此不容否认的一个事实是机器翻译目前已经初步走向实用.比如目前在我国软件市场上出现的很多英汉机器翻译软件虽然这些系统有待完善翻译质量还远远不能满足广大用户的要求.客观地讲我国的机器翻译研究水平和应用程度比起西方语言之间的机器翻译来说还有一定的差距其中一个重要的原因是汉语和西方语言之间的差距比不同种西方维普资讯http:wwwcqvipcom第卷第期李振亭等:自然语言理解与机器翻译实现ll语言之问的差距要大得多这是由汉语的独特性决定的.比女l】汉语成语“风马牛不相及”还有地方方中高度凝练的语言“准我.啥尿.”采用机器翻译尤论如何也传达Ⅲ汉语寿文字的意境和神韵.结语世界经济全球化以及计算机网络的迅速普及给机器翻译和门然语音处理技术提出r空前的挑战同时也为其发展拓展出极大的空间.基于语料库的机器翻译系统具有一系列的明优势它将在基于词库的机器翻译系统基础之上结合最新的人I智能技术实现机器翻译质量的大幅度提高.可以推测在不远的将来各种机器翻译和自然语言处理软件就会像今天的文字处理软件一样成为普通用户日常生活中不可缺少的工具.但是我们必须明白一点人类自然语言足一个极其复杂的系统内然语言处理技术能达到的最高境界当然是实现真正的自然语言理解而达到语寿信息处理的“自由王国”境界几乎不是不可能的事情¨.因为一个基本的事实是在人机关系中计算机永远无法超越或者替代人脑人工智能无论如何发达也无法逾越人类复杂的思维.机器翻译在一些专业性特别慢的领域比如哲学、文学作品的翻译中永远无法替代人工翻译但我们也有理由卡日信随着人类科学研究的进一步发展完善机器翻译会越来越接近于实现真正意义上的自然语言理解从而更好地服务与我们的生活.参考文献:黄荣怀李茂国沙景荣.知识工程学:一个新的重要研究领域DB/OL.http://www.szsskxx.com/zyzs/more.aspname=wanhajchengid=.邓永强郑方.自然语言理解技术智能信息服务的核动力DB/OL.CTI论坛周刊http://www.ctiforum.cm/facry/fo/dEar/dear..htm.俞士汶.自然语言理解与语法研究M.北京:商务印书馆..马希文.自然语言理解J.计算机工程与应用():l.KristinDemos.MachineTranslation’SPastandFutureDB/OL.WiredMagazinehttp://www.wired.com/wired/archive/./timeline.htm.姚天顺朱靖波.自然语言理解一种让机器懂得人类语言的研究(第版)M.北京:清华大学出版社.董振东.中国机器翻译的世纪回顾DB/OL.中国翻译网http://www.chinatranslate.net/IT/it.htm.吴思乐.机器翻译与人工翻译浅析J.广东交通职业技术学院学报():.陈光火.翻译软件渴望“成熟”我国翻译软件的现状与未来DB/OL.http://www.blogcn.com/user/liudehuaihao/blog/.htm.O李文翔晏蒲柳夏德麟.基于内容主题的语料库系统设计与实现J.计算机应用研究():.刘群孙建平.计算机能理解语言吗机器翻译和自然语言处理DB/OL.http://www.pcworld.COrn.cn//backissues//a.asp.责任编校:周伦AReflectionontheDevelopmentandApplicationofNLU&MTTechnologyLIZhentingRENJingjuan(InstituteofPhysicsInformationEngineeringHenanNormalUniversityXinxiangChina)Abstract:Theomnibearingapplicationofmodemcomputertechnologyinhumansocietyhascausedthereconstructionoflanguageandthuscreatedacompletelynewtypeoflanguage一“computerlanguage”.Fromitssimpleapplicationtocomplicateddialoguethisnewtypeoflanguagehasprovedtobealmostasflexibleasnaturallanguageinconveyingmeanings.BasedontheknowledgeofNLU(naturallanguageunderstanding)aswellasMT(machinetranslation)techniquesthisessaymainlyintroducesthepotentialpowerofthetechnicalapplicationofCO/'pHSbaseandthenecessityofitsmodefication.Keywords:naturallanguageunderstanding(NLU)machinetranslation(MT)artificialintelligence(At)维普资讯http:wwwcqvipcom

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

评分:

/4

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利