首页 自然语言处理的历史与现状

自然语言处理的历史与现状

举报
开通vip

自然语言处理的历史与现状 1 4 F L C Ja n . 2 0 0 8 V o l.5 N o .1 (G e n e ra l S e ria l N o 学 术 探 索 F L C Ja n . 2 0 0 8 V o l.5 N o .1 (G e n e ra l S e ria l N o 自然语言处理的历史与现状 冯志伟 教育部语言文字应用研究所 11 美国计算机科学家Bill Manaris(马纳利斯) 在1999年出版的《计算机进展》(Advanc...

自然语言处理的历史与现状
1 4 F L C Ja n . 2 0 0 8 V o l.5 N o .1 (G e n e ra l S e ria l N o 学 术 探 索 F L C Ja n . 2 0 0 8 V o l.5 N o .1 (G e n e ra l S e ria l N o 自然语言处理的历史与现状 冯志伟 教育部语言文字应用研究所 11 美国计算机科学家Bill Manaris(马纳利斯) 在1999年出版的《计算机进展》(Advances in Computers)第47卷的《从人—机交互的角度 看自然语言处理》一文中,曾经给自然语言处理 提出了如下的定义: “自然语言处理可以定义为研究在人与人交 际中以及在人与计算机交际中的语言问题的一门 学科。自然语言处理要研制表示语言能力 (linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样 的语言模型,提出相应的方法来不断地完善这样 的语言模型,根据这样的语言模型设计各种实用 系统,并探讨这些实用系统的评测技术。”① 这个定义比较全面地说明了自然语言处理 的性质和学科定位,我们认同这个定义。从20世 纪40年代算起,自然语言处理的研究已经有60 多年的历史了,随着信息网络时代的到来,它已 经成为了现代语言学中一个颇为引人注目的学 科。本文分析自然语言处理的历史与现状,希望 引起语言学研究者对于这个学科的注意。 自然语言处理的发展可以大致上分为3个 时期:萌芽期、发展期和繁荣期。 萌芽期 早在计算机出现以前,英国数学家A. M. Turing(图灵)就预见到未来的计算机将会对自 然语言研究提出新的问题。 他在1950年发表的《机器能思维吗》一文 中指出:“我们可以期待,总有一天机器会同人 在一切的智能领域里竞争起来。但是,以哪一点 作为竞争的出发点呢?这是一个很难决定的问 题。许多人以为可以把下棋之类的极为抽象的活 动作为最好的出发点,不过,我更倾向于支持另 一种主张,这种主张认为,最好的出发点是制造 出一种具有智能的、可用钱买到的机器,然后, 教这种机器理解英语并且说英语。这个过程可以 仿效小孩子说话的那种办法来进行。” Turing提 出,检验计算机智能高低的最好办法是让计算机 来讲英语和理解英语。他天才地预见到计算机和 自然语言将会结下不解之缘。 从20世纪40年代到50年代末这个时期是 自然语言处理的萌芽期。自然语言处理的研究的 最早源头可以追溯到第二次世界大战刚结束时, 那时刚发明了计算机。在这个时期,有三项基础 性的研究特别值得注意: 作者简介:冯志伟, 教育部语言文字应 用研究所研究员、 博士生导师。研究 方向:自然语言处 理、计算语言学、机 器翻译、应用语言 学。E - m a i l : z w f e n g d e @ hotmail.com。 中图分类号:H0-09 文献标识码:A 文章编号:1672-9382(2008) 01-0014-09 摘 要: 自然语言处理是现代语言学中一门引人注目的新学科,它是语言学和计算机科学 相互结合的产物。本文介绍了自然语言处理的萌芽期,发展期与繁荣期,指出了 当前自然语言处理研究的特点。 主题词: 自然语言处理;语音自动处理;机器翻译;话语分析;自然语言理解 1 5 2 0 0 8 年 1 月 第 5卷 第1期 ( 总 第 2 1期 ) 中 国 外 语 第一项是A. M. Turing算法计算模型的研 究,第二项是 N. Chomsky(乔姆斯基)关于形 式语言理论的研究,第三项是C. E. Shannon (香农)概率和信息论模型的研究。 20世纪50年代提出的自动机理论来源于A. M. Turing在1936年提出的算法计算模型,这种 模型被认为是现代计算机科学的基础。 Turing的工作首先导致了McCulloch-Pitts (麦克罗克-皮特)的神经元(neuron)理论。一 个简单的神经元模型就是一个计算的单元,它可 以用命题逻辑来描述。接着,Turing的工作导致 了Kleene(克林)关于有限自动机和正则表达 式的研究。Turing是一个数学家,他的算法计算 模型与数学有着密切的关系。 1948年,C. E. Shannon把离散马尔可夫 过程的概率模型应用于描述语言的自动机。 1956年,美国语言学家N. Chomsky从Shannon 的工作中吸取了有限状态马尔可夫过程的思想, 首先把有限状态自动机作为一种工具来刻画语言 的语法,并且把有限状态语言定义为由有限状态 语法生成的语言。这些早期的研究工作产生了 “形式语言理论”(formal language theory)这 样的研究领域,采用代数和集合论把形式语言定 义为符号的序列。 N. Chomsky在他的研究工作中,把计算机 程序设计语言与自然语言置于相同的平面上,用 统一的观点进行研究和界说。 Chomsky在《自然语言形式分析导论》一 文中,从数学的角度给语言提出了新的定义,指 出:“ 这个定义既适用于自然语言,又适用于逻 辑和计算机程序设计理论中的人造语言”。② 在 《语法的形式特性》一文中,他用了一节的篇幅 来专门论述程序设计语言,讨论了有关程序设计 语言的编译程序问题。这些问题是作为“组成成 分结构的语法的形式研究”,③ 从数学的角度提 出来,并从计算机科学理论的角度来探讨的。他 在《上下文无关语言的代数理论》一文中提出: “我们这里要考虑的是各种生成句子的装置,它 们又以各种各样的方式,同自然语言的语法和各 种人造语言的语法二者都有着密切的联系。我们 将把语言直接地看成在符号的某一有限集合 V 中 的符号串的集合,而 V 就叫做该语言的词 汇⋯⋯,我们把语法看成是对程序设计语言的详 细说明,而把符号串看成是程序。”④ 在这里 Chomsky把自然语言和程序设计语言放在同一 平面上,从数学和计算机科学的角度,用统一的 观点来加以考察,对“语言”、“词汇”等语言学 中的基本概念,获得了高度抽象化的认识。 Chomsky在研究自然语言的时候首先提出 了上下文无关语法(context-free grammar)。但 是,Backus(巴库斯)和 Naur(瑙尔)等在描 述ALGOL程序语言的工作中,分别于1959年 和1960年也独立地发现了这种上下文无关语 法。这些研究都把数学、计算机科学与语言学巧 妙地结合起来了。 这个时期的另外一项基础研究工作是用于 语音和语言处理的概率算法的研制,这是C. E. Shannon的另一个贡献。Shannon把通过诸如 通信信道或声学语音这样的媒介传输语言的行为 比喻为噪声信道(noisy channel)或者解码 (decoding)。Shannon还借用热力学的术语 “熵”(entropy)来作为测量信道的信息能力或 者语言的信息量的一种方法,并且他采用手工方 法来统计英语字母的概率,然后使用概率技术首 次测定了英语的熵为4.03比特。 这些研究与数学和统计学有着密切的关系, 属于信息论(information theory)的基础性研 究。 语音自动处理的研究是自然语言处理的一 个重要方面,这样的研究源远流长。 早在1780年,Von Kempeln (肯普棱,1734 —1804)就发明了Kempeln机来模拟人的发音。 20世纪初,Homer Dudler(多德利)发明 了Dudler机,这种装置又叫做Voder语音合成 器。Dudler机可以合成英语,在1939年的纽约 国际博览会上展出。 1936年英国设计出了说话钟(speaking clock)。 1946年,Konig(科尼希)等研究了声谱。 声谱和实验语音学的基础研究为尔后语音识别的 研究奠定了基础。这导致了50年代第一个机器 语音识别器的研制成功。1952年,Bell(贝尔) 实验室的研究人员建立了一个统计系统来识别由 一个单独的说话人说出的10个任意的数目字。 该系统存储了10个依赖于说话人的模型,它们 粗略地代表数目字的头两个元音的共振峰。Bell 实验室的研究人员采用选择与输入具有最高相关 系数模式的方法,达到了97%~99%的准确率。 这些研究与电子 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 密切相关。 1968年,Umeda(伍姆达)等研制出第一 个完全的文本语音转换器。 1977年Joe Oliver(奥里维)等研制出商 品化的语音合成器Speak and Spell,能够把拼 写出的单词读出声来。 自然语言处理的另一个重要领域是机器翻 译(machine translation)。 1946年,美国宾夕法尼亚大学的J. P. Eckert(埃克特)和J.W.Mauchly(莫希莱)设 计并制造出了世界上第一台电子计算机ENIAC。 电子计算机惊人的运算速度,启示着人们考虑翻 .. 1 6 F L C Ja n . 2 0 0 8 V o l.5 N o .1 (G e n e ra l S e ria l N o 译技术的革新问题。因此,在电子计算机问世的 同一年,英国工程师A.D. Booth(布斯)和美国 洛克菲勒基金会副总裁W. Weaver(韦弗)在讨 论电子计算机的应用范围时,提出了利用计算机 进行语言自动翻译的想法。 1947年3月6日,Booth与Weaver在纽约 的洛克菲勒中心会面,Weaver提出,“如果将计 算机用在非数值计算方面,是比较有希望的”。 在Weaver与Booth会面之前,Weaver在1947 年3月4日给控制论学者N. Wiener(维纳)写 信,讨论了机器翻译的问题。Weaver说:“我怀 疑是否真的建造不出一部能够做翻译的计算机? 即使只能翻译科学性的文章(在语义上问题较 少),或是翻译出来的结果不怎么优雅(但能够 理解),对我而言都值得一试。”可是,Wiener给 Weaver泼了一瓢冷水,他在4月30日给Weaver 的回信中写道:“老实说,恐怕每一种语言的词 汇,范围都相当模糊;而其中表示的感情和言外 之意,要以类似机器翻译的方法来处理,恐怕不 是很乐观的。”⑤ 不过Weaver仍然坚持自己的意 见。1949年,Weaver发表了一份以《翻译》为 题的备忘录,正式提出了机器翻译问题。在这份 备忘录中,他除了提出各种语言都有许多共同的 特征这一论点之外,还有两点值得我们注意: 第一,他认为翻译类似于解读密码的过程。 他说:“当我阅读一篇用俄语写的文章的时候, 我可以说,这篇文章实际上是用英语写的,只不 过它是用另外一种奇怪的符号编了码而已,当我 在阅读时,我是在进行解码。”⑥他的这段话非常 重要,广为流传,我们把英文原文写在下面: “I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.” 这段话中,Weaver首先提出了用解读密码 的方法进行机器翻译的想法,这种想法成为后来 噪声信道理论的滥觞。备忘录中还记载了一个有 趣的故事,布朗大学数学系的R. E. Gilmam(吉 尔曼)曾经解读了一篇长约一百个词的土耳其文 密码,而他既不懂土耳其文,也不知道这篇密码 是用土耳其文写的。Weaver认为,Gilmam的 成功足以证明解读密码的技巧和能力不受语言的 影响,因而可以用解读密码的办法来进行机器翻 译。 第二,他认为原文与译文“说的是同样的事 情”,因此,当把语言A翻译为语言B时,就意 味着,从语言A出发,经过某一“通用语言” (universal language)或“中间语言” (interlingua),然后转换为语言B,这种“通用 语言”或“中间语言”,可以假定是全人类共同 的。 可以看出,Weaver把机器翻译仅仅看成一 种机械的解读密码的过程,他远远没有看到机器 翻译在词法分析、句法分析以及语义分析等方面 的复杂性。 早期机器翻译系统的研制受到Weaver的上 述思想的很大影响。许多机器翻译研究者都把机 器翻译的过程与解读密码的过程相类比,试图通 过查询词典的方法来实现词对词的机器翻译,因 而译文的可读性很差,难以付诸实用。 由于学者的热心倡导,实业界的大力支持, 美国的机器翻译研究一时兴盛起来。1954年,美 国乔治敦大学在国际商用机器公司(IBM公司) 的协同下,用IBM-701计算机进行了世界上第一 次机器翻译试验,把几个简单的俄语句子翻译成 英语。接着,苏联、英国、日本也进行了机器翻 译试验,机器翻译出现热潮。 在机器翻译的早期,美国著名数理逻辑学 家Bar-Hillel就预见到了机器翻译将会遇到的困 难,显示了他的远见卓识。学者们普遍认识到, 尽管解读密码已经是一件困难的工作,但是自然 语言处理要求的知识和信息比解读密码要求的知 识和信息更加丰富和复杂,这项研究比解读密码 困难得多。 1964年,美国科学院成立语言自动处理咨 询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),调 查机器翻译的研究情况,并于1966年11月公布 了一个题为《语言与机器》的报告,简称ALPAC 报告,对机器翻译采取否定的态度。报告宣称: “在目前给机器翻译以大力支持还没有多少理 由”; 报告还指出,机器翻译研究遇到了难以克 服的“语义障碍”(semantic barrier)。 在ALPAC报告的影响下,许多国家的机器 翻译研究陷入低潮。许多已经建立起来的机器翻 译研究单位遇到了行政上和经费上的困难。在世 界范围内,机器翻译的热潮突然消失了,出现了 空前萧条的局面。 在20世纪50年代末期到60年代中期,自 然语言处理明显地分成两个阵营:一个是符号派 (symbolic),一个是随机派(stochastic)。 符号派的工作可分为两个方面: 一方面是50年代后期以及60年代初期和 中期Chomsky等的形式语言理论和生成句法研 究,很多语言学家和计算机科学家的剖析算法 研究,早期的自顶向下和自底向上算法的研究, 后期的动态规划的研究。最早的完整的剖析系 1 7 2 0 0 8 年 1 月 第 5卷 第1期 ( 总 第 2 1期 ) 中 国 外 语 统是Zelig Harris(海里斯)的“转换与话语分 析课题“(transformation and discourse analysis project,简称TDAP)。这个剖析系统 于1958年6月至1959年7月在宾夕法尼亚大 学研制成功。这些研究都是语言学家和计算机 科学家共同完成的。 另一方面是人工智能的研究。在1956年夏 天,John McCarthy(麦卡锡),Marvin Minsky (明斯基),Claude Shannon和Nathaniel Rochester(罗切斯特)等著名学者汇聚到一起 组成了一个为期两个月的研究组,讨论关于他 们称之为“人工智能”(artificial intelligence, 简称AI)的问题。尽管有少数的AI研究者着重 于研究随机算法和统计算法(包括概率模型和 神经网络),但是大多数的AI研究者着重研究推 理和逻辑问题。典型的例子是Newell和Simon 关于“逻辑理论家”(logic theorist)和“通用 问题解答器”(general problem solver)的研 究工作。早期的自然语言理解系统几乎都是按 照这样的观点建立起来的。这些简单的系统把 模式匹配和关键词搜索与简单试探的方法结合 起来进行推理和自动问答,它们都只能在某一 个领域内使用。在60年代末期,学者们又研制 了更多的形式逻辑系统。AI的研究是计算机科 学、哲学、生物学、心理学、语言学密切配合 的结果。 随机派主要是一些来自统计学专业和电子 学专业的研究人员。在20世纪50年代后期,贝 叶斯方法(Bayesian method)开始被应用于 解决最优字符识别的问题。1959年,Bledsoe (布莱德索) 和Browning(布劳宁)建立了用于 文本识别的贝叶斯系统。该系统使用了一部大 词典,计算词典的单词中所观察的字母系列的 似然度,把单词中每一个字母的似然度相乘,就 可以求出字母系列的似然度来。1 9 6 4年, Mosteller(莫斯泰勒)和Wallace(华莱士)用 贝叶斯方法来解决在《联邦主义者》(T h e Federalist)文章中的原作者的分布问题。这些 研究与统计学和电子工程密切相关。 20世纪50年代还出现了基于转换语法的 第一个人类语言计算机处理的可严格测定的心 理模型。并且还出现了第一个联机语料库:布 朗美国英语语料库(Brown Corpus)。该语料 库包含100万单词的语料,样本来自不同文体 的500多篇书面文本,涉及的文体有新闻、中 篇小说、写实小说、科技文章等。这些语料是 布朗大学(Brown University)在1963~1964 年收集的。美国加州大学的华裔科学家王士元 (William S. Y. Wang)在1976年建立了DOC (Dictionary on Computer),这是一部联机的 汉语方言词典。这些研究成果是语言学和计算 机科学相结合的产物。 ALPAC报告公布之后,机器翻译的研究者 们从低潮中冷静地反省。他们普遍认识到,为 了提高机器翻译的质量,应当加强面向机器翻 译的语言研究。在机器翻译中,原语和译语两 种语言的差异,不仅只表现在词汇的不同上,而 且还表现在句法结构的不同上。为了得到可读 性强的译文,必须在自动句法分析上多下功夫。 早在1957年,美国学者V. Yngve(英格 维)在《句法翻译的框架》(“Framework for syntactic translation”)一文中就指出,一个好 的机器翻译系统,应该分别对原语和译语都作 出恰如其分的描写,这样的描写应该互不影响, 相对独立。英格维主张,机器翻译可以分为三 个阶段来进行: 第一阶段:用代码化的结构标志来表示原 语文句的结构;第二阶段:把原语的结构标志 转换为译语的结构标志;第三阶段:构成译语 的输出文句。 第一阶段只涉及原语,不受译语的影响,第 三阶段只涉及译语,不受原语的影响,只是在 第二阶段才涉及原语和译语二者。在第一阶段, 除了作原语的词法分析之外,还要进行原语的 句法分析,才能把原语文句的结构表示为代码 化的结构标志。在第二阶段,除了进行原语和 译语的词汇转换之外,还要进行原语和译语的 结构转换,才能把原语的结构标志变成译语的 结构标志。在第三阶段,除了作译语的词法生 成之外,还要作译语的句法生成,才能正确输 出译文的文句。 V. Yngve的这些主张,在这个时期广为传 播,并被机器翻译系统的开发人员普遍接受,因 此,这个时期的机器翻译系统几乎都把句法分 析放在第一位,并且在句法分析方面取得了很 大的成绩,促进了句法的形式化研究。 这个时期机器翻译的另一个特点是语法 (grammar)与算法(algorithm)分开。早在 1957年,V. Yngve就提出了把语法与“机制” (mechanism)分开的思想。V. Yngve所说的 “机制”,实质上就是算法。所谓语法与算法分 开,就是要把语言分析和程序设计分开,程序 设计工作者提出规则描述的方法,而语言学工 作者使用这种方法来描述语言的规则。语法和 算法分开,是机器翻译技术的一大进步,它非 常有利于程序设计工作者与语言工作者的分工 合作,为面向计算机的语言研究指出了方向。 自然语言处理萌芽期的这些出色的基础性 研究,为自然语言处理的理论和技术奠定了坚 实的基础。 1 8 F L C Ja n . 2 0 0 8 V o l.5 N o .1 (G e n e ra l S e ria l N o 发展期 20世纪60年代中期到80年代末期是自然 语言处理的发展期。在自然语言处理的发展期, 各个相关学科的彼此协作,联合攻关,取得了一 些令人振奋的成绩。 从20世纪60年代开始,法国格勒诺布尔理 科医科大学应用数学研究所自动翻译中心开展了 机器翻译系统的研制。这个自动翻译中心的主任 是著名法国数学家B. Vauquois(沃古瓦,1929 —1985)教授,他也是国际计算语言学委员会 的创始人和第一任主席。 B. Vauquois教授明确地提出,一个完整的 机器翻译过程可以分为如下六个步骤: (1)原语词法分析 (2)原语句法分析 (3)原语译语词汇转换 (4)原语译语结构转换 (5)译语句法生成 (6)译语词法生成 这六个步骤形成了“机器翻译金字塔”(MT pyramid,图1)。其中第一、第二步只与原语有 关,第五、第六步只与译语有关,只有第三、第 四步牵涉到原语和译语二者。这就是机器翻译中 的“独立分析—独立生成—相关转换”的方法。 他们用这种方法研制的俄法机器翻译系统,已经 接近实用水平。 中间语言 语义分析 语义转换 语义生成 句法分析 句法转换 句法生成 形态分析 直接翻译 形态生成 源语言 目 标语 宣传标语下载抗洪救灾标语防溺水标语工程质量标语开学标语 言 图1 机器翻译金字塔 他们还根据语法与算法分开的思想,设计 了一套机器翻译软件ARIANE-78,这个软件分 为ATEF, ROBRA, TRANSF和SYGMOR 4个 部分。语言工作者可以利用这个软件来描述自然 语言的各种规则。其中,ATEF是一个非确定性 的有限状态转换器,用于原语词法分析。它的程 序接收原语文句作为输入,并提供出该文句中每 个词的形态解释作为输出。ROBRA是一个树形 图转换器,它的程序接收词法分析的结果作为输 入,借助语法规则对此进行运算,输出能表示文 句结构的树形图。ROBRA还可以按同样的方式 实现结构转换和句法生成。TRANSF可借助于 双语词典实现词汇转换。SYGMOR是一个确定 性的树—链转换器,它接收译语句法生成的结果 作为输入,并以字符链的形式提供译文。 通过大量的科学实验的实践,机器翻译的研 究者认识到,机器翻译中必须保持原语和译语在 语义上的一致,也就是说,一个好的机器翻译系统 应该把原语的语义准确无误地在译语中表现出来。 这样,语义分析在机器翻译中越来越受到重视。 美国斯坦福大学Y.A. Wilks(威尔克斯)提 出了“优选语义学”(preference semantics)。Y. A. Wilks在此基础上设计了英法机器翻译系统。 这个系统特别强调在原语和译语生成阶段,都要 把语义问题放在第一位。英语的输入文句首先被 转换成某种一般化的通用的语义表示,然后再由 这种语义表示生成法语译文输出。由于这个系统 的语义表示方法比较细致,能够解决仅用句法分 析方法难于解决的歧义、代词所指等困难问题, 译文质量较高。这些出色的工作,为语义的形式 化研究奠定了基础。 1976年,加拿大蒙特利尔大学与加拿大联 邦政府翻译局联合开发了实用性机器翻译系统 TAUM-METEO ,正式提供天气预报服务。这个 机器翻译系统投入使用之后,每小时可以翻译 60 000~300 000个词,每天可以翻译1 500~ 2 000篇天气预报的资料,并能够通过电视、报 纸立即公布。TAUM-METEO系统是机器翻译发 展史上的一个里程碑。 1978年,欧洲共同体(即现在的“欧洲联 盟”)提出了欧洲共同体内7种语言(后来变为 11种)之间进行任一方向翻译的多语种机器翻 译 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 EUROTRA。此计划于 1982 年正式实 施,前后延续了10多年,至今尚未达到预期的 效果。 日本在提出第五代计算机计划的同时,于 1982年至1986年由政府开展了英日、日英机器 翻译 Mu 系统的研制。接着又由通产省出面,组 织与亚洲4个邻国(中国、印度尼西亚、马来西 亚、泰国)合作研究日语、汉语、印度尼西亚语、 马来语、泰语5种语言互译的多语言机器翻译 ODA 计划。原定于 1987 年至 1992 年完成,后 来延长至 1995 年才完成,实验效果未尽人意。 欧洲共同体在 1982 年开始实施 EUROTRA 计划的同时,还支持了多语言机器翻译系统 DLT 的可行性研究。从 1984 年开始,改由荷兰政府 和荷兰的一家软件公司 BSO 各出资一半对此系 统的研制进行长期的支持。从1984年到1992年 22 1 9 2 0 0 8 年 1 月 第 5卷 第1期 ( 总 第 2 1期 ) 中 国 外 语 活动 与 投资 每年投资均在100万美元左右。DLT系统原打算 90年代中期开始实用化,可是至今尚未得到满 意的结果。 机器翻译的发展经历了一个马鞍形的过程, 见图2。 ALPAC报告 美国 美国 美国 前苏联 欧洲 欧洲 欧洲 加拿大 加拿大 中国 前苏联 日本 中国 前苏联 韩国 1954 1966 1977 1991 图2 机器翻译发展的马鞍形过程 在这个时期,统计方法在语音识别算法的 研制中取得成功。其中特别重要的是隐马尔可 夫模型(hidden Markov model)和噪声信道 与解码模型(noisy channel model and decoding model)。这些模型分别由两支队伍 独立研制。一支是Jelinek(杰里奈克),Bahl (巴尔),Mercer(梅塞尔)和IBM的华生研究 中心的研究人员,另一支是卡内基梅隆大学 (Carnegie Mellon University)的Baker(贝 克尔)等。Baker受到普林斯顿防护分析研究 所的Baum(鲍姆)和他的同事们的工作的影 响。AT&T的贝尔实验室(Bell Laboratories) 也是语音识别和语音合成的中心之一。这些都 是统计学方法在自然语言处理中应用的成果。 逻辑方法在自然语言处理中取得了很好的 成绩。1970年,A. Colmerauer(柯尔迈洛埃) 和他的同事们使用逻辑方法研制了Q 系统 (Q-system)和变形文法(metamorphosis g r a m m a r)并在机器翻译中得到应用, Colmerauer还是 Prolog语言的先驱者,他使 用逻辑程序设计的思想设计了Prolog语言。 1980年Pereira(佩瑞拉) 和Warren(瓦楞) 提出的定子句文法(definite clause grammar)也是在自然语言处理中使用逻辑方 法的成功范例之一。1979年M. Kay(凯依)对 于功能语法的研究,1982年Bresnan(布列斯 南)和Kaplan(卡普兰)在词汇功能语法 (lexical function grammar,简称LFG)方面 的工作,都是特征结构合一(feature structure unification)研究方面的重要成果。这是数学、 逻辑学和语言学相结合的可喜收获。 自然语言理解也取得明显的成绩。这个时 期的自然语言理解(natural language understanding,简称NLU)肇始于Terry Winograd(维洛格拉德)在1972年研制的 SHRDLU系统。这个系统能够模拟一个嵌入玩 具积木世界的机器人的行为。该系统的程序能 够接受自然语言的书面指令(例如,“Pick up a big block.”[“请拿起一个红色的积木块”。] “Move the red block on top of the smaller green one.”[“请把绿色的小积木块移动到红 色积木块的上端。”]),从而指挥机器人摆弄玩 具积木块。这是一个复杂而精妙的自然语言理 解系统。这个系统还首次尝试建立基于 Halliday(韩礼德)系统语法(systemic grammar)的全面的(在当时看来是全面的) 英语语法。Winograd的SHRDLU系统还清楚 地说明,句法剖析也应该重视语义和话语的形 式模型的研究。 1977年,R. Schank(杉克)和他在耶鲁 大学的同事和学生们建立了一些语言理解程 序,这些程序构成一个系列,他们重点研究诸 如脚本、计划和目的这样的人类的概念知识以 及人类的记忆机制。他们的工作经常使用基于 网络的语义学理论,并且在他们的表达方式中 开始引进Fillmore(菲尔摩)在1968年提出 的关于格角色(case role)的概念。他们建立 了自然语言处理中的“耶鲁学派”。耶鲁学派的 工作是语言学、计算机科学、数学巧妙结合的 成果。 在自然语言理解研究中也使用过逻辑学的 方法,例如 1967年Woods(伍兹)在他研制 的LUNAR问答系统中,就使用谓词逻辑来进 行语义解释。 话语分析(discourse analysis)集中探 讨了话语研究中的4个关键领域:话语子结构 的研究、话语焦点的研究、自动参照消解的研 究、基于逻辑的言语行为的研究。1977年, Crosz(克洛慈)和她的同事们研究了话语中 的子结构(substructure)和话语焦点。1972 年,Hobbs(霍布斯)开始研究自动参照消解 (automatic reference resolution)。在基于逻 辑的言语行为研究中,Perrault(佩劳特)和 Allen(艾伦) 在1980年建立了“信念—愿望 —意图”的框架,即BDI(belief—desire— intention)的框架。这样的研究与心理学、逻 辑学、哲学有密切关系。 在1983—1993年的10年中,自然语言 处理研究者对于过去的研究历史进行了反思, 发现过去被否定的有限状态模型和经验主义方 2 0 F L C Ja n . 2 0 0 8 V o l.5 N o .1 (G e n e ra l S e ria l N o 法仍然有其合理的内核。在这10年中,自然语 言处理的研究又回到了50年代末期到60年代 初期几乎被否定的有限状态模型和经验主义方 法上来。之所以出现这样的复苏,其部分原因 在于1959年Chomsky对于Skinner(斯金纳) 的“言语行为”(verbal behavior)的很有影 响的评论在80年代和90年代之交遭到了理论 上的反对。这种反思的第一个倾向是重新评价 有限状态模型。由于Kaplan和Kay在有限状 态音系学和形态学方面的工作,以及Church (丘吉)在句法的有限状态模型方面的工作,显 示了有限状态模型仍然有着强大的功能。因 此,这种模型又重新得到自然语言处理界的注 意。 这种反思的第二个倾向是所谓的“重新回 到经验主义”。这里特别值得注意的是语音和 语言处理的概率模型的提出。这样的模型受到 IBM公司华生研究中心的语音识别概率模型的 强烈影响。这些概率模型和其他数据驱动的方 法还传播到了词类标注、句法剖析、名词短语 附着歧义的判定以及从语音识别到语义学的联 接主义方法的研究中。 此外,在这个时期,自然语言的生成研究 也取得了引人瞩目的成绩。 繁荣期 从20世纪90年代开始,自然语言处理进 入了繁荣期。1993年7月在日本神户召开的第 四届机器翻译高层会议(MT Summit IV)上, 英国著名学者J. Hutchins(哈钦斯)在他的特 约报告中指出,自1989年以来,机器翻译的 发展进入了一个新纪元。这个新纪元的重要标 志是在基于规则的技术中引入了语料库方法, 其中包括统计方法、基于实例的方法、通过语 料加工手段使语料库转化为语言知识库的方法 等等。这种建立在大规模真实文本处理基础上 的机器翻译,是机器翻译研究史上的一场革 命,它将会把自然语言处理推向一个崭新的阶 段。随着机器翻译新纪元的开始,自然语言处 理进入了它的繁荣期。 特别是20世纪90年代的最后5年(1994 —1999)以及21世纪初期,自然语言处理的 研究发生了很大的变化,出现了空前繁荣的局 面。这主要表现在三个方面: 首先,概率和数据驱动的方法几乎成了自 然语言处理的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 方法。句法剖析、词类标注、 参照消解和话语处理的算法全都开始引入概 率,并且采用从语音识别和信息检索中借过来 的评测方法。 其次,由于计算机的速度和存储量的增加, 使得在语音和语言处理的一些子领域,特别是 在语音识别、拼写检查、语法检查这些子领域, 有可能进行商品化的开发。语音和语言处理的 算 法 开 始 被 应 用 于 增 强 交 替 通 信 (augmentative and alternative communication, 简称AAC)中。 最后也是最为重要的方面,是网络技术的 发展对于自然语言处理产生了的巨大推动力。 万维网(World Wide Web,简称WWW)的 发展使得网络上的信息检索和信息抽取的需要 变得更加突出,数据挖掘的技术日渐成熟。而 W W W主要是由自然语言构成的,因此随着 WWW的发展,自然语言处理的研究将会变得 越来越重要。自然语言处理的研究与WWW的 发展息息相关。 这里,我们要特别谈一下WWW的发展问 题。 WWW是基于Internet的计算机网络,用 户使用WWW,可以通过互联网(Internet)访 问存贮在世界范围内的Internet上的海量信 息。WWW是根据“客户端—服务器”(client- server)的模式来进行工作的。客户通过叫做 “客户端”(client)的程序与远程存贮着数据的 “服务器”(server)连接,Web的浏览通过叫 做 “浏览器”(browser)的client程序来进行 (例如,Navigator, Internet Explorer等)。 Web浏览器把用户的提问传送给远程的服务 器搜索有关的信息,然后返回搜索到的文件。 这些文件使用HTML(hypertext makeup language,超文本标记语言)书写,最后在客 户端用户的计算机屏幕上显示出来。 Web的操作依赖于超文本文件的结构。超 文本可以让网页的作者把他们的文件与Web 的其他文件进行超链接(hyperlink),从而看 到Web上的有关的文件。 Web的概念最早是Tim Berners-Lee(蒂 姆·伯讷斯-李)于1989年提出的。当时Tim Berners-Lee在瑞士的欧洲核研究中心 (Centre European pour la Recherche Nucleaire, 简称CERN)工作,他写了第一个 WWW的server和client程序,并且把它们叫 做World Wide Web。1989年3月,Tim Berners-Lee给CERN的高层领导提交了一个 建议。在这个建议中,他分析了当时使用的层 级式信息组织方法(hierarchical organization 33 2 1 2 0 0 8 年 1 月 第 5卷 第1期 ( 总 第 2 1期 ) 中 国 外 语of information)的缺点,同时又指出基于超文 本系统(hypertext system)的优点,初步提 出了建立“分布式超文本系统”(distribution hypertext system)的基本方法。可惜他的这 个建议没有得到CERN高层必要的支持。 1990年,Berners-Lee再次向CERN提 出建议,这一次他的建议得到了CERN的支 持。于是,Berners-Lee和他在CERN的同事 立即采用分布式超文本系统的思想来研究 Web,为Web后来的发展做了奠基性的工作。 他们为此研制了Web的服务器、浏览器,并研 制了客户端和服务器之间的通信模型,超文本 传输 协议 离婚协议模板下载合伙人协议 下载渠道分销协议免费下载敬业协议下载授课协议下载 (hypertext transfer protocol,简称 HTTP),超文本标记语言,通用资源定位器 (universal resources locator,简称URL,也 就是网址)。 1993年2月,美国Illinois大学国家超级 计算机应用中心的Marc Andereeson(安德里 森)和他的研究小组设计了使用Mosaic技术 的用户图形界面,并把它用来作为Unix的Web 浏览器。短短的几个月之内,Macintosh和 Windows的操作系统都先后使用了Mosaic的 用户图形界面技术。用户只需要点击计算机屏 幕上的图形,就可以对计算机进行各种操作。 1994年,Jim Clarc(克拉克)与Marc A n d e r e e s o n合作,成立了M o s a i c Communication公司,后来改名为Netscape Communication公司,在几个月之内,他们就 研制出了Netscape的浏览器,并在Web用户 中普及。1995年8月,微软公司公布了他们的 Web浏览器Internet Explorer,并向 Netscape挑战。从此,用户就可以通过浏览 器在Web上随心所欲地漫游了。 Tim Berners-Lee创立的World Wide Web以及Mosaic浏览器的出现,是Web发展 历史上两个最重要的事件。它们使得Web能够 迅速地在用户中得到推广和普及。 Internet是Web的通信网络。没有 Internet,Web是不可能发挥其功能的。 Internet的前身是计算机网络ARPANET。这 个计算机网络是在美国国防部高等研究计划处 (Advanced Research Project Agency简称 A R P A)的支持下研制的。早在1 9 6 9年 ARPANET就建成了。1972年,ARPANET在 计算机与通信第一次国际会议上表演。ARPA 的科学家们出色地利用ARPANET把处于40 多个不同地方的计算机连接在一起。后来,这 个 A R P A N E T进一步发展成为当今的 Internet。 在1973年,Vinton Cerf(塞尔夫)和Bob Kahn(卡恩)就开始研究网络协议(Internet protocol)。1974年,他们发表了《传输控制 协议》(Transmission Control Protocol)的 文章,正式把他们提出的协议叫做TCP/IP协 议(Transmission Control Protocol / Internet Protocol)。TCP/IP协议可以使计算机网络彼 此连接起来,彼此进行通信。但是,直到1982 年,TCP/IP协议才正式得到采用,Internet使 用TCP/IP协议把不同网络联系起来了。 为了有效地获取分布在全世界网络上的信 息,需要研制“搜索引擎”(search engine)。 1993年,美国Stanford大学的6个学生研制 了搜索系统Excite。1994年,美国Texas大 学研制了EINet Calaxy。同年,著名的搜索引 擎YAHOO问世。1998年,Stanford 大学的 Sergey Brim(布里姆)和Larry Page(派杰) 推出了搜索引擎Google。2005年,微软推出 了搜索引擎MSN。 为了促进Web在全世界范围内的推广和 使用,美国麻省理工学院(MIT)和瑞士的 CERN在1994年成立了万维网协会(The World Wide Web Consortium,简称W3C)。 W3C是万维网的国际性组织。W3C的成立使 得Web在国际范围内迅速地得到普及,几乎每 一个现代人的生活和工作,都与Web息息相 关。自1994年第一次W3C会议召开以来,每 年都召开一次W3C的国际会议。 90%以上的网络信息都是文本信息,它们 都是以自然语言为载体的信息。面对Web的迅 速发展,如何有效地获取在Web上的这些浩如 烟海的信息,成了当前自然语言处理的一个关 键问题。可以预见,Web的进一步发展,一定 会把自然语言处理的研究推向一个新阶段。 21世纪以来,由于国际互联网的普及,自 然语言的计算机处理成了从互联网上获取知识 的重要手段。生活在信息网络时代的现代人, 几乎都要与互联网打交道,都要或多或少地使 用自然语言处理的研究成果来帮助他们获取或 挖掘在广阔无边的互联网上的各种知识和信 息。因此,世界各国都非常重视自然语言处理 的研究,投入了大量的人力、物力和财力。 我认为,当前国外自然语言处理研究有如 下四个显著的特点: 第一, 基于句法—语义规则的理性主义方 法受到质疑。随着语料库建设和语料库语言学 的崛起,大规模真实文本的处理成为自然语言 2 2 F L C Ja n . 2 0 0 8 V o l.5 N o .1 (G e n e ra l S e ria l N o 处理的主要战略目标。 第二, 自然语言处理中越来越多地使用机 器自动学习的方法来获取语言知识。 第三, 统计数学方法越来越受到重视。 第四, 自然语言处理中越来越重视词汇的 作用,出现了强烈的“词汇主义”的倾向。 关于这四个特点的详细说明,请参看我最 近发表的《当前自然语言处理发展的四个特 点》一文,这里就不多说了。 在这样的新形势下,自然语言处理这个学 科的交叉性和边缘性显得更加突出了。自然语 言处理的研究者如果只是局限于自己原有的某 一个专业的狭窄领域而不从其他相关的学科吸 取营养来丰富自己的知识,在自然语言处理的 研究中必将一筹莫展,处处碰壁。面对这样的 形势我们应该怎样做?是抱残守缺,继续把自 己蜷缩在某一个专业的狭窄领域之内孤芳自 赏,还是与时俱进,迎头赶上,努力学习新的 知识,以适应学科交叉性和边缘性的要求?这 是我国自然语言处理工作者必须考虑的问题。 在工业革命时代,人类需要探索物质世界 的奥秘,由于物质世界是由原子和各种基本粒 子构成的,因此,研究原子和各种基本粒子的 物理学成为非常重要的学科。在信息网络时 代,由于信息网络主要是由语言构成的,因此, 我们可以预见,在不久的将来,研究语言结构 的自然语言处理必定也会成为像物理学一样非 常重要的学科。物理学研究物质世界中各种物 理运动的规律,而自然语言处理则研究信息网 络世界中语言载体的规律。自然语言处理的重 要性完全可以与物理学媲美,它们将成为未来 科学世界中举足轻重的双璧。这是我在直觉上 的一种估计,我相信这样的估计将会成为活生 生的现实。 注释 ① B. Manaris, Natural language processing in the view of man-machine interchange, in Advances in Computer, Volume 47, 1999. ② N. Chomsky & G. A. Miller, Introduction to the formal analysis of natural languages, Wiley, New York, 1963. ③ N. Chomsky, Formal properties of grammar, Wiley, New York, 1963. ④ N . C homsk y & M. P. Schüt zenb erger, T he algebraic theory of context-free grammars, in Computer Programming and Formal Systems , N o r t h - H o l l a n d P u b l i s h i n g C o m p a n y , Amsterdam, 1 9 63 . ⑤ 转引自:冯志伟,机器翻译研究,中国对外 翻译出版公司,2005年。 ⑥ 转引自:冯志伟,机器翻译研究,中国对外 翻译出版公司,2005年。 参考文献 [1]A. Bakushinsky & A. Goncharsky. Ill-posed Problems: Theory and Application [M]. Dordrecht/ Boston/London: Kluwer Academic Publishers, 1994. [2] Carstensen Kai-Uwe et al. Computerlinguistik und S p r ac h te c h no lo g ie , E in e E in füh ru n g [M] . H eidelberg/Ber lin , Spek t ru m Ak ademischer Verlag, 2004. [3]Daniel Jurafsky & James H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition [M]. Upper Saddle River, New Jersey, Prentice Hall, 2000. 中文译本:冯 志伟, 孙乐翻译. 自然语言处理综论[M]. 北 京:电子工业出版社,2005. [4]Bill Manaris, Natural language processing: A human-computer interaction perspective [A]. Advances in Computers, Volume 47, 1999. [5]冯志伟. 自然语言的计算机处理[M]. 上海:上 海外语教育出版社,1996. [6]冯志伟. 机器翻译研究[M]. 北京:中国对外 翻译出版公司,2004. [7]冯志伟. 当前自然语言处理发展的四个特点 [J]. 暨南大学华文学院学报. 2006(1). [8]冯志伟. 机器翻译今昔谈[M]. 北京:语文出 版社,2007. The Past and Present of Natural Language Processing Abstract: Natural Language Processing (NLP) is a r e m a r k a b l e d i s c i p l i n e i n c o n t e m p o r a r y lingui st ic s . I t is the re sult of comb inat ion of l i ng ui st i cs an d co mpu te r
本文档为【自然语言处理的历史与现状】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_532352
暂无简介~
格式:pdf
大小:408KB
软件:PDF阅读器
页数:9
分类:
上传时间:2009-09-13
浏览量:108