首页 对语料库_语料库语言学的种种误解

对语料库_语料库语言学的种种误解

举报
开通vip

对语料库_语料库语言学的种种误解 《术语标准化与信息技术》2009年第 2期 对语料库、语料库语言学的种种误解 摘 要:语料库以及语料库语言学引起了各国学者的极大的兴趣。可是,与此相关的误解一直 存在着。例如,语料库是老大,一个小型的语料库比一个大型的好。本文讨论了 10个关于语料库和 语料库语言学的流传得最广的误解。最后,本文对语料库语言学的发展进行了展望。 关键词:语言;语料库;语料库语言学;误解 Misunderstandings about Corpus and Corpus Linguistics in China and abr...

对语料库_语料库语言学的种种误解
《术语标准化与信息技术》2009年第 2期 对语料库、语料库语言学的种种误解 摘 要:语料库以及语料库语言学引起了各国学者的极大的兴趣。可是,与此相关的误解一直 存在着。例如,语料库是老大,一个小型的语料库比一个大型的好。本文讨论了 10个关于语料库和 语料库语言学的流传得最广的误解。最后,本文对语料库语言学的发展进行了展望。 关键词:语言;语料库;语料库语言学;误解 Misunderstandings about Corpus and Corpus Linguistics in China and abroad LI Dongliang ZHANG Xiong LI Huiyan Abstract:Both in China and abroad corpus as a new method to research natural languages and its related corpus linguistics are arousing the interest of linguists. But there are still some misunderstandings about corpus and corpus linguistics among scholars and researchers to clear up: A corpus is most important,a small corpus is better than a big one,corpus linguistic methods require language and linguistics (background) knowledge,an annotated corpus has more value. This paper discusses 10 related misunderstandings about them which spread most widely. Finally, an overview about the further development of corpus linguistics will be made. Key words:language;corpus;corpus linguistics;misunderstanding ◇黎东良 张雄(山东大学) 李慧岩(天津外国语学院) 一、问题的提出 今天,作为研究自然语言文本采集、存储、加 工和统计分析的语料库语言学(corpus linguistics) 已引起了各国学者的广泛关注。在英国和美国,为 了出版大型英语工具书,建立了大型英语语料库。 在德语国家,位于曼海姆的德国德语研究所的大 型德语语料库 COSMASII是最知名的了。此外,该 研究所还建立了语音语料库。语料库已被用于二 语习得研究、语言教学研究、对比语言学研究、辞 典编纂、句法学研究、语义学研究、文学风格研究 和翻译研究等(刘康龙,穆雷,2006:59)。 虽然国内与此相关的研究起步较晚,但是其 发展势头迅猛。这 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 现在,有这方面的专著出版①, 像《外语教学与研究》、《中国翻译》、《外国语》等学 术期刊不定期刊登这方面的文章②。在大型语料库 建设方面,北京大学、北京外国语大学开风气之先 (常宝宝等,2003)。其中,北京外国语大学中国外 语教育与研究中心已建成世界上容量最大的通用 英汉对应语料库;北京日语研究中心研制了世界 上第一个具有两千万字规模的汉日双语平行语料 库-中日对译语料库(曹大峰,2006:221)。北京外 国语大学德语系建成了中国第一个德语语料库。 语料库语言学之所以受到广泛关注,是有其理由 的。韩礼德认为,这是因为“语料库语言学将数据 收集与理论论述有机地结合在一起,使我们对语 言的理解发生了质的变化”(王克非,2004:4)。 应当指出,虽然国内也有学者介绍了国外关 于语料库研究的争论,指出了语料库只是一部扩 容的辞典这类看法不够全面。虽然也有人指出,中 文信息处理界有人全力宣传语料库是老大的错误 思想③,但是,纵观国内学者的研究成果,学者们对 语料库、语料库语言学的误解的确存在,再就是, 关于这方面误解的较系统的文章却很少刊登。当 ·语言信息处理· 44· · 《术语标准化与信息技术》2009年第 2期 然,这种误解不仅发生在中国,也发生在其他国家 如德国。下面作者就不揣遗漏,结合德国学者的研 究,来讨论这方面的情况④。 二、对语料库语言学的误解 对语料库语言学的误解最具代表性的就是, 很多人认为,语料库语言学的方法要求使用者有 语言或者语言学的(背景)知识。这是不正确的。语 料库语言学的方法是建立在诸如一揽子商品分析 方法或者其他的数据采集方法的同等原则基础上 的⑤。当一揽子商品分析方法指出在意大利面条、 番茄酱和肉末之间存在关联时,这个分析方法不 必知道,什麽是意大利肉酱面。相应的,在没有(如 关于句法或配价⑥)的语言(背景)知识的情况下, 语料库语言学的方法也能指出词汇和(或)语篇特 征之间存在关联。至于通过配料烹制意大利肉酱 面,这是另一个质的发展过程,这个发展过程可以 被理解为游离于采购之外的,并且还要求一个其 他的才能(即烹饪的才能)。类似的是,语料库语言 学的解释说明与一个语言的和 /或语言学的解释 说明相连,而这个解释说明同样是以另一种才能 为前提的。 在这种数据采集法和语料库语言学的方法 里,一个特别的挑战就是怎样在较抽象层面上找 出词与词之间的关联模型。和上面的例子相类似, 这个分析方法指出了配料和其他菜谱的关联,但 是也指出了配料同“尿布,婴儿营养,耳塞”或者 “香槟酒,炸薯片,硬纸杯,去疼片”的关联,它们 的组合肯定基于完全不同的因素,是由于养育后 代也好还是因为组织一场晚会。在语言的分析中, 也要揭开相互联系,为语言学的部分领域提供解 释。对于这些关联,语料库语言学者应该知晓并且 不应忽视对绝大部分的联系,我们至少也能够找 到其他的动因。 三、对语料库的误解 1. 被标注了的语料库,其价值提高了 作为语言现实片断真实写照的语料库通过标 注并非更有价值。在“可计算”的标注里,人们可以 较快地使用查询(提问)/分析功能。如果在查询时 人们使用了被解释了的标注,查询的结果只是提 供了一个标注的质量的映像,而非经验数据的映 像。 不应否认,存在对已标注了的语料库有意义 的应用情况。针对作者、时间上的以及地区出处或 者主题的特性的目录学的文章标注,容许语言数 据同这些信息之间建立联系。当然,对其他形式的 大多数标注而言,只要它们不是没有预设地来自 语料库里的数据,那么,语料库便蜕化为预设的一 种测试例子的总汇。 2. 一个差劲的文本样例的存在证明给出样例 的出处没有意义 语料库语言学对单个文本样例不感兴趣。个 体文本样例就是课文中的一处,它好比是一幅画 里的一个马赛克彩石子儿。这个石子只有在作为 整体的一幅图里才能被辨认出来。 若某个语料 库语言学的(结论性的)陈述因删去一个文本例子 而被动摇了,那么,根据定义,这种说法就不是有 效的语料库语言学的陈述。 因此,仅靠极有限的 样例数量支持的陈述,从整体上看就不是语料库 语言学的有效陈述。 在词典编纂学应用的背景下,人们给出文本 样例的来源,这样做是有不同的目的的。这里特别 重要的是,对一个样例的质量评判只能在列举目 的的背景下进行。首先,一个样例能够纪录(样例 的)一次出现;描述一个范例式的运用方式;影响 定义的功能。 由于一个文本例子只揭示了一种使用方法, 这既不表明这个词只能这么用,也不表明它能够 象其他的使用方法那样被使用。例如,“一头猪产 仔”可以理解成,一头猪产下猪崽;出于常识我们 知道这个过程是雌性动物的特权;这个文本例子 决不可被猜测成,人们也可以说“一头野猪产仔” 或者“一头公猪产仔”。 与如其放弃文本样例,不如在需要时动态地 组织、调整文本样例的量。这或许是更好的解决方 法。 3. 人们可以对语料库搜索的结果作出负面陈 述或解释 对语料库搜索结果,人们只能作正面的解释。 当一个语言现象在一个语料库里被证实,那么它 便存在。若一个语言现象在一个语料库里未被证 ·语言信息处理· 45· · 《术语标准化与信息技术》2009年第 2期 实,那么,不能就此得出否定的结论。例如人们不 能说“一种形式,确切地说一个表达未被证实,所 以这种形式或表达是不可接受的”。在这种情况 下,总有两种解释:要么这种语言现象确实不存 在,要么是语料库在这方面不够完备。人们顶多可 以做这么一个近似的解释:在语料库常见的,在现 实中也常见,在语料库少见的,在现实中也少见, 没观察到的不存在,或者很罕见。语料库越大,涵 盖罕见的语言现象的情况就越多。由此可见,一种 表达形式如 Hühnerk覿figs(鸡笼)在语料库中未被 证实,不可以这样推导:这种表达从来不用或者将 永远不可能这么用。从下面的词语组合里我们可 以看得更清楚:Verdis Roman Guernica⑦(维迪的 小说<格尔尼卡>)。即便这个词语组合在语料库里 没有出现,事实上可能还从未这样表达过,但这并 不能证明它不能这么用。 4. 同语料库分析相比,互联网搜索提供了较 好的结果。若互联网搜索引擎“Google”提供了很多 关于搜索客体的查询结果,那么,这些搜索客体在 语料库分析中也必将出现 这种说法是基于不同的数据库(的质量)和方 法的,不很恰当。互联网搜索肯定对语言学的研究 有很大价值。哪种类型的语言或哪种语言片断存 在于互联网之中,我们还完全不清楚。即使语料库 侧重于报纸的例子,人们应当牢记,互联网看重的 是“电子媒体”。若为了研究,即使用互联网资源, 又利用语料库分析,那么,我们必须对语言的这两 种形式进行批判性的审视,得出关于一般的语言 运用的结论。 一般说来,互联网搜索具有一种特殊的的作 用。借助于搜索关键词,通过深入的调查,应该可 以在网上发现相关的文献。 输入越多的搜索词,那么,只要在一文献某处 出现被搜索的词,所有含有搜索词的文件就会被 认为是符合要求,而被选中。作为概念,这些搜索 词可能因文本例子所描写的主题而被证实,或者 纯属偶然而被证实。可替代的词组搜索允许附带 的要求,如搜索词得直接一个接一个地出现。这样 做可能使与之相连的意图接近,但是,遗憾的是, 由于它是一次搜索,它忽视了参与查询的词之间 的出现比例关系。例如词组 Reise unternehmen和 Reise machen经常在网上出现,但这并未指出内 容上的关联。甚至在预先给出最大的词或句子的 距离的情况下,在语料库里进行一次搜索或许有 很多符合要求的文本例子。与搜索相反,我们知道 进行语料库分析的目的是:这个常见的共现是纯 粹偶然的,还是以参加查询的词中的一个为条件 的?举个例子,在单词 ist的附近常出现 der这个词 (在“Google”里进行这样的搜索,会有很多符合要 求的结果)。这毫不奇怪,因为 der这个词在德语 中是个常用词(ist这个词也一样)。随便一个词和 der这个词的组合经常出现,是因为 der这个词经 常出现。Z覿hne(牙齿)这个词和 machen(做)这个词 的组合不仅在互联网上而且在语料库里都很常 见,而 Z覿hne 和 putzen(刷)的组合在语料库里就 很少见。因为这里面参与的词较之 machen(做)少 见,所以,Z覿hne和 putzen的组合就很引人注目。 为了评判这种“显眼性”,人们必须知晓整体 频率。与语料库不同,知晓整体频率,这在互联网 上是不大或不一定可能。互联网搜索结果还将长 期面临缺乏准确性这个难题。搜索和分析的根本 区别就在于,在搜索之前必须知道,要搜索什么。 问题是,在搜索时某人是否真的想到 Z覿hne 和 putzen这个搭配。分析则产生这样的搭配,语言学 家不必猜出这种搭配。 5. 小型的语料库要比大的好 就特殊的用法,尤其就这种针对较少的文本 例子的挑选而言,这种说法或许是正确的。跟大型 语料库相比,小的语料库在很多方面使用起来更 方便,尤其是当语料库是针对特殊问题而建,维护 起来也容易。当然,它掩盖了这种危险:较一般的、 超出语料库组成基础的搜索常导致错误的显示或 者对质次的结果的分析。大型语料库提高了找到 “好的”文本例子的机率⑧。这当然不是语料库语言 学方法的对象。数据收集得越多,文本例子就可以 用足够的说服力去涵盖更多的少见的现象。针对 较特殊的提问,可以通过可供使用的数据(档案) 来定义“虚拟的”语料库。但是,只有当语料库的大 小达到一定的程度时,语料库才会(为我们)提供 比文本例子更多的知识。语料库语言学的方法是 针对潜在的知识的。要运用它,根据精确的科学的 方法建立起来的语料库的例子数必须达到一定的 ·语言信息处理· 46· · 《术语标准化与信息技术》2009年第 2期 量。 6. 语料库有时包含“废话” 我们假定技术上无可指摘,语料库的例句都 来自原文,那么,语料库包含的只是语言使用的事 实。它收集语法上正确的和错误的语言使用(的例 子)以及这个被所临摹的语言共同体运用其语言 的情况。此外,它一定还能发现对语言的创造性运 用,这种语言的创造性运用是语法学家无法预料 的。语法上不正确的表达,如“Ick liebe dir(我爱 你)”,在某种关联项下可能(甚至是有意地)被使 用⑨。 当然,对语料库数据进行分析的语言学家可 以自由地对数据进行相应的范畴化。作为“废话” 的只可能是那些在一定的语言运用方面并且作为 一种注释的结果的才被利用的数据。对于从一个 角度被归入“废话”的数据而言,总是可以找到对 它进行利用的另一个角度,在这个角度下,这些数 据能被解释为有意义的数据。 7. 语料库告诉我们,要怎么说或者应该怎么 说 一般说来,语料库只能收集离现代社会不远 的语言的过去数据。从这些数据里,人们只能推导 出关于语言的数量上的看法,而不是关于语言可 接受性或完美形式的质量上的看法;人们只能通 过对数据的注释来补充一个形式上的语法判断。 但是,一个实用的、进化的语法性的评断已经以某 种形式隐藏在数据中了。这就是说,在语言的进化 中,不被大多数人接受的表达方式较之于那些“较 好”的表达方式处于劣势,就某一时间或者某一空 间而言,它们不被看成是一般的或典型的表达方 式。这种典型性在数量上又是可以查得到的,同时 它是语料库语言学研究的目的之一,如果对这种 典型性的研究不是它的主要目的的话。 8. 当一个研究者在一个语料库中不能找到他 要找的东西时,这个语料库是糟糕的 假如某研究者已经能够有针对性地进行语料 查询,并且能够判断他是否找到了所需要的、合适 的或者不合适的东西,那么,他就不再需要语料库 了。这是因为,他所提出的问题已经由他自己回答 了,在这种情况下,语料库语言学的方法不会对他 有进一步的帮助。为了验证他的“ 答案 八年级地理上册填图题岩土工程勘察试题省略号的作用及举例应急救援安全知识车间5s试题及答案 ”,语料库不 及其他的经验来源,例如不及上面已经讨论过的 网上查询或者有针对性的田间调查。 9. 只有在已知的语言学描写模式或者在一个 知名的语言学理论背景下使用语料库时,它才会 为研究者获取新知提供帮助 原则上说,这个误解是迄今为止所讨论的误 解的核心所在。正如我们在讨论误解 1时所指出 的那样,语料库语言学的方法不关心语言学的模 式或者理论,尽管如此,它还是能够部分地为我们 提供让人感到惊讶的新知识。在这里,我们并不想 抛弃所有的模式和理论,因为它们是很多的研究 者在很长的实践中继承和发展而来的。应该承认, 研究者不可能一次面对如此之多的语言,然而,语 料库语言学的方法却能够做到这一点。 放弃传统的语言研究方式意味着,首先是让 语言为自己说话,然后看看,在多大程度上已出现 的语言现象可以用传统的语言学的思考方式来解 释。为了获取新认识,这时候范畴可能是有帮助 的;但是,以范畴的存在为前提,这有时也会忽略 本质的东西。若一个“相互关联”的体系是由数据 分析和注释组成的,那么,其表现是不同的。所以, 作为语言研究新视野的语料库语言学,它主要是 从量的角度让事实说话,可以不需要其他语言学 理论的指导。 四、结束语 总之,语料库为我们深入研究语言现象提供 了新的可能性。由于它是一门年轻的学科,人们对 它的认识有一个从知之甚少、片面到知之较多和 全面的过程。出现误解也就在所难免。可以预计在 将来还会有关于语料库和语料库语言学的误解出 现。到可以肯定的是,随着计算机和网络技术的不 断发展,随着各种数据处理软件的不断开发和完 善,作为语言研究的一种研究方法的语料库以及 语料库语言学必将发挥更大的作用。随着认识的 深化和时间的推移,这种误解也会逐步得到澄清 的。 注释 ① 为节省篇幅,这里不列出哪些学人撰写了这方面 的专著。有关这方面的详细情况,请参见参考文献。 ② 刘康龙、穆雷曾对 1995到 2004年间包括《解放军 外国语学院学报》等 14种核心期刊刊登有关语料库语言 ·语言信息处理· 47· · 《术语标准化与信息技术》2009年第 2期 学方面的文章进行了统计。总计有 134篇相关文章发表 (刘康龙、穆雷,2006:61)。刘康龙、穆雷在其文章中只是很 简要介绍了国外学者之间就语料库和描写翻译研究(DTS) 之间的争论(刘康龙、穆雷,2006:61/63)。关于国内中文信 息处理界对语料库的误解,见“三、HNC的 CORPUS观” 网址:http://www.hncnlp.com/20dif3.htm。 ③ 本文所介绍的 10个误解只是众多的误解中的流 传的最广的部分。有关这方面的详细情况,请参阅 Perkuhn 等人写的论文(Perkuhn et al. 2006)。 ④ 数据采集指(Data Mining)的是从大量的数据里 (一般是自动或半自动地)发现并提取未知的信息:“The nontrivial extraction of implicit,previously unknown,and potentially useful information from data”(从数据里非一般 地提取隐含的、以前未知的、潜在有用的信息)(Perkuhn, Rainer/ Belica,Cyril,2006:8)。所谓的一揽子商品分析或 许是依赖分析的最典型的代表,在这种分析里,人们将对 同时对数种成绩感兴趣的信息或者成绩组人员信息进行 分析并把这些信息换化为经济行为。 ⑤ Valenz一般译成“配价”,是配价理论(Valenztheo- rie)里的一个重要概念。“配价”指的是一个词尤其是动词 能够在其左右开辟空位的能力。这种空位能够甚至必须被 其他成分填充,否则句子不能成立。配价语法理论是当代 语言学理论里最具生命力的语言描写理论之一,已引起了 包括中国学者在内的各国学者的广泛关注。作者自注。 ⑥ 在德语里,Guernica有两种意思:一是指西班牙一 地名,二是指一幅出自毕加索的著名油画。国内一般把它 译成格尔尼卡。作者自注。 ⑦ 每个例子反映的是一个单个的结果。就这点而言, 什么是一个“好的”例子,就成问题了。比较误解 3。 ⑧ 这句话只会在柏林方言里出现。在标准德语里,只 说 Ich liebe dich(意思是‘我爱你’。)。这种关联项就是方 言。作者自注。 ⑨ 撇开技术处理而造成的拖延,就这种误解的现在 时表达的描写性的解释而言,这种误解是有根据的。这里 只讨论规则意义上的语言运用和着眼于未来的语言运用。 参 考 文 献 [1] 曹大峰. 汉日平行语料库与翻译研究[J]. 外语教学 与研究,2006(3). [2] 常宝宝,柏晓静.北京大学汉英双语语料库标记规范 [J]. 汉语语言与计算机学报,2003(13). [3] 黄昌宁,李涓子. 语料库语言学[M].北京:商务印书 馆,2002. [4] 柯飞,2002,双语库:翻译研究新途径[J],《外语与外 语教学》第 9 期。 [5] 刘康龙,穆雷.语料库语言学与翻译研究[J].中国翻 译,2006(1). [6] 王建新. 语料库语言学发展史上的几个重要阶段[J]. 外语教学与研究 1998(4). [7] 王克非.英汉/汉英语句对应的语料库考察[J].外语教 学与研究,2003(6). [8] 王克非等著.双语对应语料库研制与应用[M].北京: 外语教学与研究出版社,2004. [9] COSMAS II(2005):Corpus Search,Management and Analysis System. www.ids -mannheim.de/cosmas2/, Stand:17.11.2005. [10] DEREKO(2005):Deutsches Referenzkorpus unter www. ids -mannheim. de/pro -jekte/korpora/,Stand: 17.11.2005. [11] K觟hler,Reinhard(2005):Korpuslinguistik zu wis- senschaftsthe-oretischen Grundlagen und methodolo- gischen Perspektiven. In:LDV Forum, Band 20, Heft 2,S. 1-16. [12] Perkuhn, Rainer/ Belica, Cyril/ al -Wadi, Doris/ Lauer,Meike/Steyer,Kathrin/Weiβ,Christian(2006): Korpustechnologie am Institut für Deutsche Sprache. In:Schwitalla,Johannes/ Wegstein,Werner(Hrsg.): Korpuslinguistik deutsch: synchron diachron kon- trastiv.Würz -burger Kolloquium 2003,20. 23.3.2003, Universit覿t Würzburg. Tü -bingen:Niemeyer, er- scheint 2006. [13] Perkuhn, Rainer/ Belica, Cyril(2006):Korpuslin- guistik Das unbekannte Wesen oder Mythen über Korpora und Korpuslinguistik.In:SPRACHREPOT Heft 1,S.1-8. ·语言信息处理· 48· ·
本文档为【对语料库_语料库语言学的种种误解】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_978248
暂无简介~
格式:pdf
大小:220KB
软件:PDF阅读器
页数:5
分类:工学
上传时间:2010-10-16
浏览量:78