首页 基于联结主义理论模型的留学生复合词习得考察

基于联结主义理论模型的留学生复合词习得考察

举报
开通vip

基于联结主义理论模型的留学生复合词习得考察 语言应用研究 odern chinese M112 XIANDAI YUWEN 2010.04 一、理论背景 使用联结主义理论对人类语言习得进行模拟,是近年 来兴起的一门学科。基于联结主义的自组织模型的二维网 图可以用来表征语音、词汇、语法、语义及字形等知识, 并用这些网图映射学习者的心理词典,以分析探讨语言习 得的相关问题。这是本研究在理论上的出发点。使用联结 主义的理论模型从中介语语料库和现代汉语语料库抽取语 义表征值,并进行聚类分析和相关数据分析。本文进行了 两组试验,试验一将现代汉语语料和留学生中...

基于联结主义理论模型的留学生复合词习得考察
语言应用研究 odern chinese M112 XIANDAI YUWEN 2010.04 一、理论背景 使用联结主义理论对人类语言习得进行模拟,是近年 来兴起的一门学科。基于联结主义的自组织模型的二维网 图可以用来表征语音、词汇、语法、语义及字形等知识, 并用这些网图映射学习者的心理词典,以 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 探讨语言习 得的相关问题。这是本研究在理论上的出发点。使用联结 主义的理论模型从中介语语料库和现代汉语语料库抽取语 义表征值,并进行聚类分析和相关数据分析。本文进行了 两组试验,试验一将现代汉语语料和留学生中介语语料进 行对比考察,试验二将留学生中介语语料分成三个等级进 行对比考察,以此来探讨留学生的复合词习得情况。 联结主义一个很重要的特点是对语言知识的看法。它 强调知识的分布表征,而不是符号表征(李平,2002)。 其对语义知识的认识也独有见解,联结主义认为,语义 知识也是一些分布表征值,语义的差别在于语义间的距离 (李平,2002)。而传统语义的观点是“语义是特定的范 畴值”。范畴语义观的假设来自可以分解的语义特征,它 们是符号表征。联结主义的语义观认为,在心理词典中, 语义聚类的依据是距离。并且,联结主义提出了一些可以 在计算机上模拟的语义提取的模型,Farkas&Li(2001)开 发的神经网络模型WCD(a word co-occurrence detector) 就是其中一个比较成功的模型,也是本实验直接利用的模 型之一。 联结主义另外一个很重要的特点是对语言 材料 关于××同志的政审材料调查表环保先进个人材料国家普通话测试材料农民专业合作社注销四查四问剖析材料 和知 识获得的看法。联结主义在语言习得方面并不否定语言的 先天性及内在 机制 综治信访维稳工作机制反恐怖工作机制企业员工晋升机制公司员工晋升机制员工晋升机制图 ,但是更强调语言材料对语言学习的影 响。联结主义认为学习的过程就是从语言材料中抽取特征 的过程,语言获得的过程是通过特征浮现获得 规则 编码规则下载淘宝规则下载天猫规则下载麻将竞赛规则pdf麻将竞赛规则pdf ,而不 是直接学习规则(李平,2002)。本文以留学生的中介语 语料库和现代汉语语料库作为分析的语言材料,一般来 说,留学生的中介语语料和现代汉语语料基本上能够代表 留学生和汉语母语习得者真实的使用情况。 二、模型介绍 本文采用的模拟算法,是理士满大学认知实验室(Farkas, I & Li,2001,2002)开发的自组织模拟模型中的语义分析 模型WCD(a word co-occurrence detector),该模型能较 好地利用真实的语言材料,进行词语之间的语义聚类,其 计算模型的基础依然是上述提到的分布表征,通过多次试 验、不同语言材料分布表征,浮现语言特征(此处为语义 特征值的距离)变化,以此为假设观察留学生“语义心理 词典”的变化,考察(模拟)留学生习得复合词的情况。 其在和儿童语言习得和双语模拟(Li Ping,2002、2004) 的实验中均有较好的表现。 该模型有三个参数:一是模型所开的窗口数,如果开 三个窗口,就是指在考察的词的左边L和右边R各取三个词 汇统计,计算该词与这些词的转移概率。即图1所表示的 layerA层的[O-3,O-2,O-1,I,O1,O2,O3],layerB层 [C-3,C-2,C-1,J,C1,C2,C3]。然后把这些转移概率 映射到一个多维的数组上面(这些数据一般取值在0-1之 间,这个也是WCD的第二个参数的设定)。一般来说,模型 基于联结主义理论模型的 留学生复合词习得考察 □陈永朝 邢红兵 摘 要:本文使用联结主义的语义计算模型,通过现代汉语语料和留学生中介语语料对一组复合词进行了语 义抽取试验,得到一系列语义聚类的网图(map),并以此作为联结主义推行的“心理词典”映射假设,考察了 初、中、高三个等级的留学生对复合词的语义习得情况。实验研究和理论推测表明:初级水平的留学生还不能很 好地识别同家族复合词的近义、同形关系。随着水平的提高,留学生掌握同家族复合词的数量慢慢增加,他们的 语义系统逐渐发展。到了高年级水平,留学生已经能够比较好地识别同家族复合词的近义、同形等关系,但是仍 然不如汉语母语使用者的语义系统完善。 关键词:联结主义 语义提取 心理词典 语言习得模拟 语言应用研究 odern chinese M113XIANDAI YUWEN 2010.04 训练多少个词汇,就有两倍词汇量的维度(即左边+右边的 数量),我们要训练大约500个左右的词语,则有1000维。 第三个参数就是训练的词汇个数。 WCD模型为语义的提取提供了可供参数选择的源代码。 我们就是在这个程序上面训练语料,调整参数,得出比较 满意的语义表征的。此外,还对这些提取的表征值作了一 些测试,检验它们的效果,分析我们要考察的问题。 图1:WCD的原理图示 三、实验 (一)实验一:现代汉语和中介语语义抽取和聚类对 比分析 试验目的和过程描述:选择现代汉语语料和中介语 语料,结合两个语料库,挑选出一组复合词,使用模型训 练,进行语义抽取并聚类得到语义网图,以此作为其在各 自(汉语母语者和留学生)心理词典表现的假设,考察两 者的异同,并进行相关分析。 语料来源:a.现代汉语语料库,北京语言大学开发,已 分好词。b.中介语语料库,北京语言大学开发,已分好词。 被试词语确定:a.现代汉语语料库的被试词:花架 子、花费、花、荷花、樱花、棉花、花生、花儿、花草、 花园、雪花、桃花。b.中介语语料被试词的选择:花、荷 花、樱花、桃花、花草、棉花、梅花、雪花、浪花、百合 花、花园。 背景词语确定:a.500个现代汉语高频词。b.中介语统 计出来的500个高频词。 部分词语标注:现代汉语语料中共有823处“花”单独作 词语使用。我们把所有代表“花儿”意思的标上“花1”(共 330个),代表“花费”意思的标上“花2”(共493个)。中 介语语料中共有113处“花”单独作词语使用,同样进行了标 注,“花1”(共有61个),“花2”(共有52个)。 实验结果:每个词语的语义值表示为一千维的数组 (向量),每个值在0~1.0之间。以下直接对数据进行计 算分析。我们采取了多维尺度分析(Multidimensional Scaling,MDS),将一千维的数据降到二维的网图上。多 维尺度分析的基本原理是将评价者对各种事物的相似程 度,通过适当的降维 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 ,将这种相似或不相似距离程度 在低维度空间中用点与点之间的距离表示出来。 图2:现代汉语语义聚类网图 图3:图1的虚框部分放大图 图4:中介语语料语义聚类网图 语言应用研究 odern chinese M114 XIANDAI YUWEN 2010.04 对比上图可以看出: 1.两者均能将同义近义聚在一起:“花1”和“桃花” “樱花”“荷花”等聚在一起,而且内部还有一些细微的 差异,“棉花”“雪花”比较远,“花儿”“花草”比较 近。“花2”和“花费”聚在一起,它们与其他的词语距离 都很远。 2.两者均能将同形异义分开:“花架子”和“花1” “花2”的距离都很远,说明模型能够将这两个意义绝然不 同的“同形词”区别开。 3.从更细的角度看:现代汉语的语义聚类网图的层次 比中介语更加分明,语义接近的词语相距得很近,语义差 别大的词语相距很远。 4.如果把从中介语中提取出来的语义网图比喻成留学 生的语义心理词典,把从现代汉语中提取出来的语义网图 比喻成汉语母语者的心理词典,我们认为,留学生在被试 的一组词上面,已经形成比较明确的语义系统,他们能够 很好地区分近义关系,能够比较好地区分同形的语素和词 语,但是他们的语义系统还不够完整,不如母语者清晰。 (二)实验二:中介语分等级语义抽取和聚类对比分析 我们将中介语语料分成三个等级(原始中介语料标有 1-9个评级,表明留学生的水平分布):把1-3级的语料分 到第一等级;1-6级语料分到第二等级;1-9级语料分到第 三等级。我们采用了累加的办法,这样较为合乎模型需要 的知识累加过程。 我们对中介语语料进行简单处理分析后发现:第一等 级语料中词语有:樱花、桃花、眼花、白花、木兰花、流 花、莲花、油菜花、玫瑰花、开花、花费、鲜花、荷花、 桃树花(偏误词,在二年级的语料中以桃花替代)、草花 (可能是“花草”的偏误词,在高年级中也消失了)。第 二等级语料中增加了:棉花、花草、松花、走马看花、骑 马看花(偏误词)、交际花、繁花、五彩花、绣花、梅花、 杏花、樱桃花(樱花的偏误词)、雪花、花生。第三等级语 料中又增加了:浪花、花园、花边、花花绿绿、花生酱、花 言巧语、花瓶、御花园、花粉、五花八门、春暖花开、花 样、老花镜、百合花、心花怒放、水花四溅、花束、花招。 “花1”“花2”的标注和背景词的设定与实验一致。 图5:第一等级中介语语料语义聚类网图 图6:第二等级中介语语料语义聚类网图 图7:第三等级中介语语料语义聚类网图 从上图的变化同样可以看出: 1.同形异义语素慢慢分开。 2.近义语素慢慢聚在一起(相对距离变近)。 3.如同试验一展示了母语者和留学生语义心理词典 的差异,试验二展示了初、中、高三个等级留学生语义心 理词典的变化过程:语义系统越来越清晰,层次越来越分 明,展现了一个语义系统完善的过程。 四、讨论 本文对从现代汉语和中介语语料抽取出来的语义进行 了聚类分析,并以此为留学生和汉语母语使用者的心理词 典的假设,对比了他们的异同和变化过程。实验结果表明 语义表征的提取手段在汉语中的应用是可行的,以此为基 础进行聚类分析,心理词典的假设是有其合理性的,从这 语言应用研究 odern chinese M115XIANDAI YUWEN 2010.04 语言文字网 些分析中可以得出一些有价值的数据和结论。 从中介语和现代汉语语义聚类结果看,现代汉语的语 义聚类更加清晰,有层次,说明留学生的语义系统和汉语 母语的语义系统还有一定的差距,有待进一步完善。从分 了等级的中介语语料的结果来看,留学生语义系统发展在 三个心理词典上表现明显的线索,前后有着延续性,是一 个逐渐清晰、分明的过程。 从中介语三个等级语义聚类结果看,初级水平的留学 生还不能很好识别同家族复合词的近义、同形关系。随着 水平的提高,留学生掌握同家族复合词的数量慢慢增加, 当他们的语义系统逐渐发展到了高级水平,留学生们才能 够比较好地识别同家族复合词的近义、同形等关系,但是 仍然不如汉语母语使用者的语义系统完善。 由此可以推测留学生复合词习得存在的一些问题, 例如用法太单调,或者使用错误,或者不敢大胆使用,导 致了在心理词典表征上的缺陷。产生这个问题的原因,从 提取的角度来讲,是两个语料本身的差异。例如,词语的 使用频率差异、使用的语用语境的差异。从内部原因推导 则是:留学生的词汇使用比较单一,某些词语仅限于书本 上的意思,而且,他们经常会犯一些错误(偏误),使用 的语境也不稳定,这些原因导致他们的心理词典没有汉语 母语使用者那么完善。这些在语料前处理的阶段(得到印 证),我们发现中介语“花”的构词家族远远不如现代汉 语,而且用法远不如现代汉语灵活多变,同时,还有一些 造词偏误和用法偏误现象。当然,使用频率也大大低于现 代汉语,尤其是等级比较高的词语。 因此,我们认为留学生如果要更好地掌握复合词的语 义和用法,形成完善的语义系统,就需要接触更多的真实 的现代汉语语言材料,否则是不可能真正掌握汉语复合词 中灵活多变的语义和语用特点的。同时,对于对外汉语教 学的启示是:教师要引导学生多在复合词的语用语义上花 功夫,引导学生有条件地扩大阅读量,全面准确地掌握复 合词的各种特点。 (本文受教育部人文社会科学重点研究基地重大项目 “留学生汉语词汇习得的计算机模拟研究[NO.08JJD7400 63]”资助。) 参考文献: [1]李平.语言习得的联结主义模式[J].当代语言学,2002,(3). [2]邢红兵.留学生偏误合成词的统计分析[J].世界汉语教学,2003, (4). [3]邢红兵.基于联结主义理论的第二语言词汇习得研究框架[J].语 言教学与研究,2009,(5). [4]Farkas,I and Li.A self-organizing neural network model of the acquisition of word meaning[C].E.M.Altamann, A.Cleeremans,C.D.Shunn,and W.D.Gray.Proceedings of the Fouth International Conference on Cognitive Modeling.Mahwah,NJ:Lawrence Erlbaum,2001. [5]Farkas,I and Li.Modeling the development of the lexicon with a growing self-organizing map[C].H.J.Caulifield et al.Proceedings of the Sixth Joint Conference on Information Science.Durham,NC:JCIS/Association for Intelligent Machinery,Inc,2002. [6]Li Ping,Igor Farkas,Brian MacWhinney.Early lexical development in a self-organizing neural network[J].Neural Networks, 2004,(17). [7]Li,Ping,&Farkas,I..A self-organizing connectionist model of bilingual processing[C].R.Heredia,& J.Altarriba Bilingual sentence processing,North- Holland:Elsevier Science,2002. (陈永朝 北京 中国传媒大学文学院 100024;邢红 兵 北京语言大学汉语水平考试中心 100083) 语言文字网是一个专门针对语言文字、中文信息处理等 资源进行整合的网站,面向个人、社团、刊物、会议等开办 专辑专栏,为广泛的语言文字爱好者搭建一个交流平台。 语言文字网坚持不带任何偏见、让每一个人充分发表 意见的办刊宗旨,提供了一个公开、公平、公正的平台, 得到了广泛的认可和支持。来自世界各地的专家学者在语 言文字网设立了永久性专栏,数以百计的专家学者在语言 文字网发布了作品,数以十计的相关网站与语言文字网建 立了友情链接,被各大搜索引擎收录且排名靠前。李开拓 先生这样评价:“网站的内容很丰富,且通过网站还可由 此及彼,资讯广通;焦点、热点汇集,各种观点齐备;立 学术之前沿,引研究之方向。相信,经过不断完善和大力 推广,定能大有作为。” 语言文字网负责向《汉字书同文研究》丛书、《中 文》季刊以及中文学术期刊《北华大学学报》、《现代语 文》等合作伙伴推荐文稿。网络与期刊互动:论题互通, 稿件互换,宣传互利,电子文本与纸质文本互补。 为帮助更多的同好实现网上安家的梦想,语言文字网 欢迎更多的朋友以各种方式参与网站的建设。 网址:http://www.yywzw.com
本文档为【基于联结主义理论模型的留学生复合词习得考察】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_919141
暂无简介~
格式:pdf
大小:1MB
软件:PDF阅读器
页数:4
分类:
上传时间:2012-01-12
浏览量:14