下载

0下载券

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 《机器翻译用现代藏语语义词典》的设计研究

《机器翻译用现代藏语语义词典》的设计研究.doc

《机器翻译用现代藏语语义词典》的设计研究

这生活因为有你才Colorful
2018-01-21 0人阅读 举报 0 0 0 暂无简介

简介:本文档为《《机器翻译用现代藏语语义词典》的设计研究doc》,可适用于游戏领域

《机器翻译用现代藏语语义词典》的设计研究《机器翻译用现代藏语语义词典》的设计研究第卷总第期年月西北民族大学(自然科学版)JournalofNorthwestUniversityforNationalities(NaturalScience)VNoSep,《机器翻译用现代藏语语义词典》的设计研究祁坤钰(西北民族大学中国民族信息技术研究院,甘肃兰州)【摘要文章就现代藏语语义词典设计的理论框架,语义分类思想,语义分类体系和属性描述原则构造了一个初步适应英藏机器翻译的藏语语义分类体系指出了语义分类和语义属性描述在语义分析中的重要性阐明了语义分类与语义属性描述两者之间的约束关系,探讨相关的语义分析研究课题【关键词】机器翻译藏语语义词典藏语语义【中图分类号TP【文献标识码A【文章编号()汉语的信息处理已经从字,词处理向语义处理方向过渡,而藏语语言处理一直停留在字,词处理阶段虽然西北民族大学,青海师大,西藏大学,西南民族大学等几所高校开设了相关学科专业,研究开发相关科研项目,但由于基础研究,人才,设施等诸多因素,藏文信息处理研究及其产品开发的进度相对缓慢这对现代高速发展的藏族社会及其文化教育状况很不适应因此,针对藏文信息处理领域的实际情况,应大力加强藏语句法知识,语义知识,语用知识的基础理论研究,这些基础研究的课题都是语言信息处理领域高难度的前沿课题,已被国内外有关专家关注其中,句法知识,语义知识的获取是当前的重点语义知识是二者的难点,而建立一套比较完善的基于词的语义信息词典将是藏语语义分析研究的突破口词典的理论来源藏族文化由于受古印度逻辑哲学思想的影响,传统文化体系相对完整从公元世纪开始,在多年的历史长河中,形成了涵盖文学,哲学,宗教,天文历算,艺术,语言等学科的"十明"文化体系其中以"三十松"和"音势论"为核心的藏语逻辑格语法理论体系必然是藏语自然语言处理研究的重要基础理论之一藏语是属于格语法理论体系的拼音文字,其语格有八种形式,每一个格关系都有一个格助词作为形式标记描述一个最短的语义,一个句子至少要有一个格来描述除"目的格"外,其他的语"格"应属于形式逻辑格,这与语言学家菲尔莫提出的格语法有本质的区别,前者是形式逻辑格,后者是语义逻辑格我们知道自然语言处理的关键就是要找到处理真实文本所需要的形式化,规则化的理论和方法,语言深层结构和表层结构的转换,形式逻辑格与语义格的结构映射都是语言形式化描述的具体途径藏语在两种结构映射方面有着天然的优势,其特点主要表现在:收稿日期基金项目"信息处理用藏文分词研究"得到国家社会科学基金资助,项目编号BYY【作者简介祁坤钰(一),男(土族),甘肃天祝人,讲师,主要从事藏语计算机语言学)传统的藏语语法包含八种语格,除了第一个格"本性格"以外,其他七个语格均与述语属性及动词配价有直接关系)除第一个格外,每一个语格都有一个格助词做形式标记)动词的配价数目确定逻辑格边界如果是一价动词,则单句不包含实施格和受事格,并且一价动词有不及物性(藏语语法称无客性)如果是二价动词,则单句原则上包含实施格和受事格,但可以隐含,并且二价动词有及物性如果是三价动词则单句一定包含实施格,也有可能包含受事格,对象格,来源格等)动词的时态同句子的时态,语态在语义上有联系)同一组字母为基字的部分词在语义上有某种特定的联系)格助词不但表达形式逻辑格,而且可以表述部分语义格,这种现象在其他民族语言中很少存在,可以进一步研究藏语形式逻辑格和语义格的映射关系)动词的前,后,上,下加字对动词的名物化有制约作用藏语语法中存在的这些现象和规律,将为藏语语言处理研究提供有效的理论依据,我们在着力研究藏语语言的同时,还应该面向国内自然语言处理研究的前沿领域,掌握其他民族语言尤其是汉语,英语语言处理的相关词法,语法,语义分析等方面的理论和方法在语义分析方面,国内外有诸多语义分析理论,如:有格语法,题元理论,配价语法,蒙塔格语法,HNC概念层次网络等,经过对比分析研究,我们吸收了格语法,配价语法,HNC概念层次网络等语法的思想,依据藏语语法理论的特点,选择了与藏语形式逻辑格理论最接近的配价理论,对藏语动词的配价关系做了详细的描述,根据概念层次网络的联想脉络,把藏语词的义项从属性,上下位关系,语义作用效应等方面做了描述,形成了一个比较合理的藏语语义网络同时,根据藏语特殊性,我们提出了语法与语义分析并重的思想,分析系统框架由语法分析和语义分析构成,语法分析在前,语义分析在后,用语义信息来限制,消除多义词的义项,使得系统得到正确的句法结构,最终为英藏机器翻译服务在词典设计过程中,我们参考了wordNet框架,提出了基本的描述原则:)用同义词集合表示一个概念)语义关系在概念之间体现)上下位关系是语义关系的主要关系从哲学角度对词的概念进行分类图语义四大类框架我们知道,任何一种民族语言的语义系统都是该民族的成员在长期的生活,生产,社会实践活动中逐步积累,约定俗成的这样的语义系统就同藏民族的思维方式息息相关,思维方式不仅受语言逻辑的约束,而且在深层次上受哲学思想的约束人的思想,认识会不同程度地受到客观世界的制约藏族哲学把世界分为物质,意识和过程三大类,物质特性概括为无常性和时空性,是对世界万物的高度抽象和概括,与辨证唯物主义的物质观,运动观,时空观一脉相承为了高度抽象地概括客观世界,我们将客观世界作为语义的基类(baseclass),把事物N,运动v,状态A和过程F四个类当作客观世界的继承类分类框架如图:语义分类体系将汉语语义分为事物,运动,性状三大类,将时间,空间,数量等概念纳入到事物和性状类中着名的WordNet将名词分为个独立的起始概念这些与我们的四类分法并不矛盾一语义分类体系藏语语义分类在参考并吸收了大量汉文语义分类体系特征的基础上根据藏文词汇概念特征做了局部修改和调整,形成了藏语语义分类体系在事物,运动,状态,过程四个类中,只有事物N属于实体类,运动,状态,过程是事物类的属性关系类,是反映事物运动,变化,性状以及持续时间的特性类在整个语义分类体系中认识,把握这一点是非常重要虽然在分析系统中我们强调语法和语义并重,但语义分析只能在语法分析的基础上进行,语义分类系统是为了辅助语法分析而设计的,语义分类的标准及分类深度均应从语法分析的需要来确定,运用语义知识应着重解决那些靠语法规则难以解决的问题事物类分为具体事物,抽象事物具体事物分为生物,非生物和构件类抽象事物分事件,领域,法规,生理,意识,信息和属性类生物分为人类,动物,植物和微生物类非生物分自然物,人造物,排泻物和构形类构件包括生物体构件和非生物体构件运动类分关联,心动和行动三类关联包含表示存在,相当,包含和系动的关系心动是指生命体的心里思维活动及其外部表现,如重视,仇恨,喜欢,盼望等行动包含自变,促变,自为,对待,遭受,创造,消除,自移,搬移,给予,获取,相互等属性性状包括事件值,物性值和人性值三类事件值包含某一事件发生或者出现的状态,如危险,寂寞,错误等物性值包含视感,触感,色感,味感,听感,形感,浓度,热度,速度,长度,高度,宽度,深度,厚度,硬度,湿度,粗细,新旧,松紧,大小,真假,好坏,强弱,价值,内容等人性值包括年龄值,德才值和关系值等过程类包括时间和空间时间包括时间和时间值空间包括空间和空间值属性描述在词典中我们采用了语义分类与属性描述相结合的语义信息表述方法语义分类采用C类的思想,上下级之间属性易于传递和继承,但子类的边界和交叉很难克服,为了弥补这一缺陷,提高分析模块的性能,在语义分类的基础上,采用复杂特征集的方式,对每一个词语与其周围名词性成分之间发生的组合关系进行逐次描述,描述包括三个方面:一是事物类的特征描述二是述语配价三是语义搭配配价主要指动词和形容词为主的述语与周围对象之间的语义约束关系,是建立在语义层面上的关系行为事物类的特征描述事物类是四大类的核心事物类从分类,构件,形状,颜色,物态,关系,属性,功能八个方面进行描述,建立静态语义网并形成基础语义库运动类的配价)配价环境:语义层面)配价主体:动词)述语配价:在一个特定的语义环境中,一个动词与其周围对象之间的支配关系)配价数目:动词所能支配的周围对象的数目)配价表达:一价动词:,IA二价动词:o,S,IA三价动词:o,S,S,IA在藏语中配价成分出现的位置与汉语有差另,汉语二价动词为:,IA,s,三价动词为:,IA,S,S配价是属于语义范畴的动词的静态信息,对于一个具体的动词或形容词而言,其配价是相对稳定动词能支配几个对象成分,它就是几价动词在理论上说,一个藏语句子中,直接受动词支配的对象最多不超过个如果支配一个成分我们称一价动词如:(走),(睡),(美丽),自'目(发展)等如果支配两个周围成分我们称作ffr~如:目气(说),司(吃),气(喜欢),(邮寄),(抢)等如果支配三个周围成分我们称作三价动词如:薯'目(赐给,送给),葡q(穿戴),园q(喂)等一运动类的格框架运动类格框架的建立其目的是将运动类和事物类建立关系逐次分析所有运动类的概念语义关系,创建运动类的语义角色框架(格框架),标定每一个角色的事物类语义限制(语义特征)格框架是述语动词同其周围名词性成分的语义组合模式是人和计算机理解,运用语言的关键分类是人类认识事物特征的一种手段,也是人类对事物认识的一种结果任何一门学科都有分类和归类的问题,对格框架进行分类和归类可以帮助计算机掌握纷繁复杂的自然语言藏语的形式逻辑格本身带有相对固定的语义格信息藏语的形式逻辑格对动词,语义角色以及其出现在语义环境中的位置和次序有严格的限制藏语是靠动词和形式逻辑格表达语义的这一点与靠语序和语气表达语义的汉语有着本质的区别我们把藏语动词分为他动,自动,内动,领属,系属等类,分别用动词的配价数目逐次描述框架分类的标准是动词的论元属性,即考察动词能带几个必有论元,带有一个论元动词组成的框架为一价框架能带两个论元的动词组成的框架为二价框架,能带三个论元的动词构成的框架是三价框架根据这一标准我们将格框架分成个大类,个格框架如:一价框架:萄=,SUBJECT,V二价框架:qq气=,SUBJECT,OBJECT,V三价框架:葡=,SUBJECT,OBJECT,OBJECT,V由于篇幅所限,语义格框架将另文公布语义搭配语义搭配的目的是限制语义描述的范围,让分析器能准确判断词汇的具体语义环境藏语是以动词为核心的语言对动词进行分类,描述必须格名词的语义属性,这是研究聚合和组合相互制约的语格的重要方面格框架的事物类N和运动类V,他们的关系是每个N都有可v性,每个v都有带N性观察格框架的NV关系有三个角度:由N看V,由V看N,NV互看因此语义搭配就是语义制约也就是NV相互制约研究藏语语法,语义的具体情况,我们认为藏语的语义制约应该按词性分类搭配其理由是名词,形容词,动词在具体语义环境中所承担的角色不同,语义搭配也有差别名词的语义搭配:一般使用名词所属的语义类来限制,约束语义范围语义类的搭配条件是寻找名词所属的最小子类如"工人"的最小语义类是"人类",而不是"生物","人类"是词汇"工人"所属的最小语义类又如"情感"一词,它所属的最小语义类是"意识",而不是"抽象事物",也不是"事物"表示为:q吾'q::='芦'两::=动词的语义搭配:根据动词在语义环境中的支配成分,将动词的搭配对象分为动词的支配成分主体SUBJECT和客体OBJECT和名词的搭配对象一样,动词的搭配对象主体和客体也应该是所属语义类的最小类suBJECT:动作行为的承担者OBJECT:动作行为所涉及的直接对象比如:说::=S=人类,O=信息鹫::=S=,O=气'目形容词的语义搭配:形容词一般用来只表达主体自身的状态信息,不涉及客体因而它不带OBJECT如:'q::=气qgar'q::='性状类和过程类性状类和过程类主要进行语义范畴的分析,以确定其语义指向,通过性状类和过程类的属性与事物类和运动的属性建立联系在系统中主要通过动词驱动的方式建立联系,其原因是性状类和过程类约一束,限制事物类和运动类事物类和运动类始终占据主导地位,只要运动类的格框架确定,就可以通过格框架的论元属性配备合理恰当的附加信息语义分类与属性描述的关系词的语义分类是标明一个词的语义属性的常用手段之一,是词汇语义的抽象概括语义分类的不足之处:一是面对自然语言分类难以全面二是子类的语义交叉现象难以避免从信号处理的角度说,词的语义属性描述就是针对词的特征提取,要保证特征信息的合理性,有效性,全面性并不容易因为抽象的概念信息来自纷繁复杂的客观世界一般情况下,描述一个词的语义属性一般包括两个方面:一是这个词自身的语义性质(如该词所属语义类等)二是这个词的共现成分(COoccurrence)的语义性质(如动词的配价成分所属语义类等)这两方面属性的描述都以词的语义分类框架为基础语义分类在采用复杂特征集进行语义描述的过程中才能发挥作用设计环境我们在VisualStudioC开发环境下采用了基于COM的ADO数据库技术分别创建了名词,动词,形容词的属性语义关系库结束语藏语自然语言的复杂性使我们目前拿出一个细致准确的概念语义分类框架是不现实的目前处于机器翻译的尝试阶段,应该面向一个特定的领域,建立一个粗略的语义分类框架,在特定范围内完善分类框架,使语义分类向语义分析的深度和广度延伸,一个语义分类体系虽然在理论上涵盖了自然语言的所有概念语义,但在语义分析上是做不到的语义分析不仅仅是概念的语义分类,还涉及到词汇概念在实际语用中的作用效应再说,语义分类是一项复杂而艰巨的系统工程从语言应用的角度讲,语义分析要比语法分析困难得多语义搭配的复杂性,语义关联的模糊性,语义约束的灵活性使我们很难模拟人脑的思维机制来全方位描述语义信息的传递过程,这不仅仅是一个理论探讨问题,也不仅仅是一个技术处理问题,就从所涉及的诸多学科领域我们可以看到这是一项浩大的科学工程,需要作长期的理论,技术研究和基础储备工作参考文献:于江生,俞士汶中文概念词典结构J中文信息,:黄曾阳HNC概念层次网络理论M北京:清华大学出版社,苑春法,陈刚,黄昌宁基于词性和语义知识的汉语句法规则学习J中文信息,,郝秀兰,杨尔弘,舒鑫柱基于HowNet的事件角色语义特征提取J中文信息,,:,

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

评分:

/14

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利