首页 基于AdaBoost.MH算法的汉语多义词消歧

基于AdaBoost.MH算法的汉语多义词消歧

举报
开通vip

基于AdaBoost.MH算法的汉语多义词消歧 中 文 信 息 学 报 第2O卷 第3期 JOURNAL OF CHINESE INFORMATION PROCESSING Vo1.20 No.3 文章编号:1003—0077(2006)03—0O06—08 基于AdaBoost.MH算法的汉语多义词消歧 刘风成,黄德根,姜 鹏 (大连理工大学 计算机科学与技术系,大连 l 16024) 摘要:本文提出一种基于AdaBoost.MH算法的有指导的汉语多义词消歧方法,该方法利用AdaBoost.MH 算法对决策树产生的弱规则进行加强,经...

基于AdaBoost.MH算法的汉语多义词消歧
中 文 信 息 学 报 第2O卷 第3期 JOURNAL OF CHINESE INFORMATION PROCESSING Vo1.20 No.3 文章编号:1003—0077(2006)03—0O06—08 基于AdaBoost.MH算法的汉语多义词消歧 刘风成,黄德根,姜 鹏 (大连理工大学 计算机科学与技术系,大连 l 16024) 摘要:本文提出一种基于AdaBoost.MH算法的有指导的汉语多义词消歧方法,该方法利用AdaBoost.MH 算法对决策树产生的弱规则进行加强,经过若干次迭代后,最终得到一个准确度更高的分类规则;并给出了一 种简单的终止算法中迭代的方法;为获取多义词上下文中的知识源,在采用传统的词性标注和局部搭配序列 等知识源的基础上,引入了一种新的知识源,即语义范畴,提高了算法的学习效率和排歧的正确率。通过时6 个典型多义词和SENSEVAL3中文语料中20个多义词的词义消歧实验,AdaBoost.MH算法获得了较高的开放 测试正确率(85.75%)。 关键词:人工智能;自然语言处理;词义消歧;AdaBoost.MH算法;多知识源 中图分类号:TI~91 文献标识码:A Chinese W ord Sense Disambiguation、 th AdaBoost.MH Algorithm LIU Feng-cheng,HUANG De-gen.JIANG Peng (Depa-~nent of Computer Scien~,Dalian Umve~ y of Technology,Dalian l16024,China) Abstra~:An approach based on supervised AdaBoost.MH learning algorithm for Chinese word sense disambiguation i日presented.AdaBoost.MH algorithm is employed to boost the accuracy of the weak dccision stumps rules for trees and repeatedly calls a learner to finally produce a more accurate rule.A simple stopping criterion is also presented. In order to extract more contextual information,we introduce a new semantic categorization knowledge which is useful for improving the learning efficiency of the algorithm and accuracy of disambiguation,in addition to using two classical knowledge sources,part—of—speech of neighboring words and local collocations.AdaBoost.MH algorithm making use of these knowledge sources achieves 85.75% disambiguation accuracy in open test for 6 typical polysemous words an d 20 polysemous words of SENSEVAL3 Chinese corpus. Key words:artificial intelligence;natural language processing;word sense disambiguation;AdaBoost.MH algorithm; multiple knowledge source8 1 引言 词义消歧(Word Sense Disambiguation,简称WSD)一直是自然语言处理研究领域十分重要 的问题和研究热点之一 ,在机器翻译、信息检索、自动文摘、知识挖掘等自然语言处理领域 均具有重要的应用价值。 近几年,国内外研究人员将统计学和机器学习引入到词义消歧的处理中,提出基于语料库 的多义词处理方法(Corpus Based Approach,CBA)。一般来说,有指导的消歧方法要比无指导 6 收稿日期:2005-05—26 定稿日期:2005—10—26 基金项Igl:国家自然科学基金资助项目(60373095;60373096) 作者简介:刘风成(1978~),男,在读硕士,主要研究方向为自然语言处理. 维普资讯 http://www.cqvip.com 的方法 有更好的效果。许多标准的有指导的学习算法被应用于词义消歧的模型中,如贝 叶斯分类 J、基于信息论的方法 J、神经网络算法l6 等。 有指导的AdaBoost.MH算法是提高预测学习系统能力的有效工具,在 POS 和文本分 类 中得到成功应用。AdaBoost.MH算法的主要思想是把多个不太准确的弱规则合并为一个 高精度的分类规则。弱规则由一个独立的称为弱学习器(Weak Learner)的过程产生,这些弱 规则组合得到最终规则,即通过学习得到的分类规则。 利用AdaBoost.MH算法的思想,在 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 词义排歧的学习模型时,只要给定足够的数据和 一 个能可靠地提供中度正确的弱假设的弱学习器,它就获得了理论上的保证,而不需要设计一 个能产生高准确率的学习器。 Schapire and Singerl9 提出的AdaBoost.MH算法适合多类多标签的分类问题。对于WSD, 由于在每个给定的上下文中多义词的词义是唯一确定的,因此WsD只是单标签的分类问题。 本文对AdaBoost.MH算法进行了调整,提出了面向单标签的WSD的加强算法,该算法对简单 决策树产生的分类规则进行加强,经过若干次迭代后,最终得到一个准确度更高的分类规则, 即为最终的消歧模型;为获取多义词上下文中的知识源,本文在采用传统的词性标注和局部搭 配序列等知识源的基础上,引入了一种新的知识源,即语义范畴。同时给出了~种简单的终止 AdaBoost.MH算法中迭代的方法。 2 面向WSD的AdaBoost.MH算法 2.1 算法描述 本文在算法描述中沿用了Schapire and Singerl9 中的一些表示符号。 设样本集S={( 。,Y。),⋯⋯( ,Y )},其中, E ,X为训练集,m=I I;Y ∈Y,Y为词 义标签集,记k=I yI。样本( ,Y)为单一实例 和该实例对应的词义标签Y。 AdaBoost.MH维持了样本集S上一个 m×k的权重分布D,初始状态下,分布D的权值是 相同的。 令D 为第t次迭代后的分布,h。:X× 为分布D 上获得的弱规则,该规则由弱学习器 产生。h ( ,z)表示对词义标签z∈Y是否应该赋给实例 的一种预测,其值Ih。( ,z)I反映了 这种预测的可信度。 弱规则的产生是一个序列式的学习过程。在每次迭代中,运用下面的调整公式调整每个 样本的权值,使每次输入弱学习器的样本集具有不同的权重,让弱学习器集中学习那些使用前 一 规则最难以预测的样本( ,Y)。 给定z∈Y,Y l∈Y,引入符号Y z]∈{一1,+1},若Y{与标签1一致,Y z]的值为1,否则Y [Z]的值为 一1,调整公式定义如下: DⅢ( ,z): 盟 (1) 厶 I 其中1≤ ≤m,Z。为归一化因子(z。的计算公式参见2.2部分),Schapire and Singer 已 经证明,算法误差的最大值为: . T : Z (T为总的弱规则数),因此为减少总误差,在选取Z 时应使其最小化。从公式中可以看出,若 h。( ,z)的预测可信度较好,则D (i,z)的值是增加 的,反之,D。(i,Z)的值是减少的,且D。(i,Z)的调整幅度与Ih ( ,Z)I成比例。 由于 WSD为单标签分类,因此最终形成的合并假设为唯一的标签1,而且这个标签满足/ ( ,Z)最大化。 7 维普资讯 http://www.cqvip.com 面向WSD的AdaBoost.MH算法如下: 1)输入样本集.s 2)初始化:D1(i,Z)=1~ink; 1≤i≤m,1≤Z≤』I} 3)训练过程:循环学习 次 a)把D。传给并调用弱规则学习器; b)获得弱规则h :X×y c)利用调整公式调整矩阵D的权值 4),2f(x,z)=max∑ ^( ,z),即为最终形成的合并假设。‘ 2.2 弱学习器的设计及Z 的选取 本文采用简单决策树作为弱学习器,其中树的叶子定义了实例空间 的一个划分,弱学 习器做出的假设是基于该划分的。对于划分中任一划分块 置,若任意的 , ∈置,总有 h( ) = h(x ),也就是说,h(x)做出的预测,仅与给定实例 所属的划分块有关。 对于任意给定的特征P(特征的选取参见下面第3部分),可以将实例空间 划分为2个 划分, 1为包含P的实例集,肋 为不包含P的实例集。 一 个简单的弱规则形式如下: (^ ,z):』c讲 p不是 的特征 (2) tc p是 的特征 其中c .『∈{0,l})是一个实数。 一 个弱规则产生的过程如下,在每次迭代中,对每一个特征,弱规则学习器计算预测误差; 预测标准为,某一实例属于某一分类,当且仅当实例中包含此特征。最小化分类误差的特征被 选择为产生此次迭代过程中弱规则的特征。 Sehapire and Singer 已经证明,对于给定的迭代t与c ,选取cjr=o.5×ln( l/ 1),可以 使z 最小。这时有: z =2∑『E1 0.1l∑ · · (3) 其中 。( )的计算如下:在给定分布D 的情况下,对于每一可能的词义标签 1,在 ∈ {0,1}和b∈{一1,+1}的情况下,有: = ∑D ( ,z)ll ∈ n Yl[z]=b 0 (4) 也就是说, 。( 。)为 中词义标签为(不为)1的训练实例在分布D 中的权值和。 在每次迭代中,对每个实例,求解Z 。选取Z 最小的实例所对应的h(x,Z)为本次迭代的 弱规则。在计算 时,如果 。或 非常小或接近零,会导致cj,的值是很大或者无穷大。这 样,这种大的预测值会引起数值问题。为避免这种情况的发生,需要对 cj,采用平滑值: c :0.5×In(争 )其中s>0 (5) 一 1 十 占 由于以 和 。的值域为 [0,1],因此这种平滑对c 造成的影响的上限为: 1 ln( ) ÷ln( ) (6) 本文采用的平滑系数为:占=1/(m×k)。 R 维普资讯 http://www.cqvip.com 3 知识源 3.1 相邻词的词性标注(P0S) 词性标注资源共使用以下7个特征:P一,,P ,P一。,Po,P P+ ,P+3。 其中P一 (P+ )代表多义词 左(右)边第 i单词所对应的词性,P0代表多义词1,O所对应 的词性。 例如,为区分“材料”一词在下面句子中的词义: 以/p/K.b05树叶/n/Bhl1、/wp/一1彩布条/n/BqOl和/c/Ke01香烟盒纸/n/Bpl7为/v/ Ja01材~/n/Ba06的/u/Kd01贺卡/n/Bpl8,/wp/一1做SE/v/Hj21虽/c/Ke04简/a/Ed37,/ wp/一1其/r/Ba10情/n/DtlM却/d/Ka33~L/a/Ebl2。/wp/一1 例句(1) 上下文中包含的POS资源有: P 一 3= c,P 一 2= n,P 一 1 = ,Po = n,P+l= ,P+2 n,P+3 = wp 3.2 局部搭配信息 局部搭配c 指多义词 上下文中局部的连续的单词序列信息。i J分别代表多元序列的 起始和结束位置。实验中,多元信息主要考虑了以下9个特征: C 一 1.一1,Cl,1 ,C一 2,一2,C2, ,C 一 3,一3 ,C3。3,C一 2,一1,C一 1,1,C1.2 例如,对于例句(1),考虑的局部搭配中c 。。和c 一。,对应的特征为: “C 一 。一 =为”和 “C 一。香烟盒纸一为” 3.3 语义范畴信息 上下文中词汇的语义范畴大体上确定了这个上下文的语义范畴,并且上下文的语义范畴 可以反过来确定词汇的哪一个语义被使用 m]。Walkertn 和Yarowsky[ 在词义消歧的研究中 分别提出了基于义类辞典的消歧算法。 《同义词词林》[1 是当前汉语信息处理中的一部机器可读的一类词典。全 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf 把词义分为 大、中、小类三级,共分为 12个大类,94个中类,1428个小类。词典中给每个指定的词一个或 多个语义码。如:词“觉悟”具有的一个语义码为“Gal5”,词“材料”有三个语义码,分别为 : “Ba06”、“Dkl7”和“Al03”。 实验中考虑的语义范畴信息主要包括以下6个特征: d 一 3 ,d一 2,d— l,d+1,d+2,d+3 其中d一 (d+ )代表多义词 左(右)第 单词所对应的语义码信息。 例如,对于例句(1),考虑的语义信息包括以下特征: d 3=Ke01,d 一 2= Bpl7,d一1=Ja01, d+l=Kd01,d+2= Bpl8,d+3=一1 其中“Ke01”、“Bpl7”等为相应词汇的语义码。 4 实验 4.1 语料库 4.1.1 人民日报语料 实验中使用的人民日报语料(见表1)来源于哈工大信息检索研究室提供的《同义词词林 扩展版》和北大人民日报2000年半年的电子版。《扩展版》中使用的语料为北大人民日报 1998年上半年的电子版(带有词性标注),约35万词语。《扩展版》在原来人民日报的基础 上,按照《同义词词林》中定义的词的语义分类原则,在语料中增加了词的义类信息。因《扩展 q 维普资讯 http://www.cqvip.com 版》中多义词语料有限,本文从人民日报2000年半年的语料中抽取部分含有多义词的语料, 按照《同义词词林》中定义的语义分类原则,进行人工义类标注。 4.1.2 SENSEVAL3中文语料 SENSEVAL是语义系统评估方面的国际性平台。该平台公开发布了一些评测语义系统的 国际标准语料。SENSEVAL3中新增加了中文语料,语料格式按照SENSEVAL的标准格式发 布。SENSEVAL3中文语料(表2)共包括20个多义词,其中训练语料为793句,测试语料为 380句。 4.2 实验评测及结果 为评测AdaBoost.MH算法的学习效果,对多义词的学习结果进行测试,测试分为封闭测 试和开放测试。由于本WSD系统对每个测试实例总是输出一个唯一的值,因此其召回率和正 确率总是相同的。这里,对测试结果的好坏只使用正确率作为衡量的标准,正确率定义如下: 正确率 (7) 表 1 实验中使用的人民日报语料及实验结果(交叉实验 5次且封闭测试正确率95%以上) 多义 句子 词义 特征 POS 开放测试正确率(%) 词 数 数 数 1 2 3 4 5 平均值 材料 349 2 2919 n 85.29(70 91.17(600 86.76(50) 86.76(600) 85.29(150) 87.05 地方 89 3 918 n 84.21(150) 78.94(500) 78.94(500) 78.94(600) 84.21(600) 81.05 发表 157 2 1449 V 93.10(50) 93.10(70) 89.66(50) 86.2l(100) 93.10(50) 91.02 为 212 2 1836 V 90,00f50) 82.50f600) 85.00f500) 87.50(200) 82.50(300) 85.50 要 5加 4 4632 V 81.48(650) 83.33f800) 87.96(500) 85.18(750) 80.55(700 83.70 到 234 4 2388 V 83.33(50) 88.o9(500) 80.95f50) 88.09(600) 83.33(500) 86.19 . 平均 85.75 注:表中开放测试正确率括号内的数值为获得此正确率的迭代次数。 表2 实验中使用的SENSEVAI3中文语料及实验结果 多义 训练 测试 迭代 封闭测试 开放测试 词 语料数 语料数 词义数 特征数 P0S 次数 正确率 正确率 把握 31 15 4 386 nVyn 30 100% 73.3% 包 76 36 8 888 nnrqv 50 96.O5% 50% 材料 20 20 2 352 n 100 100% 8O% 冲击 28 l3 3 360 VnV 80 96.43% 84.6% 传 28 14 3 362 V 300 l00% 64.28% 地方 36 17 4 421 bn 200 100% 70.59% 分子 36 16 2 435 n 70 97.22% 75% 活动 36 16 5 426 aVVn l50 l00% 68.75% 老 57 26 6 6l6 Ngaandj 500 100% 61.54% 路 57 28 6 605 nnrq 300 100% 64.29% 没有 30 15 3 386 dv 200 100% 66.67% 起来 40 20 4 513 V 150 97.5% 75% 钱 40 20 4 5O6 nnr 600 100% 75% 日子 48 21 3 56o n 80 100% 66,67% 少 42 20 5 5l0 Ngaadjv 750 100% 60% 突出 30 15 3 387 aadv 500 l00% 53、33% 10 维普资讯 http://www.cqvip.com 续表 多义 训练 测试 词义数 特征数 POS 迭代 封闭测试 开放测试 词 语料数 语料数 次数 正确率 正确率 研究 30 15 3 380 nVVn 70 96.67% 73.33% 运动 54 27 3 601 nnZVVn 1o0 1o0% 70.37% 走 49 24 5 565 VVn 5o0 1o0% 62.5% 做 25 12 3 3O4 V 60o 1(x】% 58.33% 平 均 99.19% 67.68% 4.2.1 人民日报语料实验 为保证测试结果的客观性,实验中对语料进行交叉验证,从中随机抽取80%作为训练语 料,其余20%作为开放测试语料,进行 WSD实验。然后再重复这个的选择过程,每次选择不 同的2O%作为测试语料,其余的为训练语料,取这若干次实验结果的平均值作为最终的结果。 本文对6个典型的多义词(见表1)分别进行了实验。实验结果见表1。 4.2.2 SENSEVAI3中文语料实验 在SENSEVAI3中文语料上进行的WSD实验情况见表2。同时本文将AdaBoostMH的实 验结果和 Zheng.Yu Niu.and Dong.Hong Ji.¨ 的实验结果进行了比较。Zheng.Yu Niu.and Dong—Hong Ji.实验中使用的是贝叶斯WSD算法,使用的语料同为 SENSEVAI3的中文语料。 对比实验模型中选取的上下文特征与Zheng-Yu Niu.and Dong—Hong Ji中选择的上下文特征保 持一致,即POS特征和一定窗口的词袋信息,对比情况见表 3。 从表2中的数据可以看出,在SENSEVAI3上得到 的测试结果低于表 1中的实验结果。这主要是由于 sENsEVAL3中的语料偏少导致数据不足、特征空间过 于稀疏的缘故。AdaBoostMH在给定的数据不充分、弱 假设过度复杂或弱假设太弱的情况下。不能表现出很好 的性能,这一点与理论一致【9 J。但是,从作为语义评测 的平台的角度来看,SENSEVAI3的中文语料还是具有 表3 AdAnoost.MI-I与贝叶斯在 SENSEVAL3中文语料上的对比 开放测试平均 算法模型 正确率(%) AdaBoost.MH算法模型 67.68% 贝叶斯算法模型 60.40% 它的可行性的。从表3的数据中可以看出,AdaBoost.MH算法模型的优于贝叶斯算法模型,高 出7.28个百分点。 4.3 算法中迭代次数的确定 表1的迭代次数一列中的数据表明:在获得较高的正确率的情况下,算法对每个词进行学 习的迭代次数是不同的。这是由于每个词具有不同的特征属性和语料中包含的句子对表征该 词的特征属性的贡献能力不同而致。 图1数据表明测试结果的准确率与迭代次 ,、95 数的多少并不总是成正比。每个词语有一个最 毒90 佳的迭代次数。Schapire and Singer【9 指出迭代固 次数过多,AdaBoost.MH有可能发生过适应。另 要75 一 方面从系统的使用角度来看,迭代次数增多, 意味着学习所需的时间和保存学习结果所需的 空间的增加。因此需要在实际应用中,需要确立 一 个合适的迭代次数,也即终止迭代的条件。 蠹 是 塞 2 昌 窨 是 窨 禽 兽 昌 帛 皇 宕 H ∞ 晴 卜 ∞ 选代次数 图1 迭代次数的确定 维普资讯 http://www.cqvip.com 实验中采用了一个简单的终止条件,即当封闭训练的正确率达到95%以后,开放测试的 第二个极大值点处终止迭代过程。选择两个极值中的较大者的迭代次数作为最终的迭代 次数。 4.4 语义信息对排歧效果的影响 在获取多义词上下文信息的过程中,我们使用了的多种知识源:词性标注、局部搭配序列 和语义范畴。前两部分知识源在以往的WSD的研究中,已被多次使用,并显示出比单独的词 袋信息更好的效果,本文在以往的知识源中加入了语义范畴信息。为观察语义信息在排歧过 形成中对结果的影响,本文以“材料”一词的语料为例,在相同的语料情况下(随机从语料中选 取285句作为训练语料,剩余的作为开放测试语料共63句),对“材料”一词进行 WSD实验。 实验对比情况见图2、图3。 图2 语义信息对封闭测试的影响 ^ 95 80 嚣75 70 . / 、 . · · ·— ’—’、, _’、 + 不包含语义信息 — ·一包含语义信息 母 哿 e 遗代次散 图3 语义信息对开放测试的影响 从图2和图3中数据可以看出,语义范畴信息加快算法的学习速度和提高排歧的正确率 方面的效果比较明显。对于封闭测试的情况,标注了语义范畴信息的学习模型的测试正确率 达到100%需要的迭代次数比未加入语义范畴信息的模型减少了近20余次,并且在相同的迭 代次数下,加入语义范畴信息的模型的测试正确率比未加入语义范畴信息的模型平均高出 2%一7%;同样对于开放测试,不仅在同样的迭代次数下,标注了语义范畴信息的学习模型的 测试正确率比未加入语义范畴信息的模型提高了2%一10%,而且标注了语义范畴信息的学 习模型的最好结果比未标注语义范畴信息的模型高出约5%。 5 结论与进一步研究 本文在汉语词义消歧中引入有指导的AdaBoost.MH分类方法,通过对多义词上下文的多 知识源(词性标注、局部搭配序列和语义范畴)进行学习,获得了正确率较高的分类器。实验 结果表明AdaBoost.MH算法具有较强的学习能力和较高的排歧正确率(开放测试正确率平均 为85.75%);结合每个多义词所具有的特征属性的不同性和系统的实用性,给出了一种简单 实用的终止算法中迭代的方法。 与其它有指导的学习算法一样,AdaBoost.MH算法需要在带词义标注的训练语料中获取 知识。从表1的数据可以看出,语料的规模和质量(指语料所提供的上下文信息对排歧的贡 献)对排歧结果和系统的效率有一定的影响:高正确率高效率的排歧系统有赖于规模适当而 且质量较高的语料。但是,在人工标注的过程中,建立这种量与质兼有的大规模语料是很难 的[¨]。因此,如何利用其他语义资源(如WordNet[ 和HowNet[ )和相关方法 来自动 获取大规模的标注语料是进一步需要研究的课题;此外,本文在学习过程中获取的特征限制在 多义词前后3个窗口内,这会导致上下文中一些对排歧有用的信息没有被获取到,如果只是简 单的扩大窗口,又会引入过多的噪音,影响排歧效果,因此如何有效的利用多义词上下文的信 12 维普资讯 http://www.cqvip.com 息也是今后需要进一步研究的课题。 参 考 文 献: [1] N.Ide,J.Veronis,Introduction to the special Issue on Word Sense Disambiguation:The State of the Art[J]. Computational Linguistics,ACL,1998.24(1). [2] D.Yarowsky.Unsupervised w0柑Sense Disambiguation Rivaling Supervised Methods[A].In:the 33rd An— nual Meeting of ACL[C].Massachusetts,1995:181—188. [3] 李涓子,黄昌宁,杨尔弘.一种自组织的汉语词义排歧方法[J].中文信息学报,1999,13(3):l一8. [4] H.T.Ng,Exemplar—based w0rd Sense Disamhiguation:Some Recent Improvements[A].In:proceeding of the 2nd Conference on Empirical Methods in Natural Language Processing,EMNLP,1997. [5] Peter F.Brown,Stephen A.Della Pietra,Vincent J.Della Pietra,and Robert L.Mercer.Word—sense disam— biguation using statistical methods[A].In:proceedings of the 29th conference on Association for Computational Linguistics[C].California,June 1991,264—270 [6] G.Tower,E.M.Voorhees,Disambiguating Highly Ambiguous Words[J].Computational Linguistics,ACL, 1998.24(1). [7] S.Abney,R.E.Schapire,Y.Singer.Boosting Applied to Tagging and PP-attachment[A].In:proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Proceeding and Very larger Corpora ● [C].1999. [8] R.E.Schapire,Y.Singer,BoosTexter.A Boosting-based System for Text Categorization[J].Machine Learn- ing.2000.39:135—168 [9] R.E.Sehapire,Y.Singer,Improved Boosting Algorithms Using Confidence—rated Predictions[J].Machine Le arning.1999.38:297—336 [10] Christopher D.Manning and hinrich Sehutse.Foundations of statistical natural language processing[M]. Cambridge:MIT Press,1999. [11] Walker,E.Donald,Knowledge resource tools for accessing large text files.In:proc.First Conference of the UW CentrefortheNewOxfordEnglish Dictionary:InformationinData[C].Waterloo,Canada.Nov.6—7, 1995. [12] Yarowsky,David.Word-sense disambiguation using statistical models of Roget’s categories trained on larger corpora[A].ACL,1992.454—46o [13] 梅家驹,等.多义词词林[M].上海:上海辞书出版社,1996, [14] Zheng—Yu Niu.and Dong—Hon$Ji.Optimizing Feature Set for Chinese Word Sense Disambiguation[A]. SENSEVAL-3:Third International Workshop on the Evaluation of Systems[c].Barcelona,Spain,July, 2004. [15] H.T.Ng,Getting Serious about wmd Sense Disambiguation[A].in:proceedings of the SIGLEX Workshop “Tagging Text with Lexical Semantics:why,What and How?”[C],1997. [16] G.A.Miller,R.Beckwith,C.FeUbaum,et a1.Five Papers on WordNet[J].Special Issue ofInternational Jour-- hal ofLe xicography.1990. [17] 董振东.知网[E13/OL].http://www.keenage.tom 2000. [18] R.Mihaleea,I.Moldovan.An Automatic Method for Generating Sense Tagged Corpora[A].In:proceedings of the 16th National Conference on Artificial Intelligence[C],1999. [19] Eneko Agirre,Olatz Ansa,Eduard Hovy and David Martinez.Enriching Very larger ontologies using the WWW[A].In:proceedings ofthe Ontology Learning Workshop[C],Berlin,2000. 13 维普资讯 http://www.cqvip.com
本文档为【基于AdaBoost.MH算法的汉语多义词消歧】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_145002
暂无简介~
格式:pdf
大小:353KB
软件:PDF阅读器
页数:8
分类:
上传时间:2012-03-13
浏览量:11