下载

1下载券

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 自然语言理解与大规模内容计算

自然语言理解与大规模内容计算.pdf

自然语言理解与大规模内容计算

东东
2011-03-29 0人阅读 举报 0 0 暂无简介

简介:本文档为《自然语言理解与大规模内容计算pdf》,可适用于人文社科领域

自然语言理解与大规模内容计算北京:清华大学出版社,:汉语自动分词中的上下文相关歧义字段(CSAS)研究∗侯敏陈琼璜初田天李湛王瑜叶立中国传媒大学应用语言学系北京Email:houminxxnet摘要上下文相关歧义字段(CSAS)的处理是汉语自动分词中的难题之一。本文对收集到的CSAS逐个进行了研究提出了“人脑认定语料库验证”的提取方法以及基本词表、校正词表和规则库互动的处理手段其中不相邻条件匹配的越过规则可解决统计方法难以解决的问题。测试结果表明该方法是有效的。关键词汉语自动分词上下文相关歧义字段(CSAS)语料库校正词表StudyonContextSensitiveAmbiguousStructure(CSAS)ofChineseWordSegmentationHouMinChenQionghuangChuTiantianLiZhanWangYuYeLiAbstract:Thecontextsensitiveambiguousstructure(CSAS)isoneofthedifficultproblemsoftheChinesewordsegmentationThispaperanalyzesmanycollectedCSASandintroducesamethod“man'sbrainrecognitioncorpusverification”forextractingthemTheproposedprocessingtechniqueconsistsofthebasicwordlist,thecorrectivewordlistandtherules,andtheyareinteractiveTherulefornonadjacentmatchingcanbeusedtosolvetheproblemthatthestatisticalmethodcan’tdoTheexperimentdemonstratesthemethodisusefulandefficientKeywords:Chinesewordsegmentationcontextsensitiveambiguousstructure(CSAS)corpuscorrectivewordlist问题的提出及上下文相关歧义字段(CSAS)的界定自动分词曾经是汉语信息处理的一个瓶颈问题。从上个世纪年代人们开始研究它到今天年已经过去了。随着研究的不断深入自动分词中的一些难题相继解决或部分解决如未登录词中的人名、地名识别交集型歧义切分字段中的后字有定型交集字段的正确切分等都找到了一些比较有效的解决办法。问题比较大的是组合型歧义切分字段以及语段歧义型交集字段的处理。因为这类字段在段内无法确定它的正确切分不可能像后字有定型那样通过一张静态的歧义切分词表来解决只有在动态的上下文中才能确定它的切分形式。因此可以说这类歧义字段的处理是目前汉语自动分词这盘菜中所剩不多的比较难啃的骨头之一。语言信息处理界习惯上根据结构特点把歧义切分现象分成两种:交集型、组合型①。这种分类易于观察讲解但不利于消歧策略的研究。侯敏()曾从使用不同消歧手段出发把歧义切分现象分为三种:后字有定型、语段歧义型、句子歧义型。现在看来句子歧义型∗该研究得到国家语委十五规划项目(项目号为YBA)和中国传媒大学工程项目(项目号为bbu)的支持谨在此表示感谢。自然语言理解与大规模内容计算北京:清华大学出版社,:可作为特例归到语段歧义型中去那么就剩两种。其中后字有定型就是孙茂松()说的“伪歧义”语段歧义型中包括了组合型和孙茂松说的交集型中的“真歧义”。“语段歧义型”的说法确实比较模糊但“真歧义”“伪歧义”的说法也容易给人造成误解好像“真歧义”是歧义“伪歧义”就不是歧义。其实这两者都是歧义只不过解决的手段不同:“伪歧义字段”的正确切分与上下文无关“真歧义字段”的正确切分完全取决于上下文。因此我们不妨就直接称其为“上下文无关歧义字段(contextfreeambiguousstructure简称CFAS)”与“上下文相关歧义字段(contextsensitiveambiguousstructure简称CSAS)”,这几组概念的关系如下:本文要研究的CSAS中既包括“人为”这样的组合型也包括“应用于”这样的交集型。根据分合的不同结构状态CSAS还可以分为两种:一种是无论分合时都能形成结构体的只是合时是词分时是词组如“马脚”“用心”“最近”另一种是只有合时是结构体分时不能形成结构体的如“上将”“去向”“中和”。就语言工程来说后一种CSAS更值得重视如果处理不好对下一步句子结构分析造成的影响会更大。具体的研究方法及技术手段.“人脑认定语料库验证”的提取方法要研究CSAS第一步工作是把它们提取出来。事实证明就目前的技术来讲要靠计算机自动地把它们找出来是有困难的必须加进人的判断。好在这类歧义字段大多数本身是词具有一种固有性是静态的它们所产生的歧义切分是可预测的。于是我们以《现代汉语词典》(增补本)为主要依据辅以《现代汉语规范词典》从中提取出了个CSAS加上我们搜集到而词典中没有收的“应用于”之类共有个形成了一个CSAS集合。提取该集合的方法是“人脑认定语料库验证”。第一步是人脑认定。认定的条件是:条件:该字段(词)构成成分必须全部是自由语素条件:这些构成成分分别做词时有可能在语流中共现符合上述条件则分别做出该字段分合的例证。在人脑认定的基础上第二步我们又用一个千万字的语料库②进行下列验证:验证:在真实文本中该字段是否分、合现象都出现过验证:分、合的频率是多少。在用语料库检验时我们注意到了下面的问题:)确定提取标准。提取的标准是该字段在这个千万字的语料库中必须出现过“分”的情况。如“马脚”在语料库搜索到的例中只有一例是分的情况:“她马屁拍到了马脚上”。因为语料中出现了分的事实我们就把它收在该集合中但像“病痛”这类字段在人认定的时候完全符合、条件也可以按要求做出并不牵强的分的例句:“这种病痛起来自然语言理解与大规模内容计算北京:清华大学出版社,:真是要人命”然而在语料库出现的例语料中却没有一例是分的全部都是合。我们尊重语料事实这类就不收在内。当然我们并不否认如果语料库再大些或者换一些别的领域的语料情况可能会有不同。)去除低频语料。由于受到语料库领域及规模的限制有些字段在语料库中出现频率极低它们的分合频率偶然性很大如果放在该集合中可能会影响到我们对CSAS的整体估价。我们的原则是首先在广播电视语料分库(万字)中检索③如果检索出来的语料超过条就不再查报刊分库。如果两个分库内搜索出的例证不足条就将其从CSAS集合中删去。我们重点解决的是高频且在分词中问题比较大的那些CSAS。)去除无效语料。在字段检索时会出现一些“垃圾”语料。如检索“来去”检索出的语料中会有“本来去年”“后来去世”“起来去”等等这些语料与测定该字段的分合频度无关属无效语料不计算在内④。)确定分合原则。有些字段分合界限十分明确该分时不分就完全说不通。如“中将”合时表一种军衔分时则是一个方位词“中”和一个副词或介词“将”根本无法构成一个结构体。但有些字段分合之间的界限就不那么明显。如“来电、来信、来人”之类的作名词用时显然是一个词表动作意义时分开显然没有问题但合起来也未尝不可《现代汉语词典》就把它们作为离合词单列为一个词条收了进去。与此相近的还有“走向、炒菜、制服、走道、学会、下不来、”等《现代汉语词典》中虽然没有将其表动作意义的收为词条但《现代汉语规范词典》中却收了。我们的原则是能合则合上述字段都作为一个词不分只是在词性上加以区别它们不在我们定义的CSAS集合中。从上面的说明中可以看出有些CSAS是确定无疑的有些CSAS的确定则是见仁见智的也就是说CSAS与非CSAS之间并没有一条非常明晰的界限是一个边界模糊的集合。所以要想建立一个泾渭分明的、封闭的、人人都认可的CSAS集合是不现实的。我们的目的只是尽最大努力搜集并研究处理这种现象以提高自动分词系统的准确率。..基本词表、校正词表与规则库互动的技术手段CSAS找出来后第二步工作就是解决处理。因为几乎每一个字段都有它的个性⑤所以我们只能采用笨方法:一个字段一个字段地去分析研究“逐条编制歧义消解的对策”(黄昌宁)。在技术处理上我们采取的手段是在原有分词标注系统中基本词表的基础上建立一个歧义切分校正词表(简称校正词表)和一个规则库。处理时采用基本词表与校正词表以及规则库互动的方法⑤。基本词表是分词标注的基础。目前我们使用的是北大计算语言学研究所研制的基本词表。它基本上是以《现代汉语词典》为准但略有增删。校正词表以字符为处理对象。建立校正词表的理据是有上下文相关歧义字段WW在分(形成Wf)或合(形成Wh)时前后可能会有一些特定的字符Zq、Zh相邻形成一种规律性因此可以把Zq、Zh作为确定分合的条件。根据分、合以及条件在前、在后的不同词表的描述形式有以下种:ZqW→ZqWfWZh→WfZhZqWZh→ZqWfZhZqW→ZqWhWZh→WhZhZqWZh→ZqWhZh⑦自然语言理解与大规模内容计算北京:清华大学出版社,:由于校正词表是在字符平面上操作所以要特别注意前后牵扯的问题。如字段“难听”是W,在“很难听出他的口音”中“出”是Zh但如果校正词表中作了“难听出→难a听v出v”的描述就会影响到“很难听出来”的正确切分它会把本该合并的“出来”分开切成“很d难a听v出v来v”。规则库的运行是在初分词的基础上作二次扫描而分词和词性标注是一体完成的因此可查看的参数不是字而是词(W字段前为Wq,字段后为Wh,)还有词类符号(C字段前为Cq字段后为Ch),如n、v、a等所以规则库中匹配的对象既可以是W也可以是C。规则可以分为两种:拆分规则和合并规则(另外还有替换规则主要是用来解决词性标注问题的)对一个具体的字段来说是做拆分规则还是合并规则要根据基本词典中是否收了该字段根据初分词的结果。规则的形式比较灵活既可以是确定项的匹配也可以是选择项的匹配运算中既可以用默认逻辑符“是”也可以用“非”(!)如规则“Cq(*!n)W→CqWf”表示字段W分开的条件是相邻的Cq中不能出现名词另外作为确立该字段分或合条件的既可以是相邻的W或C也可以是不相邻的句内特定的W或C。以不相邻的W或C做条件时要做越过规则。如字段“一道”它的特点是当前面出现“和、跟、同、与”这样的介词时就应该合起来作为一个词而其余绝大部分情况都应该分开。我们就可以做这样一条越过的合并规则⑧:“和|跟|同|与p#!w一m道q→*p#一道d。”这条规则描述的内容是:当“一m道q”前面越过一个以上Wq(但不能越过逗号)看到“和、跟、同、与”中任意一个符号时就将其合并为一个词并给出副词的标记。这样就解决了不相邻字串作为条件的CSAS的确定问题而这类问题恰恰可能是纯统计方法鞭长莫及的。所谓基本词表、校正词表与规则库的互动是指三者互相补充形成一体。遵循的原则是:.基本词表能不动尽量不动.能在校正词表中解决的问题尽量在校正词表中解决.最大限度提高规则的覆盖率。CSAS的类型及处理策略从我们对这个CSAS的分合频率统计来看情况相当复杂。各个频度上都有字段形成了一条从(分)开始(不足的也认定为)一直到(分)为止的曲线如图形成了一个连续统。每一个频度上的字段数目从到不等也形成了一条曲线如图。从图中可以看出这些字段中分的频度是两头大、以及的数目都超过了甚至达到个而中间则呈均匀分布状态都不超过个。频度(分)词数图CSAS分合频度表图CSAS各频度分布表自然语言理解与大规模内容计算北京:清华大学出版社,:根据这种曲线分布状态我们把CSAS分成A、A、A三类并用不同方法处理它们。A类CSAS这一类包括从频度到频度的个字段。这类字段的特点是以合为主分的现象是十分少见甚至是罕见的。所以这类字段即使不加处理也不会影响大局。对这类字段的处理是不动基本词典主要根据字段分开时的组合类聚特点在歧义切分校正词表中解决个别难做词表的做拆分规则。表是按频度分布随机抽取的个例子的处理情况:表:字段例句数目合百分比分百分比处理方法上学作校正词表全能做拆分规则难得作校正词表下回作校正词表就此作校正词表做拆分规则人心作校正词表A类CSAS这一类从频度到频度共有个字段。这类字段的特点是分合频率相近处理起来也比较复杂主要是根据该字段的组合和类聚特点选择一种相对简洁、经济的方法处理。很多情况下都是既要作规则又要用校正词表去补充。表是按频度分布随机抽取的个例子的处理情况:表:字段例句数目合百分比分百分比处理方法着手作校正词表、拆分规则上将屏蔽该词作合并规则好些作校正词表拆分规则人像屏蔽该词作合并规则,校正词表中和屏蔽该词合并规则想来屏蔽该词作合并规则A类CSAS这一类包括频度到频度的共个。这类字段的特点是以分为主合的现象少见有些在语料库中根本没有查到该合的例句。因为在系统中必须处理它们不处理就会造成大面积的错分所以也把它们收在该集合内。对这些字段的主要处理方法是在基本词典中屏蔽掉它们然后根据需要在校正词表里或在规则库里解决它们在语言中应该合的那部分。自然语言理解与大规模内容计算北京:清华大学出版社,:表是按频度分布随机抽取的个例子的处理情况。表:字段例句数目合百分比分百分比处理方法要好屏蔽该词作合并规则中用屏蔽该词作合并规则一道屏蔽该词作合并规则把门屏蔽该词作合并规则人中屏蔽该词作校正词表上人屏蔽该词经过这样的处理以后我们做了一个测试:取新近采集到的广播电视语料万字(上述语料库之外即未经使用过的)抽取含有上面个字段的所有例句(超过句的只提取前句)共得条首先用没经过完善的系统S(该系统对相当一部分CSAS也做过处理)切分一遍再用改善后的系统S切分一遍得到结果如表所示:表:字段句子数S错误数百分比S错误数百分比字段句子数S错误数百分比S错误数百分比上学人像全能中和难得想来下回要好就此中用人心一道着手把门上将人中好些上人总计总计上表的数据可以看出越是分的频度高的字段其错分的可能性越大而我们的工作也越见成效。结论为了提高汉语自动分词的正确率我们利用语料库对收集到的CSAS逐个进行了研究。提出了基本词典、校正词典和规则库互动的处理方法。其中以不相邻字串(包括词类符号)为条件的越过规则可以弥补统计方法的不足。该研究不足的是受人脑工作不精确性的影响我们收集到的CSAS集合肯定会有遗漏还要留待今后慢慢补充完善还有一些很难找到规律的字段切分的正确率还不够理想另外受到目前语料库标注内容的限制只有词性信自然语言理解与大规模内容计算北京:清华大学出版社,:息没有语义信息一些规则比较繁琐一些语言现象暂时还无法处理。这些都将是我们今后的任务。附注:①对于“组合型”这一名称人们也觉得不太满意所以孙茂松、黄昌宁等认为将其称为“包孕型”“覆盖型”更恰当(孙茂松等)董振东则将其称为“固有歧义”(董振东)。②该语料库包括万字广播电视语料和万字人民日报(年)语料。检索工具用的是北京语言大学宋柔老师等人研制的CCRL系统。谨在此表示感谢。③这和我们的目标有关因为我们分词标注的对象就是传媒语料库中的广播电视语料。④这些语料在统计该字段分合频率时无效但在调试切分系统时是有用的因为该字段的分或合有时会影响到邻近字段的切分结果。⑤将规则库嵌入整个系统的执行程序由胡凤国老师研制开发谨在此表示感谢。⑥由于是在字符平面处理问题所以无论从方法和实质来看能用这种手段处理的CSAS都和CFAS有相同相近之处。它们的差别在于CFAS用这种手段就能解决全部问题而CSAS只能解决部分问题。⑦只有个别的有共性如“上将”、“中将”这时可将两个字段写一条合并规则。但这种情况是极少数。⑧当然作这条规则的前提是将“一道”在基本词典中删除。所有的语料都分为了“一m道q”。*中国传媒大学应用语言学系研究生黄伟、贺莹、麻旻艳以及级本科生也做过一些语料调查分析工作谨在此表示感谢。参考文献黄昌宁高剑峰等()对自动分词的反思语言计算与基于内容的文本处理清华大学出版社。董振东()汉语分词研究漫谈语言文字应用第期。侯敏等()汉语自动分词中的歧义问题语言文字应用第期。孙茂松左正平等()高频最大交集型歧义切分字段在汉语自动分词中的作用中文信息学报期。孙茂松()汉语自动分词研究的若干最新进展辉煌二十年清华大学出版社。孙茂松邹嘉彦()汉语自动分词研究评述当代语言学第期。郑家桓等()多义型歧义字段切分研究计算语言学文集清华大学出版社。

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/7

自然语言理解与大规模内容计算

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利