首页 综合型语言知识库的建设与利用

综合型语言知识库的建设与利用

举报
开通vip

综合型语言知识库的建设与利用综合型语言知识库的建设与利用 * 综合型语言知识库的建设与利用 俞士汶 段慧明 朱学锋 张化瑞 北京大学计算语言学研究所 Email: yusw@pku.edu.cn 摘 要:语言知识库的规模和质量决定了自然语言处理系统的成败。经过近18年的努力, 北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源:现代汉 语语法信息词典,大规模基本标注语料库,现代汉语语义词典,中文概念词典,不同单位对 齐的双语语料库,多个专业领域的术语库,现代汉语短语结构规则库、中国古代诗词语料库 等等。本项研究将...

综合型语言知识库的建设与利用
综合型语言知识库的建设与利用 * 综合型语言知识库的建设与利用 俞士汶 段慧明 朱学锋 张化瑞 北京大学计算语言学研究所 Email: yusw@pku.edu.cn 摘 要:语言知识库的规模和质量决定了自然语言处理系统的成败。经过近18年的努力, 北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源:现代汉 语语法信息词典,大规模基本标注语料库,现代汉语语义词典,中文概念词典,不同单位对 齐的双语语料库,多个专业领域的术语库,现代汉语短语结构规则库、中国古代诗词语料库 等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数 据资源时,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的 使用界面和方便的应用程序接口外,还将提供支持知识挖掘的工具软件,促使现有的语言数 据资源从初级产品形式向深加工产品形式不断发展;提供多种形式的知识传播和信息服务机 制,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的、 多层次的支持。综合型语言知识库将在应用中扩充规模,更新内容,提高质量,永葆活力。 关键词:中文信息处理,自然语言处理,语言知识库,语言数据资源,电子词典,语料库 The Construction and Utilization of A Comprehensive Language Knowledge-base Yu Shiwen, Duan huiming, Zhu xuefeng, Zhang Huarui Institute of Computational Linguistics, Peking University Email: yusw@pku.edu.cn Abstract: The scale and quality of the knowledge-base decides the success or failure of the natural language processing system. Institute of Computational Linguistics of Peking University has accumulated a series of languages-data resources that have good quality with considerable scale after 18 years of diligent work: the Grammatical Knowledge-base of Contemporary Chinese, the large-scale POS-Tagged Corpus of Contemporary Chinese, Semantics Knowledge-base of Contemporary Chinese (SKCC), Chinese Concept Dictionary (CCD), a Bilingual Parallel Corpus with different aligned units, Special Term Bank of Different Disciplines, the Phrase Structure Knowledge-base of Contemporary Chinese, a Corpus of Ancient Chinese Poems. The present research will integrate these language data resources into one unified and comprehensive language knowledge-base. While incorporating all these different resources, the gaps between them must be filled up. The comprehensive language knowledge-base being planned will provide not only friendly using interface and convenient application program interface but also various software tools _____________________________________________________________________________ * 本文相关研究得到中国国家863 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 (2001AA114210,2002AA117010)和国家自然科学基金(60173005) 的支持。 1 supporting knowledge mining. Therefore, the research promotes the present language data resources to develop constantly from primary products into deep processed products. It will set up diversified forms of knowledge spreading mechanism and information service mechanism to offer omni-directional and multi-level support to language information processing, traditional linguistics research and language teaching. We will expand the scale of the comprehensive language knowledge base in using, upgrade its content, raise the quality and retain its vigor forever. Keywords: Chinese Information Processing, Natural Language Processing, Language Data Resources, Language Knowledge-Base, Electronic Dictionary, Corpus. 1( 自然语言处理与语言知识库 语言知识库是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大 程度上决定了自然语言处理系统的成败。这已经成为自然语言处理技术研究者和系统开发者 的共识。当然,语言知识库的内容及其知识表达形式可以是多种多样的。 1980年代中叶,笔者从开发中文输入、机器 翻译 阿房宫赋翻译下载德汉翻译pdf阿房宫赋翻译下载阿房宫赋翻译下载翻译理论.doc 之类的应用软件[1]起步,进入自然语 言处理与中文信息处理领域。由于有了开发应用软件的实际背景,并吸取国际上数十年的经 验教训,深切地认识到要想在自然语言处理领域有所作为,必须系统、深入地学习语言知识 并将人能理解的知识转化为计算机可操作的数据格式,这正是研制北大的第一个语言知识库 ——《现代汉语语法信息词典》[2]的原动力。其后,更进一步规划了建设更大规模的综合 型语言知识库的目标[3]。 在中文信息处理领域,需要探索的课 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 自然很多,例如,创建新的语言理论和语言模 型、研究新的语言分析算法和生成算法以及改进机器学习能力和人机界面等等,又如,怎样 将自然语言的句法、语义分析技术同脑科学、认知科学、影像技术(面部表情、口形、肢体 语言)、语音技术集成起来以实现自然语言理解难关的真正突破。这些工作都需要有人去做。 不过,语言知识库的建设确实是最基本、最重要的应用基础研究。其中,涉及汉语知识的重 新整理、发现、形式化、规范化等工作则一定要倚重母语为汉语的学者。这就为中国学者留 出了最大的发展空间。 2( 北大现有的语言数据资源 自1986年成立以来,北京大学计算语言学研究所一直在语言知识库建设这块土地上耕 耘,现今取得了如下一些收获: (1)现代汉语语法信息词典 (2)大规模现代汉语基本标注语料库 (3)面向汉英机器翻译的现代汉语语义词典 (4)面向跨语言文本内容处理的中文概念词典 (5)英汉对照双语语料库 (6)多个专业领域的术语库(信息科学技术、体育、商务、旅游、餐饮) (7)现代汉语短语结构规则库 (8)中国古代诗词语料库 (9)服务于语言知识库建设的各种工具软件 这些语言数据资源都具有相当大的规模。《现代汉语语法信息词典》收词超过7.3万, 在依据语法功能(优势)分布完成7.3万词语的分类的基础上,又按类描述每个词语的详细 的语法属性。到2004年底,规模将扩充到8万词语。像“现代汉语基本标注语料库”已超 2 过4000万汉字。到2004年底,将达到5000多万字。 这些成果也比较成熟,像《现代汉语语法信息词典》已经有持续18年的研制历史,一直处于不断改进、演化的过程中。北大计算语言所始终坚持“质量是知识库的生命”这样一个指导原则。 这些语言数据资源之间有内在的联系和协调的分工。 《现代汉语语法信息词典》是北大语言知识库的第一块基石。“大规模现代汉语基本标注语料库”就是在它的基础上开发的。《现代汉语语法信息词典》和“基本标注语料库”主要描述汉语词语的语法知识。 “现代汉语语义词典” 的词条记录数约有6万,“中文概念词典” 目前收入的概念(用同义词词集synset表示)已达到9万。这两部词典从不同侧面描述了汉语词汇的语义知识。由于它们是面向机器翻译以及信息检索、信息提取等跨语言文本处理的,都涉及两种以上的语言,所以它们的每一个词条都有对译的 英语 关于好奇心的名言警句英语高中英语词汇下载高中英语词汇 下载英语衡水体下载小学英语关于形容词和副词的题 词。“英汉对照双语语料库”以更大的对译单位(文章、段落、句子、短语)覆盖两种语言。目前对齐了的英汉对照的句子已经超过20万对,日汉对照的句子也有2万对。 从成果(1)到成果(5)汇集的都是日常生活语言的知识。成果(6)“多个专业领域的术语库”则提供专业知识,这些术语库中的术语都是英汉对照的。另有一部计算语言学的术语库,英?日?德?汉4种语言对照,收入该学科5000多条术语。 从成果(1)到成果(6)聚焦于词汇知识。成果(7)“现代汉语短语结构规则库”描述的则是句法结构知识,含600多条扩充的上下文无关句法规则。 从成果(1)到成果(7)都是关于现代汉语的。建设“中国古代诗词语料库”的目的是利用在现代汉语信息处理研究中积累的技术和 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 开展古代诗词计算机辅助深层研究,同时进行古代汉语和现代汉语的纵向对比研究[4]。 北大计算语言所充分认识到建设语言知识库必须仰仗专家知识的注入。在接受中文系、英语系教授指导的同时,北大计算语言所也努力培养本所的文理兼通的人才,鼓励他们潜心投入语言知识库的建设。 建造语言知识库同样需要工具软件的辅助。北大计算语言所开发的一系列工具软件也是知识库的有机组成部分。成果(9)中包含的“现代汉语词语切分与词性标注软件”、“现代汉语文本注音软件”、“双语语料库构建工具集”具有通用性。为中文概念词典CCD研制的可视化词典辅助构造软件VACOL对加快CCD的研制进程起了关键作用。 这些语言数据资源汇集的语言知识及其表述形式独立于特定的语言信息处理系统和实现算法。这种设计理念使得这些知识库得以广泛传播。当语言知识不得不借助某个理论框架进行描述时,也尽量避开理论细节,尽力平实地直观地反映客观存在的语言事实,使得知识库的内容便于用户理解和运用。 从方法论角度考察,这些语言数据资源的建设既采用基于规则的方法,也采用基于统计的方法。“大规模基本标注语料库”及其开发工具“词语切分与词性标注软件”是最典型的例证。而这些语言数据资源的存在又促进了这两种方法的发展。 这些知识库的规范大部分已经公开发表[5-12]。规范的公开发表和规模相当大的样例在网上(www.icl.pku.edu.cn)公布并鼓励自由下载,有利于这些知识库的广泛传播。现在可以从网上自由下载的资源包括:《现代汉语语法信息词典》的1万个词语的样例数据库;一个月的《人民日报》标注语料库,200多万字;机器翻译评测大纲与例句集等等。自2001年5月10日起对200万字语料库下载次数开始进行统计,截至2004年5月9日已记录了3203下载人次。 从1996年以来,以《现代汉语语法信息词典》为龙头的北大语言数据资源通过签订允许使用权协议的方式转让给了国内外约60家大学、研究所和公司,遍及美国、法国、德国、 3 英国、瑞典、日本、韩国、新加坡、中国香港、台湾以及境内各省市,获得了可观的效益。 3( 关于综合型语言知识库的规划 尽管已经积累了相当多的语言数据资源,但要做的工作还很多。以上介绍的各种语言数据资源基本上是独立存在的,应当把这些语言数据资源集成起来,形成一个综合型的语言知识库。目前需要对以下任务投入力量。 首先开发一个综合型语言知识库的支撑软件。 这个软件应能充分展现语言知识库的价值和作用,支持数据挖掘和知识发现。这个软件要提供统一的应用程序接口(API)和风格一致的友好的用户界面。这个软件还要能提供知识传播和信息服务的机制,让语言知识库能够为语言信息处理研究、产品开发以及传统的语言学研究、语言教学提供实实在在的支持。 这个软件已经有了雏形和若干构成部件。例如,已经将《现代汉语语法信息词典》和“大规模基本标注语料库”连接了起来,得到了另一项成果《汉语高频词语法信息词典》[13]。该词典的内容包括3部分:?选取了在1998年全年2600万字《人民日报》基本标注语料库中出现频率高的通用词语(约2.8万,其中包括少量低频的兼类词、成语以及属于封闭词类的词),从《现代汉语语法信息词典》中复制了这些词语的全部信息,实际上得到《现代汉语语法信息词典》的一个高频词语的子集;? 这些词语的频度信息;?语料库中用到这些词语的真实例句(每个词有3-6个例句)。 与此同时,要不断扩充现有的语言知识库,使其呈现活跃状态,长期保持特色。 增加词语是最容易想到的。尽管《现代汉语语法信息词典》已经收词7.3万,但是仅在《人民日报》1998年一年的语料库中,仍有上万的词语不在其中。当然,词典也并不是规模越大越好。不过,有了规模大的词典,根据需要进行裁减得到规模较小的词典总是相对容易些。对于包含如此丰富的语法属性的《现代汉语语法信息词典》,尤其如此。因此,拟从《人民日报》1998年的语料库中挑选出“未登录的”8000词,增加到《现代汉语语法信息词典》中,到2004年底,《现代汉语语法信息词典》的规模将增加到8万词语。像双语对齐语料库更要增加大量新的句对,这也属于规模的扩充。基本标注语料库也要扩充到5000多万字,即增加2000年全年《人民日报》语料库,这不能只看作是规模的成倍扩大,还要注意到这里有时间序列的考虑。在语料库中加入新的时间维度也是有重要意义的。 还要考虑知识库种类的增加。纵观中文信息处理领域现有的语言知识库,有关虚词的知识库如果不能说是空白,至少也是一个薄弱环节。而且,虚词对于汉语理解又有特殊的作用[14]。因此,北大计算语言所于2002年提出了建设广义虚词知识库的任务[15],并已着手实施。 广义虚词知识库应该会成为综合型语言知识库大家庭中的一个新成员。 第三项任务是以知识库为基础开发多种应用系统。既发挥语言知识库的作用,又在应用中不断提高知识库的质量。 北大的语言数据资源在中文信息处理和对外汉语教学领域已经得到广泛应用。这种情况在最近几年的学术会议上得到反映。2003年11月在日本召开的“第三届中日自然语言处理共同研究促进会议”上,中国和日本两方面的专家都有人谈到他们应用北大计算语言所的资源进行研究的情况和取得的成果。反观北大计算语言所自身在应用系统的开发方面却成绩平平,实在惭愧。不过这倒不是主观上不重视应用系统的开发。实际上,笔者和同事们最初是从应用系统的开发进入自然语言处理这个研究领域的[16,17]。其后有一段时间只集中精力于应用基础研究,一方面是基于对基础研究和应用研究的关系的认识[1],另一方面也是由于人力、财力和环境等条件的限制。近几年来,北大计算语言所有了较大的发展,也就加大了应用研究的力度,先后开始了机器翻译、信息提取等应用系统的开发。关于机器翻译,除完成了973课题外,还在探索建立“面向科学专著的汉英机器翻译实验系统”,期望为我国科学技术专著的对外传播贡献一份力量。关于信息提取,正在开展网上与命名实体相关的信息提取与服务应用的研究[18]。此外,像双语词典编纂、古代诗词辅助深层研究等工作都在进行中。 4 除了得到普遍重视的应用外,北大计算语言所还努力开拓新的领域,努力使相对成熟的技术和已有的资源在社会生活中发挥作用。正在开发的《人民日报》主题索引辅助编制系统即是一例。《人民日报》在我国社会生活中的作用以及在国际上的影响是不言而喻的。可是《人民日报》的索引却远远满足不了需要。现在,每个月出一本印刷品,提供一个分类目录,中国、国际、国际人物、本报言论是一级目录,中国又分政治理论、中国共产党、党的建设、全国人大等二级目录。如《人民日报索引》2002年2月这一期的“政治理论”栏目下有“研究是为了解决问题(理轩),26,9”,即提供了文章的题目、作者和该文载于2002年2月26日第9版这样一些信息,至于该文的主题内容是什么,却不甚了了。又如在“党的建设”目录下,有 “党风与家风”、“也说盛情难却”、“让细胞焕发活力”、“紧紧抓住作风建设的核心问题”这样一些篇名,对这些文章的主题,也是一无所知。受篇幅限制,没有作者索引,更不可能提供像人物、地点等便于使用的索引。 现在要求自动编制主题索引[19,20]。应用中文概念词典CCD提供的词汇间同义-反义、上位-下位、部分-整体等语义关系编制不拘泥字面形式的主题索引,可以提高检索的查全率和查准率。检索速度比全文检索更能满足需要。当然,还不可能做到完全自动,也不可能做得十分完美。但这是自然语言处理技术服务社会的有益尝试。“主题索引自动编制”软件的开发也会促进自然语言处理技术的发展。这类应用,看起来似乎比机器翻译容易,其实需要攻克的难关依然很多。当“十六大”这个概念第一次出现时,显然是文章的主题,系统如何全局地分析一篇文章或若干篇文章以判定“十六大”是一个未定义词、确认一个新概念显然是一道难题。这里,自然语言处理研究的对象已经突破了句子的界限,将关注的范围扩展到篇章和文档的集合。还有一个重要的因素必须考虑,新闻、报纸文献具有时间连续性特点,编制主题索引应当引进“时间”这一维坐标。新闻中既会不断出现有索引价值的新词,而随着时间的推移,这些新词又可能逐渐失去索引意义。仍以“十六大”为例,这个新词一旦出现,便会被一段时间内的后继文章普遍使用,索引价值迅速下降。如何使基于概念的新闻主题词表及时演化更新,显然是大规模新闻文献处理的又一个新的难题。 重视应用系统的开发,除了应用系统本身的价值外,还有一个考虑。那就是笔者与同事们深知,知识库只有在应用中其质量才能得到检验,也才能得到提高。期望每一位应用者也是建设者。如果建立一种激励机制,能调动用户关心知识库质量的积极性,那么知识库的生命也许就有了更好的保证。这或许也是综合型语言知识库要建立的机制之一。 不同语言数据资源之间“缝隙”的填补 尽管各个语言数据资源建设之初,也考虑了它们之间的衔接和集成。但是,当要把它们真正往一起集成时,便发现它们之间是有“缝隙”(gap)的。 《现代汉语语法信息词典》和基本标注语料库是在同样的语法体系指导下完成的,基本标注语料库的加工规范[5]也是基于《现代汉语语法信息词典》制订的,然而由于两者的性质、应用领域不同以及任何一项工程都要受限于当时的确定目标等原因,它们之间也存在着缝隙:(1)《现代汉语语法信息词典》的登录项“词语” 是“词典词”,标注语料库的“切分单位” 是“句法词”,两者之间不可能完全一致;(2)《现代汉语语法信息词典》的词类代码和基本标注语料库的标记集有交错,词典中每个词所属的词类是静态的,而标注语料库的中的词性标记是动态的,像vn, vd, an, ad等反映了在实际语料中词性的表现形式。(3)基本标注语料库没有标注《现代汉语语法信息词典》的“同形”信息(“同形”信息表示汉字相同的不同词或同一个词的不同义项)。 同样在中文概念词典CCD与语法信息词典、语义词典之间也有一个相互覆盖面的问题。要顺利完成集成任务,必须对这些“缝隙”有清楚的了解,并要找到填充的办法。这是综合型语言知识库建设中无可回避的一个重要技术难点。 4( 基于数据资源的语言知识挖掘 利用语言数据资源直接开发实用系统固然是一种应用,而从这些语言数据资源挖掘出更多、更深入的语言知识,则是更有普遍意义的应用,而且更加符合应用基础研究的宗旨。北大计算语言所在这个方向上进行了探索,已经取得一些成果,也积累了经验。 以大规模现代汉语基本标注语料库作为训练集,自动获取二元语法或三元语法等统计学的参数,开发自动词语切分与词性标注软件,已经有了成功的实例[21]。当然,从现有的语 5 言数据资源还可以获取词汇、句法、语义、篇章、两种语言比较等不同层次、不同类型的语言知识。这样的研究课题很多,而这样的研究通常需要语言学知识的指导与配合。北大计算语言所的优势正好可以发挥。限于篇幅,本文只集中讨论词汇知识的获取。就词汇知识而言,词频(frequency)又是最重要的,像教育部和国家语委整理异形词所遵循的通用性原则就是立足于词频[22]。从数千万汉字规模的基本标注语料库不难获取可靠的词频信息。 《人民日报》基本标注语料库的样例如下: 19970310-01-001-0010/m 中办/j 通知/n 要求/v 各级/r 党委/n 组织/v 干部/n 群众/n 认真/ad 学习/v 悼念/v 邓/nr 小平/nr 同志/n 重要/a 文献/n 19970310-01-001-0020/m 新华社/nt 北京/ns ,月/t ,日/t 电/n [中共中央/nt 办公厅/n]nt 近日/t 发出/v 通知/n ,/w 要求/v 各级/r 党委/n 组织/v 干部/n 群众/n 认真/ad 学习/v 悼念/v 邓/nr 小平/nr 同志/n 的/u 重要/a 文献/n 。/w 19970310-01-001-0030/m 通知/n 说/v ,/w 邓/nr 小平/nr 同志/n 是/v 全党/n 全军/n 全国/n 各族/r 人民/n 公认/v 的/u 享有/v 崇高/a 威望/n 的/u 卓越/a 领导人/n ,/w 伟大/a 的/u 马克思主义者/n ,/w 伟大/a 的/u 无产阶级/n 革命家/n 、/w 政治家/n 、/w 军事家/n 、/w 外交家/n ,/w 久经考验/l 的/u 共产主义/n 战士/n ,/w 中国/ns 社会主义/n 改革/vn 开放/vn 和/c 现代化/vn 建设/vn 的/u 总/b 设计师/n ,/w建设/v 有/v 中国/ns 特色/n 社会主义/n 理论/n 的/u 创立者/n 。/w邓/nr 小平/nr 同志/n 的/u 逝世/vn ,/w 对/p 我党/r 我军/r 我国/r 各族/r 人民/n 是/v 不/d 可/v 估量/v 的/u 损失/vn 。/w 仅1998年一年的语料就有2600多万汉字,全部按照样例加工好了:切分单位与切分单位之间有了空格,而且每个切分单位后面都又了标记。切分单位几乎都是句法词[23],标记基本上也都是词性标记。只要在这样的语料库上进行简单的统计就能得到词的频度。附录1给出了1998全年《人民日报》语料中频度最高的28个词(这里只给出绝对频度,即出现次数;由于相对频度即频率的计算涉及词汇总量中一部分切分单位如标点符号和数词、时间词等句法词的取舍、处理,暂且搁置。只要词汇总量一旦确定,相对频率即可算出)。 可以注意到,附录1 中的词都是带词性的。同一个词形(汉字相同)可表示不同的词。像“在”这个汉字,可表示词性分别为“介词”、“动词”、“副词”的3个不同的词。附录1明确给出介词“在”的出现次数(154642次,居第二位)。在千万字量级的语料库上得到词语(切分单位)的带词性的频度,应该是汉语语言学研究史上的第一次。就同一个词形而言,可以给出不同词性的词所占的比率。例如, 词 词性 代码 频度 比率 在 副词 d 3931 2.36% 在 介词 p 154642 95.22% 在 动词 v 3837 2.42% total 162410 又如, 词 词性 代码 频度 比率 把 数词 m 31 0.00% 把 名语素 Ng 17 0.00% 把 介词 p 19989 95.83% 把 量词 q 585 2.80% 把 动词 v 237 1.14% total 20859 6 常用词的词性分布的定量数据的重要性是不言而喻的。 频度固然是评价一个词是否是常用词的重要指标。但是,无论在信息处理研究中,还是在语言本体研究和教学研究中,挑选出符合人们通常认知的常用词,仍有许多研究工作要做。观察这些常用词在一年12个月中的分布(附录1),大致是均衡的。然而,这种分布并不适用于所有的词。例如: word Jan. Feb. Mar. Apr. May Jun. Jul. Aug. Sep. Oct. Nov. Dec. Year 编织袋/n 2 2 3 6 5 2 164 12 109 23 舰长/n 3 9 1 2 126 75 36 九江/ns 1 4 11 6 5 12 60 230 83 52 11 4 479 九江市/ns 2 3 8 1 2 4 16 59 34 5 4 0 138 抗洪/v 2 3 4 5 10 317 44 45 2320 145 1125 620 抗洪/vn 1 5 1 1 7 10 852 140 66 4624 211 2004 1326 抢险/v 20 8 15 10 8 11 220 12 32 1652 98 807 411 抢险/vn 10 5 4 17 9 11 281 22 19 1873 105 893 497 水情/n 1 3 14 2 3 128 16 61 28 滔滔/z 3 4 1 3 2 1 27 6 5 179 16 65 46 新加坡/ns 42 80 38 37 41 40 60 57 41 71 89 31 627 1998年中国发生特大洪水灾害。“抗洪”、“抢险”之类的在一年中出现的次数甚多,而且集中出现在7,8,9这三个月。显然,这些词并不一定是现代汉语的通用词汇。事实上,词的频度与相关语料库的时间分布、领域分布是有关联的。语料库足够大,可以减少时间分布、领域分布的影响,但是仅仅根据语料库中的总的频度,并不一定能挑选出广泛使用的词汇。 对于词的这种集中或分散使用的情况,[24,25]有过研究。本文对此提出“分布均匀度(Distributed Consistency,DC)”的概念和计算公式。 设语料库的词语集合S 划分为n个(大小相同的)子集: S1, S2, ?, Sn,设词语W 在这些子集中的频度分别为 F1, F2, ?, Fn, 则分布均匀度 DC 表示词语W在各个子集中分布的均匀性,按以下公式计算:先计算F1, F2, ?, Fn的均根方res,继之计算它们的均值E, res与E之商则定义为分布均匀度 DC。 2,,F,F,F?n12,,res, ,,n,, FFF,,?,12nE ,n resDC, E 可以证明0
本文档为【综合型语言知识库的建设与利用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_729658
暂无简介~
格式:doc
大小:51KB
软件:Word
页数:23
分类:工学
上传时间:2018-02-22
浏览量:14