一种改进的中文分词算法

一种改进的中文分词算法一种改进的中文分词算法祁文青 () 黄石理工学院计算机学院 ,湖北黄石 435003 摘要 :汉语自动分词是汉语信息处理的前提 ,词库是汉语自动分词的基础。文章提出了一种在对词库进行改造的基础上改进的匹配算法 ,突破了最大匹配分词算法分词的长度限制 ,提高了中文分词的速度和效率。关键词 :中文信息处理 ; 中文分词 ; 最大匹配法分词算法文献标识码 : A中图分类号 : TP30116 An Im proved M ax im um M a tch ing M ethod for Ch i...

一种改进的中文分词算法祁文青 () 黄石理工学院计算机学院 ,湖北黄石 435003 摘要 :汉语自动分词是汉语信息处理的前提 ,词库是汉语自动分词的基础。文章提出了一种在对词库进行改造的基础上改进的匹配算法 ,突破了最大匹配分词算法分词的长度限制 ,提高了中文分词的速度和效率。关键词 :中文信息处理 ; 中文分词 ; 最大匹配法分词算法文献标识码 : A中图分类号 : TP30116 An Im proved M ax im um M a tch ing M ethod for Ch inese W ord Segm en ta tion Q i W enqing ( )Schoo l of Comp u te r Sc ience, Huangsh i In stitu te of Techno logy, H uangsh i H ube i 435003 Abstrac t: Ch inese wo rd segm enta tion is the p repa ra tion fo r Ch inese info rm a tion p roce ssing. The d ic tiona ry m echan ism is a ba sic componen t of Chinese wo rd segmen ta tion system s. In th is p ape r, the autho r pu ts fo rwa rd an imp roved M axim um M a tching M e thod fo r Ch ine se W o rd Segm entation on a new d ic tiona ry mechanism compa red w ith existing typ ical d ic tion2 a ry m echan ism s, wh ich imp roves the speed and effic iency of Ch ine se wo rd segmen ta tion system s. Key words: Chine se info rm a tion p rocessing; Chine se wo rd segm entation; M axim um M a tch ing M e thod fo r Ch inese W o rd Segmen ta tion 111 理解式切分法理解式切分法其分词系统由词库、知识库和推 0 引言理机部分组成。词库中存放词条 ; 知识库中存放形式化的语言规则、语法知识以及语言学家在分词过中文分词技术属于自然语言处理技术范畴 , 对于一句话 , 人可以通过自己的知识来明白哪些是程中进行推理判断的常识和经验 ; 推理机制利用词词 , 哪些不是词 , 但如何让计算机也能理解 ? 其处库和知识库提供的大量数据与知识 , 模拟语言学家理过程就是分词算法。汉语文本中含有许多歧义的逻辑思维过程 , 实现自动分词。这实际上是一个字段 , 句中某个片段存在两种或两种以上的切分形自动分词的专家系统。这种系统开销很大 , 除了理式。论上的困难外 , 还存在系统复杂度的问题 , 实现困难。 112 机械匹配法 1 传统中文分词算法机械匹配算法主要基于字符串匹配的原理。在匹配时不进行语法分析 , 也不进行语义分析 , 只 , 人们己经提出了许多计算机自动切分词算法是机械地匹配比较。即它以足够大的词库为依据 , (这些算法大致可分为两类 : 理解式切分法或称知采用一定的处理策略将文本中的字串与词表中的 ) () 识分词法和机械匹配法或形态分词法。词逐一匹配 , 若成功 , 则认定该串为词。常用分词收稿日期 : 2007 - 04 - 10 ( ) 作者简介 :祁文青 1968— ,女 ,湖北省黄石人 ,副教授 ,硕士。方法有正向最大匹配法、逆向最大匹配法、最少切 , 会把词库中所有的首字都取出多。尤其是第一层 [ 1 - 4 ] 来作为根节点的子节点 , 这意味着如果首字有分法。机械分词法中常用的的最大匹配分词算 4 0 0 0 个的话 , 根节点就有 4 0 0 0 个儿子。当然随着法易于实现 , 但是存在很多明显的缺陷 : 第一 , 长度树层数的增多 , 节点的儿子数也会减少 , 毕竟以“感限制 , 由于最大匹配法必须首先设定一个匹配词长冒 ”开头的词在整个词库也只有四十多个 , 而以“感的初始值 , 词长过长 , 效率就比较低 ; 词长过短 , 长冒清 ”开头的词则只有两三个了。这意味着如果设词就会被切错。第二 , 效率低 , 即使可以将字长设计得不合理 , 树的匹配遍历过程并不完全是线性成相当短 , 例如词长为 5 , 当我们的大数词长为 2 时 , 至少有 3 次的匹配算法是浪费掉的。第三 , 最大匹配的并不一定是想要的分词方式 , 最大匹配法 ) ( ) ( 的。最坏的查找算法是 O N N 代表儿子数。基于的理念是找到最大的匹配词 , 但有的时候除了当然如果建词库时将儿子有序排列 , 再按照二分查最大匹配词外 , 也可能只需要这个词的一部分。基 ( ) 找的方法 , 则我们的复杂度会减到 O logN , 这样于以上分析 , 提出改进的解决方案 , 使分词算法的的复杂度已经可以接受了。但是还有更简单又更效率、分词的长度限制甚至歧义处理上得到提高。快的存储方式 , 那就是哈希表 , 毕竟在哈希表里查找东西时它的效率几乎是线性的 , 而且实现起来要比二分查询简单得多。当然用哈希表要付出存储空间变大的代价 , 但这样的代价来换取速度与简单性也是值得的。找到有终结符的字后 , 必须要将它 2 改进的中文分词算法建成一个完整的词。这时必须能从字个往上回溯 , 直到找到根结点。因此我们在每个节点里都保存 2 11 建立词库了父节点的指针。为了使最大匹配法分词算法在效率、分词的长 212 算法设计思想度限制甚至歧义处理上得到提高 , 必须要有一个词有了以上的中文词库后 , 再来看一下分词的步库 , 将全文中的词与词库去匹配。这需要对词库进骤 : 行改造 , 使词库更适合用于匹配与分词。将关系数( ) 1 首先将要分的全文按标点符号打散成一个据库的词按字打散 , 并存放到层次数据库中。以下一个的句子。就是一个层次词库示例 , 如图 1 所示。 ( ) 2 开始将要处理的句子在树状结构中遍历 , 如果找到匹配的就继续 , 如果遇到灰色的终止符 , 我们就发现这个词是一个完整的词了 , 这样就可以把这个词作为一个分词了。 ( ) ( ) 3 从分词后的下一字开始继续做步骤 2 这样的遍历 , 如此循环往复就将词分完了。可以看到 , 字符匹配效率几乎是线性的。取出每一个字去树上找到相应的匹配 , 每次的匹配代价 ) ( ) (都是 O 1 如果词库用 Hash 表的话 , 这样匹配下来的时间复杂度就是字符串本身的长度。对于一个长度为 n 的字符串来说 , 它的分词复杂度是 O 2 ( ) ) ( n 。而最大匹配的平均复杂度是 O n。当然这里没有考虑歧义包容与分支处理等情况 , 即使加上这些复杂度仍然是有限的。当遇到分支时 , 会分解成两条路线 , 例如当匹图 1 层次词库示例图配到“感冒 ”的“冒 ”时 , 我们会发现一个终止符 , 代灰色的字表示树上面的字串是可以单独组成一个词的 , 例如“感冒 ”它本身是词库里可以找到的词 , 所有灰色的表示的是终止符。而白色则表示树上面的字串是无法单独成词的 , 例如“感冒解 ”是不 ( ) 汇聚到一个点 , 变成一个分支。例如 :“感冒解毒胶 d ictNode . inU seCoun t ; 囊可以治感冒 ”, 在分词的时候可能会出现“感 ( 2 Token cu rToken = new Token d ic tNode . get冒 ”,“解毒 ”,“感冒解毒 ”,“感冒解毒胶囊 ”等多 ( ) TokenV a lue , 个分支 , 但是当我们到达“囊 ”这个点的时候 , 所有 ( ) 1 - d ic tNode . token . sta rtO ffse t + po s + 的分支又会汇集到一起 , 因为接下来要处理的都是 ( () ) ) getL evel , token . sta rtO ffse t + po s + 1 ; “可以治感冒 ”这个字符串。如果有办法在汇聚以后只处理一个分支 , 那么算法的时间复杂度就不会 ( ) tokenQ ueue . offer cu rToken ; 象原来想象的那么坏。 ( enqueueToken po s + 1 , d ic tNode . Emp ty _ 而这刚好利用动态规划法来处理 , 将所有的子 ) Node ; 问题记录在公有的变量里。当遇到的子问题已经 / /截完上一个词 , 开始截下一个词被处理过一次了 , 就直接跳过。这样节约的结果可 } 以使算法复杂度得到质的改变 , 当然由于中文的变 ( ) enqueueToken po s + 1 , d ictNode ; 化多端 , 无法精确估计使用动态规划法后算法复杂 / /继续往下 , 看能不能组成更大的词度得到了多大的提高。下面是分词的核心算法 : } 它是一个递归的过程 , 初始时我们调用的参数里 po s为 0 , 这样它就会一级一级递归下去并将所 p riva te vo id ( enqueueToken in t po s, D ic tnode 有可能的分词放入到 tokenQ ueue 里。 )p aren tNode 213 中文分词的实验结果{ 选择一篇 2 0 0 0 字的文章 , 然后根据两种算法 ( ( ) ( ) ) if po s > = token. te rm Text . length 编写的分词器对它进行处理 , 中文分词实验结果如 { / /如果长度超出了就表示分词结束表 1 所示。 re tu rn; } / / 用动态规划法来判断从当前位置的字符开表 1 中文分词算法耗时表始分词是否已经进行过了分词算法耗时 A na lyze r ( )(if ( isTokened po s && p aren tNode. getL evel 基于正向 ) = = 0 L ucene 80m s 最大匹配法 { Ch ine seA na lyze r 改进的分词算法 63m s re tu rn; } ( (由此可见 , 改进算法的分词速度超过在网上找 ) if p a ren tNode. getL eve l = = 0 到的基于正向最大匹配法的 L ucene 分词器。 { ( ) se tTokened po s ; } 3 结束语 ( ) String strP refix = token. te rmText . sub string ( ) po s , po s + 1 ; 改进的分词算法实现的关键在建立词库 , 有许多的细节需要注意。 ?首先是词库的保存格式 , 最 ( ) D ictNode d ic tNode = ge tD ictTree . 2 bu ildO r 简单的方法是利用 java 的 se ria liza tion 的功能 , 把整 ()Ge tSubNodes strP refix , p a ren tNode ; 个内存中的树状结构直接序列化成磁盘的文本文 ()if nu ll = = d ic tNode ()件 , 且读写的效率也会相当的高。下转第 3 7 页 { ( enqueueToken po s + 1 , D ic tNode . Emp ty_Node ) ; Connect U sing Tr_ t1 ; 对象 , 可以用 SQLCA 与一个数据库连接。在创建事务对象前 , 应考虑它的使用范围 , 可根据需要声 Connect U sing Tr_ t2 ; [ 3 ] 明为全局对象或实例对象。该例给出了要在同 . . . . . . 如果需要访问多于两个数据库时 , 可以仿照以的数据 grades 一个数据窗口中同时连接数据源为上方法 , 设计出同时访问多个不同数据库的程序。库和 SQL se rver数据库的程序代码 : Tran saction Tr_ t1 Tran saction Tr_ t2 4 结束语 / /建立事务对象 Tr_ t1 = C rea te Tran sac tion 综上所述 , 介绍了多个数据库之间自动连接 , Tr_ t2 = C rea te Tran sac tion 限于篇幅 , 对其他一些次要的内容不再讨论。程 / /给事务对象的属性赋值序在 PB 8. 0 下调试通过 , 并在实际项目的设计和使 Tr_ t1. DBM S = " ODBC " 用中提高了软件开发效率和设计质量。 Tr_ t1. A u toComm it = False 参考文献 Tr_ t1. DB Pa rm = " ConnectString= ’D SN = grade s’ " Tr_ t2. DBM S = " M SS M icro soft SQL Se rve r 7. x" [ 1 ] 陈明 , 杨劲松. POW ERBU ILD ER 8. 0 高级编程技术 [M ]. 北京 : 希望电子出版社 , 2002 Tr_ t2. D ataba se = " studen t" 王蓉. POW ERBU ILD ER 7. 0 应用开发技术详解 Se rverN ame = " 1 9 2. Tr_ t2. 1 6 8. 3 1. 1 5 " [ 2 ] [M ]. 北京 : 电子工业出版社 , 2000 Tr_ t2. Log Id = " DBA " 网冠科技. POW ERBU ILD ER 7. 0 时尚编程百例 [ 3 ] Tr_ t2. A u toComm it = False [M ]. 北京 : 机械工业出版社 , 2001 DB Pa rm = " " Tr_ t2. / /建立数据库连接 (), 分词算法的种类很多 , 到底哪种分词算目前上接第 2 5 页法的准确度和效率更高 , 尚无定论。对于任何一个 ?树的父子节点的导航。树并不是一颗二叉树 , 父成熟的分词系统来说 , 不可能单独依靠某一种算法亲的子节点会有好多。尤其是第一层 , 把词库中所来实现 , 都需要综合不同的算法 , 需要多种算法来有的首字都取出来作为根节点的子节点 , 这意味着处理不同的问题。如果首字有 4 0 0 0 个的话 , 根节点就有 4 0 0 0 个儿子。当然随着树层数的增多 , 节点的儿子数也会减少 , 这意味着如果设计得不合理 , 树的匹配遍历过参考文献 ( ) 程并不完全是线性的。最坏的查找算法是 O n [ 1 ] 揭春雨 ,刘源 ,梁南元. 论汉语自动分词方法 [ J ]. 中 ( ) n 代表儿子数。如果在建词库时使用哈希表 , 找 ( ) 文信息学报 , 1989 1: 36 - 40 东西时的效率几乎是线性的 , 而且实现起来也很简黄吕宁. 中文信息处理中的分词问题 [ J ]. 中文信息单。当然用哈希表要付出存储空间变大的代价 , 但 [ 2 ] ( ) 学报 , 1990 1: 89 - 92 这样的代价来换取速度与简单性也是的。 ?找到黄俊杰. 书面汉语自动分词的研究 [ J ]. 计算机杂有终结符的字后 , 必须要将它建成一个完整的词。 [ 3 ] ( ) 志 , 1991 1: 17 - 20

                    本文档为【一种改进的中文分词算法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

一种改进的中文分词算法

你可能还喜欢