首页 中科院分词系统(1)

中科院分词系统(1)

中科院分词系统(1)中科院分词系统概述这几天看完了中科院分词程序的代码，现在来做一个概述，并对一些关键的数据结构作出解释〇、总体流程考虑输入的一句话，sSentence="张华平欢迎您"总体流程:一、分词"张/华/平/欢迎/您"二、posTagging"张/q华/j平/j欢迎/v您/r"三、NE识别:人名识别,音译名识别,地名识别"张/q华/j平/j欢迎/v您/r""张华平/nr"四、重新分词:"张华平/欢迎/您"五、重新posTagging:"张华平/nr欢迎/v您/r"技术细节一、分词分词程序首先在其头末添加开始符和结束符sSen...

中科院分词系统概述这几天看完了中科院分词程序的代码，现在来做一个概述，并对一些关键的数据结构作出解释〇、总体流程考虑输入的一句话，sSentence="张华平欢迎您"总体流程:一、分词"张/华/平/欢迎/您"二、posTagging"张/q华/j平/j欢迎/v您/r"三、NE识别:人名识别,音译名识别,地名识别"张/q华/j平/j欢迎/v您/r""张华平/nr"四、重新分词:"张华平/欢迎/您"五、重新posTagging:"张华平/nr欢迎/v您/r"技术细节一、分词分词程序首先在其头末添加开始符和结束符sSentence="始##始张华平欢迎您末##末"然后是分词,基本思想就是分词的得到的词的联合概率最大假设"张华平欢迎您"分为"w_1/w_2/.../w_k"则w_1/w_2/.../w_k=argmax_{w_1'/w_2'/.../w_k'}P(w_1',w_2',...,w_k')=argmax_{w_1'/w_2'/.../w_k'}P(w_1')P(w_2')...P(w_k')细节:首先给原句按字划分,所有汉字一个一段,连续的字母,数字一段,比如"始##始张华平2006欢迎您asdf末##末"被划为"始##始/张/华/平/2006/欢/迎/您/asdf/末##末"接着找出这个句子中所有可能出现的词,比如"始##始张华平欢迎您末##末",出现的词有"始##始","张","华","平","欢","迎","您","末##末","欢迎"并查找这些词所有可能的词性和这些词出现的频率。将这些词保存在一个结构中,具体实现如下:m_segGraph中有一个(PARRAY_CHAIN)m_pHead，是一个链(PARRAY_CHAIN)p->row//记录该词的头位置(PARRAY_CHAIN)p->col//记录该词的末位置(PARRAY_CHAIN)p->value//记录该词的-log(出现的概率),出现的频率指所有该词的所有词性下出现的概率的总和。(PARRAY_CHAIN)p->nPos//记录该词的词性，比如人名标记为'nr'，则对应的nPos='n'*256'r',如果该词有很多词性,则nPos=0(PARRAY_CHAIN)p->sWord//记录该词(PARRAY_CHAIN)p->nWordLen//记录该词的长度举个例子："0始##始1张2华3平4欢5迎6您7末##末8"对于"张"来说,row=1col=2value=-log[("张"出现的频率1)/(MAX_FREQUENCE)]nPos=0//"张"有5种词性sWord="张"nWordLen=2保存的顺序是按col升序row升序的次序排列m_segGraph.m_pHead "始##始""张""华""平""欢""欢迎""迎""您""末##末"m_segGraph.m_nRow=7m_segGraph.m_nCol=8然后是生成一幅给予各种组合情况的图,并按照出现的概率大小保存概率最大的前m_nValueKind个结果。细节:初始化,(CNShortPath)sp.m_apCost=m_segGraph;(CNShortPath)sp.m_nVertex=m_segGraph.m_nCol1(CNShortPath)sp.m_pParent=CQueue[m_segGraph.m_nCol][m_nValueKind](CNShortPath)sp.m_pWeight=ELEMENT_TYPE[m_segGraph.m_nCol][m_nValueKind]//m_pWeight[0][0] 表示1处的weightsp.ShortPath()函数中,for(nCurNode=1;nCurNodeGetElement(-1,nCurNode,0,&pEdgeList);//取出col=nCurNode的第一个PARRAY_CHAIN的value,比如nCurNode=6,则pEdgeList指向"欢迎",eWeight="pEdgeList->valuewhile(pEdgeList&&pEdgeList->col==nCurNode)//对每一个col=nCurNode的pEdgeList{for(i=0;irow,0,eWeightm_pWeight[pEdgeList->row-1][i]);//将所有col=nCurNode的pEdgeList按照其weight升序放到queWork中}}//比如/*"欢迎" m_pWeight[3][0]=0.2 eWight=0.2 =>queWork.Push(4,0,0.4);"0始##始1张2华3平 4 欢 5 迎6您7末##末8""欢" m_pWeight[4][0]=0.5 eWight=0.1 =>queWork.Push(5,0,0.6);m_pWeight[4][1]=0.6 eWight=0.1 =>queWork.Push(5,0,0.7);queWork "欢迎" 0.4"迎" 0.6"迎" 0.7*/for(i=0;ivalue{m_pWeight[nCurNode-1][i]=eWeight;//取前m_nValueKind个结果m_pParent[nCurNode-1][i].Push(nPreNode,nIndex);//按照pEdgeList->value的升序,也就是P的降序放入m_pParent}}得到m_pParent之后,按照m_pWeight[m_segGraph.m_nCol-1]的升序,生成pathCNShortPath::GetPaths(unsignedintnNode,unsignedintnIndex,int**nResult,boolbBest)//nNode=m_segGraph.m_nCol,nIndex从0取到m_nValueKind-1,nResult输出结果,bBest=true只输出最佳结果比如"始##始张华平欢迎您末##末"的结果为nResult[0]={0,1,2,3,4,6,7,8,-1} "始##始/张/华/平/欢迎/您/末##末"nResult[1]={0,1,2,3,4,5,6,7,8,-1} "始##始/张/华/平/欢/迎/您/末##末"没有第三种结果取出所有nResult[i]作为分词结果,结果保存在m_graphOptimum中,m_graphOptimum和m_segGraph结构一样,只不过只存nResult[i]中的结果:如果m_nValueKind=1则m_graphOptimum.m_pHead "始##始""张""华""平""欢迎""您""末##末"m_graphOptimum.m_nRow=7m_graphOptimum.m_nCol=8如果m_nValueKind=2则m_graphOptimum.m_pHead "始##始""张""华""平""欢""欢迎""迎""您""末##末"m_graphOptimum.m_nRow=7m_graphOptimum.m_nCol=8见 boolCSegment::GenerateWord(int**nSegRoute,intnIndex)这里的nSegRoute=上面的nResult,是输入参数;nIndex表示第nIndex个分词结果同时,CResult.m_Seg.m_pWordSeg[nIndex][k]中保存了第nIndex个结果的第k个词的信息:CResult.m_Seg.m_pWordSeg[nIndex][k].sWord//词CResult.m_Seg.m_pWordSeg[nIndex][k].nHandle//词性CResult.m_Seg.m_pWordSeg[nIndex][k].dValue//-logP至此,分词部分结束二、posTaggingm_POSTagger.POSTagging(m_Seg.m_pWordSeg[nIndex],m_dictCore,m_dictCore);//对第nIndex个分词结果用标准的字典标注方便起见,下面假设m_nValueKind=1m_POSTagger用HMM对分词进行标注，这里输出概率为P(w_i|c_i)，c_i为词性，w_i为词；转移概率为P(c_i|c_{i-1})，初始状态为P(c_0)即P("始##始"的词性)用维特比算法求出一个c_1/c_2/.../c_k=argmax_{c_1'/c_2'/.../c_k'}P(w_1',w_2',...,w_k')将句子分成若干段,每段以有唯一pos的w结尾,也就是分词中CResult.m_Seg.m_pWordSeg[0][k].nHandle>0的那些词比如,举个例子"0始##始1张 2 华 3 平 4 欢迎 5 您 6末##末7"pos1 pos1 pos1 pos1 pos1 pos1 pos1pos2 pos2 pos2 pos2pos3 pos3 pos3pos4pos5则该句被划分为"0始##始""1张 2 华 3 平4 欢迎 5 您""6末##末"对每一段用维特比算法确定一个唯一的postag细节：首先P(w,c)的输出概率存储在dict中，比如dictCore,dictUnknow,通过dict.GetFrequency(char*sWord,intnHandle)函数获取sWordpos为nHandle的函数概率P(c)存储在context中,比如m_context,通过context.GetFrequency(intnKey,intnSymbol)函数获取pos为nSymbol的函数,nKey=0转移概率P(c|c')存储在context中,比如m_context,通过context.GetContextPossibility(intnKey,intnPrev,intnCur)函数获取c'=nPrev,c=nCur的转移概率,nKey=0重要的数据结构m_nTags[i][k]表示第i个w的第k个pos在GetFrom函数中表示-log(第i个w的第k个pos的输出概率)在CSpan::Disamb()函数中m_dFrequency[i][k]表示-log(从第0个w到第i个w的第k个pos的联合最大输出概率),比如w_j w_{j1}m_dFrequency[j][0]-- m_dFrequency[j1][0]m_dFrequency[j][1] -- m_dFrequency[j1][1]--m_dFrequency[j1][2]则图中的路径的权为W([j,0]->[j1,2])=m_dFrequency[j][0]-log(m_context.GetContextPossibility(0,m_nTags[j][0],m_nTags[j1][2]))这样,选择m_dFrequency[j1][2]=min{W([j,0]->[j1,2]),W([j,1]->[j1,2])}

                    本文档为【中科院分词系统(1)】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

中科院分词系统(1)

你可能还喜欢