首页 Logistic+回归分析的文本段落聚类策略研究

Logistic+回归分析的文本段落聚类策略研究

Logistic+回归分析的文本段落聚类策略研究基于累积 !"#$%&$’ 回归分析的文本段落聚类策略研究! 徐永东! 徐志明王晓龙（哈尔滨工业大学计算机学院自然语言处理研究室哈尔滨 !"###!）摘要提出一种新的文本段落聚类策略，该策略采用多特征融合思想尽可能多地挖掘段落内的特征，并采用累积 $%&’()’* 回归分析方法来拟合这些特征与段落相似度之间的内在关联，使得段落相似度计算的结果更为理想。最后采用层次聚合聚类算法中的 *%+, -./)/,.’01 方法对段落集合进行聚类处理。通过网络真实文本进行了段落相似度度量实验和段落聚...

基于累积 !"#$%&$’ 回归分析的文本段落聚类策略研究! 徐永东! 徐志明王晓龙（哈尔滨工业大学计算机学院自然语言处理研究室哈尔滨 !"###!）摘要提出一种新的文本段落聚类策略，该策略采用多特征融合思想尽可能多地挖掘段落内的特征，并采用累积 $%&’()’* 回归分析方法来拟合这些特征与段落相似度之间的内在关联，使得段落相似度计算的结果更为理想。最后采用层次聚合聚类算法中的 *%+, -./)/,.’01 方法对段落集合进行聚类处理。通过网络真实文本进行了段落相似度度量实验和段落聚类实验，实验结果显示了方法的可行性。关键词多特征融合，累积 $%&’()’* 回归分析，段落相似度计算，段落聚类 # 引言互联网的日益发展以及海量信息的出现，对网络信息处理速度与能力提出了前所未有的挑战。在此背景下，一些基于多文档处理的自然语言处理技术：信息检索、自动问答、多文档自动文摘以及主题监测和追踪（232）等技术，逐渐成为人们研究的热点，而这些技术中的一个共同的核心任务就是如何识别相似的段落并在此基础上进行段落聚类。段落聚类的任务是把一个段落集分成若干子集，每个子集的成员之间具有较大的相似性，而子集之间的段落尽可能地不相似。从概念上看，段落聚类是一种以段落为处理对象的文本聚类，二者在任务和方法上有很大的相似性。事实上，目前很多的段落聚类［!,4］直接采用文本聚类技术来实现。这种策略简单易行，并且方法中的特征筛选技术及相似度度量机制日趋成熟。但是，上述段落聚类存在着无法避免的问题：和全文相比，段落的长度更小，因此可利用的特征数量很少，词语统计信息和文档结构信息相对匮乏，导致相似段落的共同特征不明显，产生严重的数据稀疏现象并将影响相似度计算的稳定性。此外，段落聚类任务处理的对象往往是针对同一主题的文档集，例如多文档自动文摘任务，多个文档彼此之间已经具有较高的相似度，在此基础上只有根据辨别能力更强的相似度计算策略才能从众多相似的段落中发现更为相似的段落，实现粒度更细的聚类处理并保证不会出现同类的段落过多的现象。很明显，上述问题无法通过全文聚类中的相似度度量机制来解决。对此，文献［5］提出了 6(/76. 0, &89+(的概念，采用不同长度的字串作为特征，并通过这些特征的线性组合来计算段落相似度。但文中仅仅给出了融合公式，没有提到每个特征的权重如何确定。文献［"］采用机器学习的方法融合了段落间的同现词、同现专有名词、同现短语等 !! 个特征来计算段落间的相似度，该方法应用到多文档自动文摘中并取得了很好的效果。本文扩展了上述思想，针对段落相似度问题与其它二值分类问题的不同，用模糊相似度代替了原来的 # : ! 值，并采用累积 $%&’()’*回归模型来融合多特征并在此基础上进行段落聚类。在特征选择方面，充分利用了词性信息、语义信息、文档内部词语密度信息以及文档内部结构信息，使得段落相似度计算的结果更为理想。 ! 特征选择对于文本聚类任务来说，一个有效的特征项集合必须具备以下三个特征：（!）完全性：特征项能够确实表示目标内容；（;）区分性：根据特征向量，能将目标同其它类别文本相区分；（4）精练性：特征向量的维数应尽可能小。近年来文本聚类任务中应用较多且效果较好的文本表示方法是向量空间模型法。每个文档 ! 可以由一些规范化向量 "（ !）< （ #!，$!（ !）；⋯；#%，$%（ !）；⋯；#&，$&（ !））来表示。其中 #% 为特征项，$%（ !）为 #% 在 ! 中的权值。这里的特征项通常由所有在文本集合中出现的词，根据特征筛选技术来确定。但是这种以词或概念为基本元 —=>?— 徐永东等：基于累积 $%&’()’* 回归分析的文本段落聚类策略研究 " ! 男，!=?5 年生，博士生；研究方向：自然语言处理，自动文摘；联系人，@,+9’.：A6B%0&C%0&####D (’09 E *%+ （收稿日期：;##",#>,#5） >F4 计划（;##;GG!!?#!#,#=）和国家自然科学基金（F#54"#;#）资助项目。万方数据素的单一的文本表达对于段落相似计算任务来说是很不够的。首先，如前文所述，文档之间已经具有较高的相似度，因此如果采用传统文本聚类技术来对段落进行聚类的话，几乎所有的段落均会聚为一类，根本无法保证区分性。此外，在完全性方面，和整篇文章相比，段落的长度更短，词语统计信息和文档结构信息相对匮乏，导致相似段落的共同特征不明显。对此，本文提出了一个多特征融合的段落相似度计算策略，其基本思想是：根据单纯采用词空间生成特征项的信息不足的情况，在段落中尽可能地挖掘可能对相似度计算产生影响的因素，并根据影响的大小将这些因素有机融合，综合地反映两个段落之间的相似度。本文称这些因素为特征。 ! "! 外部特征由于一个段落通常要描述一个完整的情境，或者一个事件，因此一个段落可以看成是由多个事件属性组成的特征集合，这些特征从不同侧面反映了段落的内容主题。通过对大量文本的分析我们发现，不同词性的内容词（经过停用词表过滤后的词语），如名词、动词、名实体等等，可以分别表示事件的施事主体、客体、行为或状态、时间、地点等。因此，由这些词条组成的向量可分别作为识别段落内容的特征。给定一个段落 !"，每个特征可由一个向量 #"（ $"!，$"$，⋯，$"%）来表示，向量由段落中的全部名词（动词、名实体等等）组成，其中每个元素 $ 对应着每一个词条的 &’ ( ")’ 值，我们采用式 $"* + &’"*·"#$（, ( %*） ! & - + ! （ &’"-·"#$（, ( %-））" % （!）来计算，其中，$"*是段落 " 中的词语 * 的 &’ ( ")’ 值， &’"*是词 * 在段落 " 中的出现的次数，, 是总的段落数，& 是文本集中所有过滤后的词的数量，%*是包含词 * 的段落的数量。上述的特征向量比较直观地从不同角度反映了段落的内容。但是由于只计算相同词语的重复度，因而无法描述深层次的语义相似性。比如在段落内分别出现“上海”和“上海市”，尽管他们代表同样的含义，但是在词性特征向量中却属于不同词语。为克服这一缺点，我们引入了语义特征来进一步揭示段落内容。我们采用基于 &#’()* 的词汇链算法来构造概念向量，构造过程如下：（!）将文本集转化为词集；（%）采用基于 &#’()* 的概念相似度计算方法# 来计算任意两两词语之间的相似度；（+）集聚所有相似度大于给定阈值的词语，并构造词汇链集合；（,）对于每个段落，我们采用词汇链集合来构造对应的概念向量，向量中的每个元素的权值由式 ./012（ 23242%&-）+ ! 4 * + ! $"*· 5（ /67"%-，$01)*） .- （%）来计算，其中 $"*是段落 " 中词 * 的 &’ ( ")’ 值，4 是段落 " 中的总词语数量；.-是词汇链 - 的长度，5 （ /67"%-，$01)*）是一个布尔值，当词语 * 是词汇链 - 的成员时，5（ /67"%-，$01)*）- !，反之，5（ /67"%-， $01)*）- .。 ! "# 内部特征上述特征与段落所在的文档无关，因此称之为外部特征。相应地，一篇文档内部的篇章结构信息也是段落相似度度量的重要特征。通常情况下，文章的作者会通过一个或连续几个段落来描述一个完整的事件，很少出现跳跃的现象。在这一点上十分类似于文本主题切分任务。另外通过对新浪网站下载的 !,. 篇网络文本的分析发现，很多文章都具有一些明显的话语结构，如子标题、章节、标号等，这一点在文章的长度大于 %... 字以后显得尤为明显（表 !）。这些结构能够指示出段落之间在内容上的逻辑联系，因此可作为判别段落之间是否相关的特征。综上所述，同一文章内部的段落之间，在已有外部特征的基础上，又有两个新的内部特征：表 ! 文本内容结构的统计结果文本长度有明显结构无明显结构文章数比例文章数比例小于 !... 字 %/ /! 0.12 !! %3 0412 !... 5 %... 字 ,, /% 0!+2 !/ %/ 03/2 大于 %... 字 +4 41 0!%2 % , 0332 （!）词语密度特征。在文本主题边界判别技术中，两个相邻的段落之间的边界词语密度可用于判断二者是否属于同一主题，因而同样可作为段落相似度计算的重要线索。6)7(89［:］采用 ;#*<"#* 方法来进行计算相邻两个段落之间的词语密度 8"： 8" + ! 9 5 9 - + % #5- :! 5-· #5-, （5- : 5- :!）（, : 5-）（+）其中 , 是文章的长度。 5 为边界的位置列表，5 中的每一个元素为一个可能的主题边界在文章中的位 —.4/— 高技术通讯 %..: 年 3 月第 !: 卷第 3 期 # 本文采用的是 &#’()* %.., 版中的概念相似度计算模块。万方数据置；向量 !"，#是从位置 $ 到 % 的所有内容词出现频度的计数向量；!"#$%"# 方法的特点是比较直观，但是由于只计算相同词语的重复度，没有进行词义消歧以及深层的词语相关度判断，因而本文采用一种改进的 !"#$%"# 方法［&］来计算两个相邻的段落 & 和 & ’ ( 之间的边界词语密度： ’()(（ &，& * (）+ ! , - , # + ) .-#/( -#· .-#0 （-# / -# /(）（0 / -#）（*）其中，算子“·”定义如下： .· 1 + ! 2 " + ( ! & # + ( ’"2（ 3"，4#），3"，4# " 5 + { 其他 5 为特征词集合；’"2（ 3"，4#）是词语 3"，4# 之间的相关度。对比公式（,）和（*）可以看出，改进的 !"#$%"# 方法与原始 !"#$%"# 方法的区别在于用词语之间的语义相关度取代了词语同现频度，因而更能够反映段落之间的相关程度。（)）修辞结构特征。我们根据文本内容将段落之间的逻辑关系简化为 , 种：总分关系、分总关系和并列关系。为了有效地识别这三种关系，我们首先人工总结了一个线索词词典，并以此作为识别上述关系的依据。例如：如果有连续两个自然段分别是由线索词“首先”和“其次”开始的，则可以认为它们之间构成了并列关系。而如果一个段落是由线索词 “综上所述”开头，则该段落之前的若干个段落与它可能构成了分总关系。给定两个相邻的段落 & 和 & ’ (如果存在上述关系，则令 ’())（ &，& ’ (）- (；否则，’())（ &，& ’ (）- +。 ) 特征融合及段落相似度计算上述的特征均有可能对段落之间的相关性产生影响，接下来的任务是找到一种统计的方法来描述它们的关系，即需要研究采用什么样的表达式来融合这些特征以确定最终的段落相似度值，以及如何自动确定每个特征的融合权值。传统上人们采用线性加权的方法进行特征融合［./(+］，并且采用搜索算法，通过评估初始权值得到的相似度值同实际相似度的距离来对权值进行优化。这种方法的缺点是复杂度随着特征的增加呈指数增长，因此该方法在无法确定特征的情况下实现起来很困难。文献［((］采用 %"0/%12345 回归模型进行特征融合，这种方法本身灵活简单，并可达到相当高的精度。%"0/%12345 模型训练时应变量 1 为取值为 + 6 ( 的二元变量。当样本的两个段落相似时 1 - (，反之 1 - +。然而在对语料库进行标注时我们发现 + 6 ( 取值会造成严重的语料库不均衡现象（语料中正反例比值达到了 ( 7 ()），另外，考虑到 + 6 ( 取值无法表示段落之间关系的所有可能的情况，很多段落之间的关系处于完全相似和完全不相似之间。因此本文采用分层相似度来代替 + 6 ( 值，将段落相似度细分为 8 个级别：+、+ 9)、+ 98、+ 9.、(，分别表示段落之间完全不相似，有一点相似，相似，很相似和完全相似。相应地，我们采用一种基于累积 :"01;#1< 回归分析的机器学习算法来拟合多个特征与段落相似度之间的关系。这种方法的许多前提假设比较符合本任务的特点，譬如不要求模型变量间具有线性的相关关系，不要求变量之间独立同分布，不要求变量服从协方差矩阵相等和残差项服从正态分布等，这使得模型的分析结果比较客观。 ! "# 累积 $%&’()’* 回归模型回归分析是统计学中最重要的分支学科之一，其研究的主要问题就是如何利用两个变量 .、1 的观察值（样本）来确定它们之间的内在关联。考虑传统的多元线性回归分析，响应变量 1 和自变量 . 之间的关系描述如下： 4 + ! *") 3( * ⋯ *"%3% （8）式中!，"(，⋯，"% 是回归系数；对上式作对数单位转换，即取 %"0 "64 - %2（ 4 7（( = 4））作为应变量，得 %"0 "64 + %2（ 4 7（( / 4））+ ! *"( 3( * ⋯ *"%3% （>）这样 %2（ 4 7（( = 4））可取负无穷到正无穷的任何数值，而 4 的值则限制在 + ? (，上式经变换后得 4 + 8 （!*"( 3( *⋯ *"%3%） ( * 8（!*"( 3( *⋯ *"%3%）（&）该公式即为 %"01;#1<回归公式，是普通多元线性回归的推广。通常意义上的 :"01;#1< 回归模型要求因变量 4 只有两种取值（二分类），当 4 的取值有两种以上时，应将模型扩展为多分类因变量模型。一个适当的方法是累积 :"01;#1<回归模型，当因变量有 9 种类别时，模型定义如下： %2［ -（ 4 # " 7 3）( / -（ 4 # # 7 3）］+ ## /［! *! : % + ( "%3%］（.）其中，## 是类别 # = ( 与类别 # 之间的分界点。由上式可以看到，在累积 :"01;#1< 回归模型中，%"01# 是按反应变量的类别顺序定义的，也就是说，模型的发生比是通过该发生比分子中的事件概率的依次连续累积而形成的，这就是累积 %"01# 模型的含义。类似逻辑回归公式，累积概率可通过式 —(@&— 徐永东等：基于累积 :"01;#1< 回归分析的文本段落聚类策略研究万方数据 !（ " ! # $ %）& ’［!# (［")" * + & ! #+%+］］ ! ) ’［!# (［")" * + & ! #+%+］］（"）进行预测。一旦计算出了累积概率，属于某一特定类别的概率便可以计算出来： !（ " & !）& !（ " ! !） !（ " & #）& !（ " ! #）( !（ " ! !） ⋯ !（ " & ,）& ! ( !（ " !（ , ( !））（!$） ! "! 段落相似度计算给定一个由 - 个参与建模的所有段落对组成的样本集合，其应变量观测值为 . %（ "!，/ / /，"-）。 "# 由手工标注获得，根据段落间的相似程度标注为 $、$ &#、$ &’、$ &(、! 中的一个值。自变量 0 %（ 0!， 0#，/ / /，0-），其中 01 %（ %1!，%1#，/ / /，%1+）（ 1 % !， #，/ / / /，-），是第 1 个段落对的所有特征组成的向量，对于内部特征来说，%1#表示第 1 对段落 2! 和 2# 之间的 3451（ 2!，2#）值；对于外部特征来说，%1#是两个特征向量之间的相似度，本文采用向量夹角余弦的方法来计算 %1#的值： %1# & 316（#7，$$）& " 8 1 & ! 71$1 " 8 1 & ! 7#1·" 8 1 & !$ #% 1 （!!）确定了所有特征值及对应模型参数值，段落之间的相似度可由公式（"）和（!$）来计算。 ) 聚类段落聚类过程分两个步骤来处理，首先对文章内部段落进行聚类，然后对输出结果进一步进行聚类处理。考虑到本文的聚类任务需要分辨具有细微差别的类，对灵敏度要求较高，因此采用层次聚类算法中的 *+,-./0/1.234 方法进行第二阶段聚类（图 !）。算法 !：文章内部段落聚类算法 ! 5 输入待聚类的段落集合 9，阈值%，清空当前的间隔点集合 !。 # 5 计算相邻段落之间的相似度。 ) 5 将相似度值小于% 的节点输入到 ! 中。 6 5 重复步骤 #、)直到所有段落均处理完毕。 ’ 5 合并各间隔点之间的全部段落聚为一类，得到类别集合，输出。算法 #：*+,-./0/1.234聚累 ! 5 输入类别集合 :，阈值 ;。 # 5 至当前类别数目 - % 7 : 7。 ) 5 遍历类别集合 :，根据两个类别中最小的段落的相似度来计算类间相似度。 6 5 如果存在大于 8 的类间相似度，合并相似度最大的类别，升级 :，置当前类别数量 - % - 9 !。 ’ 5 重复步骤 )、6直到所有类间相似度值均小于 8，循环结束，输出 :。图 # 段落聚类算法 6 实验结果与评价本文的实验语料来自于网络下载的 : 个主题共计 (6 篇文档，包括李铁转会、联想并购、安徽假奶粉案、俄罗斯列车爆炸案等多个领域的文章。实验主要在以下三方面进行考察：（!）多特征融合方法的有效性；（#）内部特征的使用对文章内部段落相似度计算的效果；（)）累积逻辑回归模型对特征融合效果的有效性。 $ "# 实验 #：段落相似度计算实验及结果分析相似度计算实验分为脱机建模过程和在线处理过程。在脱机建模过程中，我们采用语料库中 ; 个主题的 :6 篇文章作为训练语料，通过一系列外部工具，包括用于词性标注及名实体识别的中文信息处理平台 9<= <>:?，用于词语相似度计算的 <+=3/0 （本文用的是 >+=3/0#$$6 版），用于计算词语密度的词矢量模型，进行特征抽取作为自变量，手工标注的段落相似度作为应变量，输入到累积 ?+@2A02* 回归模型中进行建模。与线性回归不同，累积 ?+@2A02* 回归是一种非线性模型，因而回归系数的估计通常采用最大似然估计法。使似然函数最大化的过程实际就是一个迭代计算的过程，当迭代到情况改善得很小时，即第 + 步和第 + B ! 步的情况基本一致时，迭代停止。模型将自动筛选出对模型有贡献的特征以及这些特征的最佳权值。本文中由于来自相同文章的段落对的自变量包括外部特征和内部特征，而不同文章的段落对只包括外部特征。因此我们对二者分别建模。对于来自不同文章的段落，我们采用了 ( 个外部特征：!词向量相似度；"名词向量相似度； #动词向量相似度；$名实体向量相似度；%同义词向量相似度；&同义名词向量相似度；’同义动词向量相似度；(同义名实体向量相似度。对于来自相同文章的相邻段落，除了上述的 ( 个特征，我们加入了两个内部特征：!词语密度特征；"修辞结构特征。模型拟合结果，全部特征均具有统计意义，因此全部加入对应模型中。在线处理部分，我们使用 !$ 篇文本共 !;#$ 个外部段落对和 ’# 个内部段落对进行段落相似度计算实验。为了考察多特征融合方法的有效性，我们进行了对比实验，实验结果如表 # 所示。其中，表中 #至 !! 行的 !$ 个方法只采用单特征进行段落相似度计算。?+@2A02* 回归方法采用 $ C ! 二值变量作为模型训练的应变量，选用的特征同累积 ?+@2A02* 回归 —#":— 高技术通讯 #$$; 年 ( 月第 !; 卷第 ( 期万方数据方法的特征完全一致。表 ! 段落相似度计算实验结果外部段落对识别正确的外部段落对准确率内部段落对识别正确的内部段落对准确率外部特征词 !"#$ %&’ $ ( )&! ’# #’ $ ( )*! 名词 !"#$ %%+ $ ( )%% ’# #$ $ ( +*) 动词 !"#$ ’#$ $ ( +#! ’# !% $ ( +#% 名实体 !"#$ ’&) $ ( +"% ’# !% $ ( +#% 同义词 !"#$ *!# $ ( ’$! ’# #’ $ ( )*! 同义名词 !"#$ *$’ $ ( )&% ’# #% $ ( ’!& 同义动词 !"#$ ’!! $ ( +!’ ’# #! $ ( )$) 同义名实体 !"#$ ’!+ $ ( +!% ’# #$ $ ( +*) 内部特征词语密度特征 ’# #% $ ( ’!& 修辞结构特征 ’# !* $ ( +)" ,-./01/2 回归方法 !"#$ !!$) $ ( "*! ’# +* $ ( %+ 累积 ,-./01/2 回归方法 !"#$ !!#! $ ( "&# ’# +* $ ( %+ 从表 # 中可以看出，采用多特征融合方法进行段落相似度计算的方法要明显地好于所有采用单特征的方法。在效果较好的同义词方法中，识别外部段落对的准确率要高于内部段落对的准确率。这是因为在同一篇文章内部的同现词语非常多，而作者很少会重复地描述同一个事件，因而段落之间通常是不相似的，这种矛盾造成了上述情况。而为内部段落对专门设置的 # 个内部特征，在单独使用时准确率同样不是很高（词语密度特征稍好一些）。而在多特征融合方法中，这种情况得到了很大的改善（,-./01/2方法和累积 ,-./01/2 回归方法）。在 ,-./01/2 回归方法同累积 ,-./01/2 回归方法的比较中可以看出，内部段落对的识别准确率方面二者的效果相同，而在外部段落对的识别准确率方面累积 ,-./01/2 回归方法的效果要好于 ,-./01/2 回归方法（高出 ! 3$)4）。表 + 显示了两种累积 ,-./01/2 回归模型对文章内部段落相似度的计算结果。方法 ! 只采用外部特征来构造模型，方法 # 在方法 ! 的基础上添加了内部特征。可以看出尽管单独使用内部特征的效果不是很好（表 #），但是在综合模型中引入内部特征对于内部段落对的相似度计算有很大益处。表 " 内部特征效果比较结果准确率方法 ! $ ("’ 方法 # $ (%+ # $! 实验 !：段落聚类实验及结果分析段落聚类实验主要考察不同段落相似度计算方法对最终段落聚类结果的影响。在实验过程中选取了全部 ’&# 个段落作为训练集。实验结果如表 ) 所示。我们采用准确率、召回率和综合的 ! 度量作为度量聚类质量的标准。表 # 聚类实验比较结果准确率召回率 5度量基准方法 $ (")+ $ ()*! $ (’’ ,-./01/2回归方法 $ (%+’ $ ("*’ $ (%$& 累积 6-./01/2回归方法 $ (*&) $ (*+* $ (*"’ 表 ) 中，我们采用实验 ! 中效果较好的同义词方法作为基准方法。从实验数据中我们发现，累积 ,-./01/2回归方法进行段落聚类的效果要远远优于基准方法和一般 ,-./01/2回归方法，其原因除了由于累积 ,-./01/2回归方法得到的段落相似度的准确率要高于其他两种方法外，通过对相似度计算的结果的分析我们发现，累积 ,-./01/2回归方法得到的段落相似度结果中，计算错误的样本大多处在｛$、$ 3+、 $ 3’｝范围内，即实际为 $ 的样本被计算成 $ ( + 或 $ ( ’，实际为 $ ( + 的样本被计算成了 $ 或 $ ( ’，实际为 $ (’ 的样本被计算为 $ 或 $ ( +。由于我们采用的文章内部段落聚类算法的阈值为 $ (*’，2-786919:6/;< 方法的阈值为 $ (*，均大于 $ ( ’，因此上述计算错误的样本并没有影响聚类的精度。 ’ 结论本文提出了一种基于累积 ,-./01/2 回归分析的中文文本段落聚类方法，该方法基于多特征融合的思想来计算段落间相似度，通过充分挖掘段落中的可用特征，并采用机器学习方法自动融合这些特征。从而避免了传统的以词或概念为基本元素的单一的文本表达所带来的信息匮乏、区分性不强的问题。在特征融合方面，本文采用累积 ,-./01/2 回归分析模型来自动拟合各个特征同最终的段落相似度之间的关系。最终的相似度实验以及聚类实验结果基本符合实验初期的假设：基于累积 ,-./01/2 回归模型的多特征融合方法，特别是增加了内部特征之后，可以有效地实现文本段落相似度计算以及聚类任务。由于本文的主要目的是为了研究不同的段落相似度计算方法对段落聚类的影响效果，因此本文没 —+&%— 徐永东等：基于累积 ,-./01/2 回归分析的文本段落聚类策略研究万方数据有对其他更有效的聚类算法作进一步的研究。而这将是我们今后的研究任务之一。另外，由于累积 !"#$%&$’回归模型提供了一个良好的特征融合框架，可以根据自变量对模型的贡献自动地从模型中添加新特征或删除已有特征，具有较强的扩展性。因此，本文今后将考虑挖掘其他有用特征，例如短语特征、组块特征等等来进一步提高段落聚类的精度。参考文献［ (］ )*+$ ,，-#.’/$ 0，0123" 4 5 6%*789"’.%*3 :.;&$83"’.:*2& %.::17$<1&$"2 =$&/ >171#71>/ ’;.%&*7$2# 123 %*2&*2’*8&?>* 9$;8 &*7$2# 5 @2：A7"’**3$2#% "9 &/* B".7&/ 4CD@E F"7+%/"> "2 E*%*17’/ $2 -G1;.1&$"2 "9 @29"7:1&$"2 H’’*%% C*’/2";"#$*%： @29"7:1&$"2 E*&7$*G1;，I.*%&$"2 H2%=*7$2#，123 ).::17$<18 &$"2，4@@，J1>12，KLLM 5 MNO8MPP ［ K］Q. A 5 D/$2*%* &*R& %.::17$<1&$"2 S1%*3 "2 &/*:1&$’ 17*1 3*8 &*’&$"2 5 @2：C*R& ).::17$<1&$"2 T712’/*% U.&：A7"’**3$2#% "9 &/* HD!8LM F"7+%/">，T17’*;"21，)>1$2，KLLM 5 ((K8((O ［ V］F*$2%&*$2 A 5 H#*2&% %=17:$2# $2 %*:12&$’ %>1’*% &" ’"77"S"8 71&* /?>"&/*%*% 5 @2：HHWH)，KLLM ［ M］ D";;$*7 E 5 48X71: ’;.%&*7 $3*2&$9$’1&$"2 3.7$2# *:>$7$’1; +2"=;*3#* 7*>7*%*2&1&$"2 #*2*71&$"2 5 @2：DU!@4X，(OOM 5 (LNM8(LNY ［ N］Q1&<$G1%%$;"#;". Z 5 [*&*’&$2# &*R& %$:$;17$&? "G*7 %/"7& >1%8 %1#*%：*R>;"7$2# ;$2#.$%&$’ 9*1&.7* ’":S$21&$"2% G$1 :1’/$2* ;*172$2# 5 @2：A7"’**3$2#% "9 &/* (OOO J"$2& )@X[HC D"29*78 *2’* "2 -:>$7$’1; W*&/"3% $2 41&.71; !12#.1#* A7"’*%%$2# 123 Z*7? !17#* D"7>"71，D";;*#* A17+，W17?;123，(OOO 5 KLV8K(K ［ P］E*?217 J D 5 H2 1.&":1&$’ :*&/"3 "9 9$23$2# &">$’ S".2317$*% 5 @2：A7"’**3$2#% "9 &/* VK23 H22.1; W**&$2# "9 &/* H%%"’$18 &$"2 9"7 D":>.&1&$"21; !$2#.$%&$’%，!1% D7.’*%，4*= W*R$’"， (OOM 5 VV(8VVV ［ \］D/*2 I，F12# ] ! 5 ).S&">$’ %*#:*2&1&$"2 "9 ’/$2*%* 3"’.8 :*2&：12 131>&*3 3"&>;"& 1>>7"1’/ 5 @2：@DW!D’LK，KLLK 5 (N\(8(N\P ［ Y］ 0.7"/1%/$ )，41#." W 5 H.&":1&$’ 3*&*’&$"2 "9 3$%’".7%* %&7.’&.7* S? ’/*’+$2# %.791’* $29"7:1&$"2 $2 %*2&*2’* 5 @2： A7"’ "9 &/* (N&/ @2&*721&$"21; D"29*7*2’* "2 D":>.&1&$"21; !$2#.$%&$’%，(OOM 5 ((KV8((K\ ［ O］D"/*2 E 5 H21;?<$2# &/* %&7.’&.7* "9 17#.:*2&1&$G* 3$%’".7%* 5 !"#$%&’&(")’* +(),%(-&(.-，(OY\，(V：((8KM ［(L］W’E"? ) F 5 6%$2# :.;&$>;* +2"=;*3#* %".7’*% 9"7 ="73 %*2%* 3$%’7$:$21&$"2 5 !"#$%&’&(")’* +(),%(-&(.-，(OOK，(Y（(）：(8 VL ［((］Q1&<$G1%%$;"#;". Z 5 )$:B$23*7：1 9;*R$S;* ’;.%&*7$2# &""; 9"7 %.::17$<1&$"2 5 @2：4HHD! F"7+%/"> "2 H.7":1&$’ ).::18 7$<1&$"2，H%%"’$1&$"2 9"7 D":>.&1&$"21; !$2#.$%&$’% 5 KLL( !"#"$%&’ () *"+* ,$%$-%$,’# &./#*"%01- #*%$*"-0"# 2$#"3 (1 *’" &/4/.$*05" 6(-0#*0& %"-%"##0(1 $1$.7#0# ]. ,"2#3"2#，]. ^/$:$2#，F12# ]$1";"2# （)’/""; "9 D":>.&*7 )’$*2’* 123 C*’/2";"#?，Q17S$2 @2%&$&.&* "9 C*’/2";"#?，Q17S$2 (NLLL(） 82#*%$&* H$:$2# 1& &/* 3$99*7*2’* S*&=**2 >171#71>/% ’;.%&*7$2# 123 &713$&$"21; 9.;; &*R&% ’;.%&*7$2# $2 .%*1S;* $29"7:1&$"2 123 ’;.%&*7$2# %$<*，&/* >1>*7 >7">"%*% 1 2*= ’;.%&*7$2# %&71&*#? 5 @& .%*% &/* $3*1 "9 :.;&$>;* 9*1&.7*% 9.%$"2 &" 3$# .%*9.; 9*18 &.7*% 1% 917 1% >"%%$S;* 123 .%*% &/* ’.:.;1&$G* !"#$%&$’ 7*#7*%%$"2 121;?%$% &" 9$& &/* $2&*721; 7*;1&$"2 S*&=**2 &/*%* 9*18 &.7*% 123 >171#71>/% %$:$;17$&? 5 H& ;1%&，$& .%*% &/* ’":>;*&*8;$2+ :*&/"3 "9 /$*717’/$’1; ’;.%&*7$2# &" >7"’*%% &/* %*& "9 >171#71>/% 5 C/* 7*%.;&% "9 &/* >171#71>/% %$:$;17$&? ’":>.&1&$"2 *R>*7$:*2& 123 &/* >171#71>/% ’;.%&*7$2# *R>*7$:*2& %/"= &/* 9*1%$S$;$&? "9 &/* :*&/"3 5 9"7 :(%3#：:.;&$>;* 9*1&.7*% 9.%$"2，’.:.;1&$G* !"#$%&$’ 7*#7*%%$"2 121;?%$%，>171#71>/% %$:$;17$&? ’":>.&1&$"2， >171#71>/% ’;.%&*7$2# —MO\— 高技术通讯 KLLP 年 Y 月第 (P 卷第 Y 期万方数据基于累积Logistic 回归分析的文本段落聚类策略研究作者：徐永东，徐志明，王晓龙， Xu Yongdong， Xu Zhiming， Wang Xiaolong 作者单位：哈尔滨工业大学计算机学院自然语言处理研究室,哈尔滨,150001 刊名：高技术通讯英文刊名： CHINESE HIGH TECHNOLOGY LETTERS 年，卷(期)： 2006,16(8) 被引用次数： 1次参考文献(11条) 1.Seki Y.Eguchi K.Kando N User-focused multi-document summarization with paragraph clustering and sentence-type filtering 2004 2.Hu P Chinese text summarization based on thematic area detection 2004 3.Weinstein P Agents swarming in semantic spaces to corroborate hypotheses 2004 4.Collier R N-Gram cluster identification during empirical knowledge representation generation 1994 5.Hatzivassiloglou V Detecting text similarity over short passages:exploring linguistic feature combinations via machine learning 1999 6.Reynar J C An automatic method of finding topic boundaries 1994 7.Chen Q.Wang X L Subtopic segmentation of chinese document:an adapted dotplot approach 2002 8.Kurohashi S.Naguo M Automatic detection of discourse structure by checking surface information in sentence 1994 9.Cohen R Analyzing the structure of argumentative discourse 1987 10.McRoy S W Using multiple knowledge sources for word sense discrimination 1992(01) 11.Hatzivassiloglou V SimFinder:a flexible clustering tool for summarization 2001 引证文献(1条) 1.徐永东.王亚东.刘杨.王伟.权光日多文档文摘中基于时间信息的句子排序策略研究[期刊论文]-中文信息学报 2009(4) 本文链接：http://d.g.wanfangdata.com.cn/Periodical_gjstx98200608004.aspx

                    本文档为【Logistic+回归分析的文本段落聚类策略研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

Logistic+回归分析的文本段落聚类策略研究

你可能还喜欢