首页 Logistic+回归分析的文本段落聚类策略研究

Logistic+回归分析的文本段落聚类策略研究

举报
开通vip

Logistic+回归分析的文本段落聚类策略研究 基于累积 !"#$%&$’ 回归分析的文本段落聚类策略研究! 徐永东! 徐志明 王晓龙 (哈尔滨工业大学计算机学院自然语言处理研究室 哈尔滨 !"###!) 摘 要 提出一种新的文本段落聚类策略,该策略采用多特征融合思想尽可能多地挖掘 段落内的特征,并采用累积 $%&’()’* 回归分析方法来拟合这些特征与段落相似度之间的内 在关联,使得段落相似度计算的结果更为理想。最后采用层次聚合聚类算法中的 *%+, -./)/,.’01 方法对段落集合进行聚类处理。通过网络真实文本进行了段落相似度度量实验 和段落聚...

Logistic+回归分析的文本段落聚类策略研究
基于累积 !"#$%&$’ 回归分析的文本段落聚类策略研究! 徐永东! 徐志明 王晓龙 (哈尔滨工业大学计算机学院自然语言处理研究室 哈尔滨 !"###!) 摘 要 提出一种新的文本段落聚类策略,该策略采用多特征融合思想尽可能多地挖掘 段落内的特征,并采用累积 $%&’()’* 回归分析方法来拟合这些特征与段落相似度之间的内 在关联,使得段落相似度计算的结果更为理想。最后采用层次聚合聚类算法中的 *%+, -./)/,.’01 方法对段落集合进行聚类处理。通过网络真实文本进行了段落相似度度量实验 和段落聚类实验,实验结果显示了方法的可行性。 关键词 多特征融合,累积 $%&’()’* 回归分析,段落相似度计算,段落聚类 # 引 言 互联网的日益发展以及海量信息的出现,对网 络信息处理速度与能力提出了前所未有的挑战。在 此背景下,一些基于多文档处理的自然语言处理技 术:信息检索、自动问答、多文档自动文摘以及主题 监测和追踪(232)等技术,逐渐成为人们研究的热 点,而这些技术中的一个共同的核心任务就是如何 识别相似的段落并在此基础上进行段落聚类。 段落聚类的任务是把一个段落集分成若干子 集,每个子集的成员之间具有较大的相似性,而子集 之间的段落尽可能地不相似。从概念上看,段落聚 类是一种以段落为处理对象的文本聚类,二者在任 务和方法上有很大的相似性。事实上,目前很多的 段落聚类[!,4]直接采用文本聚类技术来实现。这种 策略简单易行,并且方法中的特征筛选技术及相似 度度量机制日趋成熟。但是,上述段落聚类存在着 无法避免的问题:和全文相比,段落的长度更小,因 此可利用的特征数量很少,词语统计信息和文档结 构信息相对匮乏,导致相似段落的共同特征不明显, 产生严重的数据稀疏现象并将影响相似度计算的稳 定性。此外,段落聚类任务处理的对象往往是针对 同一主题的文档集,例如多文档自动文摘任务,多个 文档彼此之间已经具有较高的相似度,在此基础上 只有根据辨别能力更强的相似度计算策略才能从众 多相似的段落中发现更为相似的段落,实现粒度更 细的聚类处理并保证不会出现同类的段落过多的现 象。很明显,上述问题无法通过全文聚类中的相似 度度量机制来解决。对此,文献[5]提出了 6(/76. 0, &89+(的概念,采用不同长度的字串作为特征,并通 过这些特征的线性组合来计算段落相似度。但文中 仅仅给出了融合 公式 小学单位换算公式大全免费下载公式下载行测公式大全下载excel公式下载逻辑回归公式下载 ,没有提到每个特征的权重如 何确定。文献["]采用机器学习的方法融合了段落 间的同现词、同现专有名词、同现短语等 !! 个特征 来计算段落间的相似度,该方法应用到多文档自动 文摘中并取得了很好的效果。本文扩展了上述思 想,针对段落相似度问题与其它二值分类问题的不 同,用模糊相似度代替了原来的 # : ! 值,并采用累积 $%&’()’*回归模型来融合多特征并在此基础上进行 段落聚类。在特征选择方面,充分利用了词性信息、 语义信息、文档内部词语密度信息以及文档内部结 构信息,使得段落相似度计算的结果更为理想。 ! 特征选择 对于文本聚类任务来说,一个有效的特征项集 合必须具备以下三个特征:(!)完全性:特征项能够 确实 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示目标内容;(;)区分性:根据特征向量,能 将目标同其它类别文本相区分;(4)精练性:特征向 量的维数应尽可能小。近年来文本聚类任务中应用 较多且效果较好的文本表示方法是向量空间模型 法。每个文档 ! 可以由一些 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 化向量 "( !)< ( #!,$!( !);⋯;#%,$%( !);⋯;#&,$&( !))来表示。其 中 #% 为特征项,$%( !)为 #% 在 ! 中的权值。这里的 特征项通常由所有在文本集合中出现的词,根据特 征筛选技术来确定。但是这种以词或概念为基本元 —=>?— 徐永东等:基于累积 $%&’()’* 回归分析的文本段落聚类策略研究 " ! 男,!=?5 年生,博士生;研究方向:自然语言处理,自动文摘;联系人,@,+9’.:A6B%0&C%0&####D (’09 E *%+ (收稿日期:;##",#>,#5) >F4 计划(;##;GG!!?#!#,#=)和国家自然科学基金(F#54"#;#)资助项目。 万方数据 素的单一的文本表达对于段落相似计算任务来说是 很不够的。首先,如前文所述,文档之间已经具有较 高的相似度,因此如果采用传统文本聚类技术来对 段落进行聚类的话,几乎所有的段落均会聚为一类, 根本无法保证区分性。此外,在完全性方面,和整篇 文章相比,段落的长度更短,词语统计信息和文档结 构信息相对匮乏,导致相似段落的共同特征不明显。 对此,本文提出了一个多特征融合的段落相似度计 算策略,其基本思想是:根据单纯采用词空间生成特 征项的信息不足的情况,在段落中尽可能地挖掘可 能对相似度计算产生影响的因素,并根据影响的大 小将这些因素有机融合,综合地反映两个段落之间 的相似度。本文称这些因素为特征。 ! "! 外部特征 由于一个段落通常要描述一个完整的情境,或 者一个事件,因此一个段落可以看成是由多个事件 属性组成的特征集合,这些特征从不同侧面反映了 段落的内容主题。通过对大量文本的分析我们发 现,不同词性的内容词(经过停用词表过滤后的词 语),如名词、动词、名实体等等,可以分别表示事件 的施事主体、客体、行为或状态、时间、地点等。因 此,由这些词条组成的向量可分别作为识别段落内 容的特征。给定一个段落 !",每个特征可由一个向 量 #"( $"!,$"$,⋯,$"%)来表示,向量由段落中的全 部名词(动词、名实体等等)组成,其中每个元素 $ 对应着每一个词条的 &’ ( ")’ 值,我们采用式 $"* + &’"*·"#$(, ( %*) ! & - + ! ( &’"-·"#$(, ( %-))" % (!) 来计算,其中,$"*是段落 " 中的词语 * 的 &’ ( ")’ 值, &’"*是词 * 在段落 " 中的出现的次数,, 是总的段落 数,& 是文本集中所有过滤后的词的数量,%*是包含 词 * 的段落的数量。 上述的特征向量比较直观地从不同角度反映了 段落的内容。但是由于只计算相同词语的重复度, 因而无法描述深层次的语义相似性。比如在段落内 分别出现“上海”和“上海市”,尽管他们代表同样的 含义,但是在词性特征向量中却属于不同词语。为 克服这一缺点,我们引入了语义特征来进一步揭示 段落内容。我们采用基于 &#’()* 的词汇链算法来 构造概念向量,构造过程如下: (!)将文本集转化为词集; (%)采用基于 &#’()* 的概念相似度计算方法# 来计算任意两两词语之间的相似度; (+)集聚所有相似度大于给定阈值的词语,并 构造词汇链集合; (,)对于每个段落,我们采用词汇链集合来构 造对应的概念向量,向量中的每个元素的权值由式 ./012( 23242%&-)+ ! 4 * + ! $"*· 5( /67"%-,$01)*) .- (%) 来计算,其中 $"*是段落 " 中词 * 的 &’ ( ")’ 值,4 是 段落 " 中的总词语数量;.-是词汇链 - 的长度,5 ( /67"%-,$01)*)是一个布尔值,当词语 * 是词汇链 - 的成员时,5( /67"%-,$01)*)- !,反之,5( /67"%-, $01)*)- .。 ! "# 内部特征 上述特征与段落所在的文档无关,因此称之为 外部特征。相应地,一篇文档内部的篇章结构信息 也是段落相似度度量的重要特征。通常情况下,文 章的作者会通过一个或连续几个段落来描述一个完 整的事件,很少出现跳跃的现象。在这一点上十分 类似于文本主题切分任务。另外通过对新浪网站下 载的 !,. 篇网络文本的分析发现,很多文章都具有 一些明显的话语结构,如子标题、章节、标号等,这一 点在文章的长度大于 %... 字以后显得尤为明显(表 !)。这些结构能够指示出段落之间在内容上的逻辑 联系,因此可作为判别段落之间是否相关的特征。 综上所述,同一文章内部的段落之间,在已有外部特 征的基础上,又有两个新的内部特征: 表 ! 文本内容结构的统计结果 文本长度 有明显结构 无明显结构 文章数 比例 文章数 比例 小于 !... 字 %/ /! 0.12 !! %3 0412 !... 5 %... 字 ,, /% 0!+2 !/ %/ 03/2 大于 %... 字 +4 41 0!%2 % , 0332 (!)词语密度特征。在文本主题边界判别技术 中,两个相邻的段落之间的边界词语密度可用于判 断二者是否属于同一主题,因而同样可作为段落相 似度计算的重要线索。6)7(89[:]采用 ;#*<"#* 方法来 进行计算相邻两个段落之间的词语密度 8": 8" + ! 9 5 9 - + % #5- :! 5-· #5-, (5- : 5- :!)(, : 5-) (+) 其中 , 是文章的长度。 5 为边界的位置列表,5 中 的每一个元素为一个可能的主题边界在文章中的位 —.4/— 高技术通讯 %..: 年 3 月 第 !: 卷 第 3 期 # 本文采用的是 &#’()* %.., 版中的概念相似度计算模块。 万方数据 置;向量 !",#是从位置 $ 到 % 的所有内容词出现频度 的计数向量;!"#$%"# 方法的特点是比较直观,但是 由于只计算相同词语的重复度,没有进行词义消歧 以及深层的词语相关度判断,因而本文采用一种改 进的 !"#$%"# 方法[&]来计算两个相邻的段落 & 和 & ’ ( 之间的边界词语密度: ’()(( &,& * ()+ ! , - , # + ) .-#/( -#· .-#0 (-# / -# /()(0 / -#) (*) 其中,算子“·”定义如下: .· 1 + ! 2 " + ( ! & # + ( ’"2( 3",4#),3",4# " 5 + { 其他 5 为特征词集合;’"2( 3",4#)是词语 3",4# 之间的相 关度。对比公式(,)和(*)可以看出,改进的 !"#$%"# 方法与原始 !"#$%"# 方法的区别在于用词语之间的 语义相关度取代了词语同现频度,因而更能够反映 段落之间的相关程度。 ())修辞结构特征。我们根据文本内容将段落 之间的逻辑关系简化为 , 种:总分关系、分总关系和 并列关系。为了有效地识别这三种关系,我们首先 人工总结了一个线索词词典,并以此作为识别上述 关系的依据。例如:如果有连续两个自然段分别是 由线索词“首先”和“其次”开始的,则可以认为它们 之间构成了并列关系。而如果一个段落是由线索词 “综上所述”开头,则该段落之前的若干个段落与它 可能构成了分总关系。给定两个相邻的段落 & 和 & ’ (如果存在上述关系,则令 ’())( &,& ’ ()- (;否 则,’())( &,& ’ ()- +。 ) 特征融合及段落相似度计算 上述的特征均有可能对段落之间的相关性产生 影响,接下来的任务是找到一种统计的方法来描述 它们的关系,即需要研究采用什么样的表达式来融 合这些特征以确定最终的段落相似度值,以及如何 自动确定每个特征的融合权值。 传统上人们采用线性加权的方法进行特征融 合[./(+],并且采用搜索算法,通过评估初始权值得到 的相似度值同实际相似度的距离来对权值进行优 化。这种方法的缺点是复杂度随着特征的增加呈指 数增长,因此该方法在无法确定特征的情况下实现 起来很困难。文献[((]采用 %"0/%12345 回归模型进行 特征融合,这种方法本身灵活简单,并可达到相当高 的精度。%"0/%12345 模型训练时应变量 1 为取值为 + 6 ( 的二元变量。当样本的两个段落相似时 1 - (, 反之 1 - +。然而在对语料库进行标注时我们发现 + 6 ( 取值会造成严重的语料库不均衡现象(语料中 正反例比值达到了 ( 7 ()),另外,考虑到 + 6 ( 取值无 法表示段落之间关系的所有可能的情况,很多段落 之间的关系处于完全相似和完全不相似之间。因此 本文采用分层相似度来代替 + 6 ( 值,将段落相似度 细分为 8 个级别:+、+ 9)、+ 98、+ 9.、(,分别表示段落之 间完全不相似,有一点相似,相似,很相似和完全相 似。相应地,我们采用一种基于累积 :"01;#1< 回归分 析的机器学习算法来拟合多个特征与段落相似度之 间的关系。这种方法的许多前提假设比较符合本任 务的特点,譬如不要求模型变量间具有线性的相关 关系,不要求变量之间独立同分布,不要求变量服从 协方差矩阵相等和残差项服从正态分布等,这使得 模型的分析结果比较客观。 ! "# 累积 $%&’()’* 回归模型 回归分析是统计学中最重要的分支学科之一, 其研究的主要问题就是如何利用两个变量 .、1 的 观察值(样本)来确定它们之间的内在关联。考虑传 统的多元线性回归分析,响应变量 1 和自变量 . 之 间的关系描述如下: 4 + ! *") 3( * ⋯ *"%3% (8) 式中!,"(,⋯,"% 是回归系数;对上式作对数单位转 换,即取 %"0 "64 - %2( 4 7(( = 4))作为应变量,得 %"0 "64 + %2( 4 7(( / 4))+ ! *"( 3( * ⋯ *"%3% (>) 这样 %2( 4 7(( = 4))可取负无穷到正无穷的任何数 值,而 4 的值则限制在 + ? (,上式经变换后得 4 + 8 (!*"( 3( *⋯ *"%3%) ( * 8(!*"( 3( *⋯ *"%3%) (&) 该公式即为 %"01;#1<回归公式,是普通多元线性回归 的推广。通常意义上的 :"01;#1< 回归模型要求因变 量 4 只有两种取值(二分类),当 4 的取值有两种以 上时,应将模型扩展为多分类因变量模型。一个适 当的方法是累积 :"01;#1<回归模型,当因变量有 9 种 类别时,模型定义如下: %2[ -( 4 # " 7 3)( / -( 4 # # 7 3) ]+ ## /[! *! : % + ( "%3%](.) 其中,## 是类别 # = ( 与类别 # 之间的分界点。由上 式可以看到,在累积 :"01;#1< 回归模型中,%"01# 是按 反应变量的类别顺序定义的,也就是说,模型的发生 比是通过该发生比分子中的事件概率的依次连续累 积而形成的,这就是累积 %"01# 模型的含义。 类似逻辑回归公式,累积概率可通过式 —(@&— 徐永东等:基于累积 :"01;#1< 回归分析的文本段落聚类策略研究 万方数据 !( " ! # $ %)& ’[!# ([")" * + & ! #+%+]] ! ) ’[!# ([")" * + & ! #+%+]] (") 进行预测。一旦计算出了累积概率,属于某一特定 类别的概率便可以计算出来: !( " & !)& !( " ! !) !( " & #)& !( " ! #)( !( " ! !) ⋯ !( " & ,)& ! ( !( " !( , ( !)) (!$) ! "! 段落相似度计算 给定一个由 - 个参与建模的所有段落对组成 的样本集合,其应变量观测值为 . %( "!,/ / /,"-)。 "# 由手工标注获得,根据段落间的相似程度标注为 $、$ &#、$ &’、$ &(、! 中的一个值。自变量 0 %( 0!, 0#,/ / /,0-),其中 01 %( %1!,%1#,/ / /,%1+)( 1 % !, #,/ / / /,-),是第 1 个段落对的所有特征组成的向 量,对于内部特征来说,%1#表示第 1 对段落 2! 和 2# 之间的 3451( 2!,2#)值;对于外部特征来说,%1#是两个 特征向量之间的相似度,本文采用向量夹角余弦的 方法来计算 %1#的值: %1# & 316(#7,$$)& " 8 1 & ! 71$1 " 8 1 & ! 7#1·" 8 1 & !$ #% 1 (!!) 确定了所有特征值及对应模型参数值,段落之 间的相似度可由公式(")和(!$)来计算。 ) 聚 类 段落聚类过程分两个步骤来处理,首先对文章 内部段落进行聚类,然后对输出结果进一步进行聚 类处理。考虑到本文的聚类任务需要分辨具有细微 差别的类,对灵敏度要求较高,因此采用层次聚类算 法中的 *+,-./0/1.234 方法进行第二阶段聚类(图 !)。 算法 !:文章内部段落聚类算法 ! 5 输入待聚类的段落集合 9,阈值%,清空当前的间隔点集合 !。 # 5 计算相邻段落之间的相似度。 ) 5 将相似度值小于% 的节点输入到 ! 中。 6 5 重复步骤 #、)直到所有段落均处理完毕。 ’ 5 合并各间隔点之间的全部段落聚为一类,得到类别集合,输出。 算法 #:*+,-./0/1.234聚累 ! 5 输入类别集合 :,阈值 ;。 # 5 至当前类别数目 - % 7 : 7。 ) 5 遍历类别集合 :,根据两个类别中最小的段落的相似度来计算 类间相似度。 6 5 如果存在大于 8 的类间相似度,合并相似度最大的类别,升级 :,置当前类别数量 - % - 9 !。 ’ 5 重复步骤 )、6直到所有类间相似度值均小于 8,循环结束,输出 :。 图 # 段落聚类算法 6 实验结果与评价 本文的实验语料来自于网络下载的 : 个主题共 计 (6 篇文档,包括李铁转会、联想并购、安徽假奶粉 案、俄罗斯列车爆炸案等多个领域的文章。实验主 要在以下三方面进行考察:(!)多特征融合方法的有 效性;(#)内部特征的使用对文章内部段落相似度计 算的效果;())累积逻辑回归模型对特征融合效果的 有效性。 $ "# 实验 #:段落相似度计算实验及结果分析 相似度计算实验分为脱机建模过程和在线处理 过程。在脱机建模过程中,我们采用语料库中 ; 个 主题的 :6 篇文章作为训练语料,通过一系列外部工 具,包括用于词性标注及名实体识别的中文信息处 理平台 9<= <>:?,用于词语相似度计算的 <+=3/0 (本文用的是 >+=3/0#$$6 版),用于计算词语密度的 词矢量模型,进行特征抽取作为自变量,手工标注的 段落相似度作为应变量,输入到累积 ?+@2A02* 回归模 型中进行建模。与线性回归不同,累积 ?+@2A02* 回归 是一种非线性模型,因而回归系数的估计通常采用 最大似然估计法。使似然函数最大化的过程实际就 是一个迭代计算的过程,当迭代到情况改善得很小 时,即第 + 步和第 + B ! 步的情况基本一致时,迭代 停止。模型将自动筛选出对模型有贡献的特征以及 这些特征的最佳权值。本文中由于来自相同文章的 段落对的自变量包括外部特征和内部特征,而不同 文章的段落对只包括外部特征。因此我们对二者分 别建模。对于来自不同文章的段落,我们采用了 ( 个外部特征:!词向量相似度;"名词向量相似度; #动词向量相似度;$名实体向量相似度;%同义词 向量相似度;&同义名词向量相似度;’同义动词向 量相似度;(同义名实体向量相似度。对于来自相 同文章的相邻段落,除了上述的 ( 个特征,我们加入 了两个内部特征:!词语密度特征;"修辞结构特 征。模型拟合结果,全部特征均具有统计意义,因此 全部加入对应模型中。 在线处理部分,我们使用 !$ 篇文本共 !;#$ 个 外部段落对和 ’# 个内部段落对进行段落相似度计 算实验。为了考察多特征融合方法的有效性,我们 进行了对比实验,实验结果如表 # 所示。其中,表中 #至 !! 行的 !$ 个方法只采用单特征进行段落相似 度计算。?+@2A02* 回归方法采用 $ C ! 二值变量作为 模型训练的应变量,选用的特征同累积 ?+@2A02* 回归 —#":— 高技术通讯 #$$; 年 ( 月 第 !; 卷 第 ( 期 万方数据 方法的特征完全一致。 表 ! 段落相似度计算实验结果 外部段 落对 识别正确 的外部段 落对 准确 率 内部段 落对 识别正确 的内部段 落对 准确 率 外 部 特 征 词 !"#$ %&’ $ ( )&! ’# #’ $ ( )*! 名词 !"#$ %%+ $ ( )%% ’# #$ $ ( +*) 动词 !"#$ ’#$ $ ( +#! ’# !% $ ( +#% 名实体 !"#$ ’&) $ ( +"% ’# !% $ ( +#% 同义词 !"#$ *!# $ ( ’$! ’# #’ $ ( )*! 同义名词 !"#$ *$’ $ ( )&% ’# #% $ ( ’!& 同义动词 !"#$ ’!! $ ( +!’ ’# #! $ ( )$) 同义名 实体 !"#$ ’!+ $ ( +!% ’# #$ $ ( +*) 内 部 特 征 词语密 度特征 ’# #% $ ( ’!& 修辞结 构特征 ’# !* $ ( +)" ,-./01/2 回归方法 !"#$ !!$) $ ( "*! ’# +* $ ( %+ 累积 ,-./01/2 回归方法 !"#$ !!#! $ ( "&# ’# +* $ ( %+ 从表 # 中可以看出,采用多特征融合方法进行 段落相似度计算的方法要明显地好于所有采用单特 征的方法。在效果较好的同义词方法中,识别外部 段落对的准确率要高于内部段落对的准确率。这是 因为在同一篇文章内部的同现词语非常多,而作者 很少会重复地描述同一个事件,因而段落之间通常 是不相似的,这种矛盾造成了上述情况。而为内部 段落对专门设置的 # 个内部特征,在单独使用时准 确率同样不是很高(词语密度特征稍好一些)。而在 多特征融合方法中,这种情况得到了很大的改善 (,-./01/2方法和累积 ,-./01/2 回归方法)。在 ,-./01/2 回归方法同累积 ,-./01/2 回归方法的比较中可以看 出,内部段落对的识别准确率方面二者的效果相同, 而在外部段落对的识别准确率方面累积 ,-./01/2 回 归方法的效果要好于 ,-./01/2 回归方法(高出 ! 3$)4)。表 + 显示了两种累积 ,-./01/2 回归模型对 文章内部段落相似度的计算结果。方法 ! 只采用外 部特征来构造模型,方法 # 在方法 ! 的基础上添加 了内部特征。可以看出尽管单独使用内部特征的效 果不是很好(表 #),但是在综合模型中引入内部特 征对于内部段落对的相似度计算有很大益处。 表 " 内部特征效果比较结果 准确率 方法 ! $ ("’ 方法 # $ (%+ # $! 实验 !:段落聚类实验及结果分析 段落聚类实验主要考察不同段落相似度计算方 法对最终段落聚类结果的影响。在实验过程中选取 了全部 ’&# 个段落作为训练集。实验结果如表 ) 所 示。我们采用准确率、召回率和综合的 ! 度量作为 度量聚类质量的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 。 表 # 聚类实验比较结果 准确率 召回率 5度量 基准方法 $ (")+ $ ()*! $ (’’ ,-./01/2回归方法 $ (%+’ $ ("*’ $ (%$& 累积 6-./01/2回归方法 $ (*&) $ (*+* $ (*"’ 表 ) 中,我们采用实验 ! 中效果较好的同义词 方法作为基准方法。从实验数据中我们发现,累积 ,-./01/2回归方法进行段落聚类的效果要远远优于 基准方法和一般 ,-./01/2回归方法,其原因除了由于 累积 ,-./01/2回归方法得到的段落相似度的准确率 要高于其他两种方法外,通过对相似度计算的结果 的分析我们发现,累积 ,-./01/2回归方法得到的段落 相似度结果中,计算错误的样本大多处在{$、$ 3+、 $ 3’}范围内,即实际为 $ 的样本被计算成 $ ( + 或 $ ( ’,实际为 $ ( + 的样本被计算成了 $ 或 $ ( ’,实际为 $ (’ 的样本被计算为 $ 或 $ ( +。由于我们采用的文 章内部段落聚类算法的阈值为 $ (*’,2-786919:6/;< 方 法的阈值为 $ (*,均大于 $ ( ’,因此上述计算错误的 样本并没有影响聚类的精度。 ’ 结 论 本文提出了一种基于累积 ,-./01/2 回归分析的 中文文本段落聚类方法,该方法基于多特征融合的 思想来计算段落间相似度,通过充分挖掘段落中的 可用特征,并采用机器学习方法自动融合这些特征。 从而避免了传统的以词或概念为基本元素的单一的 文本表达所带来的信息匮乏、区分性不强的问题。 在特征融合方面,本文采用累积 ,-./01/2 回归分析模 型来自动拟合各个特征同最终的段落相似度之间的 关系。最终的相似度实验以及聚类实验结果基本符 合实验初期的假设:基于累积 ,-./01/2 回归模型的多 特征融合方法,特别是增加了内部特征之后,可以有 效地实现文本段落相似度计算以及聚类任务。 由于本文的主要目的是为了研究不同的段落相 似度计算方法对段落聚类的影响效果,因此本文没 —+&%— 徐永东等:基于累积 ,-./01/2 回归分析的文本段落聚类策略研究 万方数据 有对其他更有效的聚类算法作进一步的研究。而这 将是我们今后的研究任务之一。另外,由于累积 !"#$%&$’回归模型提供了一个良好的特征融合框架, 可以根据自变量对模型的贡献自动地从模型中添加 新特征或删除已有特征,具有较强的扩展性。因此, 本文今后将考虑挖掘其他有用特征,例如短语特征、 组块特征等等来进一步提高段落聚类的精度。 参考文献 [ (] )*+$ ,,-#.’/$ 0,0123" 4 5 6%*789"’.%*3 :.;&$83"’.:*2& %.::17$<1&$"2 =$&/ >171#71>/ ’;.%&*7$2# 123 %*2&*2’*8&?>* 9$;8 &*7$2# 5 @2:A7"’**3$2#% "9 &/* B".7&/ 4CD@E F"7+%/"> "2 E*%*17’/ $2 -G1;.1&$"2 "9 @29"7:1&$"2 H’’*%% C*’/2";"#$*%: @29"7:1&$"2 E*&7$*G1;,I.*%&$"2 H2%=*7$2#,123 ).::17$<18 &$"2,4@@,J1>12,KLLM 5 MNO8MPP [ K]Q. A 5 D/$2*%* &*R& %.::17$<1&$"2 S1%*3 "2 &/*:1&$’ 17*1 3*8 &*’&$"2 5 @2:C*R& ).::17$<1&$"2 T712’/*% U.&:A7"’**3$2#% "9 &/* HD!8LM F"7+%/">,T17’*;"21,)>1$2,KLLM 5 ((K8((O [ V]F*$2%&*$2 A 5 H#*2&% %=17:$2# $2 %*:12&$’ %>1’*% &" ’"77"S"8 71&* /?>"&/*%*% 5 @2:HHWH),KLLM [ M] D";;$*7 E 5 48X71: ’;.%&*7 $3*2&$9$’1&$"2 3.7$2# *:>$7$’1; +2"=;*3#* 7*>7*%*2&1&$"2 #*2*71&$"2 5 @2:DU!@4X,(OOM 5 (LNM8(LNY [ N]Q1&<$G1%%$;"#;". Z 5 [*&*’&$2# &*R& %$:$;17$&? "G*7 %/"7& >1%8 %1#*%:*R>;"7$2# ;$2#.$%&$’ 9*1&.7* ’":S$21&$"2% G$1 :1’/$2* ;*172$2# 5 @2:A7"’**3$2#% "9 &/* (OOO J"$2& )@X[HC D"29*78 *2’* "2 -:>$7$’1; W*&/"3% $2 41&.71; !12#.1#* A7"’*%%$2# 123 Z*7? !17#* D"7>"71,D";;*#* A17+,W17?;123,(OOO 5 KLV8K(K [ P]E*?217 J D 5 H2 1.&":1&$’ :*&/"3 "9 9$23$2# &">$’ S".2317$*% 5 @2:A7"’**3$2#% "9 &/* VK23 H22.1; W**&$2# "9 &/* H%%"’$18 &$"2 9"7 D":>.&1&$"21; !$2#.$%&$’%,!1% D7.’*%,4*= W*R$’", (OOM 5 VV(8VVV [ \]D/*2 I,F12# ] ! 5 ).S&">$’ %*#:*2&1&$"2 "9 ’/$2*%* 3"’.8 :*2&:12 131>&*3 3"&>;"& 1>>7"1’/ 5 @2:@DW!D’LK,KLLK 5 (N\(8(N\P [ Y] 0.7"/1%/$ ),41#." W 5 H.&":1&$’ 3*&*’&$"2 "9 3$%’".7%* %&7.’&.7* S? ’/*’+$2# %.791’* $29"7:1&$"2 $2 %*2&*2’* 5 @2: A7"’ "9 &/* (N&/ @2&*721&$"21; D"29*7*2’* "2 D":>.&1&$"21; !$2#.$%&$’%,(OOM 5 ((KV8((K\ [ O]D"/*2 E 5 H21;?<$2# &/* %&7.’&.7* "9 17#.:*2&1&$G* 3$%’".7%* 5 !"#$%&’&(")’* +(),%(-&(.-,(OY\,(V:((8KM [(L]W’E"? ) F 5 6%$2# :.;&$>;* +2"=;*3#* %".7’*% 9"7 ="73 %*2%* 3$%’7$:$21&$"2 5 !"#$%&’&(")’* +(),%(-&(.-,(OOK,(Y(():(8 VL [((]Q1&<$G1%%$;"#;". Z 5 )$:B$23*7:1 9;*R$S;* ’;.%&*7$2# &""; 9"7 %.::17$<1&$"2 5 @2:4HHD! F"7+%/"> "2 H.7":1&$’ ).::18 7$<1&$"2,H%%"’$1&$"2 9"7 D":>.&1&$"21; !$2#.$%&$’% 5 KLL( !"#"$%&’ () *"+* ,$%$-%$,’# &./#*"%01- #*%$*"-0"# 2$#"3 (1 *’" &/4/.$*05" 6(-0#*0& %"-%"##0(1 $1$.7#0# ]. ,"2#3"2#,]. ^/$:$2#,F12# ]$1";"2# ()’/""; "9 D":>.&*7 )’$*2’* 123 C*’/2";"#?,Q17S$2 @2%&$&.&* "9 C*’/2";"#?,Q17S$2 (NLLL() 82#*%$&* H$:$2# 1& &/* 3$99*7*2’* S*&=**2 >171#71>/% ’;.%&*7$2# 123 &713$&$"21; 9.;; &*R&% ’;.%&*7$2# $2 .%*1S;* $29"7:1&$"2 123 ’;.%&*7$2# %$<*,&/* >1>*7 >7">"%*% 1 2*= ’;.%&*7$2# %&71&*#? 5 @& .%*% &/* $3*1 "9 :.;&$>;* 9*1&.7*% 9.%$"2 &" 3$# .%*9.; 9*18 &.7*% 1% 917 1% >"%%$S;* 123 .%*% &/* ’.:.;1&$G* !"#$%&$’ 7*#7*%%$"2 121;?%$% &" 9$& &/* $2&*721; 7*;1&$"2 S*&=**2 &/*%* 9*18 &.7*% 123 >171#71>/% %$:$;17$&? 5 H& ;1%&,$& .%*% &/* ’":>;*&*8;$2+ :*&/"3 "9 /$*717’/$’1; ’;.%&*7$2# &" >7"’*%% &/* %*& "9 >171#71>/% 5 C/* 7*%.;&% "9 &/* >171#71>/% %$:$;17$&? ’":>.&1&$"2 *R>*7$:*2& 123 &/* >171#71>/% ’;.%&*7$2# *R>*7$:*2& %/"= &/* 9*1%$S$;$&? "9 &/* :*&/"3 5 9"7 :(%3#::.;&$>;* 9*1&.7*% 9.%$"2,’.:.;1&$G* !"#$%&$’ 7*#7*%%$"2 121;?%$%,>171#71>/% %$:$;17$&? ’":>.&1&$"2, >171#71>/% ’;.%&*7$2# —MO\— 高技术通讯 KLLP 年 Y 月 第 (P 卷 第 Y 期 万方数据 基于累积Logistic 回归分析的文本段落聚类策略研究 作者: 徐永东, 徐志明, 王晓龙, Xu Yongdong, Xu Zhiming, Wang Xiaolong 作者单位: 哈尔滨工业大学计算机学院自然语言处理研究室,哈尔滨,150001 刊名: 高技术通讯 英文刊名: CHINESE HIGH TECHNOLOGY LETTERS 年,卷(期): 2006,16(8) 被引用次数: 1次 参考文献(11条) 1.Seki Y.Eguchi K.Kando N User-focused multi-document summarization with paragraph clustering and sentence-type filtering 2004 2.Hu P Chinese text summarization based on thematic area detection 2004 3.Weinstein P Agents swarming in semantic spaces to corroborate hypotheses 2004 4.Collier R N-Gram cluster identification during empirical knowledge representation generation 1994 5.Hatzivassiloglou V Detecting text similarity over short passages:exploring linguistic feature combinations via machine learning 1999 6.Reynar J C An automatic method of finding topic boundaries 1994 7.Chen Q.Wang X L Subtopic segmentation of chinese document:an adapted dotplot approach 2002 8.Kurohashi S.Naguo M Automatic detection of discourse structure by checking surface information in sentence 1994 9.Cohen R Analyzing the structure of argumentative discourse 1987 10.McRoy S W Using multiple knowledge sources for word sense discrimination 1992(01) 11.Hatzivassiloglou V SimFinder:a flexible clustering tool for summarization 2001 引证文献(1条) 1.徐永东.王亚东.刘杨.王伟.权光日 多文档文摘中基于时间信息的句子排序策略研究[期刊论文]-中文信息学报 2009(4) 本文链接:http://d.g.wanfangdata.com.cn/Periodical_gjstx98200608004.aspx
本文档为【Logistic+回归分析的文本段落聚类策略研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_195288
暂无简介~
格式:pdf
大小:213KB
软件:PDF阅读器
页数:0
分类:
上传时间:2011-04-20
浏览量:24