基于累积 !"#$%&$’ 回归分析的文本段落聚类策略研究!
徐永东! 徐志明 王晓龙
(哈尔滨工业大学计算机学院自然语言处理研究室 哈尔滨 !"###!)
摘 要 提出一种新的文本段落聚类策略,该策略采用多特征融合思想尽可能多地挖掘
段落内的特征,并采用累积 $%&’()’* 回归分析方法来拟合这些特征与段落相似度之间的内
在关联,使得段落相似度计算的结果更为理想。最后采用层次聚合聚类算法中的 *%+,
-./)/,.’01 方法对段落集合进行聚类处理。通过网络真实文本进行了段落相似度度量实验
和段落聚类实验,实验结果显示了方法的可行性。
关键词 多特征融合,累积 $%&’()’* 回归分析,段落相似度计算,段落聚类
# 引 言
互联网的日益发展以及海量信息的出现,对网
络信息处理速度与能力提出了前所未有的挑战。在
此背景下,一些基于多文档处理的自然语言处理技
术:信息检索、自动问答、多文档自动文摘以及主题
监测和追踪(232)等技术,逐渐成为人们研究的热
点,而这些技术中的一个共同的核心任务就是如何
识别相似的段落并在此基础上进行段落聚类。
段落聚类的任务是把一个段落集分成若干子
集,每个子集的成员之间具有较大的相似性,而子集
之间的段落尽可能地不相似。从概念上看,段落聚
类是一种以段落为处理对象的文本聚类,二者在任
务和方法上有很大的相似性。事实上,目前很多的
段落聚类[!,4]直接采用文本聚类技术来实现。这种
策略简单易行,并且方法中的特征筛选技术及相似
度度量机制日趋成熟。但是,上述段落聚类存在着
无法避免的问题:和全文相比,段落的长度更小,因
此可利用的特征数量很少,词语统计信息和文档结
构信息相对匮乏,导致相似段落的共同特征不明显,
产生严重的数据稀疏现象并将影响相似度计算的稳
定性。此外,段落聚类任务处理的对象往往是针对
同一主题的文档集,例如多文档自动文摘任务,多个
文档彼此之间已经具有较高的相似度,在此基础上
只有根据辨别能力更强的相似度计算策略才能从众
多相似的段落中发现更为相似的段落,实现粒度更
细的聚类处理并保证不会出现同类的段落过多的现
象。很明显,上述问题无法通过全文聚类中的相似
度度量机制来解决。对此,文献[5]提出了 6(/76. 0,
&89+(的概念,采用不同长度的字串作为特征,并通
过这些特征的线性组合来计算段落相似度。但文中
仅仅给出了融合
公式
小学单位换算公式大全免费下载公式下载行测公式大全下载excel公式下载逻辑回归公式下载
,没有提到每个特征的权重如
何确定。文献["]采用机器学习的方法融合了段落
间的同现词、同现专有名词、同现短语等 !! 个特征
来计算段落间的相似度,该方法应用到多文档自动
文摘中并取得了很好的效果。本文扩展了上述思
想,针对段落相似度问题与其它二值分类问题的不
同,用模糊相似度代替了原来的 # : ! 值,并采用累积
$%&’()’*回归模型来融合多特征并在此基础上进行
段落聚类。在特征选择方面,充分利用了词性信息、
语义信息、文档内部词语密度信息以及文档内部结
构信息,使得段落相似度计算的结果更为理想。
! 特征选择
对于文本聚类任务来说,一个有效的特征项集
合必须具备以下三个特征:(!)完全性:特征项能够
确实
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
示目标内容;(;)区分性:根据特征向量,能
将目标同其它类别文本相区分;(4)精练性:特征向
量的维数应尽可能小。近年来文本聚类任务中应用
较多且效果较好的文本表示方法是向量空间模型
法。每个文档 ! 可以由一些
规范
编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载
化向量 "( !)<
( #!,$!( !);⋯;#%,$%( !);⋯;#&,$&( !))来表示。其
中 #% 为特征项,$%( !)为 #% 在 ! 中的权值。这里的
特征项通常由所有在文本集合中出现的词,根据特
征筛选技术来确定。但是这种以词或概念为基本元
—=>?—
徐永东等:基于累积 $%&’()’* 回归分析的文本段落聚类策略研究
"
! 男,!=?5 年生,博士生;研究方向:自然语言处理,自动文摘;联系人,@,+9’.:A6B%0&C%0###D (’09 E *%+
(收稿日期:;##",#>,#5)
>F4 计划(;##;GG!!?#!#,#=)和国家自然科学基金(F#54"#;#)资助项目。
万方数据
素的单一的文本表达对于段落相似计算任务来说是
很不够的。首先,如前文所述,文档之间已经具有较
高的相似度,因此如果采用传统文本聚类技术来对
段落进行聚类的话,几乎所有的段落均会聚为一类,
根本无法保证区分性。此外,在完全性方面,和整篇
文章相比,段落的长度更短,词语统计信息和文档结
构信息相对匮乏,导致相似段落的共同特征不明显。
对此,本文提出了一个多特征融合的段落相似度计
算策略,其基本思想是:根据单纯采用词空间生成特
征项的信息不足的情况,在段落中尽可能地挖掘可
能对相似度计算产生影响的因素,并根据影响的大
小将这些因素有机融合,综合地反映两个段落之间
的相似度。本文称这些因素为特征。
! "! 外部特征
由于一个段落通常要描述一个完整的情境,或
者一个事件,因此一个段落可以看成是由多个事件
属性组成的特征集合,这些特征从不同侧面反映了
段落的内容主题。通过对大量文本的分析我们发
现,不同词性的内容词(经过停用词表过滤后的词
语),如名词、动词、名实体等等,可以分别表示事件
的施事主体、客体、行为或状态、时间、地点等。因
此,由这些词条组成的向量可分别作为识别段落内
容的特征。给定一个段落 !",每个特征可由一个向
量 #"( $"!,$"$,⋯,$"%)来表示,向量由段落中的全
部名词(动词、名实体等等)组成,其中每个元素 $
对应着每一个词条的 &’ ( ")’ 值,我们采用式
$"* +
&’"*·"#$(, ( %*)
!
&
- + !
( &’"-·"#$(, ( %-))"
%
(!)
来计算,其中,$"*是段落 " 中的词语 * 的 &’ ( ")’ 值,
&’"*是词 * 在段落 " 中的出现的次数,, 是总的段落
数,& 是文本集中所有过滤后的词的数量,%*是包含
词 * 的段落的数量。
上述的特征向量比较直观地从不同角度反映了
段落的内容。但是由于只计算相同词语的重复度,
因而无法描述深层次的语义相似性。比如在段落内
分别出现“上海”和“上海市”,尽管他们代表同样的
含义,但是在词性特征向量中却属于不同词语。为
克服这一缺点,我们引入了语义特征来进一步揭示
段落内容。我们采用基于 ’()* 的词汇链算法来
构造概念向量,构造过程如下:
(!)将文本集转化为词集;
(%)采用基于 ’()* 的概念相似度计算方法#
来计算任意两两词语之间的相似度;
(+)集聚所有相似度大于给定阈值的词语,并
构造词汇链集合;
(,)对于每个段落,我们采用词汇链集合来构
造对应的概念向量,向量中的每个元素的权值由式
./012( 23242%&-)+ !
4
* + !
$"*· 5( /67"%-,$01)*)
.-
(%)
来计算,其中 $"*是段落 " 中词 * 的 &’ ( ")’ 值,4 是
段落 " 中的总词语数量;.-是词汇链 - 的长度,5
( /67"%-,$01)*)是一个布尔值,当词语 * 是词汇链 -
的成员时,5( /67"%-,$01)*)- !,反之,5( /67"%-,
$01)*)- .。
! "# 内部特征
上述特征与段落所在的文档无关,因此称之为
外部特征。相应地,一篇文档内部的篇章结构信息
也是段落相似度度量的重要特征。通常情况下,文
章的作者会通过一个或连续几个段落来描述一个完
整的事件,很少出现跳跃的现象。在这一点上十分
类似于文本主题切分任务。另外通过对新浪网站下
载的 !,. 篇网络文本的分析发现,很多文章都具有
一些明显的话语结构,如子标题、章节、标号等,这一
点在文章的长度大于 %... 字以后显得尤为明显(表
!)。这些结构能够指示出段落之间在内容上的逻辑
联系,因此可作为判别段落之间是否相关的特征。
综上所述,同一文章内部的段落之间,在已有外部特
征的基础上,又有两个新的内部特征:
表 ! 文本内容结构的统计结果
文本长度
有明显结构 无明显结构
文章数 比例 文章数 比例
小于 !... 字 %/ /! 0.12 !! %3 0412
!... 5 %... 字 ,, /% 0!+2 !/ %/ 03/2
大于 %... 字 +4 41 0!%2 % , 0332
(!)词语密度特征。在文本主题边界判别技术
中,两个相邻的段落之间的边界词语密度可用于判
断二者是否属于同一主题,因而同样可作为段落相
似度计算的重要线索。6)7(89[:]采用 ;#*<"#* 方法来
进行计算相邻两个段落之间的词语密度 8":
8" + !
9 5 9
- + %
#5- :! 5-· #5-,
(5- : 5- :!)(, : 5-)
(+)
其中 , 是文章的长度。 5 为边界的位置列表,5 中
的每一个元素为一个可能的主题边界在文章中的位
—.4/—
高技术通讯 %..: 年 3 月 第 !: 卷 第 3 期
# 本文采用的是 ’()* %.., 版中的概念相似度计算模块。
万方数据
置;向量 !",#是从位置 $ 到 % 的所有内容词出现频度
的计数向量;!"#$%"# 方法的特点是比较直观,但是
由于只计算相同词语的重复度,没有进行词义消歧
以及深层的词语相关度判断,因而本文采用一种改
进的 !"#$%"# 方法[&]来计算两个相邻的段落 & 和 &
’ ( 之间的边界词语密度:
’()(( &,& * ()+ !
, - ,
# + )
.-#/( -#· .-#0
(-# / -# /()(0 / -#)
(*)
其中,算子“·”定义如下:
.· 1 +
!
2
" + (
!
&
# + (
’"2( 3",4#),3",4# " 5
+
{
其他
5 为特征词集合;’"2( 3",4#)是词语 3",4# 之间的相
关度。对比公式(,)和(*)可以看出,改进的 !"#$%"#
方法与原始 !"#$%"# 方法的区别在于用词语之间的
语义相关度取代了词语同现频度,因而更能够反映
段落之间的相关程度。
())修辞结构特征。我们根据文本内容将段落
之间的逻辑关系简化为 , 种:总分关系、分总关系和
并列关系。为了有效地识别这三种关系,我们首先
人工总结了一个线索词词典,并以此作为识别上述
关系的依据。例如:如果有连续两个自然段分别是
由线索词“首先”和“其次”开始的,则可以认为它们
之间构成了并列关系。而如果一个段落是由线索词
“综上所述”开头,则该段落之前的若干个段落与它
可能构成了分总关系。给定两个相邻的段落 & 和
& ’ (如果存在上述关系,则令 ’())( &,& ’ ()- (;否
则,’())( &,& ’ ()- +。
) 特征融合及段落相似度计算
上述的特征均有可能对段落之间的相关性产生
影响,接下来的任务是找到一种统计的方法来描述
它们的关系,即需要研究采用什么样的表达式来融
合这些特征以确定最终的段落相似度值,以及如何
自动确定每个特征的融合权值。
传统上人们采用线性加权的方法进行特征融
合[./(+],并且采用搜索算法,通过评估初始权值得到
的相似度值同实际相似度的距离来对权值进行优
化。这种方法的缺点是复杂度随着特征的增加呈指
数增长,因此该方法在无法确定特征的情况下实现
起来很困难。文献[((]采用 %"0/%12345 回归模型进行
特征融合,这种方法本身灵活简单,并可达到相当高
的精度。%"0/%12345 模型训练时应变量 1 为取值为
+ 6 ( 的二元变量。当样本的两个段落相似时 1 - (,
反之 1 - +。然而在对语料库进行标注时我们发现
+ 6 ( 取值会造成严重的语料库不均衡现象(语料中
正反例比值达到了 ( 7 ()),另外,考虑到 + 6 ( 取值无
法表示段落之间关系的所有可能的情况,很多段落
之间的关系处于完全相似和完全不相似之间。因此
本文采用分层相似度来代替 + 6 ( 值,将段落相似度
细分为 8 个级别:+、+ 9)、+ 98、+ 9.、(,分别表示段落之
间完全不相似,有一点相似,相似,很相似和完全相
似。相应地,我们采用一种基于累积 :"01;#1< 回归分
析的机器学习算法来拟合多个特征与段落相似度之
间的关系。这种方法的许多前提假设比较符合本任
务的特点,譬如不要求模型变量间具有线性的相关
关系,不要求变量之间独立同分布,不要求变量服从
协方差矩阵相等和残差项服从正态分布等,这使得
模型的分析结果比较客观。
! "# 累积 $%&’()’* 回归模型
回归分析是统计学中最重要的分支学科之一,
其研究的主要问题就是如何利用两个变量 .、1 的
观察值(样本)来确定它们之间的内在关联。考虑传
统的多元线性回归分析,响应变量 1 和自变量 . 之
间的关系描述如下:
4 + ! *") 3( * ⋯ *"%3% (8)
式中!,"(,⋯,"% 是回归系数;对上式作对数单位转
换,即取 %"0 "64 - %2( 4 7(( = 4))作为应变量,得
%"0 "64 + %2( 4 7(( / 4))+ ! *"( 3( * ⋯ *"%3%
(>)
这样 %2( 4 7(( = 4))可取负无穷到正无穷的任何数
值,而 4 的值则限制在 + ? (,上式经变换后得
4 + 8
(!*"( 3( *⋯ *"%3%)
( * 8(!*"( 3( *⋯ *"%3%)
(&)
该公式即为 %"01;#1<回归公式,是普通多元线性回归
的推广。通常意义上的 :"01;#1< 回归模型要求因变
量 4 只有两种取值(二分类),当 4 的取值有两种以
上时,应将模型扩展为多分类因变量模型。一个适
当的方法是累积 :"01;#1<回归模型,当因变量有 9 种
类别时,模型定义如下:
%2[ -( 4 # " 7 3)( / -( 4 # # 7 3)
]+ ## /[! *!
:
% + (
"%3%](.)
其中,## 是类别 # = ( 与类别 # 之间的分界点。由上
式可以看到,在累积 :"01;#1< 回归模型中,%"01# 是按
反应变量的类别顺序定义的,也就是说,模型的发生
比是通过该发生比分子中的事件概率的依次连续累
积而形成的,这就是累积 %"01# 模型的含义。
类似逻辑回归公式,累积概率可通过式
—(@&—
徐永东等:基于累积 :"01;#1< 回归分析的文本段落聚类策略研究
万方数据
!( " ! # $ %)&
’[!# ([")"
*
+ & !
#+%+]]
! ) ’[!# ([")"
*
+ & !
#+%+]]
(")
进行预测。一旦计算出了累积概率,属于某一特定
类别的概率便可以计算出来:
!( " & !)& !( " ! !)
!( " & #)& !( " ! #)( !( " ! !)
⋯
!( " & ,)& ! ( !( " !( , ( !))
(!$)
! "! 段落相似度计算
给定一个由 - 个参与建模的所有段落对组成
的样本集合,其应变量观测值为 . %( "!,/ / /,"-)。
"# 由手工标注获得,根据段落间的相似程度标注为
$、$ 、$ &’、$ &(、! 中的一个值。自变量 0 %( 0!,
0#,/ / /,0-),其中 01 %( %1!,%1#,/ / /,%1+)( 1 % !,
#,/ / / /,-),是第 1 个段落对的所有特征组成的向
量,对于内部特征来说,%1#表示第 1 对段落 2! 和 2#
之间的 3451( 2!,2#)值;对于外部特征来说,%1#是两个
特征向量之间的相似度,本文采用向量夹角余弦的
方法来计算 %1#的值:
%1# & 316(#7,$$)&
"
8
1 & !
71$1
"
8
1 & !
7#1·"
8
1 & !$
#% 1
(!!)
确定了所有特征值及对应模型参数值,段落之
间的相似度可由公式(")和(!$)来计算。
) 聚 类
段落聚类过程分两个步骤来处理,首先对文章
内部段落进行聚类,然后对输出结果进一步进行聚
类处理。考虑到本文的聚类任务需要分辨具有细微
差别的类,对灵敏度要求较高,因此采用层次聚类算
法中的 *+,-./0/1.234 方法进行第二阶段聚类(图 !)。
算法 !:文章内部段落聚类算法
! 5 输入待聚类的段落集合 9,阈值%,清空当前的间隔点集合 !。
# 5 计算相邻段落之间的相似度。
) 5 将相似度值小于% 的节点输入到 ! 中。
6 5 重复步骤 #、)直到所有段落均处理完毕。
’ 5 合并各间隔点之间的全部段落聚为一类,得到类别集合,输出。
算法 #:*+,-./0/1.234聚累
! 5 输入类别集合 :,阈值 ;。
# 5 至当前类别数目 - % 7 : 7。
) 5 遍历类别集合 :,根据两个类别中最小的段落的相似度来计算
类间相似度。
6 5 如果存在大于 8 的类间相似度,合并相似度最大的类别,升级
:,置当前类别数量 - % - 9 !。
’ 5 重复步骤 )、6直到所有类间相似度值均小于 8,循环结束,输出
:。
图 # 段落聚类算法
6 实验结果与评价
本文的实验语料来自于网络下载的 : 个主题共
计 (6 篇文档,包括李铁转会、联想并购、安徽假奶粉
案、俄罗斯列车爆炸案等多个领域的文章。实验主
要在以下三方面进行考察:(!)多特征融合方法的有
效性;(#)内部特征的使用对文章内部段落相似度计
算的效果;())累积逻辑回归模型对特征融合效果的
有效性。
$ "# 实验 #:段落相似度计算实验及结果分析
相似度计算实验分为脱机建模过程和在线处理
过程。在脱机建模过程中,我们采用语料库中 ; 个
主题的 :6 篇文章作为训练语料,通过一系列外部工
具,包括用于词性标注及名实体识别的中文信息处
理平台 9<= <>:?,用于词语相似度计算的 <+=3/0
(本文用的是 >+=3/0#$$6 版),用于计算词语密度的
词矢量模型,进行特征抽取作为自变量,手工标注的
段落相似度作为应变量,输入到累积 ?+@2A02* 回归模
型中进行建模。与线性回归不同,累积 ?+@2A02* 回归
是一种非线性模型,因而回归系数的估计通常采用
最大似然估计法。使似然函数最大化的过程实际就
是一个迭代计算的过程,当迭代到情况改善得很小
时,即第 + 步和第 + B ! 步的情况基本一致时,迭代
停止。模型将自动筛选出对模型有贡献的特征以及
这些特征的最佳权值。本文中由于来自相同文章的
段落对的自变量包括外部特征和内部特征,而不同
文章的段落对只包括外部特征。因此我们对二者分
别建模。对于来自不同文章的段落,我们采用了 (
个外部特征:!词向量相似度;"名词向量相似度;
#动词向量相似度;$名实体向量相似度;%同义词
向量相似度;&同义名词向量相似度;’同义动词向
量相似度;(同义名实体向量相似度。对于来自相
同文章的相邻段落,除了上述的 ( 个特征,我们加入
了两个内部特征:!词语密度特征;"修辞结构特
征。模型拟合结果,全部特征均具有统计意义,因此
全部加入对应模型中。
在线处理部分,我们使用 !$ 篇文本共 !;#$ 个
外部段落对和 ’# 个内部段落对进行段落相似度计
算实验。为了考察多特征融合方法的有效性,我们
进行了对比实验,实验结果如表 # 所示。其中,表中
#至 !! 行的 !$ 个方法只采用单特征进行段落相似
度计算。?+@2A02* 回归方法采用 $ C ! 二值变量作为
模型训练的应变量,选用的特征同累积 ?+@2A02* 回归
—#":—
高技术通讯 #$$; 年 ( 月 第 !; 卷 第 ( 期
万方数据
方法的特征完全一致。
表 ! 段落相似度计算实验结果
外部段
落对
识别正确
的外部段
落对
准确
率
内部段
落对
识别正确
的内部段
落对
准确
率
外
部
特
征
词 !"#$ %&’ $ ( )&! ’# #’ $ ( )*!
名词 !"#$ %%+ $ ( )%% ’# #$ $ ( +*)
动词 !"#$ ’#$ $ ( +#! ’# !% $ ( +#%
名实体 !"#$ ’&) $ ( +"% ’# !% $ ( +#%
同义词 !"#$ *!# $ ( ’$! ’# #’ $ ( )*!
同义名词 !"#$ *$’ $ ( )&% ’# #% $ ( ’!&
同义动词 !"#$ ’!! $ ( +!’ ’# #! $ ( )$)
同义名
实体
!"#$ ’!+ $ ( +!% ’# #$ $ ( +*)
内
部
特
征
词语密
度特征
’# #% $ ( ’!&
修辞结
构特征
’# !* $ ( +)"
,-./01/2
回归方法
!"#$ !!$) $ ( "*! ’# +* $ ( %+
累积 ,-./01/2
回归方法
!"#$ !!#! $ ( " ’# +* $ ( %+
从表 # 中可以看出,采用多特征融合方法进行
段落相似度计算的方法要明显地好于所有采用单特
征的方法。在效果较好的同义词方法中,识别外部
段落对的准确率要高于内部段落对的准确率。这是
因为在同一篇文章内部的同现词语非常多,而作者
很少会重复地描述同一个事件,因而段落之间通常
是不相似的,这种矛盾造成了上述情况。而为内部
段落对专门设置的 # 个内部特征,在单独使用时准
确率同样不是很高(词语密度特征稍好一些)。而在
多特征融合方法中,这种情况得到了很大的改善
(,-./01/2方法和累积 ,-./01/2 回归方法)。在 ,-./01/2
回归方法同累积 ,-./01/2 回归方法的比较中可以看
出,内部段落对的识别准确率方面二者的效果相同,
而在外部段落对的识别准确率方面累积 ,-./01/2 回
归方法的效果要好于 ,-./01/2 回归方法(高出
! 3$)4)。表 + 显示了两种累积 ,-./01/2 回归模型对
文章内部段落相似度的计算结果。方法 ! 只采用外
部特征来构造模型,方法 # 在方法 ! 的基础上添加
了内部特征。可以看出尽管单独使用内部特征的效
果不是很好(表 #),但是在综合模型中引入内部特
征对于内部段落对的相似度计算有很大益处。
表 " 内部特征效果比较结果
准确率
方法 ! $ ("’
方法 # $ (%+
# $! 实验 !:段落聚类实验及结果分析
段落聚类实验主要考察不同段落相似度计算方
法对最终段落聚类结果的影响。在实验过程中选取
了全部 ’ 个段落作为训练集。实验结果如表 ) 所
示。我们采用准确率、召回率和综合的 ! 度量作为
度量聚类质量的
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
。
表 # 聚类实验比较结果
准确率 召回率 5度量
基准方法 $ (")+ $ ()*! $ (’’
,-./01/2回归方法 $ (%+’ $ ("*’ $ (%$&
累积 6-./01/2回归方法 $ (*&) $ (*+* $ (*"’
表 ) 中,我们采用实验 ! 中效果较好的同义词
方法作为基准方法。从实验数据中我们发现,累积
,-./01/2回归方法进行段落聚类的效果要远远优于
基准方法和一般 ,-./01/2回归方法,其原因除了由于
累积 ,-./01/2回归方法得到的段落相似度的准确率
要高于其他两种方法外,通过对相似度计算的结果
的分析我们发现,累积 ,-./01/2回归方法得到的段落
相似度结果中,计算错误的样本大多处在{$、$ 3+、
$ 3’}范围内,即实际为 $ 的样本被计算成 $ ( + 或 $ (
’,实际为 $ ( + 的样本被计算成了 $ 或 $ ( ’,实际为
$ (’ 的样本被计算为 $ 或 $ ( +。由于我们采用的文
章内部段落聚类算法的阈值为 $ (*’,2-786919:6/;< 方
法的阈值为 $ (*,均大于 $ ( ’,因此上述计算错误的
样本并没有影响聚类的精度。
’ 结 论
本文提出了一种基于累积 ,-./01/2 回归分析的
中文文本段落聚类方法,该方法基于多特征融合的
思想来计算段落间相似度,通过充分挖掘段落中的
可用特征,并采用机器学习方法自动融合这些特征。
从而避免了传统的以词或概念为基本元素的单一的
文本表达所带来的信息匮乏、区分性不强的问题。
在特征融合方面,本文采用累积 ,-./01/2 回归分析模
型来自动拟合各个特征同最终的段落相似度之间的
关系。最终的相似度实验以及聚类实验结果基本符
合实验初期的假设:基于累积 ,-./01/2 回归模型的多
特征融合方法,特别是增加了内部特征之后,可以有
效地实现文本段落相似度计算以及聚类任务。
由于本文的主要目的是为了研究不同的段落相
似度计算方法对段落聚类的影响效果,因此本文没
—+&%—
徐永东等:基于累积 ,-./01/2 回归分析的文本段落聚类策略研究
万方数据
有对其他更有效的聚类算法作进一步的研究。而这
将是我们今后的研究任务之一。另外,由于累积
!"#$%&$’回归模型提供了一个良好的特征融合框架,
可以根据自变量对模型的贡献自动地从模型中添加
新特征或删除已有特征,具有较强的扩展性。因此,
本文今后将考虑挖掘其他有用特征,例如短语特征、
组块特征等等来进一步提高段落聚类的精度。
参考文献
[ (] )*+$ ,,-#.’/$ 0,0123" 4 5 6%*789"’.%*3 :.;&$83"’.:*2&
%.::17$<1&$"2 =$&/ >171#71>/ ’;.%&*7$2# 123 %*2&*2’*8&?>* 9$;8
&*7$2# 5 @2:A7"’**3$2#% "9 &/* B".7&/ 4CD@E F"7+%/"> "2
E*%*17’/ $2 -G1;.1&$"2 "9 @29"7:1&$"2 H’’*%% C*’/2";"#$*%:
@29"7:1&$"2 E*&7$*G1;,I.*%&$"2 H2%=*7$2#,123 ).::17$<18
&$"2,4@@,J1>12,KLLM 5 MNO8MPP
[ K]Q. A 5 D/$2*%* &*R& %.::17$<1&$"2 S1%*3 "2 &/*:1&$’ 17*1 3*8
&*’&$"2 5 @2:C*R& ).::17$<1&$"2 T712’/*% U.&:A7"’**3$2#%
"9 &/* HD!8LM F"7+%/">,T17’*;"21,)>1$2,KLLM 5 ((K8((O
[ V]F*$2%&*$2 A 5 H#*2&% %=17:$2# $2 %*:12&$’ %>1’*% &" ’"77"S"8
71&* /?>"&/*%*% 5 @2:HHWH),KLLM
[ M] D";;$*7 E 5 48X71: ’;.%&*7 $3*2&$9$’1&$"2 3.7$2# *:>$7$’1;
+2"=;*3#* 7*>7*%*2&1&$"2 #*2*71&$"2 5 @2:DU!@4X,(OOM 5
(LNM8(LNY
[ N]Q1&<$G1%%$;"#;". Z 5 [*&*’&$2# &*R& %$:$;17$&? "G*7 %/"7& >1%8
%1#*%:*R>;"7$2# ;$2#.$%&$’ 9*1&.7* ’":S$21&$"2% G$1 :1’/$2*
;*172$2# 5 @2:A7"’**3$2#% "9 &/* (OOO J"$2& )@X[HC D"29*78
*2’* "2 -:>$7$’1; W*&/"3% $2 41&.71; !12#.1#* A7"’*%%$2#
123 Z*7? !17#* D"7>"71,D";;*#* A17+,W17?;123,(OOO 5
KLV8K(K
[ P]E*?217 J D 5 H2 1.&":1&$’ :*&/"3 "9 9$23$2# &">$’ S".2317$*% 5
@2:A7"’**3$2#% "9 &/* VK23 H22.1; W**&$2# "9 &/* H%%"’$18
&$"2 9"7 D":>.&1&$"21; !$2#.$%&$’%,!1% D7.’*%,4*= W*R$’",
(OOM 5 VV(8VVV
[ \]D/*2 I,F12# ] ! 5 ).S&">$’ %*#:*2&1&$"2 "9 ’/$2*%* 3"’.8
:*2&:12 131>&*3 3"&>;"& 1>>7"1’/ 5 @2:@DW!D’LK,KLLK 5
(N\(8(N\P
[ Y] 0.7"/1%/$ ),41#." W 5 H.&":1&$’ 3*&*’&$"2 "9 3$%’".7%*
%&7.’&.7* S? ’/*’+$2# %.791’* $29"7:1&$"2 $2 %*2&*2’* 5 @2:
A7"’ "9 &/* (N&/ @2&*721&$"21; D"29*7*2’* "2 D":>.&1&$"21;
!$2#.$%&$’%,(OOM 5 ((KV8((K\
[ O]D"/*2 E 5 H21;?<$2# &/* %&7.’&.7* "9 17#.:*2&1&$G* 3$%’".7%* 5
!"#$%&’&(")’* +(),%(-&(.-,(OY\,(V:((8KM
[(L]W’E"? ) F 5 6%$2# :.;&$>;* +2"=;*3#* %".7’*% 9"7 ="73 %*2%*
3$%’7$:$21&$"2 5 !"#$%&’&(")’* +(),%(-&(.-,(OOK,(Y(():(8
VL
[((]Q1&<$G1%%$;"#;". Z 5 )$:B$23*7:1 9;*R$S;* ’;.%&*7$2# &""; 9"7
%.::17$<1&$"2 5 @2:4HHD! F"7+%/"> "2 H.7":1&$’ ).::18
7$<1&$"2,H%%"’$1&$"2 9"7 D":>.&1&$"21; !$2#.$%&$’% 5 KLL(
!"#"$%&’ () *"+* ,$%$-%$,’# &./#*"%01- #*%$*"-0"# 2$#"3 (1 *’"
&/4/.$*05" 6(-0#*0& %"-%"##0(1 $1$.7#0#
]. ,"2#3"2#,]. ^/$:$2#,F12# ]$1";"2#
()’/""; "9 D":>.&*7 )’$*2’* 123 C*’/2";"#?,Q17S$2 @2%&$&.&* "9 C*’/2";"#?,Q17S$2 (NLLL()
82#*%$&*
H$:$2# 1& &/* 3$99*7*2’* S*&=**2 >171#71>/% ’;.%&*7$2# 123 &713$&$"21; 9.;; &*R&% ’;.%&*7$2# $2 .%*1S;* $29"7:1&$"2 123
’;.%&*7$2# %$<*,&/* >1>*7 >7">"%*% 1 2*= ’;.%&*7$2# %&71&*#? 5 @& .%*% &/* $3*1 "9 :.;&$>;* 9*1&.7*% 9.%$"2 &" 3$# .%*9.; 9*18
&.7*% 1% 917 1% >"%%$S;* 123 .%*% &/* ’.:.;1&$G* !"#$%&$’ 7*#7*%%$"2 121;?%$% &" 9$& &/* $2&*721; 7*;1&$"2 S*&=**2 &/*%* 9*18
&.7*% 123 >171#71>/% %$:$;17$&? 5 H& ;1%&,$& .%*% &/* ’":>;*&*8;$2+ :*&/"3 "9 /$*717’/$’1; ’;.%&*7$2# &" >7"’*%% &/* %*& "9
>171#71>/% 5 C/* 7*%.;&% "9 &/* >171#71>/% %$:$;17$&? ’":>.&1&$"2 *R>*7$:*2& 123 &/* >171#71>/% ’;.%&*7$2# *R>*7$:*2&
%/"= &/* 9*1%$S$;$&? "9 &/* :*&/"3 5
9"7 :(%3#::.;&$>;* 9*1&.7*% 9.%$"2,’.:.;1&$G* !"#$%&$’ 7*#7*%%$"2 121;?%$%,>171#71>/% %$:$;17$&? ’":>.&1&$"2,
>171#71>/% ’;.%&*7$2#
—MO\—
高技术通讯 KLLP 年 Y 月 第 (P 卷 第 Y 期
万方数据
基于累积Logistic 回归分析的文本段落聚类策略研究
作者: 徐永东, 徐志明, 王晓龙, Xu Yongdong, Xu Zhiming, Wang Xiaolong
作者单位: 哈尔滨工业大学计算机学院自然语言处理研究室,哈尔滨,150001
刊名: 高技术通讯
英文刊名: CHINESE HIGH TECHNOLOGY LETTERS
年,卷(期): 2006,16(8)
被引用次数: 1次
参考文献(11条)
1.Seki Y.Eguchi K.Kando N User-focused multi-document summarization with paragraph clustering and
sentence-type filtering 2004
2.Hu P Chinese text summarization based on thematic area detection 2004
3.Weinstein P Agents swarming in semantic spaces to corroborate hypotheses 2004
4.Collier R N-Gram cluster identification during empirical knowledge representation generation 1994
5.Hatzivassiloglou V Detecting text similarity over short passages:exploring linguistic feature
combinations via machine learning 1999
6.Reynar J C An automatic method of finding topic boundaries 1994
7.Chen Q.Wang X L Subtopic segmentation of chinese document:an adapted dotplot approach 2002
8.Kurohashi S.Naguo M Automatic detection of discourse structure by checking surface information in
sentence 1994
9.Cohen R Analyzing the structure of argumentative discourse 1987
10.McRoy S W Using multiple knowledge sources for word sense discrimination 1992(01)
11.Hatzivassiloglou V SimFinder:a flexible clustering tool for summarization 2001
引证文献(1条)
1.徐永东.王亚东.刘杨.王伟.权光日 多文档文摘中基于时间信息的句子排序策略研究[期刊论文]-中文信息学报
2009(4)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_gjstx98200608004.aspx