面向机器理解的文本内容表示与复杂度度量的研究(可编辑)
面向机器理解的文本内容表示与复杂度度量的研究
上海大学
硕士学位论文
面向机器理解的文本内容表示与复杂度度量研究
姓名:胡庆亮
申请学位级别:硕士
专业:计算机应用
指导教师:骆祥峰
20090201上海大学硕士学位论文
摘 要
文本内容的表示与复杂度的度量是文本机器理解与网络服务的核心问题,也
是一项涉及到语言学、计算机科学、心理学、逻辑学、认知学等多门学科的难度
较大而又极富挑战性的研究课题。目前的文本知识表示模型普遍缺少认知机理的
支持,不符合人脑思维实际的认知模式;同时,缺少有效的与人类认知过程中的
主观感受相结合的文本内容复杂度的度量方法。为了解决上述问题,本论文借鉴
人类概念学习的最新成果,并结合认知心理学对人类文本理解的研究成果,建立
了一种面向机器理解的文本内容的表示方法:并且基于该方法,提出了一种文本
内容复杂度的度量方法来为用户提供更好的知识服务。本文具体内容与贡献如
下:
.为了研究基于概念代数表示的文本内容的幂级数表示方法,本论文重点解决
了三个基本问题,即:文本底层知识的快速机器自动获取方法;文本关联规
则中噪音和冗余知识的消除方法和文本内容幂级数的表示与简化。
本论文采用公式提取文本领域关键词,然后选取文本中属于领域
关键词且出现频率最高的前个单词或词组作为文本关键词;结合经典
的算法和滑动窗口的方法,获取文本关联
规则
编码规则下载淘宝规则下载天猫规则下载麻将竞赛规则pdf麻将竞赛规则pdf
。
以实验的方法,选取合适的滑动窗口大小、滑动距离、关联规则的置信
度与支持度,以提高关联规则提取的质量;结合现有的关联规则去除冗
余的方法,提出了文本关联规则的冗余消除方法。
基于人类概念学习的代数表示,提出了文本内容的幂级数表示方法;根
据文本中关联规则的分布和人类概念学习的线性假设定理,提出了机器
文本理解的二阶假设。
.为了研究基于文本内容幂级数表示的文本复杂度度量方法,
基于人类概念学习的代数复杂度计算,提出了文本复杂度的度量方法。
基于人类文本理解过程中对背景知识的加入和认知心理学中关于增加记
技术,提出了文本复杂度度
忆的“交互作用表象
量的改进算法。上海大学硕七学位论文
基于幂级数表示的文本内容复杂度度量在文本知识流的
评价
LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载
与度量,网络资
源的个性化推荐、在线问答系统、中的商品推荐、以及?
中的知识服务中具有很好的应用。
本论文的研究可以为文本知识的表示与获取、文本复杂度的度量等研究提供
一种新的思路与方法;通过结合基于概率统计的传统语义
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
方法和认知科学的
观点,促进认知科学、语言学和人工智能的多学科交叉,从而更有
效的解决文本
机器理解的问题。 关键词:文本机器理解,文本知识表示,人类概念学习,交互作用
表
上海大学硕士学位论文 , ,
.
, ,
. .
,.
, ,
.
. .
.
: ,, . , ;勰 . 撕 . , ,,
.,.,., . . 啪 ,
.,
.圮,
上海大学硕士学位论文 , ,
.
. , , , .: , ,
,
上海大学硕士学位论文
原创性声明
本人声明:所呈交的论文是本人在导师指导下进行的研究工作. 除了文中特别加以标注和致谢的地方外,论文中不包含其他人己
发表
或撰写过的研究成果.参与同一工作的其他同志对本研究所做的
任何
贡献均已在论文中作了明确的说明并表示了谢意. 签名:胡区歪日期:二芈
本论文使用授权说明
本人完全了解上海大学有关保留、使用学位论文的
规定
关于下班后关闭电源的规定党章中关于入党时间的规定公务员考核规定下载规定办法文件下载宁波关于闷顶的规定
,即:学校 有权保留论文及送交论文复印件,允许论文被查阅和借阅:学校
可以
公布论文的全部或部分内容.
保密的论文在解密后应遵守此规定
吼半上海大学硕士学位论文
第一章绪论 弟一早珀下匕
.研究背景
文本机器理解是指文本在计算机内部转化为一种体现其内容的
知识结构,它
是文本描述的情境的再现过程,是把各种信息传达给用户的活动【】。由此可见,
文本内容的表示是机器理解文本的关键问题之一。
随着网络应用的深入与普及,在以网络为基础的活动中,比如.,
中,对文本内容复杂度的度量又是为用户提供服务的基础。例如对于
初学者,机器自动推荐较容易理解的文本给用户等。
可见,文本内容表示与复杂度度量研究是机器理解文本与网络服务的核心问
题,其是一项涉及到语言学、计算机科学、心理学、逻辑学、认知学等多门学科
的难度较大而又极富挑战性的研究课题。
那么,人是如何理解文本的机器又是如何理解文本的二者有何差异
人脑对文本的分析和理解是一个不可分割的整体,其是一个极为复杂的认知
过程。在这个过程中,既充分考虑了文本的上下文语境,又加入了时代、地域、
社会、专业领域、文化、历史等全局语境。另外,人脑对文本的理解是在多
个层次上同时进行的,并不局限于语言的字面意义及逻辑关系等
浅表层次,其还
可深入到感觉、表象层次【】。
然而,到目前为止,机器还不能像人类这样来理解文本。现有的文本知识的
表示或获取模型很少结合认知机理,这不符合人脑思维的实际模式;现有模
型较少考虑认知的主观性问题,并把客观知识与主观的认知主体割裂开,这与人
的认知过程相悖。因此,当前机器理解文本只是对文本做简单的字符与逻辑运算
处理,虽然采用了机器推理与机器学习后,可表现出对一定的隐式知识的发掘,
但也只是对浅层知识进行处理与分析,。
针对文本机器理解中上述难以解决的困难问题,认知科学中关于人类概念学
习,,,和文本理解的相关研究成果?可以为其提供重要的参考依
据。因此,如何引入认知科学到机器理解文本的研究中,使机器理解文本能达到
一个更深的层次,从而为文本知识流,的发现与度量提供有效的理论与技术上海大学硕士学位论文支持,进而实现基于文本语义分析的网络资源个性化智能搜索、协同工作、创新
知识的辅助发现与获取、相关知识的聚集及融合等具有重要的意
义。
.相关研究工作
本文基于机器理解文本的研究现状,引入了人类概念学习的最新研究成果
,并借鉴认知心理学中关于人类文本理解的相关理论,以达到使机
器能更好的理解文本的目的。我们将文本机器理解、人类概念学习、认知心理学
等关于人类文本理解、以及文本知识的获取模型方面的国内外研究现状总结如
下。
..
文本机器理解的研究现状
按照机器理解文本的层次,可以分为文本的浅度理解、适度理解和深度理解
。浅度理解是指机器能够识别出文本的篇章结构或文本中的关键词、句型等
简单的语法或语义单位;适度理解是指机器在对文本进行语义分析的基础上,能
够较好的识别文本的语境信息与蕴含的知识;深度理解是文本机器理解要达到的
最高目标,它指的是机器能够很好的模拟人类的文本阅读理解过
程。
从当前文本机器理解的研究现状分析,机器只是能够对文本做简单的字符与
逻辑运算处理,虽然采用了机器推理与机器学习后,可表现出对一定的文本隐式
知识的发掘,但也只是对浅层知识进行处理与分析,】。
..人类概念学习理论的研究现状
人类认知最重要的一项功能是从众多的事物中,总结其中的规律,形成一系
列的形式化的概念用于存储知识,推理和加强学习。到目前为止,认知心理学家
提出了不同的人类概念学习方法。下面对这些方法做一个简单的介绍和比较。这
些方法主要的区别表现在概念的表现形式上,包括布尔表达式
、相似空间 、概念代数
等。
和混合模型
..。布尔表达式型
上海大学硕士学位论文
布尔代数型的人类概念学习方法处理的对象或事物具有逻辑特征,从而可以
将其转化成逻辑形式,将概念表示为“与或表达式,
的形式。基于这样的表示形式发展的理论符合人类学习的心理过程,
而且可以解释人类学习的难度。基于概念的布尔表达方式,和
提出了“简单性原则?。其表明,概念学习的难易程度可以用“复杂度
来度量;,和发现了人类推理更偏爱于简单推理。
因此,一般来讲,简单推理要更易于理解和接受。
虽然概念的布尔表达方式接近于人的心理过程,而且表示方法也比较简易,
但是其仍然存在下列不足:
布尔表达方式将所处理的事物组成概念的对象表示为“有和“无”、
“是和“否’’等二值的情形。但是现实生活中的事物大部分是多值,甚
至是连续的。所以概念的布尔表达方式具有很大的局限性,难以表示现实
生活中大多数的概念。
现实事物的取值可能是在一个区间里变化着例如,一天内气温的变化,
而布尔方式只能将取值固定为两个对立的值。因此,若用布尔表达式来表
示将使其精度大大降低。
针对上述问题,认知心理学家提出了相似空间模型与概念代数模型。
。..相似空间型
相似空间通过和构造好的模型进行比较来对新的事物进行分类,主要包括
的汇 模型,的模型等。相似空间的主要步骤是首先构
造好一个典型的示例集,然后比较新加入的事物,把它与示例集中的示例进行比
较,将其与相似性最高的归为一类。这种方法的主要特点是记忆存储型,即它不
抽象出任何规则:不管是具有明显规则的概念还是分析不出任何规则的概念,都
以存储的方式来表现。对于相似空间模型,随着学习的进行,模型的示例集越大、
记忆强度越强,从而学习难度越大,这显然这与人类的学习过程是矛盾的。另外,
相似空间也不能处理事物的多值的情形,这也是其缺点。
...概念代数型
‘简单性原则:人类倾向于从组成概念的对象中获取最简单的假设。
上海大学硕士学位论文概念代数是针对以上两种概念学习模型的不足,对布尔表达式模型进行
的扩展。概念代数的基本元素是断言和规则,其中断言表示事物共有的属性,规
则表示事物的联系。
概念代数模型具有如下优点:
它可以表示事物属性取多值的情形,而且它以幂级数的形式组成,根据
不同的精度要求可以在不同的位置截取规则。
另外,概念代数通过分析对象,提取规则,降低了概念学习的记忆难度,
具有很强的推理能力。
因此相比布尔模型,概念代数能够表达的范围得到很大程度的提高,其可以
表示属性多值的情况,更趋于现实世界。相比相似空间模型,概念代数模型通过
提取规则,降低了记忆强度。但同时概念代数模型也有一个缺点,就是对于学习
难度很大的概念,难以获取其中蕴含的复杂的规则。所以当概念太复杂时,概念
代数要结合其它模型,这就是下面所要阐述的混合模型。
..混合模型
混合模型即针对不同的事物规模,采用不同的理解方法。其主要是结合规则
提取和模型存储两种方法。比较典型的混合模型是,和于年提出的模型。模型是一个网络模型,其主要思想是:
首先根据训练对象提取一些低维的规则,同时对规则复杂的对象以模型的方式直
接存储;新的对象加入时,首先与最低维的规则比较,当不满足时,比较更高一
维的规则:如果对象满足一定的规则,则以规则的形式表示;否则当对象与所有
规则均不符、而且与已存的模型不一致时,将对象作为新的模型存储。
..认知心理学关于人类文本理解的研究成果
在认知心理学关于人类文本理解的研究中,对于句子的理解,贾斯特和卡朋
特提出了“眼一脑假说,认为每个单词的理解难度可以用人们在阅读时注
视所花费的时间来衡量,并且影响注视持续时间的参数为单词的长度、单词的罕
见程度、以及句法或语义上有反常的单词。
对于段落的理解,认知心理学认为,当我们完成了对一个句子的加工后,我
上海大学硕十学位论文
们会丢弃这个句子中具体的措辞,而只存储关于句子概要的一个
表征。另外,
当理解上下旬时,如果目标句含有与来自上下文的前提信息完全匹配的已知信
息、或根据“桥接推论能够推导出所需要的信息时,句子能够被更好的理解。
如下面的例子【】:
我们从车中拿出了一些啤酒。啤酒是温的。
我们检查了野餐的食物准备。啤酒是温的。
对于句子组,目标句含有与上下文匹配的已知信息“啤酒,因此是易于
理解的;而对于句子组,读者要理解文本必须做出这样的桥接推论:野餐所
准备的食物中包含了啤酒。
对于文本片段或篇章的理解,认知心理学家提出了“故事语法’’的概念。
与其他图式一样,故事语法给读者提供了一个框架结构,通过这一结构能预期特
定的元素和序列,并以此填补文本没有明确表述的“省略’’内容。
..文本知识表示模型的研究现状
文本知识表示或获取模型的建立是文本机器理解中的一个关键问题,其
在一定程度上反映了机器对文本的理解程度。按照模型所使用的
主要计算方法,
我们将当前的文本知识表示模型归纳为以下几种主要类型:
...
基于矢量空间的模型
矢量空间模型是获取知识最简单的方法。没有考虑单词之间的语
义关系以及同义词,并且假设词语之间的语义是相互独立的。实际上,文本
语境中单词词序、同义词、词语语义间的关联性对语义的获取存在较大影响。针
对布尔型不能区分单词相对重要性,等提出了?
? 算法。但是基于该算法的
模型不能表示文本内部结构,只能提供文本的低层语义信息比如单个关键词的
集合。
..。
基于统计语言的模型
此类模型完全基于语言学方法对文本进行知识获取,其通用性及可扩展性较
差,难以适应大规模、常变的文本。比如基于词类的语言模型、结构语
言模型等。目前文本知识获取主流方法是以统计学为基础并结合一定的语言上海大学硕士学位论文规则。文本知识获取中比较流行的
统计语言模型是潜在语义分析模型,。将文本词语的高维表示通过矩阵
的奇异值分解,投影到低维的潜在语义空间,并考虑文本同义词关系。但忽
略了文本的结构信息,完全依赖数学模型,不能处理单词语义的歧义性等。
结合与隐含马尔可夫模型 ,提出状态
矢量空间模型 ,,试图解决及不能处理单
词在文本中的词序问题。但是用最大期望算法来估计模型所需要的参数,具
有较大的计算量。
...
基于概率题的模型
从年到现在,基于概率主题的文本知识获取方法获得了极大的发展
,。它们是用较少几种词的分布来描述大量文本集主题的语义信息。
该模型的基本方法包括概率潜在语义分析模型,,潜在狄力克利分配模型
,等。
抛弃了词典,利用单词的上下文学习单词的语义,试图消除单词语义
的歧义。证明了大大简化了从文本中获取潜在语义的运
算复杂度。但不能处理未观察到的文本,涉及较多的参数,且参数数
量随文本集中文本数量的增长而增长。于是年提出了潜在狄力克利分
配模型。试图克服的上述缺点,其假定主题的单词在词表中的
分布是分布。年利用与相结合来考虑句子
级别的句法结构信息与全局文本级别的语义信息,并应用蒙特卡罗马尔可夫
链 作为简化模型去估计与推理。把
应用到页面的聚类分析与潜在语义的发现中。
除了与模型应用比较广以外,还有其它一些模型比如:等
提出了模型 ,把狄力克利过程引入中提出了狄力克利多项式分配模型
。年冯晋,李春平提出了基于统计学和语义信息的中文文本主题识别技
术。还有无监管的概率潜在语义模型、模型
、层次主题模型与混合模型等。
上海大学硕十学位论文
其中混合模型仅适合于文本只有一个主题的情况;模型速度很慢
;的推理比更加精确,但是调整的超参数比较困难;
年等人提出了基于语境窗口的主题语义模型,其利用语境中的信
息提高
主题模型中推理的健壮性;年等人提出基于主题模型,
用来提高主题和短语挖掘的准确性;同年等人优化了基于的
模型,它通过为每个单词分配不均匀数目的主题,提高了模型的实
用性。
综上可知,基于概率主题模型的方法基本上都运用了基于概率分布的先验信
息,缺乏理论根据;需要大量文本训练,计算复杂度高:文本的表示与推理缺乏
灵活性;虽然利用了有限的文本语境概念,但不能体现认知机理对文本理解的指
导,不能度量文本语境的作用,所以该方法不能体现知识获取过程中的主观性。
...
基于概率主题及相关信息的模型
一个主题不是独立的,很有可能与其它主题存在千丝万缕的联系。在人脑中
文本语义的获取是多种因素,多种知识共同作用下才能完成。年等通
过整合文本主题与文本的链接信息提出了扩展的概率潜在语义分析模型。在
该模型中主题不仅与单词的概率分布有关,而且还与文本之间的引用与超级链接
有关。
年等在潜在狄力克利分配模型的基础上,扩展了文本作
者之间关系的语义,提出了“作者一主题模型?
,。但该模型很难直接推理,且运算复杂度较高。因此利用采
样来估计主题与作者的概率分布。
年把社会网络分析模型与,相结合,提出?
模型,试图发现文本“作者一接受者一主题之间潜
在的语义关系,并把模型应用到 的分析中。年等提
出了关联主题模型。假设文本主题与单词之间的关系是
正态分布。但是推理复杂,且其假设正态分布缺乏理论依据,也没
、
有大量实验来证明。上述模型最常用的近似与推理方法有最大期望算法,
算法与采样等,,。
基于概率主题及相关信息模型虽然能发现“作者一接受者一主题以及
.卜海大学硕士学位论文
“作者一主题之间的语义信息,但是它们都是以模型为基础的。所以这些
模型很难发现主题之间的语义,且难以明确主题所要表达的清晰
语义。
除了以上主要模型外,等对于多标注文本提出了模型
,在无结构化文本中利用与
来建立文本内容之间的语义联系。试图通过对相关内容的关联来获取文本
的潜在语义。诸葛海,骆祥峰提出了知识图模型来表示文本内容之间多种关系的
语义信息。
基于概率主题及相关信息的模型虽然可通过对观察到的单词分布来推理出
文本的潜在语义,但是其推理过程复杂、参数众多,运算复杂,且需要大规模文
本训练集的支持和长时间的训练过程;虽然生成了文本语境,但不能体现认知机
理对文本理解的指导,不能度量文本语境的作用,所以该方法不能体现知识获取
过程中的主观性。
。..
基于符号逻辑或词典的模型
在年利用语言的语法与词素形成最低层的词汇水平填入到语义
网络中。等试图用剧本方法来对先验知识进行表示,进而获取文本
的潜在语义信息。国内黄曾阳提出了概念分层网络来概念化、层次化、网络
化的表达文本的语义。运用
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
的基于符号的机器学习算法,比如
决策树来对文本进行语义分析。诸葛海提出了语义链网络来获取与表示文本
中的语义关系。当系统中存在推理所需要的知识时,基于符号逻辑推理是非
常精确的。但是随着时间的发展,语言信息是很难被枚举的。因此基于符号
逻辑的文本语义信息的获取方法需要结合其它方法才能发挥出其潜在的优势。
在基于词典的文本语义获取上,利用英文语义词典来
发现单词之间的语义连接,对文本进行推理,从而解决知识获取的瓶颈,。
还有一些学者试图用,,整合不同的知识源来消除单词语义的
歧义。
基于符号的文本分析方法其推理的灵活性较差。基于词典的文本分析方法虽
然利用了的先验知识,但是其灵活性与针对性较弱,语义层次较低;其
不能度量文本语境的作用。
综上所述,现有的文本知识表示模型的数学计算方法大都利用了计算机的高
上海大学硕士学位论文速度、大存储特点,而很少结合人类概念学习过程中的认知机理,这不符合实际
人脑思维的模式;现有模型较少考虑认知的主观性问题,并把客观知识与主观的
认知主体割裂开,这与人的认知过程相悖。如果没有考虑语义的动态性、客观性、
不确定性与主观性,就会大大降低获取知识的丰富程度,造成信息的大量丢失,
甚至会出现错误的信息。
.研究内容
本论文的基本内容是使机器达到对文本的更深层次的理解出发,借鉴人类概
念学习理论的研究成果?,并结合认知心理学对人类文本理解的相关研究成
果?,建立一种面向机器理解的文本内容的表示方法,并且基于文本内容
的表示,提出一种文本复杂度的度量方法来为用户提供更好的知识服务。具体来
讲,本论文拟解决以下核心问题:
文本低层知识的机器快速自动获取方法研究
文本低层知识文本关键词、关键词之间的语义关系等的快速的机器自动
获取是文本机器理解研究中的一个基础问题。本论文对于文本知识的获取包括关
键词、关键词间的关联关系这两个方面。其中,关键词间的关联关系由关键词在
文本中出现的位置关系所确定。针对特定的文本集合,对于文本中关键词的提取,
我们首先采用经典的公式提取领域关键词,在此基础上,进攻每篇
文本中属于领域关键词集合丑出现频率最高的前心小于等于个单词或词组
准考之吞馓关键觑对于关键词之间关联关系的获取,费衫掰舍经典的
算法。通过设置窗口在文本内容中顿孝滑动的方法来模拟人类阅读文本的过
翟,劳算黝窗口力关蘑阉移关履磁这样的计算等价于把滑动窗口每次划过
的位置当成一个事务,而一篇文本就是一个事务的集合,从而可有效挖掘关键词
之间的关联关系。
面向机器理解的文本内容的表示方法研究
文本内容的表示是文本机器理解中的一个关键问题。在本论文中,基于文本
关键词和关键词之间关联规则的提取,我们借鉴人类概念学习中概念的代数表示
方法,并结合认知心理学中关于人类文本理解的“眼一脑假说’’和“桥接
推论,据出厂之本的幂级裁袤券方缮。该方法的基本思想是:把文本看作
上海大学硕士学位论文
特殊的概念,文本中的关键词作为描述文本概念的属性;在此基础上,关键词之
间的关联规则就反映了文本概念的属性之间的关联关系,因此可以作为表示文本
的基本元素。
文本的幂级数表示方法的具体内容包括:文本关联规则中噪音和冗余知识的
去除、文本断言和各阶基本关联规则的选取、文本内容的表示形式等。其中,文
本关联规则中噪音和冗余知识的去除能够保证文本知识获取的准确性和有效性,
从而为文本表示模型的建立奠定基础;文本断言和各阶基本关联规则的选取能够
在保证文本内容表示的精度的前提下,忽略对文本内容的表示影响不大的且高度
复杂的关联规则等信息,从而可极大的降低机器文本理解的时间复杂度;文本内
容的表示形式也是一个重要的问题,不仅要保证文本信息的不丢失,又要便于知
识的运算推理。
对于文本关联规则中噪音和冗余知识的去除,我们通过在关联规则提取时选
取合适的滑动窗口大小、每次的滑动距离、关联规则的支持度和置信度来保证关
联规则提取的有效性;并在获取关联规则之后,借鉴文献,的方法,据出
了关联规鼬的语义冗余的消除方法。
对于文本断言和各阶基本关联规则的选取,我们借鉴认知学中的“眼一脑假
说,按照关键词在文本集中出现的频率,将关键词划分为常识关键词
,、功能关键词 ,和稀少关键
词
,,,并选取常识关键词作为文本断言;对于文本关联
规则,在消除噪音和冗余后,我们以关联规则的前件中关键词个
数的不同,将关
联规则划分为各阶基本关联规则。通过对大量文本集合的关联规则的提取数量分
析,我们发现文本中出现的关联规则大多为一阶和二阶关联规则、三阶关联规则
出现数量较少,而四阶及其以上的关联规则则几乎不出现。因此,文本的幂级数
表示只需要考虑最多四阶的关联规则,从而极大的降低文本知识获取的时间复杂
度。基于上述研究成果,宠衫磁凹厂扔器.髫织之吞膨励穆发理绝
对于文本内容的表示形式,在本论文中,我们采用将文本中的关联规则按照
其阶数划分为各阶的基本关联规则文本断言作为阶的基本关联规则、并表
示为幂级数展开的形式。文本各阶基本关联规则的幂级数展开是把文本表示为关
联规则的代数组合的一种最简单的形式。
上海大学硕士学位论文。
文本复杂度的度量方法研究
文本复杂度的度量方法是机器文本理解中的一个重要问题。从人类阅读文本
的认知体验分析,复杂度小的文本对于读者的能量消耗较少,复
杂度大的文本则
要消耗读者更多的能量。因此,如何建立一种既能反映文本的语义特征、又符合
人类的认知体验的文本复杂度的度量方法,对于实现机器对文本的更深层次的理
解具有重要的理论意义。
在本论文中,基于文本的幂级数表示,我们借鉴人类概念学习中概念的代数
复杂度的计算,并结合文本的具体语义特征,提出了文本复杂度的计算方法。该
方法不仅考虑了从文本中直接获取的知识,并且糁之吞乒发秀功储袤送钓‖省璐‖
魂容以“空关联规鼬’’的形式加入勤文本复杂度的计算中。从而巧妙的运用认
知心理学中籼故事语法秘的概念来解决文本机器理解过程中缺少对蕴含知识
崩发霭糯并基于人类文本理解过程中对背景知识的加入和认知心理学中关于
增加记忆的“交互作用表象’’ 技术【】,据凹厂之吞复:杂:蘑
度量的改进算法,
针对前两个核心问题,本文第二章分别从文本中关键词和关联规则的机器快
速自动提取方法、文本关联规则中噪音和冗余的去除、文本断言和各阶基本关联
规则的选取这三个方面进行了阐述;并且从实验的角度证明了方法的有效性。在
此基础上,借鉴人类概念学习中概念的代数表示方法,据凹厂之右的幂级掰
表示。并得出对于给定文本集合的任意文本。~定存在对应于该文本的幂
级数表示的结论。
针对文本复杂度的度量问题,本文第三章从人类概念学习的代数复杂度出发
,把文本理解的过程看作对概念的学习过程,从而得到厂之零够复杂痢多才
算力弦。在文本复杂度计算的验证实验中,我们依据人类概念学习的简单原则,
从认知科学的角度对其正确性进行了验证。
文本复杂度度量在文本知识流的选取与评价方面有着很好的应用。作为本论
文工作的组成部分,我们已经开展了文本知识流方面的一些基础性研究,相关的
研究结果发表在文献,等。因此,在本文的第四章中,我们只是将其进行了
概括,而重点讨论了文本复杂度度量在文本知识流中的应用。
综上所述,本文从人类概念学习和人类文本理解等认知科学中的诸多原理出上海大学硕士学位论文发,提出了面向机器理解的文本内容的表示与复杂度度量方法。本文的章节安排
如下:第一章是绪论;第二章是基于概念代数的文本的幂级数表示;第三章研究
基于文本幂级数表示的文本复杂度度量;第四章简要的对我们所做的文本知识流
方面,,的相关工作进行了总结,并研究文本复杂度度量在相似知识流中的
应用;第五章是总结和展望;最后,我们将部分实验结果和具体的示例列出在附
录部分。
.本研究的创新点和意义
本论文在理论上的创新之处在于:
针对目前文本机器理解研究缺少认知机理指导的特点,将人类概念学习的最
新研究成果引入到文本机器理解中,为文本知识的表示与获取的研究提供了
一种新的思路与方法;
基于人类概念学习的代数表示方法,提出了文本内容的表示;基于人类概念
学习的代数复杂度,提出了文本复杂度的度量方法;
巧妙的将认知心理学中对于人类文本理解的研究成果:“眼一脑假说、“桥接
推论和“故事语法’’引入到文本内容的表示与复杂度度量中,使得机器对
文本的理解更加符合人脑思维的模式。因此,在一定程度上达到了机器对文
本的更深层次的理解。
本论文研究的理论意义在于:
本论文的研究可以为文本知识的获取、文本内容的表示和文本复杂度的度量
提供一种新的方法和思路;
通过结合基于概率统计的传统语义分析方法和认知科学的观点,促进认知科
学、语言学和人工智能的多学科交叉,从而更有效地解决文本机器理解的问
题。
另外,本项目研究的成果在文本分析、知识获取和语义等领域有着广阔
的应用前景。其应用价值在于:
文本知识的快速的机器自动获取与表示可以为?,?以及
上海大学硕士学位论文
电子商务的知识服务提供技术支持;
文本复杂度的度量方法可以为文本知识流的度量、智能浏览、网络资源
的个性化推荐等提供技术支持。
上海大学硕士学位论文第二章基于概念代数的文本内容的幂级数
圭二
衣刁、
一般来说,一篇文本由一个句子序列构成,而一个句子由一些关键词组合而
成。如果一个关键词被当作文本的一个特征;一个句子被当作一个对象,那么一
个文本就可以被看作一个概念,而对于文本的理解就是概念的学习过程。在本章,
我们将按照这个思路,基于人类概念学习中概念的代数表示【】,对面向机器理
解的文本内容的表示方法进行研究,提出文本的幂级数表示方法来解决现有文本
知识表示模型中存在的问题。
同样基于人类概念学习理论,文献提出了利用布尔表达式表示文本的内
容,进而计算文本的布尔复杂度的方法。因此在本章,我们通过对
该方法的特点
进行简要的分析,然后引出文本的幂级数表示方法。
.
文本内容的布尔表达式与布尔复杂度
年杂志上发表了一篇认知科学方面的论文“人类概念学习的布
尔表达式复杂度的最小化。它首次通过化简布尔表达式来度量人类概念学
习的复杂度。继而,在文献中提出了一个概念的主观学习难度正比
于它的布尔表达式的复杂度,而概念的布尔表达式的复杂度就是与这个概念等价
的最短布尔表达式的长度。例如,概念’等价于’,进而就等于,
所以其布尔复杂度为;概念’’则没有更短的表达式,所以其布尔复杂度
是。概念的布尔表达式的复杂度实际上是一种内在数学复杂度的常用度量方
法,也是概念的不可压缩性的体现。
如果将关键词作为文本的特征、句子作为对象,那么一个文本就可以被看作
一个概念,而对于文本的理解就是概念的学习过程。因此,布尔表达式可以用来
表示文本的内容;并且可以通过对文本的布尔表达式进行化简得
到其布尔复杂度
【。假设文本含有个句子记为.,:,...,‰和个关键词记为,,...,巳,
如果将句子中,每个关键词的两个状态:“出现和“不出现,记为“和“,
那么句子墨,岛,。可以被表示如下:
型。鲞薹耋釜业型
从而文本可以被表示为:
”
一一
上式中,表示第个句子:‘表示第个关键词;符号表示一个句子中的
关键词之间的组合关系;符号表示文本中的句子之间的连接关系。通过对
立本的巾尔表达式的化简.就可以得到其布尔复杂度。
下面,我们看一个实际的例子。我们选取了一篇名为“
”的英文网贞网址:/
/////?
/.该网页包含个句子,具体内容如图 所示。 ?咖”口?』、惦
川々”
. 一
???一一叭一?“
删??口岫???
~【
岫
佣~一口
盯
一一加
胁
??“懒??口删?日?~? 虻?州四叩州。~ 岫帅??日?柑“ 咖
?枞,怕??四“ ’“
洲? ‘?
咖?
?
图网页“ 呐”
我们从网页巾抽取个关键词,,,,分
别用,,,,表示。根据关键词在每个旬予中的是否出现,采用如尔
表达
式,该网页可以表示为:上海大学硕士学位论文 ’
其表示了第一个句子中出现了和也两个关键词;第二个句子中出
现了、
和三个关键词,依次类推。图.给出了该网页的空间状态。
一一
住
荡
’?:芎警?
图.网页的空间状态
在此基础上,利用现有的代码来化简布尔表达式见网址
://..伽?抬砒杠讹.,得出该网页的布尔复杂度为
。
相比较于传统的文本知识表示模型见章节..,文本内容的布尔表达式
结合了人类概念学习过程中的认知机理,符合人类概念学习的认知过程;且考虑
了关键词在文本中的顺序和关键词之间的位置关系而非语义关系。,从而在一
定程度上考虑了文本语境的作用。但是很显然的,文本的布尔表达式存在着如下
的不足:
首先,文本的布尔表达式不能反映关键词之间的语义关系。因此,对于机器
理解文本而言,这种文本知识表示方法丢失了太多的语义信息。
其次,当文本中旬子和关键词的数目较多时,文本的布尔表达式的化简比较
复杂,从而导致文本布尔复杂度计算的复杂度较高【】。
最后,基于文本布尔表达式的复杂度计算只是考虑了关键词在语句或段落
中的是否出现“表示出现,“表示不出现,而没有考虑文本中不同关键
词具有不同程度的重要性。也就是说,只要两篇文本化简得到的布尔表达式中的
变量数目一样,它们的布尔复杂度就是相同的,这对于文本而言,显然是不合理
的。例如,一篇文本包含关键词核爆炸,核物理,黑洞,反物质,中子;另一
上海大学硕士学位论文篇文本包含关键词环境,温室效应,二氧化碳,尾气,臭氧空洞。因为布尔复
杂度与表达式中所用的符号是无关的【】,所以在布尔表达式中可以用任意的符
号表示关键词。如果第一篇文本化简的结果为,则布尔复杂度为;第二
篇文本化简的结果为’’,布尔复杂度也是。因此上述两篇文本的布尔
复杂度相同,这显然是不合理的。因为相比于第一篇文本,第二篇文本中的关键
词为常见关键词,其理解难度更小。
总之,虽然文本的布尔表达式接近于人的心理过程,但是当文本关键词数量
超过个的时候,布尔表达式的化简已经非常困难,因此难以应用于实际的文本。
为了解决文本的布尔表达式的上述不足,我们需要一种更高效的、能处理更多文
本语义信息的文本表示方法。
.
因果理论对机器文本表示的理论意义
在人类概念学习的研究中,近年来,许多学者开始强调因果理论的研究。因
果理论指的是人们倾向于以对象属性之间的因果关系来理解观察对象。如文献
提出对学习对象的分类可以看作是对其所满足的相关规则的聚类;文献
指出因果关系在归纳概念的一致性方面是必不可少的;文献指出心理学中的
分类不是对对象属性的简单聚合,而是将隐藏在对象中的因果法则以及相关的认
识过程抽象出来。
如果将文本中的关键词看作描述其主题信息的属性,则因果理论可以描述为
人们倾向于以文本关键词之间的因果关系来理解文本。事实上,根据文献,
人类在阅读文本时,对于段落或文本篇章的理解是建立在对上下文中信息之间的
关联关系因果关系的一种类型之上的。例如,有如下的文本片段:
硼 ’ ”.
该片段讲述的是关于核电站的工作原理。单独的考虑其中的任意一个关键词
黑体所示,其理解难度都是较大的。但是当这些关键词共同组成完整的句子
之后,我们却能够较容易的理解每一个关键词和整个句子的语义信息。这是因为
当关键词之间共同出现时具有了一定的因果关系,其有效降低了关键词的理解难
.卜海大学硕士学位论文度。
将关键词作为描述文本的属性、文本中的每个句子或段落作为一个对象,
那么有多个句子或段落共同组成的一篇文本就可以被看作一个概念,而对于
文本的理解就是一个概念的学习过程。那么结合根据因果理论和人类概念学习,
我们可以借鉴人类概念学习的代数表示方法,对文本知识进行表
示。
因此,根据因果理论和人类文本理解的认知过程,机器对文本的理解应该以
获取文本关键词之间的因果关系为重点,而非简单的识别文本中的关键词。我们
将该结论描述为如下的定理:
定理:文本机器理解的基本内容
根据因果理论和人类文本理解的认知过程,机器对文本的理解以获取文本关
键词之间的因果关系为基本内容。
基于该定理,我们采用文献】中提取概念的属性之间关联关系的方法,对
于章节.中的英文网页,在其布尔表达式的基础上,提取出如下的关联规则:
?》
??
?
?争
?争
?
其中关联规则专表示文本中关键词的出现而导致关键词出现的概率较
大。
我们将上述关联规则集合记作,那么对于从该网页中获取的知识关键词
和关联规则,我们能够得到如下的三个集合:
口:对于该文本口为空集
‖:对于该文本‖为空集
彩
其中口表示文本中每个句子都出现的关键词的集合或该文本所属领域的常识性
单词;‖是文本的关键词在去除口和国中关键词后剩余关键词的集合;国表示关
键词之间的关联规则集合。
那么,我们就可以用上述三个集合的集合运算来表示文本,称之为文本内容
的线性表示方法具体见下节。采用的集合运算公式如下:上海大学硕士学位论文口.【‖×彩】
其中“.运算表示将口中的所有元素加到后边集合的每个元素中;“×表示集
合的笛卡尔积。
我们以一个例子,简要的说明具体的运算方法可参考文献】。假设一篇
文本包含关键词,,,,。其中口集合的元素为,关联关系集合为
寸.,那么文本可以表示如下:
形砒州纠?口.【四×,】
集合运算过程如下:
集合与,的笛卡尔积运算产生项布尔表达式见图 .中“的右边,采用格的方式表示如下:
’’
’ /\
’?
俞上\//拈;据
弋夕北
图.集合的笛卡尔积运算
集合的元素加到笛卡尔积的运算结果中,产生的项布尔表达式为 ’,八 ’,’,? ,“ ,’,’,
? ’’,? ’,?
;
按照上述运算方法,章节.中网页的运算结果如下’’’, ’’,’’’,’’’,’’’’,
,。可见,结果中的前五项和其布尔表达式中的五 项见章节.是完全相符的,后边两项是产生的误差。造成这种误差
的原因
是提取的关联规则不能完全准确的表示文本内容,这也表明了文
本内容的线性表
示的局限性。
上海大学硕士学位论文在下面的章节中,我们将以定义的形式给出文本内容的线性表示方法,并分
析其特点和存在的不足,进而引出文本内容的幂级数表示方法。
.
文本内容的线性表示
在本节,我们对上节所述的文本内容表示方法进行总结,并定义文本内容的
线性表示。相关的定义如下:
定义:文本断言
文本断言是指文本中具有常识性语义的关键词。
文本断言是文本中最简单的、最容易被理解的信息。例如在曲服务领域
中,,等常识性领域关键词。
定义:线性关联规则
文本中的两个关键词之间因出现的位置相邻且同时多次共同出现而表现出
的关联语义关系。线性关联规则是一种线性的因果关系】,可以表示为如下的
形式:
?三专吒
其中表示线性关联规则的置信度。
线性关联规则是文本中关键词之间的一种最简单的因果关系,其
反映了文本
内容中最基本的语义信息。例如对于从://..网站下载的一篇
名 ”的英文网页,可以提取出
称为“仍
如下的线性关联规则:了一童 , ,
.
? , ‘尊.
五。
...
, ,.
,。 毒. ..宣 ? “薯
弧 石 .妒.
, ,
..”
图.网页“ 上海大学硕士学位论文?马彻
?马脚
其中,关联规则?型马矿妇表示在文本上下文中,当关键词 出现时,关键词出现的概率为.。可见,二者之间 具有很强的关联关系。
从上述关联规则中,我们能够获取图.中网页的最基本的语义信
息,即讲
述的为非洲的环境变化问题,且环境变化问题是由森林的过度砍伐而引起的。通
过对网页的阅读,我们发现线性关联规则反映的网页的基本语义信息是正确的。
那么,基于文本断言和线性关联规则的定义,文本内容的线性表示定义如下:
定义文本内容的线性表示
根据人类概念学习的线性假设理论:人类倾向于以对象属性之间的线性关联
关系来理解观察对象。那么,对于文本,在获取文本断言的集合口和关键词
之间的线性关联规则的集合功之后,则文本的基本内容可以表示成如下的代
数形式:
矿?口?×】
其中?表示文本中出现的所有关键词的集合;口表示文本断言的集合;‖表示文
本中相互之间没有线性关联关系的关键词的集合;缈表示文本中的线性关联规则
集合。
需要指出的是,在本节中我们对线性关联规则的提取是采用了人类概念学习
中提取概念的属性之间关联关系的方法】。由于人类概念学习与机器理解文本
具有不同的特征,所以对于文本而言,这种关联规则的提取方法是不适用的,原
因如下:
该方法是基于文本的布尔表达式的,因此具有文本的布尔表达式的缺点:
丢失了太多的文本语义信息且关联规则提取的时间复杂度高。
该方法提取的关联规则不能准确的表达文本的语义信息,因为其可能得
到较多的没有语义的关联关则和类似于’专的负关联规则。负关联规
则对于概念的表示而言是有必要的’,在概念中都是表示属性的取
值,是有意义的,但对于文本,则是没有意义的口’表示关键词不出现,
上海大学硕士学位论文表示关键词出现;根据关联规则的定义,在本文中,我们不考虑这样
的负关联的情况。
例如,对于图.的网页,我们提取出了个关键词,,
,,,,?,??,
,,分别用字母集合,,,,,,,,,表示,
按照文献【中关联规则的提取方法,提取个线性关联规则如下表所示:
表.概念代数的方法提取的部分线性关联规则
错误的关联规则 负关联规则
专’
??
?》
寸’
??
?’
从表.中可见,这种关联规则提取方法得到了较多的没有语义的关联规则如
专和负关联规则。
因此,在参考了目前的关联规则的提取方法后,我们认为文献【】中提取关
联规则的方法是不适用于文本的,尤其是对于大量文本的集合。在下一章节,我
们将参考文献中关联规则的提取算法,并结合文本概念自身的语义特征,重
新对文本的关联规则进行提取,以消除上述不足。
另外,通过与文本的布尔表达式的比较见章节.,文本内容的线性表示
具有较大的误差,因为其表示的仅仅为文本的基本内容。事实上,对于大多数的
文本而言,其关键词之间具有更加复杂的关联关系如:
软牛系统,硬件系统一计算柳绸成,那么仅仅利用线性关联规则来表示这样文本的内
容是不准确的。因此,我们有必要获取文本中关键词之间的更加复杂的关联关系,
以提高文本内容表示的精度。从而,得到了文本的幂级数表示方法。
.
文本内容的幂级数表示
由于文本内容的线性表示的局限性,在本节,我们采用经典的算法
【来提取文本中的关联规则来代替人类概念学习中的提取方法,并对文本内容上海大学硕士学位论文
的线性表示进行扩展,得到文本的幂级数表示方法。
..基本定义
首先,我们对章节.中的线性关联规则的定义进行扩展。在此基础上,借
鉴人类概念学习中概念的幂级数展开方法【】,对文本内容的幂级数展开进行定
义。文本的幂级数展开是把文本表示为关联规则的代数组合的一
种最简单的形式
。在本文中,我们采用幂级数展开的形式作为面向机器理解的文本内容表示
方法。相关的定义如下:
定义:文本关联规则
文本关联规则在本文中,也被简称为关联规则是文本中的两个或多个关
键词之间因出现的位置相邻且多次共同出现而表现出的关联语义关系。
文本关联规则是关键词之间的一种因果关系,相比较于文本中的关键词,文
本关联规则反映了文本的蕴含的语义信息。
在本文中,我们只考虑如下形式的文本关联规.
一?丛专
口?与
,一??
口???旦专
其中,,,??为文本中的关键词;,??.分别表示各个关联规
则的置信度。
定义:文本关联规则的阶
文本关联规则的前件中关键词的个数称为文本关联规则的阶。例如关联规则
?的阶为;关联规则口专的阶为。
从人类认知的观点看,在不考虑关键词的不同影响的前提下,文本关联规则
的阶反映了文本关联规则被理解的难易程度在本文中,也称为关联规则的复杂
度:阶大的关联规则被理解的难度较大,反之关联规则被理解的难度较小。例
如对于服务领域中的文本关联规则:
.服务描述上海大学硕士学位论文 服务架构
前者的阶为,而后者的阶为。很显然,后者的理解难度较大。因为这个关联
规则包含了关键词、和之间的更复杂的语义关系。
对于一个包含个关键词的文本,可能出现的阶数最大的文本关联规则为
。根据文本关联规则的阶的定义,我们得到如下的两个推论:
推论:文本断言是阶为的文本关联规则。
推论:线性关联规则是阶为的文本关联规则。
一般地,文本所包含的所有关联规则之间是不独立的,也就是说,一些关联
规则可能由其他的关联规则所蕴含。例如,假设关联规则具有传递性,则会出现
如下的关联规则:一
口爿
上式中关联规则.是不独立的,对于文本的表示而言,这样的关联规则是冗
余的,应该被删除。为了更好的描述文本内容的幂级数表示方法,我们给出了如
下的定义:
定义:文本的阶基本关联规则集合记作?羔
文本的阶基本关联规则集合是指从文本中直接获取的、阶为的、且不
包含噪音和冗余信息的关联规则的集合。
根据文献】,任意一个概念可以用幂级数是概念的一种频谱分解的形
式展开,那么文本同样可以按照其在各个阶上的基本关联规则进行展开,其定义
如下。
定义:文本内容的幂级数展开
对于一个包含个关键词的文本,其在所有阶上的基本关联规则的集合称为
文本内容的幂级数展开。文本内容的幂级数展开可以表示为如下的形式:
:?兰文本断言集合
:?
:西互
?
?
:?呈.阶最大的关联规则集合上海大学硕士学位论文其中,?参表示文本中阶为的基本关联规则集合。
根据人类概念学习的线性假设定理,我们在章节.中定义了文本内容的线
性表示方法。对于人类文本理解而言,由于受大脑存储容量、逻辑思维能力等认
知能力的限制,难以获取文本中关键词之间的复杂的语义关联关系,所以文本内
容的线性表示方法对于人类文本理解是适用的‘。但对于机器文本理解而言,由
于机器没有存储容量、逻辑思维等方面的限制,所以机器能够获取文本中关键词
之间的复杂的语义关联关系来弥补机器理解文本过程中较少具有人类那样足够
背景知识的不足。因此,文本内容的幂级数表示方法来代替文本理解的线性表示
对于机器文本理解是适用的。
面向机器理解的文本的幂级数展开,需要解决如下的基本问题:
文本知识的快速机器自动获取。具体而言,就是要实现机器能快
速自动的抽
取文本中的关键词和关键词之间的各阶的关联规则。
获取的文本关联规则中噪音和冗余的消除;
文本断言和各阶基本关联规则的选取策略。
文本内容的幂级数展