关闭

关闭

关闭

封号提示

内容

首页 限定领域下基于概念图的文本检索.doc

限定领域下基于概念图的文本检索.doc

限定领域下基于概念图的文本检索.doc

真傻傻子 2017-11-12 评分 0 浏览量 0 0 0 0 暂无简介 简介 举报

简介:本文档为《限定领域下基于概念图的文本检索doc》,可适用于高等教育领域,主题内容包含限定领域下基于概念图的文本检索上海交通大学硕士学位论文限定领域下基于概念图的文本检索姓名:吴保松申请学位级别:硕士专业:计算机软件与理论指导教师:陆符等。

限定领域下基于概念图的文本检索上海交通大学硕士学位论文限定领域下基于概念图的文本检索姓名:吴保松申请学位级别:硕士专业:计算机软件与理论指导教师:陆汝占限定领域下基于概念图的文本检索摘要第I页限定领域下基于概念图的文本检索摘要文本检索是信息检索的重要组成部分,目前几乎所有搜索引擎都是采用基于关键词的检索方法,其核心是关键字符的机械式匹配,存在的问题之就是召回率和准确率比较低,从而导致检索系统的整体性能不理想。基于概念的检索通过基于语义的自然语言处理来提取文本的各种概念信息,根据对用户查询的准确理解来检索文本库中相关的信息,以提供较好的检索结果,有效地弥补了关键词检索存在的缺陷。本文就基于概念的检索中文档和查询的标引技术和匹配算法进行了研究,提出了一种基于概念图的检索模型,并且在计算机上实现了其基本框架,通过实验验证了其有效性,主要工作如下:首先,提出了一种更适于自然语言自动分析的标引形式递归概念图。这种标引方式不仅识别文本中的有效概念,还确定它们之间的语义关系,是真正语义层次上的标引方法。在用概念图对文档和查询进行标引的前提下,还给出了文档概念图和查询概念图之间的匹配算法来计算两者之间相似度,检索结果可以按此进行排序。其次,构建了“游船”领域的概念结构,它对文本的概念图标引以及文档概念图和用户查询概念图之间的相似度计算起支持作用。这项工作分两部分:在“游船”领域的个文本标题中,提取概念并组织成限定领域下基于概念图的文本检索摘要第II页概念分类树总结这些概念之间的语义关系,将这些关系编号,加入到概念结构中。然后,在计算机上实现我们的检索模型。在实现过程中,我们采用了一些技术来提高检索效率,如:利用XML来表示文本的概念图标引,利用构建哈希表加速概念相似度的计算等。最后,利用我们实现的检索系统在与“游船”领域相关的文本集上与布尔模型进行了对比实验。从实验结果看,对于绝大多数用户查询,我们模型检索性能(召回率和准确率)的优势比较明显。关键词:文本检索,检索模型,领域概念结构,递归概念图,匹配算法限定领域下基于概念图的文本检索ABSTRACT第III页ConceptualGraphBasedTextRetrievalinSpecifiedDomainABSTRACTTextretrievalisanimportantpartofinformationretrievalSofaralmostallthesearchenginesusekeywordbasedretrievingmethods,whosecoreismatchingthecriticalcharactersmechanicallyOneoftheexistingproblemsisthelowrecallandprecision,whichleadstotheunsatisfactoryperformanceConceptbasedretrievalusesnaturallanguageprocessingtoextractallkindsofconceptualinformationinthedocumentsandmakesfullunderstandingofuserqueries,whichcanprovidebetterretrievalresultsandeffectivelymakeupthedefectsofkeywordbasedretrievalThispapermainlyresearchontheindexingofdocumentsanduserqueriesandthematchingalgorithmintheconceptbasedretrieval,andproposedanewconceptualgraphbasedretrievalmodelAlso,weimplementthebasicframeworkofthemodeloncomputer,andproveditsefficiencybyexperimentOurworkisasfollowing:First,proposeanewindexingformoftexts,RecursiveConceptualGraph,whichismoresuitableforautomaticanalysisofnaturallanguageThisformalismnotonlyemphasizesontheconceptsinthetexts,butalso限定领域下基于概念图的文本检索ABSTRACT第IV页specifiesthesemanticrelationamongthem,becauseofwhichitisreallyanindexingmethodonsemanticlevelMeanwhile,weputforwardamatchingalgorithmtocalculatethesimilaritybetweentheconceptualgraphsofdocumentsandthoseofuserqueries,accordingtowhichretrievalresultscanberankedSecond,setuptheconceptualstructureinthespecifieddomainof“Yacht”,whichsupportsboththeconceptualindexingoftextsandthesimilaritycalculationbetweendocuments’conceptualgraphsandtheuserqueries’onesWeaccomplishthispartofworkintwosteps:extracttheconceptsinthetexts’titlesof“yacht”domain,andconstructthemintoaconceptualtaxonomythenconcludethesemanticrelationsamongtheseconcepts,andaddthemintotheconceptualstructurewithamarkerThird,implementourretrievalmodelonthecomputerWeadoptafewtechnologiestoraisetheefficiencyofretrieval,suchasusingXMLtorepresenttheconceptualgraphicindexingoftextsandmakinguseofthehashtabletospeedupthecalculationofconcepts’similarityFinally,makeanexperimenttocompareourretrievalmodelwithBooleanmodelonthetextcollectionof“yacht”domainFromtheexperimentalresults,ourretrievalmodel’sperformancerecallandprecisionismuchbetteronthemostoftheuserqueries限定领域下基于概念图的文本检索ABSTRACT第V页Keywords:textretrieval,retrievalmodel,domainspecifiedconceptualstructure,recursiveconceptualgraph,matchingalgorithm限定领域下基于概念图的文本检索符号与标记第页符号与标记缩写英文全称中文解释AVSAttributeValueStructure属性值结构CNNICChinaInternetNetworkInformationCenter中国互联网络信息中心NPNounPhrase名词短语QAQuestionandAnswer问答RCGRecursiveConceptualGraph递归概念图TFIDFTermFrequencyInverseDocumentFrequency词条频率倒排文档频率TRECTextREtrievalConference文本检索会议VBVisualBasic微软开发的编程语言VCVisualC微软开发的编程语言XMLeXtensibleMarkupLanguage扩展标记语言限定领域下基于概念图的文本检索第一章绪论第页第一章绪论文本检索的基本概念和原理一个文本检索系统的功能通常定义为:帮助用户找到所需要的相关文本信息。文本检索系统一般不提供直接针对查询的答案,而是和查询相关的、可能包含答案的文本,需要用户从这些文本中进一步寻找需要的信息。通常认为文本检索系统事实上是完整问答(QA,QuestionandAnswer)系统的中间环节。初看起来,文本信息检索如同人们翻书查找资料,目的明确,方式也简单,因而文本信息检索就似乎是很清晰明确的,但是事实上并非如此。一旦人们引入计算机技术,这个过程就跟单纯的人工检索有了显著变化:首先,检索的速度非常快,如高性能的分布式计算机加之以优异的索引、存储等技术在几分钟的时间内就可遍历因特网上主要的网页其次,计算机虽然代替了人,但不具有人的智能,人类交流使用的语言无法为计算机所理解。而且,对比使用计算机检索,人工检索不自觉地进行的一个过程开始显露出来:做人工检索时经常没有能够准确表达自己的需求,而在检索的过程中,才不自觉地调整并明确检索的需求。这些问题只有在面对计算机的时候才会凸现出来。下面就让我们来看一下有关的概念和原理。根据文本检索界通常的理解,可以这样说明文本信息检索:如果给定一个文本集,文本信息检索的任务就是通过用户的查询,确定文本集的一个能满足用户信息需求的子集,其基本原理如图所示。这个子集是否满足用户的信息需求,应该有相应的标准,或者用形式化的方法来确定。然而到目前为止,尚无一个可以让计算机自动处理的完美标准。一般认为这样的标准是不可能形式化的,是不可计算的,因为通常由文本信息检索提供的答案是否正确,或者说是否满足了用户查询,只能由用户根据经验做出评估。可见文本信息检索的关键就是提出一个接近完美的文档和需求之间的匹配标准。限定领域下基于概念图的文本检索第一章绪论第页图文本检索的基本原理图FigFundamentalgraphoftextretrieval对比文本信息检索与数据库检索,文本信息检索的这些特点就更为明显。通常,数据库的数据有精确的语义,依照逻辑关系作结构化存储,并且检索是精确的,而文本检索的文档通常是无结构的或半结构化的,检索不要求精确匹配。通常,一个文档集合依照一定的方式形式化,查询也依照一定的方式形式化,这称为文档和查询的标引而标引并不能完全与文档和查询的语义相切合,因而特定查询和文档按照特定的相关性查询,就不能等同于数据库查询的精确匹配,而只能确定是否相关以及相关的程度。那么文档和查询的相关度是如何定义的,并且怎样来计算两者的相似度呢检索系统中的检索模型用来确定一个文档相对于一个查询的相关度,检索模型在检索系统中通常处于核心地位。对于用户而言,检索系统的检索模型是否优异,决定了检索系统是否优异。检索模型的关键概念,就是相关度概念。为了确定文档相对于一个查询的相关度,检索模型必须将非形式化的文档和查询形式化,并基于文档和查询的表示给出相关度的计算公式。显然,将非形式化的文档和查询形式化,理想的办法是文档和查询的表示即文档和查询的形式化与原文档和查询的语义完全相同,而基于文档和查询的表示的相关度公式则应该精确度量文档和查询的语义。然而实现这些理想的目标非常困难。研究者采取了多种办法来逼近这些目标,从而提高召回率或准确率,并提出了许多不同的检索模型。实验结果表明,现有模型离理想目限定领域下基于概念图的文本检索第一章绪论第页标还非常遥远。关于模型的研究主要在两个方面:一方面是关于模型的基础理论研究,例如布尔模型、向量空间模型等的提出另一方面则是许多对模型的经验研究,例如向量空间模型的许多变体。而本文的研究工作主要是围绕前者展开的。而依据相关性给出检索结果,也有不同策略。一些研究系统和评测活动(如TREC,TextRetrievalConference)通常将文档一分为二:相关文档和不相关文档。另外一种看法则是将文本按照相关性降序排列,支持这种做法的商用信息检索系统有Google,百度等Web搜索引擎。在无法保证相当的检索准确率的情况下,相信采用后者是比较好的选择。当文档排序列表送给用户后,如果用户把文档是否相关的信息又反馈给检索系统,然后系统就用这样的反馈信息改进检索过程,以得到更好的排序结果。该过程称相关性反馈。概率检索模型就支持这一机制。文本检索的历史文本检索作为一门学科,其历史可以追溯到世纪中期。在此以前,信息存储和传播主要以纸质为载体,文本检索活动也围绕着文献的获取和控制展开,研究的目的也在于如何合理的组织图书等文献资料,从而方便用户的查找,“文献检索”一度成为文本检索的同义词。世纪年代计算机得到了应用,人们开始使用“情报检索”这个概念。当时的文本检索,更接近于数据库检索的一种形式。随着通讯技术于计算机技术的紧密结合,信息载体类型的多元化以及传播手段的改进,情报检索研究和文献检索的研究逐渐归于文本检索研究这一具有兼容性的概念,研究范围也日趋扩展,形成了今天的“文本检索”。具体地说来,文本检索经历了从人工检索到机械检索,再到计算机检索的发展过程。人工检索()文本检索直接发源于图书馆的参考咨询工作和文摘索引工作。正规的参考咨询工作是由美国的公共图书馆和大专院校图书馆于世纪下半叶首先发展起来的。世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者限定领域下基于概念图的文本检索第一章绪论第页查找图书、期刊或现成的答案。随着文献的激增和读者需求的增长,逐渐发展到从多种文献源中查找、分析、评价和重新组织情报资料,“索引”突破了以前的狭义范畴,成为独立的检索工具,到年代又进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“检索”从此成为一种独立的用户服务工作,并逐渐从单纯的经验工作向科学化方向发展。脱机批处理检索()年世界上第一台电子计算机问世以后,年代初就有人开始研究其在文本检索领域的应用。年代中期到年代后期是文本检索的脱机批处理阶段。当时计算机还没有连接成网络,也没有远程终端装置,不能提供实时检索,只能进行报刊文献的定题检索(SelectiveDisseminationofInformation)和回溯性检索(RetrospectiveSearch),同时利用计算机编辑出版检索性刊物。年,美国海军机械试验中心使用IBM型机,初步建成了计算机情报检索系统,这预示着以计算机检索系统为代表的文本检索自动化时代的到来。联机检索()年美国系统发展公司(SDC)研制成功ORBIT(OnlineRetrievalofBibliographicInformationTimeshared)联机情报检索软件,开始了联机情报检索系统阶段。与此同时,美国烙克希德公司成功研制了Dialog检索系统。年代卫星通讯技术、微机计算机技术以及数据库技术的同步发展,使得用户得以冲破时间和空间的障碍,实现了国际联机检索。远程实时检索多种数据库是联机检索主要的优点。计算机检索技术从脱机阶段进入联机文本检索时期。联机检索是计算机技术、信息处理技术和现代通讯技术三者的有机结合。Web信息检索(今)Internet在六、七十年代初见雏形,八十年代末开始迅速流行。此时,单纯的人工检索和机械检索都显现出各自或多或少的缺点,因此极有必要发展一种新型的信息检索方式Web信息检索。Web信息检索系统包括了计算机在信息检索领域表现出来的全部优点。它是联机检索的高级阶段,使人们可以在很短的时间里查找到全球的信息。网络信息环境的出现,使得信息检索研究的对象和范围不断扩大,研限定领域下基于概念图的文本检索第一章绪论第页究队伍也有突破了原有的以图书情报领域的专家学者为主的框架,众多的科研机构以及商业公司加入到研究信息检索技术开放信息检索系统的行列。可以说,网络使计算机信息检索技术进入一个崭新发展阶段,而Web信息检索又使网络信息利用率提高,信息的组织更加有序和高效。文本检索技术的发展概况最早最典型的文本检索是图书馆的图书索引,根据书名、作者、出版社、出版时间、书号等信息对馆藏图书进行索引,读者只需根据索引即可很快的查到所需要的书存放在图书馆的什么地方。计算机出现以后,人们借助计算机可以更加方便的管理更多的文档,计算机硬盘甚至可以装下全世界所有图书馆藏书。为了快速查找计算机所管理的文档,出现了第一代文本检索技术,即根据关键字匹配,将包含关键字的文档挑出来作为检索结果呈现给用户。随着文档数量的增加,运用第一代文本检索技术已经很难检索出精确的检索结果,于是根据文本内容的第二代文本检索技术应运而生。即根据系统对文本和检索语句的理解,计算文本和检索语句的相似度,根据相似度对检索结果排序,将相似度最高的检索结果呈现给用户。互联网的出现和发展使得文本文献在互联网上的数量发展更加迅猛,文本的数量级和文本的结构都发生了变化:文本数量大幅度增长、互联网上的文本成为半结构化的。这给文本检索技术提出了更大的挑战和机遇。于是在基于相似度的检索技术基础上,出现了结合文本结构信息(如文本的网络地址、大小写、文本在页面中所处的位置、所指向的其他文本、指向自己的其他文本等)对检索结果集进行再排序的第三代文本检索技术,Google就是最典型的例子。现代的文本检索技术逐渐向语意理解、特定领域等方向发展。全世界科学家都在不遗余力的建设“本体库”,如WordNet、HowNet等本体字典。通过本体库将文本转化为语意集合,从提炼文本的语意,以提供语意层次的检索。此外,对于生限定领域下基于概念图的文本检索第一章绪论第页物、医学、法律、新闻、以及新出现的Blog等领域,都出现了专门针对单个领域的检索技术,并且得到了迅猛发展。研究背景和意义随着互联网络的迅速发展,Internet已经成为信息传播和共享的重要媒介之一。而Internet上的信息资源也以指数形式飞速增长。年月日,中国互联网络信息中心(CNNIC)对外发布了北京、上海、广州三地的《年中国搜索引擎市场调查报告》。报告显示,的用户每天都会多次用到搜索,的用户天天用搜索,超过的用户每周至少会用到一次搜索。然而,有研究显示,截至年月份,全球网页数量达到亿或者更多。人们已经从信息匮乏时代过度到信息极大丰富时代,如何从浩如烟海的网络信息中高效、准确地获取用户所需要的信息,已经成为亟待解决的问题。目前网民使用得较多的搜索引擎多采用全文检索技术,其核心是关键字符的机械式匹配,若在题名和全文中含有该关键词,则将该网页信息返回给用户,用户再通过此信息找到源网页。这种方式的固有缺点是参与匹配的只有字符的外在表现形式,而非他们所表达的概念,因此面临着如下的一些问题:一词多义问题。如“ATM”既可表示“异步传输模式”,也可表示“自动提款机”,当用户输入查询词“ATM”想了解“异步传输模式”时,却返回了大量与“自动提款机”相关的文本。同义词问题。“电脑”与“计算机”是同义的,但用户输入查询词“电脑”,包含“计算机”的文本并不被列进搜索结果,显然召回率有待提高。相互独立的关键词难以反映语义单元之间的相互关系。鉴于此,知识化、智能化的基于概念的检索技术的优势就显得尤为突出。现下已经有研究者利用概念关系扩展了传统的检索模型。这种方法通过对文本集合中繁多的原文信息进行语义上的自然语言处理来析取各种概念信息,并由此形成一个知识库,然后,根据对用户查询进行扩充得到一系列语义相同或相近但是语言表现形限定领域下基于概念图的文本检索第一章绪论第页式不同的一系列查询。基于概念的检索就是利用了词条在概念上的相关性,检索出那些并不显示的包含用户指定的词条,却包含其同义词或下位词的文档。基于概念的检索系统因实现了语义的蕴含扩展、语义的外延扩展和语义的相关扩展,可以较大幅度提高召回率。本文提出的基于概念图的文本检索模型,因为在文档与查询的标引技术上采用了能够表现概念之间的语义关系的标引方式递归概念图(RecursiveConceptualGraph),可以认为是真正意义上的概念检索。在我们看来,文本中任何一个组块的可计算语义不是传统形式语义学中的逻辑真值,而是对应的有结构形式的概念图。而文本的语义自动分析,也将变成一个从较小的递归概念图逐步地组合生成更大的递归概念图的运算过程,对应着句法分析中词(包括简单词和复合词)到基本短语,再到复合短语等更大句法范畴的逐步生成过程。整个待分析的语言字串的语义最终就由一个完整的递归概念图来表示。与现有的基于关键词的标引方式(比如倒排文档)相比,由于这种新颖的标引形式是建立在真正理解文本内容的基础上的,因此对文档和查询的内容刻画更为精确,从而提高检索的准确率。本文的内容安排本章介绍了文本检索的相关概念,原理及其发展历史,提出了基于关键词的文本检索技术存在的一些问题,并由此阐述了本文的研究意义。第二章论述经典的文本检索模型和近段时间兴起的基于概念的文本检索。第三章介绍Sowa概念图的定义,并由此引出递归概念图的定义,同时给出查询概念图和文档概念图的匹配算法。第四章则尝试在计算机上实现我们的检索模型,并详细介绍了一些用于提高检索效率的技术。第五章描述在与“游船”领域相关的文本集上进行基于概念图的检索模型与布尔检索模型的对比实验,然后对实验结果进行分析。第六章总结全文,指出进一步研究的方向。限定领域下基于概念图的文本检索第二章现有的文本检索技术第页第二章现有的文本检索技术从世纪年代中期以来,人们提出了大量的检索模型。从最初的一些较小的和较为结构化的文档所设计的特殊模型,发展到现在具有较强理论基础和能处理多种文档格式的模型。当前的模型能够处理具有复杂内部结构的文档,并且一般都具有学习和利用相关反馈进行查询优化等功能,使得系统性能大大提高。世纪年代,文本检索引入了布尔模型、向量空间模型和简单来率模型世纪年代,在新的人工智能技术的发展同时,产生了一些模拟专业文献搜集者和领域专家的专家系统,使用对用户建模以及自然语言处理等技术来辅助用户查询和文档的表示,并且产生了一些研究用的原型系统(如潜在语义索引模型)。世纪年代,当研究者们认识到了创建知识库的困难后,研究者们试图采用新的机器学习技术用于信息分析,如神经网络、遗传算法、Bayes推理网络等。世纪年代中期之后,随着搜索引擎的普及以及网络Spider、索引、超链接分析等技术的发展,文本检索已经成为更新、更强大的用于网络内容的搜索工具。根据文本检索的原理,我们知道文本检索模型应由以下三要素组成:()用户查询的表示。用户查询包括用户感兴感的关键词、自然语言、逻辑关系式等。()文档的表示。即文档内容的识别与表示。()匹配算法。也就是需求表示和文档表示之间的相关性的函数表示和查询结果的排序准则,它是文本检索模型的重要因素,决定了检索系统的基本性能。这章的开始就让我们以这三要素为出发通过介绍几个经典的检索模型来回顾一下传统的文本检索技术。经典的检索模型总的来说,当前研究和应用中最主要的有三个基本模型:()布尔模型(BooleanModel),它是许多商业信息检索系统的理论基础。在布尔模型中,文档和查询都被表示为索引项的集合。也就是说,这种模型是集合论的一种应用。()向量空间模型(VectorSpaceModel),把文档和查询表示成一个多维空间中的向量,向量之间的距离作为相似度的度量。这种模型使用的是代数理论知识。限定领域下基于概念图的文本检索第二章现有的文本检索技术第页()概率模型(ProbabilisticModel),把检索看作是文档和查询之间匹配成功的概率估计问题,使用概率理论作指导。布尔模型布尔模型(BooleanModel)是最典型的一种集合模型,是文本检索系统提供的基本功能,在传统的文本检索中有着广泛的应用。布尔检索就是采用布尔表达式来表示用户提问,通过对文本标识与用户给出的检索式进行逻辑比较来检索文档。用户表达式是把用户给出的检索词用“”(AND),“”(OR)等布尔运算符连结起来的式子。设文本集,,,,,,,为文本集中某一文档为的标引词集,则对于形如的检索式,如果有,,„,则为检索到的文本,我们称为命中文档,否则为非命中文档而对于形如的检索式,只要存在某个,,,,则为命中文档,如果不存在任何一个,,,,则为非命中文档。实现布尔检索,首先要对文本集中每个文档进行标识,标引词可以采用关键字、自由词、作者、篇名等能反映文档特征的词,其次,要对文档进行合理的组织,建立文档的索引,通常把文档组织成倒排文档结构,就是把与某标引词有关的所有文档的号数通过索引集中在一起,当通过该标引词查找文档时,可以立即找到文档所在的位置,从而检索到文档。布尔检索具有简单,易理解,容易在计算机上实现且检索速度快等优点,故在许多检索系统中得到应用,例如:Yahoo,Google,百度等诸多网络检索站点均采用布尔检索技术。虽然布尔检索有着许多优点,但它的缺陷是明显的:()布尔逻辑式的构造不易全面反映用户的需求。()匹配标准存在某些不合理的地方,例如:在针对某一个用“”连接的检索式时,系统把含有检索式中的一个或数个检索词的文档看作与那些不包含检索式中的任一检索词的文档一样无用。()检索结果不能按照用户定义的重要性排序输出。系统检索输出的文档中,排在第一位的文档不一定是文本集中最适合用户需要的文档,用户只能按照检索结果的顺序浏览才能知道文档中那些更适合自己的需要。为了克服上述缺陷,人们对布尔检索理论进行了改造,一种方法是对标引词引进权值,权值的大小即反映标引词在文档中的重要程度,由此,形成了所谓的加权布尔检索或称扩展布尔检索,如Bookstein检索模型,Salton模型等。限定领域下基于概念图的文本检索第二章现有的文本检索技术第页向量空间模型向量空间模型(VectorSpaceModel)克服了使用布尔模型中二元权值的缺点,采用非二元权值来表示特征项在文本和用户查询中的权重,提出了允许部分匹配的模型结构。在向量空间检索中,文档和用户查询均用一组相互独立的词条表示,设在文本集中,共使用了个词条,,,。文本集中某一文档可表示为:,,,。其中,,,分别为词,,,在文档中的权值。权值越大,表示该词在文档中的份量越大,即该词越能反映的内容权值越小,该词的份量越小,对于反映的内容所作贡献越小。同理用户的查询也可以表示为:,,,。一般有两种方法来确定权值,一种方法是由专家或者用户根据自己的经验与所掌握的领域知识人为的赋予权值,这种方法随意性很大,而且效率也很低,很难适用于大规模文本集的处理另一种方法是运用统计学的知识,也就是用文本的统计信息(如词频、词之间的同现频率等)来计算项的权重,大部分的统计方法都基于香农信息学理论:如果特征项在所有文本中出现的频率越高,那么它所包含的信息熵也就越少如果特征项只在少量文本中有较高的出现频率,那么该特征项就会拥有较高的信息熵。目前被广泛采用的权值计算公式是TFIDF公式:()其中(TermFrequency)表示特征项在文本中出现的次数,(InverseDocumentFrequency)表示特征项反比文本频率,一个著名的TFIDF加权方法:log()其中,表示全部文本数,表示文本集中出现的文本数。如果把,,,看作为维坐标系中的坐标轴,权植为对应的坐标值,那么文档和用户查询均可看成是由这坐标轴组成空间中的一个点,或称为向量。文档和用户之间的相似度有多种计算方法,例如可以通过计算这两个向量的夹角的余弦来获得:,()向量空间检索具有如下优点:()为标引词引进权值,通过调节标引词对应权值的大小来反映标引词与被标限定领域下基于概念图的文本检索第二章现有的文本检索技术第页引文档的相关程度,它部分地克服了传统布尔检索的缺陷。()模型能够检索出与用户的查询输入条件“近似”的的文档。()在模型中用余弦的方法来进行距离度量,是可以根据检索出的结果与查询条件的相关程度,对结果进行排序。另一方面向量空间模型同样具有自己的缺点,即在该模型中,有一个假定:所有的索引项之间是互相独立的。在上述TFIDF权重公式中,就没有考虑索引项之间的相互关系,但是人们在实践中发现,这些索引项的相互依赖性对系统的性能有相当的影响。因为在某些文档中,很多索引项都不是相互独立的,如果将向量空间模型不加选择地应用于语料库中所有的文档,必将损害系统的性能。概率模型概率模型(ProbabilisticModel)是为了解决检索中存在的一些不确定性而发展起来的,以数学理论中的概率论为原理的一种检索模型。让我们先简单了解一下它的基本原理。给定一个用户的查询,存在一个包含所有相关文档的集合,这样的集合看作是一个理想的结果文档集,这样可以把查询处理看作是对理想结果文档集的特征处理。问题是并不能确切地知道这些特征,我们所知道的是用索引项来表示这些文档特征,并且需要在初始阶段来估计这些特征。这种初始阶段的估计允许对首次检索的文档集合产生一个初步的有关理想结果集的概率描述。为了提高理想结果集的描述概率,用户需要对系统提供反馈(Feedback)操作。具体处理过程如下:用户大致流浪以下结果文档,决定哪些是相关的,哪些不是相关的,然后系统利用该信息重新定义理想结果集的概率描述重复以上过程,检索结果就会越来越接近真正的结果文档集。在此模型中,文本和用户查询的表示与布尔模型相同,如:文本可以表示为,,,,其中二元随机变量表示索引项是否在该文本中出现,如果出现,则,否则。同时,根据用户的检索,可以先将所有文本分为两类(这个过程不需要非常精确),一类与检索需求相关(集合),另一类与检索需求不相关(集合)。然后根据每个特征项在相关文本集合和无关文本集合的分布情况来计算索引项的权值设计为:log|,|,|,|,()其中|,表示对于查询来说,相关文档集合中文档出现索引项的概率,|,则表示对于查询,非相关文档集合中文档出现的概率。限定领域下基于概念图的文本检索第二章现有的文本检索技术第页则文档和查询的相似度计算方法为:,log||||()概率检索的优点是:()采用严格的数学理论为依据,为人们提供了一种概率理论基础来进行检索决策。()加入了相关反馈原理,可开发出检索性能更加稳定的检索系统。它的缺点也比较明显:增加存贮和计算资源的开销参数估计难度较大。基于概念的文本检索概述概念是关于具有共同属性的一组对象、事件或符号的知识。它可能是具体的,也可能是抽象地刻画、定义了一对象类的特征,通过描述元素表达出来。同一概念可以有多个抽象元素来表达,这些描述元素在此概念的约束下构成了同义关系,它们在此意义上可以等同起来。基于概念的检索就是在检索时对于这些描述元素自动归并为同一概念,因而不仅仅能检索出包含这个具体词汇的结果,还检索出包含那些与该词同属一类概念的词汇的结果。另外,概念并不是孤立存在的,一个概念总是与其他概念之间存在着各种各样的关系,根据概念之间的相互联系,在词的概念含义层次上建立联系,为检索用户提供相关的结果分析是基于概念的检索的另一个应用前景。基于概念的文本检索通过对文献中繁多的原文信息进行语义层次上的自然语言处理来析取各种概念信息,并由此形成一个知识库,然后,根据对用户的提问的理解来检索知识库中相关的信息以提供直接的回答。基于概念的检索就是利用了词条在概念上的相关性,检索出那些并不显示的包含用户指定的词条,却包含其同义词或下位词的文档。因此基于概念的检索必须实现语义蕴涵扩展(如查询“水果”时,也能查询“苹果”、“梨”、语义外延扩展如查询“猫”,也能查询“猫科动物”、“哺乳动物”、语义相关扩展(如查询“微软”时,也能查询“微软视窗”、“WindowsNET”),也许用户所真正需要的准确信息,不在用户的关键词中,而在搜索引擎主动给出的扩展信息中。因此,基于概念的检索主要有两个任务:同义扩展检索和相关概念联想。前者能够提高检索的召回率,后者会大大加强搜索引擎与人的交互,使其具有一定程度的智能。限定领域下基于概念图的文本检索第二章现有的文本检索技术第页用户接口概念提取索引模块知识库文本集索引数据库初始查询查询扩展检索模块排序后的检索结果图基于概念的文本检索基本框架结构FigBasicframeworkofconceptbasedtextretrieval现有的基于概念的检索的基本框架结构图所示,它包括:知识库,如词法、句法知识语义、语用知识常识语料库词典数据库禁用词表反向词频统计表等概念提取模块:借助知识库对用户输入的查询语句进行处理,获得能正确表达查询句的概念性词或词组,作为查询的输入概念输入查询扩展。查询扩展模块:核心模块,将用户输入的原始查询请求经过概念提取后,自动地根据用户的语义,加入新的检索词或短语。索引模块:将文档转变成索引向量。检索模块:将扩展后的需求转变成查询向量与索引数据库中的矢量进行匹配,计算相似度。限定领域下基于概念图的文本检索第二章现有的文本检索技术第页用户接口:为用户提供可视化的查询输入和结果输出界面。因该注意到这里的索引模块和检索模块与传统的检索模型没有区别,整个系统只是利用知识库对传统检索模型进行了扩展。基于概念的文本检索特点作为一种新型的文本检索,基于概念的文本检索与传统文本检索相比,其特点有:具有分析和理解自然语言的能力。传统文本检索的检索语言专门性很强,有着特别的规定和规则,用户必须经过学习才能掌握运用。基于概念的文本检索对用自然语言形式输入系统的文献内容和提问,运用语言处理方法和技术进行语义层次上的分析和理解,表达文献内容的主题和用户提问的意义,从中取得概念信息和范畴知识,在人机交互上较好地改善了文本检索系统的用户友好性。具有记忆能力。通过记忆机制,将输入的原文内容根据其概念来进行组织安排,自然语言处理所取得的概念信息和范畴知识存储到知识库中,并能自动补充与更新,记忆机制能进行必要的逻辑推理。具有专家系统(或称知识库)。文献内容和用户提问都能以概念和范畴等知识呈现形式存储在知识库中,通过语义分析机制和记忆机制获取的关于检索和推理的知识,用来匹配查找已有的信息来回答用户的提问和推理出新的信息满足用户的要求。具有较高的人机交互水平。由于传统文本检索采用规范化的检索用语,因而人机交互受到限制,停留在清单式的水平上。基于概念的文本检索用户和系统之间用自然语言进行交互式对话,根据文献内容和用户提问构成检索要点来输入,输出是将检索到的信息按用户要求进行最后加工,以自然语言的形式提供给用户,彼此利用信息的反馈来达到用户的提问与系统的回答之间的匹配。打破了关键词障碍。由于传统文本检索只是通过关键词的出现与否来检索文献,故查全率和查准率都很低。因此,关键词不适合用来表达文献的概念内容和意义。要打破这种关键词障碍,必须设法让文本检索系统具有分析和理解文献内容和意义的能力。由于基于概念的文本检索具备了这种能力,故而能够鉴别文献的相关性,避免漏检和误检,提高召回率和准确率。限定领域下基于概念图的文本检索第二章现有的文本检索技术第页概念知识库的建立基于概念的智能搜索引擎需要具备符合用户实际需要的知识库,在搜索时,引擎根据己有的知识库,了解检索词的意义并以此产生联想,从而找全相关文章。因此创建知识库是首要前提,应具备以下特点:知识足够丰富,要能达到一定规模,否则所提供的服务将是非常受限的,对用户的帮助也不大。知识准确度高,要能够正确反映客观规律,否则会直接影响检索的基本性能。知识表示要简洁、清晰、无歧义,便于计算机识别和运用。知识库整体结构要完整,既要知识定位快,又要存储空间小,尽量找到两者的最佳折中点。增量化管理,信息时代的最大特色就是新信息产生速度快,知识库最好实现增量化管理,才能同步地为用户提供服务。如果知识库只包含概念以及概念之间的关系,我们就称之为概念知识库,这是沿用一些研究者对之的称呼,在下一章我们会给它一个全新的名称概念结构(ConceptualStructure)。适当的知识表示是建立概念知识库系统的关键,语义网络是其中一种常用的表示方法。它是基于网络结构的一种主要的知识表示方式,语义网络强大的表达能力和灵活性,使之能通过多种机制来表达概念、规则及其之间的关联知识。概念语义网络是一个带标识的有向图,其中,节点表示各种概念、事务、属性和知识实体等有向边表示概念之间的联系,指明所联接的概念节点之间的各种语义关系。我们先来看一个计算机领域的简单概念语义网络,如图所示。从图中可以看到概念具有层次结构,不同的层次表明其抽象程度不同,层次越高概括性越强,包含的下位概念就可能越多。上位概念常常是下位概念的抽象、概括或整体表示下位概念往往是上位概念的属性、特征或说明,是对上位概念的补充和细化,它描述自己的独有属性,同时继承上位概念的属性。从这个意义上来看,概念语义网络首先是一个分类树。最高层,是最具概括性的概念,表明了一个独立的主题,以下各层逐步细化。例如:“计算机”可分为“软件”和“硬件”等。除层次关系外,概念之间又具有各种联系。为了表示概念之间的相互关系,在树型结构的基础上添加横向关系,把各个独立的概念联系起来,如“计算机”和“电脑”为同义关系。这些横向关系所联接的概念节点可以是任意层上的任意节点,从而构成一个语义网络。限定领域下基于概念图的文本检索第二章现有的文本检索技术第页图计算机领域的语义网络示意图FigDiagramofsemanticnetworkondomainofcomputer所以,整个概念语义网络图的构造可分为两步完成:第一步,用分类树的方法建立概念之间的上下层关系。上层概念是其所有子概念共同属性的概括,子概念则从不同角度对其父概念加以细化,同一父概念的所有子概念之间形成平等的兄弟关系。第二步,在分类树的基础上添加横向关系,把分类树上的各个节点联系起来,形成一个语义网络图。横向关系包括概念之间所有不属于分类树中上下位关系的相关映射。利用概念知识库改进传统检索模型现在大多数利用概念知识库改进传统检索模型的想法基本上都是在用户查询与文档匹配前,对用户查询进行扩展。考虑一个简单改进的布尔检索模型,它只处理关键词的析取式,也就是说只接受型如的查询式。为使描述尽可能简单,我们认为中的每一个关键词都是平等的,于是查询和文档的相似度可以按照如下的公式计算:,,()其中:,,,()可以看到这种改进的布尔检索方法克服了原有的缺点,可以将检索结果按此相似度的由高到低来进行排序。但是当时,文档的相似度就直接降低,这是不合理的。因为即使,与也不一定是毫不相关的

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +1积分

资料评分:

/32
0下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部

举报
资料