首页 限定领域下基于概念图的文本检索

限定领域下基于概念图的文本检索

举报
开通vip

限定领域下基于概念图的文本检索限定领域下基于概念图的文本检索 上海交通大学 硕士学位论文 限定领域下基于概念图的文本检索 姓名:吴保松 申请学位级别:硕士 专业:计算机软件与理论 指导教师:陆汝占 20071201限定领域下基于概念图的文本检索摘要 第 I 页 限定领域下基于概念图的文本检索 摘 要 文本检索是信息检索的重要组成部分,目前几乎所有搜索引擎都是 采用基于关键词的检索方法,其核心是关键字符的机械式匹配,存在的 问题之就是召回率和准确率比较低,从而导致检索系统的整体性能不理 想。基于概念的检索通过基于语义的自然...

限定领域下基于概念图的文本检索
限定领域下基于概念图的文本检索 上海交通大学 硕士学位论文 限定领域下基于概念图的文本检索 姓名:吴保松 申请学位级别:硕士 专业:计算机软件与理论 指导教师:陆汝占 20071201限定领域下基于概念图的文本检索摘要 第 I 页 限定领域下基于概念图的文本检索 摘 要 文本检索是信息检索的重要组成部分,目前几乎所有搜索引擎都是 采用基于关键词的检索方法,其核心是关键字符的机械式匹配,存在的 问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 之就是召回率和准确率比较低,从而导致检索系统的整体性能不理 想。基于概念的检索通过基于语义的自然语言处理来提取文本的各种概 念信息,根据对用户查询的准确理解来检索文本库中相关的信息,以提 供较好的检索结果,有效地弥补了关键词检索存在的缺陷。 本文就基于概念的检索中文档和查询的标引技术和匹配算法进行 了研究,提出了一种基于概念图的检索模型,并且在计算机上实现了其 基本框架,通过实验验证了其有效性,主要工作如下: 首先,提出了一种更适于自然语言自动分析的标引形式??递归概 念图。这种标引方式不仅识别文本中的有效概念,还确定它们之间的语 义关系,是真正语义层次上的标引方法。在用概念图对文档和查询进行 标引的前提下,还给出了文档概念图和查询概念图之间的匹配算法来计 算两者之间相似度,检索结果可以按此进行排序。 其次,构建了“游船”领域的概念结构,它对文本的概念图标引以 及文档概念图和用户查询概念图之间的相似度计算起支持作用。这项工 作分两部分:在“游船”领域的 200 个文本标题中,提取概念并组织成限定 领域下基于概念图的文本检索摘要 第 II 页 概念分类树;总结这些概念之间的语义关系,将这些关系编号,加入到 概念结构中。 然后,在计算机上实现我们的检索模型。在实现过程中,我们采用 了一些技术来提高检索效率,如:利用 XML 来表示文本的概念图标引, 利用构建哈希表加速概念相似度的计算等。 最后,利用我们实现的检索系统在与“游船”领域相关的文本集上 与布尔模型进行了对比实验。从实验结果看,对于绝大多数用户查询, 我们模型检索性能(召回率和准确率)的优势比较明显。 关键词:文本检索,检索模型,领域概念结构,递归概念图,匹配算法 限定领域下基于概念图的文本检索ABSTRACT 第 III 页 Conceptual Graph Based Text Retrieval in Specified Domain ABSTRACT Text retrieval is an important part of information retrieval. So far almost all the search engines use keyword-based retrieving methods, whose core is matching the critical characters mechanically. One of the existing problems is the low recall and precision, which leads to the unsatisfactory performance. Concept-based retrieval uses natural language processing to extract all kinds of conceptual information in the documents and makes full understanding of user queries, which can provide better retrieval results and effectively make up the defects of keyword-based retrievalThis paper mainly research on the indexing of documents and user queries and the matching algorithm in the concept-based retrieval, and proposed a new conceptual graph based retrieval model. Also, we implement the basic framework of the model on computer, and proved its efficiency by experiment. Our work is as following: First, propose a new indexing form of texts, Recursive Conceptual Graph, which is more suitable for automatic analysis of natural languageThis formalism not only emphasizes on the concepts in the texts, but also 限定领域下基于概念图的文本检索ABSTRACT 第 IV 页 specifies the semantic relation among them, because of which it is really an indexing method on semantic level. Meanwhile, we put forward a matching algorithm to calculate the similarity between the conceptual graphs of documents and those of user queries, according to which retrieval results can be rankedSecond, set up the conceptual structure in the specified domain of “Yacht”, which supports both the conceptual indexing of texts and the similarity calculation between documents’ conceptual graphs and the user queries’ ones. We accomplish this part of work in two steps: extract the concepts in the 200 texts’ titles of “yacht” domain, and construct them in to a conceptual taxonomy; then conclude the semantic relations among these concepts, and add them into the conceptual structure with a markerThird, implement our retrieval model on the computer. We adopt a few technologies to raise the efficiency of retrieval, such as using XML to represent the conceptual graphic indexing of texts and making use of the hash table to speed up the calculation of concepts’ similarityFinally, make an experiment to compare our retrieval model with Boolean model on the text collection of “yacht” domain. From the experimental results, our retrieval model’s performance recall and precision is much better on the most of the user queries 限定领域下基于概念图的文本检索ABSTRACT 第 V 页 Keywords: text retrieval, retrieval model, domain specified conceptual structure, recursive conceptual graph, matching algorithm 限定领域下基于概念图的文本检索符号与标记 第 55 页 符号与标记 缩写 英文全称 中文解释 AVS Attribute Value Structure 属性-值结构 CNNIC China Internet Network Information Center 中国互联网络信息中 心 NP Noun Phrase 名词短语 QA Question and Answer 问答 RCG Recursive Conceptual Graph 递归概念图 TF-IDF Term Frequency?Inverse Document Frequency 词条频率-倒排文档 频率 TREC Text REtrieval Conference 文本检索会议 VB Visual Basic 微软开发的编程语言 VC Visual C++ 微软开发的编程语言 XML eXtensible Markup Language 扩展标记语言??2008? 2? 15??2008? 2? 15??2008? 2? 15 限定领域下基于概念图的文本检索 第一章 绪论 第 1 页 第一章 绪论 1.1 文本检索的基本概念和原理 一个文本检索系统的功能通常定义为:帮助用户找到所需要的相关文本信息。 文本检索系统一般不提供直接针对查询的答案,而是和查询相关的、可能包含答案 的文本,需要用户从这些文本中进一步寻找需要的信息。通常认为文本检索系统事 实上是完整问答(QA, Question and Answer)系统的中间环节。 初看起来,文本信息检索如同人们翻 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf 查找资料,目的明确,方式也简单,因 而文本信息检索就似乎是很清晰明确的,但是事实上并非如此。一旦人们引入计算 机技术,这个过程就跟单纯的人工检索有了显著变化:首先,检索的速度非常快, 如高性能的分布式计算机加之以优异的索引、存储等技术在几分钟的时间内就可遍 历因特网上主要的网页;其次, 计算机虽然代替了人,但不具有人的智能,人类交 流使用的语言无法为计算机所理解。而且,对比使用计算机检索,人工检索不自觉 地进行的一个过程开始显露出来:做人工检索时经常没有能够准确表达自己的需求, 而在检索的过程中,才不自觉地调整并明确检索的需求。这些问题只有在面对计算 机的时候才会凸现出来。下面就让我们来看一下有关的概念和原理。 根据文本检索界通常的理解,可以这样说明文本信息检索:如果给定一个文本 集,文本信息检索的任务就是通过用户的查询,确定文本集的一个能满足用户信息 需求的子集,其基本原理如图 1-1 所示。这个子集是否满足用户的信息需求,应该 有相应的标准,或者用形式化的方法来确定。然而到目前为止, 尚无一个可以让计 算机自动处理的完美标准。一般认为这样的标准是不可能形式化的,是不可计算的, 因为通常由文本信息检索提供的答案是否正确,或者说是否满足了用户查询,只能 由用户根据经验做出评估。可见文本信息检索的关键就是提出一个接近完美的文档 和需求之间的匹配标准。 限定领域下基于概念图的文本检索 第一章 绪论 第 2 页图 1-1 文本检索的基本原理图 Fig. 1-1 Fundamental graph of text retrieval 对比文本信息检索与数据库检索,文本信息检索的这些特点就更为明显。通常, 数据库的数据有精确的语义,依照逻辑关系作结构化存储,并且检索是精确 的,而 文本检索的文档通常是无结构的或半结构化的,检索不要求精确匹配。通常, 一个 文档集合依照一定的方式形式化,查询也依照一定的方式形式化,这称为文档和查 询的标引;而标引并不能完全与文档和查询的语义相切合,因而特定查询和文档按 照特定的相关性查询,就不能等同于数据库查询的精确匹配,而只能确定是否相关 以及相关的程度。 那么文档和查询的相关度是如何定义的,并且怎样来计算两者的相似度呢?检 索系统中的检索模型用来确定一个文档相对于一个查询的相关度,检索模型在检索 系统中通常处于核心地位。对于用户而言,检索系统的检索模型是否优异,决定了 检索系统是否优异。检索模型的关键概念,就是相关度概念。为了确定文档相对于 一个查询的相关度,检索模型必须将非形式化的文档和查询形式化,并基于文档和 查询的表示给出相关度的计算 公式 小学单位换算公式大全免费下载公式下载行测公式大全下载excel公式下载逻辑回归公式下载 。显然, 将非形式化的文档和查询形式化,理想 的办法是文档和查询的表示即文档和查询的形式化与原文档和查询的语义完全相同, 而基于文档和查询的表示的相关度公式则应该精确度量文档和查询的语义。然而实 现这些理想的目标非常困难。研究者采取了多种办法来逼近这些目标,从而提高召 回率或准确率,并提出了许多不同的检索模型。实验结果表明,现有模型离理想目限定领域下基于概念图的文本检索 第一章 绪论 第 3 页 标还非常遥远。关于模型的研究主要在两个方面:一方面是关于模型的基础理论研 究,例如布尔模型、向量空间模型等的提出;另一方面则是许多对模型的经验研究, 例如向量空间模型的许多变体。而本文的研究工作主要是围绕前者展开的。 而依据相关性给出检索结果,也有不同策略。一些研究系统和评测活动(如 TREC,Text Retrieval Conference)通常将文档一分为二:相关文档和不相关文档。 另外一种看法则是将文本按照相关性降序排列,支持这种做法的商用信息检索系统 有 Google,百度等 Web 搜索引擎。在无法保证相当的检索准确率的情况下,相信采 用后者是比较好的选择。 当文档排序列表送给用户后,如果用户把文档是否相关的信息又反馈给检索系 统,然后系统就用这样的反馈信息改进检索过程,以得到更好的排序结果。该过程 称相关性反馈。概率检索模型就支持这一机制。 1.2 文本检索的历史 文本检索作为一门学科,其历史可以追溯到 20 世纪中期。在此以前,信息存储 和传播主要以纸质为载体,文本检索活动也围绕着文献的获取和控制展开,研究的 目的也在于如何合理的组织图书等文献资料,从而方便用户的查找,“文献检索”一 度成为文本检索的同义词。20 世纪 60 年代计算机得到了应用,人们开始使用“情 报检索”这个概念。当时的文本检索,更接近于数据库检索的一种形式。随着通讯 技术于计算机技术的紧密结合,信息载体类型的多元化以及传播手段的改进,情报 检索研究和文献检索的研究逐渐归于文本检索研究这一具有兼容性的概念,研究范 围也日趋扩展,形成了今天的“文本检索”。具体地说来,文本检索经历了从人工检 索到机械检索,再到计算机检索的发展过程[1]。 1. 人工检索(1896??1945) 文本检索直接发源于图书馆的参考咨询工作和文摘索引工作。正规的参考咨询 工作是由美国的公共图书馆和大专院校图书馆于 19 世纪下半叶首先发展起来的。20 世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者限定领域下基于概念图的文本检索 第一章 绪论 第 4 页 查找图书、期刊或现成的答案。随着文献的激增和读者需求的增长,逐渐发展到从 多种文献源中查找、分析、 评价 LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载 和重新组织情报资料,“索引”突破了以前的狭义范 畴,成为独立的检索工具,到 40 年代又进一步包括回答事实性咨询,编制书目、文 摘,进行专题文献检索,提供文献代译等。“检索”从此成为一种独立的用户服务工 作,并逐渐从单纯的经验工作向科学化方向发展。 2. 脱机批处理检索(1954??1965) 1946 年世界上第一台电子计算机问世以后,50 年代初就有人开始研究其在文本 检索领域的应用。50 年代中期到 60 年代后期是文本检索的脱机批处理阶 段。当时 计算机还没有连接成网络,也没有远程终端装置,不能提供实时检索,只能进行报 刊文献的定题检索( Selective Dissemination of Information)和回溯性检索 (Retrospective Search),同时利用计算机编辑出版检索性刊物。1954 年,美国海军 机械试验中心使用 IBM701 型机,初步建成了计算机情报检索系统,这预示着以计 算机检索系统为代表的文本检索自动化时代的到来。 3. 联机检索(1965??1991) 1965 年美国系统发展公司(SDC)研制成功 ORBIT(Online Retrieval of Bibliographic Information Time-shared)联机情报检索软件,开始了联机情报检索系 统阶段。与此同时,美国烙克希德公司成功研制了 Dialog 检索系统。70 年代卫星通 讯技术、微机计算机技术以及数据库技术的同步发展,使得用户得以冲破时间和空 间的障碍,实现了国际联机检索。远程实时检索多种数据库是联机检索主要的优点。 计算机检索技术从脱机阶段进入联机文本检索时期。联机检索是计算机技术、信息 处理技术和现代通讯技术三者的有机结合。 4. Web 信息检索(1991??今) Internet 在六、七十年代初见雏形,八十年代末开始迅速流行。此时,单纯的人 工检索和机械检索都显现出各自或多或少的缺点,因此极有必要发展一种新型的信 息检索方式??Web 信息检索。Web 信息检索系统包括了计算机在信息检索领域表 现出来的全部优点。它是联机检索的高级阶段,使人们可以在很短的时间里查找到 全球的信息。网络信息环境的出现,使得信息检索研究的对象和范围不断扩大,研限定领域下基于概念图的文本检索 第一章 绪论 第 5 页 究队伍也有突破了原有的以图书情报领域的专家学者为主的框架,众多的科研机构 以及商业公司加入到研究信息检索技术开放信息检索系统的行列。可以说,网络使 计算机信息检索技术进入一个崭新发展阶段,而 Web 信息检索又使网络信息利用率 提高,信息的组织更加有序和高效。 1.3 文本检索技术的发展概况 最早最典型的文本检索是图书馆的图书索引,根据书名、作者、出版社、出 版 时间、书号等信息对馆藏图书进行索引,读者只需根据索引即可很快的查到所需要 的书存放在图书馆的什么地方。 计算机出现以后,人们借助计算机可以更加方便的管理更多的文档,计算机硬 盘甚至可以装下全世界所有图书馆藏书。为了快速查找计算机所管理的文档,出现 了第一代文本检索技术,即根据关键字匹配,将包含关键字的文档挑出来作为检索 结果呈现给用户。 随着文档数量的增加,运用第一代文本检索技术已经很难检索出精确的检索结 果,于是根据文本内容的第二代文本检索技术应运而生。即根据系统对文本和检索 语句的理解,计算文本和检索语句的相似度,根据相似度对检索结果排序,将相似 度最高的检索结果呈现给用户。 互联网的出现和发展使得文本文献在互联网上的数量发展更加迅猛,文本的数 量级和文本的结构都发生了变化:文本数量大幅度增长、互联网上的文本成为半结 构化的。这给文本检索技术提出了更大的挑战和机遇。于是在基于相似度的检索技 术基础上,出现了结合文本结构信息(如文本的网络地址、大小写、文本在页面中 所处的位置、所指向的其他文本、指向自己的其他文本等)对检索结果集进行再排 序的第三代文本检索技术,Google 就是最典型的例子。 现代的文本检索技术逐渐向语意理解、特定领域等方向发展。全世界科学家都 在不遗余力的建设“本体库”,如 Word Net、How Net 等本体字典。通过本体库将 文本转化为语意集合,从提炼文本的语意,以提供语意层次的检索。此外,对于生限定领域下基于概念图的文本检索 第一章 绪论 第 6 页 物、医学、法律、新闻、以及新出现的 Blog 等领域,都出现了专门针对单个领域的 检索技术,并且得到了迅猛发展。 1.4 研究背景和意义 随着互联网络的迅速发展, Internet 已经成为信息传播和共享的重要媒介之一。 而 Internet 上的信息资源也以指数形式飞速增长。2005 年 8 月 29 日,中国互联网络 信息中心(CNN IC)对外发布了北京、上海、广州三地的《2005 年中国搜索引擎市 场调查 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 》[2]。报告显示,39%的用户每天都会多次用到搜索,55%的用户天天用 搜索,超过 80%的用户每周至少会用到一次搜索。然而,有研究显示,截至 2005 年 1 月份,全球网页数量达到 115 亿或者更多。人们已经从信息匮乏时代过度到信息 极大丰富时代,如何从浩如烟海的网络信息中高效、准确地获取用户所需要的信息, 已经成为亟待解决的问题。 目前网民使用得较多的搜索引擎多采用全文检索技术,其核心是关键字符的机 械式匹配,若在题名和全文中含有该关键词,则将该网页信息返回给用户,用户再 通过此信息找到源网页。这种方式的固有缺点是参与匹配的只有字符的外在表现形 式,而非他们所表达的概念,因此面临着如下的一些问题: 一词多义问题。如“ATM”既可表示“异步传输模式”,也可表示“自动提 款机”,当用户输入查询词“ATM”想了解“异步传输模式”时,却返回了大量与“自 动提款机”相关的文本。 同义词问题。“电脑”与“计算机”是同义的,但 用户输入查询词“电脑”, 包含“计算机”的文本并不被列进搜索结果,显然召回率有待提高。 相互独立的关键词难以反映语义单元之间的相互关系。 鉴于此,知识化、智能化的基于概念的检索技术的优势就显得尤为突出。现下 已经有研究者利用概念关系扩展了传统的检索模型。这种方法通过对文本集合中繁 多的原文信息进行语义上的自然语言处理来析取各种概念信息,并由此形成一个知 识库,然后,根据对用户查询进行扩充得到一系列语义相同或相近但是语言表现形限定领域下基于概念图的文本检索 第一章 绪论 第 7 页 式不同的一系列查询。基于概念的检索就是利用了词条在概念上的相关性,检索出 那些并不显示的包含用户指定的词条,却包含其同义词或下位词的文档。基于概念 的检索系统因实现了语义的蕴含扩展、语义的外延扩展和语义的相关扩展,可以较 大幅度提高召回率。 本文提出的基于概念图的文本检索模型,因为在文档与查询的标引技术上采用 了能够表现概念之间的语义关系的标引方式??递归概念图(Recursive Conceptual Graph),可以认为是真正意义上的概念检索。在我们看来,文本中任 何一个组块的可计算语义不是传统形式语义学中的逻辑真值,而是对应的有结构形 式的概念图。而文本的语义自动分析,也将变成一个从较小的递归概念图逐步地组 合生成更大的递归概念图的运算过程,对应着句法分析中词(包括简单词和复合词) 到基本短语,再到复合短语等更大句法范畴的逐步生成过程。整个待分析的语言字 串的语义最终就由一个完整的递归概念图来表示。与现有的基于关键词的标引方式 (比如倒排文档)相比,由于这种新颖的标引形式是建立在真正理解文本内容的基 础上的,因此对文档和查询的内容刻画更为精确,从而提高检索的准确率。 1.5 本文的内容安排 本章介绍了文本检索的相关概念,原理及其发展历史,提出了基于关键词的文 本检索技术存在的一些问题,并由此阐述了本文的研究意义。 第二章论述经典的文本检索模型和近段时间兴起的基于概念的文本检索。 第三章介绍 Sowa 概念图的定义,并由此引出递归概念图的定义,同时给出查 询概念图和文档概念图的匹配算法。 第四章则尝试在计算机上实现我们的检索模型,并详细介绍了一些用于提高检 索效率的技术。 第五章描述在与“游船”领域相关的文本集上进行基于概念图的检索模型与布 尔检索模型的对比实验,然后对实验结果进行分析。 第六章总结全文,指出进一步研究的方向。 限定领域下基于概念图的文本检索 第二章 现有的文本检索技术 第 8 页 第二章 现有的文本检索技术 从 20 世纪 60 年代中期以来,人们提出了大量的检索模型。从最初的一些较小 的和较为结构化的文档所设计的特殊模型,发展到现在具有较强理论基础和能处理 多种文档格式的模型。当前的模型能够处理具有复杂内部结构的文档,并且一般都 具有学习和利用相关反馈进行查询优化等功能,使得系统性能大大提高。 20 世纪 70 年代,文本检索引入了布尔模型、向量空间模型和简单来率模型; 20 世纪 80 年代,在新的人工智能技术的发展同时,产生了一些模拟专业文献搜集 者和领域专家的专家系统,使用对用户建模以及自然语言处理等技术来辅助用户查 询和文档的表示,并且产生了一些研究用的原型系统(如潜在语义索引模型)。20 世纪 90 年代,当研究者们认识到了创建知识库的困难后,研究者们试图采用新的机 器学习技术用于信息分析,如神经网络、遗传算法、Bayes 推理网络等。20 世纪 90 年代中期之后,随着搜索引擎的普及以及网络 Spider、索引、超链接分析等技术的 发展,文本检索已经成为更新、更强大的用于网络内容的搜索工具。 根据文本检索的原理,我们知道文本检索模型应由以下三要素组成: (1)用户查询的表示。用户查询包括用户感兴感的关键词、自然语言、逻辑关 系式等。 (2)文档的表示。即文档内容的识别与表示。 (3)匹配算法。也就是需求表示和文档表示之间的相关性的函数表示和查询结 果的排序准则,它是文本检索模型的重要因素,决定了检索系统的基本性能。 这章的开始就让我们以这三要素为出发通过介绍几个经典的检索模型来回顾一 下传统的文本检索技术。 2.1 经典的检索模型 总的来说,当前研究和应用中最主要的有三个基本模型: (1)布尔模型(Boolean Model),它是许多商业信息检索系统的理论基础。在 布尔模型中,文档和查询都被表示为索引项的集合。也就是说,这种模型是集合论 的一种应用。 (2)向量空间模型(Vector Space Model),把文档和查询表示成一个多维空间 中的向量,向量之间的距离作为相似度的度量。这种模型使用的是代数理论知识。 限定领域下基于概念图的文本检索 第二章 现有的文本检索技术 第 9 页 (3)概率模型(Probabilistic Model),把检索看作是文档和查询之间匹配成功 的概率估计问题,使用概率理论作指导。 2.1.1 布尔模型 布尔模型(Boolean Model)是最典型的一种集合模型,是文本检索系统提供的 基本功能,在传统的文本检索中有着广泛的应用。布尔检索就是采用布尔表达式来 表示用户提问,通过对文本标识与用户给出的检索式进行逻辑比较来检索文档。用 户表达式是把用户给出的检索词用“?”(AND),“?”(OR)等布尔运算符连结 起 来的式子。 设文本集?,,? ,?, 1,2,? ,为文本集中某一文档;为??的 标引词集,则对于形如?的检索式,如果有??,??, „,??则??为检索到的文本,我们称??为命中文档,否则??为非命中文档;而 对于形如?的检索式,只要存在某个 1,2,? ,, 则为命中文档,如果不存在任何一个 1,2,? ,,则??为非命中文档。 实现布尔检索,首先要对文本集中每个文档进行标识,标引词可以采用关键字、 自由词、作者、篇名等能反映文档特征的词,其次,要对文档进行合理的组织,建 立文档的索引,通常把文档组织成倒排文档结构,就是把与某标引词有关的所有文 档的号数通过索引集中在一起,当通过该标引词查找文档时,可以立即找到文档所 在的位置,从而检索到文档。布尔检索具有简单,易理解,容易在计算机上实现且 检索速度快等优点,故在许多检索系统中得到应用,例如:Yahoo,Google,百度 等诸多网络检索站点均采用布尔检索技术。 虽然布尔检索有着许多优点,但它的缺陷是明显的: (1)布尔逻辑式的构造不易全面反映用户的需求。 (2)匹配标准存在某些不合理的地方,例如:在针对某一个用“?”连接的检 索式时,系统把含有检索式中的一个或数个检索词的文档看作与那些不包含检索式 中的任一检索词的文档一样无用。 (3)检索结果不能按照用户定义的重要性排序输出。系统检索输出的文档中, 排在第一位的文档不一定是文本集中最适合用户需要的文档,用户只能按照检索结 果的顺序浏览才能知道文档中那些更适合自己的需要。 为了克服上述缺陷,人们对布尔检索理论进行了改造,一种方法是对标引词引 进权值,权值的大小即反映标引词在文档中的重要程度,由此,形成了所谓的加权 布尔检索或称扩展布尔检索,如 Bookstein 检索模型,Salton 模型等[3]。 限定领域下基于概念图的文本检索 第二章 现有的文本检索技术 第 10 页 2.1.2 向量空间模型 向量空间模型(Vector Space Model)克服了使用布尔模型中二元权值的缺点, 采用非二元权值来表示特征项在文本和用户查询中的权重,提出了允许部分匹配的 模型结构。 在向量空间检索中,文档和用户查询均用一组相互独立的词条表示,设在文 本 集?中,共使用了?个词条,,? ,。文本集?中某一文档??可表示为:?,?,? ,?。其中,?,? ,分别为词??,,? ,在文档??中的权值。 权值越大,表示该词在文档中的份量越大,即该词越能反映??的内容;权值越小, 该词的份量越小,对于反映??的内容所作贡献越小。同理用户的查询也可以表示为:?,?,? ,?。 一般有两种方法来确定权值,一种方法是由专家或者用户根据自己的经验与 所掌握的领域知识人为的赋予权值,这种方法随意性很大,而且效率也很低,很难 适用于大规模文本集的处理;另一种方法是运用统计学的知识,也就是用文本的统 计信息(如词频、词之间的同现频率等)来计算项的权重,大部分的统计方法都基 于香农信息学理论:1如果特征项在所有文本中出现的频率越高,那么它所包含的 信息熵也就越少;2如果特征项只在少量文本中有较高的出现频率,那么该特征项 就会拥有较高的信息熵。目前被广泛采用的权值计算公式是 TF-IDF 公式: (2-1) 其中??(Term Frequency)表示特征项??在文本??中出现的次数, (Inverse Document Frequency)表示特征项??反比文本频率,一个著名的 TF-IDF 加 权方法[3]:? log (2-2) 其中,?表示全部文本数,??表示文本集中出现??的文本数。 如果把??,,? ,看作为?维坐标系中的坐标轴,权植为对应的坐标值,那 么 文档和用户查询均可看成是由这坐标轴组成空间中的一个点,或称为向量。文档 和用户之间的相似度有多种计算方法,例如可以通过计算这两个向量的夹角的余弦 来获得:??, ?????? (2-3) 向量空间检索具有如下优点: (1)为标引词引进权值,通过调节标引词对应权值的大小来反映标引词与被标限定领域下基于概念图的文本检索 第二章 现有的文本检索技术 第 11 页 引文档的相关程度,它部分地克服了传统布尔检索的缺陷。 (2)模型能够检索出与用户的查询输入条件“近似”的的文档。 (3)在模型中用余弦的方法来进行距离度量,是可以根据检索出的结果与查询 条件的相关程度,对结果进行排序。 另一方面向量空间模型同样具有自己的缺点,即在该模型中,有一个假定:所 有的索引项之间是互相独立的。在上述 TF-IDF 权重公式中,就没有考虑索引项之 间的相互关系,但是人们在实践中发现,这些索引项的相互依赖性对系统的 性能有 相当的影响。因为在某些文档中,很多索引项都不是相互独立的,如果将向量空间 模型不加选择地应用于语料库中所有的文档,必将损害系统的性能。 2.1.3 概率模型 概率模型(Probabilistic Model)是为了解决检索中存在的一些不确定性而发展 起来的,以数学理论中的概率论为原理的一种检索模型。让我们先简单了解一下它 的基本原理。给定一个用户的查询,存在一个包含所有相关文档的集合,这样的集 合看作是一个理想的结果文档集,这样可以把查询处理看作是对理想结果文档集的 特征处理。问题是并不能确切地知道这些特征,我们所知道的是用索引项来表示这 些文档特征,并且需要在初始阶段来估计这些特征。这种初始阶段的估计允许对首 次检索的文档集合产生一个初步的有关理想结果集的概率描述。为了提高理想结果 集的描述概率,用户需要对系统提供反馈(Feedback)操作。具体处理过程如下: 用户大致流浪以下结果文档,决定哪些是相关的,哪些不是相关的,然后系统 利用 该信息重新定义理想结果集的概率描述;重复以上过程,检索结果就会越来越接近 真正的结果文档集。 在此模型中,文本和用户查询的表示与布尔模型相同,如:文本?可以表示为??,,? ,,其中二元随机变量??表示索引项是否在该文本中出现,如果出 现,则? 1,否则? 0。同时,根据用户的检索?,可以先将所有文本分为两类 (这个过程不需要非常精确),一类与检索需求?相关(集合?),另一类与检索需求 不相关(集合)。然后根据每个特征项在相关文本集合和无关文本集合的分布情况 来计算索引项的权值设计为: log??|?,|?,??|??,|??,(2-4) 其中??|?,表示对于查询?来说,相关文档集合中文档出现索引项的概率,|,则表示对于查询?,非相关文档集合中文档出现的概率。 限定领域下基于概念图的文本检索 第二章 现有的文本检索技术 第 12 页 则文档?和查询?的相似度计算方法为:?,? ?log??||?|?|(2-5) 概率检索的优点是: (1)采用严格的数学理论为依据,为人们提供了一种概率理论基础来进行检索 决策。 (2)加入了相关反馈原理,可开发出检索性能更加稳定的检索系统。 它的缺点也比较明显:增加存贮和计算资源的开销;参数估计难度较大。 2.2 基于概念的文本检索 2.2.1 概述 概念是关于具有共同属性的一组对象、事件或符号的知识。它可能是具体的, 也可能是抽象地刻画、定义了一对象类的特征,通过描述元素表达出来。同一概念 可以有多个抽象元素来表达,这些描述元素在此概念的约束下构成了同义关系,它 们在此意义上可以等同起来。基于概念的检索就是在检索时对于这些描述元素自动 归并为同一概念,因而不仅仅能检索出包含这个具体词汇的结果,还检索出包含那 些与该词同属一类概念的词汇的结果。 另外,概念并不是孤立存在的,一个概念总是与其他概念之间存在着各种各样 的关系,根据概念之间的相互联系,在词的概念含义层次上建立联系,为检索用户 提供相关的结果分析是基于概念的检索的另一个应用前景。基于概念的文本检索通 过对文献中繁多的原文信息进行语义层次上的自然语言处理来析取各种概念信息, 并由此形成一个知识库,然后,根据对用户的提问的理解来检索知识库中相关的信 息以提供直接的回答。基于概念的检索就是利用了词条在概念上的相关性,检索出 那些并不显示的包含用户指定的词条,却包含其同义词或下位词的文档。因此基于 概念的检索必须实现语义蕴涵扩展(如查询“水果”时,也能查询“苹果”、“梨”、 语义外延扩展如查询“猫”,也能查询“猫科动物”、“哺乳动物”、语义相关扩展 (如查询“微软”时,也能查询“微软视窗”、“Windows.NET”),也许用户所真正 需要的准确信息,不在用户的关键词中,而在搜索引擎主动给出的扩展信息中。 因此,基于概念的检索主要有两个任务:同义扩展检索和相关概念联想。前者 能够提高检索的召回率,后者会大大加强搜索引擎与人的交互,使其具有一定程度 的智能。 限定领域下基于概念图的文本检索 第二章 现有的文本检索技术 第 13 页 用 户 接 口 概念提取 索引模块 知识库 文本集 索引数据库 初始查询 查询扩展 检索模块 排序后的检索结果图 2-1 基于概念的文本检索基本框架结构 Fig. 2-1 Basic framework of concept based text retrieval 现有的基于概念的检索的基本框架结构图 2-1 所示,它包括: 知识库,如词法、句法知识;语义、语用知识;常识;语料库;词典数据 库;禁用词表;反向词频统计表等 概念提取模块:借助知识库对用户输入的查询语句进行处理,获得能正确 表达查询句的概念性词或词组,作为查询的输入概念输入查询扩展。 查询扩展模块:核心模块,将用户输入的原始查询请求经过概念提取后, 自动地根据用户的语义,加入新的检索词或短语。 索引模块:将文档转变成索引向量。 检索模块:将扩展后的需求转变成查询向量与索引数据库中的矢量进行匹 配,计算相似度。 限定领域下基于概念图的文本检索 第二章 现有的文本检索技术 第 14 页 用户接口:为用户提供可视化的查询输入和结果输出界面。 因该注意到这里的索引模块和检索模块与传统的检索模型没有区别,整个系统 只是利用知识库对传统检索模型进行了扩展。 2.2.2 基于概念的文本检索特点 作为一种新型的文本检索,基于概念的文本检索与传统文本检索相比,其特点 有: 具有分析和理解自然语言的能力。传统文本检索的检索语言专门性很强, 有着特别的规定和规则,用户必须经过学习才能掌握运用。基于概念的文本检索对 用自然语言形式输入系统的文献内容和提问,运用语言处理方法和技术进行语义层 次上的分析和理解,表达文献内容的主题和用户提问的意义,从中取得概念信息和 范畴知识,在人机交互上较好地改善了文本检索系统的用户友好性。 具有记忆能力。通过记忆机制,将输入的原文内容根据其概念来进行组织 安排,自然语言处理所取得的概念信息和范畴知识存储到知识库中,并能自动补充 与更新,记忆机制能进行必要的逻辑推理。 具有专家系统(或称知识库)。文献内容和用户提问都能以概念和范畴等知 识呈现形式存储在知识库中,通过语义分析机制和记忆机制获取的关于检索 和推理 的知识,用来匹配查找已有的信息来回答用户的提问和推理出新的信息满足用户的 要求。 具有较高的人机交互水平。由于传统文本检索采用规范化的检索用语,因 而人机交互受到限制,停留在清单式的水平上。基于概念的文本检索用户和系统之 间用自然语言进行交互式对话,根据文献内容和用户提问构成检索要点来输入,输 出是将检索到的信息按用户要求进行最后加工,以自然语言的形式提供给用户,彼 此利用信息的反馈来达到用户的提问与系统的回答之间的匹配。 打破了关键词障碍。由于传统文本检索只是通过关键词的出现与否来检索 文献,故查全率和查准率都很低。因此,关键词不适合用来表达文献的概念内容和 意义。要打破这种关键词障碍,必须设法让文本检索系统具有分析和理解文献内容 和意义的能力。由于基于概念的文本检索具备了这种能力,故而能够鉴别文献的相 关性,避免漏检和误检,提高召回率和准确率。 限定领域下基于概念图的文本检索 第二章 现有的文本检索技术 第 15 页 2.2.3 概念知识库的建立 基于概念的智能搜索引擎需要具备符合用户实际需要的知识库,在搜索时,引 擎根据己有的知识库,了解检索词的意义并以此产生联想,从而找全相关文章。因 此创建知识库是首要前提,应具备以下特点: 知识足够丰富,要能达到一定规模,否则所提供的服务将是非常受限的, 对用户的帮助也不大。 知识准确度高,要能够正确反映客观规律,否则会直接影响检索的基本性 能。 知识表示要简洁、清晰、无歧义,便于计算机识别和运用。 知识库整体结构要完整,既要知识定位快,又要存储空间小,尽量找到两 者的最佳折中点。 增量化管理,信息时代的最大特色就是新信息产生速度快,知识库最好实 现增量化管理,才能同步地为用户提供服务。 如果知识库只包含概念以及概念之间的关系,我们就称之为概念知识库,这是 沿用一些研究者对之的称呼,在下一章我们会给它一个全新的名称??概念结构 (Conceptual Structure)。适当的知识表示是建立概念知识库系统的关键,语义网络 是其中一种常用的表示方法。它是基于网络结构的一种主要的知识表示方式,语义 网络强大的表达能力和灵活性,使之能通过多种机制来表达概念、规则及其之间的 关联知识。概念语义网络是一个带标识的有向图,其中,节点表示各种概念、事务、 属性和知识实体等;有向边表示概念之间的联系,指明所联接的概念节点之间的各 种语义关系[4]。 我们先来看一个计算机领域的简单概念语义网络[5],如图 2-2 所示。从图中可 以看到概念具有层次结构,不同的层次表明其抽象程度不同,层次越高概括性越强, 包含的下位概念就可能越多。上位概念常常是下位概念的抽象、概括或整体表示; 下位概念往往是上位概念的属性、特征或说明,是对上位概念的补充和细化,它描 述自己的独有属性,同时继承上位概念的属性。从这个意义上来看,概念语义网络 首先是一个分类树。最高层,是最具概括性的概念,表明了一个独立的主题,以下 各层逐步细化。例如:“计算机”可分为“软件”和“硬件”等。除层次关系外,概 念之间又具有各种联系。为了表示概念之间的相互关系,在树型结构的基础 上添加 横向关系,把各个独立的概念联系起来,如“计算机”和“电脑”为同义关系。这 些横向关系所联接的概念节点可以是任意层上的任意节点,从而构成一个语义网络。限定领域下基于概念图的文本检索 第二章 现有的文本检索技术 第 16 页 图 2-2 计算机领域的语义网络示意图 Fig. 2-2 Diagram of semantic network on domain of computer 所以,整个概念语义网络图的构造可分为两步完成:第一步,用分类树的方法 建立概念之间的上下层关系。上层概念是其所有子概念共同属性的概括,子概念则 从不同角度对其父概念加以细化,同一父概念的所有子概念之间形成平等的兄弟关 系。第二步,在分类树的基础上添加横向关系,把分类树上的各个节点联系起来, 形成一个语义网络图。横向关系包括概念之间所有不属于分类树中上下位关系的相 关映射。 2.2.4 利用概念知识库改进传统检索模型 现在大多数利用概念知识库改进传统检索模型的想法基本上都是在用户查询与 文档匹配前,对用户查询进行扩展。考虑一个简单改进的布尔检索模型,它只 处理 关键词的析取式,也就是说只接受型如?的查询式。为使描述尽 可能简单,我们认为?中的每一个关键词??都是平等的,于是查询和文档的相似度 可以按照如下的公式计算:?,??, (2-6) 其中:??1??,1,0, (2-7) 可以看到这种改进的布尔检索方法克服了原有的缺点,可以将检索结果按此相 似度的由高到低来进行排序。但是当时,文档的相似度就直接降低1 ,这是 不合理的。因为即使,?与??也不一定是毫不相关的
本文档为【限定领域下基于概念图的文本检索】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_637320
暂无简介~
格式:doc
大小:64KB
软件:Word
页数:33
分类:工学
上传时间:2017-11-12
浏览量:13