首页 文本信息检索技术

文本信息检索技术

文本信息检索技术期末课程论文论文标题：基于文本信息检索技术课程名称：信息检索技术课程编号：1220500 学生姓名：学生学号：所在学院：计算机科学与工程学院学习专业：计算机科学与技术课程教师： 2013年7月 4日文本具有与平台无关、支持基于内容的联想式超链接信息组织方式以及多媒体化的人机界面，因此成为Interact上信息组织、存储与发布的主要方式之一。但是，由于文本是一种非结构化文档，一般仅适合于信息的浏览和导航，而无法像数据库那样实现基于主题、关键词、内容等的信息检索。其次，一张主页至少对应一个以上的文...

期末课程论文论文标题：基于文本信息检索技术课程名称：信息检索技术课程编号：1220500 学生姓名：学生学号：所在学院：计算机科学与工程学院学习专业：计算机科学与技术课程教师： 2013年7月 4日文本具有与平台无关、支持基于内容的联想式超链接信息组织方式以及多媒体化的人机界面，因此成为Interact上信息组织、存储与发布的主要方式之一。但是，由于文本是一种非结构化文档，一般仅适合于信息的浏览和导航，而无法像数据库那样实现基于主题、关键词、内容等的信息检索。其次，一张主页至少对应一个以上的文件，当信息规模较大时，不仅文件数量巨大，而且文件间存在的错综复杂的链接关系也难以维护．在数字化图书馆、多媒体课件资源以及ICP(Intemet ContentPmvider)网站构造等应用中，这种情况尤为突出．因此，如何实现超文档的规范化管理，并提供基于主题和全文的检索功能，已经成为数字图书馆、多媒体远程教育中课件资源管理以及ICP服务的一个重要问题。目前，实现文本信息的全文检索，一般有以下两种解决途径：① 采用Web服务器自带的索引服务器，如Microsoft IIS自带的Index Server，这种方法只能实现字符串匹配查询，无法实现按主题查询，效率低下，无法跨平台，也无移植性；②通过将非结构化的文本文件集转换成结构化数据库，并对数据库中文本记录的特征字段进行标引。形成完整的文本数据库．在此基础上开发相应的基于web的检索引擎，实现对超文本查询的目的。本文在分析文本信息检索功能需求的基础上，提出了一种将非结构化的超文本转换为结构化数据库的模型，并且提出了一种支持文本信息全文检索的解决方案，在数字图书馆系统和多媒体远程教育系统的课件资源管理与检索中得到了实际应用和验证。功能需求与模型一般地,对于一个规模较大的超文本信息群，应向用户提供以下检索功能。 (1) 信息分类.通过对信息进行分级、分类组织，为用户提供信息源选择的功能，以便为用户导航或查询界定检索范围.对于范围过大的信息群，有必要采用二级甚至多级分类，使用户在进行具体检索前通过逐级选择信息类别达到缩小检索范围的目的。 (2) 组合条件.为用户提供不同源信息的组合检索，例如用户可以根据主题、作者、关键词、日期等栏目，提出综合检索要求。 (3) 全文检索.根据用户设定的条件，在全文范围内进行检索,并可按照检索词的特定指标评价检索匹配度,并实现检索结果的全文显示。 (4) 逐级检索.在信息检索中，首次检索可能因为条件不够精确而导致检索结果信息量过大，用户裔要在此基础上进行二次或多次检索，而每次检索都是以上次结果作为本次检索范围，以逐步缩小信息量.逐级检索技术对于用户而言，还具有启发作用，根据每次得到的中间结果.适时调整检索方向，达到逐步求精检索目标的目的。 (5) 结果处理.对于最终获得的检索结果，除了提供显示功能外，还应提供保存、Email转发、打印等功能。为了满足以上需求，需要解决以下两个问题:一是如何将非结构化的超文本信息集转换成结构化的数据库;二是在结构化转换的基础上如何实现全文检索。首先，将超文本文件集转换成超文本数据库，除了要满足无损性、可还原性等要求外[4]，为了实现对超文本数据库的有效管理，并且支持超文本信息查询，还应该具备以下功能。 (1) 特征标引.允许工作人员对转换后的超文本记录进行特征标引，如关键词、主题词、摘要、作者、日期等。因为这些信息都是Web用户查询所需要的，但转换程序无法从超文本文件中直接获取这些信息. (2) 安全刪除与替换.当刪除(或替换)超文本数据库中的一条记录时，系统将自动判断该记录对应的超文本是否和其他记录对应的超文本相关联。如存在关联,则给出瞢告,如果确认刪除，则由系统自动更新与此超文本相关的链接。 (3) 链接关系查看.以树状或网状形式反映出某一超文本和其他超文本文件之间的链接关系，工作人员可以一览全局。由此，可以得到如图1所示的超文本结构化转换与全文检索的实现模型。超文本检索引擎的原理为了有效说明超文本检索引擎的实现原理，先对超文本检索问题进行形式化描述．超文本信息集可以用有向图H=(N，E) 表示，其中N 为超文本结点集，即HTML文件集，E表示结点间的链接关系，又n = || N丨|，进一步定义以下术语及符号。 (1)超文本文件地址： =URT(HTML ) (2)超文本地址集U：U ={所有HTML文件对应的地址}= (3)超文本获取操作Ⅳ ：web浏览器根据地址Ui获得网页HTML文件的操作．表示为 = (4)链接关系L( )：对于任意结点P ∈N，可能存在若干指向其他结点的链接，设为 ( )，则 ( )={( )，( )，?，( )}式中：( )表示存在从指向的超链接。 (5)链接关系集L(N)：表示整个超文本信息集中的链接关系集合， = 由此，可以将超文本信息集进一步表示成为图1 超文本结构化转换与全文检索的实现 (6) 措词提取操作：表示从对应的HTML文件中提取其中有关检索的措词，如主题词、关键字、题名、作者甚至正文等信息，记作 , 式中表示主页的措词． (7) 措词集T：表示超文本信息集H 的所有措词的集合，表示为措诃关联：，若，且 ,则表示措词t与网页，相关．即用户以措词t检索时，网页将是检索结果之一。设集合P={HTML文件}，E表示超文本链接关系集，U={HTML文件对应的HTML}，则，，且式中表示浏览器使用URL地址u“获取Web服务器上的网页文件P的操作超文本检索引擎是指对于用户提交的查询条件，能够根据某种匹配规则，自动检索出与条件要求相吻合的所有超文本文件，并且将检索结果返回给用户。一般地，在超文本信息集中，有多个网页和措词t相关联，记式中：表示以措词t检索超文本信息集的结果；表示措词获取函数的逆函数，即检索函数．超文本检索引擎是在对超文本信息集H 进行链接关系分析和措词提取的基础上．通过以下操作实现的， , 即当Web用户通过浏览器给出措词t(即设定条件)，检索引擎将根据匹配规则从超文本信息集中检索出所有与之吻合的网页，同时获取这些网页的地址。超文本检索的实现 (1)网页措词提取通过机器人程序定期自动遍历指定的Internet站点．以获取相关的Web页面，并存储于本地机器中．再通过“超文本结构化分析与转换程序”建立超文本数据库，并从超文本中获取各种措词，存人数据库，作为超文本数据库的检索信息．其实现过程如图2所示图2 超文本收集与结构化转化流程 (2)查询条件的构造．由系统根据特征信息生成查询条件的结构框架，用户键人相应的措词．由系统自动生成查询条件(如SQL语句)提交给超文本检索引擎。 (3)匹配规则或检索算法．一般地．匹配包括精确匹配、模糊匹配和智能匹配3种．设用户对措词C提出检索条件p，措词C的值域为，则精确匹配成功可表示为，使得，而模糊匹配成功则可表示为，，使得，智能匹配是指利用语义关联等方法，对用户的一个检索条件，能检索出多个与措词近义的信息．其形式化描述如下：设，表示所有与措词相近的措词集，则智能匹配成功可，，使得 (4)查询结果的生成与处理．将查询结果以列表或报告的形式显示，并向用户提供电子邮件转发、打印、保存等功。 (5)逐级查询与结果复用．web检索是基于http协议，但该协议的无记忆性使得Web服务器无法区分两次检索请求之间的相互关系，同一用户的逐级检索请求被看成没有联系的两次请求在一段时间内记录用户的会话过程，根据用户的特征信息为用户建立单独的存储空间，存放两次检索的中间结果。对于用户k提交的特定检索请求，检索引擎将进行以下处理 (1)对于新检索请求，从信息全集空间内检索出结果，返回给用户，同时建立该用户本次检索的临时空间。 (2)对于逐级检索请求，将检索目标指引到对应的临时空间内，在缩小的空间内检索，结果返回，同时用本次结果选代上次的临时空间。上述处理可形式化描述如下，设信息全集空间为，用户的某个检索对应的临时空间为式中：表示由全集空间生成的第1次的临时空间．临时空间迭代算法可描述为对于超时不用的临时空间，由监控程序负责释放。应用和结论基于上述模型及算法，设计实现了基于Web的全文检索引擎，该引擎在鲁迅图书馆数字化网络信息系统和中国文献保障体系(CALLS)西北地区文献中心---西安交通大学钱学森数字化图书馆建设中得到了实际应用．在鲁迅图书馆建立了古桥、戏剧和黄酒等8个特色文化数据库．在钱学森图书馆建立了钱学森生平事迹全文数据库和自动化学科文献数据库，记录数近l0万条。实际应用表明：基于Web的逐级全文检索引擎，在将非结构化的超文本转换成结构化的数据库，并建立相应的措词索引数据库的基础上，能够实现基于主题、关键词、作者、日期、出处、自由词等多种方式的信息检索服务,并能实现条件复用，支持用户进行逐级检索，实际应用是成功的.值得指出的是，本文所提出的解决方案有较强的通用性，例如，可以应用在数字图书馆、远程教育课件资源检索以及 ICP网站的资源检索与管理等应用中。参考文献朱克亮网络时代文献检索教学改革探讨淮南工业学院学报(社会科学版) 皮德常一种基于嵌套关系模型的超文本数据库设计南京航空航天大学学报张映海基于概念的中文文本检索研究[D] 重庆大学王义基于语义场的文本检索技术的研究与实现[D] 安徽工业大学吴保松限定领域下基于概念图的文本检索[D] 上海交通大学

                    本文档为【文本信息检索技术】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

文本信息检索技术

你可能还喜欢