首页 文本信息检索技术

文本信息检索技术

举报
开通vip

文本信息检索技术 期末课程论文 论文标题:基于文本信息检索技术 课程名称:信息检索技术 课程编号:1220500 学生姓名: 学生学号: 所在学院:计算机科学与工程学院 学习专业:计算机科学与技术 课程教师: 2013年7月 4日 文本具有与平台无关、支持基于内容的联想式超链接信息组织方式以及多媒体化的人机界面,因此成为Interact上信息组织、存储与发布的主要方式之一。但是,由于文本是一种非结构化文档,一般仅适合于信息的浏览和导航,而无法像数据库那样实现基于主题、关键词、内容等的信息检索。其次,一张主页至少对应一个以上的文...

文本信息检索技术
期末课程论文 论文标题:基于文本信息检索技术 课程名称:信息检索技术 课程编号:1220500 学生姓名: 学生学号: 所在学院:计算机科学与工程学院 学习专业:计算机科学与技术 课程教师: 2013年7月 4日 文本具有与平台无关、支持基于内容的联想式超链接信息组织方式以及多媒体化的人机界面,因此成为Interact上信息组织、存储与发布的主要方式之一。但是,由于文本是一种非结构化文档,一般仅适合于信息的浏览和导航,而无法像数据库那样实现基于主题、关键词、内容等的信息检索。其次,一张主页至少对应一个以上的文件,当信息规模较大时,不仅文件数量巨大,而且文件间存在的错综复杂的链接关系也难以维护.在数字化图书馆、多媒体 课件 超市陈列培训课件免费下载搭石ppt课件免费下载公安保密教育课件下载病媒生物防治课件 可下载高中数学必修四课件打包下载 资源以及ICP(Intemet ContentPmvider)网站构造等应用中,这种情况尤为突出.因此,如何实现超文档的规范化管理,并提供基于主题和全文的检索功能,已经成为数字图书馆、多媒体远程教育中课件资源管理以及ICP服务的一个重要问题。 目前,实现文本信息的全文检索,一般有以下两种解决途径:① 采用Web服务器自带的索引服务器,如Microsoft IIS自带的Index Server,这种方法只能实现字符串匹配查询,无法实现按主题查询,效率低下,无法跨平台,也无移植性;②通过将非结构化的文本文件集转换成结构化数据库,并对数据库中文本记录的特征字段进行标引。形成完整的文本数据库.在此基础上开发相应的基于web的检索引擎,实现对超文本查询的目的。 本文在 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 文本信息检索功能需求的基础上,提出了一种将非结构化的超文本转换为结构化数据库的模型,并且提出了一种支持文本信息全文检索的解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 ,在数字图书馆系统和多媒体远程教育系统的课件资源管理与检索中得到了实际应用和验证。 功能需求与模型 一般地,对于一个规模较大的超文本信息群,应向用户提供以下检索功能。 (1) 信息分类.通过对信息进行分级、分类组织, 为用户提供信息源选择的功能,以便为用户导航或 查询界定检索范围.对于范围过大的信息群,有必要 采用二级甚至多级分类,使用户在进行具体检索前 通过逐级选择信息类别达到缩小检索范围的目的。 (2) 组合条件.为用户提供不同源信息的组合检 索,例如用户可以根据主题、作者、关键词、日期等栏 目,提出综合检索要求。 (3) 全文检索.根据用户设定的条件,在全文范 围内进行检索,并可按照检索词的特定指标评价检 索匹配度,并实现检索结果的全文显示。 (4) 逐级检索.在信息检索中,首次检索可能因 为条件不够精确而导致检索结果信息量过大,用户 裔要在此基础上进行二次或多次检索,而每次检索 都是以上次结果作为本次检索范围,以逐步缩小信 息量.逐级检索技术对于用户而言,还具有启发作 用,根据每次得到的中间结果.适时调整检索方向, 达到逐步求精检索目标的目的。 (5) 结果处理.对于最终获得的检索结果,除了 提供显示功能外,还应提供保存、Email转发、打印等功能。 为了满足以上需求,需要解决以下两个问题:一 是如何将非结构化的超文本信息集转换成结构化的 数据库;二是在结构化转换的基础上如何实现全文检索。 首先,将超文本文件集转换成超文本数据库,除 了要满足无损性、可还原性等要求外[4],为了实现 对超文本数据库的有效管理,并且支持超文本信息 查询,还应该具备以下功能。 (1) 特征标引.允许工作人员对转换后的超文本 记录进行特征标引,如关键词、主题词、摘要、作者、 日期等。因为这些信息都是Web用户查询所需要 的,但转换程序无法从超文本文件中直接获取这些 信息. (2) 安全刪除与替换.当刪除(或替换)超文本数 据库中的一条记录时,系统将自动判断该记录对应 的超文本是否和其他记录对应的超文本相关联。如存在关联,则给出瞢告,如果确认刪除,则由系统自 动更新与此超文本相关的链接。 (3) 链接关系查看.以树状或网状形式反映出某 一超文本和其他超文本文件之间的链接关系,工作 人员可以一览全局。 由此,可以得到如图1所示的超文本结构化转 换与全文检索的实现模型。 超文本检索引擎的原理 为了有效说明超文本检索引擎的实现原理,先对超文本检索问题进行形式化描述.超文本信息集可以用有向图H=(N,E) 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示,其中N 为超文本结点集,即HTML文件集,E表示结点间的链接关系,又n = || N丨|,进一步定义以下术语及符号。 (1)超文本文件地址: =URT(HTML )  (2)超文本地址集U:U ={所有HTML文件对应的地址}= (3)超文本获取操作Ⅳ :web浏览器根据地址Ui获得网页HTML文件的操作.表示为 = (4)链接关系L( ):对于任意结点P ∈N, 可能存在若干指向其他结点的链接,设为 ( ),则 ( )={( ),( ),?,( )}式中:( )表示存在从 指向 的超链接。 (5)链接关系集L(N):表示整个超文本信息集中的链接关系集合, = 由此,可以将超文本信息集进一步表示成为 图1 超文本结构化转换与全文检索的实现 (6) 措词提取操作 :表示从 对应的HTML文件中提取其中有关检索的措词,如主题词、关键字、题名、作者甚至正文等信息,记作 , 式中 表示主页 的措词. (7) 措词集T:表示超文本信息集H 的所有措词的集合,表示为 措诃关联: ,若 ,且 ,则表示措词t与网页 ,相关.即用户以措词t检索 时,网页 将是检索结果之一。 设集合P={HTML文件},E表示超文本链接关系集,U={HTML文件对应的HTML},则 , ,且 式中 表示浏览器使用URL地址u“获取Web服务器上的网页文件P的操作超文本检索引擎是指对于用户提交的查询条件,能够根据某种匹配规则,自动检索出与条件要求相吻合的所有超文本文件,并且将检索结果返回给用户。 一般地,在超文本信息集中,有多个网页 和措词t相关联,记 式中: 表示以措词t检索超文本信息集的结果; 表示措词获取函数的逆函数,即检索函数.超文本检索引擎是在对超文本信息集H 进行链接关系分析和措词提取的基础上.通过以下操作实现的 , , 即当Web用户通过浏览器给出措词t(即设定条件),检索引擎将根据匹配规则从超文本信息集中检索出所有与之吻合的网页,同时获取这些网页的地址。 超文本检索的实现 (1)网页措词提取 通过机器人程序定期自动遍历指定的Internet站点.以获取相关的Web页面,并存储于本地机器中.再通过“超文本结构化分析与转换程序”建立超文本数据库,并从超文本中获取各种措词,存人数据库,作为超文本数据库的检索信息.其实现过程如图2所示 图2 超文本收集与结构化转化流程 (2)查询条件的构造.由系统根据特征信息生成查询条件的结构框架,用户键人相应的措词.由系统自动生成查询条件(如SQL语句)提交给超文本检索引擎。 (3)匹配规则或检索算法.一般地.匹配包括精确匹配、模糊匹配和智能匹配3种.设用户对措词C提出检索条件p,措词C的值域为 ,则精确匹配成功可表示为 , 使得 ,而模糊匹配成功则可表示为 , ,使得 ,智能匹配是指利用语义关联等方法,对用户的一个检索条件,能检索出多个与措词近义的信息.其形式化描述如下:设 ,表示所有与措词 相近的措词集 ,则智能匹配成功可 , ,使得 (4)查询结果的生成与处理.将查询结果以列表或 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 的形式显示,并向用户提供电子邮件转发、打印、保存等功。 (5)逐级查询与结果复用.web检索是基于http协议,但该协议的无记忆性使得Web服务器无法区分两次检索请求之间的相互关系,同一用户的逐级检索请求被看成没有联系的两次请求在一段时间内记录用户的会话过程,根据用户的特征信息为用户建立单独的存储空间,存放两次检索的中间结果。 对于用户k提交的特定检索请求,检索引擎将进行以下处理 (1)对于新检索请求,从信息全集空间内检索出结果,返回给用户,同时建立该用户本次检索的临时空间。 (2)对于逐级检索请求,将检索目标指引到对应的临时空间内,在缩小的空间内检索,结果返回,同时用本次结果选代上次的临时空间。 上述处理可形式化描述如下,设信息全集空间为 ,用户 的某个检索 对应的临时空间为 式中: 表示由全集空间生成的第1次的临时空间.临时空间迭代算法可描述为 对于超时不用的临时空间,由监控程序负责释放。 应用和结论 基于上述模型及算法,设计实现了基于Web的全文检索引擎,该引擎在鲁迅图书馆数字化网络信息系统和中国文献保障体系(CALLS)西北地区文献中心---西安交通大学钱学森数字化图书馆建设中得到了实际应用.在鲁迅图书馆建立了古桥、戏剧和黄酒等8个特色文化数据库.在钱学森图书馆建立了钱学森生平事迹全文数据库和自动化学科文献数据库,记录数近l0万条。 实际应用表明:基于Web的逐级全文检索引擎,在将非结构化的超文本转换成结构化的数据库,并建立相应的措词索引数据库的基础上,能够实现 基于主题、关键词、作者、日期、出处、自由词等多种 方式的信息检索服务,并能实现条件复用,支持用户 进行逐级检索,实际应用是成功的.值得指出的是, 本文所提出的解决方案有较强的通用性,例如,可以 应用在数字图书馆、远程教育课件资源检索以及 ICP网站的资源检索与管理等应用中。 参考文献 朱克亮   网络时代文献检索教学改革探讨               淮南工业学院学报(社会科学版) 皮德常    一种基于嵌套关系模型的超文本数据库设计   南京航空航天大学学报 张映海   基于概念的中文文本检索研究[D]              重庆大学 王义     基于语义场的文本检索技术的研究与实现[D]    安徽工业大学 吴保松   限定领域下基于概念图的文本检索[D]          上海交通大学
本文档为【文本信息检索技术】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_977556
暂无简介~
格式:doc
大小:114KB
软件:Word
页数:11
分类:
上传时间:2019-04-21
浏览量:41