首页 基于概念语义树的语义相似度计算方法研究

基于概念语义树的语义相似度计算方法研究

举报
开通vip

基于概念语义树的语义相似度计算方法研究基于概念语义树的语义相似度计算方法研究 基于概念语义树的语义相似度计算方法研究 摘要:现在信息检索的应用已经越来越广泛,但要在具体领域 中做到准确搜索,仍然是一件比较难的事情。该文提出一种基于概念 语义树的语义相似度计算方法,综合考虑了概念的语义关系、层次结 构和继承关系等因素,尽可能的地提高在特定领域中的信息检索效率, 并最后通过实验,验证了该方法的可行性。 关键词:语义检索;概念语义树;语义相似度 中图分类号:TP391 文献标识码:A 文章编号: 1009-3044(2011)16-3809-02 ...

基于概念语义树的语义相似度计算方法研究
基于概念语义树的语义相似度计算方法研究 基于概念语义树的语义相似度计算方法研究 摘要:现在信息检索的应用已经越来越广泛,但要在具体领域 中做到准确搜索,仍然是一件比较难的事情。该文提出一种基于概念 语义树的语义相似度计算方法,综合考虑了概念的语义关系、层次结 构和继承关系等因素,尽可能的地提高在特定领域中的信息检索效率, 并最后通过实验,验证了该方法的可行性。 关键词:语义检索;概念语义树;语义相似度 中图分类号:TP391 文献标识码:A 文章编号: 1009-3044(2011)16-3809-02 Research on Method of Semantic Similarity Based on Concept Semantic Tree HAN Xin, QIN Fan (School of Electronics and Computer Science and Technology, North University of China, Taiyuan 030051, China) Abstract: At present, the application of information retrieval has been widely used, but it is still a difficult thing to be accurate in the specific field of searching. This paper provides a semantic similarity calculation method based on the concept semantic tree, considering the concept of the semantic relations, hierarchies, and inheritance and other factors, as much as possible to improve retrieval efficiency in specific areas of information, and at final, demonstrate the feasibility of the method by experiment. Key words: semantic retrieval; concept semantic tree; semantic similarity 传统的信息检索都是基于关键词查询的,因此在检索时可能会出 现一堆用户并不真正需要的信息,导致查询结果的准确率很低,查全 率也不令人满意,会出现“ 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 达差异”,“词汇孤岛”等问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 。语义 检索就是把信息检索从传统的基于关键词层面提高到基于语义的层面,从语义方面着手, 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 概念之间的内在联系,利用语义来组织、存储和获取信息,信息和语义的结合,使信息变成计算机可识别的知识,从而系统能识别出用户所需要的信息,提高检索的查准率和查全率。 1 语义相似度 语义相似度是对语义相似性的定量表示,语义相似度计算是信息检索、数据挖掘、知识管理等领域的基本问题。在信息检索中,语义相似度能够更多的反映文本概念是否符合用户的查询要求,相似度越高,说明文本内容与用户的查询请求越接近。 刘群、李素建[1]基于实例的机器翻译,提出语义相似度就是两个不同上下文本中的本体概念,在不改变文本的句法及语义结构的情况下可以互相替换的程度。如果位于不同上下文本中的两个概念词语在不改变文本的句法及语义结构的情况下可以互相替换的可能性越大,则说明二者的相似度就越高,否则相似度就越低。 当两个语义概念元素x,y相似时,用sim(x, y)表示两者之间的相似度,形式上,相似度计算满足[2]: 1)相似度的值为[0,1]区间中的一个实数,即sim(x, y)?[0,1]; 2)如果两个对象是完全相似的,则相似度为1,即sim(x, y) = 1 当且仅当x = y; 3)如果两个对象没有任何共同特征,那么相似度为0 ,即sim(x, y) = 0; 4)相似关系是对称的,即sim(x, y) = sim(y, x)。 2 概念语义树 使用层次化的树状结构来描述概念之间的逻辑关系,这种语义化的概念树为检索算法提供语义基础,在检索过程中不同的概念之间也有一定的相似性和相关性,因此需要处理概念树中祖孙节点、兄弟节点等不同类型的关系,我们考虑用概念间的相似度对其进行描述和量化,以提高检索的准确率为了计算概念相似度,作如下定义[3-4]: 定义1:在本体概念的树状层次结构中,如果概念A和概念B之间存在这样的关系:A是B的祖先,则称A和B为同支概念。概念A 称为A和B的最近根概念,记为R(A,B),而A、B之间的距离dist(A,B)=dep(B)-dep(A),其中depth(C)为概念C在层次结构中的深度。如图1(a)所示。 定义2:在本体概念的树状层次结构中,如果概念A和概念B之间存在如下这样的关系:A不是B的祖先并且B也不是A的祖先,则称A和B为异支概念。如果概念R是A和B最近的共同祖先,并且是符合此条件的所有节点中距离概念树的根节点最远的一个,则称R为A和B的最近根概念,记为R(A,B),且A、B之间的距离为dist(A,B)=dist(B,R)+dist(A,R),如图1(b)所示。 定义3:概念C 称为概念A 和B 的语义相关概念,当且仅当概念C 满足如下的条件:当A, B 为同支概念时,C 在以A 为根的子树中且不在以B 为根的子树中;当A,B 为异支概念时,C 在以R 为根的子树中且不在以A 或B 为根的子树中。 在计算语义相似度时,A和B各自的子概念数以及它们的语义相关概念数对相似度计算结果也有影响, 当A,B为同支概念时,A的子概念由B的子概念和A,B的语义相关概念组成,前者所占的比重越大,则概念A,B的语义相似度越大;当A,B为异支概念时,R的子概念由A 的子概念、B 的子概念以及A,B 的语义相关概念三部分组成,前两部分的比重越大,则A,B 的语义相似度越大。 1)当A,B为同支概念时,A与B之间的语义关系为: 式中,m表示概念B的子概念数,n表示概念A的子概念数。 2)当A,B为异支概念时,A与B之间的语义关系为: 式中,m表示概念B的子概念数,n表示概念A的子概念数,X表示A与B最近根概念的子概念数。 定义4:两个概念之间的语义距离,是指在语义树中连接这两个概念的最短路径的长度。语言学研究认为,两个概念的语义距离越大,其相似度越低;反之,两个概念的语义距离越小,其相似度越大,两者之间可以建立一种简单的对应关系。特别地当两个概念之间语义距离为0 时,其相似度为1;当两个概念之间的语义距离为无穷大时,其相似度为0。两个概念之间的语义距离表达式为: 式中,distant(A,B)表示概念A与B之间的语义距离,weighti 表示连接A,B的最短路径上第i 条边的权值。 定义5:概念的深度是指该概念与语义树根的最短路径中所包括的边数。因为在语义树中,每一层的概念都是对上一层概念的细化,由此可见,在语义距离相同的前提下,两个概念的深度和越大,概念之间的相似度越大;两个节概念的深度差越小;概念之间的相似度越大。概念深度的表达式为: 式中,depth(A)表示概念A的深度,n表示概念A与语义树根之间的最短路径中所包括的边数。 3 语义相似度计算方法 考虑概念语义树中概念之间的层次关系、继承关系及语义关系,我们提出下面这个关于语义相似度的就算方法: 其中:Level(A,B)表示概念之间的语义关系对相似度的影响; Distant(A,B)表示概念之间的语义距离对相似度的影响; Depth(A,B)表示概念之间的深度对相似度的影响。 但对概念语义树中层次结构分以下这两种情况考虑: 1)当A,B为同支概念时,A与B的语义相似度为: 2)当A,B为异支概念时,A与B的语义相似度为: α,β,γ为调节因子,且α+β+γ=1. 4 实验结果 选取如图2一个简单的实例来计算语义相似度。 选参数α=0.6,β=0.3,γ=0.1,可得到“计算机”与其余各节点之间的语义相似度为: 参考文献: [1] 刘群,李素建.基于《知网》的词汇语义相似度计算[J].Computational Linguistics Chinese Language Processing,2002,7(2):59-76. [2] 李玲.面向 流程 快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计 诊断的企业知识相似度匹配工具研究与开发[D].哈尔滨:哈尔滨工业大学,2006. [3] 王进,陈恩红,施德明,等.一种基于语义相似度的信息检索方法[J].模式识别与人工智能,2006(6):2-6. [4] 张选平,蒋宇.一种基于概念的信息检索查询扩展[J].微电 子学与计算机,2006,23(4):110-114. 注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅 读原文
本文档为【基于概念语义树的语义相似度计算方法研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_633423
暂无简介~
格式:doc
大小:18KB
软件:Word
页数:5
分类:
上传时间:2018-03-17
浏览量:31