首页 情感语义图像检索技术研究

情感语义图像检索技术研究

举报
开通vip

情感语义图像检索技术研究 2006.18计算机工程与应用 1 引言 情感计算是一门新颖的而且富有挑战性的研究课题 [1],是 涉及到哲学、心理学、美学、人类学等的交叉学科。目前在情感 计算理论和应用方面的研究已经浮出水面,而将情感计算运用 在图像检索的初步研究中,国内外已发表过一些论文,主要集 中在人的面部表情识别、机器人的情感行为和可穿戴式计算应 用等研究领域。基于内容图像检索的研究正进行的如火如荼[4]。 虽然这两方面的研究起步都比较晚,特别是情感计算,但也有 了一些可喜的成果。 人类的情感从心理学角度上主要指人的心...

情感语义图像检索技术研究
2006.18计算机工程与应用 1 引言 情感计算是一门新颖的而且富有挑战性的研究课题 [1],是 涉及到哲学、心理学、美学、人类学等的交叉学科。目前在情感 计算理论和应用方面的研究已经浮出水面,而将情感计算运用 在图像检索的初步研究中,国内外已发表过一些 论文 政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载 ,主要集 中在人的面部表情识别、机器人的情感行为和可穿戴式计算应 用等研究领域。基于 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 图像检索的研究正进行的如火如荼[4]。 虽然这两方面的研究起步都比较晚,特别是情感计算,但也有 了一些可喜的成果。 人类的情感从心理学角度上主要指人的心理反应。西方有 的学者把情感分为基本的六种:羡慕、爱、恨、欲望、愉快和悲 哀。而国内一直流行着“七情六欲”之说,《礼记-礼运》说:“喜、 怒、哀、惧、爱、恶、欲七者弗学而能。”即所谓的七情。有研究显 示,不同图像可以唤起人类不同的情感。对图像进行情感分类 有助于建立和谐人机环境[7]和情感计算领域的研究。在现实世 界中的情感活动离不开周围的环境,而现实中的环境可以被认 为是由一幅幅的图像组成的,所以对图像的情感研究是非常必 要的。而且在实际应用中图像的情感研究也有着相当广阔的前 景,可以运用于艺术、装潢、机器人和游戏开发等领域。 本文对图像进行情感分类,实现图像的情感语义检索。用 户可以使用多范例图来进行检索情感相似图或使用文本描述 的方式来进行检索。为了增加特征到语义的映射和图像匹配的 效率,利用多范例图进行检索是一种行之有效的方法。在多范 例图中,我们把要查询的相似图划分到相关组中,需要过滤掉 的图像则放到相反组。 本文分为三部分,首先介绍了情感语义检索系统总体结 构,主要分为特征向量的提取、表示,低阶可视化特征向高阶语 义特征的映射,以及情感空间和用户接口的介绍;其次主要分 析图像的情感语义,详细阐述情感语义模型的结构和功能;最 后对由 2500幅数字图像组成的数据集仿真实验,分析了实验 结果,并且提出今后的研究方向。 2 系统总体结构设计 图像检索系统主要研究的内容是基于数字图像处理基础 上的视觉特征提取、多维索引以及检索系统设计等[7],本文也不 例外,检索系统的总体结构如图 1,主要分为三个部分,其中关 键技术为图像的特征抽取、表示,图像低阶可视化特征向高阶 语义特征的映射阶段以及情感模型的建立。下面作详细的介绍。 作者简介:李海芳(1964-),女,副教授,硕士生导师,在读博士,研究方向为:信号与信息处理,数据挖掘。焦丽鹏(1981-),男,硕士研究生,主要研 究方向为图像检索、智能信息处理。 情感语义图像检索技术研究 李海芳 焦丽鹏 陈俊杰 王 莉 贺 静 (太原理工大学计算机与软件学院,太原 030024) E-mail:sxlhf123@163.com 摘 要 图像中所蕴涵的丰富语义仅用若干低级物理特征是不能进行完整描述的,而且在语义映射时也会有信息丢失, 因而产成“语义鸿沟”是在所难免的。将多特征融合,建立情感语义模型,分析情感的概念解析功能对提高智能信息检索 的精度和效率是非常必要的。论文讨论了图像的颜色、纹理等特征的提取与表示,低阶图像可视化特征到高阶图像语义 特征的映射过程,图像的情感语义分类,建立了情感语义模型,实现对基于情感语义图像的检索。对由2500幅数字图像 组成的数据集进行了实验,并对实验结果进行分析,部分结果是令人满意的,而且提高了基于内容图像检索的精度。 关键词 语义鸿沟 基于内容的图像检索 情感计算 情感语义 特征提取 文章编号 1002-8331-(2006)18-0082-04 文献标识码 A 中图分类号 TP391 ResearchofAffectiveSemanticsRetrievalBasedonContent LiHaifang JiaoLipeng ChenJunjie WangLiHeJing (CollegeofComputerandSoftware,TaiyuanUniversityofTechnology,Taiyuan030024) Abstract:Theabundantsemanticcontainedintheimagescannotbeendescribedcompletelyonlyusingsomelow- levelphysicalfeatures,andsomeinformationwillbelostinthesemanticmapping,soitisunavoidabletoproducethe “semanticgap”.Itisnecessarytoimprovetheprecisionandefficiencyoftheintellectiveinformationretrievalby syncretizingmulti-features,establishingtheaffectivesemanticmodelandanalyzingtheidea-analysisfunctionofemotion. Featuresextractingandexpressingofimage’scolor,texture,etc.,mappingprocessfrom thelow-levelimagevisual featurestothehigh-levelimagesemanticfeatures,andtheemotionsemanticclassificationoftheimagesarediscussed, emotionsemanticmodelisestablished,theretrievingbasedonaffectivesemanticimagesisachievedinthispaper.The datasetcomposedof2500digitalimagesisexperimentedwith,andtheexperimentresultshavebeenanalyzed,someof whicharesatisfied,andtheprecisionbasedoncontentimageretrievinghasbeenimproved. Keywords:semanticgap,CBIR,affectivecomputing,affectivesemantics,featureabstraction 82 计算机工程与应用 2006.18 特征比较 特征提取情感分类器 情感空间 标记库 图像库映射 特征向量 相关反馈查询引擎 图1 情感语义检索系统的总体结构 0 1 Saturation Value 0 1 Hue 图2 颜色空间锥形模型图 高阶层 中阶层 低阶层 图3 特征映射机制 2.1基于内容的图像检索 基于文本的图像检索技术已经不能满足今后的需求[4],一是 因为手工注释对于海量图像数据显得力不从心,二是由于图像 本身所含丰富的语义信息单靠手工注释是难以胜任的。目前的 图像检索系统基本上是以基于内容的图像可视化特征提取为 根基,并在此基础上进行各种信息检索,基于内容的图像检索 技术始于90年代早期[4]。它直接利用了图像本身的特征,且避 免了人工注释的主观性、片面性,简化了对图像注释这一繁琐 庞大的工程[7]。 基于内容的图像检索技术主要是提取图像的可视化特征 比较其相似性,一般通过色彩、纹理、形状等特征进行索引。就 图像特征的作用域来说,CBIR(content-based image retrieval)系 统可划分为:基于全局特征的检索和基于区域特征及其空间关 系的检索[16]。由于本文基于情感语义的检索的复杂性和难实现 性,既要用全局特征又要用到区域特征,本文运用全局特征和 区域特征相结合的方法来对图像进行匹配(参见后面对特征的 树状表示形式),即可实现这种效果。 2.2特征向量 基于内容的图像检索的工作主要来源于对图像的可视化 特征的提取和表示。在实际的应用中,并不是所有的特征都是 我们所关心的,Itten[8]指出艺术图像中颜色的使用与表达的语 义之间存在一定的关系,同时他还发现不同的颜色组合导致诸 如和谐、不和谐、平静和兴奋等效果;比如橙色代表暖色,当前 很多家庭把橙色作为主色调来装潢自己的家庭,这样会使得人 们有被橙色的阳光所环抱的感觉。本文主要使用颜色、纹理、边 缘作为图像的特征进行抽取。 在颜色特征提取中我们使用 HSV(Hue,Saturation,Value) 色彩空间,如图2。它不仅能贴近人对图像的色彩理解[12],而且 在匹配颜色和判断一种颜色是否相似于另一种颜色时,HSV 颜色空间被视为明智的选择[9]。对每个色调(H),饱和度(S),强 度(V)计算其一阶矩(如公式(1))、二阶矩(公式(2))和三阶矩 (公式(3))来表示颜色特征,这样一共可以提取九个颜色特征: Ei= 1 N N j=1 !Pij (1) !i= 1N N j=1 !(Pij-Ei)2" # 1 2 (2) Si= 1 N N j=1 !(Pij-Ei)3" $ 1 3 (3) 式中 i∈{H,S,V};N为像素点数,Pij表示在 j点的 i值,如 果i=S即为其饱和度数值。 对于纹理特征我们使用基于小波变换的纹理特征[10,11]。纹 理特征使用与 ImageGrouper[6]中一样的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差来表示。这些特 征将从图像中提取并在元数据库中建立索引。一幅图像中可提 取出 10个纹理特征。边缘特征使用ImageGrouper中的注水算 法,共提取18个特征。 2.3低阶可视化特征到高阶语义特征的映射 缩小低阶特征(low-level features)到语义特征映射时产生 的“语义鸿沟”(semantic gap)[4],也就是尽量减少映射过程中的 信息流失和获得较多的用户信息。为了减少它们之间的差距, 研究者需对其进行彻底的分析,但目前研究表明尚无完全解决 之法。把机器学习运用到系统中是比较常见的方法,例如一些 文献中使用“相关反馈”、“短期学习”、“长期学习”[13]。本文提出 建立双层映射机制并利用“相关反馈”技术,其中映射机制使用 单路串联模式,从低层到中间层的映射,和中间层到高层的映 射。如图3。 图像给人的情感感觉不仅仅取决于颜色纹理等低阶可视 化特征,一些高阶图像中的对象也可给人以不同的情感反应, 比如图片中的小狗可能会使人有一种温馨的感觉,鲜花可能会 使人心情舒畅,而且同样的一种对象可能产生不同的情感效 果,比如水是生命之源,当人们看到水时表现出很大的亲和力, 但当看到洪水时会产生恐惧感。这是跟一般图像语义检索研究 有着不同的地方,所以在情感语义分类时还得注意高阶语义特 征和低阶可视化特征之间的结合,但实现起来比较困难。 2.4情感空间(Emotional space) 对于情感的分类众说纷纭,中国古代就有七情六欲之说,国 外心理学家对情感类型也有很多不同的定义。基本从三方面讨论: 一是把情感反应归结为一个独立的过程;二是情绪被认为是刺 激和反应之间的中间变量;三是用直接行为主义理论来解释。 情感有很大的主观性,不同的图像或图像中的不同颜色、 纹理、轮廓等会给人不同的感受,而不同的人对同一幅图像也 会产生不同的情感感受,这样很难在客观上给一幅图像定位为 某种情感,本文将按固定算法把图像归类为某种情感类型中, 通过情感模型进行学习调整。在对图像进行情感分类时,粒度 选择也是非常重要的一个环节。为了简化问题,本文将情感分 为四类:恐惧、悲伤、高兴、厌恶。 2.5用户接口实现-ImageGrouper 在基于内容的图像检索系统中,用户接口实现部分也是非 常重要的,怎样才能很好的描述用户的需求,怎样才能使得用 户的高级概念和图像的内容特征取得较好的一致性以及提供 83 2006.18计算机工程与应用 图5 检索结果图 Output Input 2 3 1 图4 情感模型 很好的人机交互环境也是当今研究的主要内容。在用户接口方 面,目前有很多流行的接口软件,经分析比较,我们对 Image- Grouper[5,6]的 GUI(一个按组查询的接口)进行改进并运用到本 文的系统实现中。本系统支持两种类型的查询:用户描述和多 实例图。 3 图像的情感语义 3.1 图像的情感语义 1997年,美国,皮卡特在 MIT.出版了《情感计算》(picard, 1997),书中认为情感计算主要分为三方面,即让机器发自内心 的拥有情感驱动力,让机器表现的似乎富有情感,让机器理解 识别人类情感表现[1]。由于情感本身的非逻辑性,实现起来有很 大困难。Toda提出,情感能提供机器人所需的自主性,并且是 智能的最终来源[15]。Minsky认为如果没有情感,机器人就不可 能表现出智能行为[14]。 本文尝试建立情感模型,一方面用于识别图像的情感语义, 另一方面通过学习了解用户基于心理反应的情绪,模拟用户本 人的情感表达,以达到不断增加精确度和命中率。如图4所示。 图4中:部件1表示相关的推理组件(Rationalcomponent); 部件2表示相关反馈组件(Relevantfeedbackcomponent);部件 3表示相关的情感分类组件(Affectiveclassifiercomponent)。 推理组件的主要作用是进行图像的情感识别,通过运用 HMM学习的方法和相关反馈组件的交互达到与用户交互的识 别相结合,尽量使用户的高阶概念和图像本身的低阶可视化特 征之间的差别缩小。 隐马尔可夫模型(HMM)是非常典型的学习模型,本文建 立 HMM学习模型来识别情感特征,分析图片区域特征的输入 序列,探索识别情感类别。当进行学习时要求大量的情感数据 资料和很好的学习机制,相信随着计算机科技的进步,这方面 的工作会逐渐地完善。 相关反馈在文本检索方面的应用非常成功。相关反馈组件 主要接收、过滤用户的反馈信息和调用用户历史库,并且可以 提交信息给情感分类组件和推理组件,对其进行影响。 情感分类组件主要根据情感空间对图像的可视化特征和 对象特征进行比较,主要实现情感分类目的。运用分类算法进 行分类如公式(4): f(x)= 0,whenx∈F0 1,whenx∈F1 ┇ 3,whenx∈F3 # % % % % % $ % % % % % & (4) 其中f(x)为F0~F3的隔离函数,且f(x)为分类函数。 当然情感方面技术的研究非常的复杂,情感计算和情感计 算在图像检索应用的研究也是刚刚起步。情感产生于视觉、语 音、环境等多种因素的综合,所以情感理解也显得非常的困难, 把多模态处理技术用在情感计算方面的研究,实现情感的多特 征融合,提高情感理解的深度。本文旨在做到立竿见影的效果, 对情感计算和图像检索的结合做个初步的探讨。 3.2 图像的检索匹配 图像进行特征提取前要对图像做预处理,其中图像分割也 至关重要,本文使用著名的期望最大化(EM)算法,图像的特征 表示使用倒立的树状结构,顶层主要表示图像的全局特征,而 其他子层把基于区域的图像特征表示出来,定义各区域及全局 特征的情感特性,分别对各部分进行定位其情感的分布情况, 再加特定权值,采用多结构多层次的综合可以实现细粒度的情 感定位,较准确地表示各区域的情感特征。图像的特征表示方 法采用 MPEG-7Standardxmlschemes表示法,图像特征描述 使用标准的 MPEG-7description,这样就可以实现全局特征和 局部特征相结合、高阶特征与低阶可视化特征相结合的方式进 行图像匹配。例如有人物或无人物的图像可以在树状结构的第 二层分离出来,如果有人物就增加这一层次人物对象权值,主 要匹配识别人脸表情,如果区域中无人物其权值为零。 进行图像匹配时运用自适应的加权距离法———欧式距离, 表示如公式(5): dh(x,y)= n i=1 ’wi(xi-yi)2( (5) 4 实验结果 本文的用户接口部分使用java实现,而核心部件使用 C++ 实现,数据库使用典型的图像数据库。 4.1 数据集 本文的数据集由 2500幅数字图像组成,图像不仅包括与 自然景色相关的,而且加入一些人文图像,比如带有面部表情 的头像,这些图像来自一些国内外网站的免费资源。而查询图 像主要涉及到代表性的几类:大约20幅带有人物表情的图像, 10幅花园图像,30幅鲜花图像,100幅风景图像,20幅头像,10 幅轮廓图像。 在我们的试验中共抽取出37个图像特征,结合多特征融 合和特征表示,使用一种自适应的距离计算公式更好的提取图 像的高阶情感语义。 4.2 结果分析 基于情感分类的图像检索系统可以在检索时缩小检索范 围,提高检索速度。当需要淡化情感在图像检索中的影响时,可 以利用多实例图进行检索,从而扩大检索范围。 在图像检索的仿真实验中,我们不仅用到了图像的低阶特 征,也直接用到了图像的高阶特征,如图像的对象特征,两者结 合对图像进行检索匹配。在仿真实验中,采用自适应距离匹配 84 计算机工程与应用 2006.18 节点数 20 40 80 100 120 140 160 180 200 链路数 32 89 172 198 239 291 336 371 427 遗传算法/s 0.30 0.47 1.71 2.35 3.86 5.96 7.23 9.95 10.54 免疫算法/s 0.25 0.39 1.53 2.16 2.98 4.97 6.85 8.47 9.68 表1 免疫算法与遗传算法运行时间对比表 注:表中的遗传算法时间来源于文献[4] (上接15页) 算法的运行时间更短,这主要得益于免疫算法的抗体记忆功 能,这样,在系统接收同类问题求解时,以所保留的记忆细胞作 为初始种群,从而大大地提高了求解的效率。另外,从表中还可 以看出,当网络的规模很大时(如:节点超过 180时),免疫算法 仍能保持良好的性能,因此免疫算法自适应环境的能力是很 强的。 (3)算法的进一步讨论 虽然本文只考虑了多媒体通信在带宽、延时、费用约束条 件下的Qos组播路由免疫算法,但是当推广到求解一般的组播 路由问题时,只需要对本文中的组播路由数学模型修改,把算 法中的适应度函数也作相应的改动,也即是,把组播路由模型 的优化目标函数变换成适应度函数,就可应用。值得注意的是, 当约束条件很多时,求出全局最优解所花费的时间可能很长, 这时可以通过限定迭代次数,求出一个较好的次优解来解决。 因此本文提出的免疫具有较好的可扩展性。 6 结论 针对多媒体通信中的Qos组播路由问题,本文首先给出了 带宽、延时约束,费用最小的Qos组播路由数学模型。然后具体 说明了将免疫算法应用于组播路由选择的具体算法和关键技 术,并分析了免疫路由算法的收敛性和计算复杂度,最后通过 仿真试验说明了免疫算法不仅能够迅速逃出局部最优解,并很 快收敛到全局最优解,而且比遗传算法的收敛速度更快。 (收稿日期:2006年4月) 参考文献 1.SalamaHF,ReevesDS,ViniotisY.Evaluationofmulticastrouting algorithmsforreal-timecommunicationonhigh-speednetworks[J]. IEEEJournalonSelectedAreasinCommunications,1997;15(3): 332~345 2.WangZ,CrowcroftJ.Qualityofserviceforsupportingmultimediaapp- lications[J].IEEEJournalonSelectedAreasinCommunications,1996; 14(7):1228~1234 3.陈国良,王煦法,庄镇泉等.遗传算法及其应用[M].北京:人民邮电出 版社,1996:92~97 4.王征应,石冰心,赵尔敦.Qos组播路由的启发式遗传算法[J].电子学 报,2001;29(2):253~256 5.石坚,邹玲,董天临.遗传算法在组播路由中的应用[J].电子学报,2000; 28(5):88~89 6.王新红,王光兴.基于遗传算法的时延受限代价最小组播路由选择方 法[J].通信学报,2002;23(3):112~117 7.CastroLNde,TimmisJ.ArtificialImmuneSystem:ANewCompu- tationalApproach[M].London,UK:Springer-Verlag,2002:123~149 8.WaxmanBM.Routingofmultipointconnections[J].IEEEJournalon SelectedAreasinCommunications,1988;6(9):1617~1622 算法能大大地提高检索精度。在 2500幅数字图像的数据集 中,我们希望检索出令人感觉心情舒畅且平静的图像,或赏心 悦目只是某类型的(比如含有鲜花)图像,实验证明能得到较准 确的结果,图5是含有鲜花的图像检索结果。 5 结论与展望 本文对图像进行了情感分类,较好地实现了图像的语义检 索功能,但其通用性还不能令人满意,本系统只是对基于情感 语义图像检索的初次探讨。在图像情感识别中,粒度选择是极 其棘手的问题,情感本身的非线性和图像的情感融合也使检索 显得困难。今后的工作应主要集中在这两方面开展。 (收稿日期:2006年4月) 参考文献 1.Pircard.Affectivecomputing.MIT,1997 2.M Agosti,ASmeaton.Informationretrievalandhypertext.Kluwer,New York,1996 3.ThomasEBjoerge,EdwardYChang.Whyoneexampleisnotenough foranimagequery[C].In:ProceedingsofIEEEICME2004,2004 4.AW MSmeuldersetal.Content-basedimageretrievalattheendof theearlyyears[J].IEEETransOnPAMI,2000;22(12):1349~1380 5.BoberM.MPEG-7VisualDescriptors[C].In:IEEETransactionson CircuitsandSystemsforVideoTechnology,2001;11(6) 6.NakazatoM,ManolaL,HuangTS.ImageGrouper:Search,Annotate andOrganizeImagesbyGroups[C].In:Procof5thIntlConfOnVisual InformationSystems(VIS’02),2002 7.JScheirer,RFernandez,JKleinetal.Frustratingtheuseronpurpose: Asteptowardbuildinganaffectivecomputer[J].InteractingwithCom- puters,2002;14(2):93~118 8.IttenJ.ArtofColor(KunstderFarbe).OttoMaierVerlag,Ravensburg, Germany,1961 9.CardaniD.AdventuresinHSV Space.http://ww.buena.com/articles/ hsvspace.pdf,2005 10.SmithJR,ChangSF.Transform featuresfortextureclassification anddiscriminationinlargeimagedatabases[C].In:ProceedingsofIEEE IntlConfonImageProcessing,1994 11.SmithJR,ChangSF.Quad-TreeSegmentationforTexture-based ImageQuery[C].In:ProceedingsofACM 2ndInternationalConference onMultimedia,1994 12.SmithJR.Integratedspatialandfeatureimagesystem:Retrieval, analysisandcompression.NewYork:ColumbiaUniversity,1997 13.RuiY,HuangTS.ANovelRelevanceFeedbackTechniqueinImage Retrieval[J].ACMMultimedia,1999 14.MINSKYM.TheSocietyofMind[M].NewYork:SimonandSchuster, 1986 15.TodaM.Man,RobotandSociety[M].Boston:MartinusNijhoffPub- lishing,1982 16.RuiY,ThomasSH,ChangSF.ImageRetrieval:Past,Present,and Future[C].In:SymposiumonMultimediaInformationProcessing,1997 85
本文档为【情感语义图像检索技术研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_562176
暂无简介~
格式:pdf
大小:250KB
软件:PDF阅读器
页数:0
分类:互联网
上传时间:2011-06-18
浏览量:10