一个基于语义上下文建模的图像自动标注系统

一个基于语义上下文建模的图像自动标注系统计算机研究与发展． ISSN10001239／CN111777／TP !竺!!呈!!!!里!竺旦竺!!!墨!!!!：!皇!翌皇些!∑!!竺旦里!竺! !!!墨竺旦21：!!!!!二!!i：!!!! 一个基于语义上下文建模的图像自动标注系统纪传俊刘作涛产文周向东 (复旦大学计算机科学技术学院上海 200433) (chuanjun．ji@gmail．com) ContextModelingBasedAutomaticImageAnnotationSystem jiChuanjun，LiuZu...

计算机研究与发展． ISSN10001239／CN111777／TP !竺!!呈!!!!里!竺旦竺!!!墨!!!!：!皇!翌皇些!∑!!竺旦里!竺! !!!墨竺旦21：!!!!!二!!i：!!!! 一个基于语义上下文建模的图像自动标注系统纪传俊刘作涛产文周向东 (复旦大学计算机科学技术学院上海 200433) (chuanjun．ji@gmail．com) ContextModelingBasedAutomaticImageAnnotationSystem jiChuanjun，LiuZuotao，ChanWen，andZhouXiangdong (SchoolofComputerScienceandTechnology，FudanUniversity，Shanghai200433) AbstractFormultimediadatamanagement，automaticimageannotation(AIA)isofprofound theoreticalandpracticalsignificance．Inthispaperwedescribeourautomaticimageannotationand trainingsystem．ItimplementsthemultipleMarkovrandomfieldannotationframework，which achievesverycompetitiveperformanceofAIA．ThroughinteractivedemonstrationofAIAmodel trainingandannotating，thesystemmanagestorevealcompetitiveperformanceofMMRFanddeliver tousersabetterunderstandingofboththeAIAmechanismandrealizationofthesystem． Keywordsautomaticimageannotation；Markovrandomfield；realizationofthesystem 摘要图像语义自动标注技术的研究在多媒体数据管理领域具有十分重要的理论与应用意义．本演示介绍了一个基于多马尔可夫随机场的图像语义自动标注方法(multipleMarkovrandomfield，MMRF) 的图像语义自动标注与训练系统．通过交互式的图像语义标注模型的训练与标注演示，充分展示了 MMRF技术的标注性能，并帮助观众更好地了解图像语义自动标注的机理和系统实现过程．关键词图像语义自动标注；马尔可夫随机场；系统实现中图法分类号TP319 互联网上数字图像的数量正在急剧增长．以目前非常流行的照片分享网站Flickr为例，该网站平均每分钟接收多于2000张新上传的数码照片．尽管一些社会媒体网站的图像大多附有用户标签，但是仍然存在垃圾标签以及标签语义模糊等问题．就一般情况而言，图像资源的语义识别与标注仍然是大规模图像数据管理的前提与基础．因此，图像语义的自动标注(automaticimageannotation，AIA)引起了各界极大的研究热情．图像语义自动标注即是利用计算机系统为数字图像自动赋予语义标签的过程．目前AIA的主要瓶颈根源于“语义鸿沟”Csemanticgap”)，即高层次的抽象语义概念所表达的含义和低层次的数字形式的收稿日期：2011一0715 图像内容之间的不匹配．为了克服“语义鸿沟”问题，研究者们已经提出了很多方法，其中Xiang等人提出的多马尔可夫随机场标注框架(multipleMarkov randomfield，MMRF)[11是一种新颖的基于语义上下文建模的方法．该标注模型在考虑了图像底层视觉特征的基础上，引入了语义上下文模型、利用语义概念之间的关联性来提高标注效果．本文描述了我们实现的基于MMRF的图像语义自动标注与训练系统，该系统能对用户提供的图像实现有效的语义标注．通过用户友好的系统界面及简单的操作，可以直观地展示图像的标注效果．该系统还通过人机交互，引导用户对标注结果进行评判，标出正确的标注结果，更正后的标注结果能够加万方数据 442 计算机研究与发展2011，48(增刊) 入到训练图像库中丰富训练图像、修正模型参数．我们为这个系统提供了2个训练图像集，一个是图像标注领域常用的Corel数据集，另一个是由通过图像分享网站Flickr或者Bing等搜索引擎下载的图像构成的图像库．系统会自动地在2个训练图像集上分别为模型学习参数． 1 图像语义自动标注算法图像语义自动标注领域的研究者们提出了很多不同的模型来尝试克服“语义鸿沟”(semanticgap) 问题，Xiang等人提出的多马尔可夫随机场标注框架(multipleMarkovrandomfield，MMRF)[11采用了生成模型(multipleBernoullirelevancemodels， MBRM)[2]，即通过估计语义概念和图像共同出现的联合概率分布来实现标注．该算法的核心是在底层生成模型的基础上引入了语义概念之间的相关关系使得标注性能得到大幅提升．具体来讲，这一框架利用马尔可夫随机场理论(Markovrandomfield， MRF)对语义概念的相关关系进行建模，并能针对每个语义概念单独学习一组参数，大大提高了语义上下文建模(contextmodeling)的效果．图1是 MMRF的模型示意图．其中z表示观察图像，P(z， w：)(o≤i≤7)表示语义标签Wi和z共同出现的联合概率，^(o≤i≤7)表示图像的标签．图1 MMRF模型框架 1．1 多马尔可夫随机场标注框架 1．1．1马尔可夫随机场一个随机变量集合F一{F。，⋯，F。)被称为是点集S一{1，2，⋯，m}上关于邻居系统N一{N：IiE s)的马尔可夫随机场，其中N。表示点i的所有邻居点的集合，当且仅当其满足以下2个条件： P(，)>0，V，EF； (1) P(，：l厂s㈦)一P(^IfN．)，ViES． (2) 其中，一(^，⋯，厶)是由随机变量构成的向量，^一 {^I^EF且i∈A)，F表示整个标签向量空间．条件 (2)说明了马尔可夫性质：只有相邻的随机变量之间才有相互作用．Hammersley—Clifford定理[31指出，所有MRF都服从以下分布： P(厂)一Z1×eu(，’， (3) 其中 Z一>18_U(p (4) ，是划分函数(partitionfunction)．对于图像标注， P(，)即为标签组合在当前观察图像上出现的概率．能量函数(energyfunction)U(f)是所有可能的集簇 (clique)CEC的势函数(potentialfunction)V。(．厂)之和．若只考虑集簇大小不超过2的情况时，能量函数可简化为： u(．厂)一∑V。(厂f)+∑∑％(^，^，)．(5) iES iESi7∈Ni 1．1．2语义概念关系图 MMRF利用语义概念在训练图像集T一{(∥， fk))冬。中的共同出现来构建MRF的语义概念图，其中矿表示第k幅训练图像的特征向量，fk一(^，以，⋯片v1)是该图像相应的标签向量且力∈{+1，一1)表示语义概念集V中第i个标签在第k幅图像中出现或者不出现．训练集总共包含K幅图像．若2个语义标签共同出现于同一幅图像，则认为这2个语义标签相关．如此可以构建一个基于点集S一{1，2，⋯，m}的语义概念关系图r一(S，e)，其中e代表关系图的边集，iES对应语义标签Wi，(i， i7)E￡当且仅当i和i7是相关的．图1中的语义概念关系层描述了语义概念关系．我们单独为每一个语义概念都构建一个语义概念图，即从完整的语义概念关系图9中为每个语义概念Wi抽取一个子图f；一(Si，￡：)，其中S。一{i)U N：，￡；一{(i，J)Ii，JES。且(i，J)Ee)． 1．1．3基于生成模型的势函数根据生成模型，我们估计每个语义概念与观察图像共同出现的联合概率．MMRF将语义标签W。和观察图像的特征d共同出现的联合概率P(d，W，) 作为点上的观察值．定义点势函数为：万方数据纪传俊等：一个基于语义上下文建模的图像自动标注系统 443 V1(fi)一fi(A；+aiP(d，Wi))，(6) 其中Ai和ai是需要估计的参数．由等式(6)可知，当 ai：W；d；， (9) i一1 其中叫。是第i种特征上的欧氏距离的权重系数．权重向量w一(训1，W2，⋯，W15)通过Tagprop[23模型学习得到． 2系统框架设计本节主要介绍我们的图像语义自动标注系统的整体框架，如图2所示： ③∞图l训 I．．．．．．_J 标注结果保存燮IMMRF},T,注]霍室标注结果仑图2系统框架不意图 2．1系统主流程系统主要流程分为离线预处理和在线图像标注 2个部分，离线预处理包括以下3个步骤： 1)训练图像库构建系统提供了2个图像库，一个是图像标注研究领域广泛应用的Corel数据集，包含5000幅图像，其中4500幅作为训练图像，其余500幅是测试图像，每幅图像标注了1～5个语义标签，我们用这 4500幅图像作为我们的训练图像集．另一个图像库的图像通过网络下载得到，包括从图像分享网站 Flickr或者通过Bing等搜索引擎下载，再对这些图像进行去除错误标签的处理． 2)图像特征提取根据1．2节所述我们为每幅图像都提取15种特征，然后对每个训练图像库通过Tagprop方法学习权重向量w． 3)模型参数学习系统利用基于生成模型的图像标注算法得到第 i个语义标签和观察图像的特征d共同出现的联合概率P(d，W：)，再代入MMRF中学习模型参数0．如算法1所示，模型训练过程包括3个步骤，首先我们为每个语义标签构建语义概念图，其次系统对训练图像进行筛选得到一个正负样例相对平衡的训练集，最后根据MMRF模型求解参数0．算法1．MMRF模型参数学习算法．输入：待标注图像j，词表S，训练图像集X；输出：MMRF模型参数臼． ①for每一个词iESdo ② 构建语义概念关系图； ③ 构建相应的训练图像集； ④ 求解MMRF模型参数口； ⑤endfor 万方数据计算机研究与发展2011，48(增刊) 标注系统在线图像标注流程主要包括以下3个步骤： 1)图像上传及标注用户上传一幅或多幅图像，系统将对这些图像进行标注，给出标注结果．对于每一幅图像，所得的标注结果是使得P(，)最大化的标签组合，即，。一 argmaxP(，)，注意到P(，)函数的参数已经通过之前的学习阶段得到．系统选用的标注算法是迭代条件模式(iteratedconditionalmodes，ICM)算法．具体来讲，在第(f+1)轮迭代中，给定图像特征d以及与标签i相邻的标签，算法通过最大化条件概率 P(^ld，用’)顺序地将一“更新为，r”，直至算法收敛． 2)用户评判用户对标注结果给出评判，在正确的标注结果上做标记，实现交互式标注． 3)标注结果保存将用户评判的标注结果保存的数据库中，并将其加入到我们自己下载的训练图像库．一般来讲，这些新加入的训练图像具有较高的标注准确度，能让系统对模型的参数进行修正，因此对于提高系统标注性能是有积极的作用的． 2．2系统图像标注效果表1给出了我们的系统在Corel数据集上的标注结果(表中的MMRF数据)，并与经典的 MBRM‘41和Tagprop⋯方法进行了对比．从表1可以看出，我们的系统在Corel数据集上取得了最高的precision和，1，远远高于其他2个方法，recall也保持在比较高的水平．其中N+表示recall大于0的标签数目．表i在Corel数据集上的实验结果对比 3系统演示该系统基于c++语言实现，具有良好的用户界面，能让用户很方便地上传图像进行标注，并具有人机交互功能，用户可以对标注结果的正确性进行评判，系统能够保存评判后的结果并将新的标注图像添加到训练图像库中． 3．1界面介绍图3给出了系统界面示意图，用户可以选择训练图像库，选择待标注的图像，图像上传完成后会在界面上显示出来．点击“标注”按钮后系统将对新上传的图像进行标注，给出标注结果和相应标签的置信度．用户可以在标注结果的“用户评判”一栏为正确的标签打钩．点击“保存”按钮系统将把新标注的图像保存到数据库并加入到训练图像集．图3系统图彤化界面 3．2图像标注演示步骤该系统通过交互式的图像语义标注模型的训练与标注演示，充分展示了MMRF技术的标注性能，并帮助观众更好地了解图像语义自动标注的机理和系统实现过程．系统演示分为以下几步： ”选择训练图像库； 2)选择待标记的图像并上传到系统； 3)点击“标注”按钮进行标注，系统显示标注结果； 4)用户对标注结果进行评判和修正； 5)保存标注结果．． 4结论本演示系统实现了一个基于语义上下文建模的图像语义自动标注系统．通过交互式的系统演示，直观的展示了系统的图像标注性能，可以使观众更好地体会和了解图像语义自动标注的技术发展与系统实现．参考文献 E1]YuXiang．ZhouXiangdong，ChuaTat_Seng，etal Arevisit ofgenerativemodelforautomaticimageannotationusing markovrandomfields／／ProcofIEEEConfoilComputer VisionandPatternRecognitionPiscataway．Nj：IEEE， 2009．1153-1160 万方数据纪传俊等：一个基于语义上下文建模的图像自动标注系统 445 [2]FengS，ManmathaR，LavrenkoV．Multiplebernoulli relevancemodelstorimageandvideoannotation|Procof IEEEConfonComputerVisionandPatternRecognition． Piscataway，NJ：IEEE，2004：1002—1009 E3]LiSZ．MarkovRandomFieldModelinginComputerVision． Berlin：Springer，1995 [4]GuillauminM，MensinkT，VerbeekJ，eta1．Tagprop： Discriminativemetriclearninginnearestneighbormodelsfor imageauto—annotation／ProcofICCV，2009：309—316 多媒体信息检索刘作涛男，1986年生，硕士研究生，主要研究方向为多媒体信息检索．产文男，1986年生，硕士研究生，主要研究方向为文本挖掘与信息检索．周向东男，1969年生，副教授，主要研究方向为多媒纪传俊男，1987年生，硕士研究生，主要研究方向为体数据及Web数据管理、机器视觉与智能计算．万方数据一个基于语义上下文建模的图像自动标注系统作者：纪传俊，刘作涛，产文，周向东， Ji Chuanjun， Liu Zuotao， Chan Wen， Zhou Xiangdong 作者单位：复旦大学计算机科学技术学院,上海,200433 刊名：计算机研究与发展英文刊名： Journal of Computer Research and Development 年，卷(期)： 2011,48(z2) 参考文献(4条) 1.Yu Xiang;Zhou Xiangdong;Chua Tat-Seng A revisit of generative model for automatic image annotation using markov random fields 2009 2.Feng S;Manmatha R;Lavrenko V Multiple bernoulli relevance models for image and video annotation 2004 3.Li S Z Markov Random Field Modeling in Computer Vision 1995 4.Guillaumin M;Mensink T;Verbeek J Tagprop:Discriminative metric learning in nearest neighbor models for image auto-annotation 2009 本文读者也读过(4条) 1. 张维琴.王淑云.李京晋.魏灵哲.张文义数据处理技术在粒度图像分析中的应用[期刊论文]-仪器仪表学报2004,25(z1) 2. 陆筱霞.李思昆.马千里.LU Xiao-xia.LI Si-kun.MA Qian-li 基于上下文的综合战场环境本体建模[期刊论文]-计算机工程 2012,38(4) 3. 武海鹰.WU Hai-ying 普适计算环境中基于上下文的使用控制模型[期刊论文]-计算机工程2012,38(5) 4. 武海鹰.WU Hai-ying 基于上下文的普适计算使用控制模型[期刊论文]-计算机应用2012,32(2) 本文链接：http://d.g.wanfangdata.com.cn/Periodical_jsjyjyfz2011z2129.aspx

                    本文档为【一个基于语义上下文建模的图像自动标注系统】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

一个基于语义上下文建模的图像自动标注系统

你可能还喜欢