计算机研究与发展 . ISSN10001239/CN111777/TP
!竺!!呈!!!!里!竺旦竺!!!墨!!!!:!皇!翌皇些!∑!!竺旦里!竺! !!!墨竺旦21:!!!!!二!!i:!!!!
一个基于语义上下文建模的图像自动标注系统
纪传俊 刘作涛 产 文 周向东
(复旦大学计算机科学技术学院上海 200433)
(chuanjun.ji@gmail.com)
ContextModelingBasedAutomaticImageAnnotationSystem
jiChuanjun,LiuZuotao,ChanWen,andZhouXiangdong
(SchoolofComputerScienceandTechnology,FudanUniversity,Shanghai200433)
AbstractFormultimediadatamanagement,automaticimageannotation(AIA)isofprofound
theoreticalandpracticalsignificance.Inthispaperwedescribeourautomaticimageannotationand
trainingsystem.ItimplementsthemultipleMarkovrandomfieldannotationframework,which
achievesverycompetitiveperformanceofAIA.ThroughinteractivedemonstrationofAIAmodel
trainingandannotating,thesystemmanagestorevealcompetitiveperformanceofMMRFanddeliver
tousersabetterunderstandingofboththeAIAmechanismandrealizationofthesystem.
Keywordsautomaticimageannotation;Markovrandomfield;realizationofthesystem
摘要 图像语义自动标注技术的研究在多媒体数据管理领域具有十分重要的理论与应用意义.本演示
介绍了一个基于多马尔可夫随机场的图像语义自动标注方法(multipleMarkovrandomfield,MMRF)
的图像语义自动标注与训练系统.通过交互式的图像语义标注模型的训练与标注演示,充分展示了
MMRF技术的标注性能,并帮助观众更好地了解图像语义自动标注的机理和系统实现过程.
关键词 图像语义自动标注;马尔可夫随机场;系统实现
中图法分类号TP319
互联网上数字图像的数量正在急剧增长.以目
前非常流行的照片分享网站Flickr为例,该网站平
均每分钟接收多于2000张新上传的数码照片.尽管
一些社会媒体网站的图像大多附有用户标签,但是
仍然存在垃圾标签以及标签语义模糊等问题.就一
般情况而言,图像资源的语义识别与标注仍然是大
规模图像数据管理的前提与基础.因此,图像语义的
自动标注(automaticimageannotation,AIA)引起
了各界极大的研究热情.
图像语义自动标注即是利用计算机系统为数字
图像自动赋予语义标签的过程.目前AIA的主要瓶
颈根源于“语义鸿沟”Csemanticgap”),即高层次的
抽象语义概念所表达的含义和低层次的数字形式的
收稿日期:2011一0715
图像内容之间的不匹配.为了克服“语义鸿沟”问题,
研究者们已经提出了很多方法,其中Xiang等人提
出的多马尔可夫随机场标注框架(multipleMarkov
randomfield,MMRF)[11是一种新颖的基于语义上
下文建模的方法.该标注模型在考虑了图像底层视
觉特征的基础上,引入了语义上下文模型、利用语义
概念之间的关联性来提高标注效果.
本文描述了我们实现的基于MMRF的图像语
义自动标注与训练系统,该系统能对用户提供的图
像实现有效的语义标注.通过用户友好的系统界面
及简单的操作,可以直观地展示图像的标注效果.该
系统还通过人机交互,引导用户对标注结果进行评
判,标出正确的标注结果,更正后的标注结果能够加
万方数据
442 计算机研究与发展2011,48(增刊)
入到训练图像库中丰富训练图像、修正模型参数.我
们为这个系统提供了2个训练图像集,一个是图像
标注领域常用的Corel数据集,另一个是由通过图
像分享网站Flickr或者Bing等搜索引擎下载的图
像构成的图像库.系统会自动地在2个训练图像集
上分别为模型学习参数.
1 图像语义自动标注算法
图像语义自动标注领域的研究者们提出了很多
不同的模型来尝试克服“语义鸿沟”(semanticgap)
问题,Xiang等人提出的多马尔可夫随机场标注框
架(multipleMarkovrandomfield,MMRF)[11采用
了生成模型(multipleBernoullirelevancemodels,
MBRM)[2],即通过估计语义概念和图像共同出现
的联合概率分布来实现标注.该算法的核心是在底
层生成模型的基础上引入了语义概念之间的相关关
系使得标注性能得到大幅提升.具体来讲,这一框架
利用马尔可夫随机场理论(Markovrandomfield,
MRF)对语义概念的相关关系进行建模,并能针对
每个语义概念单独学习一组参数,大大提高了语义
上下文建模(contextmodeling)的效果.图1是
MMRF的模型示意图.其中z表示观察图像,P(z,
w:)(o≤i≤7)表示语义标签Wi和z共同出现的联
合概率,^(o≤i≤7)表示图像的标签.
图1 MMRF模型框架
1.1 多马尔可夫随机场标注框架
1.1.1马尔可夫随机场
一个随机变量集合F一{F。,⋯,F。)被称为是
点集S一{1,2,⋯,m}上关于邻居系统N一{N:IiE
s)的马尔可夫随机场,其中N。表示点i的所有邻居
点的集合,当且仅当其满足以下2个条件:
P(,)>0,V,EF; (1)
P(,:l厂s㈦)一P(^IfN.),ViES. (2)
其中,一(^,⋯,厶)是由随机变量构成的向量,^一
{^I^EF且i∈A),F表示整个标签向量空间.条件
(2)说明了马尔可夫性质:只有相邻的随机变量之间
才有相互作用.Hammersley—Clifford定理[31指出,
所有MRF都服从以下分布:
P(厂)一Z1×eu(,’, (3)
其中
Z一>18_U(p (4)
,
是划分函数(partitionfunction).对于图像标注,
P(,)即为标签组合在当前观察图像上出现的概率.
能量函数(energyfunction)U(f)是所有可能的集簇
(clique)CEC的势函数(potentialfunction)V。(.厂)之
和.若只考虑集簇大小不超过2的情况时,能量函数
可简化为:
u(.厂)一∑V。(厂f)+∑∑%(^,^,).(5)
iES iESi7∈Ni
1.1.2语义概念关系图
MMRF利用语义概念在训练图像集T一{(∥,
fk))冬。中的共同出现来构建MRF的语义概念图,
其中矿表示第k幅训练图像的特征向量,fk一(^,
以,⋯片v1)是该图像相应的标签向量且力∈{+1,
一1)表示语义概念集V中第i个标签在第k幅图像
中出现或者不出现.训练集总共包含K幅图像.
若2个语义标签共同出现于同一幅图像,则认
为这2个语义标签相关.如此可以构建一个基于点
集S一{1,2,⋯,m}的语义概念关系图r一(S,e),其
中e代表关系图的边集,iES对应语义标签Wi,(i,
i7)E£当且仅当i和i7是相关的.图1中的语义概念
关系层描述了语义概念关系.
我们单独为每一个语义概念都构建一个语义概
念图,即从完整的语义概念关系图9中为每个语义
概念Wi抽取一个子图f;一(Si,£:),其中S。一{i)U
N:,£;一{(i,J)Ii,JES。且(i,J)Ee).
1.1.3基于生成模型的势函数
根据生成模型,我们估计每个语义概念与观察
图像共同出现的联合概率.MMRF将语义标签W。
和观察图像的特征d共同出现的联合概率P(d,W,)
作为点上的观察值.定义点势函数为:
万方数据
纪传俊等:一个基于语义上下文建模的图像自动标注系统 443
V1(fi)一fi(A;+aiP(d,Wi)),(6)
其中Ai和ai是需要估计的参数.由等式(6)可知,当
ai
:W;d;, (9)
i一1
其中叫。是第i种特征上的欧氏距离的权重系数.权
重向量w一(训1,W2,⋯,W15)通过Tagprop[23模型学
习得到.
2系统框架设计
本节主要介绍我们的图像语义自动标注系统的
整体框架,如图2所示:
③∞图l训
I......_J
标
注
结
果
保
存
燮IMMRF},T,注]霍室
标注结果 仑
图2系统框架不意图
2.1系统主流程
系统主要流程分为离线预处理和在线图像标注
2个部分,离线预处理包括以下3个步骤:
1)训练图像库构建
系统提供了2个图像库,一个是图像标注研究
领域广泛应用的Corel数据集,包含5000幅图像,
其中4500幅作为训练图像,其余500幅是测试图
像,每幅图像标注了1~5个语义标签,我们用这
4500幅图像作为我们的训练图像集.另一个图像库
的图像通过网络下载得到,包括从图像分享网站
Flickr或者通过Bing等搜索引擎下载,再对这些图
像进行去除错误标签的处理.
2)图像特征提取
根据1.2节所述我们为每幅图像都提取15种
特征,然后对每个训练图像库通过Tagprop方法学
习权重向量w.
3)模型参数学习
系统利用基于生成模型的图像标注算法得到第
i个语义标签和观察图像的特征d共同出现的联合
概率P(d,W:),再代入MMRF中学习模型参数0.
如算法1所示,模型训练过程包括3个步骤,首先我
们为每个语义标签构建语义概念图,其次系统对训
练图像进行筛选得到一个正负样例相对平衡的训练
集,最后根据MMRF模型求解参数0.
算法1.MMRF模型参数学习算法.
输入:待标注图像j,词表S,训练图像集X;
输出:MMRF模型参数臼.
①for每一个词iESdo
② 构建语义概念关系图;
③ 构建相应的训练图像集;
④ 求解MMRF模型参数口;
⑤endfor
万方数据
计算机研究与发展2011,48(增刊)
标注系统在线图像标注流程主要包括以下3个
步骤:
1)图像上传及标注
用户上传一幅或多幅图像,系统将对这些图像
进行标注,给出标注结果.对于每一幅图像,所得的
标注结果是使得P(,)最大化的标签组合,即,。一
argmaxP(,),注意到P(,)函数的参数已经通过之
前的学习阶段得到.系统选用的标注算法是迭代条
件模式(iteratedconditionalmodes,ICM)算法.具
体来讲,在第(f+1)轮迭代中,给定图像特征d以及
与标签i相邻的标签,算法通过最大化条件概率
P(^ld,用’)顺序地将一“更新为,r”,直至算法
收敛.
2)用户评判
用户对标注结果给出评判,在正确的标注结果
上做标记,实现交互式标注.
3)标注结果保存
将用户评判的标注结果保存的数据库中,并将
其加入到我们自己下载的训练图像库.一般来讲,这
些新加入的训练图像具有较高的标注准确度,能让
系统对模型的参数进行修正,因此对于提高系统标
注性能是有积极的作用的.
2.2系统图像标注效果
表1给出了我们的系统在Corel数据集上的标
注结果(表中的MMRF数据),并与经典的
MBRM‘41和Tagprop⋯方法进行了对比.从表1可
以看出,我们的系统在Corel数据集上取得了最高
的precision和,1,远远高于其他2个方法,recall也
保持在比较高的水平.其中N+表示recall大于0的
标签数目.
表i在Corel数据集上的实验结果对比
3系统演示
该系统基于c++语言实现,具有良好的用户
界面,能让用户很方便地上传图像进行标注,并具有
人机交互功能,用户可以对标注结果的正确性进行
评判,系统能够保存评判后的结果并将新的标注图
像添加到训练图像库中.
3.1界面介绍
图3给出了系统界面示意图,用户可以选择训
练图像库,选择待标注的图像,图像上传完成后会在
界面上显示出来.点击“标注”按钮后系统将对新上
传的图像进行标注,给出标注结果和相应标签的置
信度.用户可以在标注结果的“用户评判”一栏为正
确的标签打钩.点击“保存”按钮系统将把新标注的
图像保存到数据库并加入到训练图像集.
图3系统图彤化界面
3.2图像标注演示步骤
该系统通过交互式的图像语义标注模型的训练
与标注演示,充分展示了MMRF技术的标注性能,
并帮助观众更好地了解图像语义自动标注的机理和
系统实现过程.系统演示分为以下几步:
”选择训练图像库;
2)选择待标记的图像并上传到系统;
3)点击“标注”按钮进行标注,系统显示标注
结果;
4)用户对标注结果进行评判和修正;
5)保存标注结果. .
4结 论
本演示系统实现了一个基于语义上下文建模的
图像语义自动标注系统.通过交互式的系统演示,直
观的展示了系统的图像标注性能,可以使观众更好
地体会和了解图像语义自动标注的技术发展与系统
实现.
参考文献
E1]YuXiang.ZhouXiangdong,ChuaTat_Seng,etal Arevisit
ofgenerativemodelforautomaticimageannotationusing
markovrandomfields//ProcofIEEEConfoilComputer
VisionandPatternRecognitionPiscataway.Nj:IEEE,
2009.1153-1160
万方数据
纪传俊等:一个基于语义上下文建模的图像自动标注系统 445
[2]FengS,ManmathaR,LavrenkoV.Multiplebernoulli
relevancemodelstorimageandvideoannotation|Procof
IEEEConfonComputerVisionandPatternRecognition.
Piscataway,NJ:IEEE,2004:1002—1009
E3]LiSZ.MarkovRandomFieldModelinginComputerVision.
Berlin:Springer,1995
[4]GuillauminM,MensinkT,VerbeekJ,eta1.Tagprop:
Discriminativemetriclearninginnearestneighbormodelsfor
imageauto—annotation/ProcofICCV,2009:309—316
多媒体信息检索
刘作涛男,1986年生,硕士研究生,主要研究方向为
多媒体信息检索.
产文男,1986年生,硕士研究生,主要研究方向为
文本挖掘与信息检索.
周向东男,1969年生,副教授,主要研究方向为多媒
纪传俊 男,1987年生,硕士研究生,主要研究方向为 体数据及Web数据管理、机器视觉与智能计算.
万方数据
一个基于语义上下文建模的图像自动标注系统
作者: 纪传俊, 刘作涛, 产文, 周向东, Ji Chuanjun, Liu Zuotao, Chan Wen, Zhou Xiangdong
作者单位: 复旦大学计算机科学技术学院,上海,200433
刊名: 计算机研究与发展
英文刊名: Journal of Computer Research and Development
年,卷(期): 2011,48(z2)
参考文献(4条)
1.Yu Xiang;Zhou Xiangdong;Chua Tat-Seng A revisit of generative model for automatic image annotation using markov
random fields 2009
2.Feng S;Manmatha R;Lavrenko V Multiple bernoulli relevance models for image and video annotation 2004
3.Li S Z Markov Random Field Modeling in Computer Vision 1995
4.Guillaumin M;Mensink T;Verbeek J Tagprop:Discriminative metric learning in nearest neighbor models for image
auto-annotation 2009
本文读者也读过(4条)
1. 张维琴.王淑云.李京晋.魏灵哲.张文义 数据处理技术在粒度图像分析中的应用[期刊论文]-仪器仪表学报2004,25(z1)
2. 陆筱霞.李思昆.马千里.LU Xiao-xia.LI Si-kun.MA Qian-li 基于上下文的综合战场环境本体建模[期刊论文]-计算机
工程
路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理
2012,38(4)
3. 武海鹰.WU Hai-ying 普适计算环境中基于上下文的使用控制模型[期刊论文]-计算机工程2012,38(5)
4. 武海鹰.WU Hai-ying 基于上下文的普适计算使用控制模型[期刊论文]-计算机应用2012,32(2)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_jsjyjyfz2011z2129.aspx