基于核密度估计的图像自动标注方法

基于核密度估计的图像自动标注方法基于核密度估计的图像自动标注方法 —198— 基于核密度估计的图像自动标注方法周宁薛向阳复旦大学计算机科学与技术学院上海 200433 摘要提出一种基于概率模型的图像自动语义标注方法将图片自动标注看作一个多类分类问题通过无参数的核密度估计实现用含有共同标注词的图片组估计视觉特征和相应标注词之间关系的机制。选取表达能力较好的基于 CPAM的视觉特征无须对图像进行语义分割处理有效提高核密度估计的效率。在基准数据集上进行实验结果表明该模型能够获得比当前其他相关方法更好的标注性能。关键词图像自动标注多...

基于核密度估计的图像自动标注方法 —198— 基于核密度估计的图像自动标注方法周宁薛向阳复旦大学计算机科学与技术学院上海 200433 摘要提出一种基于概率模型的图像自动语义标注方法将图片自动标注看作一个多类分类问题通过无参数的核密度估计实现用含有共同标注词的图片组估计视觉特征和相应标注词之间关系的机制。选取表达能力较好的基于 CPAM的视觉特征无须对图像进行语义分割处理有效提高核密度估计的效率。在基准数据集上进行实验结果表明该模型能够获得比当前其他相关方法更好的标注性能。关键词图像自动标注多类分类器核密度估计 Image Automatic Annotation Method Based on Kernel Density Estimation ZHOU Ning XUE Xiang-yang School of Computer Science and Technology Fudan University Shanghai 200433 【Abstract】A novel method for automatic image annotation is presented. The new model is based on a probabilistic formulation which poses annotation as a multi-class classification problem. It tries to estimate the correlation between visual features and semantic labels by using the groups of images that share the same associated labels through kernel density estimation. In addition CPAM-based visual features are introduced to improve the efficiency of kernel density estimation without requiring prior image semantic segmentation. Experiments on the benchmark data set show this model achieves higher accuracy than the previously published results. 【Key words】image automatic annotation multi-class classifier kernel density estimation 计算机工程 Computer Engineering 第36卷第6期 Vol.36 No.6 2010年3月March2010?人工智能及识别技术? 文章编号 1000—3428201006—0198—03文献标识码A 中图分类号N9451 概述随着高分辨率数码设备的普及、海量存储成本的降低以及网络传输带宽的增加多媒体数据特别是图像的数量正在高速增长。据统计照片共享网站Flickr上的图片数量已经超过了30 亿并且以每月4千万的速度在递增。如何管理如此海量的图片数据库以便普通用户可以快速和有效地找到他们感兴趣的图片成为一个非常具有挑战性的任务。一个可行的办法是通过手工方法来标注这些图片。但人工标注的过程极易出错并且需要耗费大量的人力资源。因此近十年来图像自动标注吸引了大量研究者的关注。图像自动标注方法大致可以分为2类生成模型和分类模型。生成模型将语义概念和视觉特征看作2种不同模态的信息通过估计这2种模态信息之间的联合概率对两者之间的关系进行建模并根据估计的概率分布来标注尚未标注的图片。如文献1把图像标注问题看作是一个机器翻译问题并提出翻译模型Translation Model TM将图像分割后聚类生成的视觉关键字“blobs”翻译成相应的语义概念文献2提出的跨媒体相关模型 Cross-media Relevance Model CMRM利用视觉关键字和语义关键词之间的相关性进行标注与此类似的方法还包括随后根据相关模型改进的连续相关模型 Continuous-space Relevance Model CRM3和MBRM Multiple-Bernoulli Relevance Model4等。分类模型则把图像标注问题看作是个分类问题其中每个语义概念标注词都被看作是一个类代表方法有基于支撑向量机SVM的方法有监督的多类图像标注 Supervised Multiclass Labeling SML等。分类方法的一个重要优点是能够保证模型预测出来的标注词在识别和检索意义上是最优的。本文提出一种多类分类器用于对图像进行自动语义标注利用无参数核密度估计发掘图像视觉特征和语义概念之间的关系而图像特征通过CPAMColored Pattern Appearance Model5表示。使用基准数据集 ECCV20021对该算法进行验证实验结果表明与传统的生成模型相比标注性能有了显著提高与该数据集上最好的分类模型SML相比本文算法的性能也略优。 2 自动标注的基本框架假设标注系统中的图片iI都存储在图片数据库12NIIII中用来对图片进行标注的语义关键字iw都来自于语义词汇表12MwwwV。于是图像自动语义标注的目标是对于一幅给定的未标注的图像I预测出一系列的最合适的标注词来描述这幅图像的内容。当然预测是基于一个训练集1122DDIIIwwwD的其中iw是个M维的二值向量如果kw是图片iI的标注词那么相应的值就为1否则为0。不同于生成模型通过估计视觉特征和语义概念之间的联合概率分布来建立两者之间的联系该标注模型将图像标注看作是个多类的分类问题语义词汇表中的每个标注词都定义一个语义类即通过引入1一个取值集合是12M的随机变量W使Wi当且仅当表示图像视觉内容的特征向量x是属于语义类iw的视觉特征基金项目国家科技支撑计划基金资助项目2007BAH09B03上海市科委基金资助项目08dz1500109 作者简介周宁1983男硕士研究生主研方向多媒体信息处理与检索模式识别薛向阳教授、博士生导师收稿日期2009-11-30 E-mail062021185fudan.edu.cn 万方数据 —199—分布中的一个样本2一系列的条件概率分布Pix 12iM?来表示不同语义类的视觉特征的分布。那么利用贝叶斯规则图像标注可以表示为 PiPiPiPxxx 1 其中Pi是第i个标注词的先验概率可以通过训练集进行估计或者看作是均一分布的。第i个语义类的密度Pix则通过训练集iD来估计这个训练集包含了从所有用标注词iw标注过的图片中提取的特征向量。本文采用无参数的核密度估计方法估计这些概率密度函数具体细节将在下一节讨论。如果将每个语义概念都看作是相互独立的那么对于测试图片I其最佳的标注为 argmaxiiPix 2 把这个自动图像标注模型称作是有监督的多类分类器Supervised Multi-class Classifier SMC。 3 核密度估计有多种方法可以用来估计语义类的密度函数Pix i??例如1参数方法将真实分布看作是一种参数形式的已知分布然后通过训练集来估计这些参数2半参数方法比如混合模型等3无参数方法在对真实分布不做任何先验假设的基础上对真实分布进行估计。一般来说语义类的概率密度函数都是不规则的形状与任何一种简单的参数形式的密度函数都不会相似。而且更希望利用这种不规则性来更好地刻画和区分不同语义类的视觉特征分布。因此本文考虑第3类方法——核密度估计。经验分布函数是无参数密度估计中的一种最简单形式然而当样本有限时估计的准确性会大大下降。此时核平滑kernel smoothing往往被用来提高概率密度函数估计的效率。这里可以将语义类i的概率密度函数的核密度估计形式定义为 11tnitPiKnCh????xxx 3 其中12niiixxx是训练集iD中的样本该训练集包含了从所有用标注词iw标注过的图片中提取的特征向量K??是核函数dCKtt?是归一化参数h为带宽。在多变量核密度估计中另一个关键问题是如何选择一个合适的核函数。简单直观的方法可以定义一个d维的高斯核函数其中d是特征向量的维数。然而由于维数灾难的问题核平滑在高维空间的效果会急剧下降因此基于这个考虑把核函数定义为 1expttLdKhhh??xxxx 4 其中tdxx是2个特征向量之间的一个真实的测度距离。在实现中选用1L距离。最后语义类i的概率密度函数可以通过以下公式估计 1titLiPiKh???xxxxDD 5 其中iD是训练集的大小。 4 图像特征在估计语义类的概率密度函数时视觉内容的表示方法扮演着重要的角色。本文采用一种词袋模型a bag of words 即CPAM表示图像的视觉内容。该模型同时提取了自然彩色图像块中的色彩和纹理信息已经被成功地应用于图像编码、索引和检索5。数以万计的图像块通过矢量量化的方法得到一些共同的外观原型appearance prototypes把这些外观模型组成一个码本codebook图1为其中的部分外观模型。图1 CPAM外观原型示例对于一幅给定的图片使用一个滑动窗口将图片切割成4×4的小块。然后每个图像块都用与之最相似的外观模型为之编码。于是图像的视觉特征可以用基于CPAM的直方图表示这个直方图列出了用来近似编码每个图像块的外观模型的概率。基于CPAM的直方图由 ASPHAchromatic Spatial Pattern Histogram和CSPHChromatic Spatial Pattern Histogram2个部分组成。于是2个基于CPAM的特征向量mx和nx之间的1L距离可由式 6计算 ASPHASPHCSPHCSPH1ASPHASPH1CSPHCSPHmnmnmnijmnmniijjdiijj?????????? xx 6 5 实验 5.1 实验建立实验使用的Corel数据集是ECCV 2002基准数据集1。该数据集包含5 000幅图像来自50个Corel Stock Photo CDs。每个CD目录下包含同一主题的100幅图像。每幅图像有1个5个标注词共有371个词测试集只出现了其中的260个标注词。将数据集分成3个部分训练集4 000幅验证集500幅测试集500幅图像。其中验证集包含每个目录下随机抽取的10幅图像主要用来确定核密度估计中的带宽参数。当带宽确定后验证集的数据加上训练集形成新的训练集用来重新训练模型。与之前的方法一样测试图片的标注长度固定为5。然后通过计算每个标注词的查全率、查准率以及查全率大于0的标注词的个数来度量标注性能的好坏。特别地给定查询词w假设测试集中手工标注结果中包含w的图像个数为gN自动标注模型的标注结果中包含该词的图像个数为mN其中cN个是正确的则 cgNRecallN cmNPrecisionN 其中查全率Recall度量的是对单个词查询的完整性查准率Precision度量的是查询的精度。除了查全率和查准率之外模型所能有效学习查全率大于0的标注词到的标注词数量也是个重要指标因为它反映了该模型的泛化能力。 5.2 实验结果表1是本文标注算法在使用不同维数的特征向量时的标注结果比较。其中维数为64 128和512的特征向量对应于相应大小的CPAM码本。显然随着视觉特征向量维数的增加其表达能力会随之增强于是就能得到更好的标注效果。具体来看当使用512维向量时查全率比使用128 维和 64维向量时分别增加了14.29和39.13查准率分别增加了4.35和33.33查全率大于 0的标注词的个数也分别增加了11.76和27.73。当然随着特征向量维数的增加计算的代价也会随着增加。表1 不同维数特征向量的SMC标注性能比较特征向量维数查全率查准率查全率大于0的标注词的个数64 0.23 0.18 119 128 0.28 0.23 136 512 0.32 0.24 152 表2给出了在同样的数据集上本文提出的标注算法万方数据 —200— SMC 和其他相关方法在标注性能上的比较。这些方法包括翻译模型TM、连续相关模型 CRM MBRM和分类模型SML。整体来看SMC取得了最好的标注效果其中和最好的结果SML相比查全率和查准率分别提高了10.34和4.35。同样查全率大于0的标注词个数也上升了11.76。表2 各算法在ECCV2002基准数据集上的标注性能比较模型查全率查准率查全率大于0的标注词的个数 TM 0.04 0.06 49 CRM 0.19 0.16 107 MBRM 0.25 0.24 122 SML 0.29 0.23 136 SMC 0.32 0.24 152 图2给出了SMC的一些标注示例人工表示手工方式添加的标注词SMC标注表示模型SMC自动给出的标注词。人工标注 water bear black reflection field horses mare foals stone statue sculpture sphinx SMC标注 black reflection bear shrubs water mare foals horses field meadow sphinx sculpture statue mosque stone 人工标注 stone temple sculpture pillar field horse mare foals rocks sand valley canyon SMC标注 pillar sculpture temple stone detail foals horse mare field tree Canyon valley sand rocks remains 图2 标注示例从图2可以看到尽管有些SMC预测的标注词并没有在人工标注中出现然而这些词往往是可以用来描述这幅图片的内容的。 6 结束语针对图像自动语义标注问题本文提出一种基于核密度估计的多类分类器SMC利用一种表达能力良好的词袋模型CPAM对图像视觉内容进行有效表示。在基准数据集ECCV2002上的实验结果表明该方法与当前其他相关的方法相比在查全率和查准率上均有不同程度的提高。参考文献 1 Duygulu P. Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image VocabularyC//Proc. of European Conference on Computer Vision. S. l.: IEEE Press 2002. 2 Jeon J. Automatic Image Annotation and Retrieval Using Cross-media Relevance ModelsC//Proc. of the Int’l ACM SIGIR’03. S. l.: ACM Press 2003. 3 Lavrenko V. A Model for Learning the Semantics of PicturesC// Proc. of Int’l Conf. on Advances in Neutral Information Processing Systems. S. l.: IEEE Press 2003. 4 Manmatha R. Multiple Bernoulli Relevance Models for Image and Video AnnotationC//Proc. of the IEEE Int’l Conf. on Computer Vision and Pattern Recognition. S. l.: IEEE Press 2004. 5 Qiu Guoping. Indexing Chromatic and Achromatic Patterns for Content-based Colour Image RetrievalJ. Pattern Recognition 2002 358: 1675-1686. 编辑陈文上接第197页实验结果表明本文算法的检测精度远高于传统Mean- shift算法。对关联过程的角特征点匹配准确率进行统计并得到如下结果M平均大于97.8。此结果说明角特征点很好地刻画了车辆空间结构如图3所示。 a跟踪结果1 b跟踪结果2 图3 跟踪结果示意图 5 结束语本文提出一种基于角特征点和Mean-shift的车辆跟踪方法依据车辆具有明显几何特征和角特征点对刚性物体的空间结构进行刻画易于检测的特点利用角特征点和Mean- shift算法进行跟踪并找到了目标对每个子窗口的相应中心位置通过关联过程确定了车辆目标在整个视场中的运行轨迹。该方法具有2个主要特点1对变化尺寸比较大的目标具有良好的跟踪效果2由于不需要对整个目标区域进行跟踪因此具有简单快速的特点。如何提高角特征点搜索后的匹配准确率是今后的研究方向。参考文献 1 Comanieiu D Ramesh V Meer P. Kernel-based Object TrackingJ. IEEE Transaction on Pattern Analysis and Machine Intelligence 2003 255: 564-577. 2 Birchfield S T Rangarajan S. Spatiograms Versus Histograms for Region-based TrackingC//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. S. l.: IEEE Press 2005. 3 左军毅梁彦赵春晖. 一种新的基于Mean Shift的目标三自由度跟踪算法J. 电子与信息学报 2008 301: 172-175. 4 彭宁嵩杨杰. Mean-shift跟踪算法中核函数窗宽的自动选取J. 软件学报 2005 169: 1542-1550. 5 钱惠敏茅耀斌王执铨. 自动选择跟踪窗尺度的Mean-shift算法J. 中国图像图形学报 2007 122: 245-249. 6 Yilmaz A. Object Tracking by Asymmetric Kernel Mean Shift with Automatic Scale and Orientation SelectionC//Proc. of IEEE Conf. on Computer Vision and Pattern Recognition. Minneapolis MN USA: IEEE Press 2007. 7 何得平陆承恩赵广州等. 基于区域生长处理的运动车辆提取新方法J. 计算机应用学报 2008 284: 979-981. 8 Xie Lei Zhu Guangxi Tang Miao et al. Vehicles Tracking Based on Corner Feature in Video-based ITSC//Proc. of the 6th International Conference on ITS Telecommunications. S. l.: IEEE Press 2006. 编辑陈文万方数据

                    本文档为【基于核密度估计的图像自动标注方法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于核密度估计的图像自动标注方法

你可能还喜欢