视频字幕检测与提取研究

视频字幕检测与提取研究视频字幕检测与提取研究 2011年 6 月 Jun2011. 滁州职业技术学院学报 JOURNAL OF CHUZHOU VOCATIONAL,TECHNICAL COLLEGE Vol,10 No,2第十卷第 2 期视频字幕检测与提取研究袁文凤，齐俊平 4660002.4660001.(周口职业技术学院机电工程系，河南周口 ;周口职业技术学院机电工程系，河南周口 ) ×N N摘要:为将图像字幕原始图象帧分割成大小子块，同时将每个子块标注为字幕块和非字幕块两类，并且从每个子块提取能够保持相互...

视频字幕检测与提取研究 2011年 6 月 Jun2011. 滁州职业技术学院学报 JOURNAL OF CHUZHOU VOCATIONAL,TECHNICAL COLLEGE Vol,10 No,2第十卷第 2 期视频字幕检测与提取研究袁文凤，齐俊平 4660002.4660001.(周口职业技术学院机电工程系，河南周口 ;周口职业技术学院机电工程系，河南周口 ) ×N N摘要:为将图像字幕原始图象帧分割成大小子块，同时将每个子块标注为字幕块和非字幕块两类，并且从每个子块提取能够保持相互高阶独立的独立分量特征去训练支持向量机分类器，再结合金字塔模型去噪方法，用训练好的支持向量机来实现对视频字幕区域自动定位提取。这种方法在样本不是很多的情况下，具有良好的分类推广能力以及能使独立成分特征之间彼此保持高阶独立性，所以该算法具有明显的优点。关键词:字幕定位，字幕提取，独立分量分析，金字塔模型，支持向量机中图分类号:TP391.41文献标识码:A文章编号:1671599(32011)020057-03-- 一选择，构造学习机及其步骤通过核函数把训练样本中的低维数据映射到高维特、视频字幕定位就是构造一个学习机，实现视频中征空间，然后在高维特征空间构造一个最佳分类平对字幕与非字幕进行分类在模式分类中，要综合考。面。在实验中，只需指定特定的核函数 K，而无需指定虑三点因素:〈1〉训练样本的多少。样本过多会造成过原始图像特征到高维特征的映射函数。学习问题，样本过少则难以取得好的识别效果;2从提取特征的方法〈〉二,,ICA 样本中提取分类对象的哪些个特征，使这些特征能够 1独立视频基的 ICA 特征: 提取独立视频字幕、表征分类物体;〈3〉基于样本的这些特征，找到一种分 [2]基 ICA 特征的具体步骤下: 类机制，能对测试样本和实际未知数据都达到良好的 T (1)计算 x的协方差矩阵 C 的特征向量和特征分类目的，具有不错的学习推广能力。所以本文提根，并将特征值按从大到小进行排序，然后选取前面出了一种结合使用独立分量分析(Inde,pendent m 个特征值所对应的特征向量 Pi (i=1…..m,Pi 是 N×1 Component Analysis，ICA)和支持向量机(Sup,port Vector Machine，SVM) 的方法来实现在小样本情况列向量)组成 N 行 m 列矩阵 Pm，这一步也就是标准的下，提取尽量相互独立的视频字幕特征的方法，从 PCA 算法, 而使 SVM 对提取视频字幕具有良好的识别分类推广能力。P=[P,P,P……P] 1 m123m[1]原理一,,SVM (2)由于 Pm含有 m 个与最大特征值对应的特征 T 向量，因此用 Pm的转置矩阵 P代替重构式 1 中的 m x,应用快速定点 ICA 算法，可以得到 T T -1 y=WP圯P=W y Risk Mini, 2 SVM 使用结构风险最小化(Structuralm m mization，SRM 准则)原理构造决策超平面，使每一类m×m其中，y 的每一行代表一个独立视频字幕基，数据之间的分类间隔(margin最大)。由于视频字幕出矩阵 W 可在训练中得到; (3)对于每个训练库样本可以用特征向量基坐标现的非确定性和多样性，即使提取的特征良好，也不能保证视频字幕和非视频字幕的线性可分。而 SVM 表示，即 Rm=xPm，Rm 是 H×m 矩阵，其第 1 行表示第 1 2011- 05- 30 收稿日期: 1983-作者简介:袁文凤()，女，河南周口人，周口职业技术学院机电系讲师。实际处理中，这两步是通过核函数一步来实现的，个样本对于 m 个特征向量基的坐标，最后一行表示第 [3] 满足:函数H 个样本对于 m 个特征向量基的坐标，可使用最小平方误差法求 x 的逼近值 Xmse，并且将式 2 代入，得K(x,y)= (Φ(x)Φ (y)) ?TT-1X=RP 3 =xP P =xP Wy 其中，K 是核函数，Φ 是高维非线性映射，是内 ?msemm m m m-1 (4)从式 3 可以看出，xPW中的第 i 行是第 i 个。积，输出层将分类结果输出 m 训练样本相对于 y 中独立视频字幕基的线性组合系 SVM 中研究最多的核函数主要有多项式、径向数，由于这 m 个组合系数就是第 i 个训练样本的 ICA 基函数(RBF)、多层 Sigmoidal神经网络三类。这里使特征，因此，对于任意测试样本 I(1×n)，其独立视频字用的是 RBF 核函数，其形式为: 2 幕基 ICA 特征就是x-y K(x,y)= exp ,-,2 1σ -4 c=IPW m 在实验中，由于是将字幕块定义为+1，非字幕块从本质上讲，独立字幕基方法在字幕块分类中是可行的。1，因此对每一个输入，如果输出为正，则该输定义为- 2、独立系数 ICA 特征入块被判定为字幕块，如果输出为负，则为非字幕独立系数 ICA 特征提取步骤如下: 块。 (1)对样本库中的图象块的维数进行约减，使总 (一)金字塔模型(PyramidMode)1 像素点 N 约减为待提取的 ICA 特征维数 mx表示。m 由于视频字幕大小经常变化，而且变化巨大，因进行了维数约减的图象训练样本，每一个样本图象块此相同大小的子块可能只包含了某个字幕中的一个表示为 x中的一列，x为 m×L 的矩阵x可通过 P。 m m m m 笔划，而在别的情况下的确包含了多个小字幕,为了来得到(P定义与上面相同)，则 m 4 【】解决这一问题，采取了金字塔模型 ,例如 3 阶金字塔 T 模型，总共对图象缩小 3 次，且在每一阶都将原图象x= Px5 mm 长宽减少为原来的 1/ 2 ，然后在每一阶都单独使 ,2,应用 ICA 算法来提取 X 独立特征，其重构式姨用 SVM 进行字幕检测，通过将各阶的检测结果都还为 T 原到原始图象分辨率下合成来生成最终的检测结果y=Wx=WPx 6 mm 【 5】(二)后期处理(Post-processing) ,3,对于任意测试图象块 J，J 为 N×1 列向量,其独对每个图象子块都做出分类判断后，还要进行后立系数 ICA 特征表示为 ,其期处理，其目的是为了抑制噪声和合并字幕区域c=WPTI m 具体算法流程如下:其中，w 可由 ICA 算法计算得出。如果令 T u=WP1、对每一图象子块做出判定之后，就可得到所有 m 候选字幕块的集合;接着使用如下方法去构造每个候则 U 中每一列表示的是与训练库所对应的每个 (i,j)，即将(i，j)扩充为(i,j)，其中选字幕块(i，j)的扩充块图象的独立系数字幕基。可是由于字幕块的不确定性 (i,j)包括(i，j)及与它相邻的两个子块(i-1，j)和(i+1，j)和弱相似性，使其与人脸检测中人脸的高度相似性不如果某个候选字幕块(i，j)的扩充块()与任何一个其i,j一样，所以这种方法应用在视频字幕检测时不会像在他候选字幕块的扩充块是连通的，则判断(i，j)为字幕人脸检测应用中取得那么好的结果。块，否则为噪音块，并应从候选字幕块集合中去除(i 在实验中，取视频图象块大小为 12×12，即 N= j)。 144，如果 m 取为 48，则每个样本提取的 ICA 特征维 2去除噪声块后，就已经从水平方向上将所有真、数大小为 48，并且从 ICA 特性知道，这些特征高阶统正字幕块连接起来，最后要做的工作就是确定出每一计相互独立。个联通字幕块集合的最大包围矩形，其中位于包围矩二、SVM 核函数的选择 SVM 分类学习机的结构包含输入层、隐含层和输形中的区域就是最后确定的字幕区域。出层，其中，输入层用于输入数据，在本次实验中，输经过上述的步骤，即可得到视频图象中的字幕区入层接受每个图象子块的 m 个 ICA 特征和对图象子域，若进一步应用 OCR技术，就可以实现字幕识别。块进行是否为字幕的标注;隐含层有如下两个功能: 三、实验设计和预测分析一是使原始 ICA 特征成为高维特征，以达到高维可分 (一)实验设计目的;二是计算高维空间特征和支持向量的内积。在 1、实验目标视频字幕检测与提取研究专业研究与技术实践2011年第 2 期对多种字幕子块特征提取方法识别的进行比较，上结果后，即进行结果统计，不采取后期处理措施。述三点约定就保证了能够在最公平的情况下评判各通过比较 SVM 对不同视频字幕特征的识别性能的差种特征的绝对效果, 异，判断本文所提出的字幕提取和识别的性能。 (六)结果数据 (二)样本的选取通过实验分别得出对于三类不同的测试样本，使用实验时，可以从某电视台选取的 1000帧不同的五种特征进行 SVM 字幕定位识别的准确率和误判视频节目图象(主要为体育新闻，包括主持人画面，比率和使用五种特征进行字幕识别定位总体上的准确赛画面，广告等)，实验中，选取其中的 400 帧作为训率和误判率(对于第一类和第二类测试样本，由于自身所包含的字幕较少，所以误判比率就较高)共三组练样本，其余为测试样本，在 Windows2000和数据。 Matlab5.3 下进行仿真。 (七)结果比较 (三)字幕特征的选取根据得出的试验数据，比较得出几种特征识别的为了比较 SVM 对不同视频字幕特征的识别性能的差异，可以在实验中提取了 5 种不同特征(见表 1) 1 性能比较结果。表视频字幕不同特征表示 (二)结果预测与分析根据理论分析预测实验结果:PCA 和 ICA 特征比图象灰度值特征有较优的识别性能;独立字幕基的 ICA 特征能够取得最好的识别准确率和较低的误判率;正如前文分析结果一样，独立系数 ICA 方法在识别准确率上较差。预测:总体上，在相同维数下，独立字幕基 ICA 特原始灰度特征指每个 12×12 像素大小子块的灰征比 PCA 特征取得了更好的识别效果，由于 SVM 通度值;关键灰度特征指对 12×12 像素大小子块按照过核函数把低维特征向高维空间映射，而 ICA 特征又米字形对角线结构提取的 41 个(即 4xN-3)灰度值; “”可在高阶统计上保持独立，从而保证了特征所携带信 ICA 分成两步进行识别:先对特征数据去均值和白化处理(由于其可以看成是普通的 PCA 算法，所以在某息的独立性。种程度上 PCA 是 ICA 的一部分);然后通过使用信息另外，通过实验还可看出 SVM 具有很强的学习熵这个目标函数来训练矩阵。推广能力，即使训练样本较小，也可以取得较高的识 (四)样本的分类别效果如果运用三层金字塔模型，对识别结果进行。根据背景和字幕特性的不同，将 600 帧测试样本去噪和合并等后期处理，那么在使用独立字幕基 ICA 分为 3 类进行测试。为了考查各种方法的适用性，其特征情况下，SVM,ICA 方法可以取得较高的正确识别中 200 帧选取的是与测试样本相差较大的字幕图象率和较低的误判率，估计引起漏判的原因主要在于图 (如表 2 所示第 3 类): 象中字幕太小或字幕很少，且自身形成孤立块(如比 2 3 表类测试样本集赛分数)，导致被误认为是噪声块而被清除，另外是由于一部分图象子块体现出了字幕块特性以及受到了场景字幕的干扰所致，但是以上这些预测都有待于实验的证明。在 SVM,ICA 方法中，并没有考虑字母字和词等、文字形态学概念，字幕和非字幕的判断是分两步完成的，首先基于分割出的图象子块做出是否是字幕块的 (五)比较约定判断，其所依据的只是图象子块是否呈现出字幕子块在对上述五种特征的识别效果进行预测对比的所特有的特征。在文字的排列上，各种语言的文字均时候，为了体现出各种方法自身所能达到的识别准确体现出水平排列的特性，并且保持在一定区域的聚集 (一)对所有特率和可能产生的误判率，做出如下约定:性特征，从这个方面说，字幕子块在“宏观”上也具有征,SVM 算法保证一致;(二)不使用金字塔模型，只在页下转第 ,,相同的共性,由此可以得出结论， 63 原始图象上进行字幕定位和识别;(三)在 SVM 输出平面设计等方面的设计上，进行了大胆的探索和创度对弱势群体的关怀。新，表现出前所未有的形式:夸张奇异富有想象力当代的其它艺术流派对产品设计的影响、、三、的造型;色彩单纯、鲜艳;材料多选用塑料或廉价的从现代艺术史中可以看出不论是现成品艺术纤维板、陶瓷等。其设计挣脱了一切传统束缚，具有还是行为艺术，以及大地艺术、光效应艺术等等。笔鲜明的时代特征。其市场目标是青少年群体，迎合了者认为它们都是对传统美学的挑战，对传统社会价现代青年的桀骜不羁、玩世不恭的生活态度及其标值的反思，是社会文明的体现。同时也是社会不断发新求异的消费心态。展的结果，例如光效应艺术是 20 世纪 60 年代流行在产品设计中，特别是设计消费者是年轻一族，于欧美的一种光学感觉加强绘画效果的抽象艺术必须大胆和强烈，设计造型应该突破旧有的造型框从技术的角度它是科学技术发展的结果;而大地艺框，在产品的色彩、造型、材质等各个方面进行创新。术是人们对工业社会的反思，人们试图通过它探寻二后现代主义的艺术是对产品设计的反思、人与自然怎样和谐相处用中国古代哲学思想可以说后现代主义实际上是针对现代主义之后出现的、在某种意义上超越了现代主义精神的文化现象是天人合一“”。而作的一种非定性的概括。后现代主义(Postmod, 从文化的角度我们已经进入到一个多元化时 ernism)是一个从理论上难以精准下定论的一种概念，代。在这种多元化的时代，设计也将不再有统一的标因为后现代主要理论家，均反对以各种约定成俗的准和固定的法则，从而成为一个开放的、各种风格百形式，来界定或者规范其主义最早出现后现代主义。花齐放的、各种学科交叉融合的综合学科。例如自然的是哲学和建筑学当中领先其他范畴的，尤其是六。设计、绿色设计、简约设计的提出都受到艺术的影十年代以来的建筑师，由于反对全球性风格(Interna, 响。而作为产品设计师则更应该加强把这方面的知tional Style)缺乏人文关注，引起不同建筑师的大胆创作，发展出既独特又多元化的后现代式建筑方案。识融入到产品设计中。如果说现代主义设计是强调产品设计的功能主进入 21 世纪以后现代艺术的发展也越来越五彩义、实用主义，使得产品设计国际化。从而忽失产品缤纷，但笔者认为它们大多是人类不可缺少的精神的文化、人文风格、情感、情趣、社会隐逸等等因素。粮食等待我们去了解、品味。作为现代产品设计者我在后现代主义的产品设计中关注细节关注情感是、们不能固步自封、从学科的角度去感受它、汲取它的很重要的一部分，细节是设计作品深化主题拓展内、养分为社会服务。容提升品位并经得起推敲的关键所在，是创新的起、点，也是实现产品外在价值的重要部分。因此，无论设计创意如何精妙绝伦、设计方案如何气势如虹，如果对细节的把握不到位，这样的产品就不被使用者 [参考文献] 所接受。另外无障碍设计的提出就是从人文主义角 [1]梁梅.世界现代设计史[M].上海:上海人民美术出版社 2009. [2] 王受之. 世界当代艺术史[M]. 北京:中国青年出版社 2005. [参考文献] 页上接第 ,, SVM,CA 方法对汉字字幕和非汉I59 字字幕同样适用。 [1]王晓云等,多类 SVM分类算法的研究[J],山西大同大学四、结论学报，2010,(6). 虽然理论上在图像背景复杂、图像分辨率低以及 [2]杜吉祥，翟传敏，尚丽等,基于 ICA 系数稀疏表示的年龄字幕字体、大小、颜色多变这些传统检测提取方法或自动估计[J],中国图象图形学报，2009，(10). 多或少都存在困难的条件下，该方法都具有良好的视 [3]贾川,浅谈人脸识别技术应用及发展趋势[J],中国安防,频字幕检测提取能力。但是，该方法仍有待于实验的 2010，(3).进一步验证，只有通过实验才能真正确定这种方法的 [4]蒋维杜等,基于核函数于 SVD的蛋白质关系抽取的实现有效性。因此，今后的工作是一方面，要通过实验验证 [M],北京:清华大学出版社，2006，8. 该方法的性能;另一方面，可以对该方法进行进一步 [5]杨靖宇等,基于小波变换的分辨率分析特性的遥感影像的改进，综合利用已产生的技术或新技术通过实验逐动态重构的金字塔模型[J],测绘科学，2007,O9. 步提高字幕提取的效率，降低其难度。

                    本文档为【视频字幕检测与提取研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

视频字幕检测与提取研究

你可能还喜欢