含噪文本图像的中英文文种识别研究

含噪文本图像的中英文文种识别研究第28卷 Vo1．28 第 2l期 NO．2l 计算机工程与设计 Compeer Engineering and Design 2007年 11月 NOV．2007 含噪文本图像的中英文文种识别研究陆一j,,jj】，伊兵哲，平西建，程娟 (解放军信息工程大学信息科学系，河南郑州450002) 摘要：从文本图像中提取局部特征来进行文字种类识别，对图像的质量要求较高，而提取文本图像的整体特征进行识别，则能够克服了这个问题。分析中、英文文本图像的纹理特征，通过...

第28卷 Vo1．28 第 2l期 NO．2l 计算机工程与设计 Compeer Engineering and Design 2007年 11月 NOV．2007 含噪文本图像的中英文文种识别研究陆一j,,jj】，伊兵哲，平西建，程娟 (解放军信息工程大学信息科学系，河南郑州450002) 摘要：从文本图像中提取局部特征来进行文字种类识别，对图像的质量要求较高，而提取文本图像的整体特征进行识别，则能够克服了这个问题。分析中、英文文本图像的纹理特征，通过Gabor滤波器分析提取全局特征，再用支持向量机的方法进行丈种分类识别。实验结果表明，该方法可以很好地区分含噪文本图像中的中文和英文。关键词：丈种识别；Gabor滤波器；文本图像；纹理；支持向量机中图法分类号：TP391 文献标识码：A 文章编号：1000．7024(2007)21—5150一o3 English and Chinese script identification of noised document image LU Xiao—chuan， YI Bing—zhe， PING Xi-jian， CHENG Juan (Department of Information Science，PLA Information Engineering University,Zhengzhou 450002，China) Abstract： Usmg local texture analysis based approach to make script recognition need fine quality text image，but global texture analysis based approach doesn’t need SO． A recognizing method for script recogn ition is in~oduced on the basis of the an alysis of Chinese and English texture features． It is a global texture an alysis based approach using gabor filters， and use SVM to make script recogn ition．The experimental results are very promising． Key words：script recogn ition；Gabor filter； document image； texture； SVM 0 引言文本图像是内容为文字、表格、图形等文档文件经数字化形成的静止数字图像。随着无纸办公的逐步普及，网络中传输的文本图像需要通过OCR(optical character recognition)转换为文本数据。作为0CR的前端处理技术，文本图像的文种识别十分重要。在过去十多年中，文本图像文种识别的研究逐步深入，提出两大类算法：基于局部特征提取的识别方法和基于整体特征提取的识别方法。基于局部特征进行识别的算法中具有代表性的有：E1． gammal等人“ 将文本图像中的文字行进行水平方向的投影，通过投影的轮廓以及投影的柱状图分布来区分阿拉伯文和拉丁文。Pal嘲等人利用字符中上凹形状的分布来进行中文与拉丁文的识别，上凹指的是：如果某扫描线出现两个黑游程，且其下方扫描线存在一个黑游程，该黑游程的长度超过那两个黑游程间的距离，则形成一个上凹形状，通常一个拉丁字符中至多只含有 2到3个上凹，而中文则要复杂得多。并且，上凹之间的位置是相互关联的，对于中文和拉丁文，其在垂直方向的分布区别显著。基于整体特征进行识别的算法中具有代表性的有：曾理等人脚提出了一种基于多尺度非冗余小波纹理分析的文字种类自动识别技术，通过对 6种语言(中文、英文、日文、韩文、俄文和印度文)不同格式和字体的文本图像的实验，表明基于多尺度非冗余小波纹理分析的文字种类自动识别技术具有较小的计算复杂性，而且对格式和字体的变化较稳定；谭铁牛等人提取出文本图像的旋转不变性纹理特征，通过提取出的特征进行文种识别，旋转不变纹理特征是基于多通道Gabor滤波的扩展，通过对6种文字(中文、英文、希腊文、俄文、波斯文、印度文)提取出的特征进行比较，可以得出旋转不变纹理特征在文种识别中的应用潜力非常大。 Andrew Busch等人通过提取灰度共生矩阵法、多通道 Gabor滤波器和小波变换提取图像的纹理特征以实现文种识别。南开大学的KaiWang与清华大学Jianming Jin等人研发了基于周期的中、英混合文本图像的文种识别技术。YuTao等人提出用分形维数对东方文字和西方文字进行特征的提取，用以区分这两类文字。基于局部特征识别方法有较高的识别精度。如利用文本行投影对中、英文文种的识别准确率能达到95％以上。但是该方法需要做连通区或行的切分，一旦文本图像版面较复杂，噪声较多将直接影响识别的准确率。针对扫描、传真传输、网络传输等过程中不可避免地会产生各种各样的噪声、倾斜、文字笔画残缺等质量退化现象，本文将图像的文字区域看作是收稿日期：2006-11-22 E-marl：byxc2001@sina．com 作者简介：陆小川 (1982一)，男，江苏宝应人，硕士研究生，助理工程师，研究方向为图像处理；伊兵哲 (1981一)，女，硕士研究生，研究方向为图像处理；平西建 (1953一)，男，教授，博士生导师，研究方向为图像处理、信息隐藏等；程娟 (1979一)，女，博士研究生，研究方向为图像处理、模式识别。一 5150— 维普资讯 http://www.cqvip.com 含有特殊纹理信息的图像，来自同一种文字的不同文本图像具有同一类纹理，采用多通道Gabor滤波器提取文本图像的纹理特征，通过纹理分析提取出全局特征，实现文本图像的文种识别。Gabor变换是基于多通道、多分辨率分析的一种方法，符合人类视觉感知系统的特性。由于 Gabor变换的识别特征能充分反映笔画结构在空间上的局域性，笔画的方向性以及在频域上笔画与干扰的可分性等重要的特性，能够较好地去除噪声对识别处理的影响，因此在选取特征时选用Gabor 变换提取特征。 1 Gabor滤波器设计与纹理特征提取 1．1 Gabor滤波器设计人的视觉皮层对外界图像的频率和方向比较敏感，能够将它们结合到一起，调谐到一个很窄的区域，形成某种通道，有些类似于信号处理中的“带通滤波器”，因此我们在纹理分析中可以通过多通道滤波器来模拟人的视觉系统工作机理。纹理图像的多通道滤波过程由特征提取和分类两部分组成。特征提取中，纹理图像首先经一组滤波器的滤波。然后经非线性变换和空域平滑得到一组对应滤波器的特征图像，最后由分类器进行分类，完成对纹理的分类和分割。滤波器的每个通道都能够得到输入纹理的某种局部特征，例如空间频率、方向边缘等。用的最多的滤波器组是Gabor 滤波器，Gabor函数是惟～能够达到时频测不准关系下界的函数，在时域和频域中都具有比较好的分辨能力。用 Gabor函数变换形成的2维 Gabor滤波器有着比较好的滤波器性能并具有与和人的视觉系统相近的特点，近年来被广泛用于很多领域。而具有正交性的 Gabor滤波器用于图像的纹理特征提取是非常有效的。二维 Gabor函数的一般形式为脚唧[ ] 唧[ ]． exp[(2zrF(xcosO+ysinO)+~o)i] (1) 式中：Xo ——高斯曲线的原点坐标；， ——高斯曲线两个方向的线宽；方向角；卜径向中心频率；妒——相角。若取圆形高斯函数，则有。式(1)有实部和虚部两个分量，具有正交相位关系，可以分别称之为偶对称和奇对称 GaborDDSS滤波器，若用 h表示偶对称 Gabor滤波器，用h。表示奇对称 Gabor滤波器，则可得 Gabor滤波器对偶对为 fho(x,y) exp卜卜os(2zrF(xcos si ，、 { ．，，【2J 【h o(x,y) exp[一 f sin(2~rF(xc。s sin ) 空间频率响应为 f ( ， J r 、 I n o(u,v) — — ’ 式中：j=√一1。日r(“，v)=exp(一2z?o~[(u-Fcos0) +(v一风il1 ]) (4) ，v)=exp(一2neoZ[(u+FcosO) +(v一月 n J) (5) 由式 (2)可知，只要选定F、0和这3个参数，即可确定 Gabor滤波器的组成。本文所用图像大小为 128~128，经过多次实验，，的取值依次为：0．04，0．08，0．16，0．32，的取值依次为： 0，45。，9009135。。它们组成了 16个通道的Gabor滤波器。为了去除经过Gabor滤波之后图像的冗余，使得频率响应能够在频谱上相切，可以取公式o=1／(0．6F)达到这一点。 1．2 纹理特征的提取将训练样本的纹理图像与对应每个通道的奇、偶对称 Gabor滤波器分别进行卷积，得出每个通道的输出图像，该结果是与相位无关的，再将每个通道的两个输出图像平方和开方，得到此通道的输出值 q =√g； g ) (6) 式中：g )，卜输入图像与奇、偶对称Gabor滤波器的卷积结果。利用输出图像的平均值和标准偏差来表示纹理特征。每个通道输出图像的平均值Mean和标准偏差 Std分别为 ∑∑gC Mean 打 — — — — — — — — — ～／∑ [g )一Mean] √ 一 (7) (8) 这样，平均值Mean和标准偏差Std分别可以通过 16个通道的Gabor滤波器从每个给定图像提取出32个特征，它们形成了32维特征矢量。 1．3 文种识别本文采用支持向量机(supportvectormachines，SVM)的方法对从样本图片中提取的 32维特征向量进行训练和分类。SVM是基于结构风险最小的统计学习理论，其主要思想是建立一个超平面作为决策曲面，使得正例和反例之间的隔离边缘被最大化。它通过选择训练一组成为支持向量的特征子集，使得对支持向量集的划分等价于对整个数据集的分割。 1．3．1 支持向量机原理线性可分时的分类超平面方程为 w~x+b=O (9) 如果训练样本集被超平面正确分类，并且距超平面最近的样本数据与超平面之间距离最大，则该超平面为最优超平面。如图 1所示。图 1 支持向量机模型最优超平面方程 w~x+bo=0 因为两类的期望值分别为 1和．1，所以，总可以有 fw~x+bo≥ 1，对于 =1 1wgx+bo~一1，对于 =一1 式(11)满足等号情况的特殊数据点称支持向量。 (10) 一 5151— 维普资讯 http://www.cqvip.com 寻找权值向量W和偏置b的最优值，使得它们满足约束以下条件 ( +6)≥l (12) 求解这个最优问题，用了Lagrange乘子方法，结论是：最优权值向量W w0=Xo~A,x (13) 令表示从输入空间得到的向量，假定维数为mo，令 I I 。表示从输入空间到特征空间的一个非线性变换的集合，m 是特征空间的维数。则可定义一个作为决策面的超平面 Y．ws~s(x)+b=O (14) 式(13)代入决策面公式有 Ea ) )=O (1 5) 式中：。) 卜特征空间中由第i个例子里输入模式和输入向量诱导的两个向量内积。由凤定义为 K(x,x )= ) J=∑仍∽cXx3 i=I，2，⋯ (16) 支持向量机的 3个普遍类型的内积核函数： (1)多项式学习机：内积核，名蠹奢磁鞭并熊謇帕鞠警．时扛翁宴：糕箍蕾藏_F琳謦麓迥囊。、曩蕺譬|；l磊苒隹疆蔷净、采如蒜蠢孽壤端羹．誉_r戢静t务j蠡^ 整恁撑壤搿景囊。图4 B组样本(中文、英文) 使用投影法、小波纹理分析法和本文的方法分别对A、B 两组图像进行识别处理，得到的识别率如表 l所示。表 l 3种算法的识别率 A组 B组中文英文中文英文投影法 99 100 87 75 小波法 100 100 96 95 本文方法 99 100 98 99 从表 l可以看出，在文本图像质量比较好时使用 3种方法的效果都比较好，但是如果文本图像的噪声点比较多，字体不规范时，使用本文的方法仍然能够较好区分中英文，比另两种方法的识别率都高。 1)P (17) 3 结束语 (2)径向基函数网络：内积核 exp(一— lI 一 lI ) (18) (3)两层感知器：内积核 tanh(flox~x,+fl1) (19) 1．3．2 识别步骤在本文中，首先利用 SVM 建立分类器，使用的内积核函数是径向基函数，输入特征向量，然后分类器进行自学习。进行文种识别时，对待识别文种的纹理块，采用同样方法提取纹理特征后，输入分类器中进行判决，从而得到识别结果。识别的流程图如图2所示。匝圈嚣亟 J 图 2 文种识别流程 2 实验结果通过 Matlab仿真实现了16个通道的Gabor滤波器，并且从多幅文本图像中截取 128x128像素的灰度图像，每幅图像包含 8个文本行，分为A、B两组，A组文字清晰，格式统一，几乎无噪声点，B组文字格式不统一，含有噪声点，各 400幅，其中中文训练样本 100幅，英文训练样本 100幅，测试图片中文 100幅，英文 100幅，A、B两组图像如图3、图4所示。 l像拉索研究的蔫础上设州 l有啦基于块酌蹦像分解矧 I树 ” ， l者辞宵优缺点作{ l 点提出-斡五叉树雕像州 l欺据库：图像的孽l叠率 l明基于五卫树分释法的爿 I盛匿盥篮茎立迭星互拄盟I 图 3 A组样一 5l52一本文采用了一种基于 Gabor函数的多通道滤波器纹理分析方法提取文本图像的全局特征，并用支持向量机的方法对提取的特征进行分类和判决，能够较好的区分开中英文。与投影法和小波纹理分析法相比，本文方法是全局纹理分析，对于文本图像数字化和传输中产生的质量退化具有一定的鲁棒性。参考文献： [1】 Elgammal A M，Ismail M A．Techniques for language identiffca- tion for hybrid[J]．Document Analysis and Recognition，2001，13 (1O)：1100．1104． [2】 Pal U，Chaudhuri B B．Identific~ion ofdifferent script lines from multi-script documents[J]．Image and Vision computing，2002，20 (13．14)：945．954． [3】曾理，唐远炎．基于多尺度小波纹理分析的文字种类自动识别 [J]_计算机学报，2000，23(7)：699．704． [4] Zhu Y,Tan T,Wang Y．Font recognition based on global texture analysis[J]_IEEE Trans PaRem Analysis and Machine Intelli- gence，2001，23(10)：1192—1200． [5】 An drew Busch，Wageeh W Bolse，Sridha Sridharan．Texture for script identification【JJ．IEEE Transactions on PaRem An alysis andMachine Intelligence，2005，27(11)：1720-1732 [6】 Wang Kai，Jin Jianming，Pan Wumo，et a1．Mixed Chinese／English document auto-processing based on the periodicity[C]．Shang- hai：Proceedings of the Third International Conference on Ma- chine Learning and Cybernetics，2004 ． [7】 Yu Tao，Yuan Yan Tang．Discrimination oforiental and eurameri- Can scripts using fractal feature[J]．Document An alysis and Reco gnition，2001，13(10)：ll15-1l19． [8】边肇祺，张学工．模式识别[M】．2版．北京：清华大学出版社，2000．维普资讯 http://www.cqvip.com

                    本文档为【含噪文本图像的中英文文种识别研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

含噪文本图像的中英文文种识别研究

你可能还喜欢