首页 自由手写体数字识别系统的设计与实现

自由手写体数字识别系统的设计与实现

举报
开通vip

自由手写体数字识别系统的设计与实现 自由手写体数字识别系统的设计与实现 戴建辉 信息科学与工程学院,电子信息工程系 指导老师:吴谨 摘要:本文论述并设计实现了一个脱机自由手写体数字识别系统。文中首先对待识别数字的预处理进行了介绍,包括二值化、平滑滤波、规范化、细化等图像处理方法;其次,探讨了如何提取数字字符的结构特征和笔划特征,并详细地描述了知识库的构造方法;最后采用了以知识库为基础的模板匹配识别方法,并以MATLAB作为编程工具实现了具有友好的图形用户界面的自由手写体数字识别系统。实验结果表明,本方法具有较高的识别率,并具有较好的抗噪性...

自由手写体数字识别系统的设计与实现
自由手写体数字识别系统的 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 与实现 戴建辉 信息科学与工程学院,电子信息工程系 指导老师:吴谨 摘要:本文论述并设计实现了一个脱机自由手写体数字识别系统。文中首先对待识别数字的预处理进行了介绍,包括二值化、平滑滤波、 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 化、细化等图像处理方法;其次,探讨了如何提取数字字符的结构特征和笔划特征,并详细地描述了知识库的构造方法;最后采用了以知识库为基础的模板匹配识别方法,并以MATLAB作为编程工具实现了具有友好的图形用户界面的自由手写体数字识别系统。实验结果表明,本方法具有较高的识别率,并具有较好的抗噪性能。 关键词:手写体数字;预处理;模式识别;特征提取 Abstrct: This paper describes and designs a free handwritten number recognition system. Firstly, the pretreatment of the character to be recognized is introduced, including binarization, smoothing, normalization and thinning. Next, how to extract the structural features of the numbers is discussed, and we describe the constructing method of repository. Finally, we use the method of template matching, based on repository, to recognize the digital number. Matlab is used as a program tool to realize this free handwritten digital recognition system with friendly graphical user interface. The experimental results show that the rate of the recognition system is high, and the proposed method is robust to noise. Keywords: handwritten number; pretreatment;pattern recognition; feature extraction 1 引言 OCR(Optical Character Recognition)即光学字符识别技术,是通过扫描仪把印刷体或手写体文稿扫描成图像,然后识别成相应的计算机可直接处理的字符。OCR是模式识别的一个分支,按字体分类主要分为印刷体识别和手写体识别两大类。对于印刷体识别又可以分成单一字体单一字号和多种字体多种字号几类。而手写体识别又可分为受限手写体和不受限手写体两类;按识别方式可分为在线识别和脱机识别两类。 字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。 在整个OCR领域中,最为困难的就是脱机自由手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距离实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提供了一种解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 。 本文首先介绍了自由手写体数字识别的基本原理,包括数字图像预处理、特征提取和模式识别的基本原理和方法;其次介绍了;最后通过基于MATLAB的实验结果,对本系统的性能进行了 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 。 2 手写体数字识别的基本原理 本系统主要由手写体数字识别的训练过程和识别过程组成,训练过程和识别过程均包括预处理、特征提取和模式识别三部分。系统构成如图2.1所示。 下面分别介绍各部分工作的基本原理。 2.1 预处理 预处理主要由二值化,平滑去噪,规范化,细化等组成。 本文采用了基于阈值的二值化算法,通过最大类间方差法即OTSU方法,统计图像的灰度直方图选取全局阈值,然后进行二值化处理。 其次,在二值化后利用均值滤波的方法消除孤立点、线的噪声,这样图中就只剩下手写体数字。在滤波中本文采用的是3*3大小的模板。 平滑去噪后,对图像进行规范化处理。找出图像中数字的边界,然后提取出数字把它居中放置在正方形方框中,再对此正方形图像进行线性插值缩放,使它变为统一规格大小的图像,本文中归一化图像的大小是36*36。 在提取特征之前,要对手写体数字进行细化。本文是采用的基于数学形态学的细化算法。细化可用两步腐蚀来实现:第一步是正常的腐蚀,但它是有条件的,也就是说,那些被标为可除去的像素点并不立即消去;在第二步中,只将那些消除后并不破坏连通性的点消除,否则保留。以上每一步都是一个3*3邻域运算。细化是将一个曲线性数字细化为一条单像素宽的线,从而图形化地显示出其拓扑性质。 数字图像预处理前后效果比较如下图所示。图2.2为数字“5”的原始图像,图2.3为对图2.2预处理后的结果图。类似地,图2.4为数字“6”的原始图像,图2.5为对图2.4预处理后的结果图。 图2.2 原始图像 图2.3 预处理后图像 图2.4 原始图像 图2.5 预处理后图像 2.2 特征提取 特征提取的目的是从原始数据中抽取出用于区分不同类型的本质特征。无论是识别过程还是学习过程,都要对研究对象固有的、本质的重要特征或属性进行量测并将结果数值化,形成特征矢量。 通常能描述对象的元素很多,为了节约资源,节省计算机存储空间、处理时间、特征提取的费用,有时更是为了可行性,在保证满足分类识别正确率要求的条件下,按某种准则尽量选用对正确分类识别作用较大的特征,使得用较少的特征就能完成分类识别任务。这项工作表现为减少特征矢量的维数或符号字符数。在本系统中采用对待识别数字图像进行行列扫描与数字起点结合的方法提取特征。 2.2.1 结构特征的提取 首先对经预处理后的图像进行分割,如图2.6所示。 图2.6 图像分割 对图像分割后,结构特征提取的算法如下: (1) 对细化后的数字图像取竖直的三条直线,分别取在5/12,1/2,7/12处,记下这三条竖直直线与数字笔段的交点数。 (2) 再取水平三条直线,分别取在1/3,1/2,2/3处, 分别记下这三条水平直线与数字笔段的交点数。 (3) 再取对角两条直线, 分别记下这两条对角直线与数字笔段的交点数。 2.2.2 笔划特征的提取 经细化后的数字图像其特征较为稳定,且笔划简单,因此对其抽取的基本结构组件能反映数字的本质特征,从而可快速有效地识别数字符,并达到较好的分类效果。数字端点如图2.7所示。 提取笔划特征的算法如下: (1) 按从上到下,从左到右的顺序扫描预处理后图像并选择黑像素点P; (2) 计算像素P的8-邻域之和N; (3) 若N=1,则像素P为端点,端点计数器加一; (4) 重复步骤(1)-(3),直到遍历整个图像。 SHAPE \* MERGEFORMAT 图2.7 数字端点 2.2.3 数字的特征向量说明 依据上述特征提取方法,本系统中的特征矢量由9个分量组成,其排列如下所示: DATA=[ 竖直中线交点数, 竖直5/12处, 竖直7/12处, 水平中线交点数 , 水平1/3处交点数, 水平2/3处交点数, 左对角线交点数, 右对角线交点数, 端点数 ]; 2.3 知识库的建立 由于本文采用的是基于模式知识库的识别方法,所以对字符的结构特征的分析以及字符模型的构造是一个十分重要的环节,图2.8就是对识别数字的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 形态进行具体分析而构造的模板。 图2.8 规范手写体数字形态 DATA01=[2,2,2,2,2,2,2,2,0]; DATA11=[1,0,0,1,1,1,1,1,2]; DATA21=[3,3,3,1,1,1,1,1,3]; DATA31=[3,2,3,1,1,1,2,2,3]; DATA41=[1,1,1,2,2,1,3,2,4]; DATA51=[3,3,3,1,1,1,2,2,4]; DATA61=[3,3,2,1,1,2,3,2,1]; DATA71=[2,2,2,1,1,1,1,1,2]; DATA81=[4,4,4,2,2,2,2,2,0]; DATA91=[3,3,3,1,2,1,3,1,1]。 由于本系统是对自由手写体进行识别, 因而要考虑数字书写体的多变性。通过对图2.9所示数字变体的分析来对知识库进行补充。 图2.9 手写体数字变体 DATA02=[1,1,2,2,2,2,1,2,2]; DATA22=[3,2,2,1,1,1,1,3,2]; DATA32=[3,1,4,2,1,1,2,2,3]; DATA42=[1,2,2,3,3,1,2,2,2]; DATA52=[3,3,3,1,1,1,2,2,4]; DATA62=[3,1,3,1,1,2,2,2,2]; DATA82=[4,4,4,2,1,2,1,2,2]; DATA92=[3,2,3,2,1,1,3,1,3]。 最后得到知识库由上述两套模板所组成。 2.4 本系统的模式识别方法 在本次设计过程中,我们选择了模板匹配的识别方法。通过计算欧氏距离来衡量匹配程度。本系统中的特征矢量有9个分量,其计算距离公式如下: 公式(2.1) 但在本次设计中我们计算距离时对上述公式进行了改进,对于可靠性较高的端点数即最后一维特征值加大了权重,改进后的距离计算公式如下: 公式(2.2) 在识别过程,分别计算待识别图像的特征值与知识库中两个模板的距离,与10个数字逐个比较,距离最小的对应的数字就是最后识别结果。该算法具有特征提取和模板建立都比较直观,时间复杂度低,易于实现等优点。其缺点是在建立知识库时需要进行大量的训练,当知识库中的模板增多时,特征矢量间的距离会减小。 3 MATLAB程序设计 本次设计使用MATLAB语言实现该系统,其用户界面分别介绍如下。 (1) 读入图像: 读入图像的用户界面如图3.1所示。 图3.1 读入图像 (2) 对图像进行各种处理: 选择对图像的各种操作的用户界面如图3.2所示,对图像取反的用户界面如图3.3所示,对图像平滑去噪的用户界面如图3.4所示,对图像进行二值化操作的用户界面如图3.5所示,对图像进行规范化处理的用户界面如图3.6所示,对图像进行细化操作的用户界面如图3.7所示, 图3.2 选择对图像的各种操作 图3.3 图像取反 图3.4 平滑去噪 图3..5 二值化 图3.6 规范化 图3.7 细化 (3) 数字图像的识别:对手写体数字进行识别的结果显示界面如图3.8所示。 图3.8识别结果显示 在上述界面中, 系统可根据用户对识别结果正误的选择,自动计算识别率, 识别率结果显示在图像界面上方。 4 实验结果及分析 在实验过程中我们以两组样本作为训练样本对知识库的参数进行调整,这两组训练样本分别为100个规范手写体样本和100个自由手写体样本,规范手写体样本训练结果如表4.1所示,自由手写体样本训练结果如表4.2所示。 表4.1 规范手写体训练结果 数字 类别 正识样本数 误识样本数 识别率 0 10 0 100% 1 10 0 100% 2 9 1 90% 3 9 1 90% 4 9 1 90% 5 9 1 90% 6 10 0 100% 7 10 0 100% 8 10 0 100% 9 9 1 90% 合计 95 5 95% 表4.2 自由手写体训练结果 数字 类别 正识样本数 误识 样本数 识别率 0 10 0 100% 1 10 0 100% 2 8 2 80% 3 9 1 90% 4 9 1 90% 5 8 2 80% 6 10 0 100% 7 10 0 100% 8 10 0 100% 9 9 1 90% 合计 93 7 93% 在测试实验中,我们以200个规范手写体和200个自由手写体共两组样本作为测试样本,识别实验结果分别如表4.3,4.4所示。 表4.3 规范手写体识别实验结果 数字 类别 正识样本数 误识 样本数 识别率 0 20 0 100% 1 20 0 100% 2 17 3 85% 3 18 2 90% 4 18 2 90% 5 17 3 85% 6 18 2 90% 7 20 0 100% 8 19 1 95% 9 18 2 90% 合计 185 15 92.5% 由上表可以看出,本系统对规范的手写体有较好的识别效果,识别率达到92.5%。 表4.4 自由手写体识别结果 数字 类别 正识样本数 误识 样本数 识别率 0 19 1 95% 1 20 0 100% 2 16 4 80% 3 18 2 90% 4 18 2 90% 5 17 3 85% 6 18 2 90% 7 20 0 100% 8 19 1 95% 9 17 3 85% 合计 182 18 91 由上表所示,字符2和5的误识率较高,常误识别为对方数字,对待识别数字要求严格,这是由于它们的标准特征向量距离较小,需要通过增添标准库或参数调整对此情况进行改进。 5 结论 本文对自由手写体数字识别的基本原理及方法作了介绍,并用MATLAB工具实现了自由手写体数字识别系统。实验结果表明,基于所用结构模型和知识库的识别方法对规范手写体数字是可行的,具有较高的识别率及较好的抗噪性能,也可以识别一定条件下的自由手写体数字。为了提高识别率和可靠性,除了要增强对噪声的滤除能力外,还要增大知识库,以解决细化中出现的结构畸变问题,这些都有待我们进一步的研究。 参考文献 [1] 张平等.matlab基础与应用简明教程[M]. 北京:北京航空航天大学出版社, 2001. [2] 飞思科技产品研发中心.matlab6.5辅助图像处理[M]. 北京:电子工业出版社, 2003. [3] 章毓晋.图象处理和分析.北京:清华大学出版社[M], 2003. [4] 蔡炯熙.基于旋转不变性的印刷体数字识别[J].计算机应用, no.3,2002. [5] 郝红卫.手写体字符的识别与集成[D].北京:中国科学院声学研究所, 1998. [6] 马向辰.字符识别系统中图像预处理方法的研究[D].北京:北京科技大学, 2002. [7] 林晓帆,丁晓青,吴佑寿.手写数字识别的原理及应用[J]. http://ocrserv.ee.tsinghua.edu.cn/number_descript.htm. [8] 邹伟.高精度手写体数字识别的算法研究及应用[D]. 北京:北京邮电大学, 2001. [9] 陈荣保,陈翊.手写体数字的识别[D].合肥:合肥工业大学工业自动化研究所, 2003. [10] 叶卫东,李冠英.自由手写体数字识别的一种方法[J]. 现代计算机, no.10, 1998. [11] 侯继红, 徐军. 手写体数字识别技术的研究[J]. 电子计算机与外部设备, no.5, 1999. [12] 王辛芳,施鹏飞. 基于压缩子结构特征的手写体数字识别[J].上海交通大学学报, no.5,2000. [13] 柳回春,马树元,吴平东,杨峰,曾兴生,毕路拯.基于结构特征的手写体数字识别算法[J]. 计算机工程, no.11, 2002. [14] 李珺.手写体数字识别方法研究[J]. 甘肃科技, no.8, 2003. [15] 傅德胜,寿益禾.图形图像处理学[M].南京:东南大学出版社,2002. [16] 孙兆林. MATLAB 6.X图像处理[M]. 北京:清华大学出版社,2002. [17] J.P.Marques de Sa著,吴逸飞译.模式识别――原理、方法及应用[M].北京:清华大学出版社,2002. [18] 王沫然. MATLAB与科学计算(第2版)[M]. 北京:电子工业出版社,2003. 训练过程 识别过程 正确率 测试 改进特征提取与选择 特征提取 与选择 人工干预 训练样本 待识对象 改进分类识别 改进数据采集, 预处理 分类识别 数据采集, 预处理 分类识别 特征提取 与选择 数据采集, 预处理 中国图象图形网 www.image2003.com _1150110055.unknown _1150109976.unknown
本文档为【自由手写体数字识别系统的设计与实现】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_114733
暂无简介~
格式:doc
大小:764KB
软件:Word
页数:9
分类:
上传时间:2012-03-09
浏览量:42