首页 手写中文速记符的多级识别策略

手写中文速记符的多级识别策略

举报
开通vip

手写中文速记符的多级识别策略手写中文速记符的多级识别策略 1999 年 2 月山 东 工 业 大 学 学 报V o l. 29 N o. 1 第 29 卷 第 1 期 1999 JO URNAL O F SHA NDO NG UN IVERS ITY O F TECHNOLO GY F eb. 3 手写中文速记符的多级识别策略 ? ?陈小苹乔谊正 戴汝为 ()山东工业大学自动化工程系 济南 250061 摘要 提出了一种实时高效的手写人群速记符三级识别策略, 在以声符和韵符为识别基元的基础上, 将基于速记符知识的特征规则法和基于速记符...

手写中文速记符的多级识别策略
手写中文速记符的多级识别策略 1999 年 2 月山 东 工 业 大 学 学 报V o l. 29 N o. 1 第 29 卷 第 1 期 1999 JO URNAL O F SHA NDO NG UN IVERS ITY O F TECHNOLO GY F eb. 3 手写中文速记符的多级识别策略 ? ?陈小苹乔谊正 戴汝为 ()山东工业大学自动化工程系 济南 250061 摘要 提出了一种实时高效的手写人群速记符三级识别策略, 在以声符和韵符为识别基元的基础上, 将基于速记符知识的特征规则法和基于速记符生成模型的模板匹配法有效 地结合起来, 对速记符的 297 年基本音符进行了识别 1 实验结果表明, 系统达到了较高的性 能指标 1 本 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 已在 286 和 486 等微机上实现, 经训练识别率可达 97% 以上 1 关键词 符号; 模式识别; 特征识别 中图分类号 18T P 引言0 关于中文速记符的自动识别研究, 目前在国内外尚未见他人发表过实质性文章 1 作者 在参考英文速记符自动识别研究成果基础上从不同方面对人群速符的自动识别进行了深入 1 的研究1 在这些研究中, 我们没有采用英文速记符识别中以音素为基元的句法识别法, 而 是在对中文速记符记录特点和结构组成分析的基础上采用了音符匹配法 1 该算法实现简 单, 受其他音符的影响较少, 但从识别角度来看, 计算量较大, 并且音符之间的细微差别常被 整个音符的相似性所掩盖, 不利于非特定人的速记符识别 1 对人群速记符的进一步分析, 我 们注意到, 每个音符都由声符和韵符两部分组成, 如果以声符和韵符作为识别单位, 则所需 样本数比以全音符为识别单位时要少将近 7 倍, 并且相似音符可根据相应的声符或韵符的 差别区分开 1 另外将声符和韵符分开识别作为一个从特定人到非特定人速记符识别系统的 过渡也是一个较为理想的解决方案 1 1 速记符识别策略 人群速记是一种快速记录汉字发音的符号体系, 它将汉语表示为 45 个基本符号的组 收稿日期: 1997204218 3 山东省科委资助项目, 且得到王宽诚博士后工作奖励基金资助 1 ? 在中科院声学所做博士后研究工作 1? 在中科院自动化所工作 1 作者简介 陈小苹, 女, 讲师, 1969 年生, 1997 年获中国科学院自动化研究所工学博士学位, 师从于中 科院戴汝为院士 1 主要研究方向: 符号手写体识别、人工智能理论及其应用 1 已在国内外出版物中发表论 文 10 余篇 1 乔谊正, 男, 教授, 1942 年生, 1966 年毕业于同济大学数理力学系, 1982 年在山东工学院获硕 士学位; 1993 年在英国 大学电子系统工程系获 学位 1 主要研究方向: 模式识别与智能系统 1 E SSEX P hD 指导硕士生 16 名 1 已在国内外出版物中发表 论文 政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载 30 余篇 1 戴汝为, 中国科学院院士 1 合, 其中声符 17 个, 韵符 28 个, 它们分别与汉语中的声母和韵母相对应 1 这 45 个基本符号 可组成 297 个基本音符, 代表着 400 多个不同的发音 1 通过对人群速记符的结构分析, 我们 发现, 声符通常与特定的声母相对应, 而接在声符后面的圈、钩和短笔划却因相连的声符不 同对应不同的韵母, 这不同于英文速记符中音和符一一对应的情形, 因此识别时需采取不同 对策 1 针对人群速记体系的优点和特点, 作者提出了三级识别策略, 识别原理如图 1 所示 1 该识别策略的基本思路是: 首先根据声符和韵符的特征规则分别对音符中声符和韵符分类, 其次根据声符的组合关系进一步确定声符和韵符, 然后对于那些用特征规则不易确定的声 符和韵符或者整个音符采用模板匹配法进行识别 1 该策略充分利用了声符和韵符识别过程 之间的相互作用, 在每一级识别中都可利用已取得的声符或韵符识别结果来引导进一步的 识别 1 另外, 由于声符和韵符连写组成音符时通常表现为一个渐变的平滑过程, 没有的明显 的突变点, 用一些人为的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 来划分分界点时必然有误差, 这直接影响到对声符和韵符的识 别正确性, 因此对音符的识别实际上是声符和韵符识别结果相互作用、相互纠正的过程 1 图 1 速记符三级识别策略原理框图 2 音符识别实现 () 2. 1 声符和韵符分类规则 一级识别 由前面分析可知, 人群速记符中的韵符通常表现为圈、钩、短笔划, 圈和钩分大小两种, 并以逆时针方向或顺时针方向接在声符尾部的上方或下方, 短笔划以一种尺寸、七个方向 ( ) 上、下、右、左上、左下、右上、右下顺势连在声符尾部 1 为此, 我们提取了封闭点、最大曲 率、平均曲率、最大曲率和平均曲率的比值、平均曲率的符号、韵符长度等特征, 将全部韵符 (( ( ) ) 分 成九类, 即: 类顺向小圈 , 类: 逆向小圈 , , , , , ,, , A u ūn o n g io n g B iūu an g u ean gian g ( ) ) (() ) ( ) ( ) , 类: 顺向大圈 , 类: 逆向大圈 , 类: 顺向小半圈 , , , o n g io n g C uo o D ao E ieu au n F (() ) () ( 类: 逆向小半圈 , , , , 类: 顺向大半圈 , , , 类: 逆向大半圈 , ,aiaen en gG u a ian u an H a ian 3 第 1 期陈小苹等: 手写中文速记符的多级识别策略 (() ) ( ) ) , 类: 短笔划 , , , , , , , 1 根据上面特征可唯一确定 类 u an I e i u iian ūan in in giao eo u io u C 的 以及类的 1uo D ao 声符形状比较简单, 它具有长短、、倾斜方向、书写方向等特点, 为了对声符进行分类, 我 们提取了下面几个特征: 声符长度、平均曲率、最大曲率符号、声符首尾点连线斜率、斜率符 号 1 根据长度特征可将全部声符分为长符和短符两类; 利用平均曲率值又可继续分为直线 和曲线; 对于曲线声符还可根据最大曲率符号判断是凹曲或凸曲; 再根据声符首尾连线斜率 及符号判断是水平方向、右上倾还是右下倾, 由此可将声符分为 17 个子类, 每一子类唯一对 应一个特定声符 1 () 212 韵符的类内判别 二级识别 ( ) 对于类韵符, 根据封闭点与终止点的长度可将 和 区分开, 再根据声 , A u ūn o n g io n g 符的识别结果可进一步区分 和 1 对于类可根据封闭点与终点的长度、两点连线斜率 u ūn B 以及声符识别结果确定 1 对于 类可根据韵类的起点方向和终点方向 将和 分开, , E ieu a u n 利用声符识别结果又可将 和 区别开 1 用同样 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 可进一步确定 中的韵符 1 , , , ie u a F GH I 为了有效地利用声符和韵符的组合规则区别每一类中的韵符, 我们对 17 个声符和 28 个韵符的组合关系进行了统计分析 1 理论上它们可以组成 426 个音符, 但实际上速记符所 能 ( ) 表示的拼音只有 297 个 不带声调1 对每一个组合音符, 可根据声符和韵符的搭配规则 构造相关矩阵, 如果搭配合理, 则相关系数为 1, 否则为 01 这样不仅可以根据声符的识别结 果确定相应的韵符, 而且还可以根据韵符的识别结果确定所连的声符 1 () 213 模板匹配法 三级识别 利用声符和韵符的形状特征以及声符和韵符的搭配规则可识别出一大部分音符, 但是 有些韵符在与不同声符连接时会表现出不同的形状, 而且其特征难以用规则来描述 1 此外, 单独的声符比较容易判别, 但是单独存在的韵符却是形状各异, 无规律可循 1 对上述几种特 殊情形的音符, 我们采用模板匹配法进行识别 1 识别过程如下所述: 首先对待识音符进行一 级识别, 如果能唯一确定音符则输出相应的拼音结果, 否则进入到二级识别, 利用声符和音 符的细节特征以及声符和韵符的搭配规则确定相应的声符和韵符, 并将组合拼音给出; 如果 经过前两级识别后仍不能确定待识音符, 则采用动态规划法进行匹配识别 1 样本音符可根 据声符部分的特征分成若干子类, 对于那些没有类似特征的独立韵符和简单音符可归为一 类 1 为了用动态规划法识别, 首先需将样本音符和待识音符变换成方向码序列, 然后将与待 识音符匹配距离最小的音符作为识别结果 1 实验结果3 实验所用速记符由甲、乙、丙三人书写, 对 297 个音符每人各写两遍, 以统计特定人和非 特定人的正确分类率和识别率 1 甲书写最规范, 乙、丙的书写格式基本符合人群速记要求 1 声符识别中所采用的特征分类参数是根据甲的书写习惯来确定的, 另外在第三级模板匹配 识别中所采用的模板是以甲的书写样本来制作的, 即从甲两次书写的样本中选取书写质量 较好的音符作为模板 1 统计分析表明, 在 297 个音符中, 其中有 217 个音符可通过前两级识 别来确定, 余下的 80 个音符可采用动态规划法识别 1 为了 说明 关于失联党员情况说明岗位说明总经理岗位说明书会计岗位说明书行政主管岗位说明书 本文提出的三级识别策略的 有效性, 我们将其识别结果与以全音符为基元时的识别结果进行了比较 1 表 1, 2 给出了两 种策略下的正确识别率 1 采用三级识别策略时的正确识别率ƒ% 表 1 识别方法甲乙丙 () 97. 2 92. 5 90. 9 两级识别 217 个 ()匹配识别 80 个 98. 3 91. 1 90. 7 以全音符为基元时的正确识别率% ƒ表 2 识别方法甲乙丙 () 97. 3 91. 2 88. 5 两级识别 74 个 ()模糊识别 223 个 95. 7 66. 4 62. 7 由表 1, 2 实验结果可以看出, 采用三级识别策略不仅大大减少了样本数, 同时节省了存储空间, 而且大大提高了正确识别率, 特别是对非特定人书写的速记符, 其正确识别率明显 提高 1 因此, 将声符和韵符分开识别作为从特定人向非特定人速记符识别系统过渡的一种 识别手段是比较理想的 1 结论4 在手写中文速记符识别中, 本系统采用了三级识别策略, 使运算速度和匹配精度达到兼 顾 1 首先根据形状特征将声符和韵符分类, 然后利用声符和韵符的搭配规则进一步缩小声 符和韵符的分类范围, 最后用模板匹配法进行识别 1 在识别过程中, 有些音符经过一级识别 或二级识别就可确定, 对于用特征规则法难以判断的音符采用动态规划法进行识别 1 该策 略将基于知识的特征规则法和基于速记符形状的模板匹配法有效地结合起来, 对非特定人 的速记符识别是一个非常有希望的研究途径 1 参考文献 () 1 陈小苹, 乔谊正 1 手写中文速记符中音符的动态规划识别方案 1 中文信息学报, 1996, 11 2: 55, 62 A H IERA RCH ICAL RECO GN IT IO N STRA TEGY TO CH INESE HA NDW R ITTEN SHO RTHA ND C h en X ia op in g Q ia o Y iz h en g D a i R uw e i )(. . . ,. . , 250061 D ep to f A u tomE n g Sh an do n g U n ivo f T echJ in an 22 3stage reco gn it io n st ra tegy to ch in e se h an dw r it ten sho r th an d is p reA A BSTRACT . 2 sen tedU sin g in it ia l co n so n an t no ta t io n an d rh ym e no ta t io n a s reco gn it io n p r im it ive e le () 下转第 14 页 山 东 工 业 大 学 学 报 14 1999 年 参 考 文 献 () 1 . : . , J acqu in A EF rac ta l Im age Co d ingA R ev iewP ro c IE E E 1993, 81 10: 1451, 14652 . 2. T hom a s LR eg io nB a sed F rac ta l Im age Com p re ssio n U sing H eu r ist ic Sea rchIE E E T ran s Im age () , 1995, 4 6: 1451, 1465P ro ce ssing () 3 李望超, 王毓芳 1 基于分形理论的图像编码改进算法 1 电路与系统学报, 1997, 2 2: 70, 72 () 4 何爱军, 马争鸣 1 频率域上的分形图像编码 1 中国图象图形学报, 1998, 3 8: 628, 632 SOM E M EA SURES O F INCREA S ING THE SPEED O F FRACTAL IM A GE COD ING W a n g H u iy u a n J ia n g R u ih a i L i X ia nw en (). . . ,.. , 250061D ep to f E lec t ro nE n g Sh an do n g U n iv o f T echJ in an A cco rd in g to th e low sp eed o f t rad it io n a l f rac ta l im age co d in g m e tho d, A BSTRACT w e p re sen t som e m ea su re s to in c rea se th e co d in g sp eed. B a sed o n th e lo ca l sta t ist ic s o f , im age s an d th e v isu a l p ro e r ty o f h um an eye sth e sea rch in g ran ge o f dom a in b lo ck s is lim ited an d th e sea rch in g sequ en ce s o f dom a in b lo ck s an d th e ir geom e t r ica l t ran sfo rm a re . . op t im izedA ll th e redu n dan t com p u ta t io n s a re a lso avo idedT h e co d in g sp eed is rem a rk ab ly in c rea sed w h ile th e su b jec t ive an d o b jec t ive qu a lity o f th e re sto red im age . ch an ge s no t m u chE xp e r im en t re su lt s o n a n um b e r o f stan da rd im age s show th a t th e .a lgo r ithm s a re co r rec t KEY W O RD S P ic tu re co d in g; Im age p ro ce ssin g; Im age da ta p ro ce ssin g; ƒF rac ta l co d in g () 上接第 4 页 m en t, th is sta tegy com b in e s th e fea tu re ru le app ro ach b a sed o n k now ledge o f sho r th an d w ith th e p a t te rn m a tch in g app ro ach b a sed o n th e sho r th an d p ho n e t ic no ta t io n m o de l 297 . du r in g th e reco gn it io n o f p in y in no ta t io n sE xp e rm en ta l re su lt s show th a t th e sy stem . reach e s fa ir ly goo d p e rfo rm aceT h is n ew app ro ach h a s b een im p lem en ted o n th e m o de ls 286 486 , 97%.an d m ic ro com p u te ran d it s accu ra te reco gn it io n ra te can reach o ve r ; ; KEY W O RD S Sym bo lsP a t te rn reco gn it io nC h a rac tye r ist ic
本文档为【手写中文速记符的多级识别策略】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_196623
暂无简介~
格式:doc
大小:43KB
软件:Word
页数:0
分类:生活休闲
上传时间:2017-09-30
浏览量:36