首页 OCR使用

OCR使用

举报
开通vip

OCR使用 文本的OCR识别是用户使用扫描仪产品最常见的应用之一,目前几乎所有的扫描仪产品都附带了OCR识别软件。但我们在使用中发现,即使同一个OCR软件识别正确率的差距也较大。实际上,OCR识别正确率不仅与OCR软件本身有关,与使用方法的正确与否也有很大关系。根据笔者平时积累的经验,做OCR识别应从以下几个方面入手。这里以MICROTEK扫描仪配备的《尚书六号》OCR为例。   一、扫描操作及注意点   扫描仪联机   在确定 MICROTEK扫描仪能够在被“Scanner Test”找到的条件下(见图一),运...

OCR使用
文本的OCR识别是用户使用扫描仪产品最常见的应用之一,目前几乎所有的扫描仪产品都附带了OCR识别软件。但我们在使用中发现,即使同一个OCR软件识别正确率的差距也较大。实际上,OCR识别正确率不仅与OCR软件本身有关,与使用方法的正确与否也有很大关系。根据笔者平时积累的经验,做OCR识别应从以下几个方面入手。这里以MICROTEK扫描仪配备的《尚书六号》OCR为例。   一、扫描操作及注意点   扫描仪联机   在确定 MICROTEK扫描仪能够在被“Scanner Test”找到的条件下(见图一),运行《尚书六号》OCR软件。然后点击“扫描”按扭(见图二)。片刻之后,扫描仪的控制窗口出现,在保证 “黑白两值”300 dpi的条件下,进行图像预览(见图三)。以上步骤也可以通过MICROTEK扫描仪上的“OCR快捷键”实现。目前,市场上的绝大部分MICOTEK扫描仪都配备了方便用户的快捷键。 放大预览及调节图像的清晰度   为了达到最佳的识别效果,对输入稿件在扫描时的最低要求是清晰。为此,我们可以通过“放大预览”对文稿中的几个文字进行取样扫描(见图四),从而对图像的亮度进行更为细致的调节。调节的工具是扫描仪工具内的“阀值”。   以下是不同阀值下的扫描结果(见图五)。调节到适当的阀值后,就可以选择“扫描”按扭了。扫描的结果会传递到OCR软件内,同时扫描仪的控制窗口会自动消失。   二、辨识前所需的注意事项   当以上事项完成以后,我们所要做的就是在OCR软件中的实际操作了。   注意文字的倾斜校正   由于OCR的辨识原理是采用字模的方式进行的,所以一定要注意稿件是否水平。具体实施过程中,可以采用图像倾斜校正按扭来解决(见图六)。 对稿件进行识别的预先处理   由于原稿的情况差异万千,所以我们在识别前,需做一些预先的处理。首先应该去除原稿中的杂点和图像。文稿中如含有图像,OCR是不能识别的,图像的存在,会影响OCR的文字切分。操作中,可使用“图像的块擦拭”工具将文档中的图像去除,同时文稿中的一些杂点,也应尽量地去除。   针对文档中出现分栏的情况,建议您手动设定辨识范围,最好不要采用“自动切分”,只有这样才能保证辨识结果的连贯性(见图七)。   采用适当的辨识方式   在具体的辨识中,还应注意您的稿件是横排还是竖排,由此选择正确的编排格式按扭,以保持对应。   目前的《尚书六号》OCR软件为用户提供了简体、繁体、英文等不同的识别方式,其选择是在窗口上的下拉菜单,而非按扭菜单。按扭中的简体、繁体、ENGLISH是《尚书六号》在不同的操作系统上获得正确显示的显示模式,千万不要搞混(见图八)。   确认以上的步骤后,此时就可按下“识别”按扭,识别完毕后,系统进入“文稿校对界面”。   三、文稿校对   通常而言,OCR对不能完全确定的文字,会显示出兰色,请用户确认。但值得注意的是,在没有提示出错的地方,也有可能出错,尤其是中文文本的英文单词,OCR一般会将其做中文识别,错误率几乎是百分之百。所以我们在校对时,可以先通读一遍,以此提高文字校对的效果。 我们可以在此界面内,通过操作系统提供的文字输入方法,添加您所需要的文字(见图九)。  OCR提供选择使用外部编辑器的功能,我们可以选择WORD编辑器(见图十)。   最后建议您在WORD内进行整个的文稿校对,并重新排版,以达到使用OCR的最佳效果。 OCR(Optical Character Recognition)是通过扫描仪,利用OCR软件,将点阵图形的的字符转变成文本的技术。很多人在使用这项技术的时候,因为方法不当,致使识别后的文本误码率很高。下面,我就将本人在使用当中 总结 初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf 的经验推荐给大家,希望能给你的工作带来方便。   扫描阶段:识别率的高与低,很大程度取决于该阶段,其中原稿的质量起着决定性的作用。对于报纸等非常低劣的原稿,我们可通过扫描界面减小或增大亮度参数的方法提高识别率,如果还未达到要求,还可增大扫描时的分辩率。分辩率的提高会增大图像的大小,所以就会延长扫描时的时间。不过,对于太小的字体,或不太清楚的文字,适当增大分辩率,可提高识别率。对于杂志、书本等字迹清晰,对比强烈,质量比较好的原稿,可以把亮度设为0,分辩率设为300,在此基础上,根据预扫得到的图像,本着字体笔划即不能互相粘连漆黑一片,又不能断笔画少点的原则进行调整。   版面分析阶段:扫描得到的是图像,要把图像转变为文本,需要OCR软件。现在市面的上OCR系统很多,而且有些OCR系统的智能化程度很高,连表格也都能正确识别。本文以笔者经常使用的北信OCR系统为例向大家介绍OCR使用的技巧。   在识别前,首先要对扫描得到的图像进行校正,这是进行下一步工作的基础,所以在扫描时,应尽力使原稿摆正,若得到的图像还有点倾斜,就要进行倾斜校正。一般的OCR系统都有自动校正的功能,如果没有,那就只能手动校正了。   现在的OCR系统,它还不能自动识别扫描得到的图像中的文字、表格、图形等元素,这就要求我们分别对不同的元素进行画框,定义其属性,以便OCR系统能够正确识别。在这里要注意,对于大小不同的文字,特别是横竖排版的文字,最好分别定义在不同的框中。对于图像中的污点,可以使用清除、橡皮擦等命令或工具消除。另外,画框时这要注意画框的次序,以避免识别后的文字“前言不搭后语”。 后处理阶段:一般的OCR软件都有后处理系统,识别后的文字,OCR会自动导入这一程序中。在这里,为了处理错误码,OCR软件提供了“前相关”、“后相关”等功能,以便从不同的侧面对当前错误码时行改正。有的OCR系统还有学习功能,开启该功能并让OCR系统经常性地进行“学习”,可以使软件的识别率逐渐得以提高。笔者使用的北信OCR系统,如果扫描参数设置得当,版面分析细致正确,这些前期工作做得好的话,识别后的文本几乎就不用修改。   识别后得到的文本,它是根据扫描后的图像排版的,特别是像报纸,杂志等多栏式的原稿,它不合乎我们对日常文稿的排版要求,所以我们对识别后的文稿,一般这要进行一次排版操作。这种排版操作,OCR系统的后处理程序一般都不能完成,我们要借助Word、WPS等排版软件进行操作。   在OCR后处理程序中,把文本保存为纯文本文件后退出。在Word、WPS中,打开或灌入刚才的文本文件(也可以使用复制、粘贴命令在Word、WPS中新建文件)。在Word中,“查找”“^P”(没有引号)标记(段落标记),全部或部分替换为“^S”(没有引号),或者是直接替换为空(就是在“替换”文本框中什么都不填)可以取消每行文字后的硬回车。在WPS(WPS2000手写输入系统)中,在菜单栏执行“工具→文字→段落重排”命令,可以自动对全部段落重新排列,这一功能,对OCR处理后的文本,只执行一个命令,就可以使所有段落排列的整整齐齐,特别推荐OCR使用着使用这一功能。最后,设置标题样式,首行缩进两个字符等……怎么样,一篇漂亮的文档出来了吧!   现在市面上流行的OCR系统很多,比如清华紫光、中晶尚书等,而且你在购买扫描议的时候,厂商也大都会提供一套OCR软件,但是,笔者建议大家使用北信OCR系统,因为它的识别率很高,且在WPS2000手写系统中,能够方便的直接调用,使用非常方便。   最后,我在简单地说一下WPS2000手写系统。WPS2000手写系统增强了文字输入及校对方面的功能,它支持手写输入、语音输入和OCR输入,对经常进行文字录入的人员来说,它应是首选的工具。它的语音校对功能可以极大地降低录入错误的概率。与OCR的结合,更会使录入工作的效率得到很大的提高。   Microsoft Word不论多么强大,但在对OCR后的文字进行排版,特别是重新安排段落这一点,与WPS2000手写系统相比是相形见绌的(这一点是可以原谅的,因为它毕竟对中国人的文字使用不是十分了解),这是国产软件的又一次胜利!
本文档为【OCR使用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_587206
暂无简介~
格式:doc
大小:270KB
软件:Word
页数:7
分类:互联网
上传时间:2011-11-20
浏览量:33