OCR使用

OCR使用文本的OCR识别是用户使用扫描仪产品最常见的应用之一，目前几乎所有的扫描仪产品都附带了OCR识别软件。但我们在使用中发现，即使同一个OCR软件识别正确率的差距也较大。实际上，OCR识别正确率不仅与OCR软件本身有关，与使用方法的正确与否也有很大关系。根据笔者平时积累的经验，做OCR识别应从以下几个方面入手。这里以MICROTEK扫描仪配备的《尚书六号》OCR为例。　　一、扫描操作及注意点　　扫描仪联机　　在确定 MICROTEK扫描仪能够在被“Scanner Test”找到的条件下（见图一），运...

文本的OCR识别是用户使用扫描仪产品最常见的应用之一，目前几乎所有的扫描仪产品都附带了OCR识别软件。但我们在使用中发现，即使同一个OCR软件识别正确率的差距也较大。实际上，OCR识别正确率不仅与OCR软件本身有关，与使用方法的正确与否也有很大关系。根据笔者平时积累的经验，做OCR识别应从以下几个方面入手。这里以MICROTEK扫描仪配备的《尚书六号》OCR为例。　　一、扫描操作及注意点　　扫描仪联机　　在确定 MICROTEK扫描仪能够在被“Scanner Test”找到的条件下（见图一），运行《尚书六号》OCR软件。然后点击“扫描”按扭（见图二）。片刻之后，扫描仪的控制窗口出现，在保证 “黑白两值”300 dpi的条件下，进行图像预览（见图三）。以上步骤也可以通过MICROTEK扫描仪上的“OCR快捷键”实现。目前，市场上的绝大部分MICOTEK扫描仪都配备了方便用户的快捷键。放大预览及调节图像的清晰度　　为了达到最佳的识别效果，对输入稿件在扫描时的最低要求是清晰。为此，我们可以通过“放大预览”对文稿中的几个文字进行取样扫描（见图四），从而对图像的亮度进行更为细致的调节。调节的工具是扫描仪工具内的“阀值”。　　以下是不同阀值下的扫描结果（见图五）。调节到适当的阀值后，就可以选择“扫描”按扭了。扫描的结果会传递到OCR软件内，同时扫描仪的控制窗口会自动消失。　　二、辨识前所需的注意事项　　当以上事项完成以后，我们所要做的就是在OCR软件中的实际操作了。　　注意文字的倾斜校正　　由于OCR的辨识原理是采用字模的方式进行的，所以一定要注意稿件是否水平。具体实施过程中，可以采用图像倾斜校正按扭来解决（见图六）。对稿件进行识别的预先处理　　由于原稿的情况差异万千，所以我们在识别前，需做一些预先的处理。首先应该去除原稿中的杂点和图像。文稿中如含有图像，OCR是不能识别的，图像的存在，会影响OCR的文字切分。操作中，可使用“图像的块擦拭”工具将文档中的图像去除，同时文稿中的一些杂点，也应尽量地去除。　　针对文档中出现分栏的情况，建议您手动设定辨识范围，最好不要采用“自动切分”，只有这样才能保证辨识结果的连贯性（见图七）。　　采用适当的辨识方式　　在具体的辨识中，还应注意您的稿件是横排还是竖排，由此选择正确的编排格式按扭，以保持对应。　　目前的《尚书六号》OCR软件为用户提供了简体、繁体、英文等不同的识别方式，其选择是在窗口上的下拉菜单，而非按扭菜单。按扭中的简体、繁体、ENGLISH是《尚书六号》在不同的操作系统上获得正确显示的显示模式，千万不要搞混（见图八）。　　确认以上的步骤后，此时就可按下“识别”按扭，识别完毕后，系统进入“文稿校对界面”。　　三、文稿校对　　通常而言，OCR对不能完全确定的文字，会显示出兰色，请用户确认。但值得注意的是，在没有提示出错的地方，也有可能出错，尤其是中文文本的英文单词，OCR一般会将其做中文识别，错误率几乎是百分之百。所以我们在校对时，可以先通读一遍，以此提高文字校对的效果。我们可以在此界面内，通过操作系统提供的文字输入方法，添加您所需要的文字（见图九）。　OCR提供选择使用外部编辑器的功能，我们可以选择WORD编辑器（见图十）。　　最后建议您在WORD内进行整个的文稿校对，并重新排版，以达到使用OCR的最佳效果。 OCR（Optical Character Recognition)是通过扫描仪，利用OCR软件，将点阵图形的的字符转变成文本的技术。很多人在使用这项技术的时候，因为方法不当，致使识别后的文本误码率很高。下面，我就将本人在使用当中总结的经验推荐给大家，希望能给你的工作带来方便。　　扫描阶段：识别率的高与低，很大程度取决于该阶段，其中原稿的质量起着决定性的作用。对于报纸等非常低劣的原稿，我们可通过扫描界面减小或增大亮度参数的方法提高识别率，如果还未达到要求，还可增大扫描时的分辩率。分辩率的提高会增大图像的大小，所以就会延长扫描时的时间。不过，对于太小的字体，或不太清楚的文字，适当增大分辩率，可提高识别率。对于杂志、书本等字迹清晰，对比强烈，质量比较好的原稿，可以把亮度设为0，分辩率设为300，在此基础上，根据预扫得到的图像，本着字体笔划即不能互相粘连漆黑一片，又不能断笔画少点的原则进行调整。　　版面分析阶段：扫描得到的是图像，要把图像转变为文本，需要OCR软件。现在市面的上OCR系统很多，而且有些OCR系统的智能化程度很高，连表格也都能正确识别。本文以笔者经常使用的北信OCR系统为例向大家介绍OCR使用的技巧。　　在识别前，首先要对扫描得到的图像进行校正，这是进行下一步工作的基础，所以在扫描时，应尽力使原稿摆正，若得到的图像还有点倾斜，就要进行倾斜校正。一般的OCR系统都有自动校正的功能，如果没有，那就只能手动校正了。　　现在的OCR系统，它还不能自动识别扫描得到的图像中的文字、表格、图形等元素，这就要求我们分别对不同的元素进行画框，定义其属性，以便OCR系统能够正确识别。在这里要注意，对于大小不同的文字，特别是横竖排版的文字，最好分别定义在不同的框中。对于图像中的污点，可以使用清除、橡皮擦等命令或工具消除。另外，画框时这要注意画框的次序，以避免识别后的文字“前言不搭后语”。后处理阶段：一般的OCR软件都有后处理系统，识别后的文字，OCR会自动导入这一程序中。在这里，为了处理错误码，OCR软件提供了“前相关”、“后相关”等功能，以便从不同的侧面对当前错误码时行改正。有的OCR系统还有学习功能，开启该功能并让OCR系统经常性地进行“学习”，可以使软件的识别率逐渐得以提高。笔者使用的北信OCR系统，如果扫描参数设置得当，版面分析细致正确，这些前期工作做得好的话，识别后的文本几乎就不用修改。　　识别后得到的文本，它是根据扫描后的图像排版的，特别是像报纸，杂志等多栏式的原稿，它不合乎我们对日常文稿的排版要求，所以我们对识别后的文稿，一般这要进行一次排版操作。这种排版操作，OCR系统的后处理程序一般都不能完成，我们要借助Word、WPS等排版软件进行操作。　　在OCR后处理程序中，把文本保存为纯文本文件后退出。在Word、WPS中，打开或灌入刚才的文本文件（也可以使用复制、粘贴命令在Word、WPS中新建文件）。在Word中，“查找”“＾P”（没有引号）标记（段落标记），全部或部分替换为“＾S”（没有引号），或者是直接替换为空（就是在“替换”文本框中什么都不填）可以取消每行文字后的硬回车。在WPS（WPS2000手写输入系统）中，在菜单栏执行“工具→文字→段落重排”命令，可以自动对全部段落重新排列，这一功能，对OCR处理后的文本，只执行一个命令，就可以使所有段落排列的整整齐齐，特别推荐OCR使用着使用这一功能。最后，设置标题样式，首行缩进两个字符等……怎么样，一篇漂亮的文档出来了吧！　　现在市面上流行的OCR系统很多，比如清华紫光、中晶尚书等，而且你在购买扫描议的时候，厂商也大都会提供一套OCR软件，但是，笔者建议大家使用北信OCR系统，因为它的识别率很高，且在WPS2000手写系统中，能够方便的直接调用，使用非常方便。　　最后，我在简单地说一下WPS2000手写系统。WPS2000手写系统增强了文字输入及校对方面的功能，它支持手写输入、语音输入和OCR输入，对经常进行文字录入的人员来说，它应是首选的工具。它的语音校对功能可以极大地降低录入错误的概率。与OCR的结合，更会使录入工作的效率得到很大的提高。　　Microsoft Word不论多么强大，但在对OCR后的文字进行排版，特别是重新安排段落这一点，与WPS2000手写系统相比是相形见绌的(这一点是可以原谅的，因为它毕竟对中国人的文字使用不是十分了解），这是国产软件的又一次胜利！

                    本文档为【OCR使用】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

OCR使用

你可能还喜欢