ocr文字识别软件
OCR类软件
一、OCR类软件简介
OCR是英文Optical Character Recognition的缩写,翻译成中文就是通过光学技术对文字进行识别的意思。简单地说,OCR的基本原理就是通过扫描仪或数码相机将一份文稿的图像输入给计算机,再通过识别软件将图像中的文字转换成文本格式,以便用文字处理软件如word进一步加工。
这类软件的代表是:
汉王文豪7600、尚书七号、文通9.0、汉王8.1
二、汉王文豪7600的使用:
1、软件的安装与运行:
双击文豪7600绿色简洁专业版小版,安照提示完成安装。安装完成后,在桌面上会出现“文本王一键OK”、“文本王专业版”两个快捷方式。我们要使用的是后者,双击“文本王专业版”快捷方式图标,运行该程序。
2、使用的基本过程:
?打开要识别的图像文件
“文件”菜单—打开文件图像—选择要识别的图像文件,扩展名为(TIF或JPG)的文件。注:此软件对BMP格式的图像文件支持不好。如果遇到BMP格式的文件,可以用图像处理软件(如photoshop、画图)先转成TIF或JPG格式。
?版面
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
单击“主操作工具栏”中的版面分析
?识别:
按下F7键或单击“主操作工具栏”中的识别按钮
?导出:
单击“主操作工具栏”中的“导出WORD”按钮,但注意最好导出成RTF格式。 ?在word中后期处理
以上是基本过程,不同的图像因为复杂程度不同,可能还要加一些
步骤
新产品开发流程的步骤课题研究的五个步骤成本核算步骤微型课题研究步骤数控铣床操作步骤
。 3、区域的顺序的指定
大家看到打开的图像中分为一个或多个区域(大小不等的矩形区域,区域左上角的数字标识)。这些数字标识,表明的是这些区域在文档中顺序。当版面复杂,区域很多时,软件自动指定的顺序可能是错误的。我们可以手工指定成正确的顺序。
方法是,先单击“主操作工具栏”中的“顺序”按钮,此时鼠标指针会变会数字1的形状。--再按顺序单击各区域,单击的顺序就是指定的区域的顺序。
4、关于区或类型的说明和指定
大家看到打开的图像中分为一个或多个区域(大小不等的矩形区域,区域左上角的数字标识)。这些区域是分为多种类型的,分类型是为了便于识别,提高识别率。可以指定为“横栏”、“竖栏”、“图片”、“
表格
关于规范使用各类表格的通知入职表格免费下载关于主播时间做一个表格详细英语字母大小写表格下载简历表格模板下载
”、“英文”。不同的类型用不同的颜色来区别。一般软件能自动分析版面,自动指定类型,如果发现软件自动指定的类型不对,可以自己指定。方法是,
在该区域内右击—指定区域类型。
5、区域的删除:
如果版面中有很多区域,但我们只想识别其中的一个或几个区域。可以将不要的区域删除。 方法是,右击要删除的区域—删除当前区域。
6、区域的添加:
拖动矩形区域,套住要添加的区域即可,此项使用的很少。
7、区域大小的调节:
和窗口大小的调节方法相同,即拖动边框。
8、版面的倾斜校正
如果版面图像是倾斜的,则识别效果会很差。校正方法是,图像—手工倾斜校正—顺时针(或逆时针)--确定。
说明:区域的顺序的指定、区或类型的指定、区域的删除、区域的添加、区域大小的调节、版面的倾斜校正这些步骤必须在识别以前完成。
三、OCR类软件方法与技巧
1(分辨率的设置是文字识别的重要前提
(1)1、2、3号字的文章段,推荐使用200dpi。
(2)4、小4、5号字的文章段,推荐使用300dpi。
(3)小5、6号字的文章段,推荐使用400dpi。
(4)7、8号字的文章段,推荐使用600dpi。
2. 图片预处理:
?图片放大:
太小的字,识别率低。所以有时很有必要将图片放大后再识别。所用软件:用windows xp自带的画图即可,也可以使用photoshop等图像编辑软件。
?亮度对比度的调节:
适当地调整好亮度和对比度值,使文件黑白分明。这对识别率的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。进行识别前,先看看扫描得到的图像中文字质量如何,如果图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,说明亮度值太小了,应该增加亮度值在试试;如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大了,应减小亮度后再试试。 一般是降低亮度,提高对比度。