关闭

关闭

封号提示

内容

首页 尚书七号.doc

尚书七号.doc

尚书七号.doc

上传者: 你的一切都已经与我无关 2017-09-03 评分 3 0 5 1 24 暂无简介 简介 举报

简介:本文档为《尚书七号doc》,可适用于影视/动漫领域,主题内容包含尚书七号目录简介符等。

尚书七号目录<xmlnamespaceprefix="o"ns="urn:schemasmicrosoftcom:office:office">简介基本使用方法:详细操作识别前应注意的问题:扫描仪驱动程序请切换到高级控制面板状态书本转换(扫描、拍摄)技巧普通文档(只含有文字)的OCR识别带表格的稿件的OCR识别在工作中常需要识别文字,感觉尚书七号效果不错的虽然使用方法很简单,但是工作量较大的时候,注意一点技巧。简介尚书号OCR软件是MICROTEK中晶科技公司向汉王科技购买授权赠送给用户使用的软件。基本使用方法:、打开尚书七号,选择打开图象。(我用的版本可以识别的格式有bmp、tif、jpg)、选择开始识别或按F。识别结果将显示在窗口上部下部显示版面分析结果。其中红线为可识别部分绿线为不可识别。、选择输出到指定格式文件将识别结果保存为需要的格式。详细操作(尚书号OCR软件是MICROTEK中晶科技公司向汉王科技购买授权赠送给用户使用的软件该软件是放在了扫描仪随机的驱动光盘中用户可以选择安装。(软件安装完毕后用户请点击桌面左下角“开始”找到“尚书号OCR”软件图标并点击。打开尚书号OCR的使用界面。(打开尚书号OCR的“文件”采单下的“选择扫描仪”选择对应扫描仪的驱动“MICROTEKSCANWIZARD<xmlnamespaceprefix="st"ns="urn:schemasmicrosoftcom:office:smarttags">”的选项。并选择“确定”。(选择“文件”菜单下的“扫描”将打开扫描仪的驱动。下面的界面是扫描仪的“高级控制面板”。(拥护请注意选择SCANWIZARD软件中左面“设置”窗口中的“图像类型”请选择“RGB色彩”或者“灰阶”的类型并注意扫描仪分辨率是PPI。(当用户作完“预览”后设置需要扫描的范围就可以点击“扫描”按钮扫描仪将开始扫描的工作。将扫描好的文件直接传递到尚书号OCR默认的目录中(默认的存储图像文件的目录是用户计算机C盘下的SHOCR目录下的IMAGE目录)。扫描完毕后请用户关闭掉扫描仪驱动程序SCANWIZARD用户可以看到需要扫描的文件已经传递给尚书号中默认的文件名是HWJPG。(请用户选择尚书号软件中的“编辑”菜单下的“自动倾斜校正”让尚书号软件对扫描进来的图像作相应的旋转以保证图像中的文字是水平排列而非倾斜。因为太过倾斜的文字将影响到尚书软件的识别效果。(版面分析完毕后用户可以看到对应的文字块都有对应的识别框被选择。(用户此时请注意对应的识别框其属性是否正确。识别框分别有“横栏”、“竖栏”、“表格”和“图像”等四种属性分别有四种不同颜色的选框来表示。(核对无误后用户可以使用“识别”菜单下的“开始识别”按钮。得到结果(此时实际上已经进入文字校对状态(当用户校对完毕后或者不在尚书号内作校对用户可以选择“输出”菜单下的“到指定格式文件”用户可以看到识别的结果有TXT、RTF、HTML、XLS等格式可以选择。默认的输出的目录是用户计算机C盘下的SHOCR目录下的OUTPUT目录。用户选择一个对应的文件名就可以存盘了。为了方便用户可以选择“输出到外部编辑器”的选项这样存盘的同时尚书号OCR会自动调出对应的编辑软件如TXT存盘可以自动调用NOTEPAD软件RTF存盘将自动调用WORD软件XLS存盘将自动调用EXCEL软件。一个简单的OCR操作就此完成了。识别前应注意的问题:、图片质量。批量识别时首先应确保要识别的图片质量。如不能识别还需要重新处理甚至会导致软件死掉浪费时间。我本人就曾深受其苦。图片分辨率应稍高肉眼看感觉偏大因为识别工具是有点近视的文字和底色对比要求不高通常来说肉眼能看清楚即可底色发灰或发黑基本不会影响识别结果。、避免有不规则形状(图片)出现。识别工具在进行版面分析时只能采用方形切割当图片中存在文字环绕不规则形状时则无法将文字和该形状划分开则将出现错误或无法识别。此时较快的办法是在PS中吸取该图片附近的页面底色用粗画笔将该区域涂上不必讲求效果颜色没有太大差别即可重新保存图片。、避免图象倾斜。尚书七号中也有自动倾斜校正和手动倾斜校正工具但即使经过校正识别率还是低很多。如果是拍摄的书本可能会产生一定弧度此时保证行的两端对齐即可。另外在拍摄时应避免高光等会使图象各部分亮度反差大的情况。扫描仪驱动程序请切换到高级控制面板状态为了得到较好的OCR使用效果建议用户将扫描仪的驱动SCANWIZARD软件由初始安装的标准控制面板切换到高级控制面板状态。书本转换(扫描、拍摄)技巧、可以将书摊平一次将两边都扫描或拍摄下来节省时间。处理图片时不必剪开这时要用到尚书七号的分栏工具了。直接用鼠标在打开的图象上拖拽可出现选框分成左右两个分栏分栏左上角的编号就是识别结果的排列顺序。它会将自动按照编号顺序将所有分栏的内容连接在一起。、手动分栏可解决部分图象无法识别的问题。在进行识别后可以看到版面分析结果有时候由于图象质量原因自动分析出的有效版面只是很小的一部分。此时可以按ctrldel取消版面分析结果用鼠标拖拽划定需要识别的范围重新进行识别。当图片质量问题不大时这个办法有效。有时候(尤其是拍摄所得图片)文字扭曲严重即使用PS也无法调整好。可尝试手动分栏多划分几栏每一栏包含一行或少数几行文字这样对于每个分栏来说它所包含的范围内误差度相对减小可提高识别率。、使用批量识别功能。尚书七号可以一次性识别大量图片。但在实际应用中依次识别不宜过多便于随时检查识别结果发现错误及时修正。、批量识别图象时保存文件也要花费大量时间。事实上尚书七号在识别文件的同时会在图片所在文件夹生成文本文档名称与图片名称相同。因此如果不是特别需要可以不必再保存输出结果。如所识别内容属于一部分可以将左侧的图象列表全选(ctrlA)再选择“输出到指定格式文件”则当前所有识别内容按照图片排列顺序保存在一个文件中。我使用的尚书七号不能记忆保存路径每次选择保存时都会默认打开程序安装目录下的“outout”文件夹不必每次都选择路径可以先保存在这里然后一起转移文件。、如果想保留文件中的图片在输出结果时选用RTF格式再用word打开可以看到格式完全正确的文字和图片了。、用书本的页码给文件命名是明智的选择。我曾经用内容摘要命名自以为清晰明了结果在最后修正错误字符时悔恨交加。、当一个图象完全无法识别时可稍稍增加亮度或对比度有时候只差那么一点点它也不给你工作。、分栏的几个类型。当单击一个分栏时工具栏中会相应分栏类型的按纽会按下。分栏有横栏(横排文字)、竖栏(竖排文字)、图片、表格等几个类型一般情况下可以自动识别类型但手动分栏时一定要选择相应的类型以提高识别率。以上问题针对拍摄情况而言扫描的话相信会减少问题如果能拆书的话最好还是拆吧。普通文档(只含有文字)的OCR识别(过程与上面所介绍基本一样只是用户需要注意存盘格式。(一般如果用户需要对该文字进行重新排版工作请用户选择TXT存盘然后再将其内容拷贝到WORD中。(如果用户希望保留稿件的原有格式并能够作版面的恢复请使用RTF格式存盘该格式将有版面的恢复功能。但是用户只能针对其中的文字作一些个别字的调整无法作大范围的排版方式的修改。带表格的稿件的OCR识别(其中扫描、自动倾斜矫正过程同普通文稿是一样的。(但是注意“版面分析”后对其结果进行检查。应该在表格上经过版面分析后有一个兰色的框选中了表格部分如果不是用户需要修改栏属性或者考虑手动划定识别区域。(注意输出结果的选择如果是需要重新排版用户应该分别用TXT和XLS格式存盘然后将TXT中的文字和XLS中的表格分别拷贝到WORD进行排版。

职业精品

精彩专题

上传我的资料

热门资料

资料评价:

/ 6
所需积分:0 立即下载

意见
反馈

返回
顶部

Q