找回密码
 立即注册
搜索
查看: 4090|回复: 0
打印 上一主题 下一主题
收起左侧

[教程] 【OCR教程】OCR系列教程一:汉王文豪基础篇 【转自文心阁】

[复制链接]
天涯凝望 该用户已被删除
跳转到指定楼层
楼主
发表于 2011-12-15 17:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
汉王文本王基础篇

①图象预处理
  图象处理有两个步骤:
  一是转换格式,汉王文本王不支持.gif格式,必须将.gif转换成.jpg/.tif/.bmp格式的图象
  二是调整图片大小,为了更好的识别效果,一般将图片放大到2倍,调整宽度的像素为1400
  直接转换格式一般都会有些许失真,如果想得到比较好的图源,那就用Photoshop,我将详细说下用PS转换格式:
  打开PS,打开需要转换格式的图片,全选,复制,然后新建一个文件(背景白色),黏贴。
  一般将图片放大2倍,可以取得更好的OCR效果,延续上面的操作:
  将图像宽度的像素调整为1400,然后储存为web和设备格式,保存为JPEG文件即可。
  如何批处理比较多的图片呢?请参看OCR系列教程二:图像批处理篇

②设置
  见图一,设置成“手写”与“公文”,其他的设置保持默认的就可以了

  


③工程
  在菜单栏“文件(F)”里选择“打开工程(P)”可以打开工程。如果没有已经建好的工程,选择“打开图象(O)”新建工程。
  如何使用字库工程?请参照OCR系列教程三:字库工程应用篇 

     

④识别
  汉王文本王比较有趣的地方就是它可以成长,可以学习以前识别过的字体。直接用方正的启体做的图,OCR效果不好,只好用最笨最笨的方法,从起点的图片上抠字。
  注意,每次重新打开字库工程都要先在菜单栏的“识别(R)”的下拉菜单中选择“手写--学习全体字(U)”。注意:每张图都要学习一次

  

  学习字体之后,同样,可以在左列表,按“Shift”或者“Ctrl”选择多张图片,然后进行批量识别
  
  

⑤校对
  文稿中的每个字同图片的每个方框是存在一一对应关系的。光标移到文稿校对窗口进行校对时,会有两种状态,按Insert可以切换“替代替换”和“插入状态”,插入状态时,光标是竖着的,这个时候插入的汉字在原图中是没有相对应的汉字的。替换状态时,光标停留在被替换的字下面,替换汉字后,新替换的汉字和原图中的汉字,存在对应关系。
  如果不是为了学习字体的目的,可以不在汉王文本王里面校对,在里面校对的效率比较低,选择批识别过的图,然后菜单栏的“导出(O)”的下拉菜单中选择“输出为指定格式文件(S)...”,保存为TXT,然后在外部进行校对。

  

  导出文本之后,会发现标点符号存在大量错误,我将详细说说标点符号的识别,请参看OCR系列教程四:标点符号识别篇
插件设计:zasq.net

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋| ( Q群816270601 )

GMT+8, 2024-11-24 04:04 , Processed in 1.195334 second(s), 43 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表