美文网首页Tesseract
特殊字符语言包训练流程(新)

特殊字符语言包训练流程(新)

作者: RobertY | 来源:发表于2017-08-05 13:02 被阅读1459次

题库特殊字符语言包训练流程(新)

上篇文章介绍了一些特殊字符语言包的训练流程,然而没过几天,github上的tesseract源码有了较大的改动,包括wiki里面的教程文档也有了相应的变更。于是今天介绍一下适应于新代码的训练流程。

准备训练依赖项

依次在终端输入以下命令:

  1. git clone https://github.com/tesseract-ocr/tesseract.git
  2. git clone https://github.com/tesseract-ocr/langdata.git
  3. git clone https://github.com/tesseract-ocr/tessdata.git
  4. cp ./tessdata/best/eng.traineddata ./tesseract/tessdata
  5. cp ./tessdata/best/chi_sim.traineddata ./tesseract/tessdata
  6. cp ./tessdata/best/chi_sim_vert.traineddata ./tesseract/tessdata

下载tesseract包后需要本地安装,可看前面发布的安装教程:Tess4.0 windows编译与使用tesseract linux 安装与编译

添加新字符

到./langdata/chi_sim/chi_sim.training_text文件中添加新的字符,例如:'≤'。本例添加50个≤到chi_sim.training_text文件中。

生成新的训练数据

training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only \
--noextract_font_properties --langdata_dir ../langdata \
--fontlist "SIMSUN" --tessdata_dir ./tessdata --output_dir ~/tesstutorial/trainspecial

training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only \
--noextract_font_properties --langdata_dir ../langdata \
--tessdata_dir ./tessdata \
--fontlist "SIMSUN" --output_dir ~/tesstutorial/evalspecial

scratch训练

export SCROLLVIEW_PATH=$PWD/java

mkdir -p ~/tesstutorial/specialoutput

training/lstmtraining --debug_interval 100 \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--net_spec '[1,0,0,1 Ct5,5,16 Mp3,3 Lfys64 Lfx128 Lrx128 Lfx384 O1c5000]' \
--model_output ~/tesstutorial/specialoutput/base --learning_rate 20e-4 \
--train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
--eval_listfile ~/tesstutorial/evalspecial/chi_sim.training_files.txt \
--max_iterations 3600 &>~/tesstutorial/specialoutput/basetrain.log

finetune训练

training/combine_tessdata -e tessdata/best/chi_sim.traineddata \
  ~/tesstutorial/trainspecial/chi_sim.lstm

training/lstmtraining --model_output ~/tesstutorial/trainspecial/special \
  --continue_from ~/tesstutorial/trainspecial/chi_sim.lstm \
  --traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
  --old_traineddata tessdata/best/chi_sim.traineddata \
  --train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
  --max_iterations 3600

合并训练结果

finetune训练合并

training/lstmtraining --stop_training \
  --continue_from ~/tesstutorial/trainspecial/special_checkpoint \
  --traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
  --model_output ~/tesstutorial/trainspecial/chi_sim_special.traineddata

新生成的chi_sim_special.traineddata在~/tesstutorial/trainspecial目录下。

scratch训练合并

training/lstmtraining --stop_training \
--continue_from ~/tesstutorial/trainspecial/special_checkpoint \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--model_output ~/tesstutorial/specialoutput/chi_sim_special.traineddata

继续训练

如果合并后测试的结果不够理想,可以利用以下命令继续训练

fine tuning继续训练

training/lstmtraining --model_output ~/tesstutorial/trainspecial/special \
  --continue_from ~/tesstutorial/trainspecial/special_checkpoint \
  --traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
  --old_traineddata tessdata/best/chi_sim.traineddata \
  --train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
  --max_iterations 10000

scratch 继续训练

export SCROLLVIEW_PATH=$PWD/java

training/lstmtraining --debug_interval 100 \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--net_spec '[1,36,0,1 Ct3,3,16 Mp3,3 Lfys48 Lfx96 Lrx96 Lfx256 O1c111]' \
--model_output ~/tesstutorial/specialoutput/base --learning_rate 20e-4 \
--train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
--eval_listfile ~/tesstutorial/evalspecial/chi_sim.training_files.txt \
--continue_from ~/tesstutorial/specialoutput/base_checkpoint \
--max_iterations 10000 &>~/tesstutorial/specialoutput/basetrain.log

注意:这里的max_iterations的取值要大于第一次的训练值。例如,本次的max_iterations 10000大于3600。

相关文章

  • 特殊字符语言包训练流程(新)

    题库特殊字符语言包训练流程(新) 上篇文章介绍了一些特殊字符语言包的训练流程,然而没过几天,github上的tes...

  • Tess4.0手动合并输入数据及模型训练流程

    之前,写过一篇文章特殊字符语言包训练流程(新)记录了Tess4.0训练模型的流程。但是由于Tesseract的系统...

  • 特殊字符语言包训练流程

    本篇文章是旧版本的训练教程,适应于新版本的训练流程请查看:http://www.jianshu.com/p/7a2...

  • 6. Symbol和Symbol属性

    在ES6之前,语言包含5中类型。字符串,数字,布尔,undefined, null.ES6之后,包含了新类型Sym...

  • 15-优化补充-特殊符号-通配符

    今日重点优化补充(修改字符集、Linux下显示中文乱码排查流程)特殊符号通配符 一、Linux下面修改字符集 修改...

  • iOS打包上传过程报错: ERROR ITMS-90121: "

    一.报错出现背景:iOS应用名称包含特殊字符 "+" 二.流程 在Xcode工程的General中设置Displa...

  • 正则表达式

    1.匹配两个特殊字符之间的字符,并带上匹配的特殊字符 2.匹配两个特殊字符之间的字符,并不带匹配的特殊字符(前端使...

  • 特殊字符

    特殊符号在html中的两种引用 数字字符引用(NRC, Number Character Reference)NR...

  • 特殊字符

    # 注释符 #!/bin/bash 写在脚本开始的最前面,表示这个脚本需要使用/bin/bash 来解释# ...

  • 特殊字符

    返回 日文く

网友评论

  • 7cc51251291a:到./langdata/chi_sim/chi_sim.training_text文件中添加新的字符,这个东西在那个目录里啊?好蒙
  • 勇_0063:你好,如果进行fine tuning继续训练的话,是不是以下几步:
    1)增加字符到chi_sim.training_text文件
    2)生成新的训练数据
    3)finetune训练
    4)finetune训练合并

    不需要进行Scratch训练了吧?

    对Tesseract-OCR还是小白,期待赐教!
    多谢
  • 8634950fe188:您好,我在ubuntu上安装完,执行./lstmtraining 报找不到 can't cd to /usr/local/google/home/rays/opensrc/git/tesseract/training
    g++ error: lstmtraining.o: No such file or directory
    ...
    这里为啥要cd到 /usr/local/google/home/rays/opensrc/git/tesseract/training ?这个目录确实没有。
  • 8634950fe188:楼主厉害!请问我想在win10上跑整个流程行得通吗?windows上没有tesstrain.sh来生成训练数据。
  • 星_365e:finetune训练Failed to continue from: /home/zhaha/tesstutorial/trainspecial/chi_sim.lstm,困惑好几天,请问什么问题?
    星_365e:@RobertY
    training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only \
    --noextract_font_properties --langdata_dir ../langdata \
    --tessdata_dir ./tessdata \
    --fontlist "SIMSUN" --output_dir ~/tesstutorial/evalspecial

    training/combine_tessdata -e tessdata/best/chi_sim.traineddata \
    ~/tesstutorial/evalspecial/chi_sim.lstm

    training/lstmtraining --model_output ~/tesstutorial/trainspecial/special \
    --continue_from ~/tesstutorial/evalspecial/chi_sim.lstm \
    --traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
    --old_traineddata tessdata/best/chi_sim.traineddata \
    --train_listfile ~/tesstutorial/evalspecial/chi_sim.training_files.txt \
    --max_iterations 3600
    这样可以吗?
    星_365e:@RobertY
    Loaded file /home/zhaha/tesstutorial/trainspecial/chi_sim.lstm, unpacking...
    Failed to continue from: /home/zhaha/tesstutorial/trainspecial/chi_sim.lstm
    加载上了,运行错误吗?
    RobertY:检查一下路经是否有问题,或者看看系统生成训练数据的步骤是否正确.
  • welder77:另外,在生成unicharset 时有是否有遇到下面这个issue?
    https://github.com/tesseract-ocr/tesseract/issues/1114
    RobertY:是的,这个bug我也有遇到过,github还在维护....
  • welder77:能说说scratch和fine tuning训练的区别吗,为何在这里也要使用scratch?另外
    RobertY:scratch训练网络参数初始化为随机参数,finetune是基于现有网络模型进一步训练,属于迁移学习吧。
  • wo叫天然呆:你好,请问你那边有没有已经训练好的识别身份证号码的字库?
    RobertY:@wo叫天然呆 我这边工作不是针对身份证号码识别应用的,所有没有训练这个库。不过你可以统计一下身份证里的字符,然后进行finetune训练。

本文标题:特殊字符语言包训练流程(新)

本文链接:https://www.haomeiwen.com/subject/yxwilxtx.html