美文网首页Tesseract
Tesseract 训练数据

Tesseract 训练数据

作者: RobertY | 来源:发表于2017-07-27 13:08 被阅读688次

    TrainingTesseract 4.00 Finetune 迁移学习

    参考文档: https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00---Finetune

    依赖项准备

    在终端键入以下命令,准备训练依赖项:

    1. git clone https://github.com/tesseract-ocr/tesseract.git
    2. git clone https://github.com/tesseract-ocr/langdata.git
    3. git clone https://github.com/tesseract-ocr/tessdata.git
    4. cp ./tessdata/eng.traineddata ./tesseract/tessdata
    5. cp ./tessdata/chi_sim.traineddata ./tesseract/tessdata

    开始训练

    1. 进入tesseract项目目录: cd ./tesseract
    2. 键入训练命令:
    training/tesstrain.sh --fonts_dir /usr/share/fonts --training_text ../training_data/part.txt --langdata_dir ../langdata --tessdata_dir ./tessdata --lang chi_sim --linedata_only --noextract_font_properties --exposures "0" --fontlist "SIMSUN" --output_dir ~/tesstutorial/chitest
    
    1. mkdir -p ~/tesstutorial/chituned_from_chisim
    2. combine_tessdata -e ../tessdata/chi_sim.traineddata ~/tesstutorial/chituned_from_chisim/chi_sim.lstm
    3. lstm训练
    lstmtraining --model_output ~/tesstutorial/chituned_from_chisim/chituned --continue_from ~/tesstutorial/chituned_from_chisim/chi_sim.lstm --train_listfile ~/tesstutorial/chitest/chi_sim.training_files.txt --eval_listfile ~/tesstutorial/chitest/chi_sim.training_files.txt --target_error_rate 0.01
    
    lstmtraining --model_output ~/tesstutorial/chituned_from_chisim/chituned.lstm \
      --continue_from ~/tesstutorial/chituned_from_chisim/chituned_checkpoint \
      --stop_training
    
    combine_tessdata -o ./tessdata/chi_sim.traineddata \
      ~/tesstutorial/chituned_from_chisim/chituned.lstm \
      ~/tesstutorial/chitest/chi_sim.lstm-number-dawg \
      ~/tesstutorial/chitest/chi_sim.lstm-punc-dawg \
      ~/tesstutorial/chitest/chi_sim.lstm-word-dawg
    

    测试

    training/lstmeval --model ~/tesstutorial/chituned_from_chisim/chi_sim.lstm \
      --eval_listfile ~/tesstutorial/chitest/chi_sim.training_files.txt
    
    training/lstmeval --model ~/tesstutorial/chituned_from_chisim/chituned_checkpoint \
      --eval_listfile ~/tesstutorial/chitest/chi_sim.training_files.txt
    
    training/lstmeval --model ~/tesstutorial/chituned_from_chisim/chituned.lstm \
      --eval_listfile ~/tesstutorial/chitest/chi_sim.training_files.txt
    
    tesseract ../training_data/00.jpg ../training_data/output -l chi_sim -psm 7
    
    
    cp ../tessdata/chi_sim* ./tessdata
    

    TrainingTesseract 4.00 Replacing Top Layer 迁移学习

    training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim \
       --training_text ../training_data/part.txt \
       --linedata_only --noextract_font_properties \
       --langdata_dir ../langdata --tessdata_dir ./tessdata \
       --output_dir ~/tesstutorial/chisim
    
    training/tesstrain.sh --fonts_dir /usr/share/fonts --lang nor \
       --linedata_only --noextract_font_properties \
       --langdata_dir ../langdata --tessdata_dir ./tessdata \
       --fontlist "SIMSUN" \
       --output_dir ~/tesstutorial/chisimeval
    
    mkdir -p ~/tesstutorial/chisim_layer
    
    combine_tessdata -e ../tessdata/chi_sim.traineddata \
      ~/tesstutorial/nor_layer/chisim.lstm
    
     lstmtraining -U ~/tesstutorial/chisim/chisim.unicharset \
      --script_dir ../langdata  --debug_interval 0 \
      --continue_from ~/tesstutorial/chisim_layer/chisim.lstm \
      --append_index 5 --net_spec '[Lfx256 O1c105]' \
      --model_output ~/tesstutorial/chisim_layer/chisimlayer \
      --train_listfile ~/tesstutorial/chisim/chisim.training_files.txt \
      --eval_listfile ~/tesstutorial/chisimeval/chisim.training_files.txt \
      --max_iterations 5000
    
    lstmtraining --model_output ~/tesstutorial/chisim_layer/chisimlayer.lstm \
      --continue_from ~/tesstutorial/chisim_layer/chisimlayer_checkpoint \
      --stop_training
    
    cp ../tessdata/chi_sim.traineddata ./tessdata
    
    combine_tessdata -o ./tessdata/chi_sim.traineddata \
    ~/tesstutorial/chisim_layer/chisimlayer.lstm \
    ~/tesstutorial/chisim/chisim.lstm-number-dawg \
    ~/tesstutorial/chisim/chisim.lstm-punc-dawg \
    ~/tesstutorial/chisim/chisim.lstm-word-dawg
    

    相关文章

      网友评论

      • 92297ab2db0a:博主您好为什么我在进行lstm训练的第一步的时候会提示:Must provide a --traineddata see training wiki,以上的步骤时按照您写的来做的。
        92297ab2db0a:@RobertY 这个是在微调的时候出现的,模型是官方库上best里面下载的chi_sim.traineddata
        92297ab2db0a:@RobertY 谢谢,这个问题解决了,是路径的问题,不过我后面又遇到了个问题,就是在训练跑完后开始进行组合输出的时候提示了这个问题:Failed to read continue from:/home/lyx/tesstutorial/chituned_from_chisim/chituned_checkpoint,这个文件一直读取不了,请问这会是什么原因呢?
        RobertY:@有史以来_86f0 检查一下模型路径配置
      • oasislyh:博主您好,
        lstmtraining --model_output ~/tesstutorial/chituned_from_chisim/chituned --continue_from ~/tesstutorial/chituned_from_chisim/chi_sim.lstm --train_listfile ~/tesstutorial/chitest/chi_sim.training_files.txt --eval_listfile ~/tesstutorial/chitest/chi_sim.training_files.txt --target_error_rate 0.01

        文中提到这个命令看起来是在训练一种新的中文字体吧? 请问训练需要大概多少时间,几小时?还是几天
        oasislyh:@RobertY error_rate 可以达到预设的1%吗 。 我用的官方的traineddata, 用lstmeval测试, 错误率也在3%的样子啊, 字体用的是Arial Unicode MS
        RobertY:迁移学习会很快,2个小时就可以了。
        RobertY:时间跟训练集的大小和电脑配置(主要内存)相关,我用官网提供的简体中文训练集(https://github.com/tesseract-ocr/langdata/tree/master/chi_sim/chi_sim.training_text),8G内存,训练一次大概12小时左右。

      本文标题:Tesseract 训练数据

      本文链接:https://www.haomeiwen.com/subject/esjzkxtx.html