Uma experiência de reconhecimento de textos manuscritos em cirílico

Introdução





O reconhecimento de texto manuscrito (HTR) é uma maneira automática de transcrever registros usando um computador. A forma digitalizada de notas manuscritas automatizaria os processos de negócios de muitas empresas, facilitando o trabalho humano. Neste artigo, consideramos um modelo de reconhecimento de texto manuscrito em cirílico com base em uma rede neural artificial. O estudo utilizou o sistema SimpleHTR desenvolvido por Harald, bem como o LineHTR , uma versão estendida do sistema  Simple HTR . Você pode ler mais sobre SimpleHTR aqui .





Conjunto de dados





Nesta seção, descreverei dois tipos de conjuntos de dados: O primeiro conjunto de dados contém citações escritas à mão em cirílico. Ele contém 21.000 imagens de vários exemplos de escrita à mão (nomes de países e cidades). Aumentamos esse conjunto de dados de treinamento coletando 207.438 imagens de formas ou amostras disponíveis.





O segundo HKR para o banco de dados cazaque-russo manuscrito consistia em palavras isoladas (ou frases curtas) escritas em russo e cazaque (cerca de 95% em russo e 5% em palavra / frase cazaque, respectivamente). Observe que os dois idiomas são escritos em cirílico e compartilham os mesmos 33 caracteres. Além desses símbolos, existem 9 símbolos mais específicos no alfabeto cazaque. Alguns exemplos do conjunto de dados HKR são mostrados abaixo: 









Alguns conjuntos de dados de amostra
Alguns conjuntos de dados de amostra

(70%), (15%) (15%) . ( 7,5% ): TEST1 , ; TEST2 , , . TEST1 TEST2 , , .





SimpleHTR





ANN, CNN . RNN. RNN . RNN . RNN. CTC . . CTC ; RNN , . CTC . , , , . , , , , .





: CNN: CNN. . 55 33 . RELU , , . 2 , () , ( ) 32 256. RNN: 256 . . LSTM- RNN, , . RNN 3280.





CTC: RNN , . CTC . 32













Modelo SimpleHTR, onde ícones verdes são operações e rosa são fluxos de dados
SimpleHTR, - , -

: : 128 32. , ( ) , 128 32 . 128 32 . , .









LineHTR

LineHTR - SimpleHTR, , ( ), , . LineHTR SimpleHTR, CNN RNN : 7 CNN 2 Bidirectinal LSTM (BLSTM) RNN. 





LineHTR:





  • 800 x 64 ( x ).





  • CNN 100 x 512.





  • BLSTM 512 100 x 205: 100 ( ) ; 205 )





  • CTC 2 : LOSS - ; -





  • 50









Python deep learning Tensorflow. Tensorflow Python. Python , . matplotlib Python, Inkscape- , Adobe Photoshop. 2- " Intel ® Xeon(R) E-5-2680”, 4x " NVIDIA Tesla k20x” 100 RAM. 3 , , .





SimpleHTR





SimpleHTR - , . , :









• DataLoader





• : 90% 10% . : -, , ; -, CNN ; -, ; -, , , , .





: SimpleHTR, 42 . 10 . : . , .





















CER





WAR





CER





WAR





bestpath





19.13





52.55





17.97





57.11





beamsearch





18.99





53.33





17.73





58.33





wordbeamsearch





16.38





73.55





15.78





75.11









SimpleHTR (bestpath, beamsearch, wordbeamsearch). NN , . NN, , , . character-LM , .





:





Resultados da experiência usando SimpleHTR (lr = 0,01): precisão do modelo.
SimpleHTR (lr=0,01): .
Resultados experimentais usando SimpleHTR (lr = 0,01): erro do modelo.
SimpleHTR (lr=0,01): .

, , " ” 86 .









Um exemplo de imagem com a frase "Cazaquistão do Sul" em russo
" -”





Resultado de reconhecimento

(HKR Dataset): SimpleHTR 20,13% (CER) 1,55% CER. SimpleHTR ( ). (WER) 58,97% 1 11,09% 2. TEST2 . TEST1 , , , .













LineHTR, 100 . CAR 29,86% 86,71% TEST1 TEST2 ( ). .









SimpleHTR LineHTR : 57,1% SimpleHTR CNN , 58,3% Beamsearch 75,1% wordbeamsearch. Wordbeamsearch, .








All Articles