Primeiro lugar no AI Journey 2020 Digital Peter

Oi haabr
Oi haabr

Tenham todos um bom dia! O concurso internacional anual de IA, organizado pelo Sberbank em conjunto com parceiros russos e estrangeiros, no âmbito da conferência Artificial Intelligence Journey , acaba de terminar . Tarefas deste ano: Digital Peter: reconhecimento dos manuscritos de Peter I , NoFloodWithAI: enchentes no rio Amur e AI 4 Humanities: ruGPT-3 . Desta vez, cerca de 1000 pessoas de 43 países participaram da competição.





Nossa equipe participou da resolução do problema “Pedro Digital: reconhecimento dos manuscritos de Pedro I” e conquistou o primeiro lugar. Eu gostaria de contar a vocês o que fizemos no processo de resolução da competição, quem é o papai aqui , que truques e truques usamos. Tem muita informação, vai ter muitas palavras especiais para quem não está no assunto. Este não é um tutorial, não irei descrever em muitos detalhes, mas ficarei feliz em responder a perguntas nos comentários.





Você pode olhar para o time dos sonhos





Plano

  • Descrição da tarefa





  • Etapas da solução





    1. Pré-processamento de dados





    2. Descrição da rede neural





    3. Aumento





    4. CharMasks





    5. Correção ortográfica usando XLMRoberta





    6. Conjunto + Limiares de correção ortográfica





  • O que não funcionou





  • Equipe





  • Conclusão





Descrição da tarefa

Formato de dados, recursos disponíveis e limitações





, : , I, (. ). , , - .





.





, - , - , , .





500 , , , , .





1.

, ( OOF), . ( ), ( ), , +90, -90 . (Resnet34 ) . , .









, .. . .





2.

, CTCLoss Attention. CTCLoss , Attention . CTCLoss, , Attention . .





Bs - , (w, h, c) - (, , ). . Hidden size - LSTM . Dict Size - , . Dense - Keras, Linear PyTorch.





3.

, . : ToGray, CLAHE, Rotate, CutOut.





CutOut .  , HandWrittenBlots, , , .  , ( ) . CutOut , HandWrittenBlots .  Augmixations. .





P.S. CutOut , .





4. CharMasks

, , CTC Loss. , , , ( , ). ( Action Labeling ).





. , , . , . XVII-XVIII (, ). , , .





obrigado a todos por conov piter
piter

, , , , . . , . . (Multi Word Expression) ( ) .





obrigado a todos por conov piter
piter

, , .. , . - :





obrigado a todos por conov piter
piter

5. Spell correction using XLMRoberta

, .





,     ( , ). NLP. XLMRoberta XVII-XVIII .., I. :





1. OCR ( ) ( ) ( + softmax), 3 (//blank ..) ;





2. : 3-4 , - .. //blank, , . zero-shot learning, , . OCR ('': 'p', '': 'o', '': 'e', '': 'c', '': 'a', '': 'x', '': 'u', '': ‘k’);





3. OCR step by step (!), ;





4. : ( 0 12), 50% padding ( ), 10% . ( ). XLMRoberta outputhiddenstates - NER, ;





5. GPU , TPU Colab





P.S.

( ), BeamSearch. .





6. Ensemble + Spell Correction Thresholds





, , , CTCLoss, . .    , . N "" . , , . . , , , ., +- .





Other Backbones. (EfficientNet, [SE, ECA]ResNet[xt], Mobilenet ), Resnet34.





Augmentations.   Albumentations (Brightness, Gamma, Blur ), , .





TTA (Test-Time Augmentations).  , holdout , public test - . , holdout.





Classic Blending.  , , , , , .





(). , ! :)





(github, linkedin, kaggle)





(github, linkedin, kaggle)





(github, linkedin, kaggle)





(linkedin, kaggle)





, , . , .





P.S. ( , public): 

| CER: 2.531 | WER: 13.5 | ACC: 62.107 | TIME: 32s |

submission .





P.P.S.

, ? :)












All Articles