Publicamos modelos STT modernos comparáveis ​​em qualidade ao Google



Finalmente publicamos nosso conjunto de modelos de reconhecimento de voz pré-treinados de alta qualidade (ou seja, comparáveis ​​em qualidade aos modelos premium do Google ) para os seguintes idiomas:



  • Inglês;
  • Alemão;
  • Espanhol;


Você pode encontrar nossos modelos em nosso repositório, juntamente com exemplos e métricas de qualidade e velocidade. Também tentamos tornar os primeiros passos com nossos modelos o mais simples possível - postamos exemplos no Collab e pontos de verificação para PyTorch, ONNX e TensorFlow. Os modelos também podem ser carregados via TorchHub.



PyTorch ONNX TensorFlow Qualidade Colab
Inglês (en_v1) ligação Abrir no Colab
Alemão (de_v1) ligação Abrir no Colab
Espanhol (es_v1) ligação Abrir no Colab


Por que isso é importante



O reconhecimento de voz tradicionalmente tem grandes barreiras de entrada por uma série de razões:



  • Os dados são difíceis de coletar;
  • A marcação de uma unidade de dados comparável é muito mais cara do que na visão computacional;
  • Altos requisitos para poder de computação e tecnologias desatualizadas;


Aqui está uma lista de problemas típicos enfrentados por soluções de reconhecimento de voz existentes antes do nosso lançamento:



  • A pesquisa nesta área geralmente é feita com enorme poder de computação;
  • - , " ", ;
  • , - ;


- , ( ). :



  • - ;
  • ;
  • ;
  • - ;
  • , , ;




, . :



  • ;
  • . , , ;
  • ("1 ");




, — 50 .

— 10-20 .

.








All Articles