Finalmente publicamos nosso conjunto de modelos de reconhecimento de voz pré-treinados de alta qualidade (ou seja, comparáveis em qualidade aos modelos premium do Google ) para os seguintes idiomas:
- Inglês;
- Alemão;
- Espanhol;
Você pode encontrar nossos modelos em nosso repositório, juntamente com exemplos e métricas de qualidade e velocidade. Também tentamos tornar os primeiros passos com nossos modelos o mais simples possível - postamos exemplos no Collab e pontos de verificação para PyTorch, ONNX e TensorFlow. Os modelos também podem ser carregados via TorchHub.
PyTorch | ONNX | TensorFlow | Qualidade | Colab | |
---|---|---|---|---|---|
Inglês (en_v1) | ✓ | ✓ | ✓ | ligação | |
Alemão (de_v1) | ✓ | ✓ | ✓ | ligação | |
Espanhol (es_v1) | ✓ | ✓ | ✓ | ligação |
Por que isso é importante
O reconhecimento de voz tradicionalmente tem grandes barreiras de entrada por uma série de razões:
- Os dados são difíceis de coletar;
- A marcação de uma unidade de dados comparável é muito mais cara do que na visão computacional;
- Altos requisitos para poder de computação e tecnologias desatualizadas;
Aqui está uma lista de problemas típicos enfrentados por soluções de reconhecimento de voz existentes antes do nosso lançamento:
- A pesquisa nesta área geralmente é feita com enorme poder de computação;
- - , " ", ;
- , - ;
- - ;
- ;
- ;
- - ;
- , , ;
—
, . :
- ;
- . , , ;
- ("1 ");
, — 50 .
— 10-20 .
.