Conjunto de dados SOVA de código aberto: áudio para reconhecimento e síntese de fala

Olá a todos! Somos uma equipe de Nanosemantics, e recentemente lançamos o projeto SOVA, onde estamos coletando um conjunto de dados para uso no treinamento de redes neurais e criação de assistentes virtuais baseados em inteligência artificial.





Preparamos um grande conjunto de dados para treinar mecanismos de reconhecimento de voz e queremos compartilhá-lo para que as empresas possam implementá-lo em seu próprio país para resolver diversos problemas de negócios. Os dados são o novo óleo e uma das razões mais importantes para o avanço dos sistemas de reconhecimento de aprendizado de máquina é a presença de conjuntos de dados marcados. Se você estiver interessado em pesquisa e desenvolvimento no campo da análise da fala, vá em cat.



Em 2019, a Nanosemantics recebeu uma bolsa da Fundação RVC, dentro da qual é necessário preparar um dos maiores conjuntos de dados abertos da Rússia até o final de 2022. Esta é uma grande oportunidade para criarmos um conjunto de dados realmente útil. Incluirá 30.000 horas de gravações de áudio com letras, 3 idiomas (russo, inglês e chinês) e um grande número de falantes, cujo áudio será usado no conjunto de dados. O conjunto de dados será disponibilizado publicamente em etapas (gratuitamente) para que desenvolvedores de todo o mundo possam usá-lo para treinar redes neurais, criar seus próprios assistentes virtuais com inteligência artificial e treinar sistemas de reconhecimento de voz. 





, , : .





:





  1. , , . , — . .





  2. . , , - , . . . , . , , .









  3. . , .





, , —  .





, : - , - . , , , .









( ) – , - . , , , , , , , . . () Wikipedia





?





: , , , ,   .





« »: , . , , , 70 . , . , . , .





, , . , . , , .





, (, , . .), , , . , , , , . , " / ", " " . ., .





, ?





:





















:





  • -









  • Creative Commons Attribution – CC BY ( , )





  • Creative Commons Zero – CC0





  • WTFPL – Do What The Fuck You Want To Public License





, .





( )?





, .





5.1. 1235 , .





( )?





, - . .





, , , .





 





. , . 20 . , – - .





:













  • ,









, , . . , , , . , .





, : , , , .





– .









. , . 





:





  • , ,





  • , ,









  • , ,





:





  • .









, – . : , , . , , , . , , : , , , , . .





. , 20 . - , - . , , ; , , ? . .





:





  • .





  • .





  • , , .





  • , — .





  • ( ), , .





  • , , .





  • , .





, .





Software de gravação de locução

.









, , , , . 





VoicyBot, «» . , , . , , . 





. , , — , . Open Source : . : , , , . , , , . . 





Youtube





. Youtube (), . , , .





. , (FEFU) , .





, , Creative Commons – CC BY. .





YouTube “ Creative Commons”. API Youtube. 





EngAudiobooksOriginal — , , .





EngAudiobooksNoisy — .





RuAudiobooksDevices — , , .





RuDevices — , .





Conjunto de dados de código aberto SOVA
Open Source SOVA

— , . .





CER — Char Error Rate. . , . 





CER — 5.





, , 95% - — .





, : 





Configurações padrão para todas as gravações de áudio

, , : -, .





.





: . , Youtube ( ), —  . .









, , .





—  forced alignment «» , . , , , . , , , . «» .   : NLab Speech «» . -.





, «», . , - .









, —  , . Voice Activity Detector — , . : 30 100 . - , 100 10 . —  , : .





: , , .





«», . , : , , .





/

. .





Common Voice. , . 7 335 60





Russian Speech Database (STC Russian). 1996-1998 89 . 5 . 15 1-3 . , 200 4000 EUR . . , 10-30 .





CSS10 Russian: Single Speaker Speech Dataset. CSS10 (A Collection of Single Speaker Speech Datasets for 10 Languages) 22 , LibriVox. CC0: Public Domain.





M-AILABS Speech Dataset. 46 , LibriVox. .





Russian LibriSpeech (RuLS). , LibriVox. 98 .





Russian Open Speech To Text (STT/ASR) Dataset, OpenSTT. , . 20000 ( 2,3 TB .wav). , , YouTube, , . . CC-BY-NC ( ).





, :





  • , OpenSTT, , ,





  • OpenSTT , . , .





  • OpenSTT : + .





, . , SOVA . , SOVA .





, ,  .





2021 SOVA Dataset 11,402 . 1,1 TB .wav. , .





Open Source CC-BY 4.0. , , .





SOVA Dataset GitHub.





, . .





2021 . 10000 , . , , Youtube .





, 2022 30000 .





SOVA Dataset – Open Source SOVA.ai: . . Open Source , , « ». , , - Open Source .





. , SOVA Dataset , . 





, . , , , partnership@sova.ai.








All Articles