Olá a todos! Somos uma equipe de Nanosemantics, e recentemente lançamos o projeto SOVA, onde estamos coletando um conjunto de dados para uso no treinamento de redes neurais e criação de assistentes virtuais baseados em inteligência artificial.
Preparamos um grande conjunto de dados para treinar mecanismos de reconhecimento de voz e queremos compartilhá-lo para que as empresas possam implementá-lo em seu próprio país para resolver diversos problemas de negócios. Os dados são o novo óleo e uma das razões mais importantes para o avanço dos sistemas de reconhecimento de aprendizado de máquina é a presença de conjuntos de dados marcados. Se você estiver interessado em pesquisa e desenvolvimento no campo da análise da fala, vá em cat.
Em 2019, a Nanosemantics recebeu uma bolsa da Fundação RVC, dentro da qual é necessário preparar um dos maiores conjuntos de dados abertos da Rússia até o final de 2022. Esta é uma grande oportunidade para criarmos um conjunto de dados realmente útil. Incluirá 30.000 horas de gravações de áudio com letras, 3 idiomas (russo, inglês e chinês) e um grande número de falantes, cujo áudio será usado no conjunto de dados. O conjunto de dados será disponibilizado publicamente em etapas (gratuitamente) para que desenvolvedores de todo o mundo possam usá-lo para treinar redes neurais, criar seus próprios assistentes virtuais com inteligência artificial e treinar sistemas de reconhecimento de voz.
, , : .
:
, , . , — . .
. , , - , . . . , . , , .
.
. , .
, , — .
, : - , - . , , , .
( ) – , - . , , , , , , , . . () Wikipedia
?
: , , , , .
« »: , . , , , 70 . , . , . , .
, , . , . , , .
, (, , . .), , , . , , , , . , " / ", " " . ., .
, ?
:
:
-
Creative Commons Attribution – CC BY ( , )
-
WTFPL – Do What The Fuck You Want To Public License
, .
( )?
, .
5.1. 1235 , . |
( )?
, - . .
, , , .
. , . 20 . , – - .
:
,
, , . . , , , . , .
, : , , , .
– .
. , .
:
, ,
, ,
, ,
:
.
, – . : , , . , , , . , , : , , , , . .
. , 20 . - , - . , , ; , , ? . .
:
, .
.
, , , , .
VoicyBot, «» . , , . , , .
. , , — , . Open Source : . : , , , . , , , . .
Youtube
. Youtube (), . , , .
. , (FEFU) , .
, , Creative Commons – CC BY. .
YouTube “ Creative Commons”. API Youtube.
EngAudiobooksOriginal — , , .
EngAudiobooksNoisy — .
RuAudiobooksDevices — , , .
RuDevices — , .
— , . .
CER — 5.
, , 95% - — .
, :
, , : -, .
.
: . , Youtube ( ), — . .
, , .
— forced alignment «» , . , , , . , , , . «» . : NLab Speech «» . -.
, «», . , - .
, — , . Voice Activity Detector — , . : 30 100 . - , 100 10 . — , : .
: , , .
«», . , : , , .
/
. .
Common Voice. , . 7 335 60
Russian Speech Database (STC Russian). 1996-1998 89 . 5 . 15 1-3 . , 200 4000 EUR . . , 10-30 .
CSS10 Russian: Single Speaker Speech Dataset. CSS10 (A Collection of Single Speaker Speech Datasets for 10 Languages) 22 , LibriVox. CC0: Public Domain.
M-AILABS Speech Dataset. 46 , LibriVox. .
Russian LibriSpeech (RuLS). , LibriVox. 98 .
Russian Open Speech To Text (STT/ASR) Dataset, OpenSTT. , . 20000 ( 2,3 TB .wav). , , YouTube, , . . CC-BY-NC ( ).
, :
, OpenSTT, , ,
OpenSTT , . , .
OpenSTT : + .
, . , SOVA . , SOVA .
, , .
2021 SOVA Dataset 11,402 . 1,1 TB .wav. , .
Open Source CC-BY 4.0. , , .
SOVA Dataset GitHub.
, . .
2021 . 10000 , . , , Youtube .
, 2022 30000 .
SOVA Dataset – Open Source SOVA.ai: . . Open Source , , « ». , , - Open Source .
. , SOVA Dataset , .
, . , , , partnership@sova.ai.