🛌🏿 ⛴️ 🔊 Conjunto de dados SOVA de código aberto: áudio para reconhecimento e síntese de fala 🔐 🙇 ☘️

Olá a todos! Somos uma equipe de Nanosemantics, e recentemente lançamos o projeto SOVA, onde estamos coletando um conjunto de dados para uso no treinamento de redes neurais e criação de assistentes virtuais baseados em inteligência artificial.

Preparamos um grande conjunto de dados para treinar mecanismos de reconhecimento de voz e queremos compartilhá-lo para que as empresas possam implementá-lo em seu próprio país para resolver diversos problemas de negócios. Os dados são o novo óleo e uma das razões mais importantes para o avanço dos sistemas de reconhecimento de aprendizado de máquina é a presença de conjuntos de dados marcados. Se você estiver interessado em pesquisa e desenvolvimento no campo da análise da fala, vá em cat.

Em 2019, a Nanosemantics recebeu uma bolsa da Fundação RVC, dentro da qual é necessário preparar um dos maiores conjuntos de dados abertos da Rússia até o final de 2022. Esta é uma grande oportunidade para criarmos um conjunto de dados realmente útil. Incluirá 30.000 horas de gravações de áudio com letras, 3 idiomas (russo, inglês e chinês) e um grande número de falantes, cujo áudio será usado no conjunto de dados. O conjunto de dados será disponibilizado publicamente em etapas (gratuitamente) para que desenvolvedores de todo o mundo possam usá-lo para treinar redes neurais, criar seus próprios assistentes virtuais com inteligência artificial e treinar sistemas de reconhecimento de voz.

, , : .

, , . , — . .
. , , - , . . . , . , , .
.
. , .

, , — .

, : - , - . , , , .

( ) – , - . , , , , , , , . . () Wikipedia

: , , , , .

« »: , . , , , 70 . , . , . , .

, , . , . , , .

, (, , . .), , , . , , , , . , " / ", " " . ., .

, ?

-
Creative Commons Attribution – CC BY ( , )
Creative Commons Zero – CC0
WTFPL – Do What The Fuck You Want To Public License

, .

( )?

, .

5.1. 1235 , .

( )?

, - . .

, , , .

. , . 20 . , – - .

, , . . , , , . , .

, : , , , .

– .

. , .

, – . : , , . , , , . , , : , , , , . .

. , 20 . - , - . , , ; , , ? . .

.
.
, , .
, — .
( ), , .
, , .
, .

, .

, , , , .

VoicyBot, «» . , , . , , .

. , , — , . Open Source : . : , , , . , , , . .

Youtube

. Youtube (), . , , .

. , (FEFU) , .

, , Creative Commons – CC BY. .

YouTube “ Creative Commons”. API Youtube.

EngAudiobooksOriginal — , , .

EngAudiobooksNoisy — .

RuAudiobooksDevices — , , .

RuDevices — , .

Conjunto de dados de código aberto SOVA — Open Source SOVA

— , . .

CER — Char Error Rate. . , .

CER — 5.

, , 95% - — .

, :

Configurações padrão para todas as gravações de áudio

, , : -, .

: . , Youtube ( ), — . .

, , .

— forced alignment «» , . , , , . , , , . «» . : NLab Speech «» . -.

, «», . , - .

, — , . Voice Activity Detector — , . : 30 100 . - , 100 10 . — , : .

: , , .

«», . , : , , .

/

. .

Common Voice. , . 7 335 60

Russian Speech Database (STC Russian). 1996-1998 89 . 5 . 15 1-3 . , 200 4000 EUR . . , 10-30 .

CSS10 Russian: Single Speaker Speech Dataset. CSS10 (A Collection of Single Speaker Speech Datasets for 10 Languages) 22 , LibriVox. CC0: Public Domain.

M-AILABS Speech Dataset. 46 , LibriVox. .

Russian LibriSpeech (RuLS). , LibriVox. 98 .

Russian Open Speech To Text (STT/ASR) Dataset, OpenSTT. , . 20000 ( 2,3 TB .wav). , , YouTube, , . . CC-BY-NC ( ).

, :

, OpenSTT, , ,
OpenSTT , . , .
OpenSTT : + .

, . , SOVA . , SOVA .

, , .

2021 SOVA Dataset 11,402 . 1,1 TB .wav. , .

Open Source CC-BY 4.0. , , .

SOVA Dataset GitHub.

, . .

2021 . 10000 , . , , Youtube .

, 2022 30000 .

SOVA Dataset – Open Source SOVA.ai: . . Open Source , , « ». , , - Open Source .

. , SOVA Dataset , .

, . , , , partnership@sova.ai.

Conjunto de dados SOVA de código aberto: áudio para reconhecimento e síntese de fala

/

More articles: