"Sasha caminhava pela rodovia", "Diga: rrrrryba", "Cuco cuco ..." - sabe, sim, essas frases que traumatizaram a todos nós na infância? Foi uma espécie de experimento interminável de pais com um resultado desejado informe e, o mais importante, com medo de que seu filho esteja crescendo com um problema de fala.
Ei! Meu nome é Dima Pukhov, sou o diretor técnico da Cleverbots. Quero contar como ensinamos o chatbot a reconhecer defeitos de fala e como alcançamos 80% de acerto nos diagnósticos de um fonoaudiólogo de IA.
Problema
Cada segundo aluno tem problemas com a pronúncia, dizem os fonoaudiólogos. Eles podem ser eliminados em um estágio inicial, mas muitas vezes as dificuldades são atribuídas à infância e, quando os defeitos da fala se tornam óbvios, é difícil corrigi-los. Portanto, o espectrograma, como serviço de diagnóstico primário remoto, será capaz de prevenir o desenvolvimento e agravamento de problemas e sinalizar a necessidade de intervenção de um especialista.
No ano passado, a farmacêutica Geropharm, para combater medos e estereótipos sobre o desenvolvimento cognitivo, lançou o portal PRO.MOZG, onde você pode ler uma grande quantidade de materiais úteis e acessíveis sobre como funciona o cérebro, como as doenças “funcionam” e os mudanças corporais. Além disso, o site possui um espectrograma - um serviço que ajuda os pais a testar seu filho em formato de jogo e determinar se ele tem problemas de fala.
Resumidamente sobre o serviço
Para os usuários, a interface do Spectrogram é implementada na forma de um bot de bate-papo e é integrada como um widget no site. O teste ocorre de forma lúdica: sob orientação dos pais, a criança deve pronunciar as frases propostas, que depois devem ser enviadas ao bot no formato de mensagens de áudio, e o modelo de ML determinará automaticamente se a frase é pronunciada com um defeito.
É importante recuar um pouco e lembrar como era no início.
Na primeira fase de implantação de um serviço semelhante, todos os questionários foram enviados a um fonoaudiólogo, cada um teve que ser ouvido e avaliado se as habilidades de fala da criança correspondiam à idade, foi dado parecer de especialista e uma nota correspondente no sistema deveria ser definir. E isso é mais de 10 entradas por questionário.
, , , , .
– . . .
– . , , . .
–
:
, - (MFCC). feature engineering;
;
Deep Learning, , speech2text. , , , ;
. , Yandex, Google, AWS , speech2text , , .
, , – .
, :
;
( );
;
.
, – , .
. , , / .
(, ) 3Sigma - . , , / .
.
spectral & rhythm features librosa , . PCA , 0.99 ROC_AUC.
, speech2text. : Yandex, Google, Amazon. , , : , speech2text , .
... , , , . , , , . ( ). , – timestamp .
– spectral & rhythm features librosa, tsfresh PCA ( ). : ROC_AUC 0.85, – , .
( 52 ; <100 ). – , .
– . onset_detection, , . balanced_accuracy_score, 0.80, .
, , . – DTW Audio Fingerprinting. , , , , .
production
Python;
Kafka – ;
Django .
, , . , , .
. , , : , . , , , , .
( , , ~10 ) , «» , – . , , . , . , .
, , , , -, – 80% . -, : .
No futuro, está planejada uma transição completa do modelo human-in-the-loop, quando a participação de uma pessoa no diagnóstico é necessária, para uma automação completa do processo graças a um modelo retreinado.