E chat, bot e fonoaudiólogo. Como desenvolver um serviço baseado em ML para diagnosticar defeitos de fala em crianças

"Sasha caminhava pela rodovia", "Diga: rrrrryba", "Cuco cuco ..." - sabe, sim, essas frases que traumatizaram a todos nós na infância? Foi uma espécie de experimento interminável de pais com um resultado desejado informe e, o mais importante, com medo de que seu filho esteja crescendo com um problema de fala. 





Ei! Meu nome é Dima Pukhov, sou o diretor técnico da Cleverbots. Quero contar como ensinamos o chatbot a reconhecer defeitos de fala e como alcançamos 80% de acerto nos diagnósticos de um fonoaudiólogo de IA.





Problema

Cada segundo aluno tem problemas com a pronúncia, dizem os fonoaudiólogos. Eles podem ser eliminados em um estágio inicial, mas muitas vezes as dificuldades são atribuídas à infância e, quando os defeitos da fala se tornam óbvios, é difícil corrigi-los. Portanto, o espectrograma, como serviço de diagnóstico primário remoto, será capaz de prevenir o desenvolvimento e agravamento de problemas e sinalizar a necessidade de intervenção de um especialista. 





No ano passado, a farmacêutica Geropharm, para combater medos e estereótipos sobre o desenvolvimento cognitivo, lançou o portal PRO.MOZG, onde você pode ler uma grande quantidade de materiais úteis e acessíveis sobre como funciona o cérebro, como as doenças “funcionam” e os mudanças corporais. Além disso, o site possui um espectrograma - um serviço que ajuda os pais a testar seu filho em formato de jogo e determinar se ele tem problemas de fala.





Resumidamente sobre o serviço

Para os usuários, a interface do Spectrogram é implementada na forma de um bot de bate-papo e é integrada como um widget no site. O teste ocorre de forma lúdica: sob orientação dos pais, a criança deve pronunciar as frases propostas, que depois devem ser enviadas ao bot no formato de mensagens de áudio, e o modelo de ML determinará automaticamente se a frase é pronunciada com um defeito.





É importante recuar um pouco e lembrar como era no início.





Na primeira fase de implantação de um serviço semelhante, todos os questionários foram enviados a um fonoaudiólogo, cada um teve que ser ouvido e avaliado se as habilidades de fala da criança correspondiam à idade, foi dado parecer de especialista e uma nota correspondente no sistema deveria ser definir. E isso é mais de 10 entradas por questionário. 





, , , , .





– . . .





– . , , . .





:





  • , - (MFCC). feature engineering;









  • Deep Learning, , speech2text. , , , ;





  • . , Yandex, Google, AWS , speech2text , , .





, , – .





, :





  1. ;





  2. ( );





  3. ;





  4. .





, – , .





. , , / .





(, ) 3Sigma - . , , / .





.





spectral & rhythm features librosa , . PCA , 0.99 ROC_AUC.





, speech2text. : Yandex, Google, Amazon. , , : , speech2text , .





... , , , . , , , . ( ). , – timestamp .





– spectral & rhythm features librosa, tsfresh PCA ( ). : ROC_AUC 0.85, – , .





( 52 ; <100 ). – , .





– . onset_detection, , . balanced_accuracy_score, 0.80, .





, , . – DTW Audio Fingerprinting. , , , , .





production

  • Python;





  • Kafka – ;





  • Django .





, , . , , .





. , , : , . , , , , .





( , , ~10 ) , «» , – . , , . , . , .





, , , , -, – 80% . -, : .





No futuro, está planejada uma transição completa do modelo human-in-the-loop, quando a participação de uma pessoa no diagnóstico é necessária, para uma automação completa do processo graças a um modelo retreinado. 








All Articles