
Uma ferramenta de reconhecimento de gestos musicais baseada em inteligência artificial desenvolvida no MIT-IBM Watson AI Lab usa movimentos corporais para distinguir entre os sons de instrumentos musicais individuais.

Imagem cortesia dos pesquisadores.
Os pesquisadores usam dados de pontos chave do esqueleto para correlacionar os movimentos dos músicos com o tempo de suas partes, permitindo que os ouvintes isolem instrumentos que tenham o mesmo som.
Imagem cortesia dos pesquisadores.
Gostamos da música não só com os ouvidos, mas também com os olhos, observando com gratidão como os dedos do pianista voam sobre as teclas e o arco do violinista balança na crista das cordas. Quando o ouvido não consegue separar dois instrumentos musicais, nossos olhos nos ajudam combinando os movimentos de cada músico com o ritmo de cada parte.
Nova ferramenta de inteligência artificial desenvolvida pelo MIT-IBM Watson AI Labusa olhos virtuais e ouvidos de computador para separar sons que são tão semelhantes que é difícil para uma pessoa diferenciá-los. O instrumento foi aprimorado em relação às iterações anteriores, alinhando os movimentos de músicos individuais usando pontos-chave de seu esqueleto com o tempo de partes individuais, o que permite aos ouvintes isolar o som de uma única flauta ou violino entre vários dos mesmos instrumentos.
Os possíveis usos para o trabalho variam de mixagem de som e aumento do volume de um instrumento em uma gravação até a redução da confusão que faz com que as pessoas interrompam umas às outras durante a videoconferência. O trabalho será apresentado na conferência Computer Vision Pattern Recognition neste mês.
"Pontos-chave no corpo fornecem informações estruturais poderosas", disse o autor principal Chuang Gang , pesquisador do laboratório da IBM. "Estamos usando-os aqui para melhorar a capacidade da IA de ouvir e separar o som."
Neste e em outros projetos semelhantes, os pesquisadores usaram trilhas de áudio e vídeo sincronizadas para recriar a maneira como as pessoas aprendem. Um sistema de inteligência artificial que aprende com várias modalidades sensoriais pode aprender mais rápido, com menos dados e sem ter que adicionar atalhos incômodos manualmente para cada visão do mundo real. “Aprendemos com todos os nossos sentidos”, diz Antonio Torralba, professor do MIT e coautor do estudo. "O processamento multissensorial é o precursor da inteligência incorporada e dos sistemas de inteligência artificial que podem realizar tarefas mais complexas."
Esta ferramenta, que usa a linguagem corporal para separar sons, baseia-se em trabalhos anteriores em que pistas de movimento foram usadas em sequências de imagens. Sua primeira encarnação, PixelPlayer, permitia clicar em um instrumento em um vídeo ao vivo para torná-lo mais alto ou mais baixo . A atualização do PixelPlayer permite diferenciar dois violinos em um dueto combinando os movimentos de cada músico com o tempo de sua parte. Esta última versão adiciona dados de pontos chave (que os analistas esportivos usam para rastrear o desempenho dos atletas, para extrair dados de movimento mais granulares) para diferenciar sons quase idênticos.
O trabalho destaca a importância das dicas visuais no ensino de computadores para que eles possam ouvir melhor e o uso de dicas sonoras para dar-lhes uma visão mais nítida. Assim como o estudo atual usa informações visuais sobre os movimentos de um músico para separar partes de instrumentos musicais de som semelhante, trabalhos anteriores usaram sons para separar objetos semelhantes e animais da mesma espécie.
Torralba e colegas mostraram que modelos de aprendizagem profunda treinados em dados de áudio e vídeo emparelhados podem aprender a reconhecer sons naturais , como o canto dos pássaros ou ondas batendo na costa. Eles também podem determinar as coordenadas geográficas de um veículo em movimento pelo som de seu motor e das rodas se aproximando ou se afastando do microfone.
A última pesquisa sugere que as ferramentas de rastreamento de áudio podem ser uma adição útil para carros autônomos, ajudando suas câmeras em condições de visibilidade ruim. “Rastreadores de som podem ser especialmente úteis à noite ou com mau tempo, ajudando a sinalizar veículos que poderiam ter sido perdidos”, disse Hang Zhao, Ph.D. '19, que estava envolvido na pesquisa de rastreamento de movimento e som.
Outros autores do estudo CVPR de gestos musicais são Dan Huang e Joshua Tenenbaum do MIT.
Isso é tudo. Para saber mais sobre o curso, convidamos você a se inscrever no dia aberto no link abaixo:

Consulte Mais informação:
Como ensinei meu computador a jogar Doble usando OpenCV e Deep Learning