
Foto grátis para usar sons / Unsplash
A difícil tarefa do noisemaker
Os sons de filmes e programas de TV - por exemplo, o farfalhar da chuva - são muito difíceis de gravar da maneira certa no set no momento da filmagem de um determinado fragmento. Haverá muito ruído estranho, conflitos com as vozes dos atores e outros equipamentos são possíveis. Por esse motivo, quase todos os sons são gravados separadamente e mixados durante a edição. Os fabricantes de ruído estão fazendo isso .
Se um filme precisa reproduzir o som de uma janela quebrada, os designers de som vão ao estúdio e começam a quebrar o vidro sob condições acústicas controladas. A gravação é feita até que o som coincida com o que está acontecendo na tela. Em casos particularmente difíceis, isso pode exigir dezenas de iterações, o que complica e aumenta o custo da filmagem.
Engenheiros da Universidade do Texas sugeriramOpção alternativa. Eles desenvolveram um sistema de IA que detecta o que está acontecendo no quadro e sugere automaticamente uma escala.
Como funciona
Os engenheiros descreveram como o sistema funciona em seu trabalho para o IEEE ( PDF ). Eles projetaram dois modelos de aprendizado de máquina. O primeiro extrai características das imagens da filmagem - por exemplo, cores. O segundo modelo analisa o movimento de um objeto em diferentes quadros e determina sua natureza para selecionar o som apropriado.
Para a formação da série acústica, os engenheiros desenvolveram o programa AutoFoley. Ele gera um novo som baseado em milhares de amostras curtas de áudio - com o som da chuva, o tique-taque de um relógio, um cavalo a galope. O resultado do trabalho é bastante convincente:
Infelizmente, o sistema tem várias limitações sérias até agora. É adequado para processar gravações nas quais o som não precisa corresponder perfeitamente ao vídeo. Caso contrário, a dessincronização torna-se perceptível - como neste vídeo . Além disso, o objeto deve estar constantemente presente no quadro para que o modelo MO possa reconhecê-lo. Agora os desenvolvedores estão empenhados no registro de patentes, mas planejam consertar as falhas.
Quem mais está envolvido em tais projetos
Em 2016, especialistas do MIT e Stanford apresentaram um modelo de aprendizado de máquina capaz de expressar vídeo silencioso. Ele prevê o som com base em uma propriedade de um objeto no quadro - por exemplo, seu material. Como um experimento, os engenheiros carregaram um vídeo no sistema no qual uma pessoa bate em uma baqueta em várias superfícies: metal, terra, grama e outros.
Os desenvolvedores avaliaram a eficácia do algoritmo usando uma pesquisa online. Os mais realistas foram os sons de folhas e sujeira (foram chamados de reais por 62% dos entrevistados), e os menos reais - madeira e metal. Metal soou natural apenas 18% das vezes.
Este sistema também precisa ser melhorado. Ele gera sons que ocorrem quando objetos colidem, mas não pode recriar a matriz acústica para o ruído do vento. Além disso, o algoritmo falha se os objetos estiverem se movendo muito rápido. Apesar disso, essas soluções têm potencial - podem simplificar o trabalho dos produtores de ruído e transformar a indústria cinematográfica.
« Hi-Fi»:




