Um pouco sobre a história das escutas telefônicas fotoacústicas
Esses métodos de escutas telefônicas estão enraizados nas
microfone a laser do final dos anos 80
O advento das câmeras de alta resolução com uma taxa de atualização de quadros abriu novas possibilidades para escutas telefônicas. As ondas sonoras, colidindo com a superfície dos objetos, causam vibrações imperceptíveis aos olhos.
Uma câmera com alta resolução e uma taxa de atualização de quadros de 60 qps pode ser usada para reconhecê-las. Três anos atrás, uma equipe de pesquisadores do Instituto de Tecnologia de Massachusetts conseguiu converter um vídeo capturado a 2200 fps no som de uma melodia tocada em ambientes fechados no momento da gravação. Também foi descoberto que, com menos eficiência, o método pode ser aplicado mesmo com uma taxa de atualização de 60 fps.
Este método também teve limitações. O primeiro é o custo de câmeras com taxas de atualização alta e ultra alta. Em segundo lugar, há problemas com a velocidade de processamento de uma imagem capturada com uma taxa de quadros tão grande; os arquivos de vídeo volumosos requerem um processamento longo, cuja duração depende diretamente das capacidades do hardware. Isso limita o uso do método em tempo real.
As câmeras com a resolução existente praticamente não permitem fotografar a uma distância considerável, limitando-a de 5 a 6 metros ao objeto.
A essência do novo método
Os cientistas israelenses decidiram melhorar o método dos americanos, concentraram a pesquisa em um objeto específico com um telescópio e substituíram uma câmera cara por um fotodiodo barato. O tremor de ar durante uma conversa causa microvibrações da lâmpada, que por sua vez causa alterações na iluminação que não são perceptíveis, mas são significativas para equipamentos sensíveis. A luz é capturada pelo telescópio e convertida por um fotodiodo em um sinal elétrico. Usando um conversor de analógico para digital, o sinal é gravado na forma de um espectrograma, processado por um algoritmo escrito pelos pesquisadores e depois convertido em som.
Os pesquisadores testaram a eficiência do método por experiência de laboratório, na qual anexaram um giroscópio à lâmpada e reproduziram sons com uma frequência de 100 a 400 Hz em um centímetro do objeto. As oscilações da lâmpada eram pequenas e variavam de 0,005 a 0,06 graus (o desvio era em média de 300 a 950 mícrons), mas o principal era que elas diferiam significativamente, dependendo da frequência e do nível de pressão sonora, e, portanto, existe uma dependência das oscilações sobre as características das ondas sonoras em propagação.
As vibrações nos planos vertical e horizontal eram muito pequenas (300-950 mícrons), mas mudavam de acordo com a frequência e o volume do som fornecido, o que significa que a lâmpada, embora pouco visível, mas ainda vibra das ondas sonoras que se propagam nas proximidades e flutuações dependem de suas características.
Medições e experimentos
As medidas dos dados do fotodiodo mostraram mudanças aproximadas na corrente quando a lâmpada foi vibrada em diferentes distâncias entre ele e o telescópio. Verificou-se que, ao usar uma conversão de 24 bits, as oscilações de uma lâmpada de 300 mícrons no avião causam uma mudança de tensão de 54 microvolts, o que é suficiente para transmitir o espectro de teste (100 - 400 Hz) a uma distância considerável (várias dezenas de metros) usando a ótica do telescópio usado. Além disso, a ausência de som é refletida no espectrograma do sinal óptico da lâmpada na forma de um pico de 100 Hertz (causado por sua frequência de oscilação). Esse recurso também foi adicionado ao algoritmo.
O próprio algoritmo atua sequencialmente. No primeiro estágio, ele funciona como um filtro de frequências informativamente insignificantes, como a frequência de oscilação e, em seguida, seleciona o espectro correspondente à fala. Depois disso, ele remove os sinais de frequência de ruídos estranhos, semelhantes aos denoisadores padrão em gravadores de voz e gravadores de estúdio. O espectrograma processado dessa maneira é convertido em som por um programa de terceiros.
Criado por cientistas da Lamphone na versão atual, permite a restauração em tempo real da fala e música de uma sala localizada a 25 metros do local de observação. Isso é comprovado objetivamente pelo experimento a seguir: uma instalação equipada com um telescópio amador com lente de 20 cm foi instalada em uma ponte, a 25 metros da janela da sala onde a lâmpada estava localizada. Não muito longe da lâmpada, foram tocados The Beatles "Let It Be" e Coldplay "Clocks", além de uma gravação do discurso de D. Trump com a frase "Vamos tornar a América grande novamente".
Como resultado, as gravações sonoras reconstruídas a partir dos espectrogramas se mostraram bastante distinguíveis, as melodias foram facilmente adivinhadas pelo serviço Shazam e as palavras foram reconhecidas pela API aberta do Google para reconhecimento de texto.
Resíduos secos
O dispositivo está funcionando. Nada disso foi relatado antes. Isso simplificará o trabalho dos serviços especiais de alguma forma, e todos os que têm algo a temer devem tomar novas precauções. Ainda não está claro se o sistema pode funcionar com outra coisa senão uma fonte de luz em movimento. Pesquisadores israelenses planejam continuar suas pesquisas.
Conteúdo e materiais visuais usados