_Inteligência Artificial

Este algoritmo engana você atribuindo efeitos sonoros a um vídeo sem som

Usando aprendizagem de máquina, pesquisadores do MIT desenvolveram um sistema que prevê o som de objetos e seleciona efeitos sonoros de forma realista.

Usando aprendizagem de máquina, pesquisadores do MIT desenvolveram um sistema que prevê o som de objetos, e que seleciona efeitos sonoros de forma tão realista a ponto de enganar você.

O novo algoritmo, desenvolvido por pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT, pode analisar um vídeo sem som e prever as qualidades acústicas precisas dele – e então atribuir sons de uma forma extremamente realista.

O candidato a PhD Andrew Owens e sua equipe aplicaram uma técnica conhecida como “aprendizagem profunda”, que permite aos computadores escolher, de forma completamente autônoma, padrões importantes enterrados em enormes quantidades de dados brutos.

Ao longo de vários meses, os pesquisadores gravaram cerca de 1.000 vídeos com um número estimado de 46.000 sons, que representavam uma matriz de objetos sendo atingidos, raspados e cutucados por uma baqueta. (A baqueta foi escolhida por sua capacidade de produzir sons consistentes.)


Imagem: Laboratório de Ciência da Computação e Inteligência Artificial do MIT

Em seguida, um algoritmo de aprendizado profundo analisou os vídeos, desconstruindo os sons de acordo com a altura, intensidade e outras qualidades acústicas.

“Para prever o som de um vídeo, o algoritmo analisa as propriedades de som de cada quadro do vídeo, e as combina com os sons mais similares no banco de dados”, explica Owens ao MIT News. “Uma vez que o sistema reúne esses trechos de áudio, ele junta tudo para criar um som coerente.”

Dessa forma, o algoritmo foi capaz de prever – com um grau surpreendente de precisão – detalhes acústicos específicos de vários impactos, incluindo os sons da baqueta em metal, madeira, pedras, terra e até mesmo folhas.

Para testar se os sons falsos eram realistas, a equipe realizou um estudo online no qual indivíduos viam dois vídeos – um com o som real, outro com o som escolhido pelo algoritmo – e escolhiam qual era real.

Os sons sintéticos eram tão bons que os indivíduos diziam com o dobro da frequência que eles eram reais. Materiais como folhas e terra eram particularmente difíceis de distinguir, principalmente porque esses objetos tendem a ter sons menos “limpos” do que outros objetos.

No futuro, este sistema poderia melhorar as habilidades dos robôs em avaliar e interagir com o ambiente ao redor. “Um robô poderia olhar para a calçada e instintivamente saber que o cimento é duro e a grama é macia; e, portanto, saber o que aconteceria se ele pisasse em qualquer um deles”, diz Owens. “Ser capaz de prever o som é um primeiro passo importante para prever as consequências das interações físicas com o mundo.”

[MIT News, arXiv]

Foto por Cameron Parkins/Flickr

Sair da versão mobile