Pesquisadores do Instituto de Tecnologia de Massachusetts (MIT, da sigla em inglês) desenvolveram um sistema de computador que adiciona, de forma independente, efeitos de som realistas em filmes mudos. Embora a tecnologia ainda seja recente, é um passo importante para automatizar efeitos sonoros no cinema.
A partir de uma série de vídeos de baquetas batendo em coisas – incluindo calçadas, grama e superfícies de metal – o computador aprende a utilizar o efeito de som apropriado à cena, como o barulho de uma baqueta atingindo um pedaço de madeira ou o farfalhar de folhas.
O avanço é um exemplo do poder do deep learning, um modelo de inteligência artificial cujas aplicações têm sido a aposta de várias empresas de tecnologia. Com deep learning, um sistema de computador aprende a reconhecer padrões em enormes quantidades de dados e aplica esse aprendizado em situações úteis e práticas.
Neste caso, os pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT gravaram cerca de mil vídeos de uma baqueta tocando e batendo objetos do mundo real. Em seguida, o computador foi “alimentado” com estes vídeos e começou a aprender que sons são associados com várias ações e superfícies – afinal, o som da baqueta batendo em um pedaço de madeira é diferente de quando ela atinge uma pilha de folhas.
Uma vez que o computador tinha todos esses exemplos à mão, os pesquisadores deram a ele vídeos mudos da mesma baqueta batendo em outras superfícies, e então instruíram o sistema a relacionar o som apropriado ao vídeo. Para fazer isso, o computador seleciona qual altura e intensidade do som batem com o que ele vê na imagem e então encontra um arquivo sonoro apropriado em seu banco de dados para tocar com o vídeo.
Para testar o resultado, os pesquisadores mostram então os vídeos acabados para outras pessoas, que são desafiadas a dizer se os clips incluem um som autêntico ou um que foi adicionado artificialmente pelo computador.
Entraves
Mas a tecnologia não é perfeita, como reconhece o coordenador do estudo, Andrew Owens. Quando a equipe tenta trabalhar com arquivos de imagem mais longos, o sistema às vezes falha e toca o som quando a baqueta não está batendo em nada. E, neste caso, os participantes do teste descobrem imediatamente que o áudio não é real.
E os pesquisadores também foram capazes de utilizar o computador para mixar imagem e som somente quando eles usaram vídeos com baquetas. Criar um sistema que fornece automaticamente o melhor efeito sonoro para qualquer vídeo – o tipo de avanço disruptivo que atingiria em cheia a indústria de efeitos de som –, ainda é algo fora de alcance por enquanto.
Embora o mundo da tecnologia esteja vendo avanços significativos no ramo da inteligência artificial, ainda há grandes diferenças em como humanos e máquinas aprendem. Owens, do MIT, quer fazer com que sistemas de computadores se aproximem cada vez mais do modo como uma criança descobre o mundo, “cutucando” e tocando o ambiente à sua volta. Ele enxerga potencial para outros pesquisadores usarem gravações de som e interações com objetos e espaços para avançar na maneira como as máquinas compreendem nosso mundo físico.