Novo algoritmo do Google cria vídeos completos baseado em poucas fotografias

Por Kelsey Campbell-Dollaghan13 de julho de 2015 às 14:593 minutos de leitura

Os engenheiros do Google conseguem fazer coisas incríveis com as tecnologias de consumo que têm desenvolvido — de redes que “sonham” baseadas em visão computacional a um algoritmo que pode criar vídeo usando imagens do Street View.

Este mês vimos o Deep Dream, o robô “sonhador” do Google, uma super avançada rede neural artificial, se espalhar pela internet. Essas redes são desenvolvidas pela equipe de engenharia da companhia por diversas razões práticas, que envolvem um computador identificar o conteúdo de uma imagem — que é uma tarefa extraordinariamente complexa para uma máquina não muito inteligente. Esses incríveis “cérebros” artificias que o Google está ensinando a reconhecer, digamos, animais ou arquitetura, também podem “sonhar”, e os resultados nos impressionaram e nos chocaram.

E este é um outro ótimo exemplo da visão computacional da empresa.

Semana passada, o Technology Review da MIT avaliou um estudo de John Flynn, engenheiro do Google e autor da pesquisa chama DeepStereo: aprendendo a prever novas perspectivas de imagens do mundo. Flynn e os três coautores do estudo, todos funcionários do Google, explicam como eles desenvolveram o sistema DeepStereo, que pode olhar para uma série de imagens fixas e combiná-las em uma animação sem interrupções.

Ela pode não parecer tão diferente de projetos semelhantes, como o SIGGRAPH, que usa imagens da internet para criar timelapses. Bem, é verdade que o DeepStereo faz algo próximo a um timelapse, mas ele também cria novas imagens que preenchem as lacunas entre uma figura e outra, prevendo partes e perspectivas das figuras que não existem em nenhumas das fotos fornecidas ao sistema. Em vez dos nossos olhos preencherem essas lacunas entre uma imagem e outra, o DeepStereo “imagina” o que elas seriam e as insere no resultado final, como explica o The Register. “Diferente de trabalhos anteriores, aprendemos a sintetizar novas perspectivas usando uma nova arquitetura, que não requer treinamentos de profundidade ou divergências”, escrevem Flynn e os coautores.

Obviamente, a arquitetura da rede por trás disso é muito complexa e baseada em diversos precedentes. Mas os autores nos explicam um pouco do funcionamento dela: existem duas “torres” separadas, ou redes de arquitetura, trabalhando ali. Uma faz a previsão da profundidade dos pixels, baseada nos dados disponibilizados pela imagem em 2D, enquanto a outra faz previsões sobre as cores. Juntas, elas preveem a profundidade e as cores das formas presentes nas imagens em 2D, sintetizando o resultado em um vídeo completo.

Veja com atenção o vídeo abaixo, e você perceberá alguns engasgos do DeepStereo: momentos onde os cantos ficam borrados ou pixelados. “Regiões em que o algoritmo não está confiante o suficiente tendem a ficar borradas, em vez de serem preenchidas com pixels distorcidos”, a equipe explica. O sistema até mesmo lida com objetos em movimento nas imagens. “Objetos em movimento, algo que ocorre com frequência durante o treinamento, são resolvidos de forma graciosa por nosso modelo: eles aparecem borrados de uma maneira que remete ao efeito motion blur”.

Mas é claro, o resultado final — aos olhos de quem não sabe o trabalho que deu para criá-lo — pode não parecer tão diferente de um timelapse qualquer. Mas saber que muito do vídeo é criado do nada por um algoritmo, faz um tour banal do Street View parecer extraordinário.

Novo algoritmo do Google cria vídeos completos baseado em poucas fotografias

Kelsey Campbell-Dollaghan

Motorola Moto G23 com áudio Dolby Atmos sai 38% OFF

Cadeira de presidente revestida em couro sintético e estrutura cromada sai 20% OFF

Ventilador de torre com 4 velocidades e oscilação horizontal sai 22% OFF

iPhone 15 Pro Max 256GB feito em titânio aeroespacial sai até R$ 2.700 OFF

Samsung A35 5G com memória expansível de 256GB e 8GB de RAM sai 41% OFF no Pix

Xbox Series S renderiza gráficos em 8K e proporciona jogo em até 120 FPS sai 14% OFF

5 em 1: fritadeira Elétrica Rita Lobo com 12L sai 31% OFF

Monitor UltraGear com tela de 24″ 180Hz e sRGB 99% sai até R$ 240 OFF

JBL Tune 520BT com bateria de até 57 horas e Bluetooth 5.3 sai por menos de R$ 250

Realme C65 com tela grande de 6,7″ e carregador 45W sai 45% OFF

Novo algoritmo do Google cria vídeos completos baseado em poucas fotografias

fique por dentro das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas

fique por dentro
das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas