Meta desenvolve IA com “dados sensoriais”; entenda este novo passo

Novo modelo de IA da Meta é capaz de gerar fluxos de dados em texto, áudio, imagens, unidades de medição térmica e movimento. Saiba mais
Meta desenvolve IA com “dados sensoriais”; entenda este novo passo
Imagem: Meta/Reprodução

A Meta anunciou na terça-feira (9) o ImageBind, um novo modelo de IA (inteligência artificial) de código aberto capaz de gerar fluxos de dados em texto, áudio, imagens, unidades de medição térmica e de movimento. 

Por enquanto, o modelo da gigante tech não passa de um projeto de pesquisa sem aplicação prática, mas há potencial de que, no futuro, sistemas de IA generativa possam criar experiências mais imersivas e multissensoriais.

Segundo a Meta, o ImageBind é o primeiro a combinar cinco tipos de dados em um único espaço de incorporação. São eles: 

  • Dados textuais: gera textos assim como o Bing IA e ChatGPT
  • Dados de áudio: áudios gerados automaticamente, a partir de comandos de texto ou associação por imagens 
  • Dados visuais: gera imagens estáticas e em vídeo, por associação com áudios e texto
  • Dados térmicos e de movimento: sistema faz leitura de imagens infravermelhas e analisa ambiente em IMU (unidade de medição inercial) 
  • Dados de profundidade: análise de ambientes e objetos em 3D

A ideia é que, no futuro, sistemas de IA consigam fazer referência cruzada a todos esses dados da mesma forma que plataformas atuais, como o ChatGPT, fazem com as entradas de texto. 

Um exemplo de aplicação é pedir para que o sistema simule uma viagem marítima. Nesse sentido, a IA não mostraria apenas o navio ou o barulho ambiente, mas também o balanço das ondas e a temperatura do ar sobre o oceano. 

Parece uma utopia futurista, mas o conceito central da pesquisa já existe nas plataformas mais populares de IA generativa. Geradores de imagem como DALL-E, Midjourney e Stable Diffusion dependem de sistemas que vinculam texto e imagens desde o treinamento. 

Como isso é possível? 

De modo geral, essas IAs procuram padrões em dados visuais e conectam informações às descrições das imagens. Assim, permitem que a tecnologia crie imagens que obedecem aos comandos dos usuários. O mesmo vale para outras plataformas. 

Segundo a Meta, o fluxo de entrada sensorial pode entrar nos modelos futuros, incluindo “toque, fala, cheiro e sinais cerebrais de ressonância magnética (fMRI)”. 

“[A pesquisa] traz as máquinas um passo mais perto da capacidade dos humanos de aprender simultaneamente, de forma holística e diretamente de muitas formas diferentes de informação” – Meta 

Apesar do conceito já existir nos sistemas atuais, a proposta da Meta soa bastante especulativa e é improvável que a aplicação da pesquisa aconteça tão rápido. Mas também não é algo impossível. 

Pesquisadores da Universidade da Cidade de Hong Kong, por exemplo, acabam de desenvolver uma interface que reproduz cheiros na realidade virtual. O wearable é flexível e sem fio e consegue reproduzir com precisão cheiros como lavanda, abacaxi e chá verde, como mostra artigo publicado na terça-feira (9).

Seria um passo para tentar recuperar a relevância do metaverso? Difícil dizer, mas analistas elogiaram a postura da Meta em abrir o código do projeto, visto que os concorrentes OpenAI e Google tornam seus modelos de IA cada vez mais sigilosos. 

Julia Possa

Julia Possa

Jornalista e mestre em Linguística. Antes trabalhei no Poder360, A Referência e em jornais e emissoras de TV no interior do RS. Curiosa, gosto de falar sobre o lado político das coisas - em especial da tecnologia e cultura. Me acompanhe no Twitter: @juliamzps

fique por dentro
das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas