Meta desenvolve IA com “dados sensoriais”; entenda

Por Julia Possa11 de maio de 2023 às 10:483 minutos de leitura

A Meta anunciou na terça-feira (9) o ImageBind, um novo modelo de IA (inteligência artificial) de código aberto capaz de gerar fluxos de dados em texto, áudio, imagens, unidades de medição térmica e de movimento.

Por enquanto, o modelo da gigante tech não passa de um projeto de pesquisa sem aplicação prática, mas há potencial de que, no futuro, sistemas de IA generativa possam criar experiências mais imersivas e multissensoriais.

Segundo a Meta, o ImageBind é o primeiro a combinar cinco tipos de dados em um único espaço de incorporação. São eles:

Dados textuais: gera textos assim como o Bing IA e ChatGPT
Dados de áudio: áudios gerados automaticamente, a partir de comandos de texto ou associação por imagens
Dados visuais: gera imagens estáticas e em vídeo, por associação com áudios e texto
Dados térmicos e de movimento: sistema faz leitura de imagens infravermelhas e analisa ambiente em IMU (unidade de medição inercial)
Dados de profundidade: análise de ambientes e objetos em 3D

A ideia é que, no futuro, sistemas de IA consigam fazer referência cruzada a todos esses dados da mesma forma que plataformas atuais, como o ChatGPT, fazem com as entradas de texto.

Um exemplo de aplicação é pedir para que o sistema simule uma viagem marítima. Nesse sentido, a IA não mostraria apenas o navio ou o barulho ambiente, mas também o balanço das ondas e a temperatura do ar sobre o oceano.

Parece uma utopia futurista, mas o conceito central da pesquisa já existe nas plataformas mais populares de IA generativa. Geradores de imagem como DALL-E, Midjourney e Stable Diffusion dependem de sistemas que vinculam texto e imagens desde o treinamento.

Como isso é possível?

De modo geral, essas IAs procuram padrões em dados visuais e conectam informações às descrições das imagens. Assim, permitem que a tecnologia crie imagens que obedecem aos comandos dos usuários. O mesmo vale para outras plataformas.

Segundo a Meta, o fluxo de entrada sensorial pode entrar nos modelos futuros, incluindo “toque, fala, cheiro e sinais cerebrais de ressonância magnética (fMRI)”.

“[A pesquisa] traz as máquinas um passo mais perto da capacidade dos humanos de aprender simultaneamente, de forma holística e diretamente de muitas formas diferentes de informação” – Meta

Apesar do conceito já existir nos sistemas atuais, a proposta da Meta soa bastante especulativa e é improvável que a aplicação da pesquisa aconteça tão rápido. Mas também não é algo impossível.

Pesquisadores da Universidade da Cidade de Hong Kong, por exemplo, acabam de desenvolver uma interface que reproduz cheiros na realidade virtual. O wearable é flexível e sem fio e consegue reproduzir com precisão cheiros como lavanda, abacaxi e chá verde, como mostra artigo publicado na terça-feira (9).

Seria um passo para tentar recuperar a relevância do metaverso? Difícil dizer, mas analistas elogiaram a postura da Meta em abrir o código do projeto, visto que os concorrentes OpenAI e Google tornam seus modelos de IA cada vez mais sigilosos.

Julia Possa

Jornalista e mestre em Linguística. Antes trabalhei no Poder360, A Referência e em jornais e emissoras de TV no interior do RS. Curiosa, gosto de falar sobre o lado político das coisas - em especial da tecnologia e cultura. Me acompanhe no Twitter: @juliamzps