Criadora do ChatGPT, a OpenAI lançou, nesta quinta-feira (15), um novo modelo de inteligência artificial generativa: Sora. Com ele, é possível gerar vídeos em alta resolução de até um minuto a partir de comandos em texto.
Por enquanto, a ferramenta está disponível apenas para um pequeno grupo de pesquisadores, artistas visuais, designers e cineastas. Esse grupo seleto de usuários deve analisar o modelo para descobrir possíveis problemas e riscos durante o uso.
Sora é capaz de gerar vídeos complexos de até 60 segundos
O Sora, que significa “céu” em japonês, vai demorar para ficar disponível para o público geral. Com promessa de ser bastante poderoso, o modelo que transforma textos em vídeos é capaz de entender os mínimos detalhes inclusos nos comandos.
“Sora é capaz de gerar cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos tanto no primeiro quanto no segundo plano. O modelo entende não apenas o que o usuário pediu no comando, mas também como essas coisas existem no mundo físico.
O modelo tem um profundo conhecimento da linguagem, o que lhe permite interpretar com precisão as instruções e gerar personagens atraentes que expressam emoções vibrantes. Sora também pode criar várias tomadas em um único vídeo gerado que mantém com precisão os personagens e o estilo visual”.
OpenAI.
Exemplos de vídeos gerados com o Sora
A OpenAI compartilhou nas redes sociais alguns vídeos criados a partir do Sora, junto aos comandos usados para gerar os materiais. Alguns exemplos são:
- Prompt: “A linda e nevada cidade de Tóquio está movimentada. A câmera se move pelas movimentadas ruas da cidade, acompanhando diversas pessoas aproveitando o lindo clima de neve e fazendo compras nas barracas próximas. Lindas pétalas de sakura estão voando ao vento com flocos de neve”.
- Prompt: “Vários mamutes peludos gigantes se aproximam caminhando por um prado nevado, seu longo pelo lanoso balança levemente ao vento enquanto caminham, árvores cobertas de neve e montanhas cobertas de neve dramáticas ao longe, luz do meio da tarde com nuvens finas e um sol alto a distância cria um brilho quente, a visão baixa da câmera é impressionante, capturando o grande mamífero peludo com uma bela fotografia e profundidade de campo”.
- Prompt: “A cena animada apresenta um close-up de um monstro pequeno e fofo ajoelhado ao lado de uma vela vermelha derretida. O estilo artístico é 3D e realista, com foco em iluminação e textura. O clima da pintura é de admiração e curiosidade, enquanto o monstro olha para a chama com olhos arregalados e boca aberta. A sua pose e expressão transmitem uma sensação de inocência e diversão, como se estivesse a explorar o mundo à sua volta pela primeira vez. O uso de cores quentes e iluminação dramática realça ainda mais a atmosfera aconchegante da imagem”.
O Sora não é perfeito
Assim como todos os modelos de inteligência artificial generativa, o Sora não é perfeito. Em um dos exemplos disponíveis no site da OpenAI, o comando pede um vídeo de um “cachorro dálmata olhando por uma janela e pessoas caminhando e andando de bicicleta pelas ruas do canal”. Porém, a ferramenta omite totalmente as pessoas e as ruas no vídeo.
Segundo a OpenAI, o modelo tem dificuldade para entender causa e efeito. É possível, por exemplo, ter um vídeo em que uma pessoa morde um biscoito, mas o biscoito não fica com marcas de mordida.
O Sora não é o primeiro modelo que transforma textos em vídeos. Outras empresas, como Meta, Google e Runway, também têm ferramentas parecidas. Contudo, nenhuma delas é capaz de gerar vídeos inteiros com até 60 segundos de uma só vez.
OpenAI quer evitar mau uso do Sora
A OpenAI ainda disse estar trabalhando com especialistas que estudam desinformação, conteúdo de ódio e preconceito para testar a plataforma antes de liberar ao público. A empresa também prometeu lançar ferramentas capazes de detectar vídeos gerados pelo Sora e incluir metadados nos vídeos para facilitar a detecção.