IAs não conseguem recriar mãos humanas de forma fiel. Mas por quê?
Ainda que inteligências artificiais consigam criar imagens fiéis à realidade, inclusive de humanos que não existem, elas ainda têm muita dificuldade para reproduzir algumas coisas. E, nessa lista de fracassos, estão as nossas mãos. Duvida? É só ver a imagem abaixo.
Vale desenterrar estas fotos divulgadas no início do ano, geradas pelo aplicativo Midjourney. As imagens, que bombaram no Twitter, mostram pessoas em uma festa, e imitam o estilo de fotografias antigas.
Humans created #AI. Now AI is creating humans? 🤔 Say hello to our newest virtual friends, generated with #MidJourney by Twitter user mileszim! 🤖👉 https://t.co/70zM2iuhJB #AIart #artificialintelligence pic.twitter.com/waT8JGCDOO
— Rediminds, Inc (@rediminds) January 31, 2023
As fotos parecem realistas. Porém, em todas elas, os dentes, as mãos e dedos das pessoas ficaram bem esquisitos, o que chamou a atenção.
don't feel bad if you can't draw hands, even AI can't do it pic.twitter.com/89xEEQQvWv
— pikat 🇭🇰 (@pikatl) June 22, 2022
Meses depois do primeiro choque, plataformas como Midjourney, Stable Diffusion e DALL-E são capazes de gerar fotos cada vez mais realistas. Isso envolve copiar rostos de celebridades e substituir planos de fundo de imagens de forma transparente, entre vários outros milagres.
Mas o problema das mãos permanece. Afinal, por que a IA continua deixando as mãos tão deformadas? Tem alguns motivos, como vamos ver abaixo.
Complexidade das mãos humanas
Em um vídeo produzido pelo Vox, é possível entender de forma didática alguns dos principais fatores que levam a essa limitação persistente da IA.
Para nós, parece algo simples. Mas, na verdade as mãos, pés e dedos humanos podem ser estruturas difíceis para a tecnologia entender. Isso se deve, em parte, à complexidade da anatomia humana, que dificulta a sua replicação em um modelo de IA.
Cada dedo tem muitas articulações que devem ser capturadas com precisão para que a mão pareça natural. Ainda há detalhes a serem desenhados de poses de mão “relaxadas”, como vincos e dobras nas juntas, sombreamento da palma e assim por diante. E tudo isso muda conforme a posição da mão na imagem e a ação que a pessoa está desempenhando.
Do comprimento e largura dos dedos às articulações do punho, a mão humana tem aproximadamente 30 pontos de variação geométrica. Por isso, o formato da mão de uma pessoa pode servir como uma identificação biométrica mais confiável do que suas características faciais, inclusive.
Até mesmo os seres humanos têm dificuldade para ilustrar as mãos. Por essa e outras razões, a maioria das mãos dos desenhos animados apresenta apenas três dedos e um polegar, para facilitar o trabalho dos artistas visuais e designers, e dar um ar menos artificial.
Erros nas mãos são muito perceptíveis
Existe também o fato de que qualquer “errinho” no desenho das mãos, por menor que seja, é muito perceptível. Um detalhe de um dedo retratado incorretamente já dá um ar estranho à imagem, perdendo o caráter humano e passando um ar de aberração.
Tem outra: quase nunca as imagens geradas por IA são perfeitas. Normalmente, as fotos vêm com pequenos erros ou detalhes imprecisos. Acontece que isso não é um problema quando se trata de um prédio ou uma peça de roupa, por exemplo. No caso das mãos, isso pode ser um grande problema e tornar a imagem bizarra.
A forma e o tamanho das mãos podem variar muito de pessoa para pessoa, e mesmo pequenas mudanças no posicionamento dos dedos ou na curvatura do pulso podem alterar significativamente a expressão da mão e deformá-la.
Bases de dados precisam melhorar
Essencialmente, os geradores de IA identificam as mãos com base no arranjo e combinações de pixels, mas não conseguem entender o que está além de sua representação visual.
Parte do problema é que a maioria das imagens existentes de pessoas reais não tem o foco em suas mãos, necessariamente. Algumas fotos podem ser concentradas nas mãos e dedos, mas há muito mais rostos do que mãos “disponíveis” para o algoritmo aprender, por exemplo.
Não há uma abundância tão grande de dedos e mãos para a IA processar. E, para aprender, essa tecnologia depende de referências. Se as bases de dados usadas para alimentar os modelos de IA tivessem mais fotografias e vídeos de mãos humanas, talvez essas ferramentas teriam condições de aprender mais sobre nossa anatomia.
Além disso, a criação de uma mão envolve diversos aspectos que variam entre o entendimento da função do membro e a própria subjetividade humana, o que torna o processo ainda mais desafiador.
— no context memes (@weirddalle) January 22, 2023
A inteligência artificial (ainda) não consegue fazer tudo
Nossas expectativas de aprendizado de máquina às vezes são irrealistas. Essa tecnologia é relativamente nova e está em pleno desenvolvimento. Estamos aperfeiçoando a arte de esboçar mãos há milhares de anos.
Um artista humano pode precisar de vários dias ou talvez semanas para completar uma mão realista. Ao avaliar a IA, devemos ter isso em mente, e não ter expectativas muito altas. Embora a atual tecnologia de IA tenha o potencial de fornecer visuais impressionantes, é importante lembrar que ela ainda está sendo aprimorada.
Como “consertar” mãos deformadas pela IA?
Se você utiliza a IA frequentemente para gerar imagens de pessoas, algumas estratégias podem lhe ajudar a obter resultados melhores, apesar da complexidade das mãos. A primeira dica é dar instruções claras à plataforma, para que ela entenda da melhor maneira possível o que você deseja. Forneça detalhes sobre a posição das mãos, por exemplo.
Uma outra possibilidade é tentar evitar mostrar as mãos das pessoas nas imagens, usando comandos que facilitem o trabalho da tecnologia. Caso você realmente não precise das mãos aparecendo, essa é uma estratégia possível.
Outra dica é fazer o upload de imagens de referência com as mãos aparecendo da forma que você deseja, caso a ferramenta que você utiliza tenha essa opção.