Um dos momentos mais perturbadores de 2001: Uma Odisseia no Espaço de Stanley Kubrick é quando é revelado que o HAL 9000 consegue ler lábios, acabando com os segredos entre os astronautas e o computador da nave. Isso pode ter sido só ficção científica até agora, mas 15 anos depois dos eventos do filme, pesquisadores do mundo real finalmente ensinaram leitura labial a computadores.
O LipNet, desenvolvido por pesquisadores do Departamento de Ciência da Computação da Universidade de Oxford, no Reino Unido, não é o primeiro software projetado para prever o que uma pessoa está dizendo com base na análise do movimento labiais. Mas ele é até agora o mais preciso de todos, atingindo impressionantes 93,4% de precisão, comparado com apenas 52% de precisão que um humano experiente em leitura labial consegue atingir.
Qual é o segredo que faz o LipNet ser tão bom na leitura labial? Eis como os pesquisadores explicam a sua tecnologia:
Leitura labial é a tarefa de decodificar texto a partir do movimento da boca de quem fala. Abordagens tradicionais separam o problema em duas etapas: projetando ou aprendendo características físicas, e com previsão. As abordagens de leitura labial mais recentes são treináveis ponta a ponta (Wand et al., 2016; Chung & Zisserman, 2016a). Todos os trabalhos existentes, no entanto, realizam apenas classificação de palavras, não previsão de sequência em nível de frases. Estudos mostraram que o desempenho da leitura labial humana melhora para palavras longas (Easton & Basala, 1982), indicando a importância de recursos de captura de contexto temporal em um canal de comunicação ambígua. Motivados por essa observação, apresentamos o LipNet, um modelo que mapeia uma sequência de comprimento variável de quadros de vídeo em texto, usando circunvoluções espaçotemporais, uma rede recorrente neural LSTM, e treinada inteiramente de ponta a ponta.
Mas o que isso significa em português claro? Com base em pesquisas antigas, os cientistas da computação perceberam que humanos são melhores para leitura labial e entendimento do que está sendo dito quando palavras longas são faladas. Então em vez de analisar imagens de uma pessoa falando palavra por palavra, o LipNet vai um passo adiante e considera frases inteiras, usando técnicas de Deep Learning para decifrar cada palavra.
E o que isso significa fora do mundo acadêmico? Rodando em um smartphone, a partir de imagens capturadas por uma câmera presa ao corpo da pessoa, o LipNet poderia servir como uma ferramenta excelente para pessoas com deficiência auditiva.
Mesmo se eles já souberem fazer leitura labial, pode ajudar o entendimento enquanto observa alguém falar. E para aqueles sem habilidades de leitura labial, vai embora aquela frustração quando a pessoa com quem eles tentam falar não entendem língua de sinais.