Usando tecnologia de escaneamento cerebral, inteligência artificial e sintetizadores de fala, cientistas converteram padrões cerebrais em fala verbal inteligível. No entanto, em vez de captar os pensamentos internos de um indivíduo para reconstruir a fala, a nova pesquisa — publicada esta semana na Scientific Avances — usa os padrões cerebrais produzidos ao escutar a fala.
Para elaborar tal neuroprótese de fala, o neurocientista Nima Mesgarani e seus colegas combinaram avanços recentes em aprendizagem profunda (também conhecida como deep learning) com tecnologias de síntese de fala. A interface cérebro-computador resultante, embora ainda rudimentar, capturou padrões cerebrais diretamente do córtex auditivo, que foram, então, decodificados por um vocoder, ou sintetizador de fala, com tecnologia de inteligência artificial.
Assim, foi possível produzir uma fala inteligível. O discurso foi muito robótico, mas três em cada quatro ouvintes foram capazes de discernir o conteúdo. É um avanço animador — que pode ajudar pessoas que perderam a capacidade de falar.
Para ser claro, o dispositivo neuroprostético de Mesgarani não está traduzindo a fala que está na cabeça de um indivíduo — ou seja, os pensamentos em nossas cabeças, também chamados de fala imaginada — diretamente em palavras. Infelizmente, ainda não chegamos lá em termos de ciência.
Em vez disso, o sistema capturou as respostas cognitivas distintas de um indivíduo enquanto ouvia gravações de pessoas falando. Uma rede neural profunda foi, então, capaz de decodificar ou traduzir esses padrões, permitindo que o sistema reconstruísse a fala.
“Este estudo segue uma tendência recente na aplicação de técnicas de aprendizagem profunda para decodificar sinais neurais”, disse Andrew Jackson ao Gizmodo. Jackson é professor de interfaces neurais da Universidade de Newcastle e não participou desse estudo. “Neste caso, os sinais neurais são registrados a partir da superfície do cérebro dos seres humanos durante a cirurgia de epilepsia. Os participantes ouvem diferentes palavras e frases lidas por atores. As redes neurais são treinadas para aprender a relação entre sinais cerebrais e sons. Como resultado, elas conseguem reconstruir reproduções inteligíveis das palavras e frases baseadas apenas nos sinais cerebrais.”
Pacientes com epilepsia foram escolhidos para o estudo porque, muitas vezes, têm que passar por uma cirurgia no cérebro. Mesgarani recrutou cinco voluntários para o experimento, com a ajuda de Ashesh Dinesh Mehta, neurocirurgião do Instituto de Neurociência da Northwell Health Physician Partners e coautor do novo estudo. A equipe usou eletrocorticografia invasiva (ECoG) para medir a atividade neural à medida os pacientes ouviam sons contínuos de fala. Os pacientes escutaram, por exemplo, falantes recitando dígitos de zero a nove. Seus padrões cerebrais foram, então, introduzidos no vocoder equipado com IA, resultando na fala sintetizada.
Os resultados foram muito robóticos, mas bastante inteligíveis. Nos testes, os ouvintes puderam identificar corretamente os dígitos falados em cerca de 75% do tempo. Eles conseguiram até dizer se o orador era masculino ou feminino. Nada mal, e um resultado que chegou a ser uma “surpresa” para Mesgarani, como ele disse ao Gizmodo em um e-mail.
As gravações do sintetizador de fala podem ser encontradas aqui — os pesquisadores testaram várias técnicas, mas o melhor resultado veio da combinação de redes neurais profundas com o vocoder.
O uso de um sintetizador de voz neste contexto, ao contrário de um sistema que pode combinar e recitar palavras pré-gravadas, foi importante para Mesgarani. Como ele explicou ao Gizmodo, há mais coisas na fala do que apenas juntar as palavras certas.
“Como o objetivo deste trabalho é restaurar a comunicação daqueles que perderam a capacidade de falar, procuramos aprender o mapeamento direto do sinal cerebral para o próprio som da fala”, disse ele ao Gizmodo. “É possível também decodificar fonemas [unidades distintas de som] ou palavras. No entanto, a fala tem muito mais informação do que apenas o conteúdo — como o locutor [com sua voz e estilo distintos], entonação, tom emocional e assim por diante. Portanto, nosso objetivo neste artigo em particular foi recuperar o som em si.”
No futuro, Mesgarani gostaria de sintetizar palavras e frases mais complicadas, e coletar sinais cerebrais de pessoas que estão simplesmente pensando ou imaginando o ato de falar.
Jackson ficou impressionado com o novo estudo, mas ele disse que ainda não está claro se essa abordagem se aplicará diretamente às interfaces cérebro-computador.
“No artigo, os sinais decodificados refletem palavras reais ouvidas pelo cérebro. Para ser útil, um dispositivo de comunicação teria que decodificar palavras que são imaginadas pelo usuário”, disse Jackson ao Gizmodo. “Embora haja frequentemente alguma sobreposição entre as áreas do cérebro envolvidas na audição, fala real e fala imaginada, ainda não sabemos exatamente em que medida os sinais cerebrais associados serão semelhantes.”
William Tatum, neurologista da Mayo Clinic que também não estava envolvido no novo estudo, disse que a pesquisa é importante porque é a primeira a usar a inteligência artificial para reconstruir a fala das ondas cerebrais envolvidas na geração de estímulos acústicos conhecidos. O significado é notável, “porque promove a aplicação da aprendizagem profunda na próxima geração de sistemas de produção de fala”, disse ele ao Gizmodo. Apesar disso, ele sentiu que o tamanho da amostra dos participantes era muito pequeno e que o uso de dados extraídos diretamente do cérebro humano durante a cirurgia não é o ideal.
Outra limitação do estudo é que as redes neurais, para que façam mais do que apenas reproduzir palavras de zero a nove, teriam que ser treinadas em um grande número de sinais cerebrais de cada participante. O sistema é específico do paciente, pois todos nós produzimos padrões cerebrais diferentes ao ouvir a fala.
“Será interessante ver como, no futuro, os decodificadores treinados para uma pessoa se generalizariam para outros indivíduos”, disse Jackson. “É um pouco como os sistemas de reconhecimento de fala iniciais, que precisavam ser treinados individualmente pelo usuário, ao contrário da tecnologia atual, como a Siri e a Alexa, que podem entender a voz de qualquer pessoa, usando também redes neurais. Só o tempo dirá se essas tecnologias poderão, um dia, fazer o mesmo para sinais cerebrais.”
Sem dúvida, ainda há muito trabalho a fazer. Mas o novo artigo é um passo encorajador para a criação de implantes neuroprostéticos de fala.