Precisão não é tudo: como um teste em clínicas reais revelou limitações de IA do Google

IA do Google diagnostica com 90% de precisão a retinopatia diabética, mas conexão de internet e imagens ruins dificultaram o trabalho de enfermeiros.

Giovanni Santa Rosa

4 anos atrás

Um dos usos mais promissores da inteligência artificial é na saúde. Aqui mesmo nós noticiamos com alguma frequência que um novo algoritmo foi capaz de diagnosticar doenças com precisão igual ou melhor do que a de especialistas. Porém, testes em laboratório são bem diferentes de condições reais de uso, e um caso real na Tailândia mostra que mesmo uma tecnologia com boa precisão pode ser ineficiente no dia a dia de uma clínica, como revela um novo estudo.

O ministro da saúde da Tailândia determinou uma meta anual: examinar 60% dos pacientes com diabetes no país para verificar retinopatia diabética — uma condição que, se não diagnosticada precocemente, pode levar à perda total da visão. O problema é que o país tem apenas 200 especialistas em retina para um total de 4,5 milhões de pacientes. Por causa desse gargalo, o resultado de uma análise de um exame feito por um enfermeiro pode levar de quatro a cinco semanas.

A ideia, então, foi empregar uma inteligência artificial do Google em 11 clínicas no país para testar como elas se sairiam antes de adotá-las em todo o país. Enfermeiros nessas clínicas capturavam imagens do fundo do olho dos pacientes e usavam a IA para avaliar o caso. O algoritmo parecia promissor, já que tinha uma precisão de 90% no diagnóstico da retinopatia diabética, dando o resultado em apenas alguns minutos.

Quando tudo correu bem, a inteligência artificial tornou o processo muito mais rápido. Mas isso nem sempre aconteceu.

O algoritmo havia sido treinado com imagens de alta qualidade, ele rejeitava as que não tinham o nível desejado. Como os enfermeiros tinham que fazer dezenas de exames por hora e as condições de iluminação para capturar as imagens não eram sempre as ideias, mais de um quinto das imagens eram rejeitadas.

O protocolo também estabelecia que pacientes com imagens rejeitadas precisariam ser consultados com um especialista, em outra clínica, dia e horário — uma dor de cabeça para quem morava longe, precisava trabalhar ou não tinha carro. Os próprios enfermeiros achavam isso desnecessário, pois algumas das imagens que a IA não conseguia analisar não mostravam sinais de doença. Então, eles perdiam tempo tentando tirar novas fotos ou editar a imagem.

Outra dificuldade é que todo o processamento da inteligência artificial era feito na nuvem, dependendo de internet. Quando a conexão estava ruim, o trabalho ficava todo atrasado e pacientes precisavam esperar por horas.

A equipe do Google Health responsável pela inteligência artificial está estudando novos fluxos de trabalho para evitar que estes problemas se repitam em testes futuros. Os enfermeiros, por exemplo, poderiam avaliar as imagens para determinar se é o caso de encaminhar ou não o paciente a um especialista. O algoritmo também pode ser treinado para lidar melhor com imagens de qualidade mais baixa.

Mesmo assim, o caso revela como a precisão não deve ser o único critério para avaliar uma ferramenta desse tipo — e talvez ela nem seja tão importante assim. Especialistas ouvidos pela MIT Technology Review dizem que médicos discordam o tempo todo sobre diagnósticos, então as inteligências artificiais precisam aprender a lidar com a incerteza e discuti-la em vez de descartá-la.

Eles também dizem que ferramentas desse tipo precisam ser desenvolvidas levando em consideração suas condições reais de uso, e que a participação de pesquisadores com experiência em atendimentos de saúde é fundamental. Assim, elas podem se tornar realmente úteis.

[MIT Technology Review, TechCrunch]