Racismo algorítmico pode prejudicar pacientes negros e pobres, revela estudo

Por Ingrid Oliveira23 de junho de 2021 às 13:1210 minutos de leitura

Um estudo realizado por pesquisadores da Universidade de Chicago descobriu que os algoritmos utilizados em bancos de dados de pacientes podem ser tendenciosos e causar danos em pacientes de etnias minoritárias ou de classe social desfavorecida. Os algoritmos ajudam os prontos-socorros dos hospitais na triagem dos pacientes e no rastreio de pessoas que podem desenvolver doenças como diabetes, por exemplo.

O pontapé para a pesquisa — com base no Center for Applied Artificial Intelligence da Booth School of Business da Universidade de Chicago — foi estabelecido após um estudo inicial ter descoberto o preconceito racial em um algoritmo utilizado e desenvolvido pela gigante de serviços de saúde Optum, que visava identificar os pacientes que mais precisavam de ajuda extra com seus problemas de saúde. Eles descobriram que o algoritmo, que usava previsões de custo para medir as necessidades de saúde, estava rotineiramente dando preferência a pacientes brancos em vez de pessoas de outras etnias que tinham problemas mais graves.

Apenas 18% dos pacientes que precisaram de atendimento intensivo eram negros, em comparação com 82% que eram brancos. Quando foram revisar o percentual de pacientes negros para prever o risco de doenças e não o custo, o algoritmo passou da metade.

A partir daí, os pesquisadores descobriram que existe uma lacuna nesses bancos de dados e uma falha em como eles são manejados, o que impacta as decisões sobre como os pacientes devem ser tratados. A pesquisa indicou que a tendência é comum em calculadoras de clínicas tradicionais e listas de verificação, assim como em algoritmos que usam estatísticas e inteligência artificial (IA) para fazer previsões ou automatizar certas tarefas.

O relatório, resultado de mais de três anos de pesquisa, apresenta um manual para lidar com esses preconceitos, conclamando as organizações de saúde a fazer um inventário de seus algoritmos, rastreá-los quanto a preconceitos e ajustá-los ou abandoná-los completamente se as falhas não forem corrigidos. “Há uma falha de mercado evidente”, disse à STAT o coautor do relatório e médico de emergência Ziad Obermeyer.

O estudo dependia da disposição das organizações de saúde em expor seus algoritmos a uma auditoria. Ele e outros pesquisadores examinaram o uso do índice no Hospital Brigham and Women’s em Boston. “Nossa abordagem geral foi ter curiosidade sobre o que estava acontecendo, e não rotular um grupo de provedores ou um processo como ruim”, disse à publicação Michael Wilson, médico de emergência da Brigham and Women’s que ajudou a conduzir o estudo. Segundo ele, esse é um problema natural sempre que há subjetividade. “Queríamos medir o viés e corrigi-lo”, completa.

Os impactos podem ser sentidos até mesmo no Índice de Gravidade de Emergência, que é utilizado para avaliar pacientes na maioria dos departamentos de emergência dos EUA e operam diversas buscas e transações de dados diariamente. O relatório sinaliza viés nos algoritmos para determinar a gravidade da osteoartrite do joelho; medir a mobilidade; prever o aparecimento de doenças como diabetes, doenças renais e insuficiência cardíaca; e identificar quais pacientes deixarão de comparecer às consultas ou podem se beneficiar de contatos adicionais para gerenciar suas condições.

O Índice de Gravidade de Emergência foi desenvolvido por médicos no final dos anos 1990. Ele agora pertence e é administrado pela Emergency Nurses Association (ENA), um grupo comercial que comprou os direitos do algoritmo alguns anos atrás. O site da associação disse que a ferramenta é usada para fazer a triagem de pacientes em cerca de 80% dos hospitais dos Estados Unidos.

“Embora a ENA leve a sério o foco do relatório sobre o viés em algoritmos, é importante observar que o viés potencial depende do usuário com base na interpretação de uma pessoa sobre o que um algoritmo apresenta”, disse o presidente da associação, Ron Kraus, em um comunicado à STAT. “Desde a aquisição em 2019, a ENA tem procurado continuamente caminhos para evoluir a forma como a triagem é realizada — inclusive por meio do uso de tecnologia, como inteligência artificial — para identificar o curso certo de tratamento para cada paciente com base apenas pela percepção — não em sua raça ou o custo do atendimento”, completou.

Ainda assim, o estudo também apontou falhas no Índice de Serviços de Emergência, que agrupa os pacientes com base na urgência de suas necessidades médicas. As avaliações são ainda mais negativas para pacientes negros, apesar de ser uma conclusão que reflete os resultados de pesquisas anteriores. Obermeyer e seus colegas descobriram a falha no armazenamento de dados causa impacto em pacientes negros de várias maneiras, diminuindo a gravidade de seus problemas em alguns casos e em outros sugerindo que eles estão mais doentes do que realmente são.

O médico revela que o índice sofre de uma falha encontrada em muitos dos algoritmos: ele se baseia em proxies, dados que são gradativamente diferentes do que os médicos estão tentando medir, introduzindo lacunas imperceptíveis nas quais os preconceitos muitas vezes se escondem. A ferramenta usa uma variedade de fatores para tomar decisões de triagem, como sinais vitais e os recursos que os pacientes podem necessitar ao receber cuidados. O pesquisador explica que é muito natural fazer atalhos e usar heurísticas, ou seja, estratégias que irão diminuir o tempo de tomada de decisão, apesar de levarem a vieses inconscientes.

Um exemplo disso é quando os médicos levam em conta que a pressão arterial da pessoa está boa, então ela não tem infecção com risco de vida, argumenta o médico, mesmo assim, ele destaca que é muito fácil esses atalhos darem errado.

Para Heather Mattie, professora de bioestatística e ciência de dados da Universidade de Harvard que não participou da pesquisa, ainda não dá para saber o quão ruim isso é ainda, mas ela acredita que os pesquisadores ainda vão descobrir muitos casos em que os algoritmos tendenciosos podem causar danos. Ela destacou que o relatório aponta um padrão duplo na medicina: embora as instituições de saúde examinem cuidadosamente os exames, nenhum processo desse tipo está em vigor para testar algoritmos comumente usados para orientar o atendimento a milhões de pessoas. “A menos que você mesmo faça isso, não há verificação de preconceito por parte dos especialistas na área”, alertou Mattie.

A questão com as seguradoras de saúde

O estudo acertou em cheio as seguradoras e a indústria de saúde em geral, que sentiram a necessidade de rever a metodologia utilizada. Dessa forma, os pesquisadores anunciaram planos para ampliar a investigação e convidaram organizações de saúde a enviar algoritmos para revisão. Os planos de saúde se tornaram os principais patrocinadores da equipe de pesquisa, que também avaliou o preconceito de dezenas de organizações, incluindo grandes provedores e startups de tecnologia de saúde.

A Harvard Pilgrim Health Care, um plano de saúde sem fins lucrativos em Massachusetts, também procurou os cientistas com a intenção de avaliar o potencial de parcialidade em seus esforços para identificar membros que poderiam se beneficiar de extensão e cuidados adicionais. Uma análise prévia apontou que um algoritmo, um modelo desenvolvido por terceiros para prever custos, coloca as pessoas com doenças crônicas, como diabetes, em um nível de prioridade mais baixo do que pacientes com doenças de alto custo, como câncer. Uma vez que o diabetes tem taxa mais alta entre pacientes negros, isso poderia levar a um resultado tendencioso, por exemplo.

A Harvard Pilgrim continua a analisar seus algoritmos, incluindo aqueles que se concentram na identificação de condições crônicas, para avaliar o viés e desenvolver uma estrutura para eliminá-lo em algoritmos existentes e futuros. Alyssa Scott, vice-presidente de informática médica do plano de saúde, disse à publicação que as falhas algorítmicas surgem do uso de previsões financeiras nas decisões sobre quem deve se qualificar para alcance adicional.

Essas previsões, embora precisas, geralmente refletem desequilíbrios históricos no acesso a cuidados e uso de serviços médicos, fazendo com que o preconceito borbulhe de forma difícil de detectar. “Se você não está ciente disso, surge um preconceito implícito que não é intencional”, esclarece Scott.

A vice-presidente disse que a empresa está tentando fazer reunir ideias para solucionar o problema, além de tentar informações extras para determinar se a metodologia é válida. Segundo ela, se descobrirem que há parcialidade nos algoritmos, a empresa fará ajustes para tentar equilibrar.

Outra empresa que procurou com os pesquisadores, foi uma startup com sede em Palo Alto, Califórnia, chamada SymphonyRM. Os cientistas descobriram que um algoritmo que foi desenvolvido para identificar pacientes que precisavam de uma consulta cardíaca não estava funcionando com precisão para pacientes negros e asiáticos. A empresa, que aconselha provedores sobre pacientes que precisam de atenção e cuidados adicionais, ajustou os limites de seu modelo para aumentar o alcance para esses grupos e está planejando conduzir um estudo de acompanhamento para examinar os resultados.

Chris Hemphill, vice-presidente de inteligência artificial aplicada da SymphonyRM, disse que o preconceito pode ser fruto de algumas escolhas técnicas. Por exemplo, ao ajustar um modelo para evitar alarmes falsos, pode-se deixar de identificar todas as pessoas que precisam de cuidados adicionais. Um ajuste na direção oposta — para garantir que todos em risco de um resultado negativo sejam identificados — poderia produzir mais alarmes falsos e cuidados desnecessários. Para Hemphill, se você não estiver fazendo uma auditoria -0 se não estiver procurando por viese — pode ter certeza de que está utilizando algoritmos tendenciosos. “Você pode ter um modelo com um desempenho muito bom no geral, mas quando você começa a dividi-lo por gênero e etnia, você começa a ver diferentes níveis de desempenho”, explicou.

A Food and Drug Administration, agência reguladora dos EUA, analisa alguns produtos algorítmicos antes de seu lançamento, porém a agência tende a focar os esforços em produtos que dependem de algoritmos de inteligência artificial em bancos de dados baseados em imagens, como radiologia, cardiologia e cuidados neurológicos. Contudo, uma lista de exames ficam sem verificação.

Obermeyer não acredita que há um acordo sobre como regular as informações de forma que garanta dados bons e precisos, como necessário. Ele recomenda que haja uma regulamentação adicional, já que a inovação no uso de dados de saúde está ultrapassando a capacidade dos reguladores de desenvolver métricas de desempenho semelhantes às usadas para avaliar medicamentos e dispositivos tradicionais.

Ainda assim, a supervisão dos algoritmos depende das empresas que detêm os dados. Elas são livres para decidir se exporão seus produtos a uma revisão externa ou não.

[STAT]