_Ciência

Pesquisadores querem padrões mais altos em resultados científicos para evitar falsos positivos

Um novo debate agora está pegando fogo, sobre um dos conceitos importantes da ciência: como decidimos o que constitui um resultado positivo.

“Ciência” pode significar algo maluco para você, como novos tratamentos inovadores, novos animais incríveis, explosões no espaço ou alguma química maluca. Mas, em sua essência, a ciência nada mais é do que o descarte de hipóteses baseado em evidências. Um novo debate agora está pegando fogo, sobre um dos conceitos importantes da ciência: como decidimos o que constitui um resultado positivo.

• Tardígrados ainda são um completo mistério evolutivo
• Contagens de esperma têm decaído entre os homens ocidentais, cientistas confirmam

No centro do debate está o conceito de “significância estatística”. Muito da ciência envolve testar um grupo de controle contra um experimento, como um dado contra um dado ponderado. A “hipótese nula” significa que o resultado experimental foi exatamente o mesmo que o de controle. “Estatisticamente significante”, por outro lado, significa que, depois de coletar todos os dados, o experimento e o grupo de controle foram diferentes o bastante e a amostra grande o bastante para que a hipótese nula possa ser razoavelmente descartada. Em outras palavras, o tratamento experimental teve um efeito real e mensurável.

Atualmente, cientistas medem a significância estatística usando um número chamado de valor-p: se o valor-p for menor que 0,05, isso significa que existe uma chance de 5% de que o grupo de controle sozinho teria produzido os resultados que o experimento produziu. Mas um número crescente de pesquisadores não está confortável com esse valor de 0,05, e uma equipe está agora propondo a redefinição da significância estatística para um valor-p de 0,005 — apenas 0,5% de chances do grupo de controle produzir os resultados observados no experimento. Resumindo, esses pesquisadores estão pedindo que os cientistas adotem padrões muito mais altos para o que eles consideram resultados “reais”.

Isso poderia ter implicações em experimentos de diversos campos, como biologia e medicina, e poderia exigir que cientistas trabalhem muito mais para provar suas hipóteses.

“A falta de reprodutibilidade de estudos científicos causou preocupação crescente sobre a credibilidade de alegações de novas revelações baseadas em descobertas ‘estatisticamente significantes'”, escreve um grupo de 72 cientistas em um artigo que será publicado no periódico Nature Human Behavior. “[…] Acreditamos que uma causa principal para a não-reprodutibilidade ainda não foi tratada: os padrões estatísticos de evidência para alegação de novas descobertas em muitos campos da ciência são simplesmente muito baixos. Associar descobertas ‘estatisticamente significantes’ com P < 0,05 resulta em uma alta taxa de falsos positivos.”

Os pesquisadores admitem que definir a significância estatística como 0,005 é tão arbitrário quanto usar 0,05 — é apenas um limite usado para reduzir a probabilidade de falsos positivos em um experimento. Mas pense: a física de partículas usa um valor-p de p=0,0000003, de acordo uma publicação de blog da Scientific American. Isso significa que, em um experimento de física de partículas, quando cientistas comparam seu grupo de controle (as leis da física sem a nova partícula) com o experimento (as leis da física incluindo a nova partícula), tem apenas uma chance de 0,0003% de que as leis da física sem a nova partícula produzam os resultados que eles obtêm. A física de partículas não permite a entrada de novas partículas facilmente.

Os pesquisadores chamam atenção para o fato de que adotar um valor-p mais rigoroso como padrão para significância estatística ofereceria muito mais trabalho para os cientistas — eles precisariam coletar 70% mais dados, de acordo com o novo artigo, já que coletar mais dados é um jeito de fazer o experimento se destacar melhor em relação ao grupo de controle. A mudança de limite para a significância estatística também não combateria a “p-hacking”, prática controversa em que um cientista testa múltiplas hipóteses ao mesmo tempo, na esperança de que uma delas acabe com um valor-p menor do que 0,05 baseado puramente em sorte ou em outros vieses. Eles também apontam que estudos com valores-p maiores que 0,05 e menos que 0,05 deveriam ser rotulados como “evidência sugestiva”.

Obviamente, tem muito a se discutir. O microbiólogo Jonathan Eisen, da Universidade da Califórnia em Davis, disse, em um post de blog, que não tinha “100% de certeza” se apoiava o valor-p revisado. Afinal, coletar mais dados custa mais dinheiro e leva mais tempo. Alguns se preocuparam com como isso poderia afetar os custos de testes de medicamentos, como noticia a Science, ou que isso era o “menor de nossos problemas” na ciência, em nossa era atual na história, como escreveu o psicólogo Timothy Bates, da Universidade de Edimburgo, em um outro post de blog.

A essa altura, sabemos que existe uma crise de reprodutibilidade na ciência. Aqueles tentando obter os mesmos resultados que os estudos anteriores de câncer e psicologia estão chegando sem os efeitos relatados. Então, por enquanto, saiba apenas que existe uma conversa fermentando para resolver isso, e o pessoal quer ver uma mudança.

[PsyArXiv via Science]

Imagem do topo: Daniel Dionne/Flickr

Sair da versão mobile