Na semana passada viralizou artigo da Nature com o título “Retire Statistical Significance”, o qual traz reflexão crítica a respeito do dogmatismo estatístico. Neste texto, apresentarei dois lados da mesma moeda. De um lado, o valor da reflexão trazida pelos autores, do outro lado, consequências não intencionais da aposentadoria do conceito de significância estatística. O primeiro ponto de vista tem relação com o viés da superestimativa do valor, o segundo ponto guarda relação com o viés do positivismo.
O conceito de significância estatística é dicotômico, ou seja, categoriza a análise em positiva ou negativa. Categorizar traz utilidade pragmática, porém toda categorização é um reducionismo arbitrário. Ao categorizar por questões pragmáticas, deveríamos entender categorias como algo de menor valor do que a visão do todo. O paradoxo da categorização ocorre quando passamos a valorizar mais a informação por esta ser categórica do que uma informação contínua. A informação contínua aceita os tons de cinza, o intermediário, a dúvida, enquanto a categórica traz um tom (pseudo) definitivo à afirmação.
Estatística é o exercício de reconhecer a incerteza, a dúvida, o acaso. A definição de significância estatística foi originalmente criada para dificultar afirmações decorrentes do acaso. O intervalo de confiança foi criado para descrever a imprecisão de nossas afirmações. Estatística é o exercício de integridade e humildade do cientista.
No entanto, o paradoxo da categorização traz um certo dogmatismo. Primeiro, os autores do artigo da Nature apontam a supervalorização de resultados negativos. Na recente postagem “o sentido de estudos negativos” abordei exatamente isso: estudo negativo não é o que comprova inexistência, o que seria impossível; simplesmente, é um estudo que não comprovou existência. Portanto, a rigor “ausência de evidência não é evidência de ausência” como disse Carl Sagan (frase muito boa, porém sequestrada por crentes). Ou seja, “o estudo comprovou que não existe diferença” não é a melhor forma de colocar, melhor é “o estudo não comprovou diferença”.
Não devemos confundir esta colocação com a ideia de que um estudo negativo não quer dizer nada. Tem valor e tem impacto. O impacto de um estudo negativo (P > 0.05) está na redução da probabilidade de o fenômeno existir. Na medida em que bons estudos não conseguiram comprovar, a probabilidade do fenômeno vai caindo a ponto de ficar tão baixa que não vale mais a pensa continuar tentando provar, ficaremos com a hipótese nula como o caminho de pensamento mais provável.
Um estudo negativo não é necessariamente contraditório com um estudo positivo. Pode ser que o resultado dos dois seja o mesmo, apenas um não conseguiu rejeitar a hipótese nula e outro estudo conseguiu rejeitar. Um não conseguiu ver e outro conseguiu ver. Na verdade, como discuti na postagem "estudo positivo versus negativo", na maioria das vezes apenas um dos dois estudos está correto.
Por fim, o paradoxo da categorização faz com que acreditemos em qualquer significância estatística, embora a maioria seja falso positivo (Ioannidis). P < 0.05 não é comprovação irrefutável. Estudos subdimencionados, multiplicidade de análises secundárias, vieses podem fabricar falsa significância estatística.
Na verdade, o valor preditivo (negativo ou positivo) de estudos não reside apenas na significância estatística. Depende da qualidade do estudo e da análise, do ecossistema científico e da probabilidade pré-teste da ideia.
Portanto, os autores do artigo da Nature estão corretos criticar a visão determinística da significância estatística.
Mas será que devemos mesmo aposentar significância estatística?
Seria aposentar um advento que historicamente foi responsável por uma grande evolução de integridade científica. No entanto, tudo que é bom tende a ser sequestrado. E artistas da falsa positivação de estudos sequestraram o advento do valor de P (feito para dificultar o erro tipo I) para provar coisas falsas.
Se por um lado a aposentadoria da significância estatística evitaria o paradoxo da categorização, por outro lado abriria espaço para o viés da positividade, nosso tropismo por criar ou absorver informações positivas.
A crítica à significância estatística, neste e em outros artigos da moda, não trazem uma alternativa melhor. Por exemplo, o próprio autor do trabalho do Nature reconhece que outras abordagens estatísticas mais recentes (bayesiana, por exemplo) não abandona o paradigma da categorização. Inclusive, em certas passagens os autores mencionam que não propõem um total abandono da noção de significância estatística. Na minha visão, o título não está de acordo com o verdadeiro teor do artigo. Acho que faltou uma interrogação no título: "Retire Statistical Significance?"
Hoje se fala muito mais em integridade científica do que há duas décadas. Mas ao abordar esse assunto com mais ênfase do que no passado, parece que este é um problema pior nos dias de hoje. Não é o caso. Experimentamos clara evolução de integridade científica: conceitos de multiplicidade são mais discutidos do que no passado, ensaios clínicos têm obrigatoriamente seus desenhos publicados a priori, normas CONSORT de publicação são exigidas por revistas, fala-se muito mais em transparência científica, open science, slow science. Estamos evoluindo. E o primeiro passo da integridade foi a criação da noção de significância estatística na primeira metade do século passado por Ronald Fisher.
Trabalho publicado na PLOS One (Bob Kaplan) analisou durante um longo período de anos os resultados de ensaios clínicos financiados pelo NIH. Antes do ano 2000, quando não havia a necessidade de publicar previamente o protocolo, a frequência de estudos positivos era 57%, caindo para apenas 7% de estudos positivos após a regra de publicação a priori. Antes os autores positivavam seus estudos por análises múltiplas a posteriori. Hoje isso está muito melhorado pela obrigatoriedade de publicação a priori.
Parece que virou elegante criticar o valor de P, o que parece traição com um advento de grande importância histórica e que até agora não encontrou um substituto melhor. Não é culpa do P ter sido sequestrado por pesquisadores mal intencionados. É culpa dos pesquisadores.
Portanto, proponho manter o valor de P e adotar as seguintes medidas:
- Descrever o valor de P apenas quando o estudo tiver uma dimensão adequada para o teste de hipótese. Do contrário, este ganharia um caráter mais descritivo, sem utilizar associações para testes de conceitos. Isso evitaria falso positivos decorrentes de “estudos pequenos”, a maioria dos artigos publicados. Para se ter uma ideia, a mediana do poder estatístico de estudos em biomedicina é 20%.
- Não descrever o valor de P em análises de desfechos secundários.
- Em análises de subgrupo (exploratórias), utilizar apenas o P da interação (mais conservador e difícil de dar significativo), evitando o valor de P obtido pela comparação dentro de um subgrupo (estudos pequenos).
- Incluir no CONSORT a obrigatoriedade de autores explicitarem no título de subestudos que aquela é uma análise exploratória e secundária de um estudo previamente publicado.
- Abandonar o termo significância estatística, substituindo-o por veracidade estatística. Estatística é utilizada para diferenciar associações causais verdadeiras de pseudocausalidades mediadas pelo acaso. Portanto um valor de P < 0.05 conota veracidade. Se a associação é significante (relevante), depende da descrição da diferença numérica ou das medidas de associação de desfechos categóricos. Utilizemos, portanto, veracidade estatística, isso evitará a confusão entre significância estatística e significância clínica.
Finalmente proponho o advento do índice de integridade do pesquisador.
Este índice será calculado pela razão entre o número de estudos negativos / número de estudos positivos. Um índice de integridade < 1 indica um pesquisador de integridade questionável. Este índice se baseia na premissa de que a probabilidade de uma boa hipótese ser verdadeira é menor do que 50%. Portanto, deveria haver mais estudos negativos do que estudos positivos. Isto não ocorre devidos às técnicas de positivação de estudos (pequenos trabalhos, multiplicidades, vieses, spin de conclusões) e pelo viés de publicação que esconde os estudos negativos. Um autor íntegro seria aquele não utiliza destas práticas, portanto teria vários estudos negativos e poucos positivos, resultando em índice de integridade bem superior a 1.
O artigo da Nature foi útil para promover reflexão sobre pros e cons da significância estatística. Mas não chega a propor aposentadoria. Seria como aposentar um daquelas pessoas ainda muito produtivas. Pelo contrário, que a significância estatística continue atuante e evoluindo progressivamente na forma de utilização. A tese de doutorado do meta-cientista Diego Rabelo, orientado por mim, tem como objetivo a criação e validação deste índice. Teremos resultados em breve.
Que aprendamos a valorizar também um P > 0.05. Afinal, a imprevisibilidade da vida é representada por esta simbologia, boa parte do nosso destino é mediado pelo acaso.
Ou nada é por acaso?
Acesse nosso Curso Online de MBE, clicando aqui.
Ou nada é por acaso?
--------------------------------------------------------------------------------------------------------------------------
Acesse nosso Curso Online de MBE, clicando aqui.