sábado, 30 de março de 2019

Devemos aposentar a significância estatística?


Na semana passada viralizou artigo da Nature com o título “Retire Statistical Significance”, o qual traz reflexão crítica a respeito do dogmatismo estatístico. Neste texto, apresentarei dois lados da mesma moeda. De um lado, o valor da reflexão trazida pelos autores, do outro lado, consequências não intencionais da aposentadoria do conceito de significância estatística. O primeiro ponto de vista tem relação com o viés da superestimativa do valor, o segundo ponto guarda relação com o viés do positivismo. 

O conceito de significância estatística é dicotômico, ou seja, categoriza a análise em positiva ou negativa. Categorizar traz utilidade pragmática, porém toda categorização é um reducionismo arbitrário. Ao categorizar por questões pragmáticas, deveríamos entender categorias como algo de menor valor do que a visão do todo. O paradoxo da categorização ocorre quando passamos a valorizar mais a informação por esta ser categórica do que uma informação contínua. A informação contínua aceita os tons de cinza, o intermediário, a dúvida, enquanto a categórica traz um tom (pseudo) definitivo à afirmação. 

Estatística é o exercício de reconhecer a incerteza, a dúvida, o acaso. A definição de significância estatística foi originalmente criada para dificultar afirmações decorrentes do acaso. O intervalo de confiança foi criado para descrever a imprecisão de nossas afirmações. Estatística é o exercício de integridade e humildade do cientista. 

No entanto, o paradoxo da categorização traz um certo dogmatismo. Primeiro, os autores do artigo da Nature apontam a supervalorização de resultados negativos. Na recente postagem “o sentido de estudos negativos” abordei exatamente isso: estudo negativo não é o que comprova inexistência, o que seria impossível; simplesmente, é um estudo que não comprovou existência. Portanto, a rigor “ausência de evidência não é evidência de ausência” como disse Carl Sagan (frase muito boa, porém sequestrada por crentes). Ou seja, “o estudo comprovou que não existe diferença” não é a melhor forma de colocar, melhor é “o estudo não comprovou diferença”.

Não devemos confundir esta colocação com a ideia de que um estudo negativo não quer dizer nada. Tem valor e tem impacto. O impacto de um estudo negativo (P > 0.05) está na redução da probabilidade de o fenômeno existir. Na medida em que bons estudos não conseguiram comprovar, a probabilidade do fenômeno vai caindo a ponto de ficar tão baixa que não vale mais a pensa continuar tentando provar, ficaremos com a hipótese nula como o caminho de pensamento mais provável. 

Um estudo negativo não é necessariamente contraditório com um estudo positivo. Pode ser que o resultado dos dois seja o mesmo, apenas um não conseguiu rejeitar a hipótese nula e outro estudo conseguiu rejeitar. Um não conseguiu ver e outro conseguiu ver. Na verdade, como discuti na postagem "estudo positivo versus negativo", na maioria das vezes apenas um dos dois estudos está correto. 

Por fim, o paradoxo da categorização faz com que acreditemos em qualquer significância estatística, embora a maioria seja falso positivo (Ioannidis). P < 0.05 não é comprovação irrefutável. Estudos subdimencionados, multiplicidade de análises secundárias, vieses podem fabricar falsa significância estatística.

Na verdade, o valor preditivo (negativo ou positivo) de estudos não reside apenas na significância estatística. Depende da qualidade do estudo e da análise, do ecossistema científico e da probabilidade pré-teste da ideia. 

Portanto, os autores do artigo da Nature estão corretos criticar a visão determinística da significância estatística. 

Mas será que devemos mesmo aposentar significância estatística? 

Seria aposentar um advento que historicamente foi responsável por uma grande evolução de integridade científica. No entanto, tudo que é bom tende a ser sequestrado. E artistas da falsa positivação de estudos sequestraram o advento do valor de P (feito para dificultar o erro tipo I) para provar coisas falsas. 

Se por um lado a aposentadoria da significância estatística evitaria o paradoxo da categorização, por outro lado abriria espaço para o viés da positividade, nosso tropismo por criar ou absorver informações positivas. 

A crítica à significância estatística, neste e em outros artigos da moda, não trazem uma alternativa melhor. Por exemplo, o próprio autor do trabalho do Nature reconhece que outras abordagens estatísticas mais recentes (bayesiana, por exemplo) não abandona o paradigma da categorização. Inclusive, em certas passagens os autores mencionam que não propõem um total abandono da noção de significância estatística. Na minha visão, o título não está de acordo com o verdadeiro teor do artigo. Acho que faltou uma interrogação no título: "Retire Statistical Significance?"

Hoje se fala muito mais em integridade científica do que há duas décadas. Mas ao abordar esse assunto com mais ênfase do que no passado, parece que este é um problema pior nos dias de hoje. Não é o caso. Experimentamos clara evolução de integridade científica: conceitos de multiplicidade são mais discutidos do que no passado, ensaios clínicos têm obrigatoriamente seus desenhos publicados a priori, normas CONSORT de publicação são exigidas por revistas, fala-se muito mais em transparência científica, open science, slow science. Estamos evoluindo. E o primeiro passo da integridade foi a criação da noção de significância estatística na primeira metade do século passado por Ronald Fisher. 

Trabalho publicado na PLOS One (Bob Kaplan) analisou durante um longo período de anos os resultados de ensaios clínicos financiados pelo NIH. Antes do ano 2000, quando não havia a necessidade de publicar previamente o protocolo, a frequência de estudos positivos era 57%, caindo para apenas 7% de estudos positivos após a regra de publicação a priori. Antes os autores positivavam seus estudos por análises múltiplas a posteriori. Hoje isso está muito melhorado pela obrigatoriedade de publicação a priori.

Parece que virou elegante criticar o valor de P, o que parece traição com um advento de grande importância histórica e que até agora não encontrou um substituto melhor. Não é culpa do P ter sido sequestrado por pesquisadores mal intencionados. É culpa dos pesquisadores. 

Portanto, proponho manter o valor de P e adotar as seguintes medidas:

  • Descrever o valor de P apenas quando o estudo tiver uma dimensão adequada para o teste de hipótese. Do contrário, este ganharia um caráter mais descritivo, sem utilizar associações para testes de conceitos. Isso evitaria falso positivos decorrentes de “estudos pequenos”, a maioria dos artigos publicados. Para se ter uma ideia, a mediana do poder estatístico de estudos em biomedicina é 20%.
  • Não descrever o valor de P em análises de desfechos secundários. 
  • Em análises de subgrupo (exploratórias), utilizar apenas o P da interação (mais conservador e difícil de dar significativo), evitando o valor de P obtido pela comparação dentro de um subgrupo (estudos pequenos). 
  • Incluir no CONSORT a obrigatoriedade de autores explicitarem no título de subestudos que aquela é uma análise exploratória e secundária de um estudo previamente publicado. 
  • Abandonar o termo significância estatística, substituindo-o por veracidade estatística. Estatística é utilizada para diferenciar associações causais verdadeiras de pseudocausalidades mediadas pelo acaso. Portanto um valor de P < 0.05 conota veracidade. Se a associação é significante (relevante), depende da descrição da diferença numérica ou das medidas de associação de desfechos categóricos. Utilizemos, portanto, veracidade estatística, isso evitará a confusão entre significância estatística e significância clínica. 

Finalmente proponho o advento do índice de integridade do pesquisador.

Este índice será calculado pela razão entre o número de estudos negativos / número de estudos positivos. Um índice de integridade < 1 indica um pesquisador de integridade questionável. Este índice se baseia na premissa de que a probabilidade de uma boa hipótese ser verdadeira é menor do que 50%. Portanto, deveria haver mais estudos negativos do que estudos positivos. Isto não ocorre devidos às técnicas de positivação de estudos (pequenos trabalhos, multiplicidades, vieses, spin de conclusões) e pelo viés de publicação que esconde os estudos negativos. Um autor íntegro seria aquele não utiliza destas práticas, portanto teria vários estudos negativos e poucos positivos, resultando em índice de integridade bem superior a 1.

O artigo da Nature foi útil para promover reflexão sobre pros e cons da significância estatística. Mas não chega a propor aposentadoria. Seria como aposentar um daquelas pessoas ainda muito produtivas. Pelo contrário, que a significância estatística continue atuante e evoluindo progressivamente na forma de utilização. A tese de doutorado do meta-cientista Diego Rabelo, orientado por mim, tem como objetivo a criação e validação deste índice. Teremos resultados em breve. 

Que aprendamos a valorizar também um P > 0.05. Afinal, a imprevisibilidade da vida é representada por esta simbologia, boa parte do nosso destino é mediado pelo acaso. 

Ou nada é por acaso?



--------------------------------------------------------------------------------------------------------------------------


Acesse nosso Curso Online de MBE, clicando aqui

17 comentários:

  1. Concordo com os pontos, e principalmente em relação a super valorização (positivação) do p-valor por muitos pesquisadores. Parabéns!

    ResponderExcluir
  2. Estive em seu curso em João Pessoa esse final de semana. Muito bom perceber que as postagens dialogam perfeitamente com o conteúdo do curso. Achei a ideia do índice de integridade do autor genial. Parabéns.

    Professor Luis, se possível, comente sobre a trombólise no AVC isquêmico. Em 2017 enviei e-mail para ti comentando a controvérsia deste tratamento que não foi recomendado pelo site http://www.thennt.com/nnt/thrombolytics-f

    ResponderExcluir
  3. Acho boa a a ideia do índice de integridade do autor, mas as revistas teriam que ter um índice parecido, afinal elas também têm uma tendência muito grande de só publicar estudos positivos!! Abraços

    ResponderExcluir
  4. O artigo nós faz "pisar no chão", a entender que a estatística é uma ferramenta e não um "oráculo" a serviço da verdade.

    ResponderExcluir
  5. O artigo nós faz "pisar no chão", a entender que a estatística é uma ferramenta e não um "oráculo" a serviço da verdade.

    ResponderExcluir
  6. Identificar o verdadeiro valor da significância estatística e aplica lo nas diferentes situações práticas depende muito sim da integridade do pesquisador.
    Parabéns muito bom julgamento.

    ResponderExcluir
  7. Li o artigo, caro Luis! Achei o tema conceitual e muito importante.


    Acho que o problema é que nós profissionais de saúde não "nos ligamos", importamos ou conhecemos bem a Estatística.

    Na maioria das vezes quando se fala a um profissional da área coisas como "Intervalo de confiança", "valor de p ou p-valor", sensibilidade, especificidade, acurácia, VPP, VPN...

    - As pessoas falam "sim,, sim, é isso, concordo"... Mas não prestaram atenção, entenderam ou avaliaram nada! Apenas seguem "tabus" pré-estabelecidos sobre valores matemáticos "fixos".

    Ou então, acham que estatística é uma "caixa preta", daquelas que a gente joga os dados em um software como SPSS, ou pede a ajuda de nosso Estatístico de Confiança. E aí, aceita os resultados coo aceitamos o contrato de licença do Window e do Office: "AS IS", ou seja, "como está"!

    Parece que tem um contrato tácito entre os estatísticos e as pessoas. É mais fácil assim.

    Reforço a ideia de que todo Profissional de Saúde - não somente os médicos - deve aprender no mínimo do mínimo Medicina Baseada em Evidências (efetivamente, com avaliação de casos reais e Clube de Revista) por 6 a 12 meses.

    A Significância Estatística é a meu ver "inaposentável"!

    O que precisamos é aprender a avaliá-la melhor, criticar os artigos, quem sabe até escrever aos autores.

    Esse feedback seria indispensável para aprofundarmos as análises e provocarmos, em autores, revisores e revistas, uma maior produção de qualidade (ou qualidade de produção).

    Lembrando que todo artigo publicado tem um autor correspondente, que responde pela qualidade e pelo menos pelas normas da maioria das revistas deve ter a centralização dos dados e assume como responsável pelo conteúdo.

    ResponderExcluir
  8. Também acho que faltou uma "?" no título. O 'P<0.05' como critério para determinar a significância, ou seja, como critério para discriminar novas descobertas nasce de uma publicação de 1925, conforme dito pelo Luis. Para que gosta de ir direto a fonte, segue o link da 5ª edição do livro: http://www.haghish.com/resources/materials/Statistical_Methods_for_Research_Workers.pdf

    Ler o original é interessante para compreender o contexto. O conceito é apresentado na página 45, no capítulo III, intitulado 'Distribuição'. O autor explica que tabelas (probabilísticas) foram montadas para determinar a probabilidade de que um valor distribuído, aleatoriamente, exceda um dado desvio. A rapidez com que a probabilidade cai à medida que o desvio aumenta é bem mostrada nessas tabelas: um desvio desvio padrão (68% da distribuição) ocorre cerca de uma vez em três tentativas, dois desvios padrões (95% da distribuição) ocorre uma vez em 22 tentativas, três desvios padrões (99,7% da distribuição) ocorre apenas uma vez em 370 tentativas; para exceder o desvio padrão em seis vezes (99,9999996% da distribuição) seria necessário quase mil milhões de tentativas.
    Porém, Ronald Fisher queria tornar a aplicação mais prática. Ele considerou que o valor-P de 0.05, ou 1 em 20, é 1'96 ou quase 2 desvios padrões (95% da distribuição) e, portanto, seria 'CONVENIENTE' considerar este ponto como um limite para julgar se um desvio deve ser considerado significativo ou não. Segundo as palavras do autor:
    "it is convenient to take this point as a limit in judging whether a deviation is to be considered significant or not. Deviations exceeding twice the standard deviation are thus formally regarded as significant. Using this criterion, we should be led to follow up a false indication only once in 22 trials, even if the statistics were the only guide available."
    Fisher também alerta para o risco de usar o critério de P<0.05 em efeitos pequenos, ou também, eventos raros. Aparentemente isso não foi uma preocupação nos últimos 100 anos...
    Cerda de 100 anos depois da publicação de Ronald Fisher, uma novo estudo (ver https://www.nature.com/articles/s41562-017-0189-z) mostrou que um falso positivo não era 1/22, ou P=0.05, mas poderia variar em função da chance a priori da ocorrência do evento entre 24% (eventos muito frequentes, ou com chance a prior de 1/5) a 72% (eventos raros, ou com chance a prior de 1/40).

    ResponderExcluir
  9. Uma edição inteira da "The American Statician" (ASA) foi dedicada ao tema: https://www.tandfonline.com/toc/utas20/73/sup1?nav=tocList&fbclid=IwAR3crLfflHfohULFO7vzoleCUMkj6SKQljRgf20RAdMuxxvN_IYrYtmQq70
    Vale a pena dar uma conferida, apesar da leitura ser um tanto cansativa.
    Parabéns mais uma vez Luis!

    ResponderExcluir
  10. P.S.: O tema é tão caro à perícia forense, que ensejou a criação de um instituto dedicado apenas a isso (CSAFE) e, ainda assim, o Project Innocence continua a "denunciar" de que nada adianta termos dados e estudos se os profissionais não aprenderem a interpretá-los e usá-los.
    A mesma ASA dedicou outra de suas revistas a esse tema. Edição especial da SIGNIFICANCE também em opensource: https://rss.onlinelibrary.wiley.com/toc/17409713/2019/16/2

    ResponderExcluir
  11. Excelente reflexão!
    Porém, no mundo em que vivemos, da conveniência científica, propor um índice de integridade de um pesquisador é temeroso. Sabemos hoje que muitas publicações seguem autores que estão mais uniformizados com os scopos das revistas ou da comissões científicas das mesmas. Esses teriam uma PROBABILIDADE de receberem valores de integridade maior que 1, para que sejam mais seguidos e consigam DITAR normas e conceitos.... Perigoso!!!!!

    ResponderExcluir
  12. Obrigado pelo conhecimento, prezado professor! Ajudou a enriquecer minha apresentação no journal club

    ResponderExcluir