sábado, 15 de abril de 2017

Por que os resultados da maioria dos estudos publicados são falsos?



Em 2005, o grego John Ioannidis, professor da Universidade de Stanford, publicou um artigo na PLOS Medicine intitulado Why Most Published Research Findings Are False. Desde então, este trabalho recebeu 2 milhões de acessos e 2.500 citações em periódicos científicos, servindo de inspiração para a discussão que desenvolveremos nesta postagem. 

Embora este título soe pessimista, representa uma mera constatação da realidade. Uma constatação que no final nos remeterá a uma visão otimista, voltada para a evolução do pensamento científico. Discussões como esta elevam pesquisadores (produtores de artigos) ao nível de cientistas (pensadores).

Do ponto de vista técnico, esta postagem seria intitulada: por que a maioria dos estudos têm baixo valor preditivo positivo?

Esta pergunta nos remete ao conceito bayesiano de valor preditivo positivo de um estudo, que é a probabilidade de um resultado positivo predizer um fenômeno verdadeiro. 


Um prevalente equívoco é a interpretação do valor de P como “a probabilidade do resultado do estudo ser falso”. Neste caso, o valor de P seria o valor preditivo negativo, então o complemento de P (100% - P) seria o valor preditivo positivo. Por exemplo, valor de P = 0.05 indicaria uma probabilidade de 5% do resultado ser falso. O que corresponderia a 95% de valor preditivo positivo. Errado !

O valor preditivo positivo do estudo é de fato influenciado pelo valor de P, mas também por outras três variáveis que abordaremos neste texto: probabilidade pré-teste, poder estatístico e qualidade metodológica do trabalho. 

Probabilidade Pré-teste


No século XVIII, o reverendo Bayes descreveu o conceito de probabilidade condicional. A interpretação contemporânea do resultado de um estudo deve se embasar neste pensamento bayesiano.



Probabilidade pré-teste → Teste → Probabilidade pós-teste

Probabilidade da Hipótese → Estudo → Valor preditivo positivo




Significa que antes de avaliar a veracidade do estudo, temos que avaliar a probabilidade pré-estudo (pré-teste) da hipótese ser verdadeira, pois esta influencia o valor preditivo positivo. 

No pensamento bayesiano (probabilidade condicional), um estudo é um teste que serve para moldar uma probabilidade antes existente (pré-teste). Se positivo, o estudo aumenta a probabilidade pré-teste, resultando na probabilidade pós-teste maior do que a pré-teste

Mas se esta probabilidade pré-teste for originalmente muito baixa, mesmo que o estudo positivo aumente a probabilidade, esta poderá terminar ainda baixa (aumentar um coisa muito pequena pode resultar em uma coisa "menos pequena", porém ainda pequena). Daí a importância da probabilidade pré-teste na interpretação do estudo.

A probabilidade pré-teste de uma hipótese estar correta depende de sua plausibilidade e das evidências intermediárias que respaldam a ideia como mais ou menos promissora. 

De todas as hipóteses criadas no universo científico, apenas 10% são finalmente confirmadas como verdadeiras. Isso ocorre porque o mundo é multicausal, difícil de prever. Mas também ocorre porque grande parte das hipóteses testadas são pouco promissoras, para não dizer esdrúxulas. Por isso que um componente importante do pensamento científico é a criação da ideia. 

Testes de hipóteses pouco prováveis são prevalentes no mundo científico, comumente realizados por pesquisadores (não exatamente cientistas) entusiasmados com sua corrida pela produção científica. Mais entusiasmados com isso do que com o propósito de “tomar ciência” do universo. 

Semana passada li na Folha de São Paulo que um ensaio clínico preliminar não conseguiu demonstrar que fosfoetanolamina teria benefício em pacientes com câncer. Esse é um exemplo de estudo que já começa com um probabilidade pré-teste quase nula. Não há plausibilidade, nem mesmo estudos preliminares promissores. Não nos serve a criação de hipóteses fantasiosas, pois um resultado negativo é óbvio e um resultado positivo terá baixo valor preditivo positivo (pois já começamos com uma probabilidade pré-teste baixa). 

Imagine que eu queira demonstrar que pintar o cabelo de azul em novembro reduz o risco de câncer de próstata. Daí faço um ensaio clínico. Se o resultado do trabalho for negativo, não acrescentará nada, pois é óbvio que isso não funciona (ensaios clínicos negativos apenas tem valor quando negam algo que faz sentido, quando rejeitam uma ideia antes promissora). Por outro lado, se o resultado é positivo, seu valor preditivo positivo será baixo, pois a probabilidade pré-teste desta ideia é baixa. Ou seja, não há utilidade em se testar hipóteses esdrúxulas (entendam aqui exdrúxulas como pouco prováveis).

Este parece ser um raciocínio preconceituoso. Sim, é preconceituoso, mas é um preconceito probabilístico, é a probabilidade pré-teste do pensamento de probabilidade condicional. 

Uma pesquisa não existe no vácuo, mas sim dentro de um meio científico. Por exemplo, antes do teste de eficácia clínica (melhora de prognóstico), há estudos experimentais, seguido de estudos clínicos testando desfechos intermediários. Assim, a probabilidade pré-teste é composta da lógica da hipótese + o conjunto de informações (de qualidade) já comprovadas que falam a favor daquela hipótese. 

Por exemplo, temos percebido uma crescente preferência pela custosa vasopressina ao invés da tradicional/barata noradrenalina em pacientes com choque. Ao questionar o uso de vasopressina, um de meus residentes recebeu do plantonista um recente trabalho da revista Anesthesiology como respaldo da ideia. Este trabalho testou a hipótese de que vasopressina é superior à noradrenalina na redução de desfechos clínicos em pacientes com choque vasoplégico pós cirurgia cardíaca. 

Vamos analisar a probabilidade pré-teste desta hipótese. Qual a plausibilidade de um vasopressor potente ser superior ao outro vasopressor potente em um paciente vasodilatado? O intuito principal destas drogas é o de promover vasoconstricção e aumentar a pressão. Se ambas o fazem de forma intensa e semelhante, porque uma seria melhor que a outra? Pouco provável. 

Devemos notar que as hipóteses pouco prováveis também possuem justificativas mecanicistas apresentadas em boa semântica. São fantasiadas de prováveis. O racional apresentado é que a vasoconstricção obtida pela vasopressina seria mais eficaz, pois ocorreria pela estimulação de  uma família de diferentes receptores, enquanto noradrenalina só estimula um tipo de receptor. Desta forma, uma razoável probabilidade pré-teste de que vasopressina é clinicamente superior teria que ser embasada em estudos mostrando melhores resultados hemodinâmicos. Isto não consta na justificativa do trabalho. Na verdade são dois vasoconstrictores potentes e é pouco provável que um venha a ser clinicamente superior ao outro.

Vejam o caso das estatinas. Uma vez demonstrado que estatinas reduzem colesterol, torna-se plausível que previnam risco de infarto. Assim, os grandes ensaios clínicos que testaram eficácia clínica de estatinas começaram com probabilidade pré-teste alta, pois já estava comprovado seu efeito hipolipemiante. 

Por outro lado, a ideia de que estatinas possuem muitos outros benefícios (previnem câncer de próstata, Alzheimer, tratam esclerose múltipla, Parkinson, osteoartrite) tem baixa probabilidade. Há estudos observacionais ou análises secundárias de ensaios clínicos sugerindo estes efeitos. No entanto, todas estas probabilidades pré-teste são pífias. Não faz sentido que estas coisas sejam verdades, mesmo que os autores “expliquem” as vias pelas quais estes efeitos se fariam presentes. A princípio, a probabilidade é pequena de que uma droga desenvolvida para um efeito, tenha tantos outros efeitos positivos.  Não existe panaceia que serve para quase tudo.

Portanto, antes de ler um artigo original devemos sempre questionar: essa hipótese é plausível? Este estudo deveria ter sido realizado? Este é o primeiro passo na análise de uma evidência. O passo do preconceito evolutivo. Ciência não é exatamente justa, igualitária com as ideias. Ciência não é politicamente correta. 

O Poder Estatístico


Agora vamos migrar para a análise do estudo, abordando um importante componente: o poder estatístico, que determina a probabilidade do erro aleatório tipo II (não detectar uma associação verdadeira). Quanto menor o poder estatístico do estudo, maior a possibilidade dele não encontrar uma associação que existe. Quanto menor o poder, menor a sensibilidade do estudo.

Mas há outro impacto do poder que muitos desconhecem: quanto menor o poder, maior também a probabilidade do erro tipo I (afirmar algo falso). 

É inadequado pensar: “mesmo sem poder estatístico, o estudo encontrou valor de P estatisticamente significante. Então podemos afirmar que a associação é verdadeira.” Esse pensamento é falso, pois um estudo de baixo poder estatístico terá baixo valor preditivo positivo, mesmo com valor de P significativo. Em outras palavras, a significância estatística perde sua veracidade quando encontrada em um estudo subdimensionado, com poder estatístico insuficiente. O valor de P é menos confiável em um ambiente sem poder estatístico. 

Se quiser entender matematicamente o porquê, veja a simulação abaixo. Outra alternativa é pular  esta explicação, não fará grande falta para o entendimento do todo.  

o   Digamos que 1000 hipóteses diferentes são testadas em 1000 estudos diferentes.
o   Partindo da premissa que apenas 10% das hipóteses são verdadeiras, no mundo científico perfeito 900 estudos serão negativos e 100 estudos serão positivos. 
o   A definição de significância estatística é alfa de 5%, que significa que nós aceitamos até 5% de probabilidade do erro tipo I (afirmar algo falso). 
o   Portanto, das 900 hipóteses falsas, 45 delas (5%) terão resultado do estudo positivo (falso-positivo).
o   Desta forma, não teremos apenas 100 estudos positivos, mas sim 145 estudos positivos: 100 verdadeiro positivos e 45 falso positivos. 
o   Baseado nisso, o valor preditivo positivo de um estudo que define alfa de 5% é 69%, ou seja, 31% dos estudos (45/145) são falso positivos apenas por aceitarmos 5% de probabilidade tipo I (alfa).

Agora vem a influência do poder estatístico:

o   Aceita-se como satisfatório um poder estatístico de pelo menos 80%, o que significa uma sensibilidade para detectar uma associação verdadeira de 80%, levando a 20% de probabilidade do erro tipo II. 
o   Se o poder de todos os estudos for 80%, daquelas 100 hipóteses verdadeiras, serão 80 estudos positivos (e não 100).
o   Reduzimos então para 125 estudos positivos (80 verdadeiros e 45 falsos).
o   Desta forma, em se considerando a influência do poder estatístico de 80%, na verdade, 36% dos estudos são falsos (45/125). 

Percebam como o poder estatístico de 80% (e não de 100%) aumentou a probabilidade do erro tipo I de 31% para 36%. Isso mostra como o poder influencia também no erro tipo I.

Este esquema é bem representado por esta figura:




Agora vem o grande problema: considerando a totalidade dos estudos científicos, apenas a minoria tem poder estatístico de 80%. Por exemplo, um artigo publicado na Nature demonstrou que no campo da neurociência a média de poder estatístico dos estudos é de 20%. Se considerarmos 20% como a regra, seriam apenas 20 estudos verdadeiros positivos e 45 estudos falso positivos. Isso daria 45/65 = 69% de probabilidade de falso positivo (apenas 31% de valor preditivo positivo).

Pode parecer estranho dizer que a média do poder estatístico dos estudos é apenas 20%. Mas é isso mesmo, se considerarmos todas as publicações científicas, em todas as revistas científicas. Além disso, há cálculos de poder estatístico fantasiosos, que fazem parecer (falsamente) que estudos tenham poder de 80%. 

Como fantasiar um cálculo de poder em estudos pequenos? Vejam que interessante:

É só calcular o poder para encontrar uma diferença (tamanho de efeito) gigante. Para uma diferença enorme, qualquer estudo pequeno consegue poder de 80%. O problema é que diferenças enormes são inverossímeis, o que praticamente elimina qualquer probabilidade pré-teste de aquilo ser verdadeiro. 

Voltando ao estudo da vasopressina: os autores planejaram incluir 300 pacientes para obter 80% de poder. Mas este poder de 80% é calculado para a detecção de uma diferença muito grande de eventos entre os dois grupos: 30% de redução absoluta de risco! Sim, estou falando absoluta e não relativa. Isto daria um NNT < 4. É quase fantasioso, principalmente em se tratando da comparação de tratamentos versus tratamento. Nem tratamento versus ausência de tratamento alcança tamanha redução de risco, quando mais tratamento versus tratamento. E principalmente quando se trata de dois potentes vasoconstrictores. Se eu tinha dito no tópico anterior que essa hipótese era pouco plausível, para esta magnitude de redução, não temo dizer que esta hipótese é quase impossível. A probabilidade pré-teste se aproxima do zero absoluto. Na realidade, aproximando a probabilidade pré-teste do zero absoluto podemos chagar ao desejado poder de 80%. 

Portanto, para acreditar em um estudo positivo, devemos ficar atentos para seu poder estatístico, não apenas para o valor de P. E devemos analisar criticamente se o cálculo do poder foi fantasioso ou realista. 

Os gráficos abaixo, tirados do artigo de Ioannidis, mostram o cálculo do valor preditivo positivo (eixo vertical) de acordo com diferentes níveis de poder estatístico e de chance pré-teste (eixo horizontal). São quatro curvas, pois cada uma representa diferentes riscos de viés. Observem que no cenário usual (10% de probabilidade pré-teste, poder de 20% e risco de viés alto), o valor preditivo positivo de um estudo é apenas 20%.




Mas isso ocorre com as boas publicações nas boas revistas? Sim, a maioria dos artigos que comentamos neste Blog são de boas revistas e sofrem disso também. 

O New England Journal of Medicine publicou um estudo de apenas 77 pacientes que demonstrou eficácia clínica da hipotermia pós-parada. Em postagem antiga deste Blog, antes mesmo do surgimento dos bons estudos, eu concluía que isso não passava de uma fantasia. Não era difícil de prever. Hoje temos os trabalhos de qualidade, todos negativos em relação a este benefício. 

Primeiro, a hipótese é esdrúxula, não sei como acreditaram nisso. Achar que baixar a temperatura  a posteriori vai reverter a grave consequência da anóxia cerebral é querer demais. O dano já está feito com a parada cardíaca prolongada. Será que teria um efeito relevante? Claro que não. Segundo, os estudos que falsamente confirmaram a fantasia eram pequenos, sem poder estatístico, repletos de vieses.

Importante salientar que quando uso o adjetivo “pequeno” me refiro a um estudo subdimensionado para uma dada hipótese e não a um tamanho amostral específico. Para certas hipóteses, estudos de N = 300 podem ser grandes, para outras o mesmo N é pequeno. Se o estudo da vasopressina fosse para testar a hipótese de que esta aumenta mais a pressão arterial do que noradrenalina (desfecho intermediário), este teria dimensão adequada. Mas não para desfechos clínicos. 

Nas grandes revistas este tipo de estudo é menos frequente do que nas pequenas revistas. Mas quando eles se fazem presentes nas grandes revistas, o “estrago” no mundo científico é muito maior. 

Risco de Viés


Aliado a tudo isso, há o risco de viés dos estudos. Sabemos que as possibilidades de vieses são inúmeras e este é um dos assuntos que predominam em nosso Blog. Uma forma interessante de falar de viés é se perguntar: para que serve o método científico? 

Muito pensam que o método científico serve para comprovar nossas hipóteses. Na verdade, é o contrário: o método científico serve para tentar refutar nossa hipótese. Assim que se faz ciência. Como Karl Popper propôs no século passado, primeiro tentamos refutar a hipótese de forma empírica (experimental) e se não conseguirmos, aceitaremos a ideia. 

Por exemplo, ao dar um placebo ao grupo controle, estamos tentando refutar a ideia de que a droga funciona. Pois esse método cria um efeito terapêutico no grupo controle e aproxima o resultado dos dois grupos. Se a droga for apenas placebo, refutamos a ideia de eficácia ao oferecer o placebo também ao grupo controle. Quando randomizamos a alocação para tratamento ou controle, também tentamos refutar um efeito terapêutico, pois ao homogeneizar as amostras, um aparente benefício intermediado por efeito de confusão desaparecerá. 

Vieses são erros metodológicos que impedem o estudo de refutar uma hipótese falsa. Um ensaio clínico para um desfecho como dor é enviesado se não tiver o efeito placebo. Como diz o próprio nome, estes erros enviesam um estudo na direção de um determinado resultado. São erros tendenciosos.

Agora vem de novo a questão dos estudos “pequenos” (estatisticamente subdimensionados). Estudos pequenos não são apenas pequenos. Estudos pequenos também tendem a ser de pior qualidade metodológica.

Um estudo grande tende a ter um melhor método científico, pois seria desperdiçar muito recurso em um grande esforço. Estudos grandes multicêntricos representam um projeto coletivo, no qual o método do estudo passa pelo crivo de muitas pessoas. Um estudo pequeno é um esforço menor, de menor custo, que pode ser realizado por um pequeno grupo local de enviesados. 

Viés de Análise de Dados


O principal viés de análise de dados é a análise a posteriori ou post-hoc. Estas são análises que não estavam planejadas no desenho do estudo, são criadas depois e por este motivo têm grande probabilidade de gerar resultados decorrentes do acaso. Isto ocorre pelo problema das múltiplas comparações (tema de postagem prévia neste Blog), pois são tantas as formas de análise que podemos inventar depois do estudo realizado, que uma delas nos dará o resultado desejado. É o que se chama de statistical fishing ou p-hacking ou data massage

Para evitar este tipo de falácia, o plano de análise de dados dos estudos deve ser pré-definido e tudo que for criado depois deve ser visto como potencialmente falso. 

Em 2004, o CDC publicou um estudo caso-controle, concluindo que não havia associação entre vacina MMR e autismo. Dez anos mais tarde, Brian Hooker publicou um outro artigo indicando que crianças masculinas, negras, vacinadas antes de 36 meses de idade tinham maior chance (odds) de autismo quando comparadas às vacinadas depois de 36 meses. Esse trabalho virou notícia, alardeando muitos pais, que decidiram não vacinar os filhos. No entanto, o trabalho era resultado de várias análises a posteriori dos mesmos dados do CDC. Observem que masculino-negro é um subgrupo do subgrupo, representando uma típica forma de fazer múltiplas análises a posteriori. Acontece que Brian Hooker é um engenheiro químico, pai de uma criança autista e membro da organização Focus Autism, que prega este efeito adverso das vacinas. 

Portanto, análises a posteriori tem alto risco de erro aleatório. O problema é que estas análises são muito frequentes em estudos pequenos. A propósito, o estudo da vasopressina modificou a posteriori o desfecho primário que havia sido pré-definido para o teste de hipótese. Uma violação deste princípio aqui discutido.

O Universo Científico


O universo científico é composto majoritariamente de estudos pequenos. Estudos pequenos têm menor poder estatístico, falseando resultados positivos. Estudos pequenos têm pior qualidade metodológica, enviesando o resultado a favor de uma falsa hipótese. Estudos pequenos apresentam mais análises a posteriori. E estudos pequenos testam hipóteses mais esdrúxulas, partindo de uma baixa probabilidade pré-teste. 

Imaginem uma ideia que parece interessante: Zika causa microcefalia. Esta ideia, permeada pelo medo (que reduz nossa racionalidade), passou a ser convincente mesmo antes de qualquer evidência de associação. Podemos dizer que esta é uma ideia “quente”, muitos grupos estão perseguindo esta confirmação. Os campos de ideias quentes possuem vários grupos científicos na corrida para serem os primeiros a demonstrar um resultado positivo. Nessa desenfreada corrida, estes grupos trocam a veracidade pelo pioneirismo. Em nome do pioneirismo, os grupos passam a publicar estudos pequenos, subdimensionados e de pior qualidade metodológica, justamente em um momento em que a hipótese ainda é pouco provável (toda hipótese é pouco provável no início). O entusiasmo pela ideia faz das pessoas menos céticas e estas aceitam prontamente os falsos resultados positivos de estudos preliminares. 

Isto explica porque campos científicos “quentes” paradoxalmente apresentam estudos de menor valor preditivo positivo, quando comparados a campos científicos mais mornos. 

As ideias quentes têm estudos iniciais sempre positivos, que precipitam “verdades”, muitas vezes negadas anos mais tarde por grandes estudos negativos. Não deveríamos nos surpreender quando surgem estes estudos negativos. São incontáveis os exemplos. 

E para agravar ainda mais toda essa situação, o universo científico tem seu próprio viés, o viés de publicação: a probabilidade de um estudo pequeno positivo ser publicado é maior do que a probabilidade de um estudo pequeno negativo. No universo de estudos pequenos, os falso positivos têm maior probabilidade de serem publicados do que os verdadeiros negativos. 

Evolução do Processo Científico




Recentemente, um grupo de cientistas liderados por Ioannidis publicou na Nature um manifesto a favor de maior reprodutibilidade entre os estudos. É um exemplo de que esta é uma preocupação crescente e que o mundo científico discute formas de evoluir. 

Não vejo o problema discutido aqui como uma crise, apenas acredito que temos o que evoluir e chegará o momento em que essa evolução tomará a forma de revolução do processo científico. 

Como diria Martin Luther King, I have a dream:

No mundo científico evoluído, estaremos cientes do problema do valor preditivo positivo dos trabalhos, desenvolvendo maior senso crítico a respeito das evidências. Mas a evolução também ocorrerá no processo de geração das evidências. E isso começa pela criação da hipótese, pois a verdadeiros cientistas são os que fazem perguntas corretas, não os que obtém rápidas respostas. 

Não julgo testes de hipóteses inadequadas necessariamente como um comportamento indevido de pesquisadores. Eu mesmo sou autor de trabalhos que hoje repenso se deveriam ter sido feitos. Precisamos mudar nosso modelo mental científico. 

Ciência se faz juntando pequenos tijolos informativos até chegar a um conclusão. O padrão fast science faz com que autores desejem chegar à resposta final de forma precipitada. É uma corrida pela evidência mais impactante, em detrimento da veracidade. Isso faz com que autores se proponham a testar hipóteses com estudos subdimensionados. 

No padrão slow science, não haverá uma corrida desenfreada pela descoberta, pois uma noção predominante será que “descoberta” é feita por um esforço coletivo e progressivo de evidências cumulativas. 

O padrão slow science seguirá também o paradigma do menos é mais. Publicaremos menos artigos, porém de mais qualidade. Os critérios para um bom cientista não estará na quantidade de trabalhos, mas sim na qualidade. No slow science, numerosas publicações de qualidade questionável reduzirá o índice científico dos autores, principalmente se estas publicações estiverem em grandes revistas. Um artigo ruim publicado no New England Journal of Medicine terá maior impacto negativo no índice científico do autor do que o mesmo artigo publicado em uma revista menor. O fator de impacto de uma revista será negativo ou positivo a depender da qualidade de trabalhos. 

Autores definirão de antemão seus trabalhos como intuito exploratório (geradores de hipóteses) ou intuito confirmatório. Desde um momento inicial, os autores reconhecerão o status de seu estudos com base no nível de evidência. Os estudos exploratórios serão publicados em revistas menores, que servirão de repositório de ideias com probabilidade pré-teste razoáveis.  A maioria das revistas terão esse objetivo. E as grandes revistas serão dedicadas a estudos confirmatórios. Isso dará mais transparência ao processo e ao valor de cada estudo.

E por aí vai … Assim vamos fazendo um exercício criativo de visualização do que será o mundo do slow science. Assim como uma comida artesanal é mais saborosa do que fast food, fazer slow science será muito mais saboroso do que o atual fast science

_________________________________________________________________________________

Conheça o nosso curso de MBE, clicando em Curso Online de Medicina Baseada em Evidências