sexta-feira, 19 de abril de 2019

Metailusão: o paradoxo das meta-análises



Metailusão conota uso inapropriado do desenho de meta-análise para criar a ilusão de que uma ideia é verdadeira ou mais promissora do que evidências suportam. Metailusão gera o paradoxo da meta-análise, quando a análise conjunta de estudos traz uma visão mais enviesada do que a análise separada de cada estudo.

Cunhamos este termo há alguns anos em "carta ao editor" do JAMA Internal Medicine, que resumia o conteúdo de uma postagem prévia deste Blog. 

Nesta discussão, pretendo diferenciar o (grande) valor das revisões sistemáticas do (modesto) valor de meta-análises. Como sabemos, meta-análise é a análise estatística que pode estar contida em revisões sistemáticas. Esta abordagem tem certa utilidade (vide  outra postagem) se estiver no contexto adequado. No entanto há também potencial de enviesar nossas mentes para o lado da crença não embasada em evidências (metailusão). 

O grande valor de uma revisão sistemática reside na descrição do estado atual do conhecimento a respeito de um determinado assunto. Descrevendo o conhecimento, a revisão sistemática pode (1) evidenciar que um conceito está comprovado por evidências de alto nível, (2) indicar que no presente não há evidências suficientes a respeito do conceito ou (3) indicar que há evidências suficientes (qualidade) para reduzir a probabilidade de um conceito ser verdadeiro a um nível tão baixo que nem vale a pena continuar insistindo cientificamente na ideia.

Resumindo, o valor de revisões sistemáticas está em demonstrar se um conceito está ou não comprovado. Não devemos confundir isso com o papel de criar uma evidência a favor de um conceito. Se o conceito não está comprovado, não deve caber à revisão sistemática “criar” esta comprovação. 

No entanto, muitas delas se utilizam de meta-análises para criar novas medidas de associação como se estas representassem um novo dado a respeito do assunto. Não é um novo dado, é apenas um compilado de dados antigos. 

Se dados antigos não comprovaram o conceito, não será o compilado deles que comprovará o conceito. 

Mas então, para que servem as meta-análises, que estatisticamente compilam resultados de estudos prévios?

Este compilado de estudos resulta em uma medida denominada “efeito sumário”. O verdadeiro valor desta métrica está em aumentar a precisão de algo que já sabemos ser verdadeiro. Se bons estudos comprovam uma hipótese, o compilado destes bons estudos aumentará a precisão do tamanho do efeito desta hipótese. 

Por exemplo, eu sei por bons estudos que um tratamento é benéfico, representado por um risco relativo cujo intervalo de confiança é estatisticamente menor do que a nulidade. O compilado meta-analítico dos riscos relativos resultará em um intervalo de confiança mais estreito, permitindo uma percepção mais precisa do tamanho do efeito. 

Esta é a utilidade do efeito sumário: aumentar a precisão do que já sabemos. Não o de gerar um conhecimento antes inexistente. 

Nesta postagem, usarei dois exemplos de meta-ilusão ocorridos em uma mesma semana recente, cada um representando um mecanismo ilusório diferente. No primeiro exemplo, um estudo é pseudo confirmado ao ser combinado com vários estudos neutros e de menor peso. No segundo exemplo, a meta-análise tenta contradizer um bom estudo negativo ao combiná-lo com outros estudos positivos de pior qualidade. 


Dieta muito baixa em carboidrato e perda de peso


Imaginem 13 estudos testando uma mesma hipótese: 12 são neutros, com intervalos de confiança orbitando em torno da nulidade, enquanto apenas um único estudo é positivo. 
O estudo positivo é o maior e melhor, publicado na revista de maior impacto em medicina.

Surge então uma revisão sistemática que combina meta-analiticamente estes 13 estudos e conclui positivamente: “indivíduos assigned to a very-low-carbohydrate diet achieved a greater weight loss than those assigned to low fat diet”


twitter da organização australiana Public Health Collaboration, promotora de estilo de vida, entusiasticamente anuncia: “Meta-analysis of controlled trials - Ketogenic Diets (very low carbs) achieved greater weight loss than Low Fat diets in the long term. Keto diets should be a tool for reducing obesity.”

Os 13 estudos eram ensaios clínicos que randomizaram indivíduos para dois tipos de dieta visando redução de peso: muito baixa em carboidrato (very low carbversus baixa em gordura (low fat).

Qual deve ser o impacto desta meta-análise na nossa percepção da realidade? Seu resultado positivo deve nos enviesar em prol da crença ou o conjunto dos dados deve nos tornar mais céticos?

Este é um perfeito exemplo do que denomino de metailusão, a utilização do sumário estatístico (meta-análise) de vários estudos para “confirmar” o resultado de um estudo positivo, basicamente pela influência (repetição) deste mesmo estudo positivo. 

Dos 13 estudos, o único positivo foi o de melhor qualidade (maior, mais preciso, menor erro-padrão, maior influência na meta-análise). Este foi o ensaio clínico DIRECT publicado no New England Journal of Medicine. Embora seja o estudo de melhor qualidade, este ainda não é uma evidência confirmatória. 

Ao compilar seu resultado com outros 12 pequenos estudos, a medida sumária da perda de peso reduz de - 2 Kg para - 0.9 Kg, no entanto ainda permanece estatisticamente significante, pois o estudo positivo é o de maior peso no cálculo. Quando este é somado aos estudos neutros, permanece positivo. Observem a analogia numérica:

1 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 = 1. 

O que seria mais verdadeiro, 0 ou 1? Se por um lado isso não prova que zero é a verdade, isso muito menos prova que 1 é a verdade. 

Não vale como uma evidência incremental, nem confirmatória do estudo positivo. Pois o resultado se deve ao mesmo estudo que sugere positividade. É uma mera repetição, fantasiada de um novo resultado.

Se olharmos apenas o efeito sumário, concluiremos que a hipótese é verdadeira. Mas se utilizamos a visão do todo, perceberemos que a revisão sistemática (a propósito muito bem feita, por grupo brasileiro) na verdade reduz a probabilidade da hipótese ser verdadeira. 

A depender do olhar, a revisão sistemática pode ter mensagens opostas. 


Forest Plot


Muitos pensam que o gráfico principal de meta-análises se chama “floresta” pois a figura se parece com uma floresta. Nada a ver, olhem bem, isso não se parece com floresta alguma. Floresta é uma analogia: a meta-análise serve para promover a visão do todo (floresta), desfocando nossa visão de apenas uma árvore. 

Mas nossa mania mental de categorização faz com que foquemos apenas do efeito sumário, no pequeno diamante na base do gráfico que não toca a nulidade, indicando significância estatística. Assim voltamos ao paradoxo da categorização, comentado na postagem passada. Algo que é feito para reconhecer incerteza, para promover a visão do todo, é sequestrado para gerar uma categorização positiva. Neste momento, uma floresta é transformada em uma mera árvore. 

Vejam abaixo o forest plot tirado da publicação low carbo. Observem os intervalos de confiança dos estudos.  Deletem mentalmente a imagem da linha vertical que indica a nulidade. Isso permite que olhemos os dados sem a platônica categorização. Permite a visão do todo. Podemos observar que os intervalos de confiança são superponíveis. Doze estudos possuem o mesmo significado. 

Agora recoloquem a linha da nulidade. Do ponto de vista categórico, os doze estudos estão longe da rejeitar a hipótese nula, apenas orbitam em torno na nulidade. Não encontramos evidências suficientes contra a hipótese nula. 




Em particular, esta boa revisão sistemática sobre very low carb versus low fat me trouxe a ideia de que todos os estudos são negativos, exceto um deles. Embora esse único positivo seja o melhor dos estudos, a meta-análise me trouxe o valor de reforçar minha incerteza a respeito da prova do conceito do valor intrínseco de um tipo de dieta na perda de peso. 

Para entusiastas da dieta low carb (pessoalmente eu sou, mas profissionalmente devo conter minha preferência dentro de uma caixa científica), nada como a ciência reforçando a incerteza. A elegância científica está no reconhecimento da incerteza e não na confirmação forçada de uma crença pré-estabelecida. 

Fugindo da incerteza, a interpretação do Public Health Collaboration foi "cientificamente deselegante" ao utilizar essa meta-análise para pseudo confirmar uma hipótese não confirmada. 


Metailusão da Denervação Renal


O fenômeno de metailusão está em toda parte. Na mesma semana foi publicado no Journal of American College of Cardiology uma meta-ilusão que tentou ressuscitar a hipótese de que denervação renal serve para controlar hipertensão arterial. 

Este caso possui um mecanismo ilusório diferente do exemplo anterior: temos um grande e preciso estudo negativo, dois pequenos e imprecisos estudos negativos e três pequenos e imprecisos estudos positivos. 

0 + 0 + 0 + 1 + 1 + 1 = 3. 

O que é mais verdadeiro, zero ou 3? 

Esta me parece ser uma pergunta mais capciosa do que a matemática do exemplo low carb, onde minha argumentação meta-ilusória é mais óbvia. 

Mais uma vez, essa revisão sistemática serve para nos mostrar a incerteza a respeito da questão. Mas os autores preferem utilizar o efeito sumário que alcançou significância estatística (quase na trave) para concluir: “RSD significantly reduced blood pressure compared with sham control.”

Para que esta postagem não fuja do foco e não fique extensa demais, deixarei o que escrevi sobre o contexto científico da denervação renal para uma postagem a seguir. Aqui o que importa saber é que o primeiro estudo (negativo) possui método e tamanho amostral para ser considerado alto nível de evidência, enquanto todos os estudos subsequentes são subdimensionados, o que aumenta o risco tanto do erro tipo II (falso-negativo) como do erro tipo I (falso-positivo).

Um conceito importante a ser lembrado aqui: o resultado de um estudo é mais influenciado por aspectos metodológicos do que variações populacionais e metodológicas (interação é fenômeno raro). 

Portanto, mesmo que autores aprimorem um pouco a técnica de ablação (eles argumentam isso),  um método científico piorado terá maior impacto no resultado.  Assim, o novo resultado (positivo) vem de falha no método científico ou aprimoramento do método de tratamento? Em geral a verdade está na primeira opção. 

Portanto, esta meta-ilusão não deve servir para considerar a ablação como um método eficaz na redução da pressão arterial, tal como sugerido pelos autores e leitores desta revisão sistemática. 

Essa meta-análise não deveria ter sido “notícia” como foi nos sites médicos. 


O Mito das Meta-análises


Na ausência de evidências empíricas, há duas formas efetivas de parecer convincente em relação à existência de um fenômeno: primeiro, explique o porquê que o fenômeno existe,  pois a ideia de um mecanismo racional nos faz “acreditar” no fenômeno. Observem que os gurus da saúde explicam “profundamente” o mecanismo de fantasias, apelando inclusive para física quântica. 

Porém esta primeira forma não acaba com a discussão, visto que interlocutores céticos tenderão a questionar seus mecanismos com outros mecanismos. Então surge a segunda forma, esta imbatível. Simplesmente comece a frase com “há uma meta-análise demonstrando que …”, pois contra essa frase não há argumentos. 

“Há uma meta-análise que demonstra a superioridade do time do Bahia quando comparado ao Vitória” finalizaria qualquer debate polarizado. Meta-análise é a voz de Deus. Pena que não há meta-análise para terminar com essa boba (porém divertida) discussão: ambos são péssimos, Paulinho Rocha. 

No entanto, boa parte das meta-análises possuem conclusões metailusórias.

Diferente do que muitos pensam, meta-análise não deve modificar nosso pensamento categórico de “não sei” para “agora sei”.

Quando não há estudo de caráter confirmatório, a “média” de estudos exploratórios não fabrica um estudo confirmatório. Portanto, meta-análise não tem a capacidade de rejeitar uma hipótese nula não rejeitada por estudos individuais. Por outro lado, quando há estudo (s) confirmatório (s) positivo (s), já sabemos a resposta e a meta-análise não modifica categoricamente uma percepção que já existe. 

Portanto, meta-análise não serve para comprovar ou negar. Para que serve então? 

Já falei lá em cima, mas vou repetir agora: revisões sistemáticas e suas análises estatísticas (meta-análises) servem para descrever o universo de conhecimento a respeito de um assunto, podendo ter duas mensagens: (1) evidenciar a incerteza, dizer o que ainda não sabemos; (2) ou aumentar a precisão (estreitar o intervalo de confiança) do que já sabemos.

Revisões sistemáticas se prestam muito mais a descrever o conjunto de evidência a respeito de uma pergunta, e muito menos para responder a pergunta. Equivocada portanto é a clássica pirâmide que coloca meta-análise no topo, acima de estudos individuais. 

Na pirâmide devem estar apenas os estudos primários. Revisão sistemática e meta-análise não são para ocupar lugar na pirâmide. Servem na verdade para descrever e analisar a pirâmide. 



Reflexões Finais


O universo científico é repleto de informações falsas, que mais comumente são positivas do que negativas. O método científico, criado para reduzir conclusões equivocadas, tornando mais rígido nosso critério de teste de hipótese, é frequentemente sequestrado para provar o que não é verdadeiro. Revisões sistemáticas, criadas originalmente para descrever criticamente o grau de conhecimento a respeito de um assunto, vêm sendo sequestradas para comprovar o que não está provado ou fazer uma ideia parecer mais promissora do que a realidade. 

Esta postagem remete ao viés cognitivo denominado bounded awareness (consciência limitada), que ocorre quando o foco em algo muito específico prejudica a visão do que seja mais importante. Esse viés é retratado neste vídeo do YouTube quando uma tarefa que requer atenção específica (contar no número de passes em um jogo de basquete) impede que as pessoas percebam que um gorila que entrou na quadra.  Esse tipo de viés está por trás de muitos exemplos em que a expressão “o elefante na sala” é usada, como já fizemos em postagem recente neste Blog. 

No caso da meta-ilusão, nossa atenção fica tão focada do diamante da medida sumária, que perdemos a visão do óbvio contido no todo. 
Psicólogos sugerem algumas estratégias para superar este viés: trazer sempre uma pessoa de mente mais inocente ou menos enviesada para a discussão, evitando o “viés da tribo” (como aquele menino que percebeu que “o rei estava nu”); procurar ampliar nossa visão, sendo advogados do diabo de nossas próprias ideias; por fim, utilizar do tempo, olhar as coisas mais de uma vez, com calma, de forma reflexiva.

Acho isso importante, pois grande parte das vezes aceitamos metailusões sem ler o trabalho. Tenho insistido nisso ultimamente: gastar 20 minutos lendo o método e resultados de um artigo é essencial antes de aceitar a conclusão e principalmente antes de “retwittar” informações. 

Leonardo da Vinci nos presenteou com a renascentista frase “simplicidade é a mais elegante forma de sofisticação”.  Eu diria que a simplicidade da incerteza é a mais elegante expressão da ciência.

Revisões sistemáticas servem para mensurar o grau de incerteza presente em um campo de ideias, indicando o grau de confiabilidade a respeito de conceitos. Revisões sistemáticas não servem para fabricar comprovações inexistentes no campo científico anterior à meta-análise.

---------------------------------------------------------------------------------

Conheça nosso novo Curso Online de MBE, clicando aqui.

terça-feira, 16 de abril de 2019

sábado, 30 de março de 2019

Devemos aposentar a significância estatística?


Na semana passada viralizou artigo da Nature com o título “Retire Statistical Significance”, o qual traz reflexão crítica a respeito do dogmatismo estatístico. Neste texto, apresentarei dois lados da mesma moeda. De um lado, o valor da reflexão trazida pelos autores, do outro lado, consequências não intencionais da aposentadoria do conceito de significância estatística. O primeiro ponto de vista tem relação com o viés da superestimativa do valor, o segundo ponto guarda relação com o viés do positivismo. 

O conceito de significância estatística é dicotômico, ou seja, categoriza a análise em positiva ou negativa. Categorizar traz utilidade pragmática, porém toda categorização é um reducionismo arbitrário. Ao categorizar por questões pragmáticas, deveríamos entender categorias como algo de menor valor do que a visão do todo. O paradoxo da categorização ocorre quando passamos a valorizar mais a informação por esta ser categórica do que uma informação contínua. A informação contínua aceita os tons de cinza, o intermediário, a dúvida, enquanto a categórica traz um tom (pseudo) definitivo à afirmação. 

Estatística é o exercício de reconhecer a incerteza, a dúvida, o acaso. A definição de significância estatística foi originalmente criada para dificultar afirmações decorrentes do acaso. O intervalo de confiança foi criado para descrever a imprecisão de nossas afirmações. Estatística é o exercício de integridade e humildade do cientista. 

No entanto, o paradoxo da categorização traz um certo dogmatismo. Primeiro, os autores do artigo da Nature apontam a supervalorização de resultados negativos. Na recente postagem “o sentido de estudos negativos” abordei exatamente isso: estudo negativo não é o que comprova inexistência, o que seria impossível; simplesmente, é um estudo que não comprovou existência. Portanto, a rigor “ausência de evidência não é evidência de ausência” como disse Carl Sagan (frase muito boa, porém sequestrada por crentes). Ou seja, “o estudo comprovou que não existe diferença” não é a melhor forma de colocar, melhor é “o estudo não comprovou diferença”.

Não devemos confundir esta colocação com a ideia de que um estudo negativo não quer dizer nada. Tem valor e tem impacto. O impacto de um estudo negativo (P > 0.05) está na redução da probabilidade de o fenômeno existir. Na medida em que bons estudos não conseguiram comprovar, a probabilidade do fenômeno vai caindo a ponto de ficar tão baixa que não vale mais a pensa continuar tentando provar, ficaremos com a hipótese nula como o caminho de pensamento mais provável. 

Um estudo negativo não é necessariamente contraditório com um estudo positivo. Pode ser que o resultado dos dois seja o mesmo, apenas um não conseguiu rejeitar a hipótese nula e outro estudo conseguiu rejeitar. Um não conseguiu ver e outro conseguiu ver. Na verdade, como discuti na postagem "estudo positivo versus negativo", na maioria das vezes apenas um dos dois estudos está correto. 

Por fim, o paradoxo da categorização faz com que acreditemos em qualquer significância estatística, embora a maioria seja falso positivo (Ioannidis). P < 0.05 não é comprovação irrefutável. Estudos subdimencionados, multiplicidade de análises secundárias, vieses podem fabricar falsa significância estatística.

Na verdade, o valor preditivo (negativo ou positivo) de estudos não reside apenas na significância estatística. Depende da qualidade do estudo e da análise, do ecossistema científico e da probabilidade pré-teste da ideia. 

Portanto, os autores do artigo da Nature estão corretos criticar a visão determinística da significância estatística. 

Mas será que devemos mesmo aposentar significância estatística? 

Seria aposentar um advento que historicamente foi responsável por uma grande evolução de integridade científica. No entanto, tudo que é bom tende a ser sequestrado. E artistas da falsa positivação de estudos sequestraram o advento do valor de P (feito para dificultar o erro tipo I) para provar coisas falsas. 

Se por um lado a aposentadoria da significância estatística evitaria o paradoxo da categorização, por outro lado abriria espaço para o viés da positividade, nosso tropismo por criar ou absorver informações positivas. 

A crítica à significância estatística, neste e em outros artigos da moda, não trazem uma alternativa melhor. Por exemplo, o próprio autor do trabalho do Nature reconhece que outras abordagens estatísticas mais recentes (bayesiana, por exemplo) não abandona o paradigma da categorização. Inclusive, em certas passagens os autores mencionam que não propõem um total abandono da noção de significância estatística. Na minha visão, o título não está de acordo com o verdadeiro teor do artigo. Acho que faltou uma interrogação no título: "Retire Statistical Significance?"

Hoje se fala muito mais em integridade científica do que há duas décadas. Mas ao abordar esse assunto com mais ênfase do que no passado, parece que este é um problema pior nos dias de hoje. Não é o caso. Experimentamos clara evolução de integridade científica: conceitos de multiplicidade são mais discutidos do que no passado, ensaios clínicos têm obrigatoriamente seus desenhos publicados a priori, normas CONSORT de publicação são exigidas por revistas, fala-se muito mais em transparência científica, open science, slow science. Estamos evoluindo. E o primeiro passo da integridade foi a criação da noção de significância estatística na primeira metade do século passado por Ronald Fisher. 

Trabalho publicado na PLOS One (Bob Kaplan) analisou durante um longo período de anos os resultados de ensaios clínicos financiados pelo NIH. Antes do ano 2000, quando não havia a necessidade de publicar previamente o protocolo, a frequência de estudos positivos era 57%, caindo para apenas 7% de estudos positivos após a regra de publicação a priori. Antes os autores positivavam seus estudos por análises múltiplas a posteriori. Hoje isso está muito melhorado pela obrigatoriedade de publicação a priori.

Parece que virou elegante criticar o valor de P, o que parece traição com um advento de grande importância histórica e que até agora não encontrou um substituto melhor. Não é culpa do P ter sido sequestrado por pesquisadores mal intencionados. É culpa dos pesquisadores. 

Portanto, proponho manter o valor de P e adotar as seguintes medidas:

  • Descrever o valor de P apenas quando o estudo tiver uma dimensão adequada para o teste de hipótese. Do contrário, este ganharia um caráter mais descritivo, sem utilizar associações para testes de conceitos. Isso evitaria falso positivos decorrentes de “estudos pequenos”, a maioria dos artigos publicados. Para se ter uma ideia, a mediana do poder estatístico de estudos em biomedicina é 20%.
  • Não descrever o valor de P em análises de desfechos secundários. 
  • Em análises de subgrupo (exploratórias), utilizar apenas o P da interação (mais conservador e difícil de dar significativo), evitando o valor de P obtido pela comparação dentro de um subgrupo (estudos pequenos). 
  • Incluir no CONSORT a obrigatoriedade de autores explicitarem no título de subestudos que aquela é uma análise exploratória e secundária de um estudo previamente publicado. 
  • Abandonar o termo significância estatística, substituindo-o por veracidade estatística. Estatística é utilizada para diferenciar associações causais verdadeiras de pseudocausalidades mediadas pelo acaso. Portanto um valor de P < 0.05 conota veracidade. Se a associação é significante (relevante), depende da descrição da diferença numérica ou das medidas de associação de desfechos categóricos. Utilizemos, portanto, veracidade estatística, isso evitará a confusão entre significância estatística e significância clínica. 

Finalmente proponho o advento do índice de integridade do pesquisador.

Este índice será calculado pela razão entre o número de estudos negativos / número de estudos positivos. Um índice de integridade < 1 indica um pesquisador de integridade questionável. Este índice se baseia na premissa de que a probabilidade de uma boa hipótese ser verdadeira é menor do que 50%. Portanto, deveria haver mais estudos negativos do que estudos positivos. Isto não ocorre devidos às técnicas de positivação de estudos (pequenos trabalhos, multiplicidades, vieses, spin de conclusões) e pelo viés de publicação que esconde os estudos negativos. Um autor íntegro seria aquele não utiliza destas práticas, portanto teria vários estudos negativos e poucos positivos, resultando em índice de integridade bem superior a 1.

O artigo da Nature foi útil para promover reflexão sobre pros e cons da significância estatística. Mas não chega a propor aposentadoria. Seria como aposentar um daquelas pessoas ainda muito produtivas. Pelo contrário, que a significância estatística continue atuante e evoluindo progressivamente na forma de utilização. A tese de doutorado do meta-cientista Diego Rabelo, orientado por mim, tem como objetivo a criação e validação deste índice. Teremos resultados em breve. 

Que aprendamos a valorizar também um P > 0.05. Afinal, a imprevisibilidade da vida é representada por esta simbologia, boa parte do nosso destino é mediado pelo acaso. 

Ou nada é por acaso?


--------------------------------------------------------------------------------------------------------------------------


Acesse nosso Curso Online de MBE, clicando aqui

terça-feira, 26 de março de 2019

O Estudo do Ovo e o Elefante na Sala



O Estudo do Ovo publicado no Journal of American Medical Association este mês tem sido amplamente criticado entre os pensadores baseados em evidências por ter concluído que “consumo de ovo foi significantemente associado a aumento de risco cardiovascular, o que deve ser considerado em recomendações de guidelines”. 

Se por um lado me parece adequada a colocação de que esta não é evidência suficiente para estabelecer ovo como fator de risco cardiovascular, as críticas deixam passar despercebido um elefante na sala: na verdade, este foi um estudo negativo!

O elefante fica escondido na sala quando nosso foco é direcionado para uma questão menos importante. Neste caso, a crítica foi erroneamente concentrada na natureza observacional do estudo. Neste post, primeiro explicarei por que as críticas estão fora de foco e depois revelarei o elefante na sala, explicando porque este é um estudo negativo, e não positivo.

Pesquisa de Dano em Estudos Observacionais


Na primeira metade do século passado, 80% da população ocidental era fumante e este hábito não era considerado prejudicial. O gastroenterologista Richard Doll investigou o tabagismo como uma possível causa de úlcera péptica e não encontrou associação. Então, ele olhou para além de sua especialidade e investigou o câncer de pulmão, em colaboração com o famoso estatístico Austin Bradford Hill. Esta investigação levou ao histórico artigo publicado no British Medical Journal em 1950, demonstrando que tabagismo causa câncer de pulmão. Foi um estudo observacional e até agora, claro, não há ensaio clínico randomizado comparando incidência de câncer entre tabagismo e placebo.

Devemos criticar a ideia de que fumar causa câncer porque a evidência veio de um estudo observacional? Então por que criticamos a natureza observacional do Estudo do Ovo em testar a ideia de que os ovos causam doenças cardiovasculares?

A crítica à natureza observacional destes estudos não considera a diferença entre dano e benefício, evitar e implementar, deixar de fazer e fazer, situações que possuem diferentes ônus da prova. 

Ao testar dano, um estudo positivo levará à recomendação de “evitar”. Ao testar efeito benéfico, um resultado positivo levará à recomendação de “fazer”. A consequência negativa de uma recomendação inadequada de “fazer” tende a ser pior do que a recomendação de “evitar”, portanto o ônus da prova no primeiro deve ser maior. Além disso, é comum que nos depararmos com impossibilidade ética de testar dano em desenho intervencionista, deixando os estudos observacionais como o melhor nível possível de evidência em muitas situações de dano. 

Quando falamos de intervenção (dietética, medicamentosa, procedimentos) é apropriado criticar recomendações oriundas de estudos observacionais. A terapia de reposição hormonal foi recomendada para prevenção cardiovascular com base em dados observacionais e, posteriormente, dados randomizados indicaram que essa terapia aumenta eventos cardiovasculares. Além disso, muitos mitos alimentares milagrosos são criados por dados observacionais.

Por outro lado, ao testar dano, não devemos ter uma regra geral de que um estudo  observacional não pode deve considerado confirmatório. Com critério, devemos avaliar a questão de perto e considerar duas condições que, se obedecidas, nos permitem a considerar a evidência observacional como suficiente para gerar um conceito de causalidade: primeiro, alta plausibilidade biológica, levando a alta probabilidade pré-teste da hipótese; segundo, uma associação muito forte: a taxa de risco para tabagismo e câncer ou para álcool e cirrose hepática são ambos em torno de 20, significando um aumento de risco relativo de 1900%.

Como exemplo, em postagem recente deste Blog, discutirmos as evidências de que diuréticos tiazídicos causam câncer de pele não melanoma, concluindo que estas obedecem aos critérios de causalidade. Provavelmente esta informação de dano é verdadeira. Mas às época as pessoas rejeitaram o estudo com base em seu desenho observacional. A rapidez das críticas por vezes dá a impressão de que os críticos não leram o estudo. Por isso um elefante na sala passa despercebido. 

Precisamos de slow science na interpretação dos trabalhos. Percebo comentários instantâneos nas redes sociais, típico da perigosa prática do fast science

Outra evidência de fast science são as precipitadas críticas ao recente trabalho apresentado em congresso europeu de arritmia que sugere dieta low carbo ser gatilho para fibrilação atrial (dano). Críticas não podem surgir antes de lermos o artigo, e ninguém leu, pois o artigo ainda não foi publicado. Por enquanto é apenas notícia de congresso. 

Portanto precisamos ler estudos observacionais e ao ler aplicar uma visão crítica. A hipótese testada no estudo do ovo foi de dano. Então, em vez de criticar a natureza do estudo, devemos cuidadosamente buscar as duas condições citadas acima.

Com relação à probabilidade pré-teste desta hipótese, é difícil compreender como meio ovo por dia seria suficiente para aumentar o risco de eventos cardiovasculares, já que os ovos são apenas uma pequena porção do colesterol dietético, e colesterol dietético não determina colesterol plasmático de acordo com ensaios clínicos. Em segundo lugar, o Estudo do Ovo mostra associação muito fraca, que não satisfaz nossa condição causal-observacional: risco relativo = 1,06, um aumento relativo de apenas 6%.

Portanto, ao ler apropriadamente este estudo observacional, com mente aberta para qualquer tipo de conclusão, concluímos o resultado não é suficiente para ser valorizado como confirmatório de causalidade. 

Mas não ficamos por aqui. Algo pior que foi perdido pela abordagem fast science: um verdadeiro elefante na sala. 

O Elefante na Sala


Juntamente com o consumo de ovos, o estudo avaliou o colesterol total da dieta. A análise dos efeitos diretos do ovo e do colesterol total da dieta, ajustados estatisticamente entre si, diferencia a natureza causal ou não causal da relação entre ovos e eventos cardiovasculares.

Veja como a análise conta uma história que faz sentido.

Tanto ovos quanto colesterol total da dieta foram associados a eventos cardiovasculares incidentes durante um seguimento mediano de 17,5 anos. Cada 300 mg adicionais de colesterol na dieta por dia aumentaria o risco em 17% após o ajuste para os fatores de risco. Cada meio ovo adicional aumentaria 6% do risco após o ajuste para os fatores de risco.

Agora, a análise multivariada: quando os ovos foram ajustados para o colesterol total da dieta, os ovos perderam totalmente a significância estatística (estudo negativo). Sugere que o consumo de ovos é apenas um marcador de uma dieta rica em colesterol. A verdadeira associação direta (embora isso não indique causalidade também) é entre colesterol total na dieta e eventos cardiovasculares. 

Para confirmar esse pensamento, quando o colesterol total da dieta foi ajustado para ovos, sua taxa de risco permaneceu a mesma, igualmente significativa. Assim, ovos não são intermediários da relação entre colesterol na dieta e eventos cardiovasculares, dando menos valor epidemiológico ao ovo. 

A primeira análise torna o estudo negativo para o valor preditivo independente dos ovos quanto a eventos cardiovasculares. A segunda análise mostra que o preditor independente é o colesterol total da dieta, após ajuste para ovos.

(OBS: no caso do colesterol total da dieta, preditor não é o mesmo que causador, predizer é uma condição necessária para sugerir causalidade, mas não suficiente. Mas meu assunto aqui é ovo).

Há outro truque para diferenciar a causalidade e confusão: comparar a mortalidade específica à não-específica.

A mortalidade depende de uma cadeia de eventos sujeitos a confusão. Assim, a análise da mortalidade específica fornece uma visão comparando as diferentes naturezas das mortes.

A maneira de diferenciar causalidade e confusão é testar a associação entre o preditor e um “desfecho fora de contexto”. A mortalidade cardiovascular é um "desfecho dentro de contexto" da hipótese de que o ovo causa doença cardiovascular. A mortalidade não cardiovascular não tem nada a ver com essa hipótese, sendo um “desfecho fora de contexto”. A associação do preditor com  um “desfecho fora de contexto” indica efeito de confusão no trabalho e estas variáveis de confusão podem mediar também o resultado do “desfecho contextual”.

Se o candidato a preditor de risco candidato estiver igualmente associado ao desfecho contextual (mortalidade cardiovascular) e ao desfecho fora de contexto (mortalidade não cardiovascular), a associação não é causal. O mesmo confundimento está mediando as duas associações.

Neste estudo, o consumo de ovos está associado a mortalidade cardiovascular. Pode fazer sentido. Mas foi similarmente associado à mortalidade não cardiovascular, o que não faz sentido. Indica uma forte influência do confundimento nesse ecossistema epidemiológico.

(OBS: o mesmo aconteceu para colesterol total da dieta. Mas meu assunto aqui é ovo).

Portanto, a ausência de valor preditor independente e a associação de ovo com um desfecho fora de contexto tornam este um estudo negativo, cuja conclusão sofreu um grosseiro spin positivo que não considerou o universo multivariado de estudos observacionais. 

Enquanto a leitura do um ensaio clínico é mais direta pois não há efeito de confusão, a leitura de um estudo observacional é mais laboriosa. A interpretação dos resultados deve levar em consideração a análise multivariada, que contém pistas da verdadeira realidade.

Minha Dieta


Eu como um ovo por dia, no café da manhã. O consumo médio nos Estados Unidos é de meio ovo por dia. Se a associação demonstrada no estudo fosse causal, meu hábito de ovo aumentaria meu risco em 6%. Como um homem de 49 anos, sem fatores de risco, tenho 5% de risco de eventos cardiovasculares. Comer meu ovo no café da manhã aumentaria meu risco de 5% para 5,3%. Portanto, manteria meu hábito mesmo que esse fosse um ensaio clínico randomizado que confirmasse o efeito deletério do ovo.

Isso me faz pensar. Nossa sequência de análise crítica, passa primeiro pela veracidade, depois pela relevância. Talvez devêssemos inverter essa ordem. Primeiro avaliar a força de associação, se o tamanho do efeito faz diferença. Se não, pouco importa a veracidade.

--------------------------------------------------------------------------------------------------------------------------

Mensagens Principais
  • Um estudo só deve ser comentado após sua devida publicação e leitura cuidadosa.
  • A regra de que estudos observacionais não demonstraram causalidade não deve ser generalizada para análise de dano
  • Duas condições devem ser obedecidas para confirmação de dano por estudo observacional: alta probabilidade pré-teste e grande tamanho de efeito.
  • Análise multivariada deve ser cuidadosamente analisada, pois resultados de ajustes estatísticos estão no cerne da avaliação da causalidade em estudos observacionais.
  • Um técnica de avaliação de efeito de confusão é a análise da associação com "desfechos fora de contexto".
  • Ovo não é o problema.
--------------------------------------------------------------------------------------------------------------------------

Acesse nosso Curso Online de MBE, clicando aqui