sábado, 30 de março de 2019

Devemos aposentar a significância estatística?


Na semana passada viralizou artigo da Nature com o título “Retire Statistical Significance”, o qual traz reflexão crítica a respeito do dogmatismo estatístico. Neste texto, apresentarei dois lados da mesma moeda. De um lado, o valor da reflexão trazida pelos autores, do outro lado, consequências não intencionais da aposentadoria do conceito de significância estatística. O primeiro ponto de vista tem relação com o viés da superestimativa do valor, o segundo ponto guarda relação com o viés do positivismo. 

O conceito de significância estatística é dicotômico, ou seja, categoriza a análise em positiva ou negativa. Categorizar traz utilidade pragmática, porém toda categorização é um reducionismo arbitrário. Ao categorizar por questões pragmáticas, deveríamos entender categorias como algo de menor valor do que a visão do todo. O paradoxo da categorização ocorre quando passamos a valorizar mais a informação por esta ser categórica do que uma informação contínua. A informação contínua aceita os tons de cinza, o intermediário, a dúvida, enquanto a categórica traz um tom (pseudo) definitivo à afirmação. 

Estatística é o exercício de reconhecer a incerteza, a dúvida, o acaso. A definição de significância estatística foi originalmente criada para dificultar afirmações decorrentes do acaso. O intervalo de confiança foi criado para descrever a imprecisão de nossas afirmações. Estatística é o exercício de integridade e humildade do cientista. 

No entanto, o paradoxo da categorização traz um certo dogmatismo. Primeiro, os autores do artigo da Nature apontam a supervalorização de resultados negativos. Na recente postagem “o sentido de estudos negativos” abordei exatamente isso: estudo negativo não é o que comprova inexistência, o que seria impossível; simplesmente, é um estudo que não comprovou existência. Portanto, a rigor “ausência de evidência não é evidência de ausência” como disse Carl Sagan (frase muito boa, porém sequestrada por crentes). Ou seja, “o estudo comprovou que não existe diferença” não é a melhor forma de colocar, melhor é “o estudo não comprovou diferença”.

Não devemos confundir esta colocação com a ideia de que um estudo negativo não quer dizer nada. Tem valor e tem impacto. O impacto de um estudo negativo (P > 0.05) está na redução da probabilidade de o fenômeno existir. Na medida em que bons estudos não conseguiram comprovar, a probabilidade do fenômeno vai caindo a ponto de ficar tão baixa que não vale mais a pensa continuar tentando provar, ficaremos com a hipótese nula como o caminho de pensamento mais provável. 

Um estudo negativo não é necessariamente contraditório com um estudo positivo. Pode ser que o resultado dos dois seja o mesmo, apenas um não conseguiu rejeitar a hipótese nula e outro estudo conseguiu rejeitar. Um não conseguiu ver e outro conseguiu ver. Na verdade, como discuti na postagem "estudo positivo versus negativo", na maioria das vezes apenas um dos dois estudos está correto. 

Por fim, o paradoxo da categorização faz com que acreditemos em qualquer significância estatística, embora a maioria seja falso positivo (Ioannidis). P < 0.05 não é comprovação irrefutável. Estudos subdimencionados, multiplicidade de análises secundárias, vieses podem fabricar falsa significância estatística.

Na verdade, o valor preditivo (negativo ou positivo) de estudos não reside apenas na significância estatística. Depende da qualidade do estudo e da análise, do ecossistema científico e da probabilidade pré-teste da ideia. 

Portanto, os autores do artigo da Nature estão corretos criticar a visão determinística da significância estatística. 

Mas será que devemos mesmo aposentar significância estatística? 

Seria aposentar um advento que historicamente foi responsável por uma grande evolução de integridade científica. No entanto, tudo que é bom tende a ser sequestrado. E artistas da falsa positivação de estudos sequestraram o advento do valor de P (feito para dificultar o erro tipo I) para provar coisas falsas. 

Se por um lado a aposentadoria da significância estatística evitaria o paradoxo da categorização, por outro lado abriria espaço para o viés da positividade, nosso tropismo por criar ou absorver informações positivas. 

A crítica à significância estatística, neste e em outros artigos da moda, não trazem uma alternativa melhor. Por exemplo, o próprio autor do trabalho do Nature reconhece que outras abordagens estatísticas mais recentes (bayesiana, por exemplo) não abandona o paradigma da categorização. Inclusive, em certas passagens os autores mencionam que não propõem um total abandono da noção de significância estatística. Na minha visão, o título não está de acordo com o verdadeiro teor do artigo. Acho que faltou uma interrogação no título: "Retire Statistical Significance?"

Hoje se fala muito mais em integridade científica do que há duas décadas. Mas ao abordar esse assunto com mais ênfase do que no passado, parece que este é um problema pior nos dias de hoje. Não é o caso. Experimentamos clara evolução de integridade científica: conceitos de multiplicidade são mais discutidos do que no passado, ensaios clínicos têm obrigatoriamente seus desenhos publicados a priori, normas CONSORT de publicação são exigidas por revistas, fala-se muito mais em transparência científica, open science, slow science. Estamos evoluindo. E o primeiro passo da integridade foi a criação da noção de significância estatística na primeira metade do século passado por Ronald Fisher. 

Trabalho publicado na PLOS One (Bob Kaplan) analisou durante um longo período de anos os resultados de ensaios clínicos financiados pelo NIH. Antes do ano 2000, quando não havia a necessidade de publicar previamente o protocolo, a frequência de estudos positivos era 57%, caindo para apenas 7% de estudos positivos após a regra de publicação a priori. Antes os autores positivavam seus estudos por análises múltiplas a posteriori. Hoje isso está muito melhorado pela obrigatoriedade de publicação a priori.

Parece que virou elegante criticar o valor de P, o que parece traição com um advento de grande importância histórica e que até agora não encontrou um substituto melhor. Não é culpa do P ter sido sequestrado por pesquisadores mal intencionados. É culpa dos pesquisadores. 

Portanto, proponho manter o valor de P e adotar as seguintes medidas:

  • Descrever o valor de P apenas quando o estudo tiver uma dimensão adequada para o teste de hipótese. Do contrário, este ganharia um caráter mais descritivo, sem utilizar associações para testes de conceitos. Isso evitaria falso positivos decorrentes de “estudos pequenos”, a maioria dos artigos publicados. Para se ter uma ideia, a mediana do poder estatístico de estudos em biomedicina é 20%.
  • Não descrever o valor de P em análises de desfechos secundários. 
  • Em análises de subgrupo (exploratórias), utilizar apenas o P da interação (mais conservador e difícil de dar significativo), evitando o valor de P obtido pela comparação dentro de um subgrupo (estudos pequenos). 
  • Incluir no CONSORT a obrigatoriedade de autores explicitarem no título de subestudos que aquela é uma análise exploratória e secundária de um estudo previamente publicado. 
  • Abandonar o termo significância estatística, substituindo-o por veracidade estatística. Estatística é utilizada para diferenciar associações causais verdadeiras de pseudocausalidades mediadas pelo acaso. Portanto um valor de P < 0.05 conota veracidade. Se a associação é significante (relevante), depende da descrição da diferença numérica ou das medidas de associação de desfechos categóricos. Utilizemos, portanto, veracidade estatística, isso evitará a confusão entre significância estatística e significância clínica. 

Finalmente proponho o advento do índice de integridade do pesquisador.

Este índice será calculado pela razão entre o número de estudos negativos / número de estudos positivos. Um índice de integridade < 1 indica um pesquisador de integridade questionável. Este índice se baseia na premissa de que a probabilidade de uma boa hipótese ser verdadeira é menor do que 50%. Portanto, deveria haver mais estudos negativos do que estudos positivos. Isto não ocorre devidos às técnicas de positivação de estudos (pequenos trabalhos, multiplicidades, vieses, spin de conclusões) e pelo viés de publicação que esconde os estudos negativos. Um autor íntegro seria aquele não utiliza destas práticas, portanto teria vários estudos negativos e poucos positivos, resultando em índice de integridade bem superior a 1.

O artigo da Nature foi útil para promover reflexão sobre pros e cons da significância estatística. Mas não chega a propor aposentadoria. Seria como aposentar um daquelas pessoas ainda muito produtivas. Pelo contrário, que a significância estatística continue atuante e evoluindo progressivamente na forma de utilização. A tese de doutorado do meta-cientista Diego Rabelo, orientado por mim, tem como objetivo a criação e validação deste índice. Teremos resultados em breve. 

Que aprendamos a valorizar também um P > 0.05. Afinal, a imprevisibilidade da vida é representada por esta simbologia, boa parte do nosso destino é mediado pelo acaso. 

Ou nada é por acaso?


--------------------------------------------------------------------------------------------------------------------------


Acesse nosso Curso Online de MBE, clicando aqui

terça-feira, 26 de março de 2019

O Estudo do Ovo e o Elefante na Sala



O Estudo do Ovo publicado no Journal of American Medical Association este mês tem sido amplamente criticado entre os pensadores baseados em evidências por ter concluído que “consumo de ovo foi significantemente associado a aumento de risco cardiovascular, o que deve ser considerado em recomendações de guidelines”. 

Se por um lado me parece adequada a colocação de que esta não é evidência suficiente para estabelecer ovo como fator de risco cardiovascular, as críticas deixam passar despercebido um elefante na sala: na verdade, este foi um estudo negativo!

O elefante fica escondido na sala quando nosso foco é direcionado para uma questão menos importante. Neste caso, a crítica foi erroneamente concentrada na natureza observacional do estudo. Neste post, primeiro explicarei por que as críticas estão fora de foco e depois revelarei o elefante na sala, explicando porque este é um estudo negativo, e não positivo.

Pesquisa de Dano em Estudos Observacionais


Na primeira metade do século passado, 80% da população ocidental era fumante e este hábito não era considerado prejudicial. O gastroenterologista Richard Doll investigou o tabagismo como uma possível causa de úlcera péptica e não encontrou associação. Então, ele olhou para além de sua especialidade e investigou o câncer de pulmão, em colaboração com o famoso estatístico Austin Bradford Hill. Esta investigação levou ao histórico artigo publicado no British Medical Journal em 1950, demonstrando que tabagismo causa câncer de pulmão. Foi um estudo observacional e até agora, claro, não há ensaio clínico randomizado comparando incidência de câncer entre tabagismo e placebo.

Devemos criticar a ideia de que fumar causa câncer porque a evidência veio de um estudo observacional? Então por que criticamos a natureza observacional do Estudo do Ovo em testar a ideia de que os ovos causam doenças cardiovasculares?

A crítica à natureza observacional destes estudos não considera a diferença entre dano e benefício, evitar e implementar, deixar de fazer e fazer, situações que possuem diferentes ônus da prova. 

Ao testar dano, um estudo positivo levará à recomendação de “evitar”. Ao testar efeito benéfico, um resultado positivo levará à recomendação de “fazer”. A consequência negativa de uma recomendação inadequada de “fazer” tende a ser pior do que a recomendação de “evitar”, portanto o ônus da prova no primeiro deve ser maior. Além disso, é comum que nos depararmos com impossibilidade ética de testar dano em desenho intervencionista, deixando os estudos observacionais como o melhor nível possível de evidência em muitas situações de dano. 

Quando falamos de intervenção (dietética, medicamentosa, procedimentos) é apropriado criticar recomendações oriundas de estudos observacionais. A terapia de reposição hormonal foi recomendada para prevenção cardiovascular com base em dados observacionais e, posteriormente, dados randomizados indicaram que essa terapia aumenta eventos cardiovasculares. Além disso, muitos mitos alimentares milagrosos são criados por dados observacionais.

Por outro lado, ao testar dano, não devemos ter uma regra geral de que um estudo  observacional não pode deve considerado confirmatório. Com critério, devemos avaliar a questão de perto e considerar duas condições que, se obedecidas, nos permitem a considerar a evidência observacional como suficiente para gerar um conceito de causalidade: primeiro, alta plausibilidade biológica, levando a alta probabilidade pré-teste da hipótese; segundo, uma associação muito forte: a taxa de risco para tabagismo e câncer ou para álcool e cirrose hepática são ambos em torno de 20, significando um aumento de risco relativo de 1900%.

Como exemplo, em postagem recente deste Blog, discutirmos as evidências de que diuréticos tiazídicos causam câncer de pele não melanoma, concluindo que estas obedecem aos critérios de causalidade. Provavelmente esta informação de dano é verdadeira. Mas às época as pessoas rejeitaram o estudo com base em seu desenho observacional. A rapidez das críticas por vezes dá a impressão de que os críticos não leram o estudo. Por isso um elefante na sala passa despercebido. 

Precisamos de slow science na interpretação dos trabalhos. Percebo comentários instantâneos nas redes sociais, típico da perigosa prática do fast science

Outra evidência de fast science são as precipitadas críticas ao recente trabalho apresentado em congresso europeu de arritmia que sugere dieta low carbo ser gatilho para fibrilação atrial (dano). Críticas não podem surgir antes de lermos o artigo, e ninguém leu, pois o artigo ainda não foi publicado. Por enquanto é apenas notícia de congresso. 

Portanto precisamos ler estudos observacionais e ao ler aplicar uma visão crítica. A hipótese testada no estudo do ovo foi de dano. Então, em vez de criticar a natureza do estudo, devemos cuidadosamente buscar as duas condições citadas acima.

Com relação à probabilidade pré-teste desta hipótese, é difícil compreender como meio ovo por dia seria suficiente para aumentar o risco de eventos cardiovasculares, já que os ovos são apenas uma pequena porção do colesterol dietético, e colesterol dietético não determina colesterol plasmático de acordo com ensaios clínicos. Em segundo lugar, o Estudo do Ovo mostra associação muito fraca, que não satisfaz nossa condição causal-observacional: risco relativo = 1,06, um aumento relativo de apenas 6%.

Portanto, ao ler apropriadamente este estudo observacional, com mente aberta para qualquer tipo de conclusão, concluímos o resultado não é suficiente para ser valorizado como confirmatório de causalidade. 

Mas não ficamos por aqui. Algo pior que foi perdido pela abordagem fast science: um verdadeiro elefante na sala. 

O Elefante na Sala


Juntamente com o consumo de ovos, o estudo avaliou o colesterol total da dieta. A análise dos efeitos diretos do ovo e do colesterol total da dieta, ajustados estatisticamente entre si, diferencia a natureza causal ou não causal da relação entre ovos e eventos cardiovasculares.

Veja como a análise conta uma história que faz sentido.

Tanto ovos quanto colesterol total da dieta foram associados a eventos cardiovasculares incidentes durante um seguimento mediano de 17,5 anos. Cada 300 mg adicionais de colesterol na dieta por dia aumentaria o risco em 17% após o ajuste para os fatores de risco. Cada meio ovo adicional aumentaria 6% do risco após o ajuste para os fatores de risco.

Agora, a análise multivariada: quando os ovos foram ajustados para o colesterol total da dieta, os ovos perderam totalmente a significância estatística (estudo negativo). Sugere que o consumo de ovos é apenas um marcador de uma dieta rica em colesterol. A verdadeira associação direta (embora isso não indique causalidade também) é entre colesterol total na dieta e eventos cardiovasculares. 

Para confirmar esse pensamento, quando o colesterol total da dieta foi ajustado para ovos, sua taxa de risco permaneceu a mesma, igualmente significativa. Assim, ovos não são intermediários da relação entre colesterol na dieta e eventos cardiovasculares, dando menos valor epidemiológico ao ovo. 

A primeira análise torna o estudo negativo para o valor preditivo independente dos ovos quanto a eventos cardiovasculares. A segunda análise mostra que o preditor independente é o colesterol total da dieta, após ajuste para ovos.

(OBS: no caso do colesterol total da dieta, preditor não é o mesmo que causador, predizer é uma condição necessária para sugerir causalidade, mas não suficiente. Mas meu assunto aqui é ovo).

Há outro truque para diferenciar a causalidade e confusão: comparar a mortalidade específica à não-específica.

A mortalidade depende de uma cadeia de eventos sujeitos a confusão. Assim, a análise da mortalidade específica fornece uma visão comparando as diferentes naturezas das mortes.

A maneira de diferenciar causalidade e confusão é testar a associação entre o preditor e um “desfecho fora de contexto”. A mortalidade cardiovascular é um "desfecho dentro de contexto" da hipótese de que o ovo causa doença cardiovascular. A mortalidade não cardiovascular não tem nada a ver com essa hipótese, sendo um “desfecho fora de contexto”. A associação do preditor com  um “desfecho fora de contexto” indica efeito de confusão no trabalho e estas variáveis de confusão podem mediar também o resultado do “desfecho contextual”.

Se o candidato a preditor de risco candidato estiver igualmente associado ao desfecho contextual (mortalidade cardiovascular) e ao desfecho fora de contexto (mortalidade não cardiovascular), a associação não é causal. O mesmo confundimento está mediando as duas associações.

Neste estudo, o consumo de ovos está associado a mortalidade cardiovascular. Pode fazer sentido. Mas foi similarmente associado à mortalidade não cardiovascular, o que não faz sentido. Indica uma forte influência do confundimento nesse ecossistema epidemiológico.

(OBS: o mesmo aconteceu para colesterol total da dieta. Mas meu assunto aqui é ovo).

Portanto, a ausência de valor preditor independente e a associação de ovo com um desfecho fora de contexto tornam este um estudo negativo, cuja conclusão sofreu um grosseiro spin positivo que não considerou o universo multivariado de estudos observacionais. 

Enquanto a leitura do um ensaio clínico é mais direta pois não há efeito de confusão, a leitura de um estudo observacional é mais laboriosa. A interpretação dos resultados deve levar em consideração a análise multivariada, que contém pistas da verdadeira realidade.

Minha Dieta


Eu como um ovo por dia, no café da manhã. O consumo médio nos Estados Unidos é de meio ovo por dia. Se a associação demonstrada no estudo fosse causal, meu hábito de ovo aumentaria meu risco em 6%. Como um homem de 49 anos, sem fatores de risco, tenho 5% de risco de eventos cardiovasculares. Comer meu ovo no café da manhã aumentaria meu risco de 5% para 5,3%. Portanto, manteria meu hábito mesmo que esse fosse um ensaio clínico randomizado que confirmasse o efeito deletério do ovo.

Isso me faz pensar. Nossa sequência de análise crítica, passa primeiro pela veracidade, depois pela relevância. Talvez devêssemos inverter essa ordem. Primeiro avaliar a força de associação, se o tamanho do efeito faz diferença. Se não, pouco importa a veracidade.

--------------------------------------------------------------------------------------------------------------------------

Mensagens Principais
  • Um estudo só deve ser comentado após sua devida publicação e leitura cuidadosa.
  • A regra de que estudos observacionais não demonstraram causalidade não deve ser generalizada para análise de dano
  • Duas condições devem ser obedecidas para confirmação de dano por estudo observacional: alta probabilidade pré-teste e grande tamanho de efeito.
  • Análise multivariada deve ser cuidadosamente analisada, pois resultados de ajustes estatísticos estão no cerne da avaliação da causalidade em estudos observacionais.
  • Um técnica de avaliação de efeito de confusão é a análise da associação com "desfechos fora de contexto".
  • Ovo não é o problema.
--------------------------------------------------------------------------------------------------------------------------

Acesse nosso Curso Online de MBE, clicando aqui

terça-feira, 12 de março de 2019

Qual a discussão mais importante: telemedicina ou medicina?





Artigo de Luis Correia, publicado hoje no Jornal A Tarde.


Espantoso o volume do debate atual sobre o tema “telemedicina”. Mais espantosa é a escassez crônica de debate a respeito da mais importante tecnologia médica: o pensamento. 

Pouco se discute o quanto adequada é a utilização da cognição médica. Vieses cognitivos são limitações intrínsecas da mente humana, que se refletem também no pensamento médico. Menciono neste texto dois vieses que se entrelaçam com a estranha intensidade da discussão sobre telemedicina.

O viés anti-econômico, demostrado pela ciência da economia comportamental: a mente tende a superestimar o benefício de nossas ações e subestimar o custo. A mente médica, humana que é, sofre do mesmo. Às vezes, condutas de alto custo pessoal são propostas em troca de benefícios modestos e duvidosos. Não é por mal, é porque somos humanos e carreamos esses vieses cognitivos de origem evolutiva, biológica. A mente anti-econômica está no cerne do uso inapropriado de condutas médicas.

Segundo, o vies da “troca da pele no jogo”. Sem sentir, decidimos mais por nós do que pelo paciente. Uma das razões da dificuldade cognitiva é a assimetria entre custo e benefício. Quando ocorre um benefício clínico, este também se reflete em benefício ao médico, que se sente realizado em sua profissão, passa a ser mais reconhecido por pacientes e por pares. Mas o custo da conduta predomina na “pele” do paciente. Quando se trata do “preço” a pagar, a nossa “pele” não está no jogo na mesma intensidade da “pele” do paciente.

Esses vieses não ocorrem por má intenção. Mas podemos ser melhor treinados a utilizar nossa tecnologia de pensamento.

A válida discussão sobre benefício versus malefício da telemedicina deveria estar presente em qualquer tecnologia (novos exames, novos tratamentos, novos processos). O que surpreende é um surgimento repentino da mente econômica para o tema telemedicina, não ocorrendo com outros assuntos mais críticos.

O motivo pode estar na “troca da pele no jogo”. Neste contexto, quando se fala em “uberização” da medicina pela telemedicina, estamos mais preocupados com os pacientes ou com nós médicos? Afinal, é taxista que não gosta de Uber. Suspeito que o segundo viés prevaleceu (troca da pele), corrigindo paradoxalmente o primeiro viés (anti-econômico). 

Caberia a sugestão de discutir um pouco menos “telemedicina” e mais “medicina”: conflitos de interesse, práticas pseudo-científicas; superutilização de exames e intervenções;  subutilização de condutas benéficas. 

Temo que o enfoque excessivo no tele (longe) seja uma fuga do desconforto cognitivo que surge ao discutimos nossas próprias limitações no uso da principal tecnologia médica: o pensamento.

segunda-feira, 4 de março de 2019

A Incompreendida Cegueira da Experiência Clínica



É comum médicos afirmarem de forma eloquente e pretensiosa que “estou tendo ótimos resultados com tal medicação” ou “em minha experiência a conduta é benéfica”. No entanto, para grande parte das circunstâncias mencionadas, é impossível perceber benefício a partir da experiência. 

A experiência é cega a benefícios de condutas voltadas para melhorar prognóstico.

Quando se trata de controle de sintomas, se o benefício da conduta for grande, consistente e o efeito for imediato, é possível que o médico consiga notar o impacto a partir de observações clínicas. Por exemplo, morfina para uma dor intensa. O controle de sintomas é consistente (quase em todos), de grande magnitude e imediato. A rapidez de resposta permite que o observador perceba com mais clareza a relação causal entre intervenção e resultado. 

Este é o caso do aprendizado por jogo. Uma jogada muito errada no xadrez quase sempre resulta em uma derrota rápida. Por isso que jogadores conseguem aprimorar seu jogo a partir da experiência.

No entanto, estas são situações quase óbvias, que não requerem muito argumento. Não são nestas situações que médicos usam de forma eloquente o argumento da experiência clínica.

O argumento da experiência clínica é utilizado nas situações de maior incerteza e quando evidências científicas são questionáveis. Neste momento, "a experiência" aparece como a validação final da ideia. E são exatamente nestas situações que é impossível se notar o benefício (ou malefício) a partir da observação clínica. 

Estas são situações em que a intervenção acontece no presente, a fim de reduzir (ou aumentar) o risco no futuro: não é efeito imediato. Segundo, em se tratando de futuro, o benefício é muito mais incerto. São situações probabilísticas, que sofrem da incerteza do “número necessário a tratar”. 

Nestas situações, a prática não incrementa nossa capacidade de tomada de decisão. Pelo contrário, a tentativa de criar conceitos de eficácia com base na experiência representa um bom exemplo de viés de confirmação. 

Nestas situações, usar a experiência é uma forma de desaprender com base em ilusão prática.

Em situações prevalentes (melhora de sintoma), o NNT tende a se aproximar do 1. Em situações incidentes (melhora do futuro - prognóstico), o NNT tente a se distanciar do 1 no sentido do infinito.

Isto acontece por dois motivos. Nas situações prevalentes todos os pacientes estão precisando do tratamento. Mas na prevenção de eventos futuros, apenas uma pequena parte dos pacientes realmente precisa do tratamento: aqueles que sofrerão o desfecho futuro. Mas como não sabemos quem são, tratamos em todos e muitos que não precisariam acabam sendo tratados, aumentando o NNT para se obter um benefício. Segundo, aliviar um sintoma é usualmente mais fácil do que prevenir um desfecho, portanto o tamanho do efeito de tratamentos de sintomas presentes é maior do que o da prevenção de eventos futuros. 

Um grande exemplo atual é a (cada vez mais comum) afirmação de cardiologistas de que seus pacientes com insuficiência cardíaca crônica têm se beneficiado da nova medicação intitulada comercialmente de “Entresto”. Já discutimos neste Blog a falácia do estudo PARADIGM-HF, artigo também publicado nos Arquivos Brasileiros de Cardiologia em versão mais formal. Aquele estudo concluiu pela eficácia de uma nova droga (sacubitril) a partir de uma grave assimetria de terapia adjuvante entre os grupos droga e placebo. O estudo demonstrou redução do combinado de morte ou internamento por insuficiência cardíaca, dois desfechos futuros.

A falácia metodológica do estudo gera incerteza. Para compensar essa incerteza, cardiologistas têm usado de sua eloquência, tendo sido cada vez mais comum a frase: “em minha experiência tenho tido ótima resposta ao Entresto”. 


Análise Matemática da Frase


O NNT do estudo PARADIGM-HF é 21 para redução do combinado de morte ou internamento, um benefício que seria de grande magnitude. Mas como um médico conseguiria perceber um NNT de 21 na prática clínica.?

Imaginem que ele tivesse 21 pacientes usando Entresto e 21 pacientes sem usar Entresto. Em 20 de cada grupo a evolução seria a mesma, apenas se perceberia a diferença de evolução no vigésimo primeiro paciente de cada grupo. Isto é imperceptível na vida cotidiana. 

Esta é a “falácia da impressão clínica prognóstica”, pois é impossível perceber 1 em 21 “a olho nu” ou “a olho clínico”.

Se pensarmos em 100 pacientes tratados em cada grupo, a diferença entre os grupos seria apenas de 4 pacientes. 4 em 100 pacientes: como perceber o fenômeno retratado na figura abaixo?





Portanto vamos parar de usar esse argumento, que beira o ridículo. 

Certa feita um estatístico contou a história de seus dois filhos adotivos. A filha era uma criança que foi adotada na China. O filho era americano. Um belo dia a menina falou: “meninas vem da China, meninos vem dos Estados Unidos.” A inocência da criança mostra um traço da mente humana: concluir com base em pequenas amostras. 

Parece caricatural a menina ter concluído isso? Mas é exatamente isso que médicos fazem, quando depois de três experiências consecutivas bem-sucedidas concluem que algo funciona. 

Por trás disso está o viés de confirmação. Como a prática clínica não é um ambiente científico experimental, qualquer conduta é baseada na crença de benefício. Se prescrevo algo, é porque acredito no benefício, seria antiético prescrever algo em que não acredito. Portanto, a prática clínica é um ambiente naturalmente crente, predispondo ao viés de confirmação. Ao partir da crença e ao observar o mundo a nossa volta, cairemos na armadilha cognitiva de procurar evidências a favor do que acreditamos. Registraremos em nossa memória os pacientes que evoluíram de acordo com nossa crença e validaremos nossa conduta, sem computar simetricamente pacientes que rejeitaram nossa crença. Quando esses aparecem é porque eram muito graves, nem todo paciente responde mesmo.

Isso é diferente do ambiente científico, em que partimos do ceticismo e só rejeitamos a hipótese nula quando a evidência está muito além do acaso e de efeitos mediados por vieses. 

Para complicar, a prática clínica é repleta de viés de desempenho. A tendência do médico preocupado que muda o tratamento do paciente para Entresto é fazer outros aprimoramentos em sua conduta, ajustar o diurético, orientar melhor a dieta. Portanto, mesmo que fosse possível perceber o resultado, seria impossível saber o que teria causado aquele resultado.


Conclusão


A experiência clínica tem um valor inestimável em medicina. Experiência é essencial na aplicação individual de um conceito científico, na percepção dos valores do paciente, na decisão compartilhada, na geração de uma hipótese diagnóstica. Mas não podemos banalizar e prejudicar o valor da experiência clínica pelo seu uso caricato e inapropriado. 

A experiência clínica é cega para efetividade de condutas prognósticas. E médico tem sido cegos em relação à limitação de sua própria experiência. 


-------------------------------------------------------------------------------------------------------------------------


Acesse nosso Curso Online de MBE, clicando aqui

sábado, 2 de março de 2019

A Arte de Ler um Subestudo: PROMISE, falsa promessa em diabéticos



Este é mais um texto da série “A Arte de Ler um Artigo Científico”. Nesta postagem abordaremos artigos construídos a partir de subanálises de grande estudos. 
No texto original desta série, propusemos um momento de preparação mental antes da leitura, no qual tentamos controlar nossos vieses pessoais e ao mesmo tempo identificar situações onde nosso ceticismo deve estar mais aguçado. Esta postagem exemplifica uma frequente situação em que devemos estar muito atentos: análises secundárias de estudos originalmente negativos. 

Devemos aguçar o ceticismo pois este tipo de publicação representa, na maioria das vezes, tentativa de positivar um estudo originalmente negativo. E há tantas forma de positivar (P-hacking, statistical fishing) que o resultado é quase garantido se for suficientemente procurado. Isto ocorre principalmente quando as análises não são predeterminadas (pois isso dá margem a um grande número de tentativas) e quando se combina várias estratégias para dar "chance ao acaso" se apresentar. Assim, publicações secundariamente originadas de grandes estudos representam grande fonte de ilusões mediadas por erros aleatórios, sistemáticos e baixa probabilidade pré-teste de hipóteses. 

Enquanto grandes estudos originais, independente da especialidade, são usualmente publicados nas grandes revistas de medicina interna (NEJM, JAMA, Lancet, BMJ), suas análises secundárias aparecem nas melhores revistas das especialidades. No caso de minha especialidade, cardiologia, as subanálises de grandes estudos são frequentemente publicadas no renomados Journal of the American College of Cardiology e Circulation, revistas com fator de impacto 17 e 19, respectivamente. Se nos parece frequente problemas de veracidade em estudos publicados nas grandes revistas de medicina, fica ainda mais evidente a tolerância com desvios de integridade científica pelas revistas top das especialidades. E esta tolerância é acompanhada pela comunidade de especialistas, que sofrendo do viés de citação espalham entusiasticamente notícias de trabalhos (pseudo) positivos.  

O exemplo didático, nos presenteado esta semana, é o subestudo do PROMISE que retestou a hipótese original no subgrupo de diabéticos. O PROMISE, publicado originalmente em 2015, foi um grande (N = 10.000) ensaio clínico randomizado que comparou duas estratégias de investigação de doença coronária em pacientes sintomáticos: pesquisa anatômica (angiotomografia) versus métodos funcionais. O estudo não encontrou diferença de desfechos clínicos entre os dois métodos (estudo negativo). 

Agora, quatro anos depois é publicada a subanálise sugerindo que em diabéticos a angiotomografia é superior a métodos funcionais.

Contextualização Clínico-Científica


O PROMISE original (NEJM) estudo foi motivo de postagem neste Blog, na qual eu mencionava que não havia razão para o ônus da prova de superioridade estar apenas na tomografia. Deveria ser uma hipótese científica bidirecional. E se o fosse, a conclusão adequada seria que não foi encontrada superioridade de nenhum dos métodos. Em minha interpretação, aquele estudo derrubava o mito (implausível e não baseado em evidências) de que métodos indiretos de pesquisa de isquemia seriam melhores do que estudo da anatomia (veja post Reflexo Óculo-isquêmico). O PROMISE foi uma evidência de qualidade, capaz de colocar a estratégia anatômica, do ponto de vista de desfechos, como um método tão bom quanto os métodos “funcionais”. 

Em minha opinião clínica, o resultado do PROMISE alinhado à comprovadas vantagens de se conhecer anatomia (acometimento de tronco, noção de número de vasos acometidos, carga aterosclerótica, sem falar da “extrema normalidade da tomografia normal”) faz deste o método não invasivo de escolha em pacientes com suspeita de doença coronária, que não tenham probabilidade alta de calcificação coronária extrema. 

Emito aqui minha visão clínica dois motivos: primeiro, acho que já temos informações científicas suficientes para não precisar fabricar mais dados em prol de nenhum dos lados; segundo, proponho sempre que avaliemos nossas “evidências internas” antes de avaliar evidências externas. Neste caso, minha tendência é pela avaliação anatômica. Até mesmo porque, salvo exceções, alterações em métodos funcionais são meras consequências de obstruções anatômicas. Melhor olhar a fonte do problema, as coronárias. Por mais grosseira que esta colocação pareça aos românticos ouvidos clínicos, é um pensamento que resulta da interface entre evidências e raciocínio clínico. 

Vamos à subanálise do PROMISE que, como perceberão, de promessa não tem nada. Esta nova publicação representa uma confluência de problemas com multiplicidade, viés de confusão e baixa racionalidade da hipótese testada.

Sabemos que análises de subgrupo positivas são problemáticas em estudos negativos por variadas razões que se somam: multiplicidade de testes, amostras menores que a original, implausibilidade de interações. Tudo isso aumenta a probabilidade do erro aleatório tipo I (se valer do acaso para afirmar algo falso). Mas não bastou fazer uma análise de subgrupo, estes estudo combinou a análise com uma série de problemas, listados abaixo:

  1. Esta não é simplesmente uma análise de subgrupo (diabetes versus não diabetes). É uma análise de subgrupo de um desfecho secundário. Sabemos que análise de um desfecho secundário é outra forma de fabricar significância estatística. Pois bem, o estudo combina em uma única análise duas maneiras de fabricar o erro tipo I.
  1. Para piorar, o estudo fez a análise de subgrupo não apenas de um desfecho secundário, mas de dois desfechos secundários. O primeiro deu negativo (P da interação = 0.10) e o outro deu positivo (P da interação = 0.02). Portanto, multiplicou ainda mais a multiplicidade já contida na combinação de subgrupo com desfecho secundário.
  1. A análise do subgrupo "diabetes" não foi definida a priori. No protocolo publicado, a análise pré-especificada se referia ao desfecho “DAC equivalente” (combinado de diabetes, doença vascular periférica e doença cérebro vascular), que foi negativa no estudo primário. Portanto, essa é uma análise post hoc (inventada depois - nunca se sabe quantas invenções se tenta nos bastidores), o que inflaciona o problema das múltiplas comparações. 
  1. Finalmente, os autores criam um erro sistemático (viés): diferente do que foi feito no trabalho original, esta é não é uma análise por “intenção de testar” (equivalentemente à “intenção de tratar dos estudos de tratamento), a qual preveniria viés de confusão a posteriori da randomização. Na verdade, eles fazem uma “análises por protocolo” na medida em que excluem 1.000 pacientes que julgaram inadequados para a interpretação do exame. Exclusão de pacientes após a randomização traz risco de eliminar a homogeneidade das amostras. Principalmente quando o critério de exclusão carrega consigo pacientes de maior risco: um dos maiores motivos da dificuldade de análise da angiotomografia é a presença de calcificação coronária, a qual traduz carga aterosclerótica. Portanto no grupo tomografia provavelmente foram excluídos pacientes com maior carga aterosclerótica do que a média do grupo. Por outro lado, isso não acontece nos demais métodos não invasivos, nos quais as dificuldades de interpretação decorrem de problemas extra-cardíacos como janela ecocardiográfica ou atenuações mamárias/diafragmáticas. Sendo assim, a exclusão de pacientes da análise retirou indivíduos com maior carga aterosclerótica do grupo tomografia e retirou pacientes aleatórios do grupo funcional. Isso pode ter sido responsável pela pequena diferença absoluta de 1.5% observada no PROMISE. É bem verdade que esse viés pode ter ocorrido também no grupo de não diabéticos, onde não foi observada a diferença entre os métodos. No entanto, diabéticos podem ter mais calcificação do que não diabéticos, o que faria com que o viés da "análise por protocolo" fosse mais forte nos diabéticos. 

Desta forma, este é um trabalho secundário com alto risco de erro aleatório e viés. Trabalhos secundários nunca devem ser vistos como confirmatórios, porém a esses pode restar um valor de sugerir uma ideia. No caso presente, fica difícil dar qualquer credibilidade ao subestudo. 

Até aqui apresentei uma simples e quase óbvia discussão metodológica da validade interna deste trabalho. Porém esta discussão se torna mais interessante quando vamos além do metodológico,  abordando a qualidade da ideia testada. Pois o valor preditivo positivo de um estudo depende não só da qualidade do trabalho, como também da qualidade da ideia. 


A Qualidade da Ideia


Em primeiro lugar, devemos nos lembrar que o fenômeno de interação (modificação de efeito) é raro no campo científico biomédico (vejam post A Ilusão de Interação). Percebam como as análises de subgrupo de estudos positivos ou negativos quase sempre mostram consistência de resultado. Isto ocorre pois medidas relativas de risco não sofrem modificação com o risco absoluto da população. Para diferentes estratos de risco absoluto, a regra é observamos uma mesma redução relativa de risco, que representa a propriedade intrínseca da intervenção. Para quem continua na dúvida dessa propriedade, comparem a redução do risco relativo da estatina ou aspirina de pacientes de prevenção primária versus secundária. É a mesma redução relativa de risco, o que muda é o NNT, que é uma medida de impacto individual. 

Portanto, em geral uma análise de subgrupo de um estudo negativo já parte de uma baixa probabilidade pré-teste.

Partimos agora para a plausibilidade específica da ideia. Qual a diferença de diabéticos em relação a não diabéticos que poderia ter motivado estudar aquele subgrupo específico? Os autores comentam na introdução que diabéticos têm maior risco absoluto. Aí está o erro da hipótese. Risco absoluto não promove interação! Não há porque a tomografia ser um método igual aos demais em não diabéticos e se mostrar melhor em não diabéticos. A não ser que diabéticos tivessem menos calcificação, o que não é o caso.

Em geral, um verdadeiro efeito de interação é pouco provável em um estudo originalmente negativo. Há exceções em casos de grande plausibilidade. Neste presente caso, estamos diante da possibilidade de um diagnóstico que leva a um tratamento para doença coronariana, beneficiando o paciente no final da cascata de causalidade. Não há razão biológica para “acreditar” que a uma abordagem não teria efeito algum nos pacientes em geral, mas em diabéticos surgiria um efeito evidente. Muito mais provável o resultado encontrado ser decorrente de acaso + viés.

A maioria dos fenômenos naturais que fazem sentido a olho nu decorrem de acaso ou viés. Daí a importância de um filtro desses ruídos que se confundem com sinais verdadeiros. O filtro é o método científico, que originalmente foi criado para eliminar estes problemas, e não para criar falsas ideias (o problema da integridade cientÍfica). 

Finalmente, na análise bayesiana deste trabalho, o subPROMISE testa uma hipótese de baixa probabilidade pré-teste em um desenho de estudo de baixa qualidade, o qual não consegue elevar essa probabilidade para níveis intermediários. Portanto, esse é mais um estudo de baixíssimo valor preditivo positivo. 

Não precisava ...


Os Problemas nas Entrelinhas


A nossa análise de validade interna do subestudo PROMISE traduz erros metodológicos grosseiros. No entanto, grosseiro não é sinômino de claro. Embora falhas metodológicas grosseiras não sejam omitidas, boa parte deles não está explícito do texto do artigo, mais sim implícito de uma forma descritiva, cabendo ao leitor elaborar um pensamento do que se tratam certas descrições. Seria quase como ler nas entrelinhas. 

Neste subestudo do PROMISE não está explícito que esta é uma “análise por protocolo, de subgrupo, definida a posteriori, de um desfecho secundário". Vejamos ponto por ponto no texto como está escrito no artigo:

Análise de Subgrupo

Para um leitor desavisado, que costuma ler apenas o título, objetivo e conclusão, este estudo facilmente passaria por um trabalho feito apenas em diabéticos. 

Título: Stress Testing Versus CT Angiography in Patients With Diabetes and Suspected Coronary Artery Disease
Objetivo: The purpose of this study was to assess whether a diagnostic strategy based on coronary computed tomographic angiography (CTA) is superior to functional stress testing in reducing adverse cardiovascular (CV) outcomes (CV death or myocardial infarction [MI]) among symptomatic patients with diabetes.
Conclusão: In diabetic patients presenting with stable chest pain, a CTA strategy resulted in fewer adverse CV outcomes than a functional testing strategy.

Observem, nestas que são as mais importantes sentenças do artigo, que em nenhum momento há menção de que o estudo se trata da comparação do resultado do ensaio clínico entre diabéticos e não diabéticos (interação). Faz parecer que a tomografia foi comparada a métodos funcionais em uma única população de diabéticos. Não está explícito de que esta é uma análise secundária. 

Falo sobre leitores desavisados, porém eu mesmo sou um deles. Na verdade, leio poucos artigos por semana da forma ideal. Nos demais, passo o olho só para saber o que está acontecendo. Este particularmente me chamou atenção, pois eu já conhecia o PROMISE, portanto notei logo que seria um análise de subgrupo. Mas eu poderia ser enganado. 

Deveria constar no título que um trabalho representa uma subanálise de um estudo original. Isso daria plena transparência. A propósito, esta é uma  falha do checklist do CONSORT, que orienta apenas que o desenho geral do estudo (randomizado) seja mencionado no título.

Seria simples deixar isso transparente escrevendo algo como: Effect of diabetes in the comparison between Stress Testing Versus CT Angiography in Patients With Suspected Coronary Artery Disease: a PROMISE Substudy.

Na descrição do trabalho também não está explícito de que esta é uma análise de subgrupo, nem explícito que é não era predefinida. Vejam o momento em que percebemos que é uma análise que compara diabetes com não diabetes:

"We used contemporary data from PROMISE (Prospective Multicenter Imaging Study for Evaluation of Chest Pain), a randomized trial of diagnostic evaluation strategy in stable outpatients with symptoms suggestive of CAD. We assessed symptomatic patients with and without diabetes."

Análise de Desfecho Secundário

"The clinical outcomes of interest included time to death/MI/unstable angina hospitalization (UAH) and CV death/MI."


Apenas mencionam dois desfechos, não determinam hierarquia entre eles. Qual o primário, qual o secundário? Resposta: nenhum dos dois, pois o desfecho primário do estudo é o combinado de quatro desfechos. Para saber isso eu precisei voltar à publicação original e relembrar qual era do desfecho primário. 

Esta é uma violação da recomendação do CONSORT, que pede que desfechos sejam definidos em primários ou secundários. 

Análise por protocolo

"For the present analysis, the population of patients with an interpretable testing result was used."

Precisamos a partir disso notar que foram excluídos pacientes depois de randomizados, e que estas exclusões tendem selecionar pacientes com graus diferentes de risco. Mais uma vez, não está explícito. 


Plausibilidade da hipótese

O lugar de explicitar plausibilidade da ideia é na introdução do trabalho. No entanto, a introdução do estudo fala tudo menos porque o exame poderia ter um impacto diferente em diabéticos. 

Discussão

Costumo sugirir a meus alunos que não percam tempo lendo a discussão. Na verdade, o tópico “discussão” tem servido mais para atenuar defeitos do que para discutir de forma transparente o valor preditivo de um estudo. Na medida em que o autor reconhece algumas falhas, gera um senso de transparência, de confiabilidade.  Mas observe que a cada questão mencionada, há sempre uma frase seguinte como se dissesse “mas isso não é um grande problema”.

Menção ao defeito: itálico
Correção do defeito: negrito

Although our study is post hoc and is subject to the inherent limitations of this type of analysis, evaluation of testing modality and outcomes in patients with diabetes was prespecified." 

Seria pior se os desfechos não fossem pré-especificados. Mas serem desfechos pré-especificados (embora secundários) não atenua o estudo ser análise de subgrupo não pré-especificada. Uma coisa é uma coisa, outra coisa é outra coisa. 

“The identification of reduced risk of CV death/MI in patients with diabetes associated with CTA randomization was based on small numbers. The trends toward reduced risk of death/MI/UAH and CV death/MI/ UAH in patients with diabetes undergoing CTA versus functional testing reinforce the findings seen with the endpoint of CV death/MI.”

Foi erro grosseiro ter avaliado vários desfechos e não ter dito qual seria o primário. Tentou em vários para ver qual dava significativo, o que é errado. Mas ele pega essas múltiplas comparações e faz parecer que as não significativas servem de confirmação para a significativa. 

Slight statistical differences in some of the baseline characteristics were seen in patients without diabetes who were randomized to CTA versus functional stress testing; however, the absolute differences were small and likely not clinically relevant."

Tentando mais uma vez atenuar heterogeneidades surgidas da análise de subgrupo. 

Por fim, a frase final da conclusão, que fecha tudo: "In evaluating stable patients with diabetes who have symptoms suggestive of CAD, physicians should consider these benefits of using CTA as the initial diagnostic strategy."


Mensagem Final

Subestudos positivos de estudos originalmente negativos nascem como uma intenção científica questionável. Devemos contrabalançar o viés da positividade (procura incessante por dados positivos) como um viés de proteção hipótese nula, a premissa científica básica. 

-------------------------------------------------------------------------------------------------------------------------

O que piora a qualidade de Subestudos

- Baixa plausibilidade da nova hipótese testada (qualidade da ideia) 
- Análises não predeterminada
- Combinação de multiplicidades (subgrupo + desfecho secundário)
- Mais de um desfecho secundário testado simultaneamente, sem hierarquia estabelecida
- Criação de vieses não contidos nos estudos originais

-------------------------------------------------------------------------------------------------------------------------

Acesse nosso Curso Online de MBE, clicando aqui