Medicina Baseada em Evidências: 2018

quarta-feira, 19 de dezembro de 2018

A Provável e Inconveniente Causalidade entre Tiazídico e Câncer de Pele

Gerou grande controvérsia a recente nota de alerta da ANVISA sobre a relação causal entre uso cumulativo de hidroclorotiazida e câncer de pele não-melanoma. Enquanto a imprensa leiga reproduziu a nota em tom de sensacionalista (1, 2, 3), profissionais de pensamento baseado em ciência saíram em defesa desta terapia diurética no tratamento anti-hipertensivo (1, 2), questionando a qualidade da evidência que suportava o papel cancerígeno da droga.

Recebi mensagens de vários colegas questionando o caráter observacional do estudo que motivou a recomendação (J Am Acad Dermatol, abril 2018) e meu reflexo natural foi o de concordar com a crítica. Mas ao analisar com mais critério, desenvolvi uma opinião diferente que explicitarei nessa postagem. Minha análise se baseia na aplicação dos conceitos que apresentei no recente artigo sobre o valor de “estudos observacionais: quando confiar, desconfiar ou descartar?". Vale a pena revisitar.

Primeiro, precisamos nos preparar mentalmente para a análise de qualquer evidência externa, pois esta pode vir de encontro com nossas perspectivas científicas. Essa preparação passa pelo seguinte questionamento: quais são minhas evidências internas (crenças) a respeito do assunto? Esta proposta de aquecimento mental foi tema de postagem prévia no Blog. Vale a pena revisitar.

A pergunta permite identificar nossa predisposição ao viés de confirmação. No meu caso pessoal, identifico uma predileção baseada em evidências pela terapia antihipertensiva com tiazídicos , o que pode me gerar um preconceito contra o argumento do efeito carcinogênico. Alguns colegas aventaram uma “teoria da conspiração” contra os baratos diuréticos, motivada por conflitos de interesse da indústria produtora de medicamentos "inovadores". É possível, mas antes precisamos analisar as evidências de uma forma a evitar a influência demasiada de nossos vieses pessoais.

A ANVISA poderia ter gerado uma nota baseada neste estudo observacional?

O primeiro passo é avaliar se o dado observacional diz respeito da “dano” ou “proteção”. Esta diferenciação é essencial para definir a magnitude do ônus da prova. Diferente da proposta da implementação de uma conduta “protetora”, quando investigamos potencial efeito danoso (fator de risco) estudos observacionais ganham força de evidência e, a depender de alguns critérios, podem ser considerados evidências potencialmente confirmatórias.

Algumas razões suportam a maior tolerância com o nível de evidência para "dano".

Primeiro, dizer “tome cuidado” traz consigo uma menor responsabilidade do que induzir a adoção uma conduta nova.

Segundo, o sentido da indicação depende primariamente da eficácia e de forma complementar da segurança. Por este motivo, não se faz ensaios clínicos para demonstrar efeito adverso. Ensaios clínicos são dimensionados para eficácia e secundariamente avaliam segurança.

Terceiro, os eventos adversos são menos comuns do que desfechos clínicos a serem prevenidos pelo tratamento. Por isso, estudos intervencionistas são subdimensionados para eventos adversos. Isto faz com que se precise comumente recorrer a relatos observacionais em estudos de fase IV para detectar eventos adversos.

Portanto, guardadas algumas premissas, estudos observacionais podem definir fatores de risco. Que premissas? Como propomos na postagem sobre estudos observacionais são três as premissas: significativa probabilidade pré-teste em uma abordagem bayesiana, grande força de associação e dificuldade de evidências intervencionistas confirmatórias. Estes são o caso do tabagismo e etilismo como fatores de risco para suas respectivas doenças.

Vamos agora analisar estas premissas no caso dos tiazídicos e câncer de pele.

A probabilidade pré-teste tem os componentes de plausibilidade e evidências prévias. Precisei estudar para acessar este tópico. Os tiazídicos estão no conjunto de drogas que causam fotosensibilidade à pele. Naturalmente, isto explica a plausibilidade biológica de que a droga pode deixar pacientes mais predispostos a um câncer induzido pela exposição a raios ultravioletas. Inclusive, há evidências sugerindo que fotossensibilidade farmacológica induz câncer de pele.

Quanto a evidência prévias, notei que este não o primeiro estudo observacional a sugerir tal associação. O conjunto de evidências prévias é sugestivo, merecendo destaque um estudo prévio do mesmo grupo, mostrando associação com carcinoma de células escamosas. Portanto, o estudo que induziu a recomendação da ANVISA é um estudo reproduz evidências prévias. Portanto, temos uma probabilidade pré-teste razoável a favor da hipótese. Não estamos diante de uma ideia que acaba de surgir. Estamos diante de uma ideia vem sendo construída progressivamente e o presente estudo serve como mais uma evidência a favor.

E quanto à força de associação? O trabalho em questão avaliou dois tipos de cânceres de pele não melanomas: basocelular e células escamosas. Ambos apresentaram um nítido gradiente dose-resposta e no caso de células escamosas, a maior dose da droga acumulada apresenta odds ratio de 7. Ou seja, estamos diante de grande força de associação, maior do que boa parte dos fatores de risco para doenças cardiovasculares ou cânceres.

Por fim, é pouco provável que tenhamos um ensaio clínico desenhado para testar essa hipótese e estudos intervencionistas já realizados seriam de poder insuficiente e provavelmente carecem deste dado. A incidência desses cânceres de pele gira em torno de 1% ao ano, portanto um estudo de 5 anos teria uma incidência de evento menor do que a incidência de eventos usualmente testados por estudos prospectivos, que gira em torno de 10%-20%. Seria necessário um ensaio clínico de tamanho amostral em torno de 4 vezes maior do que os estudos usuais de anti-hipertensivos.

Estes são três critérios sistêmicos a favor da ideia de causalidade. Mas precisamos ir no especifico e avaliar a qualidade do estudo observacional em questão. Trata-se de um estudo de caso-controle aninhado, proveniente de registros eletrônico dinamarquês. Guardando as limitações inerentes ao desenho, o estudo é bem realizado, na coleta e análise dos dados. Muito importante salientar que o estudo foi realizado tendo esta hipótese determinada a priori como o objetivo principal. Além disso, a escolha do tipo de antihipertensivo não tem grande potencial de carregar pacientes com maior risco de câncer de pele.

Neste momento, vale reafirmar: aceitar efeito danoso de uma droga com base em estudos observacionais requer rigidez de avaliação, a qual não está presente da maioria das situações. Como comparação, podemos citar interessante exercício epidemiológico que mostrou associação entre uso de digoxina e morte em pacientes com fibrilação atrial. Aquele estudo tem grande potencial de efeito de confusão, pois a escolha por digoxina tende a carrear pacientes com disfunção ventricular esquerda e consequentemente maior risco de morte. Além disso, a associação não foi encontrada na análise usuários versus não usuários de digoxina, sendo percebida quando se migrou para uma análise baseada na concentração plasmática da droga (problema das múltiplas comparações). Por fim, a força de associação foi mais fraca do que observamos no presente caso dos tiazídicos (HR = 1.56). Trago este exemplo para exemplificar uma situação em que não julgo ser evidência suficiente para gerar uma advertência de risco.

Concluo portanto, com base em análise bayesiana que engloba a probabilidade pré-teste e a nova informação (força de associação, gradiente dose-resposta, qualidade do estudo), que devemos considerar possivelmente verdadeiro o conceito de causalidade entre tiazídicos e câncer de pele. Assim como ocorre com boa parte dos eventos adversos “estabelecidos”, que são baseados em dados observacionais.

Implicações e Lições

Nossa conclusão não deve implicar que evitemos os tiazídicos como antihipertensivos e a ANVISA não quis dizer isso. Devemos apenas considerar esta informação como mais um detalhe em nosso processo mental de decisão. Digo isso pois grandes tamanhos de efeito (odds ratio > 2) se deram com doses cumulativas a partir de 75.000 mg, o que corresponde a 16 anos de uso da dose de 12.5 mg. Vale salientar que não estamos falando aqui de desfechos graves como melanoma. Especialistas discutem até mesmo se é adequada a denominação de câncer para estes não-melanomas.

Além disso, o câncer que gera preocupação se constitui em um desfecho probabilístico em futuro remoto, o que tem menor força no processo decisório do que o benefício obtido no presente: controle antihipertensivo e bom perfil de tolerabilidade da droga.

A ANVISA fez uma advertência com um critério adequado, como costuma fazer em muitas situações semelhantes. A diferença desta vez foi que a advertência foi contra uma pet drug (droga de estimação) de boa parte dos médicos, na qual me incluo. É droga de estimação de médicos baseados em evidências.

Podemos defender o valor dos tiazídicos, mas sem precisar negar este potencial efeito danoso. Se por um lado considero sensacionalista e inadequada a reação da imprensa, por outro lado foi a reação emocional com que parte da comunidade médica se posicionou que mais me chamou atenção neste caso. E em geral os que mais gritaram foram aqueles de mente analítica e científica.

Este caso mostra que não são apenas os fantasiosos que se reunem em tribos apaixonadas. Temos que ter cuidado para que os científicos também não se dogmatizem em uma cega defesa de suas ideias. Esta é a principal lição deste caso.

domingo, 16 de dezembro de 2018

Ensaio Clínico do Paraquedas: caricatura útil ou mera piada?

“Estudos caricaturais” têm sido usados com sucesso no meio científico para tornar interessante e palatável discussões metodológicas relevantes. Costumo citar com frequência as fortes correlações entre chocolate e prêmios Nobel ou cegonhas e taxa de natalidade, como exemplos inusitados de vieses de confusão.

Em 2003, foi publicado British Medical Journal uma revisão sistemática sobre eficácia do uso de paraquedas em pacientes que pulam de grandes alturas. A revisão indicou ausência de ensaios clínicos randomizados para esta conduta. Foi uma forma inteligente de demonstrar que nem tudo necessita evidências experimentais. Aquele artigo nos inspirou na criação dos termos “paradigma do paraquedas” e “princípio da plausibilidade extrema”.

Ontem recebi uma infinidade de mensagens entusiasmadas sobre o mais novo ensaio clínico publicado no British Medical Journal: Parachute use to prevent death and major trauma when jumping from aircraft: randomized controlled trial.

“Não é que fizeram o estudo?”; “gostaria de sua opinião sobre este importante ensaio clínico”.

Neste ensaio clínico, passageiros de avião teriam sido convidados para entrar em um estudo em que pulariam do avião para o solo, mas antes seriam randomizados para o uso de paraquedas ou mochila não paraquedas como grupo controle. O desfecho primário foi morte ou trauma grave. Baseado na premissa de que 99% do grupo controle sofreria o desfecho, para um poder de 99% na detecção de uma enorme (e plausível) redução relativa do risco de 95%, seriam necessários apenas 10 pacientes por grupo. Assim foi feito e, surpreendentemente, o estudo foi negativo: zero de incidência do desfecho primário em ambos os grupos. No entanto, apenas indivíduos que pulariam de aviões estacionados no solo aceitaram participar do trabalho.

Divertido, porém qual a mensagem implícita deste estudo?

“Randomized trials might selectively enroll individuals with a lower perceived likelihood of benefit, thus diminishing the applicability of the results to clinical practice.”

Conforme os autores, o novo estudo do paraquedas estaria apontando para o problema de que ensaios clínicos randomizados selecionam amostras menos predispostas ao benefício da intervenção, um fenômeno que promoveria estudos falso negativos. Os autores explicam que isto acontece pois pacientes que tem maior probabilidade de se beneficiar da terapia tem menor probabilidade de aceitar entrar em um estudo no qual podem ser randomizados para não tratamento. Isto tornaria a amostras de ensaios clínicos menos sensíveis à detecção do benefício, pois haveria uma exclusão parcial dos pacientes com maior chance de sucesso terapêutico.

Caricaturas servem para acentuar características verdadeiras. No entanto, se tivéssemos que caracterizar amostras de ensaios clínicos (mundo ideal), estas tenderiam a ser mais predispostas a encontrar um benefício do que a população-alvo do mundo real. Portanto, esse estudo não é uma caricatura do mundo real dos ensaios clínicos.

Assim o trabalho perde o status de caricatura, para se limitar a uma mera piada sem valor de ancoragem da nossa perspicácia científica.

Como testes de conceitos, ensaios clínicos primam pela utilização de amostras muito favoráveis ao tratamento, utilizando restritivos critérios de inclusão e exclusão. Diferenças entre pacientes que aceitam e não aceitam entrar no estudo não são suficientes para gerar uma amostra menos predisposta ao benefício do tratamento do que a realidade.

O “estudo piada” comete um viés de seleção incomum nos ensaios clínicos randomizados: permite a inclusão de pacientes que não precisam do tratamento. Seria como se em um estudo voltado para testar trombólise permitíssemos a inclusão de qualquer dor torácica, independente do eletrocardiograma. Médicos que já acreditam na trombólise veriam o eletrocardiograma, trombolizariam os pacientes que precisassem e liberariam os que não precisassem da trombólise para serem randomizados para droga ou placebo. Piada sem valor científico.

Estudos caricatos são úteis quando ancoram a mente da comunidade para uma criticidade aguçada em relação a resultado de estudos. Porém nesse caso a ancoragem ocorreu no sentido contrário ao aguçado. Explicarei.

Primeiramente, quando pensamos no ecossistema científico, o maior problema são os estudos falsos positivos, mediados por diversos fenômenos: vieses de confusão dos estudos observacionais, escolhas a posteriori de desfechos a serem reportados (outcome reporting bias), conclusões enviesadas para o resultado positivo (spin) e finalmente viés de citação que privilegiam estudos positivos. Por trás de tudo isso, está a inata predileção da mente humana por afirmações falsas, em detrimento de negações verdadeiras.

Em segundo lugar, há o problema da eficácia (mundo ideal) versus efetividade (mundo real). Ensaios clínicos têm como objetivo avaliar eficácia, que poderia ser interpretada como o potencial intrínseco da intervenção de oferecer benefício clínico: “o tratamento tem propriedade benéfica?”. Portanto os ensaios clínicos representam a condição ideal para que o tratamento funcione. Diante de um ensaio clínico positivo, devemos sempre refletir se esta positividade vai se reproduzir no mundo real, o que constitui a efetividade.

Claro que existe o problema de estudos falso negativos e isso deve ser uma preocupação. Porém o viés sugerido pelo engraçado estudo do paraquedas não representa um mecanismo importante de falso negativo. Os mecanismos mais prevalentes são: reduzido poder estatístico, excessivo crossover na análise por intenção de tratar e aplicabilidade inadequada da intervenção.

No entanto, o leitor deste interessante estudo pode sair com a seguinte mensagem: se um estudo promissor for negativo, cuidado, ensaios clínicos tendem a incluir pacientes menos predispostos ao benefício. Essa mensagem está errada, pois ensaios clínicos tendem a selecionar amostras mais predispostas ao benefício. Claro que há casos e casos, mas se temos que ancorar nossa mente, esta deve ser na direção do mais prevalente.

Minha previsão é de que este estudo passará ser citado pelas legiões de crentes inconformados com resultados negativos de estudos bem desenhados. Assim como o artigo seminal do paraquedas tem sido utilizado inadequadamente como justificativa de muitos tratamentos que nada tem a ver com o paradigma do paraquedas, sob a premissa de que “não há evidência para tudo”. Estudo recente demonstrou que grande parte das condutas caracterizadas como paradigma do paraquedas por artigos médicos na realidade não o são, muitas inclusive com ensaios clínicos de resultados negativos.

A grande atenção recebida pelo ensaio clínico do paraquedas é exemplo de como ocorrem os compartilhamentos de informações nas redes sociais. O principal critério para o compartilhamento é o caráter interessante, inusitado ou divertido, em detrimento da veracidade ou utilidade da informação. No apelo pela novidade, fake news acabam recebendo mais atenção do que true news, como foi recentemente demonstrado em trabalho na Science. Embora o artigo que discutimos não deva ser enquadrado como fake news, este também não é uma boa caricatura do mundo real.

O trabalho em questão não é uma caricatura do ecossistema de ensaios clínicos randomizados. É uma mera piada com potencial de enviesar nossas mentes para inadequada ideia de que a heterogeneidade entre amostras de ensaios clínicos e a população-alvo do tratamento reduz a sensibilidade destes estudos em detectar efeitos benéficos. Na verdade, as específicas amostras de ensaios clínicos possuem mais sensibilidade em detectar efeitos benéficos do que se toda a população-alvo do tratamento fosse incluída.

O aprendizado de ciência deve ser desburocratizado e divertido, o que desperta enorme interesse da comunidade biomédica. Mas devemos sempre nos perguntar: qual a mensagem implícita na caricatura? Assim começa a análise crítica de um estudo caricatural.

sexta-feira, 2 de novembro de 2018

Estudos Observacionais: quando confiar, desconfiar ou descartar?

A popular utilização de coortes observacionais para testar benefício ou segurança de condutas e hábitos de vida talvez seja a mais importante fonte de falsas notícias médicas, mediadas principalmente por fatores de confusão. Assim cabe a pergunta: quando estes trabalhos poderiam trazer algum tipo de contribuição científica e quando nem deveriam existir?

Atualmente, um grande número de publicações existe em função da manutenção do ecossistema da pesquisa na era industrial (produção em quantidade), dificultando a evolução para a era do conhecimento. Para conceito de eficácia ou para atribuir efeitos adversos a condutas médicas, muitas publicações observacionais servem mais para impulsionar carreiras acadêmicas do que para gerar valor científico.

Para complicar, vários destes estudos provém de coortes imensas, com alta precisão estatística. Este é o caso no estudo PURE, que utilizou uma amostra maior que 100.000 pacientes para concluir a favor da dieta com baixo teor de carboidrato na prevenção de eventos cardiovasculares. É paradoxal, pois imensas coortes observacionais possuem grande precisão para descrever resultados enviesados. Grande precisão significa baixa aleatoriedade, o que eleva a consistência do achado. No entanto, vieses (neste caso, viés de confusão) são erros que se repetem sistematicamente na amostra. Teremos portanto a consistência de um resultado potencialmente falso, com alto grau de significância estatística. É como uma mentira bem contada, que parece se tornar verdade por ser muito consistente.

Meses depois, foi publicada a coorte do ARIC, sugerindo o contrário, dieta com baixo teor de carboidrato pode se deletéria. Em qual acreditar? Em nenhum dos dois. Sorte que a preguiça me impede de aprofundar a leitura desses trabalhos e sair com insights pseudo-elegantes.

Quando confiar em coortes observacionais?

Coortes observacionais representam o desenho de primeira linha para construção de modelos probabilísticos preditores de risco; também são estes os estudos primordiais para avaliar efetividade, ou seja, o comportamento de uma conduta no mundo real, que depende da variabilidade do ambiente, do processo de decisão médica (no mundo real não se sorteia a decisão) e da preferência do paciente. Porém no caso da inferência de causalidade (fatores de proteção ou risco), a discussão quanto à veracidade da evidência precisa ser aprofundada. É o que faremos nesta postagem.

Sabemos que para explorar benefício promovido por hábitos ou condutas, ensaios clínicos randomizados representam o único desenho de estudo que pode ser considerado confirmatório, o único capaz de eliminar efeitos de confusão. Embora haja muitas afirmações neste sentido, apenas ensaios clínicos randomizados seriam capazes de comprovar que uma taça de vinho ao dia tenha efeito cardiovascular protetor.

Por outro lado, na avaliação de “dano”, coortes observacionais podem ser consideradas evidências confirmatórias em casos especiais, quando três critérios forem preenchidos: grande probabilidade pré-teste (plausibilidade biológica), grande força de associação e impossibilidade ética de randomização. É o caso da associação entre etilismo e cirrose hepática, cujo risco relativo é em torno de 20. Esta associação é tão forte que se torna pouco provável que seja toda mediada por fatores de confusão.

Observem que o efeito do álcool no organismo humano traz os dois lados da moeda. A obrigatoriedade do ensaio clínico para propor vinho como conduta cardiovascular protetora, e suficiência de evidências observacionais para propor etilismo como hábito danoso ao fígado. Por trás dessa maior flexibilidade na aceitação de uma evidência observacional está a constatação de que a eliminação de um fator provavelmente deletério tolera melhor a incerteza do que a implementação de uma estratégia.

Toda ação (implementação de conduta) tem maior "ônus da prova" do que uma não ação (deixar de fazer algo).

A relação de tabagismo e câncer de pulmão é outro exemplo de conceito confirmado por estudos observacionais. O risco de quem fuma é 20 vezes maior do que o risco de quem não fuma (risco relativo = 20). Isto é diferente da força de associação entre tabagismo e doença cardiovascular, cujo risco relativo para um tabagista (40 cigarros ao dia) é "apenas" 2.0. A doença cardiovascular é multifatorial e tabagismo representa apenas um fator, com peso semelhante aos demais. Um dado que reforça esta relação causal é o gradiente dose-resposta de tabagismo e eventos cardiovasculares. Além disso, há inúmeros motivos para se recomendar contra o tabagismo. Mas se não fosse por estas questões, algum ceticismo se aplicaria a esta relação cuja força de associação é semelhante à da hipercolesterolemia e hipertensão. Diferente de tabagismo, estes dois fatores de risco possuem a prova do conceito confirmada por ensaios clínicos randomizados com anti-hipertensivos e drogas redutoras de colesterol.

Ronald Fisher, tabagista e pai da estatística, provocou a comunidade médica ao questionar a associação causal entre tabagismo e câncer de pulmão, devido às conhecidas limitações de estudos observacionais. A intenção deve ter sido chamar a atenção para o conceito de efeito de confusão, originalmente descrito por ele próprio, que também propôs o artifício da randomização como forma de ajuste perfeito para confusão. Do ponto de vista epidemiológico um melhor exemplo seria a associação entre tabagismo e doença cardiovascular, pois a força de associação com câncer de pulmão é grande demais para não ter causalidade implícita. Mas ele queria causar desconforto, surpresa, controvérsia, chamando atenção para o fenômeno da confusão. Neste sentido, câncer de pulmão foi um exemplo mais provocativo. Vale a pena ler sobre esse estória.

Quando desconfiar de coortes observacionais?

A maioria dos estudos observacionais que propõem fatores causadores de doenças não completam os critérios exemplificados pelo tabagismo ou alcoolismo. Nestes casos, devemos desconfiar.

Boa parte dos cânceres são desprovidos de causa genética ou ambiental. Motivados por um instinto de sobrevivência anticientífico, saímos a procura de pseudocausas. De forma caricatural, quase tudo pode causar câncer e quase tudo tem respaldo por trabalhos de coorte que avaliam múltiplas associações, com alto risco de viés de confusão e aferição, encontrando todos os tipos de resultados. Vivemos em um mundo de fantasia. O mesmo ocorre com fatores protetores de câncer.

Nesta semana, o JAMA Internal Medicine publicou coorte de 60.000 pacientes sugerindo que comidas orgânicas reduzem incidência de câncer. Dá arrepio em observar a tabela que compara as características clínicas da amostra dividida em quartis do escore de ingesta orgânica. Tudo é diferente, abrindo enorme possibilidade de efeito de confusão, nunca plenamente resolvido por artifícios estatísticos multivariados.

Ao desconfiar, partiremos para uma análise mais aprofundada de quando valorizar o estudo como gerador de hipótese ou quando descartar o estudo pelo seu grande potencial de gerar fake news científica.

Nesta análise, duas perguntas se tornam relevantes:

Em que situações estes desenhos de estudo são menos susceptíveis a vieses, podendo ser usados pelo menos como geradores de hipótese?
Estudos observacionais tendem mais a resultados falso positivos ou falso negativos?

A chave destas questões está na análise da potencial “confusão por indicação”. Ou seja, o quanto a indicação de um tratamento pelo médico ou opção de um hábito pelo paciente potencialmente se relaciona com variáveis confundidoras.

Situações de Baixo Potencial de Confusão

Ocorre quando a “indicação” não foi uma opção de acordo com o paciente, mas sim uma característica do ambiente. Por exemplo, um serviço tem a rotina de cirurgia laparoscópica e outro serviço a rotina de cirurgia aberta. A comparação dos resultados destas duas técnicas não sofre muito de confusão pois não é uma escolha feita com base na característica do paciente. Portanto a escolha não carreia variáveis de implicam em pacientes mais ou menos graves, desde que ambos os serviços tenham a mesma complexidade.

Ao comparamos a taxa de transfusão de sangue ou hemoderivados na cirurgia cardíaca de pacientes operados em uma época em que o tromboelastograma não era disponível em nosso hospital versus a época em que ficou disponível, a indicação desse teste hematológico não foi baseada no paciente. Trata-se do mesmo hospital, da mesma complexidade. Menor probabilidade de efeito de confusão.

Nestes casos, após análise multivariada para ajusta diferenças confundidoras entre duas amostras que podem ter surgido do acaso (não por indicação), podemos considerar estes estudos suficientes para gerar hipóteses.

Lembrando que gerar hipóteses é diferente de gerar notícias … apenas estudos confirmatórios devem gerar notícia para o público em geral.

Por outro lado, quando há “indicação” da conduta de acordo com o paciente, coortes observacionais não devem servir nem mesmo para gerar hipóteses. Muito menos para impulsionar carreiras científicas. O que adianta publicar algo de baixo valor preditivo, seja superestimando associações ou subestimando associações. Estes são os casos de estudos a serem descartados, que podem tender ao falso positivo ou falso negativo.

Quando Coortes Observacionais Tendem ao Falso Positivo

Isto ocorre quando a indicação da conduta se associa a pacientes de melhor prognóstico. No caso de hábitos de vida, a escolha por um melhor hábito marca pacientes com outras características que fazem bem à saúde. Assim, hábitos como exercício, alimentação, uso de suplementos (omega-3, vitaminas) e até uma elegante taça de vinho ao dia se associam sistematicamente a menor risco de qualquer coisa. Sim, de qualquer coisa, pois essas pessoas são muito mais saudáveis.

Quanto à indicação do médico, esta se associa a melhor prognóstico quando o médico tem medo (risk aversion) da sua indicação causar dano ao paciente. Desta forma, ele escolhe pacientes menos doentes para adotar o tratamento, e isso carreia um melhor prognóstico para o grupo tratado, o que pode não decorrer da conduta médica per si.

Este fenômeno de risk aversion é o responsável pelo paradoxo risco-tratamento, onde pacientes de maior risco são menos tratados. Um exemplo é a terapia de anticoagulação para prevenção de AVC em pacientes com fibrilação atrial, especialmente na era da warfarina, quando havia mais relutância pela complexidade do tratamento.

Quando uma coorte observacional tende ao falso negativo

Isto ocorre em tratamentos que os médicos julgam efetivos e não temem as consequências negativas. Ou seja, quando a decisão do médico é mais norteada pelo benefício da conduta do que pelo receio de complicações. Nestes casos, quanto mais graves os pacientes, mais os médicos indicam o tratamento. Isto causa um viés negativo, ou seja, a gravidade dos pacientes aumenta o risco do desfecho e atenuará a percepção de um efeito supostamente benéfico do tratamento.

O melhor exemplo é a decisão por internar ou não internar um paciente com pneumonia. O médico internará os mais graves e por serem mais graves estes pacientes têm maior mortalidade, podendo anular a associação de internamento com desfecho favorável. Pode até parecer que o internamento cause morte, pois os mais graves, internados, têm maior mortalidade.

Trabalho publicado por Ioannidis no JAMA 2001 comparou resultados de estudos observacionais com ensaios clínicos randomizados em diferentes situações. Notamos que o mais frequente é a superestimativa do efeito, ou seja, uma tendência a mais estudos falso positivos do que falso negativos. Isto talvez esteja de acordo com a impressão da maioria dos leitores de artigos: estudos falso positivos são mais frequentes do que falso negativos. Provavelmente não, na verdade esta impressão vem do viés de publicação. As evidências positivas tendem a ser mais publicadas do que as negativas. Sendo assim, devemos considerar que em potencial, os dois mecanismos de falso positivo e negativo coexistem em semelhante proporção.

Conclusão

A definição de qual das três categorias acima se aplica a um estudo de coorte não está contida nos algoritmos tradicionais de critical appraisal de evidências observacionais, que focam em vieses de amostragem, observação, qualidade do ajuste estatístico que foi feito para variáveis de confusão (modelos multivariados, escores de propensão). Esta análise tradicional é insuficiente, pois um estudo observacional de metodologia perfeita não deve ser necessariamente considerado como suficiente para gerar notícia médica. Precisamos fazer a avaliação aqui proposta e sugiro que esta venha antes do critical appraisal tradicional.

Meus alunos muitas vezes me perguntam: “estudos observacionais não deveriam existir?”. Respondo sempre com a valorização destes desenhos de estudo para as indicações de modelos preditores, efetividade ou causalidade como o caso do tabagismo. Porém o insight da pergunta inocente dos alunos está correto: muitos destes estudos não deveriam existir. Estes muitos estudos são representados por aqueles com alto potencial de viés de confusão negativo ou positivo.

O mundo a olho nu é uma fábrica de ilusões e o viés de confusão é o principal fenômeno ilusório. Mesmo assim, em meio a estudos observacionais podemos considerar alguns fenômenos verdadeiros. Desde que a análise seja criteriosa e feita como uma boa dose de ceticismo. Como solução, proponho o algoritmo abaixo.

---------------------------------------------------------------------------------------------------------------------

Conheça o curso online de medicina baseada em evidências, clicando aqui.

sexta-feira, 28 de setembro de 2018

Estudo positivo versus negativo: qual a verdade? (COAPT e MITRA-FR)

É frequente a pergunta do título dessa postagem, pois para todas as questões há estudos com diferentes resultados. Porém esse fenômeno de estudos contraditórios acaba de aparecer de forma inusitada no New England Journal of Medicine: dois ensaios clínicos sobre a mesma intervenção, na mesma população, publicados na mesma revista, separados por 1 mês, ambos de boa qualidade científica, um positivo e outro negativo.

Onde está a verdade?

Pelo viés da positividade, tendemos a escolher o estudo positivo. Melhor ainda quando este estudo positivo é o segundo a ser publicado, pois o viés da novidade contribui para a ilusão da descoberta, que nos faz pensar que achamos o que ainda não havia sido encontrado por falta de oportunidade.

A propósito, estes dois ensaios clínicos testaram a correção percutânea da insuficiência mitral secundária a miocardiopatia dilatada, com um device denominado MitraClip, fabricado pela Abbott. O primeiro (MITRA-HF), negativo, foi um estudo francês apresentado no Congresso Europeu de Cardiologia, uma decepção moderadamente noticiada. O segundo (COAPT), positivo, foi um estudo americano apresentado no congresso americano de intervencionismo (TCT - Transcatheter Cardiovascular Therapeutics), cuja reação foi retratada por John Mandrola, que estava presente no evento:

“The applause was remarkable, not just for its intensity, or that it brought emotion to the face of the speaker, but that it occurred at a "scientific" meeting. The stage cameras in the massive auditorium panned to a rapturous audience at the TCT 2018 meeting. It was as if the home team had scored, or perhaps a politician at a rally had landed an applause line.”

Na opinião do autor do COAPT, respaldada por comentário do NEJM Journal Watch, tal diferença de resultado entre os trabalhos teria derivado da maior gravidade da insuficiência mitral e da disfunção sistólica no COAPT. No entanto, essa análise é míope, simplista e anti-científica: primeiro porque essas diferenças foram discretas e não justificariam tamanho contraste de resultado entre os dois estudos; segundo, esta justificativa desconsidera um princípio básico da medicina baseada em evidências: a raridade do fenômeno de interação.

Portanto, precisamos cavar mais fundo para entender o porquê da diferença entre os estudos.

**Estudo Positivo versus Estudo Negativo**

Diante de resultados conflitantes, há duas possibilidades: ambos estudos estão corretos ou um deles está errado.

A primeira possibilidade (ambos corretos) é sempre pouco provável e nos remete ao princípio da complacência na aplicabilidade de uma evidência. Esse princípio se baseia na raridade do fenômeno de interação e justifica a não necessidade de que os estudos representem cada uma das milhares variações de pacientes existentes. Quando um efeito benéfico existe, este é reprodutível em diferentes tipos de pacientes. E isso é confirmado pela consistência das análises de subgrupos de ensaios clínicos e por estudos meta-científicos da validade externa dos trabalhos.

A não ser que haja uma grande razão para que o resultado do tratamento mude com alguma característica específica dos pacientes. E neste caso, não há uma grande razão.

Mitralclip é mitralClip, e não seria uma pequena diferença de uso que promoveria tamanha diferença entre os estudos. Insuficiência mitral grave é insuficiência mitral grave, não seria alguma diferença de gravidade que justificaria resultados contraditórios. O mesmo para a grave disfunção em ambos os grupos.

Nesta questão específica, estamos falando de um estudo que mostra 30% de redução relativa do risco de internamentos versus um estudo com zero de redução de internamento ou morte. São diferenças extraordinárias entre dois estudos, o que seria necessário razões extraordinárias para justificar as diferenças. Não há tais razões.

E desconsiderando tudo isso, o autor do COAPT tenta se justificar:

“Most important, COAPT enrolled patients with substantially worse MR, with a mean effective regurgitant orifice area of 41 mm²vs 31 mm²in MITRA-FR. Ventricles in that trial, however, were severely dilated, with a mean left ventricular end-diastolic volume of 135 mL/m²vs 101 mL/m²in COAPT.”

Temos aqui um exemplo clássico de violação do princípio da complacência. Essa colocação pode parecer lógica, porém é anti-científica e irracional. Desconsidera o princípio da raridade de interação. Em ambos os estudos os pacientes tem miocardiopatia muito grave e refluxo mitral grave.

Fica aqui a primeira lição dessa análise: não podemos nos seduzir facilmente por potenciais influências da população estudada na demonstração de um conceito. Isso é coisa rara.

Desta forma, devemos julgar mais provável a segunda razão de discordância entre os estudos: um deles deve estar errado. Neste sentido, preciso lembrar que o impacto de vieses no resultado de um estudo tende a ser maior do que o impacto verdadeiro do tratamento. São muitos exemplos de grandes tamanhos de efeitos que no final são justificados apenas por vieses ou erros aleatórios. Lembram da recente “falácia do mediterrâneo”? 40% de redução relativa do risco com uma dieta um pouco diferente? Depois descobrimos que o estudo não era exatamente randomizado.

Precisamos explorar em detalhe métodos e resultados de ambos os estudos e entender a razão dessa diferença.

Onde está Wally?

Em primeiro lugar, devemos acessar a probabilidade pré-teste dos dois resultados. Julgo bastante plausível que a correção de um refluxo mitral que faz voltar para o átrio 30% do volume sistólico seja benéfica para o paciente com um ventrículo com grave déficit de contratilidade. Do ponto de vista mecanicista, faz sentido, mesmo que o refluxo seja secundário. Afinal, você prefere ter miocardiopatia com ou sem insuficiência mitral severa?

Por outro lado, plausibilidade mecanicista não é garantida de verdade, pois os sistemas biológicos não são cartesianos. Estamos repletos de exemplos. Sendo assim, ficarei com 50% de probabilidade pré-teste para a hipótese da correção percutânea da insuficiência mitral ser benéfica.

Tendo um estudo positivo e outro negativo, devemos analisar os tipos de problema metodológicos que promovem falsos positivos ou falsos negativos.

A primeira diferença que salta aos olhos é que o COAPT, estudo positivo, avaliou número de internamentos por insuficiência cardíaca, um tipo de desfecho que avalia não apenas se o paciente se internou, mas também computa a quantidade de internamentos. Esse tipo de análise é visto como mais completa do que apenas um primeiro internamento. Mas como pode haver mais de um desfecho por paciente e como pacientes que vivem mais acabam por ter mais internamentos, há necessidade de ajuste estatísticos para estas questões. E o COAPT fez estes ajustes devidamente.

Já o MITRA-FR avaliou como desfecho primário o combinado de morte ou um internamento por insuficiência cardíaca e não houve qualquer diferença entre os grupos. De qualquer forma, esta não parece ser a razão da diferença entre os estudos, pois no COAPT o desfecho secundário de um primeiro internamento mostrou o mesmo resultado positivo.

Devemos continuar analisando outros aspectos.

No estudo negativo, devemos procurar erros que tendem a um resultado negativo:

O tratamento foi executado de forma competente?
Houve excessivo cross-over que anulasse o efeito do tratamento?
O estudo tinha poder para detectar diferença entre os grupos?

Quanto ao cross-over, esse é o problema da análise de intenção de tratar (sempre preferida): se muitos pacientes do grupo tratamento não fazem o tratamento ou muitos pacientes do grupo controle acabam por fazer o tratamento, isso iguala artificialmente os resultados.

Respondendo a estas preocupações: a competência do implante da valva não diferiu muito entre os estudos, pois a taxa de sucesso imediato e a graduação da insuficiência mitral após um ano foi parecida; praticamente não houve cross-over em nenhum dos dois estudos e ambos obedeceram premissas que confirmam poder estatístico para a análise da hipótese primária.

No estudo positivo, devemos procurar:

Estudos pequenos (podem dar qualquer tipo de resultado).
Violações na randomização, levando a pacientes menos graves para o grupo intervenção (randomização aberta).
Violação no princípio da intenção de tratar.
Viés de desempenho, no qual pacientes do grupo intervenção são melhores tratados.
Viés de mensuração do desfecho em estudo aberto (desfecho subjetivo ou criado pelo médico).

Como falamos, ambos os estudos bem dimensionados. Não parece haver qualquer violação da randomização e ambos usaram o princípio correto de intenção de tratar.

O Elefante na Sala

Na sequência de avaliação dos vieses, nos deparamos com um “elefante da sala”: estamos diante da famigerada combinação de um estudo aberto e um desfecho primário mediado pelo pensamento médico.

Há dois tipos de desfechos clínicos: resistentes a vieses ou susceptíveis a vieses. O desfecho “internamento” é um típico desfecho susceptível ao viés do estudo aberto. Principalmente porque é um desfecho que depende de uma decisão médica para se fazer presente.

Ao saberem que seus pacientes receberam um revolucionário device de correção da insuficiência mitral, é plausível que médicos se tornem mais conservadores na indicação de re-internamento. A confiança no device pode fazê-los interpretar algum sintoma como inespecífico e não indicar internamento por insuficiência cardíaca. E o contrário pode acontecer no grupo que não recebeu o revolucionário aparato médico. A isso poderíamos chamar viés de criação do desfecho.

Segundo, o viés de desempenho. Em estudos abertos, há sempre uma tendência de que o paciente randomizado para a conduta-novidade receba mais atenção pós-procedimento do que os pobres mortais que não receberam a novidade. Vejo isso nitidamente na prática. O paciente que recebe a grande novidade como tratamento vira um paciente VIP, que recebe especial atenção da equipe médica e de pesquisadores. O próprio médico que implanta o device passa a ver aquele paciente como seu filho. Quem vive isso na prática, sabe do que estou falando … Daí surge a tendência forte de que os pacientes-novidade recebam um melhor tratamento do que os pacientes comuns. E particularmente em re-internamento por insuficiência cardíaca esse tipo de contraste na qualidade do acompanhamento pode ser crucial. Pode fazer muita diferença.

E ao ler o suplemento do estudo COAPT, percebemos essa tendência. No baseline (randomização) tudo era igual, mas após 1 ano e 2 anos o uso de inibidor da ECA e beta-bloqueador foi maior no grupo que tratou a insuficiência mitral. Assim como a taxa aumento das doses dessas drogas, sempre maior do grupo que tratou a insuficiência mitral.

Isso é um indício (smoking gun) de que houve viés de desempenho.

Mas porque os mesmos vieses não positivaram o estudo francês, que também era susceptível? Por isto que denominamos "risco de viés". Pois uma brecha no estudo não é uma garantia de que o viés ocorrerá. E nem sempre sabemos explicar o motivo exato pelo qual o viés alterou o resultado ou não alterou. A análise de um ensaio clínico não é microscópica, caso a caso, é uma análise macroscópica, baseada em probabilidade. Quem sabe o médico francês é cognitivamente mais conservador para internamento do que o médico americano (mera especulação de minha parte ... não importa).

Finalmente, o Desempate

Se o “elefante” está na sala de ambos os estudos, qual o estudo verdadeiro? Aí vem o pulo do gato na análise. Esse elefante na sala (desfecho susceptível a viés em estudo aberto) é um tipo de viés que predispõe ao falso-positivo.

O estudo MITRA-HF é negativo a despeito desta predisposição ao falso-positivo. Enquanto o estudo COAPT é um estudo positivo diante de potenciais vieses pró-positividade.

Embora ambos os estudos tenham em seus métodos o mesmo risco de viés, o resultado do COAPT tem maior risco de viés do que o resultado do MITRA-HF. Desta forma, concluímos que o nível de evidência para o resultado do MITRA-HF é melhor do que o nível de evidência para o resultado do COAPT.

Aqui vem a segunda grande lição: a análise da limitação de um trabalho não deve ser feita apenas pela leitura da metodologia. É muito importante que seja avaliado se o resultado do estudo está indo na direção do viés promovido pela limitação metodológica. Erros sistemáticos são chamados de vieses pois eles geram uma preferência de resultado, erram para um lado e o problema é se o resultado do estudo está neste lado. Essa percepção nos permitiu considerar o resultado do MITRA-HF mais confiável do que o COAPT.

Aqui não estamos querendo dizer que a verdade definitiva está no resultado no MITRA-HF. Mas se tivermos que assumir uma posição, que seja a posição da incerteza de que este device tenha benefício. Permanecemos com a hipótese nula até que se prove o contrário.

A Cereja do Bolo

Por fim, uma cereja no bolo que deixei para o final: o COAPT foi um estudo financiado pela Abbot, fabricante do mitralClip, cujo desenho, análise e preparo do artigo teve participação da empresa; o MITRAL-HF é um estudo financiado pelo governo francês, sem participação da indústria no desenho ou execução do estudo. Uma característica que não resolve a nossa dúvida, mas nos deixa intrigados …

Ao invés de comemorar resultados positivos como um gol que levou nosso time preferido a ser campeão, devemos observar se esse gol é válido cientificamente. Torcida não combina muito com ciência.