domingo, 23 de outubro de 2016

O Problema das Múltiplas Comparações



*Da série, Como Criar um Estudo Falso Positivo

Imaginem que um farsante pretende provar ser vidente, capaz de adivinhar coisas. Um cético faz um experimento em que sobra apenas 4.9% de probabilidade do suposto vidente acertar por acaso (sorte). Se ele acertar, P = 0.049 será estatisticamente significante (< 0.05), rejeitaremos a hipótese nula (farsante) e acreditaremos na sua capacidade premonitória.

Mas isso só funcionará se o suposto vidente tiver apenas 1 tentativa de acertar. Por outro lado, se ele tentar 30 vezes e cada uma das vezes a probabilidade for 5%, ele terá 80% de probabilidade de acertar em alguma das vezes. Calculei 80% pela fórmula P = 1 - (1 - P)N, sendo N o número de tentativas ou comparações. Ou seja, 1 - (1 - 0.05)30 = 0.80

Já pensou se acreditássemos no acerto depois do farsante tentar 30 vezes? 

Utilizando o problema das múltiplas comparações, provamos o que queremos. Imaginem que desejo demonstrar que meu time do coração (Bahia) é superior ao time do Barcelona. Difícil provar isso em um único jogo de futebol, cuja probabilidade de sucesso do Bahia seria, digamos, 5%. Mas se eu fizesse 30 jogos de futebol, haveria 80% de probabilidade do Bahia vencer em um deles. Eu poderia fazer isso e publicar na imprensa apenas o jogo que o Bahia ganhou. 

Concordo que seria difícil esconder 29 jogos realizados em grandes estádios.  Assim como é difícil esconder o resultado de um grande ensaio clínico multicêntrico. Por outro lado, não é difícil esconder 29 estudos pequenos e unicêntricos. Aliás, estes estudos se escondem naturalmente, pois é mais difícil publicar estudos negativos do que estudos positivos ou o autor fica desestimulado em preparar um artigo que não traz a novidade desejada. É o que chamamos de viés de publicação.

Veja que perfeita combinação de três características presentes em estudos pequenos: 

  • São inúmeros estudos pequenos (múltiplas comparações)
  • São imprecisos (mais fácil o Bahia ganhar do Barcelona por sorte em um jogo de 20 minutos do que em um jogo de 90 minutos).
  • São fáceis de esconder (viés de publicação).

Portanto, a existência de estudos pequenos gera as múltiplas comparações, sendo um prato cheio para provar o que é falso, via viés de publicação. 

Não dá para confiar em estudos pequenos. O que é pequeno? Vide nosso post sobre cálculo do tamanho amostral.

Mas podemos julgar inexequível fazer 30 jogos Bahia x Barcelona, mesmo que cada jogo tenha apenas 20 minutos. Neste caso, a boa notícia é que podemos fazer múltiplos testes em um único jogo de futebol. Ou em um único estudo clínico. Há 3 formas:

1. Supervalorização de desfechos secundários (que são múltiplos): gol é o desfecho primário de um jogo de futebol. Mas sei que este desfecho pode ser difícil de provar minha tese. Portanto, eu analiso inúmeros desfechos secundários: chutes a gol, posse de bola, chutes na trave, impedimentos, escanteios, etc, etc.  Desta forma, se o Bahia não fizer mais gols do que o Barcelona (provável que não faça), escolherei para valorizar algum desfecho secundário que por sorte (acaso) tenha sido favorável ao Bahia. E posso concluir o estudo da seguinte forma: "Embora o Bahia não tenha feito mais gols, seu número de escanteios foi maior". Observe que esta conclusão tem uma conotação positiva. É assim que se faz para induzir leitores de trabalhos a uma ideia desejada. Até mesmo porque a mente humana tem maior tropismo por afirmações positivas do que negativas. 

Em estudos clínicos, isto é feito quando o desfecho primário não mostra diferença entre os grupos, e o autor passa a valorizar mais um desfecho secundário. Vejam como conclui um estudo publicado no Circulation (revista de maior impacto em cardiologia), que queria mostrar Omapatrilato como superior a Enalapril em insuficiência cardíaca. Este estudo foi negativo na análise do desfecho primário, daí o autor determinou a posteriori um desfecho secundários e conseguiu positividade, concluindo da seguinte forma:  

"Omapatrilat reduces the risk of death and hospitalization in chronic heart failure but was not more effective than ACE inhibition alone in reducing the risk of a primary clinical event." Vejam que ele consegue fazer uma conclusão para todos os gostos. 

Fico fascinado quando o técnico de um time diz: "jogamos muito bem, o que faltou foi a bola entrar". Ele está fazendo exatamente isso. Jogar muito bem, funciona como um desfecho secundário.

Assim como o que dita o vitorioso em um jogo de futebol é o número de gols, o que deve ditar a conclusão de um trabalho é o desfecho primário, que usualmente é único, evitando as múltiplas comparações na conclusão do trabalho. 

Outro ótimo exemplo do problemas das múltiplas comparações gerando equívocos são as múltiplas análises de desfechos adversos comentada na nossa última postagem “A Insegurança das Análises de Segurança”. Quem não leu, vejam o mito do diabetes e estatina relatado naquela postagem.


2. Análise de subgrupo: outra forma de provar que meu time é superior ao Barcelona seria dividir o jogo de futebol em pequenos subgrupos de jogadas, delimitador por um tempo de 10 minutos. Depois de perceber que o resultado final do jogo foi 4 x 1 para o Barcelona, inicio minha estratégia de análise de subgrupos. Por exemplo, nos primeiros 10 minutos, qual foi o resultado do jogo? Entre o minuto 10 e 20, qual foi o placar? E por aí vai, vou analisando subgrupos de 10/10 minutos. Se em algum desses períodos, o Bahia fizer mais gols que o Barcelona, esse momento seria valorizado como uma evidência a favor do Bahia. 

Parece absurdo, mas autores inconformados com seus resultados negativos, tendem a valorizar mais suas análises de subgrupo. Certa feita, um estudo publicado no New England Journal of Medicine não encontrou diferença de desfecho cardiovascular entre pacientes randomizados para comprimido de ômega-3 ou placebo. Veja o que foi escrito: 

“However, there was a 27% reduction in major cardiovascular events with ALA among women, which approached significance (hazard ratio, 0.73; 95% CI, 0.51 to 1.03; P=0.07)”.

Em geral, a comunidade científica é (corretamente) cética quanto a análises de subgrupo. Assim, fica difícil que um autor conclua um estudo como plenamente positivo baseado apenas no resultado de subgrupo. Mas ao trazer a possibilidade de benefício em algum subgrupo, ou autores confundem o leitor, amenizando o impacto da informação negativa. Isso funciona e a gente nem percebe.  Melhor dar uma informação negativa seguida de uma positiva (subgrupo), do que apenas concluir pela negatividade.

Há algum tempo devo neste Blog uma postagem dedicada especificamente a análise de subgrupo.  

3. Estudo truncado: essa é genial. Imaginem que (por sorte) o Bahia faça um gol, aos 25 minutos do primeiro tempo. Neste momento, com o jogo 1 x 0 para o Bahia,  digo que está provada a superioridade do Bahia e interrompo o jogo. Apesar de uma atitude grosseira em um jogo de futebol, esta é a forma mais elegante de usar do problemas das múltiplas comparações em ensaios clínicos. Elegante porque se utiliza do argumento (pseudo) ético de que não podemos deixar um grupo sem o uso da terapia, pois ficou provado seu benefício. O problema é que não foi demonstrado benefício de uma forma metodologicamente segura, pois o estudo sendo interrompido precocemente carece de precisão. Na verdade, anti-ético é concluir algo com falsidade. 

Estudos como PRAMI, PREDIMED, JUPITER, FAME-2, PROWESS são alguns dos muitos que já citamos nesse Blog. 

As Ilusões do Mundo Real


A falta de percepção do fenômeno das múltiplas comparações faz com que muitas vezes consideremos como tão inusitado um evento, que este só pode ter sido decorrente de algum plano maior. 

Nesta cena do filme "O Estranho Caso de Benjamin Button" (vide abaixo), o personagem principal argumenta o quanto improvável tenha sido o acidente que ocorreu com Daisy. Ele descreve a sequência de pequenos eventos necessários para terminar no desfecho do acidente. Uma sequência de tantos eventos ocorrendo na hora certa, no lugar certo, que se torna altamente improvável o que ocorreu com ela. Tão improvável que isto não poderia ter ocorrido por acaso. Afastado o acaso, sobre a causa. Então ele insinua que algo tem que ter causado aquilo, imagino algo como Deus ou destino.

Sim, é improvável aquilo ter ocorrido com Daisy. No entanto, no mundo não há apenas uma Daisy candidata ao atropelamento. Há bilhões de Daisys, cada uma com sua mínima probabilidade deste evento, resultando em uma altíssima probabilidade de um atropelamento acontecer com alguma Daisy no mundo. É o problemas das múltiplas tentativas. O mesmo fenômeno. 

No entanto, nós sofremos do vies da falácia narrativa, quando contamos a história de frente para trás. Uma vez ocorrendo um fenômeno, procuramos uma causa platônica retrospectivamente, sem perceber que aquilo pode ter sido decorrente do acaso. 

Deus não planeja o mal para as pessoas. Deus prefere reger o mundo pelo acaso, como discutimos na postagem “A Oração do Acaso”. É por isso que o mundo é repleto de fenômenos estatísticos explicando o que não pode ser explicado. 




* Para conhecer nosso curso online de MBE, clique aqui.

domingo, 16 de outubro de 2016

Curso Online de Medicina Baseada em Evidências



Colegas, cliquem no link para conhecer nosso Curso Online de MBE

Este curso tem o propósito de aproximar o pensamento clínico do paradigma científico. Seguindo o mesmo estilo de nosso Blog, utilizamos uma abordagem informal para democratizar conhecimentos básicos e avançados de metodologia científica, facilitando o entendimento de conceitos tradicionalmente percebidos como complexos.

Este curso se volta não apenas para professores ou pesquisadores, mas também para profissionais de saúde que desejam aprimorar sua prática clínica com (1) a análise crítica da validade de evidências científicas e (2) habilidade de aplicar o conhecimento científico na decisão clínica.

Ao abordar “aplicabilidade”, vamos além da metodologia científica. Apresentamos de forma original princípios de raciocínio clínico embasado em evidências, aspectos psicológicos da decisão, vieses cognitivos típicos do pensamento clínico, análise crítica das crenças internas, e como alinhar preferências e evidências.

Medicina baseada em evidências não se trata apenas de metodologia científica ou das burocráticas (e importantes) revisões sistemáticas. A sabedoria está em saber utilizar as evidências como norte da decisão individualizada, que leva em conta valores e preferências de nossos clientes.

Embora este curso tenha origem em nossa inserção acadêmica, sua forma foge ao academicismo tradicional. Falamos mais como clínicos que entendem de ciência, mantendo a proximidade do mundo real.

sábado, 15 de outubro de 2016

A Insegurança das Análises de Segurança



Normalmente se define como objetivos de ensaios clínicos de Fase III a avaliação da eficácia e da segurança. No entanto, o objetivo primordial deste tipo de estudo é usualmente testar eficácia, ficando a segurança em uma posição secundária. Isto faz com que a avaliação de eventos adversos seja mais vulnerável a erros aleatórios e sistemáticos. Demonstraremos nesta postagem onde reside a maior vulnerabilidade das análises de segurança.
Seja no desenho de superioridade ou de não inferioridade, de fato um ensaio clínico objetiva primariamente demonstrar eficácia de um tratamento. Colocado desta forma, isto pode parecer contrário a um princípio básico da medicina: primum non nocere ou primeiro não fazer mal.  De fato, do ponto de vista ético, devemos colocar o "não fazer mal" antes do "fazer bem". 

No entanto, quando falamos em raciocínio clínico, a decisão deve ir no sentido oposto. Ou seja, não há razão de se adotar uma terapia simplesmente porque esta é segura. A razão de uma terapia é primariamente trazer benefício. Caso traga benefício, medimos secundariamente o malefício, para decidir se vale a pena “pagar o preço”. 

Do ponto de vista clínico, o primeiro teste de hipótese deve ser mesmo a eficácia. Mesmo que esta seja a abordagem correta, é exatamente esta posição secundária da segurança no desenho de um estudo que faz dela mais sujeita a erros para os quais esta postagem se presta a alertar.

Erro tipo II de Segurança

Sendo o benefício a verdadeira justificativa do uso de uma terapia, o cálculo amostral é normalmente voltado para o desfecho primário de eficácia, nos deixando cegos se o estudo está adequadamente dimensionado para demonstrar segurança. Assim, desfechos de segurança são mais vulneráveis a sofrer do erro tipo II, principalmente quando estes desfechos não são muito frequentes.  

Por este motivo, alguns efeitos adversos só vêem a tona depois das drogas serem disponibilizadas no mercado. Não é incomum que drogas liberadas para comercialização, acabem sendo suspensas, devido ao relatos a posteriori de efeitos adversos (Vioxx, Rimonaband). 

E para complicar mais ainda, muitas vezes drogas são liberadas pelas agências reguladoras com base em estudos de desfechos substitutos (hipoglicemiantes, anti-hipertensivos, redutores de apetite), que são subdimensionados para desfechos clínicos, sejam de eficácia, sejam de segurança.

É por este motivo que terapias novas muitas vezes são randomizadas da forma 2:1 ou 3:1. Ou seja,  mais pacientes para o grupo tratamento do que para o grupo controle. Isso às vezes gera estranheza e desconfiança dos leitores. Mas é uma técnica adequada para aumentar a experiência com o uso do novo tratamento, dando oportunidade à observação de efeitos inesperados. Por exemplo, no estudo Symplicity HTN-3 (denervação renal na HAS resistente) a randomização gerou 2 pacientes de denervação para cada paciente controle. 

O Caráter Supresa dos Eventos Adversos

O segundo motivo da dificuldade de adequar um estudo para identificar efeitos adversos é que estes são amplos e muitas vezes inesperados. Em algumas situações, sabemos qual o evento adverso mais provável (por exemplo, sangramento com anticoagulantes), mas outras vezes não sabemos o que está por vir (infarto com Vioxx). 

Quando avaliamos eficácia, estamos focados em um tipo de desfecho para o qual o tratamento foi inventado, mas no caso da segurança, são infinitas as possibilidades. Isto faz com que nem sempre estejamos preparados para reconhecer o desfecho, que só fica aparente depois de se tornar mais frequente. Isto caracterizaria um viés de informação, pois “só reconhece o que acha quem sabe o que procura.” Não é erro tipo II, pois não é aleatório. É um problema de sensibilidade em reconhecer o desfecho devido a um erro sistemático de capacidade de detecção. 

Menor Confiabilidade de Eventos Adversos (quando aparecem)

Até aqui nos referimos à dificuldade de reconhecer um desfecho adverso. Mas há outro problema gerado pelo fato destes serem imprevisíveis: quando os encontramos, a veracidade deles é menor. Isto por três grandes razões: (1) quando não são pré-especificados (análise post-hoc), sofrem de viés de aferição; (2) se o estudo for subdimensionado para este desfecho de segurança, há maior risco do erro tipo I (afirmar  algo falso); (3) e por fim, o problema das múltiplas comparações. 

O Problema das Múltiplas Comparações

Este é um fenômeno estatístico comum, embora pouco reconhecido: quando comparamos múltiplos desfechos ao mesmo tempo, há maior possibilidade de algum deles apresentar diferença estatística por obra do acaso. É por isso que existe o desfecho primário de eficácia, para evitar esse problema. Mas com desfechos adversos, usualmente não há um primário. Desta forma, pode existir um grande número de desfechos que estão concorrendo simultaneamente a alguma significância estatística. Considerando um alfa de 0.05 (definição de significância estatística), o risco de um desfecho isolado aparecer estatisticamente significante por acaso não passará de 5%. No entanto, o risco de um dos múltiplos desfechos aparecer estatisticamente significante de forma falsa é muito maior que 5%. Se cada um tem isoladamente 5% de probabilidade de erro tipo I, o conjunto deles terá uma maior probabilidade de apresentar pelo menos um deles significante.

Imaginem que uma farsante quer provar ser vidente, capaz  de adivinhar alguma coisa. Um cético faz um experimento que define apenas 5% de probabilidade da vidente acertar por acaso (sorte). Mas isso só vai funcionar se a suposta vidente tiver apenas uma tentativa de acertar. Mas se ela tentar 30 vezes e cada uma das vezes a probabilidade for 5%, ela terá 80% de probabilidade de acertar alguma das vezes. Calculei 80% pela fórmula P = 1 - (1 - P)N, sendo N o número de tentativas ou comparações. Ou seja, 1 - (1 - 0.05)30 = 0.80

Já pensou se acreditássemos no acerto dela depois de tentar 30 vezes?

Parece absurdo, mas foi isso que fizemos (acreditamos) quando o estudo Jupiter demonstrou o inusitado achado de que rosuvastatina aumentava a incidência de diabetes. Eram inúmeros desfechos adversos testados simultaneamente e quando a rosuvastatina apresentou mais diabetes (P = 0.01) a comunidade médica adotou a falácia narrativa de contar a história de frente pra trás, buscando justificativas mecanicistas a posteriori. Assim ficamos anos e anos discutindo o impacto da estatina em diabetes quando na verdade a primeira hipótese deveria ser acaso. 

Um leitor mais entendido de acaso teria feito a correção de Bonferroni, multiplicando o valor de P pelo número de comparações. Se isso fosse feito (0.01 x 20), o verdadeiro valor de P corrigido seria 0.20, ou seja, esse negócio de diabetes no Jupiter nem foi estatisticamente significante.

Interessante notar que a mesma tabela de eventos adversos no Jupiter "demonstra" menor incidência de morte por câncer em pacientes randomizados para estatina (P = 0.02). Isso ninguém comentou ... Também era acaso.

Mas a fantasia do diabetes continuou e publicaram no Lancet uma meta-análise que “confirmou” o aumento com significância estatística bem limítrofe (limite inferior do 95% intervalo de confiança do OR = 1.02 - quase na trave). Mas essa revisão sistemática incluiu o estudo Jupiter, gerando a meta-ilusão já comentada por nós em postagem prévia. Nunca devemos fazer uma meta-análise para confirmar um achado inusitado incluindo o próprio estudo que gerou o achado inusitado, principalmente este estudo sendo o maior deles. Fica redundante. 

Mas agora já sabemos. O estudo HOPE-3, randomizou 12.700 pacientes para rosuvastatina ou placebo e a incidência de diabetes foi idêntica nos dois grupos. As coisas verdadeiras são reprodutíveis em estudos futuros, as coisas que aparecem por acaso, não ocorrerão duas vezes. Rosuvastatina não causa diabetes, era tudo acaso gerado pela vulnerabilidade de um desfecho de segurança ao erro tipo I.

(há os que tacreditam que o HOPE-3 mostrou incidência idêntica de diabetes nos dois grupos pois a dose de rosuvastatina foi 10 mg e não 80 mg como no Jupiter. No entanto, a prova do conceito reside no contraste entre grupos, sendo que dose tende apenas magnificar algo que estaria presente em qualquer contraste). 

Conto toda essa história apenas como exemplo de que a falta de percepção do problemas das múltiplas comparações pode levar a equivocadas conclusões a respeito da natureza das coisas.


A Efetividade da Segurança

Sabemos que algo que funciona positivamente no teste de hipótese científico (eficácia), pode funcionar de forma diferente no mundo real (efetividade). A notícia aqui é que a distância que separa o teste de hipótese do mundo real tende a ser maior quando falamos de segurança. 

Como já mencionei, o intuito primário de um ensaio clínico é comprovar eficácia. Desta forma, seleciona-se quem mais precisa da terapia (usualmente pacientes de maior risco do desfecho a ser prevenido pela terapia), pois estes são os mais vulneráveis a se beneficiar, dando maior poder estatístico ao estudo. Isso aproxima a eficácia da efetividade na medida em que o teste está sendo realizado em quem mais precisa no mundo real. 

No entanto, isso é diferente quanto a segurança. Como o intuito primário do estudo é o teste de eficácia, precisamos selecionar uma amostra que tolere bem o tratamento, para não atrapalhar o teste primário. Isto faz com que a seleção da amostra seja de pacientes de menor risco para complicações do tratamento, distanciando o ensaio clínico da população-alvo real do tratamento. 

O NNT do tratamento testado em um ensaio clínico, tende a ser a média do NNT do paciente que representa a média da população, salvo exceções. Porém o NNH (dano) de um tratamento tende a ser maior (mais segurança) em um ensaio clínico do que na população do mundo real. 

Desta forma, uma vez demonstrado segurança de um tratamento em um ensaio clínico, devemos ficar bastante atentos com o que ocorrerá quando o tratamento for instituído na prática.

Conclusão

Sem perder a oportunidade do trocadilho, análises de segurança nos deixam mais inseguros quanto à veracidade. Devemos observar cuidadosamente todos os pontos aqui abordados na prova do conceito de segurança. 

_______________________________________________________________________

Conheça nosso Curso Online de Medicina Baseada em Evidências.



sexta-feira, 7 de outubro de 2016

A Ilusão de Interação: Estudo DANISH




Em termos epidemiológicos, interação significa modificação de efeito. Este conceito é muito usado para avaliar se o efeito de um tratamento muda quando mudamos o tipo de paciente. Por exemplo, um tratamento reduz mortalidade em homens, porém não funciona em mulheres. Seria a interação entre gênero e tratamento. O gênero modifica o efeito do tratamento na mortalidade.

Interação é um fenômeno estatístico que permeia nossa vida cotidiana. Messi joga bem no Barcelona, mas não tão bem na seleção argentina. Isso é interação entre time e Messi. O time em que ele está jogando modifica o efeito de Messi no desfecho do jogo.

Embora interação na vida comportamental seja bastante comum, aí vai uma novidade usualmente incompreendida: interação quanto ao efeito de condutas médicas é um fenômeno raro. Essa raridade está demonstrada por revisões sistemáticas e análises de subgrupo feitas em diversos tratamentos. Por exemplo, a interação entre gênero e tratamento que citei acima “nunca” acontece em análises de subgrupo de ensaios clínicos.

A percepção da raridade deste fenômeno não está suficientemente presente na mente médica, promovendo interpretações erradas de evidências científicas ou raciocínios incorretos quanto à sua aplicabilidade. É o que chamei no título desta postagem de “ilusão de interação”.

Este foi o caso da interpretação do recém publicado estudo DANISH (Congresso Europeu de Cardiologia e New England Journal of Medicine), que frustou expectativas quando não demonstrou menor mortalidade em pacientes submetidos ao desfibrilador implantável (CDI), achado considerado por muitos diferente de estudos mostraram eficácia em amostras que tinham pacientes com miocardiopatia isquêmica. Seria interação entre tipo de miocardiopatia e CDI. O tipo de miocardiopatia modificaria o efeito do CDI na mortalidade. 

Manchete no site do Medscape afirmou The DANISH Trial Delivers a Shock of Humility, conotando que fomos presunçosos ao pensar que poderíamos atribuir o benefício do CDI a pacientes com miocardiopatia não isquêmica. Já o site do TCC afirma categoricamente "CDI não reduz mortalidade em pacientes com miocardiopatia não isquêmica". Tudo equivocado.

O DANISH não passa de uma “ilusão de interação”. Explicarei em seguida e no final discutirei como essas ilusões prejudicam o raciocínio baseado em evidências. 



O Estudo Danish e a Ilusão de Interação 

O DANISH trial randomizou 1.116 pacientes para CDI ou controle, tendo como desfecho primário mortalidade total. A mortalidade no grupo CDI foi 21.6%, comparado a 23.4% no controle, sem diferença estatística (P = 0.28; HR = 0.87, 95% IC = 0.68 - 1.12). Desta forma, foi um estudo negativo. 

Estudos prévios que, diferente do DANISH, incluíram pacientes com miocardiopatia isquêmica mostraram benefício do CDI profilático, como o MADIT II (apenas miocardiopatia isquêmica), COMPANION e SDC-HeFT (misturam miocardiopatia isquêmica e não isquêmica). À primeira vista, se compararmos o resultado negativo do DANISH (só miocardiopatia não isquêmica) com estes outros estudos, poderíamos pensar que CDI tem benefício na miocardiopatia isquêmica e não na miocardiopatia não isquêmica (interação). Foi o que os diversos comentários a respeito do estudo sugerem que a maioria pensou.

Mas se temos em mente que o fenômeno de interação é raro, nos tornamos mais céticos em relação a esta interpretação e devemos avaliar se outros fenômenos (que não interação) seriam responsáveis por essa aparente heterogeneidade entre os estudos.

Que outros fenômenos? O que o desfibrilador faz é salvar pacientes de morte por arritmia, portanto a detecção de seu efeito depende do número das mortes por arritmia que ocorrem dentro do desfecho primário de morte geral. 

Vamos comparar o número de mortes por arritmia do DANISH com o número do SCD-HeFT, por exemplo. Enquanto no SCD-Heft 57% das mortes do grupo controle decorreram de arritmia (95 mortes), no DANISH apenas 35% das mortes do grupo controle foi decorrente de arritmia (46 mortes). Além disso, o desfecho primário de morte geral foi muito mais numeroso no SCD-Heft (no grupo controle, 244 mortes no SCD-HeFT x 131 mortes no DANISH), devido ao maior tamanho amostral, que deu um poder estatístico maior. 

Portanto, a diferença do DANISH para os demais estudos positivos pode estar no poder estatístico. Na verdade, o estudo não comprova que o CDI não funciona para pacientes sem miocardiopatia isquêmica. O CDI pode funcionar igual, porém esses pacientes precisam menos de CDI, o que implicaria em um estudo maior para demonstrar benefício.

Tenho dito que desfechos secundários não servem para comprovar eficácia, nem para contrariar um desfecho primário negativo, mas servem para explicar o resultado no desfecho primário. Observem que o desfecho secundário de morte por arritmia foi significativamente menor do grupo CDI, comparado ao controle (4.3% vs. 8.2%; P = 0.005), sugerindo que o CDI funciona para prevenir morte súbita. O problema é que esse tipo de morte é menos frequente em quem não tem tanta fibrose pós-infarto, portanto precisaríamos de um estudo maior para detectar diferenças com menor grau de incerteza.



Como Testamos Interação?

Interação é testada de duas formas: nas análises de subgrupos de ensaios clínicos ou nas análises de heterogeneidade e sensibilidade de meta-análises. 

Um importante dado que corrobora com meu raciocínio é a análise de subgrupo do SCD-HeFT, que mostrou “idêntica” redução de mortalidade total pelo CDI nos grupos de miocardiopatia isquêmica e não isquêmica. Não houve interação (P = 0.68) e o hazard ratio do tratamento foi bem parecido nos dois grupos. 

OBS: P < 0.05 significaria interação presente, portanto P = 0.68 indica ausência de interação.



O mesmo ocorreu no estudo COMPANION, cuja análise de subgrupo mostrou o mesmo efeito do CDI nos diferentes tipos de miocardiopatia. 

Considerando que os efeitos intrínsecos dos tratamentos tendem a ser reprodutíveis em diferentes populações e observando as análises de subgrupo do SCD-HeFT e COMPANION, podemos dizer que já sabíamos que o CDI funcionava em pacientes com miocardiopatia não isquêmica. O que o DANISH nos traz de novo é a informação de que estes pacientes morrem menos de arritmia, portanto precisam menos desse eficaz device contra morte arrítmica. O DANISH não nega o efeito do CDI neste tipo de paciente. 

Precisamos assim diferenciar entre o efeito do tratamento e o quanto uma população precisa do tratamento.

Na verdade, o DANISH é um estudo desnecessário para demonstrar o que ele não conseguiu demostrar. Mas porque fazer um estudo desnecessário? Em minha mente conspiradora, estudos desnecessários servem para que seu resultado previsivelmente positivo induza médicos a  prescrever o tratamento. Mesmo previsível, o DANISH falhou.

((Prometi em postagem prévia falar porque o HOPE-3 braço estatina foi um estudo desnecessário (muitos já haviam me cobrado por esta promessa não cumprida, agora vai). Este estudo mostrou que estatina em pacientes de risco intermediário e colesterol baixo tinham benefício. Mas isso já estava demonstrado em pacientes de risco alto com mesmo valor de colesterol. Pela regra de ausência de interação, já sabíamos que haveria efeito em pacientes de médio risco, só precisamos de um estudo gigante para demonstrar isso, como o HOPE-3. Mas se já sabemos, porque fazer um estudo gigante? Porque o efeito de marketing de um estudo positivo é grande, de acordo com minha mente conspiradora. Os médico ficam induzidos pela positividade do estudo a adotar a terapia, sem reconhecer que para um mesmo efeito intrínseco, o efeito concreto do tratamento é menor em pessoas de risco mais baixo. Explicarei melhor abaixo)).

Agora vamos explicar a outra forma de se testar interação: meta-análises. Estas avaliam heterogeneidade entre estudos, que representa o quanto os resultados de diferentes estudos se diferenciam além do acaso. Provavelmente uma meta-análise (acho que vou fazer isso, quem quiser pode se voluntariar como co-autor) não mostraria heterogeneidade entre estudos que incluíram miocardiopatia isquêmica e o DANISH. Como provavelmente o DANISH foi negativo por falta de poder estatístico (erro aleatório tipo II), a diferença entre este e os outros estudos não superariam o acaso. Outra coisa que meta-análises podem fazer é análise de sensibilidade, onde se usa o teste de interação. Seria a avaliação da interação entre o tipo de população do estudo e o efeito do tratamento. Esta seria negativa, tal como as análises de subgrupo dos estudos individuais mostraram neste caso (SCD-HeFT e COMPANION).



Interação de Risco Relativo versus Risco Absoluto

Importante notar que o teste de interação deve utilizar as medidas relativas de risco (risco relativo ou hazard ratio ou odds ratio) e não redução absoluta de risco. Isto porque a propriedade intrínseca do tratamento é representada pelas medidas relativas, que tendem a ser constantes nos diferentes estratos de risco absoluto. 

Quando falamos que interação um fenômeno raro, estamos nos referindo à propriedade intrínseca do tratamento (risco relativo), que graças a Deus tem sua estabilidade (constante em diferentes estratos de risco), pois nunca teremos um estudo para cada tipo de paciente.

Claro que se analisássemos interação utilizando redução absoluta de risco ou NNT, esta daria significativa quase sempre, pois estas medidas sempre variam com o risco basal do paciente. Ou seja, para uma mesma redução relativa (efeito intrínseco do tratamento), pacientes de alto risco terão um melhor NNT do que pacientes de baixo risco (efeito concreto do tratamento). 

Esse é o grande valor das medidas relativas. Embora as medidas absolutas (RAR e NNT) representem de forma mais concreta o benefício que um paciente recebe, estas são particulares do tipo de paciente. Por outro lado, as medidas relativas raramente têm interação, sendo constantes nos diferentes tipos de paciente. 

Portanto, enquanto o risco absoluto representa efeito concreto do tratamento em cada tipo de indivíduo (estrato de risco), o risco relativo representa a propriedade intrínseca do tratamento, que tende a se reproduzir em qualquer tipo de indivíduo.

Resumindo, as medidas relativas (RR, HR) descrevem o efeito tratamento, enquanto as medidas absolutas (RAR e NNT) descrevem o paciente que recebe o tratamento. 

(Isso se parece com o conceito de acurácia diagnóstica, em que sensibilidade e especificidade não variam com prevalência de doença, enquanto valores preditivos variam com prevalência de doença. Sensibilidade e especificidade estão para risco relativo, assim como valor preditivo está para risco absoluto).


Os Princípios da Medicina Baseada em Evidências

Este raciocínio de estabilidade do risco relativo dá suporte a dois de nossos “princípios da medicina baseada em evidências”. O Princípio da Prova do Conceito diz que MBE não é copiar artigo científico. É utilizar uma prova de conceito como norte para uma decisão individualizada. O norte é a redução relativa do risco. Utilizando deste norte, aplicamos esta redução no risco basal de nosso paciente, identificando qual a redução absoluta de risco proporcionaremos  a este paciente em particular (impacto concreto). Por exemplo, sei que anticoagulação oferece 60% de redução relativa do risco. Utilizo um escore CHADS, identifico que o risco de AVC de meu paciente é 3%. Reduzir 60% de 3% = 1.8% de redução absoluta de risco (NNT = 100/1.8 = 56).

O segundo princípio respaldado por nossa discussão é o Princípio da Complacência, o qual aponta que podemos aplicar evidências de boa qualidade em pacientes diferentes da amostra do estudo, desde que não haja uma grande razão para se acreditar que o efeito será outro. É o uso de uma evidência indireta quando usamos um tratamento em um indivíduo de 70 anos, mesmo que a média de idade do ensaio clínico tenha sido 55 anos. Isso é embasado na raridade do fenômeno de interação

A falta de percepção de que este fenômeno é raro leva a uma postura caricatural da medicina baseada em evidências, na qual não podemos aplicar o tratamento a quase ninguém, pois todo mundo é um pouco diferente da amostra do estudo, nem podemos calcular um NNT individual com base na propriedade intrínseca do estudo. 

Em que Situações Surge Interação ?

Embora interação seja um fenômeno raro, esta pode se fazer presente em duas situações. 

A primeira é quando estamos medindo um desfecho composto de benefício e malefício. O benefício representa a consequência intencional (benefício intrínseco, constante), mas o malefício representa um conjunto infinito de intercorrências que podem acontecer, cada uma com seu risco relativo particular. Sendo assim, diferentes populações podem ter predileções por diferentes complicações, o que faz com que risco  relativo de efeito adverso possa ser variável em diferentes tipos de paciente.

Vejam o exemplo de morte total em pacientes submetidos a cirurgia de revascularização miocárdica. Avaliando os componentes da morte total, o beneficio relativo na redução de morte cardiovascular é estável, porém o aumento relativo da morte por complicações pode variar. No lado do benefício, todos têm doença isquêmica, portanto a redução relativa de morte cardiovascular é constante. Mas no lado do malefício, digamos que apenas alguns têm DPOC. Claro que nestes o aumento relativo de morte por complicação respiratórias será maior. É um sistema mais vulnerável a esta complicação. Ao combinar os dois tipos de morte em morte total, esta vai variar de acordo com DPOC. Neste caso, a redução redução relativa do risco de morte total será variável, porém a culpa será da complicação e não do benefício (que é constante).

O segundo motivo pelo qual a redução relativa pode variar é quando a magnitude do problema que será combatido pelo tratamento varia. Por exemplo, o benefício intrínseco de uma sutura para reduzir sangramento será maior se a ferida for maior. Ou o benefício da limpeza de ouvido na melhoria da audição será maior na medida em que o paciente tem mais cera do ouvido. Ou uma cirurgia de revascularização pode ser mais benéfica em termos relativos no triarterial do que no uniarterial. Discutimos recentemente a evidência do estudo IMPROVE-IT, que estudou pacientes de colesterol bastante baixo e mostrou uma redução relativa de risco (verdadeira) pífia com uso de estatina. Portanto, o risco relativo pode variar com a magnitude do problema intermediário (ferida, cera, obstruções, colesterol) que será corrigido pelo tratamento para obter um ganho clínico (reduzir sangramento, melhorar audição, reduzir infarto). 

Mas não devemos generalizar essas situações e achar que a redução relativa do risco varia com o risco basal ou com o mecanismo básico do problema (miocardiopatia isquêmica ou dilatada).

Conclusões

O estudo DANISH não serve para negar o efeito do CDI em miocardiopatia não isquêmica. Serve para mostrar que estes pacientes morrem menos de arritmia, portanto terão um beneficio absoluto menor do que pacientes que morrem mais de arritmia. Este estudo não precisava ser realizado, mas serve para nos lembrar de ser mais seletivos na indicação de CDI para pacientes com miocardiopatia não isquêmica. Por outro lado, considerando a raridade do fenômeno de interação, se encontramos um paciente com miocardiopatia não isquêmica, porém com alto risco para morte súbita, o CDI deverá ter um benefício absoluto maior e a indicação deve ser considerada.

Importante valorizar medidas relativas de risco como representantes do efeito intrínseco dos tratamentos, propriedade generalizável para diferentes tipos de pacientes, devido à raridade do fenômeno de interação.

Tenho a impressão que nossa mente superstima a probabilidade de interação terapêutica, pois interações humanas, sociais ou comportamentais são comuns. A depender do ambiente em que estamos ou com quem estamos, modificamos nosso comportamento. Porém um tratamento não é assim, na verdade requer condições especiais para conseguir modificar seu efeito. Tratamentos tem propriedade mais estáveis do que comportamentos humanos. 

OBS: Vocês devem ter notado que fui bastante repetitivo e insistente em algumas frases. Não foi um estilo literário, apenas uma estratégia didática. 
_______________________________________________________________________

Objetivos Didáticos da Postagem

1. Conceito de interação
2. A propriedade constante do efeito intrínseco dos tratamentos
3. Como avaliar interação (subgrupos e meta-análises)
4. Excessões em que interação se faz presente.
4. Risco Relativo e Risco Absoluto