sexta-feira, 28 de setembro de 2018

Estudo positivo versus negativo: qual a verdade? (COAPT e MITRA-FR)


É frequente a pergunta do título dessa postagem, pois para todas as questões há estudos com diferentes resultados. Porém esse fenômeno de estudos contraditórios acaba de aparecer de forma inusitada no New England Journal of Medicine: dois ensaios clínicos sobre a mesma intervenção, na mesma população, publicados na mesma revista, separados por 1 mês, ambos de boa qualidade científica, um positivo e outro negativo

Onde está a verdade?

Pelo viés da positividade, tendemos a escolher o estudo positivo. Melhor ainda quando este estudo positivo é o segundo a ser publicado, pois o viés da novidade contribui para a ilusão da descoberta, que nos faz pensar que achamos o que ainda não havia sido encontrado por falta de oportunidade. 

A propósito, estes dois ensaios clínicos testaram a correção percutânea da insuficiência mitral secundária a miocardiopatia dilatada, com um device denominado MitraClip, fabricado pela Abbott. O primeiro (MITRA-HF), negativo, foi um estudo francês apresentado no Congresso Europeu de Cardiologia, uma decepção moderadamente noticiada. O segundo (COAPT), positivo, foi um estudo americano apresentado no congresso americano de intervencionismo (TCT - Transcatheter Cardiovascular Therapeutics), cuja reação foi retratada por John Mandrola, que estava presente no evento: 

“The applause was remarkable, not just for its intensity, or that it brought emotion to the face of the speaker, but that it occurred at a "scientific" meeting. The stage cameras in the massive auditorium panned to a rapturous audience at the TCT 2018 meeting. It was as if the home team had scored, or perhaps a politician at a rally had landed an applause line.”

Na opinião do autor do COAPT, respaldada por comentário do NEJM Journal Watch, tal diferença de resultado entre os trabalhos teria derivado da maior gravidade da insuficiência mitral e da disfunção sistólica no COAPT. No entanto, essa análise é míope, simplista e anti-científica: primeiro porque essas diferenças foram discretas e não justificariam tamanho contraste de resultado entre os dois estudos; segundo, esta justificativa desconsidera um princípio básico da medicina baseada em evidências: a raridade do fenômeno de interação.

Portanto, precisamos cavar mais fundo para entender o porquê da diferença entre os estudos.

Estudo Positivo versus Estudo Negativo

Diante de resultados conflitantes, há duas possibilidades: ambos estudos estão corretos ou um deles está errado. 

A primeira possibilidade (ambos corretos) é sempre pouco provável e nos remete ao princípio da complacência na aplicabilidade de uma evidência. Esse princípio se baseia na raridade do fenômeno de interação e justifica a não necessidade de que os estudos representem cada uma das milhares variações de pacientes existentes. Quando um efeito benéfico existe, este é reprodutível em diferentes tipos de pacientes. E isso é confirmado pela consistência das análises de subgrupos de ensaios clínicos e por estudos meta-científicos da validade externa dos trabalhos. 

A não ser que haja uma grande razão para que o resultado do tratamento mude com alguma característica específica dos pacientes. E neste caso, não há uma grande razão. 

Mitralclip é mitralClip, e não seria uma pequena diferença de uso que promoveria tamanha diferença entre os estudos. Insuficiência mitral grave é insuficiência mitral grave, não seria alguma diferença de gravidade que justificaria resultados contraditórios. O mesmo para a grave disfunção em ambos os grupos. 

Nesta questão específica, estamos falando de um estudo que mostra 30% de redução relativa do risco de internamentos versus um estudo com zero de redução de internamento ou morte. São diferenças extraordinárias entre dois estudos, o que seria necessário razões extraordinárias para justificar as diferenças. Não há tais razões. 

E desconsiderando tudo isso, o autor do COAPT tenta se justificar:

“Most important, COAPT enrolled patients with substantially worse MR, with a mean effective regurgitant orifice area of 41 mm2 vs 31 mm2 in MITRA-FR. Ventricles in that trial, however, were severely dilated, with a mean left ventricular end-diastolic volume of 135 mL/m2 vs 101 mL/m2 in COAPT.”

Temos aqui um exemplo clássico de violação do princípio da complacência. Essa colocação pode parecer lógica, porém é anti-científica e irracional. Desconsidera o princípio da raridade de interação. Em ambos os estudos os pacientes tem miocardiopatia muito grave e refluxo mitral grave.

Fica aqui a primeira lição dessa análise: não podemos nos seduzir facilmente por potenciais influências da população estudada na demonstração de um conceito. Isso é coisa rara. 

Desta forma, devemos julgar mais provável a segunda razão de discordância entre os estudos: um deles deve estar errado. Neste sentido, preciso lembrar que o impacto de vieses no resultado de um estudo tende a ser maior do que o impacto verdadeiro do tratamento. São muitos exemplos de grandes tamanhos de efeitos que no final são justificados apenas por vieses ou erros aleatórios. Lembram da recente “falácia do mediterrâneo”? 40% de redução relativa do risco com uma dieta um pouco diferente? Depois descobrimos que o estudo não era exatamente randomizado.

Precisamos explorar em detalhe métodos e resultados de ambos os estudos e entender a razão dessa diferença. 

Onde está Wally?


Em primeiro lugar, devemos acessar a probabilidade pré-teste dos dois resultados. Julgo bastante plausível que a correção de um refluxo mitral que faz voltar para o átrio 30% do volume sistólico seja benéfica para o paciente com um ventrículo com grave déficit de contratilidade. Do ponto de vista mecanicista, faz sentido, mesmo que o refluxo seja secundário. Afinal, você prefere ter miocardiopatia com ou sem insuficiência mitral severa? 

Por outro lado, plausibilidade mecanicista não é garantida de verdade, pois os sistemas biológicos não são cartesianos. Estamos repletos de exemplos. Sendo assim, ficarei com 50% de probabilidade pré-teste para a hipótese da correção percutânea da insuficiência mitral ser benéfica. 

Tendo um estudo positivo e outro negativo, devemos analisar os tipos de problema metodológicos que promovem falsos positivos ou falsos negativos. 

A primeira diferença que salta aos olhos é que o COAPT, estudo positivo, avaliou número de internamentos por insuficiência cardíaca, um tipo de desfecho que avalia não apenas se o paciente se internou, mas também computa a quantidade de internamentos. Esse tipo de análise é visto como mais completa do que apenas um primeiro internamento. Mas como pode haver mais de um desfecho por paciente e como pacientes que vivem mais acabam por ter mais internamentos, há necessidade de ajuste estatísticos para estas questões. E o COAPT fez estes ajustes devidamente. 

Já o MITRA-FR avaliou como desfecho primário o combinado de morte ou um internamento por insuficiência cardíaca e não houve qualquer diferença entre os grupos. De qualquer forma, esta não parece ser a razão da diferença entre os estudos, pois no COAPT o desfecho secundário de um primeiro internamento mostrou o mesmo resultado positivo. 

Devemos continuar analisando outros aspectos.

No estudo negativo, devemos procurar erros que tendem a um resultado negativo:

  • O tratamento foi executado de forma competente?
  • Houve excessivo cross-over que anulasse o efeito do tratamento?
  • O estudo tinha poder para detectar diferença entre os grupos?

Quanto ao cross-over, esse é o problema da análise de intenção de tratar (sempre preferida): se muitos pacientes do grupo tratamento não fazem o tratamento ou muitos pacientes do grupo controle acabam por fazer o tratamento, isso iguala artificialmente os resultados. 

Respondendo a estas preocupações: a competência do implante da valva não diferiu  muito entre os estudos, pois a taxa de sucesso imediato e a graduação da insuficiência mitral após um ano foi parecida; praticamente não houve cross-over em nenhum dos dois estudos e ambos obedeceram premissas que confirmam poder estatístico para a análise da hipótese primária. 

No estudo positivo, devemos procurar:

  • Estudos pequenos (podem dar qualquer tipo de resultado).
  • Violações na randomização, levando a pacientes menos graves para o grupo intervenção (randomização aberta).
  • Violação no princípio da intenção de tratar.
  • Viés de desempenho, no qual pacientes do grupo intervenção são melhores tratados.
  • Viés de mensuração do desfecho em estudo aberto (desfecho subjetivo ou criado pelo médico). 
Como falamos, ambos os estudos bem dimensionados. Não  parece haver qualquer violação da randomização e ambos usaram o princípio correto de intenção de tratar. 

O Elefante na Sala


Na sequência de avaliação dos vieses, nos deparamos com um “elefante da sala”: estamos diante da famigerada combinação de um estudo aberto e um desfecho primário mediado pelo pensamento médico. 

Há dois tipos de desfechos clínicos: resistentes a vieses ou susceptíveis a vieses. O desfecho “internamento” é um típico desfecho susceptível ao viés do estudo aberto. Principalmente porque é um desfecho que depende de uma decisão médica para se fazer presente.

Ao saberem que seus pacientes receberam um revolucionário device de correção da insuficiência mitral, é plausível que médicos se tornem mais conservadores na indicação de re-internamento. A confiança no device pode fazê-los interpretar algum sintoma como inespecífico e não indicar internamento por insuficiência cardíaca. E o contrário pode acontecer no grupo que não recebeu o revolucionário aparato médico. A isso poderíamos chamar viés de criação do desfecho.

Segundo, o viés de desempenho. Em estudos abertos, há sempre uma tendência de que o paciente randomizado para a conduta-novidade receba mais atenção pós-procedimento do que os pobres mortais que não receberam a novidade. Vejo isso nitidamente na prática. O paciente que recebe a grande novidade como tratamento vira um paciente VIP, que recebe especial atenção da equipe médica e de pesquisadores. O próprio médico que implanta o device passa a ver aquele paciente como seu filho. Quem vive isso na prática, sabe do que estou falando … Daí surge a tendência forte de que os pacientes-novidade recebam um melhor tratamento do que os pacientes comuns. E particularmente em re-internamento por insuficiência cardíaca esse tipo de contraste na qualidade do acompanhamento pode ser crucial. Pode fazer muita diferença. 

E ao ler o suplemento do estudo COAPT, percebemos essa tendência. No baseline  (randomização) tudo era igual, mas após 1 ano e 2 anos o uso de inibidor da ECA e beta-bloqueador foi maior no grupo que tratou a insuficiência mitral. Assim como a taxa aumento das doses dessas drogas, sempre maior do grupo que tratou a insuficiência mitral. 

Isso é um indício (smoking gun) de que houve viés de desempenho. 

Mas porque os mesmos vieses não positivaram o estudo francês, que também era susceptível? Por isto que denominamos "risco de viés". Pois uma brecha no estudo não é uma garantia de que o viés ocorrerá. E nem sempre sabemos explicar o motivo exato pelo qual o viés alterou o resultado ou não alterou. A análise de um ensaio clínico não é microscópica, caso a caso, é uma análise macroscópica, baseada em probabilidade. Quem sabe o médico francês é cognitivamente mais conservador para internamento do que o médico americano (mera especulação de minha parte ... não importa).

Finalmente, o Desempate


Se o “elefante” está na sala de ambos os estudos, qual o estudo verdadeiro? Aí vem o pulo do gato na análise. Esse elefante na sala (desfecho susceptível a viés em estudo aberto) é um tipo de viés que predispõe ao falso-positivo.

O estudo MITRA-HF é negativo a despeito desta predisposição ao falso-positivo. Enquanto o estudo COAPT é um estudo positivo diante de potenciais vieses pró-positividade. 

Embora ambos os estudos tenham em seus métodos o mesmo risco de viés, o resultado  do COAPT tem maior risco de viés do que o resultado do MITRA-HF. Desta forma, concluímos que o nível de evidência para o resultado do MITRA-HF é melhor do que o nível de evidência para o resultado do COAPT. 

Aqui vem a segunda grande lição: a análise da limitação de um trabalho não deve ser feita apenas pela leitura da metodologia. É muito importante que seja avaliado se o resultado do estudo está indo na direção do viés promovido pela limitação metodológica. Erros sistemáticos são chamados de vieses pois eles geram uma preferência de resultado, erram para um lado e o problema é se o resultado do estudo está neste lado. Essa percepção nos permitiu considerar o resultado do MITRA-HF mais confiável do que o COAPT. 

Aqui não estamos querendo dizer que a verdade definitiva está no resultado no MITRA-HF. Mas se tivermos que assumir uma posição, que seja a posição da incerteza de que este device tenha benefício. Permanecemos com a hipótese nula até que se prove o contrário.

A Cereja do Bolo


Por fim, uma cereja no bolo que deixei para o final: o COAPT foi um estudo financiado pela Abbot, fabricante do mitralClip, cujo desenho, análise e preparo do artigo teve participação da empresa; o MITRAL-HF é um estudo financiado pelo governo francês, sem participação da indústria no desenho ou execução do estudo. Uma característica que não resolve a nossa dúvida, mas nos deixa intrigados …

Ao invés de comemorar resultados positivos como um gol que levou nosso time preferido a ser campeão, devemos observar se esse gol é válido cientificamente. Torcida não combina muito com ciência.


---------------------------------------------------------------------------------------------------------------------



Conheça o curso online de medicina baseada em evidências, clicando aqui.

10 comentários:

  1. Dear doctor,

    I would put my chips in a case of vested bias.

    ResponderExcluir
  2. Olá, professor.

    Mais uma análise incrível. Obrigado sempre pelos seus conhecimentos transmitidos de forma tão clara. Me sinto "empoderado" sempre que leio um novo artigo seu.

    Como é possível a comemoração tão cega de um resultado positivo? Será que estamos tão longe de termos uma pulga atrás da orelha com uma frequência maior no meio médico?

    Obrigado, sempre.

    ResponderExcluir
  3. Meu amigo,

    parabéns pela tua reflexão.

    Li os dois estudos e os materiais suplementares. Discrepâncias a parte em relação aos comparadores - sim, o COAPT trial joga fragilidades (sutis, especialmente com inibidores da ECA) para o grupo comparador que não existem no MITRA-FR), e também em relação à diferença no número de eventos, ambos os estudos tem vínculo com Abbott - do estudo em si e de pesquisadores. Não acho que tantas questões de validade interna vem explicar diferenças. Vou de novo na big picture, aqui posso estar biased por ser meta-pesquisador, mas o que direi abaixo parece explicar um tanto o que me acontece agora. E as explicações de big picture por vezes se sobrepõem aos nossos scavenges tradicionais trial a trial.

    Semana passada a Lisa Bero publicou uma revisão de escopo que trata da influência da indústria sobre research agenda - DOI: 10.2105/AJPH.2018.304677. Pra mim a situação dos dois trials é clara e explicada exatamente por esse ponto. O Flávio (Fuchs) tem dito com frequência que doenças valvares serão o boom de pesquisa dos próximos anos. Com isso, procedimentos com/sem device; de cirurgia aberta ou não; ou mesmo de tratamento farmacológico otimizados serão (já estão) sendo publicados como nossas edições do Zero Hora. Qual outra explicação teríamos pra dois trials em andamento com desenhos experimentais praticamente idênticos e publicados no mesmo timing no mesmo periódico?

    Feito isso, é natural que um mesmo tema investigado com tanta avidez, e em geral os manuscritos não deixarão explícitos tais comportamentos mesmo que estejam travestidos por estratégias que imunizam vieses, incorra em resultado espúrio. Tudo que é feito com velocidade não dá certo (a menos para questões prioritárias de pandemias).

    Na minha visão, tratam-se de dois resultados espúrios, evidenciados por experimentos com reprodutibilidade já documentados, que são frutos da avidez imposta (conscientemente ou não) pela indústria - nenhum dos trials está imune disso, mesmo que estivessem isentos de conflitos de interesse, já que ambos tratam de devices. Leia a peça da Lisa Bero e diversas explicações sobre isso caberão.

    Em tempo: os dois trials gostariam que os resultados fossem positivos. A discussão do MITRA-FR é recheada de spins, com autores o tempo todo especulando os porquês do procedimento não ter sido superior.

    Finalizo dizendo que a resposta para essa pergunta (se é que a gente sabe alguma resposta em soft sciences) só será sabida até que os ânimos se atenuem.

    Minha conclusão clara é sobre espuriedade dada por avidez sobre um tema.

    Abraço forte,

    LH

    ResponderExcluir
  4. Excelente, competente e realista análise. Não conheço estudo anterior que tivesse sido ovacionado a cada slide de resultado que contrariava todo o conhecimento clínico-fisiopatológico prévio.

    ResponderExcluir
  5. Meu mestre!
    Fenomenal. Para mim, a segunda lição é a primeira: É muito importante que seja avaliado se o resultado do estudo está indo na direção do viés promovido pela limitação metodológica.

    É curioso, mas as vezes, quando vejo um estudo que mesmo predisposto a um viés, tende a mostrar o contrário, me dá uma falsa sensação de segurança no resultado. Mesmo sabendo que antes disso devo testar a veracidade da evidência. Sua mente em constante treinamento permanece atenta para essas heurísticas... Porém, quando imerso na assistência, minha curiosidade pelo excesso de informações novas nesse começo de carreira, me cega quanto às etapas da construção do conhecimento, e me faz inadvertidamente tender a me empolgar com condutas positivas.

    A mente médica e humana é condicionada desde a formação a ser fã de resultados positivos... Acho que meditar talvez seja um dos hábitos que mais me traz paz para sair da confusão e explosão de novidades do cotidiano para a tranquilidade de aceitar a incerteza...

    Obrigado por seu inspirador serviço de conscientização.

    Um forte abraço,
    Agora vou ali, dar uma corrida. Espero você na próxima!

    ResponderExcluir
  6. Parabens pela analise professor, tambem sou muito critico, embora dessa vez eu discorde do senhor. Quando observamos heterogenidade dos resultados nao significa que um esta errado e outro certo, devemos explorar o assunto e a resposta geralmente esta justamente em diferencas da populacao. Tais diferencas, principalmente o volume diastolico final, sao clinicamente significativas. Mesmo que desconsideremos o desfecho sujeito ao vies (internacao), ainda temos significativa reducao na mortalidade. Um forte abraco, Carlos.

    ResponderExcluir
  7. Professor Luis
    Como sempre, ótimas analises em agradável leitura.
    Aguardo ansioso analise do estudo Cantos, com a inseparável crítica ao uso de hsPCR na prática clínica.

    ResponderExcluir
  8. Parabéns pela lucidez habitual em agradável leitura. Aguardo ansioso a analise do estudo Cantos e a crítica da utilidade prática do hsPCR.

    ResponderExcluir
  9. Torcedores são observadores, e ciência é observação. Sem desmerecer o teor do artigo, mas não posso considerar a última frase como parte da cereja do bolo.

    ResponderExcluir