É frequente a pergunta do título dessa postagem, pois para todas as questões há estudos com diferentes resultados. Porém esse fenômeno de estudos contraditórios acaba de aparecer de forma inusitada no New England Journal of Medicine: dois ensaios clínicos sobre a mesma intervenção, na mesma população, publicados na mesma revista, separados por 1 mês, ambos de boa qualidade científica, um positivo e outro negativo.
Onde está a verdade?
Pelo viés da positividade, tendemos a escolher o estudo positivo. Melhor ainda quando este estudo positivo é o segundo a ser publicado, pois o viés da novidade contribui para a ilusão da descoberta, que nos faz pensar que achamos o que ainda não havia sido encontrado por falta de oportunidade.
A propósito, estes dois ensaios clínicos testaram a correção percutânea da insuficiência mitral secundária a miocardiopatia dilatada, com um device denominado MitraClip, fabricado pela Abbott. O primeiro (MITRA-HF), negativo, foi um estudo francês apresentado no Congresso Europeu de Cardiologia, uma decepção moderadamente noticiada. O segundo (COAPT), positivo, foi um estudo americano apresentado no congresso americano de intervencionismo (TCT - Transcatheter Cardiovascular Therapeutics), cuja reação foi retratada por John Mandrola, que estava presente no evento:
“The applause was remarkable, not just for its intensity, or that it brought emotion to the face of the speaker, but that it occurred at a "scientific" meeting. The stage cameras in the massive auditorium panned to a rapturous audience at the TCT 2018 meeting. It was as if the home team had scored, or perhaps a politician at a rally had landed an applause line.”
Na opinião do autor do COAPT, respaldada por comentário do NEJM Journal Watch, tal diferença de resultado entre os trabalhos teria derivado da maior gravidade da insuficiência mitral e da disfunção sistólica no COAPT. No entanto, essa análise é míope, simplista e anti-científica: primeiro porque essas diferenças foram discretas e não justificariam tamanho contraste de resultado entre os dois estudos; segundo, esta justificativa desconsidera um princípio básico da medicina baseada em evidências: a raridade do fenômeno de interação.
Portanto, precisamos cavar mais fundo para entender o porquê da diferença entre os estudos.
Estudo Positivo versus Estudo Negativo
Diante de resultados conflitantes, há duas possibilidades: ambos estudos estão corretos ou um deles está errado.
A primeira possibilidade (ambos corretos) é sempre pouco provável e nos remete ao princípio da complacência na aplicabilidade de uma evidência. Esse princípio se baseia na raridade do fenômeno de interação e justifica a não necessidade de que os estudos representem cada uma das milhares variações de pacientes existentes. Quando um efeito benéfico existe, este é reprodutível em diferentes tipos de pacientes. E isso é confirmado pela consistência das análises de subgrupos de ensaios clínicos e por estudos meta-científicos da validade externa dos trabalhos.
A não ser que haja uma grande razão para que o resultado do tratamento mude com alguma característica específica dos pacientes. E neste caso, não há uma grande razão.
Mitralclip é mitralClip, e não seria uma pequena diferença de uso que promoveria tamanha diferença entre os estudos. Insuficiência mitral grave é insuficiência mitral grave, não seria alguma diferença de gravidade que justificaria resultados contraditórios. O mesmo para a grave disfunção em ambos os grupos.
Nesta questão específica, estamos falando de um estudo que mostra 30% de redução relativa do risco de internamentos versus um estudo com zero de redução de internamento ou morte. São diferenças extraordinárias entre dois estudos, o que seria necessário razões extraordinárias para justificar as diferenças. Não há tais razões.
E desconsiderando tudo isso, o autor do COAPT tenta se justificar:
“Most important, COAPT enrolled patients with substantially worse MR, with a mean effective regurgitant orifice area of 41 mm2 vs 31 mm2 in MITRA-FR. Ventricles in that trial, however, were severely dilated, with a mean left ventricular end-diastolic volume of 135 mL/m2 vs 101 mL/m2 in COAPT.”
Temos aqui um exemplo clássico de violação do princípio da complacência. Essa colocação pode parecer lógica, porém é anti-científica e irracional. Desconsidera o princípio da raridade de interação. Em ambos os estudos os pacientes tem miocardiopatia muito grave e refluxo mitral grave.
Fica aqui a primeira lição dessa análise: não podemos nos seduzir facilmente por potenciais influências da população estudada na demonstração de um conceito. Isso é coisa rara.
Desta forma, devemos julgar mais provável a segunda razão de discordância entre os estudos: um deles deve estar errado. Neste sentido, preciso lembrar que o impacto de vieses no resultado de um estudo tende a ser maior do que o impacto verdadeiro do tratamento. São muitos exemplos de grandes tamanhos de efeitos que no final são justificados apenas por vieses ou erros aleatórios. Lembram da recente “falácia do mediterrâneo”? 40% de redução relativa do risco com uma dieta um pouco diferente? Depois descobrimos que o estudo não era exatamente randomizado.
Precisamos explorar em detalhe métodos e resultados de ambos os estudos e entender a razão dessa diferença.
Onde está Wally?
Em primeiro lugar, devemos acessar a probabilidade pré-teste dos dois resultados. Julgo bastante plausível que a correção de um refluxo mitral que faz voltar para o átrio 30% do volume sistólico seja benéfica para o paciente com um ventrículo com grave déficit de contratilidade. Do ponto de vista mecanicista, faz sentido, mesmo que o refluxo seja secundário. Afinal, você prefere ter miocardiopatia com ou sem insuficiência mitral severa?
Por outro lado, plausibilidade mecanicista não é garantida de verdade, pois os sistemas biológicos não são cartesianos. Estamos repletos de exemplos. Sendo assim, ficarei com 50% de probabilidade pré-teste para a hipótese da correção percutânea da insuficiência mitral ser benéfica.
Tendo um estudo positivo e outro negativo, devemos analisar os tipos de problema metodológicos que promovem falsos positivos ou falsos negativos.
A primeira diferença que salta aos olhos é que o COAPT, estudo positivo, avaliou número de internamentos por insuficiência cardíaca, um tipo de desfecho que avalia não apenas se o paciente se internou, mas também computa a quantidade de internamentos. Esse tipo de análise é visto como mais completa do que apenas um primeiro internamento. Mas como pode haver mais de um desfecho por paciente e como pacientes que vivem mais acabam por ter mais internamentos, há necessidade de ajuste estatísticos para estas questões. E o COAPT fez estes ajustes devidamente.
Já o MITRA-FR avaliou como desfecho primário o combinado de morte ou um internamento por insuficiência cardíaca e não houve qualquer diferença entre os grupos. De qualquer forma, esta não parece ser a razão da diferença entre os estudos, pois no COAPT o desfecho secundário de um primeiro internamento mostrou o mesmo resultado positivo.
Devemos continuar analisando outros aspectos.
No estudo negativo, devemos procurar erros que tendem a um resultado negativo:
- O tratamento foi executado de forma competente?
- Houve excessivo cross-over que anulasse o efeito do tratamento?
- O estudo tinha poder para detectar diferença entre os grupos?
Quanto ao cross-over, esse é o problema da análise de intenção de tratar (sempre preferida): se muitos pacientes do grupo tratamento não fazem o tratamento ou muitos pacientes do grupo controle acabam por fazer o tratamento, isso iguala artificialmente os resultados.
Respondendo a estas preocupações: a competência do implante da valva não diferiu muito entre os estudos, pois a taxa de sucesso imediato e a graduação da insuficiência mitral após um ano foi parecida; praticamente não houve cross-over em nenhum dos dois estudos e ambos obedeceram premissas que confirmam poder estatístico para a análise da hipótese primária.
No estudo positivo, devemos procurar:
- Estudos pequenos (podem dar qualquer tipo de resultado).
- Violações na randomização, levando a pacientes menos graves para o grupo intervenção (randomização aberta).
- Violação no princípio da intenção de tratar.
- Viés de desempenho, no qual pacientes do grupo intervenção são melhores tratados.
- Viés de mensuração do desfecho em estudo aberto (desfecho subjetivo ou criado pelo médico).
Como falamos, ambos os estudos bem dimensionados. Não parece haver qualquer violação da randomização e ambos usaram o princípio correto de intenção de tratar.
O Elefante na Sala
Na sequência de avaliação dos vieses, nos deparamos com um “elefante da sala”: estamos diante da famigerada combinação de um estudo aberto e um desfecho primário mediado pelo pensamento médico.
Há dois tipos de desfechos clínicos: resistentes a vieses ou susceptíveis a vieses. O desfecho “internamento” é um típico desfecho susceptível ao viés do estudo aberto. Principalmente porque é um desfecho que depende de uma decisão médica para se fazer presente.
Ao saberem que seus pacientes receberam um revolucionário device de correção da insuficiência mitral, é plausível que médicos se tornem mais conservadores na indicação de re-internamento. A confiança no device pode fazê-los interpretar algum sintoma como inespecífico e não indicar internamento por insuficiência cardíaca. E o contrário pode acontecer no grupo que não recebeu o revolucionário aparato médico. A isso poderíamos chamar viés de criação do desfecho.
Segundo, o viés de desempenho. Em estudos abertos, há sempre uma tendência de que o paciente randomizado para a conduta-novidade receba mais atenção pós-procedimento do que os pobres mortais que não receberam a novidade. Vejo isso nitidamente na prática. O paciente que recebe a grande novidade como tratamento vira um paciente VIP, que recebe especial atenção da equipe médica e de pesquisadores. O próprio médico que implanta o device passa a ver aquele paciente como seu filho. Quem vive isso na prática, sabe do que estou falando … Daí surge a tendência forte de que os pacientes-novidade recebam um melhor tratamento do que os pacientes comuns. E particularmente em re-internamento por insuficiência cardíaca esse tipo de contraste na qualidade do acompanhamento pode ser crucial. Pode fazer muita diferença.
E ao ler o suplemento do estudo COAPT, percebemos essa tendência. No baseline (randomização) tudo era igual, mas após 1 ano e 2 anos o uso de inibidor da ECA e beta-bloqueador foi maior no grupo que tratou a insuficiência mitral. Assim como a taxa aumento das doses dessas drogas, sempre maior do grupo que tratou a insuficiência mitral.
Isso é um indício (smoking gun) de que houve viés de desempenho.
Mas porque os mesmos vieses não positivaram o estudo francês, que também era susceptível? Por isto que denominamos "risco de viés". Pois uma brecha no estudo não é uma garantia de que o viés ocorrerá. E nem sempre sabemos explicar o motivo exato pelo qual o viés alterou o resultado ou não alterou. A análise de um ensaio clínico não é microscópica, caso a caso, é uma análise macroscópica, baseada em probabilidade. Quem sabe o médico francês é cognitivamente mais conservador para internamento do que o médico americano (mera especulação de minha parte ... não importa).
Mas porque os mesmos vieses não positivaram o estudo francês, que também era susceptível? Por isto que denominamos "risco de viés". Pois uma brecha no estudo não é uma garantia de que o viés ocorrerá. E nem sempre sabemos explicar o motivo exato pelo qual o viés alterou o resultado ou não alterou. A análise de um ensaio clínico não é microscópica, caso a caso, é uma análise macroscópica, baseada em probabilidade. Quem sabe o médico francês é cognitivamente mais conservador para internamento do que o médico americano (mera especulação de minha parte ... não importa).
Finalmente, o Desempate
Se o “elefante” está na sala de ambos os estudos, qual o estudo verdadeiro? Aí vem o pulo do gato na análise. Esse elefante na sala (desfecho susceptível a viés em estudo aberto) é um tipo de viés que predispõe ao falso-positivo.
O estudo MITRA-HF é negativo a despeito desta predisposição ao falso-positivo. Enquanto o estudo COAPT é um estudo positivo diante de potenciais vieses pró-positividade.
Embora ambos os estudos tenham em seus métodos o mesmo risco de viés, o resultado do COAPT tem maior risco de viés do que o resultado do MITRA-HF. Desta forma, concluímos que o nível de evidência para o resultado do MITRA-HF é melhor do que o nível de evidência para o resultado do COAPT.
Aqui vem a segunda grande lição: a análise da limitação de um trabalho não deve ser feita apenas pela leitura da metodologia. É muito importante que seja avaliado se o resultado do estudo está indo na direção do viés promovido pela limitação metodológica. Erros sistemáticos são chamados de vieses pois eles geram uma preferência de resultado, erram para um lado e o problema é se o resultado do estudo está neste lado. Essa percepção nos permitiu considerar o resultado do MITRA-HF mais confiável do que o COAPT.
Aqui não estamos querendo dizer que a verdade definitiva está no resultado no MITRA-HF. Mas se tivermos que assumir uma posição, que seja a posição da incerteza de que este device tenha benefício. Permanecemos com a hipótese nula até que se prove o contrário.
A Cereja do Bolo
Por fim, uma cereja no bolo que deixei para o final: o COAPT foi um estudo financiado pela Abbot, fabricante do mitralClip, cujo desenho, análise e preparo do artigo teve participação da empresa; o MITRAL-HF é um estudo financiado pelo governo francês, sem participação da indústria no desenho ou execução do estudo. Uma característica que não resolve a nossa dúvida, mas nos deixa intrigados …
Ao invés de comemorar resultados positivos como um gol que levou nosso time preferido a ser campeão, devemos observar se esse gol é válido cientificamente. Torcida não combina muito com ciência.
---------------------------------------------------------------------------------------------------------------------