domingo, 17 de abril de 2016

STICH versus STICHES: estudos discordantes ou concordantes?



Em 2011, no post “STICH: uma mudança de paradigma”, reconheci minha arrogância epistêmica ao ter a assumido durante anos o paradigma de que pacientes com disfunção ventricular grave se beneficiavam da revascularização miocárdica. O primeiro ensaio clínico randomizado de alta qualidade metodológica, o STICH, derrubara este paradigma que havia sido criado sem o devido embasamento científico. Foi uma lição de humildade para a comunidade cardiológica quando o STICH trouxe esta observação aparentemente adequada de que a mortalidade geral foi semelhante entre os grupos randomizados para cirurgia ou controle. 

Cinco anos se passaram e acaba de ser publicado no mesmo New England Journal of Medicine o estudo STICHES, que conclui por uma “mortalidade significantemente menor no grupo cirúrgico, quando comparado ao tratamento clínico”. 

E então, onde fica nossa eloquência do post de 2011?

O primeiro detalhe que me chamou atenção foi a semelhança de nome dos dois estudos. O segundo é apenas o plural do primeiro. Foi quando percebi que na verdade se tratavam do mesmo estudo, sendo que STICHES traz o resultado baseado em um seguimento mais prolongado do que o STICH. Enquanto aquele resultado negativo do STICH foi obtido no seguimento médio de 5 anos, o SITCHES mostra um resultado positivo quando o acompanhamento é extendido para 10 anos. 

É correto estender o seguimento de um estudo?

Em primeiro lugar, em termos de ajustes metodológicos, é melhor estender o seguimento do que encurtar o seguimento de um estudo. Indo além, prolongar pode ser melhor do que não prolongar o seguimento. Ao prolongar um seguimento, aumentamos o número de desfechos, o que aumenta o poder estatístico. Isso pode ser bom pois reduz a probabilidade do erro tipo II (deixar de afirmar algo verdadeiro).

Para ser adequado, o prolongamento precisa ter dois critérios.

Primeiro, o novo tempo de seguimento deve ser definido, impedindo que o autor pare o estudo quando quiser. O problema ocorreria se esse prolongamento fosse feito na conveniência do resultado. Ou seja, vamos prolongar até conseguir significância estatística e quando isso ocorrer, paramos o estudo. Isso seria tendencioso. No STICHES o tempo de prolongamento foi pré-definido. 

Segundo, durante o prolongamento a terapia dever continuar a ser oferecida e a qualidade do acompanhamento deve se manter. No caso, o paciente continua a ter seus enxertos durante o prolongamento, o que resolve a manutenção do tratamento. E no STICHES a qualidade do follow-up foi a mesma no tempo regulamentar e na prorrogação.

Ao validar o prolongamento do seguimento, poderíamos concluir que o resultado positivo do STICHES está correto e o resultado negativo do STICH foi um equívoco.

Essa é a correta interpretação? 

Não exatamente ... Mostrarei porque.


A Magnitude do Efeito


Nos parágrafos anteriores julgamos que o resultado positivo apresentado pelo STICHES é verdadeiro, pois há baixo risco de viés e de acaso. 

Depois de avaliar veracidade, devemos julgar a relevância (impacto, magnitude) do efeito da terapia. Neste particular, os autores nos trazem o NNT = 14, o que em geral é interpretado como indicativo de grande benefício.

Por outro lado, este NNT = 14 é obtido em seguimento médio de 10 anos, um tempo bastante prolongado. O paciente precisa se operar hoje, desfrutar de um certo aumento de mortalidade imediato (como em toda cirurgia, mas principalmente neste caso), assumir o desconforto físico e mental da cirurgia, além das eventuais sequelas cirúrgicas, em troca de uma possibilidade de se beneficiar durante um longo período de espera. 

Enquanto o preço da cirurgia (sofrimento físico e estresse psicológico) é garantido para todos os 14 pacientes operados, o retorno deste investimento ocorre em apenas 1 dos 14 pacientes. Será que este benefício é relevante o suficiente para que o paciente faça a opção cirúrgica?

Isso sem considerar que este resultado cirúrgico obtido no STICH é de alto padrão, com baixa incidência de complicações. Aplicável a qualquer local?

Para aprofundar nossa reflexão, nada como uma boa analogia. Vamos comparar este benefício da cirurgia com um tratamento muito mais simples, que também reduz mortalidade em pacientes com insuficiência cardíaca: espironolactona em baixa dose. De acordo com o ensaio clínico RALES, a redução de mortalidade com esse simples diurético é expressa por um NNT = 9 em apenas 2 anos ! E isso é apenas um comprimido diário, algo muito menos agressivo do que uma cirurgia cardíaca. 

E aí? O benefício obtido com a cirurgia é de fato relevante? Compensa ser operado mesmo? De fato, é uma reflexão caso a caso, mas não parece ser uma grande panacéia.

O STICHES é um bom exemplo de que ao olhar o valor do NNT, devemos pensar no tempo de seguimento para se obter aquele benefício. É o NNT se tornando relativo a depender do tempo. De fato, o tempo relativiza tudo, como já dizia um certo cientista no início do século passado. 

Os autores do STICHES não consideraram esta questão ao espetacularizar o NNT do trabalho. 

Por estas razões, em circunstância de tempo muito prolongado, o calculo do NNT em análises de sobrevida não é feito na maneira usual. Explicarei a seguir como deve ser feito.


O NNT do Hazard Ratio


Neste Blog, já abordamos muitas vezes cálculo de NNT e seus intervalos de confiança, mas nunca discutimos o cálculo do NNT utilizando o hazard ratio. Esta é uma forma mais avançada, que considera tempo de exposição e a probabilidade cumulativa do desfecho. 

Normalmente não precisamos nos preocupar com esse ajuste do NNT, pois os tempos de seguimento em estudos são um tanto padronizados para cada doença (1-2 anos para insuficiência cardíaca, 5 anos para prevenção de eventos coronários, 30 dias para intervenções agudas no infarto). Porém quando o tempo se prolonga em demasia, gerando um trade-off entre o investimento na cirurgia (risco, sofrimento) na expectativa de um retorno em muito longo prazo, precisamos levar em consideração a analise de sobrevida.

Os autores do STICHES não fizeram isso, calcularam o NNT da forma tradicional, ou seja, 100 / redução absoluta do risco. 

RAR = frequência de desfecho no grupo clínico - frequência de desfecho no grupo cirúrgico
RAR = 66.1% - 58.9% = 7.2%. 
Então 100/7.2 = 14 cirurgias para 1 vida salva.

Este foi o cálculo simplório feitos pelos autores do STICHES. 

Vamos agora sofisticar.

Para calcular o NNT considerando a análise de sobrevida (NNTH), devemos obter do artigo a probabilidade cumulativa do desfecho e o hazard ratio. Lembrem que hazard é calculado pelo número de eventos / tempo de exposição (pessoas-tempo). Portanto hazard ratio é como um risco relativo que leva o tempo de exposição em consideração. 

Tendo estes dados, podemos calcular o NNTH utilizando a fórmula de Altman

NNTH = 1 / Prob Desfecho Grupo ControleHazard Ratio - Prob Desfecho Grupo Controle

O estudo não fornece numericamente o hazard (eventos/pessoas-ano), ou seja, a probabilidade cumulativa do desfecho. Mas olhando o gráfico de sobrevida (abaixo) podemos obter a mortalidade cumulativa, traçando uma linha imaginária nos 10 anos de seguimento, que é a mediana do tempo de seguimento. Observem na linha que a probabilidade cumulativa de morte no grupo controle é 0.69 (69%). Além disso, o artigo nos traz o hazard ratio para morte geral = 0.84. 





Portanto,

NNTH = 1 / 0.690.84 - 0.69 = 25

Em se considerando o tempo de seguimento o NNT correto é 25. 

Por que este NNT é diferente do original? A diferença está no uso dos dados da análise de sobrevida. Ao invés do risco de evento, usa-se hazard, que é uma probabilidade condicional. Esta parte da premissa de que a probabilidade de sobrevida muda na medida em que o paciente sobrevive a um primeiro período analisado. Imaginem um grupo de pacientes que são acompanhados durante 10 anos. Vamos dividir esse tempo em 10 períodos de 1 ano. No primeiro ano, alguns morrem. Os que sobram e entram no segundo ano terão uma probabilidade de morte menor do que o grupo inicial do estudo, pois os mais graves já morreram. 

Desta forma, o calculo do hazard é condicional: o programa de computador divide o tempo em mini-períodos, calcula o hazard de cada um deles e multiplica o hazard de todos os períodos, encontrando o hazard final. Observem que 69% de probabilidade de evento no grupo controle (o que vemos no gráfico) é diferente da mortalidade de 66.1% descrita na tabela. O motivo da diferença é que hazard é diferente de risco.

Mas devemos ir além disso e calcular o intervalo de confiança deste NNTH. Isso é importante pois na análise de sobrevida, na medida em que vão morrendo pacientes, vai tendo menos gente nos anos finais, o que reduz a precisão das estimativas. Portanto, devemos calcular os limites do intervalo de confiança do NNT utilizando os limites do intervalo de confiança do hazard ratio. De acordo com o artigo, o intervalo de confiança no nível 95% do hazard ratio é 0.73 - 0.97.

NNTH = 1 / 0.690.73 - 0.69 = 14
NNTH = 1 / 0.690.97 - 0.69 = 129

Desta forma, o NNT = 25 tem uma imprecisão representada por intervalo de confiança que vai de 14 a 129. Pasmem, a imprecisão é tão grande que não podemos descartar a possibilidade do NNT ser 129.


Conclusão


Antes de escrever esse post, reli o texto de 2011 sobre o STICH e para minha surpresa eu havia previsto o resultado do STICHES, sem nem mesmo saber que este estudo viria a ser publicado. Vejam minha colocação naquela época:

“Se o poder estatístico fosse ainda maior ou o seguimento fosse de 10 anos, poderia se encontrar uma pequena redução na frequência de morte no grupo cirúrgico, mas esse raciocínio de temporalidade faz com que esse benefício modesto não compense (se existir).”

Foi exatamente isso que aconteceu. O prolongamento do estudo, aumentou o número de desfechos, que aumentou o poder estatístico, que detectou uma diferença modesta.

O hazard ratio é o mesmo nos dois estudos, 0.86 no STICH e 0.84 no STICHES. Enquanto no STICH o número de desfecho não foi suficiente para dar significância estatística ao resultado, o mesmo hazard ratio consegue significância estatística no STICHES (P = 0.02, intervalo de confiança de 0.73 a 0.97 - por pouco não envolve o 1).

O poder estatístico para o STICH foi calculado para detectar um benefício relevante, enquanto o STICHES tem poder para benefícios menos relevantes. 

Enquanto o STICH não demonstrou um benefício relevante, o STICHES demonstrou um benefício não relevante. Ambos são estudos negativos para um impacto relevante do tratamento. 

STICH e STICHES são estudos concordantes. 



_________________________________________________________________________________

Objetivos Didáticos da Postagem:

- Cálculo do NTT baseado no Hazard Ratio
- Revisão do conceito de Hazard Ratio
Revisão do conceito de NNT
- Análise do prolongamento de seguimentos

5 comentários:

  1. Gostei bastante do post, muito didático e incorporou conhecimentos novos. Sempre há alguma coisa para aprender aqui quanto análise de artigos científicos, que é de fato uma arte.
    Quanto ao primeiro ponto, sobre os critérios para se prolongar o tempo de follow-up de um estudo. Interromper o prolongamento quando é conveniente ( alcançou significância estatística) sem pré-definir o tempo de follow-up prolongado segue a mesma linha de raciocínio do truncamento? Não poderia interrompê-lo com o número x de desfechos (mesmo com tempo pré-definido) onde evitaria a superestimativa do resultado?

    http://www.nejm.org/doi/full/10.1056/NEJMoa1505532?rss=mostEmailed
    Outra maneira de treinar a questão do prolongamento é utilizar como o exemplo o prolongamento do Courage para 15 anos que manteve os mesmos resultados da primeiro follow-up.

    Essa revisão do Hazard foi importante me recordo dos conceitos para hazard estabelecidos aqui utilizando o Júpiter e o Paradigm-HF como exemplos, mas só que agora foi muito mais refinada. Vou seguir os passos da postagem e treinar isso para fixar, lendo o trial novamente.

    Os autores mascaram alguns resultados e o conhecimento de detalhes minuciosos pode fazer uma diferença na análise. Concluindo, através de uma questão diferente, mas sobre o NNT, o IMPROVE-IT de maneira análoga, tinha um NNT insuflado com um belo contraste do RRR com o RAR.
    Neste estudo para revasc(STICH) permanece a imprecisão e a importância de associar o conceito de NNT a invasividade e a agressividade do procedimento, não realizando uma análise apenas objetiva e numérica quando conectar À relevância à aplicabilidade.




    ResponderExcluir
  2. E quanto ao fato de que cerca de 30% dos pacientes randomizados possuíam doença triarterial, classicamente considerada uma indicação formal de revascularização cirúrgica? Isso não pode ter influenciado os resultados na direção de um benefício que poderia de outra forma não existir?

    ResponderExcluir
  3. 30% dos pacientes eram triarteriais. Se eles fossem excluídos da randomização, o resultado não poderia ter sido diferente?

    ResponderExcluir
  4. E devemos considerar que a mortalidade em 30 dias pós-RM foi de 3% nos pacientes do STICH. Conseguimos estes resultados em pacientes similares: com FE reduzida m od/grave?.

    ResponderExcluir
  5. Pois bem , diz ACC :

    Finally, after 10 years of follow-up, the life-saving benefits of coronary artery bypass graft (CABG) surgery in heart failure patients with coronary artery disease are clear."

    Relatam ainda um "dramático benefício " em 10 anos. Dizem também que o benefício da cirurgia parace ter sido ainda maior que o constatado já que 20 %dos pacientes randomizados para o tratamento clínico acabaram submetendo-se à cirurgia e teriam tido também melhores resultados. Sendo assim estimularam a procura de doença coronariana nos pacientes com disfunção ventricular avançada mas com perspectivas de maior sobrevida em razão da suposta clara vantagem agora demosntrada do tratamento cirúrgico. Disseram :

    "every heart failure patient for whom a survival benefit might be anticipated should undergo angiographic evaluation for coronary disease."

    Houve até tentativa de extrapolação dos achados para angioplastia , mas aí não colou.

    Mas agora vem o Dr. Luís Cláudio com mais uma contundente avaliação (assim me parece) ,contrariando conclusões do "status quo" da cardilogia mundial. Não é a primeira vez (vide PARADIGM-HF, por exemplo). Considerando que o contraditório apresentado é sempre consistente ( assim me parece) fico a imaginar o que acontece. O pessoal da metrópole não está prestando a devida atenção na estatística e\ou metodologia , viés de publicação, outros interesses, sei lá. Para mim fica a interrogação.

    ResponderExcluir