domingo, 1 de abril de 2012

Refinando a Discussão sobre Análise de Relevância Terapêutica – Tenecteplase versus Alteplase no AVC


Da Série Análise Crítica de Evidências sobre Terapia - Quarta Postagem

Na terceira postagem desta série, discutimos como utilizar o NNT para avaliar a magnitude do benefício de uma terapia ou a superioridade de uma nova terapia sobre a terapia tradicional. Neste texto, refinaremos esta discussão utilizando o artigo A Randomized Trial of Tenecteplase versus Alteplase for Acute Ischemic Stroke, recentemente publicado no New England Journal of Medicine e motivo de intenso debate nas últimas duas semanas. Este ensaio clínico randomizou pacientes para trombólise com tecneteplase versus alteplase na fase aguda de AVC isquêmico, demonstrando superioridade do tecneteplase.

Mas não podemos ficar nesta conclusão genérica, precisamos avaliar a magnitude desta superioridade. O quanto tenecteplase é melhor do que alteplase? De acordo com nossa última postagem, a melhor forma de responder esta pergunta é calculando o NNT em relação ao desfecho primário do estudo. Neste estudo, o desfecho primário foi a melhora na Escala NIHSS após 24 horas da terapia. Esta escala representa uma medida numérica da funcionalidade do paciente após o AVC (varia de 0 a 42), sendo que quanto maior, pior é a sequela do AVC. O artigo mostra que no grupo tenecteplase a melhora da Escala NIHSS após a trombólise foi de 8.0 ± 5.5, comparado a 3.0 ± 6.3 no grupo alteplase (P < 0.001).

Como calcular o NNT desta superioridade? Difícil, não?

O NNT é calculado pela divisão de 100 pela redução absoluta do risco. Como redução absoluta do risco é a subtração da proporção de pacientes que apresentam o desfecho em um grupo pela proporção no outro grupo, fica evidente que para calcular o NNT é necessário que o desfecho seja dicotômico (tipo sim ou não), pois só assim podemos ter a proporção do ocorrido. 

Mas no caso deste artigo, o desfecho principal é numérico, o que impossibilita o cálculo do NNT! Então como fazer?

Parêntese 1: na verdade, escalas ou escores são variáveis ordinais, mas estou as denominando numéricas para simplificar a discussão.

Neste caso, precisamos olhar com calma os números e fazer uma análise de caráter mais subjetivo do que quando temos o NNT. Por ser mais subjetiva, esta análise é algo mais dificultosa. Precisamos nos perguntar se 3 é muito diferente de 8 no que diz respeito à melhora da Escala NIHSS. Nas últimas duas semanas, andei perguntando a colegas neurologistas que encontrava pelos corredores. Todos responderam que esta vantagem pode ser relevante, pode ser a diferença entre falar e não falar, andar e não andar. Muito bem, isso já é alguma coisa, pode fazer diferença. Mas ainda não estou plenamente satisfeito, preciso saber qual a proporção de pacientes em que ocorre este grande benefício. Isso ocorre em raramente ou frequentemente?

Observem com atenção os desvios-padrão das médias de melhora na Escala (8.0 ± 5.5 versus 3.0 ± 6.3). Vejam que estes são grandes em relação às médias. Isso indica grande variabilidade na melhora dos pacientes. Alguns melhoram muito menos do que mostra a média e outros melhoram muito mais do que mostra a média. Isso nos traz mais incerteza quando à magnitude do efeito a partir da comparação dos valores médios. Portanto, neste caso acredito que os dados não são suficientes para fechar a análise de relevância a partir do objetivo primário.

E se comparássemos entre os dois grupos a proporção de pacientes que tiveram uma melhora importante? Assim poderíamos calcular um NNT. De fato, isso foi feito como desfecho secundário: a comparação quanto à proporção de pacientes com recuperação funcional boa ou excelente após 90 dias. No grupo tenecteplase, 72% dos pacientes apresentaram este benefício, comparado a 44% do grupo alteplase (P = 0.02). Vejam 72% - 44% = 28%. Agora, 100 / 28 = 3.6 de NNT, um benefício impressionante. Bingo, tenecteplase é MUITO melhor que alteplase? Calma, não nos precipitemos.

Isto não está muito bom para ser verdade? NNT tão bom assim é raramente visto em trabalhos que comparam tratamento versus controle, quanto mais em trabalhos de eficácia comparativa, os quais comparam tratamento versus tratamento. 

Podemos acreditar neste NNT? Este é um estudo pequeno, apenas 75 pacientes randomizados. Desta forma, há menos precisão nas estimativas pontuais. Mesmo aceitando que a diferença de melhora entre os grupos seja verdadeira, o estudo pode não ser preciso para avaliar a magnitude da diferença. Os valores 72% e 44% podem ser estimativas imprecisas devido ao tamanho amostral do estudo. Por isso mesmo, este desfecho foi pré-definido como secundário.

Desta forma, em um estudo pequeno, o valor do NNT pode não ser preciso. Só para comprovar esta idéia, calculei o intervalo de confiança deste desfecho secundário nos dois grupos. No grupo tenecteplase, 72% dos pacientes melhoraram bastante, mas o intervalo de confiança no nível 95% de certeza variou de 58% a 83%. Ou seja, não podemos garantir que é 72%, pode ser tão baixo como 58% e tão alto como 83%. Já o intervalo de confiança da proporção de melhora do grupo alteplase variou de 25% a 64%.

Sendo assim, não podemos dizer de forma precisa que o NNT é 3.6. O NNT pode ser tão bom quando 1.7, mas tão ruim quando infinito. Este é o intervalo de confiança do NNT: varia de 1.7 a infinito. Desta forma, o NNT é muito impreciso, não dá para usá-lo a fim de avaliar magnitude da terapia. Veja abaixo explicação de como fiz para estimar o intervalo de confiança do NNT.

Parêntese 2: para este cálculo, peguei os extremos do intervalo de confiança da proporção de melhora em cada grupo. O NNT de melhor hipótese é 100 / (subtração do melhor resultado do tecneteplase pelo pior do alteplase, 83% - 25%); o NNT de pior hipótese é 100 / (subtração do pior do tecneteplase pelo melhor da alteplase). Neste caso, o pior da tecneteplase (58%) é pior do que o melhor da alteplase (64%). Nem daria para calcular o NNT, pois este ficaria negativo. Mas dá para interpretar que a imprecisão é tão grande quando o infinito. Isso partindo da premissa de que é tecneteplase é verdadeiramente melhor do que alteplase.

Portanto, este trabalho é insuficiente para concluir a respeito do quanto tenecteplase é melhor do que alteplase. 

Além disso, há a questão da veracidade desta superioridade. Veracidade deve ser analisada antes de relevância, mas nesta postagem fiz o contrário, pois o foco maior é relevância. Mas se formos analisar a veracidade deste estudo, ficaremos ainda mais preocupados. Primeiro, em estudos pequenos a randomização pode não ser suficiente para homogeneizar perfeitamente as amostras. Isto resultou em diferenças entre os dois grupos. Sendo assim, devemos nos perguntar se estas diferenças seriam responsáveis pelo resultado a favor do tenecteplase. O mais crítico seria uma diferença na condição basal do desfecho primário (NIHSS). Felizmente esta é igual. Também a área de penumbra isquêmica (aquela sujeita ao benefício da terapia) é semelhante nos dois grupos. Portanto, não há diferenças que nos façam suspeitar muito que o resultado seja decorrente de fatores de confusão. Ufa, o estudo passou nesta prova. Mas há outro problema: este é um estudo aberto e avalia um desfecho mensurado pelo médico (soft), que pode variar de 0 a 42. Assim, o saber da terapia utilizada pode influenciar a análise da Escala NIHSS. É a velha combinação de um estudo aberto com um desfecho soft. Terceiro, sendo um desfecho secundário, a veracidade da melhora excelente ou boa é menor. O valor de P (0.02) pode estar subestimando a real probabilidade do acaso. Em caso de dúvida na análise de veracidade, revisem a primeira postagem desta série.

Desta forma, o recente artigo nos traz dois importantes aprendizados na análise de relevância: (1) quando o desfecho primário é numérico, não podemos calcular o NNT. Temos que analisar subjetivamente se aqueles números nos garantem relevância e às vezes esta questão fica indefinida; (2) temos também que nos preocupar com a precisão da estimativa do NNT quando estamos com estudos pequenos. Geralmente estudos pequenos não são suficientes para dar precisão a esta análise.

Mas por que os autores escolheram um desfecho numérico como primário, ao invés de um desfecho categórico? Porque este era um estudo pequeno, não teria poder estatístico para avaliar um desfecho categórico. Exatamente por isso que este é um estudo de fase II. Estudos de fase II geram hipóteses que devem ser confirmadas por estudos de fase III.

E os autores reconhecem devidamente esta característica do estudo. Portanto, ainda não está na hora de trocar alteplase por tenecteplase.

Nenhum comentário:

Postar um comentário