Da Série Análise Crítica de Evidências sobre Terapia - Quarta Postagem
Na terceira postagem desta série, discutimos como utilizar o NNT para avaliar a magnitude do benefício
de uma terapia ou a superioridade de uma nova terapia sobre a terapia tradicional.
Neste texto, refinaremos esta discussão utilizando o artigo A Randomized Trial of Tenecteplase versus Alteplase for Acute Ischemic Stroke, recentemente publicado no New England Journal of Medicine e motivo de intenso
debate nas últimas duas semanas. Este ensaio clínico randomizou pacientes para
trombólise com tecneteplase versus
alteplase na fase aguda de AVC isquêmico, demonstrando superioridade do
tecneteplase.
Mas não podemos
ficar nesta conclusão genérica, precisamos avaliar a magnitude desta
superioridade. O quanto tenecteplase é
melhor do que alteplase? De acordo com nossa última postagem, a melhor forma de responder esta pergunta é calculando o NNT em
relação ao desfecho primário do estudo. Neste estudo, o desfecho primário foi a
melhora na Escala NIHSS após 24 horas da terapia. Esta escala representa uma
medida numérica da funcionalidade do paciente após o AVC (varia de 0 a 42),
sendo que quanto maior, pior é a sequela do AVC. O artigo mostra que no grupo tenecteplase a melhora da Escala NIHSS após a trombólise foi de 8.0 ± 5.5, comparado a 3.0 ± 6.3 no
grupo alteplase (P < 0.001).
Como calcular o
NNT desta superioridade? Difícil, não?
O NNT é
calculado pela divisão de 100 pela redução absoluta do risco. Como redução
absoluta do risco é a subtração da proporção
de pacientes que apresentam o desfecho em um grupo pela proporção no outro grupo, fica evidente que para calcular o NNT é
necessário que o desfecho seja dicotômico
(tipo sim ou não), pois só assim podemos ter a proporção do ocorrido.
Mas no caso
deste artigo, o desfecho principal é numérico, o que impossibilita o cálculo do
NNT! Então como fazer?
Parêntese 1: na verdade,
escalas ou escores são variáveis ordinais, mas estou as denominando numéricas
para simplificar a discussão.
Neste caso,
precisamos olhar com calma os números e fazer uma análise de caráter mais
subjetivo do que quando temos o NNT. Por ser mais subjetiva, esta análise é
algo mais dificultosa. Precisamos nos perguntar se 3 é muito diferente de 8 no que
diz respeito à melhora da Escala NIHSS. Nas últimas duas semanas, andei
perguntando a colegas neurologistas que encontrava pelos corredores. Todos
responderam que esta vantagem pode ser relevante, pode ser a diferença entre
falar e não falar, andar e não andar. Muito bem, isso já é alguma coisa, pode
fazer diferença. Mas ainda não estou plenamente satisfeito, preciso saber qual
a proporção de pacientes em que ocorre este grande benefício. Isso ocorre em raramente
ou frequentemente?
Observem com
atenção os desvios-padrão das médias de melhora na Escala (8.0 ± 5.5 versus 3.0 ± 6.3). Vejam que estes são
grandes em relação às médias. Isso indica grande variabilidade na melhora dos
pacientes. Alguns melhoram muito menos do que mostra a média e outros melhoram
muito mais do que mostra a média. Isso nos traz mais incerteza quando à
magnitude do efeito a partir da comparação dos valores médios. Portanto, neste
caso acredito que os dados não são suficientes para fechar a análise de
relevância a partir do objetivo primário.
E se
comparássemos entre os dois grupos a proporção de pacientes que tiveram uma
melhora importante? Assim poderíamos calcular um NNT. De fato, isso foi feito
como desfecho secundário: a comparação quanto à proporção de pacientes com recuperação
funcional boa ou excelente após 90 dias. No grupo tenecteplase, 72% dos
pacientes apresentaram este benefício, comparado a 44% do grupo alteplase (P =
0.02). Vejam 72% - 44% = 28%. Agora, 100 / 28 = 3.6 de NNT, um benefício
impressionante. Bingo, tenecteplase é MUITO melhor que alteplase? Calma, não
nos precipitemos.
Isto não está
muito bom para ser verdade? NNT tão bom assim é raramente visto em trabalhos
que comparam tratamento versus
controle, quanto mais em trabalhos de eficácia comparativa, os quais comparam
tratamento versus tratamento.
Podemos
acreditar neste NNT? Este é um estudo pequeno, apenas 75 pacientes randomizados.
Desta forma, há menos precisão nas estimativas pontuais. Mesmo aceitando que a
diferença de melhora entre os grupos seja verdadeira, o estudo pode não ser preciso para avaliar a
magnitude da diferença. Os valores 72% e 44% podem ser estimativas imprecisas devido ao
tamanho amostral do estudo. Por isso mesmo, este desfecho foi pré-definido como
secundário.
Desta forma, em
um estudo pequeno, o valor do NNT pode não ser preciso. Só para comprovar esta
idéia, calculei o intervalo de confiança deste desfecho secundário nos dois grupos. No grupo tenecteplase, 72% dos pacientes melhoraram bastante, mas o intervalo
de confiança no nível 95% de certeza variou de 58% a 83%. Ou seja, não podemos
garantir que é 72%, pode ser tão baixo como 58% e tão alto como 83%. Já o intervalo de confiança da proporção de melhora do grupo alteplase variou de 25%
a 64%.
Sendo assim, não
podemos dizer de forma precisa que o NNT é 3.6. O NNT pode ser tão bom quando
1.7, mas tão ruim quando infinito. Este é o intervalo de confiança do NNT:
varia de 1.7 a infinito. Desta forma, o NNT é muito impreciso, não dá para usá-lo a fim de avaliar magnitude da
terapia. Veja abaixo explicação de como fiz para estimar o intervalo de confiança do NNT.
Parêntese 2: para este cálculo, peguei os extremos do
intervalo de confiança da proporção de melhora em cada grupo. O NNT de melhor
hipótese é 100 / (subtração do melhor resultado do tecneteplase pelo pior do
alteplase, 83% - 25%); o NNT de pior hipótese é 100 / (subtração do pior do
tecneteplase pelo melhor da alteplase). Neste caso, o pior da tecneteplase
(58%) é pior do que o melhor da alteplase (64%). Nem daria para calcular o NNT, pois este ficaria negativo. Mas dá para interpretar que a imprecisão é tão grande quando o infinito. Isso
partindo da premissa de que é tecneteplase é verdadeiramente melhor do que
alteplase.
Portanto, este trabalho é insuficiente para concluir a respeito do quanto tenecteplase é melhor do que alteplase.
Além disso, há a questão da veracidade desta superioridade. Veracidade deve ser
analisada antes de relevância, mas
nesta postagem fiz o contrário, pois o foco maior é relevância. Mas se formos analisar a veracidade deste estudo, ficaremos
ainda mais preocupados. Primeiro, em estudos pequenos a randomização pode não ser
suficiente para homogeneizar perfeitamente as amostras. Isto resultou em diferenças entre os dois grupos. Sendo assim, devemos nos perguntar se estas diferenças seriam responsáveis
pelo resultado a favor do tenecteplase. O mais crítico seria uma diferença na
condição basal do desfecho primário (NIHSS). Felizmente esta é igual. Também a
área de penumbra isquêmica (aquela sujeita ao benefício da terapia) é
semelhante nos dois grupos. Portanto, não há diferenças que nos façam suspeitar
muito que o resultado seja decorrente de fatores de confusão. Ufa, o estudo
passou nesta prova. Mas há outro problema: este é um estudo aberto e avalia um
desfecho mensurado pelo médico (soft),
que pode variar de 0 a 42. Assim, o saber da terapia utilizada pode influenciar
a análise da Escala NIHSS. É a velha combinação de um estudo aberto com um desfecho soft. Terceiro, sendo um desfecho secundário, a veracidade da melhora excelente ou boa é menor. O valor de P (0.02) pode estar subestimando a real
probabilidade do acaso. Em caso de dúvida na análise de
veracidade, revisem a primeira postagem desta série.
Desta forma, o
recente artigo nos traz dois importantes aprendizados na análise de relevância:
(1) quando o desfecho primário é numérico, não podemos calcular o NNT. Temos
que analisar subjetivamente se aqueles números nos garantem relevância e às
vezes esta questão fica indefinida; (2) temos também que nos preocupar com a
precisão da estimativa do NNT quando estamos com estudos pequenos. Geralmente
estudos pequenos não são suficientes para dar precisão a esta análise.
Mas por que os
autores escolheram um desfecho numérico como primário, ao invés de um desfecho
categórico? Porque este era um estudo pequeno, não teria poder
estatístico para avaliar um desfecho categórico. Exatamente por isso que este é um
estudo de fase II. Estudos de fase II geram hipóteses que devem ser confirmadas
por estudos de fase III.
E os autores
reconhecem devidamente esta característica do estudo. Portanto, ainda não está
na hora de trocar alteplase por tenecteplase.
Nenhum comentário:
Postar um comentário