Este tipo de estudo tem se tornado frequente entre importantes trabalhos publicados em
revistas de alto impacto. No entanto, a razão da escolha por este desenho de
estudo e a metodologia por trás dele é pouco compreendida.
Esta pouca
compreensão leva alguns a pensarem que este desenho de estudo é um subterfúgio
da indústria farmacêutica para demonstrar o valor de coisas que não têm tanto
valor. Apesar de minha usual visão crítica em relação à indústria, devo afirmar
que não é bem assim. Estudos de não inferioridade representam uma metodologia
adequada e útil, quando corretamente aplicada.
Então, quando se usa e para que servem estes estudos?
Estes estudos fazem parte de um grupo classificado como estudos de eficácia comparativa, os
quais são usados quando um tratamento
novo é comparado a um tratamento tradicional. Neste caso, os estudos podem
ser de superioridade ou de não inferioridade.
Os estudos de superioridade
representam o modelo tradicional, com o qual estamos acostumados a lidar.
Se aplicam tanto para eficácia comparativa (tratamento novo vs. tratamento tradicional), como para eficácia
(tratamento vs. placebo/controle). No
caso da eficácia comparativa, este tipo de desenho parte da premissa de que o tratamento
novo tem motivos para ser superior ao tratamento tradicional. A possível
superioridade justifica a troca do tradicional pelo novo. Por exemplo, stent
farmacológico (novo) tem motivos para ser melhor do que stent convencional na
prevenção de reestenose (um pouco).
Desta forma, os estudos que comparam estes dois tipos de stent são de
superioridade, pois a hipótese é de que o farmacológico é melhor do que o
convencional.
A segunda situação é quando o tratamento novo não tem vantagem
teórica que suporte uma hipótese de maior eficácia. Porém mesmo que não seja mais
eficaz, o novo pode ser preferido devido a outras vantagens: ter maior
praticidade na administração do tratamento, ser menos agressivo (traumático),
ter menos efeitos adversos.
Alguns exemplos: heparina de baixo peso molecular (novo na década de
90) no tratamento de embolia pulmonar, comparada a heparina não fracionada
(tradicional) . Ambos vão anticoagular o paciente, portanto não há grandes
motivos para se acreditar que o novo será melhor. Porém a HPBM tem administração subcutânea, não precisa de
acesso venoso, não necessita de controle do nível de anticoagulação, eliminando
a necessidade de exames laboratoriais frequentes e permitindo alta da UTI mais
precoce. É grande a vantagem prática.
Dabigatran é um anticoagulante oral que
não necessita de controle do tempo de protrombina. Mesmo que não fosse superior
aos cumarínicos, possuiria uma enorme vantagem prática.
Trombolítico de administração em bolus (TNK-tPA)
são mais práticos do que rt-PA cuja administração requer infusão de 90 minutos. Mesmo que não sejam superiores, podem ser preferidos.
Angioplastia coronária é um tratamento menos
agressivo e mais confortável para o paciente, quando comparado a cirurgia de
revascularização. Angioplastia pode ser menos eficaz que cirurgia no controle
de angina, porém a vantagem da menor agressividade pode justificar a opção por
este tratamento.
Nestas situações, o tratamento novo pode ser
justificado se ele não for muito pior do que o tratamento tradicional. Digo
muito pior, pois nos estudos de não inferioridade se tolera uma certa margem de
inferioridade, uma margem que pode ser compensada por outras vantagens. Isto
que dizer que não inferioridade não é sinônimo de equivalência. Não
inferioridade significa que não é suficientemente inferior para anular a
vantagem prática no novo tratamento.
A margem aceitável de inferioridade nunca deve
ultrapassar o razoável, nunca deve haver perda de mais de 50% de eficácia do
tradicional em relação ao controle (preferencialmente bem menos que isso). Os
autores determinam previamente a margem que definirá não inferioridade. Por
exemplo, se vamos tolerar apenas uma perda de 20% da eficácia, o limite
superior do intervalo de confiança do risco relativo não deve ultrapassar 1.2.
Imaginem, RR = 1.1 (95% IC = 1.03 – 1.19) não ultrapassou o 1.2, então
consideramos isto não inferior. Isto pode ser feito tanto com risco relativo, como com risco absoluto.
Com base nisso, calcula-se o valor de P, cuja
interpretação é o contrário de estudos de superioridade. Ou seja, P < 0.05
indica não inferioridade, mostrando que significância estatística neste caso
mostra uma ausência de diferença grande (nos estudos de superioridade P <
0.05 indicam diferença).
Parece confuso, mas é só entender que o estudo
de não inferioridade testa a hipótese nula de que o tratamento novo é inferior.
Caso P < 0.05 rejeita-se a hipótese nula e ficamos com a hipótese
alternativa de que o tratamento novo é não inferior. Estatisticamente, hipótese
nula e alternativas estão trocadas em relação aos estudos de superioridade.
Em suma, se o intervalo de confiança não
ultrapassar o limite de pouco pior, consideramos não inferior. Ou, se o valor
de P estiver abaixo de 0.05, consideramos não inferior.
Vamos agora à situação prática que nos
motivou a escrever esta postagem, o estudo PRECOMBAT, recentemente publicado no
NEJM.
Tradicionalmente, lesões de tronco de coronária
esquerda possuem indicação cirúrgica quase inquestionável. Porém, o tratamento
de angioplastia com stent tem evoluído, se tornando factível o procedimento em
tronco. Não podemos partir de premissa de que angioplastia é superior a
cirurgia, mas poderíamos imaginar que se não fosse muito pior, a vantagem de
evitar uma cirurgia de risco poderia compensar. Desta forma, o estudo PRECOMBAT
é um estudo de não inferioridade da angioplastia versus cirurgia de tronco. Faz
sentido, não?
Assim, os autores definiram que 7% seria a
margem de não inferioridade, ou seja, o limite superior do intervalo de
confiança do aumento absoluto de
risco de morte, infarto, AVC ou necessidade de revascularização. Sem dúvida, esta margem está ampla demais, 7% aumento de risco absoluto representaria um
NNT de 19 (100/7) para provocar um evento indesejado se angioplastia fosse
realizada ao invés de cirurgia. Mas mesmo assim, poderíamos considerar isso
aceitável em pacientes de altíssimo risco cirúrgico ou que se recusem a fazer
cirurgia.
Bem,
no seguimento de um ano, o aumento absoluto de risco não ultrapassou essa
margem (absolute risk difference, 2.0 percentage points;
95% confidence interval −1.6 to 5.6; P=0.01 for non- inferiority), porém a incidência de
eventos foi menor do que o esperado, fazendo com que esta análise tivesse baixo
poder estatístico. Assim os autores prolongaram a análise para o seguimento de
2 anos. Só que neste momento (espertamente), eles modificaram a regra do jogo e
fizeram uma análise de superioridade (ilógica), na qual não mostraram diferença
significante. Caso tivessem mantido a estratégia, o estudo não teria comprovado
não inferioridade da angioplastia.
Desta
forma, terminamos esta postagem
com duas mensagens principais: (1) estudos de não inferioridade representam uma
metodologia útil e necessária para muitos casos; (2) devemos estar atentos para
a esperteza de autores que burlam regras metodológicas no intuito de comprovar
suas hipóteses.
Esta esperteza foi tão
evidente que nos motivou enviar uma carta ao editor, aceita para publicação no NEJM no dia seguinte à sua submissão. Terminamos
esta postagem com o teor de nosso texto:
To the Editor: In
their report on a noninferiority trial involving patients with left main
coronary artery disease, Park et al. (May 5 issue) conclude that
percutaneous coronary intervention (PCI) was noninferior to coronary-artery
bypass grafting (CABG). However, the authors recognize that a
lower-than-expected incidence of the primary end point at 1 year provided
insufficient statistical power. Therefore, a 2-year analysis was reported, with
a cumulative incidence of the primary end point of 12.2% for PCI and 8.1% for
CABG. At this point, the authors shifted the statistical approach to a
superiority analysis and reported a P value of 0.12, indicating no
significant difference between the two groups.
Taking the number
of events listed in Table 2 of the article, we calculated the 95% confidence
interval for the 2-year incidence of events as 9 to 16% for PCI and 5 to 12%
for CABG. Considering these limits, we estimated the 95% confidence interval
for the difference between the treatments as −3 to 11%, which
encompasses the predefined noninferiority margin of 7%. Therefore, if the
authors had used the initial approach of nonineriority analysis in analyzing
the 2-year data, the conclusion would be that PCI did not meet the
noninferiority criterion, as compared with CABG.
Ainda bem que existem pessoas como você que estão muito antenadas nestas questões complexas dos números estatísticos. Obrigado pelas suas análises e ensinamentos. Abraços.
ResponderExcluirArtur Andrade.
Muito bom Luis parabéns pelos olhos atentos e pela postagem .
ResponderExcluirNila
Parabéns pelo belo comentário feito ao trabalho do NEJM.
ResponderExcluirGostaria de perguntar para vc se um estudo desenhado inicialmente para não inferioridade pode ter aninhado um estudo de superioridade e neste caso como interpretar
Um abraço
Jaime Rocha
Jaime, após confirmada a hipótese inicial de não inferioridade, é aceitável testar superioridade. Mas a abordagem deve ser sequencial. Idealmente esta abordagem pode ser planejada a priori. Faz sentido, pois seria impraticável realizar um outro estudo só para avaliar superioridade.
ResponderExcluirProf Luís, o que achou do Estudo ROCKET-AF? Parece que tentaram provar a superioridade do Rivaroxaban sobre o Warfarin sem utilizar a análise "intention-to-treat". Grande abraço.
ResponderExcluirBem observado Daniel, isso mesmo. Errado ter colocado a análise per-protocol como primária. A análise primária deve ser a intention-to-treat. Por isso acho que este estudo mostrou apenas não inferioridade. A superioridade não foi intention-to-treat.
ResponderExcluirGrande ajuda a comunidade médica que de tanto trabalhar näo tem tempo de estudar essas nuncas que esses estudos trazem. Grande trabalho.
ResponderExcluirSou seu leitor
Existem dois aspectos críticos na hipótese na não inferioridade. O primeiro é a definição da margem de não inferioridade. A idéia é que se defina qual o limite máximo de diferença entre o tratamento novo e o controle ativo considerado clinicamente irrelevante, quando o efeito for a favor do controle ativo. Ou melhor, o tratamento teste pode ter resultado melhor, aparentemente igual ou até “um pouco” pior do que o controle ativo para ser considerado não inferior. Para isso, esse “pouco pior” deve cair dentro da margem de não inferioridade. A definição desse limite pode levar em consideração critérios clínicos e estatísticos, sendo muito interessante a união de ambos os conhecimentos. Do ponto de vista estatístico, comumente utilizá-se o intervalo de confiança para se definir a margem de não inferioridade. A estratégia é usar o limite inferior do intervalo de confiança da medida de associação obtida em ensaio clínico que testou o controle ativo versus placebo, cujo resultado demonstrou efeito benéfico estatisticamente significante a favor do controle ativo. Ou seja, admite-se que o limite inferior desse intervalo de confiança é o mínimo efeito clinicamente relevante que se espera ter de um tratamento específico de modo reduzir o risco de um desfecho (quando comparado a não fazer intervenção). Se, no estudo de não inferioridade, o efeito do tratamento novo ou teste, comparado ao controle ativo, é menor do que esse limite (significa que está dentro da margem de não inferioridade), conclui-se que a nova intervenção é não inferior ao tratamento habitual com o que foi comparada. Na verdade, é comum o uso de uma fração de correção (f) sobre o limite inferior do intervalo de confiança, com objetivo de corrigir inconsistências entre a comparação atual e aquela entre controle ativo e placebo.
ResponderExcluirOutro aspecto crucial é o planejamento do estudo de não inferioridade, especialmente no que diz respeito à seleção da amostra, definição de desfechos e estratégia de análise estatística. Os indivíduos selecionados para o estudo de não inferioridade entre tratamento teste e controle ativo devem ter características (demográficas, clínicas) muito semelhantes às pessoas estudadas no ensaio clínico de qualidade que serviu de base para a definição da margem de não inferioridade. Deve-se ter em mente que ‘tratamento novo não inferior ao controle ativo’ significa admitir que o tratamento novo tem efeito em relação ao placebo não inferior ao que o controle ativo apresentou sobre placebo em estudo prévio. Sobre a definição de desfechos de interesse, a mesma questão se impõe. O estudo de não inferioridade deve medir evento similar ao que foi avaliado no ensaio clínico entre controle ativo e placebo que lhe serviu de base. Caso contrário, a extensão do conceito de não inferioridade fica prejudicada. Finalmente, a escolha da estratégia de análise de dados tem se mostrado um ponto importante de discussão, e, recentemente, tem-se sugerido que a analise por intenção de tratamento seja complementada pela análise por protocolo nos estudos de não inferioridade. Aspectos que envolvem a análise por intenção de tratamento (intention to treat analysis) tendem a favorecer a não inferioridade, na medida em que caminham em direção à ausência da diferença entre os grupos, o que, no estudo de não inferioridade, está contemplada pela hipótese alternativa do investigador. Apesar dos vieses conhecidos e implícitos da análise por protocolo (ou seja, avaliam-se apenas os integrantes dos grupos que efetivamente utilizaram a intervenção), tem-se defendido que a premissa da não inferioridade deverá ser aceita apenas se o tratamento teste demonstrar-se não inferior ao controle ativo nas análises por intenção de tratamento e por protocolo.
Foi uma excelente contribuição científica! Algo que dá muito orgulho...e com grande relevância prática! Parabéns!
ResponderExcluirOlá, parabéns pela letter! E gostei muito dos comentários do blog! Vocês saberiam me dizer se pode-se utilizar a não-inferioridade em estudos retrospectivos comparando 2 grupos terapêuticos?
ResponderExcluirObrigado!
Prof. Luis, estes desenhos de estudos de não inferioridade e superioridade, são conduzidos por algum algoritmo, tal como a recomendação PRISM para as RS e Meta-análise, a fim de garantir a confiabilidade dos resultados ?
ResponderExcluirProf. Luis, estes desenhos de estudos de não inferioridade e superioridade, são conduzidos por algum algoritmo, tal como a recomendação PRISM para as RS e Meta-análise, a fim de garantir a confiabilidade dos resultados ?
ResponderExcluir