Normalmente se define como objetivos de ensaios clínicos de Fase III a avaliação da eficácia e da segurança. No entanto, o objetivo primordial deste tipo de estudo é usualmente testar eficácia, ficando a segurança em uma posição secundária. Isto faz com que a avaliação de eventos adversos seja mais vulnerável a erros aleatórios e sistemáticos. Demonstraremos nesta postagem onde reside a maior vulnerabilidade das análises de segurança.
Seja no desenho de superioridade ou de não inferioridade, de fato um ensaio clínico objetiva primariamente demonstrar eficácia de um tratamento. Colocado desta forma, isto pode parecer contrário a um princípio básico da medicina: primum non nocere ou primeiro não fazer mal. De fato, do ponto de vista ético, devemos colocar o "não fazer mal" antes do "fazer bem".
No entanto, quando falamos em raciocínio clínico, a decisão deve ir no sentido oposto. Ou seja, não há razão de se adotar uma terapia simplesmente porque esta é segura. A razão de uma terapia é primariamente trazer benefício. Caso traga benefício, medimos secundariamente o malefício, para decidir se vale a pena “pagar o preço”.
Do ponto de vista clínico, o primeiro teste de hipótese deve ser mesmo a eficácia. Mesmo que esta seja a abordagem correta, é exatamente esta posição secundária da segurança no desenho de um estudo que faz dela mais sujeita a erros para os quais esta postagem se presta a alertar.
Erro tipo II de Segurança
Sendo o benefício a verdadeira justificativa do uso de uma terapia, o cálculo amostral é normalmente voltado para o desfecho primário de eficácia, nos deixando cegos se o estudo está adequadamente dimensionado para demonstrar segurança. Assim, desfechos de segurança são mais vulneráveis a sofrer do erro tipo II, principalmente quando estes desfechos não são muito frequentes.
Por este motivo, alguns efeitos adversos só vêem a tona depois das drogas serem disponibilizadas no mercado. Não é incomum que drogas liberadas para comercialização, acabem sendo suspensas, devido ao relatos a posteriori de efeitos adversos (Vioxx, Rimonaband).
E para complicar mais ainda, muitas vezes drogas são liberadas pelas agências reguladoras com base em estudos de desfechos substitutos (hipoglicemiantes, anti-hipertensivos, redutores de apetite), que são subdimensionados para desfechos clínicos, sejam de eficácia, sejam de segurança.
É por este motivo que terapias novas muitas vezes são randomizadas da forma 2:1 ou 3:1. Ou seja, mais pacientes para o grupo tratamento do que para o grupo controle. Isso às vezes gera estranheza e desconfiança dos leitores. Mas é uma técnica adequada para aumentar a experiência com o uso do novo tratamento, dando oportunidade à observação de efeitos inesperados. Por exemplo, no estudo Symplicity HTN-3 (denervação renal na HAS resistente) a randomização gerou 2 pacientes de denervação para cada paciente controle.
O Caráter Supresa dos Eventos Adversos
O segundo motivo da dificuldade de adequar um estudo para identificar efeitos adversos é que estes são amplos e muitas vezes inesperados. Em algumas situações, sabemos qual o evento adverso mais provável (por exemplo, sangramento com anticoagulantes), mas outras vezes não sabemos o que está por vir (infarto com Vioxx).
Quando avaliamos eficácia, estamos focados em um tipo de desfecho para o qual o tratamento foi inventado, mas no caso da segurança, são infinitas as possibilidades. Isto faz com que nem sempre estejamos preparados para reconhecer o desfecho, que só fica aparente depois de se tornar mais frequente. Isto caracterizaria um viés de informação, pois “só reconhece o que acha quem sabe o que procura.” Não é erro tipo II, pois não é aleatório. É um problema de sensibilidade em reconhecer o desfecho devido a um erro sistemático de capacidade de detecção.
Menor Confiabilidade de Eventos Adversos (quando aparecem)
Até aqui nos referimos à dificuldade de reconhecer um desfecho adverso. Mas há outro problema gerado pelo fato destes serem imprevisíveis: quando os encontramos, a veracidade deles é menor. Isto por três grandes razões: (1) quando não são pré-especificados (análise post-hoc), sofrem de viés de aferição; (2) se o estudo for subdimensionado para este desfecho de segurança, há maior risco do erro tipo I (afirmar algo falso); (3) e por fim, o problema das múltiplas comparações.
O Problema das Múltiplas Comparações
Este é um fenômeno estatístico comum, embora pouco reconhecido: quando comparamos múltiplos desfechos ao mesmo tempo, há maior possibilidade de algum deles apresentar diferença estatística por obra do acaso. É por isso que existe o desfecho primário de eficácia, para evitar esse problema. Mas com desfechos adversos, usualmente não há um primário. Desta forma, pode existir um grande número de desfechos que estão concorrendo simultaneamente a alguma significância estatística. Considerando um alfa de 0.05 (definição de significância estatística), o risco de um desfecho isolado aparecer estatisticamente significante por acaso não passará de 5%. No entanto, o risco de um dos múltiplos desfechos aparecer estatisticamente significante de forma falsa é muito maior que 5%. Se cada um tem isoladamente 5% de probabilidade de erro tipo I, o conjunto deles terá uma maior probabilidade de apresentar pelo menos um deles significante.
Imaginem que uma farsante quer provar ser vidente, capaz de adivinhar alguma coisa. Um cético faz um experimento que define apenas 5% de probabilidade da vidente acertar por acaso (sorte). Mas isso só vai funcionar se a suposta vidente tiver apenas uma tentativa de acertar. Mas se ela tentar 30 vezes e cada uma das vezes a probabilidade for 5%, ela terá 80% de probabilidade de acertar alguma das vezes. Calculei 80% pela fórmula P = 1 - (1 - P)N, sendo N o número de tentativas ou comparações. Ou seja, 1 - (1 - 0.05)30 = 0.80
Já pensou se acreditássemos no acerto dela depois de tentar 30 vezes?
Parece absurdo, mas foi isso que fizemos (acreditamos) quando o estudo Jupiter demonstrou o inusitado achado de que rosuvastatina aumentava a incidência de diabetes. Eram inúmeros desfechos adversos testados simultaneamente e quando a rosuvastatina apresentou mais diabetes (P = 0.01) a comunidade médica adotou a falácia narrativa de contar a história de frente pra trás, buscando justificativas mecanicistas a posteriori. Assim ficamos anos e anos discutindo o impacto da estatina em diabetes quando na verdade a primeira hipótese deveria ser acaso.
Um leitor mais entendido de acaso teria feito a correção de Bonferroni, multiplicando o valor de P pelo número de comparações. Se isso fosse feito (0.01 x 20), o verdadeiro valor de P corrigido seria 0.20, ou seja, esse negócio de diabetes no Jupiter nem foi estatisticamente significante.
Interessante notar que a mesma tabela de eventos adversos no Jupiter "demonstra" menor incidência de morte por câncer em pacientes randomizados para estatina (P = 0.02). Isso ninguém comentou ... Também era acaso.
Um leitor mais entendido de acaso teria feito a correção de Bonferroni, multiplicando o valor de P pelo número de comparações. Se isso fosse feito (0.01 x 20), o verdadeiro valor de P corrigido seria 0.20, ou seja, esse negócio de diabetes no Jupiter nem foi estatisticamente significante.
Interessante notar que a mesma tabela de eventos adversos no Jupiter "demonstra" menor incidência de morte por câncer em pacientes randomizados para estatina (P = 0.02). Isso ninguém comentou ... Também era acaso.
Mas a fantasia do diabetes continuou e publicaram no Lancet uma meta-análise que “confirmou” o aumento com significância estatística bem limítrofe (limite inferior do 95% intervalo de confiança do OR = 1.02 - quase na trave). Mas essa revisão sistemática incluiu o estudo Jupiter, gerando a meta-ilusão já comentada por nós em postagem prévia. Nunca devemos fazer uma meta-análise para confirmar um achado inusitado incluindo o próprio estudo que gerou o achado inusitado, principalmente este estudo sendo o maior deles. Fica redundante.
Mas agora já sabemos. O estudo HOPE-3, randomizou 12.700 pacientes para rosuvastatina ou placebo e a incidência de diabetes foi idêntica nos dois grupos. As coisas verdadeiras são reprodutíveis em estudos futuros, as coisas que aparecem por acaso, não ocorrerão duas vezes. Rosuvastatina não causa diabetes, era tudo acaso gerado pela vulnerabilidade de um desfecho de segurança ao erro tipo I.
(há os que tacreditam que o HOPE-3 mostrou incidência idêntica de diabetes nos dois grupos pois a dose de rosuvastatina foi 10 mg e não 80 mg como no Jupiter. No entanto, a prova do conceito reside no contraste entre grupos, sendo que dose tende apenas magnificar algo que estaria presente em qualquer contraste).
Conto toda essa história apenas como exemplo de que a falta de percepção do problemas das múltiplas comparações pode levar a equivocadas conclusões a respeito da natureza das coisas.
A Efetividade da Segurança
Sabemos que algo que funciona positivamente no teste de hipótese científico (eficácia), pode funcionar de forma diferente no mundo real (efetividade). A notícia aqui é que a distância que separa o teste de hipótese do mundo real tende a ser maior quando falamos de segurança.
Como já mencionei, o intuito primário de um ensaio clínico é comprovar eficácia. Desta forma, seleciona-se quem mais precisa da terapia (usualmente pacientes de maior risco do desfecho a ser prevenido pela terapia), pois estes são os mais vulneráveis a se beneficiar, dando maior poder estatístico ao estudo. Isso aproxima a eficácia da efetividade na medida em que o teste está sendo realizado em quem mais precisa no mundo real.
No entanto, isso é diferente quanto a segurança. Como o intuito primário do estudo é o teste de eficácia, precisamos selecionar uma amostra que tolere bem o tratamento, para não atrapalhar o teste primário. Isto faz com que a seleção da amostra seja de pacientes de menor risco para complicações do tratamento, distanciando o ensaio clínico da população-alvo real do tratamento.
O NNT do tratamento testado em um ensaio clínico, tende a ser a média do NNT do paciente que representa a média da população, salvo exceções. Porém o NNH (dano) de um tratamento tende a ser maior (mais segurança) em um ensaio clínico do que na população do mundo real.
Desta forma, uma vez demonstrado segurança de um tratamento em um ensaio clínico, devemos ficar bastante atentos com o que ocorrerá quando o tratamento for instituído na prática.
Conclusão
Sem perder a oportunidade do trocadilho, análises de segurança nos deixam mais inseguros quanto à veracidade. Devemos observar cuidadosamente todos os pontos aqui abordados na prova do conceito de segurança.
_______________________________________________________________________
Conheça nosso Curso Online de Medicina Baseada em Evidências.
Conclusão
Sem perder a oportunidade do trocadilho, análises de segurança nos deixam mais inseguros quanto à veracidade. Devemos observar cuidadosamente todos os pontos aqui abordados na prova do conceito de segurança.
_______________________________________________________________________
Conheça nosso Curso Online de Medicina Baseada em Evidências.
Feliz Dia do Professor Dr. Luis Claudio! É uma honra ser sua aluna de forma indireta, pois acompanho seu blog e agora o curso on-line. O mundo precisa de mais mestres como o senhor! Gratidão por compartilhar, desse jeito singular, os seus conhecimentos. =D
ResponderExcluir