sexta-feira, 18 de dezembro de 2020

Vacinas COVID-19: "Elefante na Sala" de Evidências

 


Este texto é composto de três partes. A primeira e a última são reflexões, a respeito da interface entre ciência e comportamento social. A parte do meio traz uma análise crítica das evidências, onde tento resolver dúvidas justificáveis e injustificáveis, mostrando o tamanho do elefante na sala


Finalmente passou o azul de novembro e entramos em dezembro. Não me refiro ao dezembro das cores que promovem “conscientização” sobre questões de saúde. Este é um dezembro mais especial: o mês marcado pela aprovação da primeira vacina para prevenção da COVID-19. A primeira de muitas vacinas que promoverão o controle da pandemia em 2021. 


Em paralelo à rigorosa aprovação da primeira vacina, surge uma crescente discussão a respeito de eficácia e segurança. Questionamentos em redes sociais, longos programas de televisão, proliferação de webinars cujos títulos conotam necessidade de esclarecimentos, como se este fosse um assunto confuso: “o que precisamos saber”, “benefícios e riscos”, para mencionar alguns recentes.


Negacionismo? Não chega a tanto. É algo subliminar. Uma excessiva preocupação com detalhes, como se estes fossem mais importantes do que o elefante na sala.


Recebo mensagens de colegas médicos, pedindo minha opinião, inseguros em relação a alguns aspectos. Alguns me questionaram se eu me vacinaria nesse momento. Meu impulso inicial tem sido de uma certa impaciência, que surge da simplicidade com que vejo esta questão. Só consigo enxergar o elefante na sala, de tão grande que é: historicamente, uma das maiores vitórias da história da tecnologia médica, desenvolvida em tempo record, eficácia enorme (imenso tamanho de efeito), utilidade epidemiológica sem precedentes, custo clínico (risco) baixíssimo. 


Esse elefante deveria ofuscar detalhes irrelevantes: “quanto tempo vai durar o efeito da vacina”, “ pessoas imunizadas são capazes de transmitir alguma doença”, "se a vacina reduz a severidade da doença", “a preocupação com o ineditismo da tecnologia baseada em RNA”, só para citar alguns. Há uma evidente assimetria entre o nível de evidência que já dispomos e o interesse no debate baseado em questões secundárias. O problema é que estas tantas dúvidas contaminam a percepção do geral. 


Mas a maior assimetria é a externa ao assunto. Normalmente, médicos superestimam o potencial benefício das condutas e subestimam o dano. No caso da vacina do COVID-19, parece haver uma estimativa (sensação) inversa ao comumente observado. 


Há uma assimetria evidente entre a cautela com detalhes da vacina e a falta de cautela ao instituirmos atos médicos populares, sem comprovação de benefício, caracterizando uso inapropriado ou overuse. Não vemos tamanha preocupação em questionar risco/benefício quando o novembro se torna azul (rastreamento de câncer de próstata), o outubro rosa (rastreamento de câncer de mama), ou o setembro vermelho (check-ups cardiovasculares). Nestes meses, isso sim, deveria haver mais debate. Nesse nosso dezembro, nos beneficiaríamos de menos debate e mais assertividade das ações. 


Foram tantos os questionamentos que resolvi sair de minhas férias cognitivas que começaram há 5 dias e escrever esse texto. Um texto permeado de certa impaciência, mas muita reflexão. 


É bem verdade que precisamos esperar a publicação do resultados das demais vacinas para reforçar essa percepção de sucesso. Não é uma questão de debates e opiniões. É apenas uma questão de leitura de evidências para discriminar as vacinas eficazes e seguras. Estas existirão e espero que sejam quase todas.  


Neste momento, o único ensaio clínico publicado em sua integridade em revista científica foi o da Pfizer, disponível no NEJM. Por isso farei a leitura deste estudo, cristalino em vários aspectos. Reforçando o otimismo, essa semana o FDA disponibilizou os resultados da vacina da compainha Moderna, que parece ir no mesmo sentido da vacina da Pfizer. Quanto à vacina da Oxford, foi publicado no Lancet resultados de uma análise interina (um tanto confusa), o que me faz preferir esperar a publicação final. 


Pareço aqui um tanto contraditório em protestar quando à assimetria de incerteza, pois tenho proposto a incerteza como o cerne do pensamento médico. É a incerteza que promove a maestria do pensamento probabilístico. Afinal, “medicina é a ciência da incerteza”. 


No entanto, devo enfatizar que incerteza não é o mesmo que insegurança. Precisamos mensurar o grau de incerteza, a partir das evidências. Neste post analisarei a qualidade da evidência e “tamanho do efeito” (impacto do benefício) da vacina da Pfizer. A análise da Pfizer serve de pano de fundo para o potencial benefício e segurança das vacinas em geral, e como isso tem se traduzido na percepção da comunidade médica e da sociedade.



Análise de Peculiaridades das Evidências


O estudo da Pfizer constitui um grande ensaio clínico, com poder estatístico e precisão suficiente para rejeitar a hipótese nula com baixo risco de erro tipo I e alta precisão na estimativa do tamanho do efeito. Não houve mudança de protocolo ou desfecho primário quando o artigo é comparado à publicação a priori da sua metodologia. Trata-se de um ensaio clínico randomizado, duplo-cego, cujo desfecho primário é a ocorrência de COVID após a segunda dose. 


Ausência de Placebo Ativo


Uma das “preocupações” é a de que não houve "placebo ativo" no estudo da Pfizer (nem da Moderna), ou seja, o uso de algo no grupo controle que promovesse semelhantes efeitos adversos (como vacina para outra doença). Placebo ativo é importante quando o tratamento causa efeitos adversos que podem "desmascarar" o cegamento. O paciente acaba por saber que tomou a vacina.


No entanto, o maior problema de estudos abertos (ou desmascarados) está na subjetividade do desfecho. Primeiro, o desfecho COVID-19 ganha objetividade na medida em que necessita de uma confirmação laboratorial. Isso reduz o risco de viés, mas não elimina de todo, pois pacientes que imaginam não ter sido vacinados podem reportar mais sintomas, serem mais testados e apresentarem maior incidência. No entanto, neste estudo controlado com placebo passivo, é pouco provável que esse mecanismo justifique o tamanho contraste entre os dois grupos (168 casos versus 8 casos de COVID-19). Podemos imaginar uma superestimava, mas não no nível de provocar tamanho contraste. 


Intenção de Tratar Modificada


Análise por intenção de tratar é aquela que mantém todos os indivíduos no grupo originalmente randomizado, mesmo que estes não tenham recebido a conduta para a qual foram alocados. Esta técnica previne que se perca o efeito homogeneizador da randomização, principalmente porque pacientes que violam o protocolo são de risco diferente da média.


Intenção de tratar modificada ocorre quando essa regra não é obedecida plenamente e alguns dos indivíduos são excluídos da análise. É um sinônimo (eufemismo) de análise por protocolo, que gera um viés em prol do tratamento.  


No estudo da Pfizer, três tipos de pacientes foram excluídos após a randomização: aqueles em que houve violação de alguma forma do protocolo (99 não usaram nenhuma dose de vacina/placebo, 600 não usaram a segunda dose), os que tiveram menos de 2 meses de seguimento e os poucos que tiveram infecção entre a primeira e segunda dose da vacina, tornando impossível avaliar a eficácia das duas doses. Assim, do total de 43.500 pacientes randomizados, 37.700 foram analisados. Ficaram de fora em torno de 14% dos pacientes randomizados, um número compatível com o usual crossover em estudos intervencionistas. Normalmente consideraríamos de alto risco de viés uma análise por protocolo ou intenção de tratar modificada neste situação. Mas neste caso das vacinas há uma novidade metodológica a considerar. 


Estudos de vacina tem duas particularidades que fazem da análise por protocolo adequada. Primeiro, vacina é uma conduta universal (não decidida pelo médico com base no quadro do paciente), aplicada a pessoas sem a doença em questão. Sendo assim, a violação do protocolo não ocorre por uma mudança de conduta com base no quadro do paciente, é muito mais um evento estocástico, aleatório, não enviesado. Isso reduz o efeito de confusão criado pela exclusão após a randomização. Segundo, vacinas tem normalmente um imenso tamanho de efeito, diferentes de tratamento em geral. Desta forma, computar pessoas que não usaram vacina como se tivessem usado (e vice-versa) promoveria uma grande mudança no resultado da eficácia. Uma mudança maior do que o eventual efeito de confusão da análise por protocolo. 


Desta forma, estudos de vacinação representam uma daquelas situações em que análise por protocolo ganha um nível de evidência pelo menos semelhante à análise por intenção de tratar.


Sendo assim, considero que estamos diante de uma evidência confirmatória, confiável, de baixo risco de viés e erro aleatório. 



Tamanho de Efeito (eficácia)


Imenso! A análise principal foi por pessoas-ano (hazard), mas para simplificar descreverei em percentual de infectados (risco): no grupo vacina a incidência de COVID-19 foi 0.04% (8 casos), comparado a 0.88% (162 casos) no grupo placebo. Isso representa um risco relativo de 0.05 (isso mesmo, quase zero), o que se traduz em redução relativa do risco de 95%, com intervalo de confiança altamente preciso (90% - 98%). 


Esse enorme tamanho de efeito representa praticamente eliminação do desfecho indesejado, algo muito raro em bons tratamentos de doenças, cuja redução relativa do risco fica em torno de 20%-30%. Vacinas, no entanto, diferem do usual. O benefício de muitas vacinas chegam a praticamente 100% em muitos casos. Assim, essa magnitude de benefício não é surpresa, nem é "bom demais pra ser verdade". É o esperado, e que agora começa a se confirmar.  


Confirmado portanto que esta vacina de RNA é altamente eficaz, aumentando a probabilidade de outras apresentarem resultados semelhantes, tal como sugerido pelos dados ontem apresentados da vacina da Moderna. 


Essa perspectiva reforça o elefante na sala.



Efeito Concreto (NNT Individual versus Populacional)


Sabemos que o número necessário a tratar (NNT) tradicional deriva da probabilidade individual de um paciente que recebe um tratamento desfrutar do benefício. Essa probabilidade é a redução absoluta do risco. Comentamos em nosso seminal artigo de 31 de janeiro que o risco individual de uma pessoa adquiria a doença, mesmo em meio a esta pandemia, não é muito alto. Por exemplo, os gritantes 7 milhões de casos do Brasil promovem uma probabilidade individual do evento ocorrer de 3%. No estudo da Pfizer, a incidência da doença no grupo placebo foi ainda menor, 0.88%. 


Assim, embora a redução relativa do risco seja enorme, a redução absoluta do risco foi de apenas 0.84% (0.88 - 0.04), o que resulta em um NNT tão alto quanto 119. Em uma análise individual, não nos impressionaríamos tanto com este tratamento.


No entanto, vale lembrar que, na ausência de isolamento, uma pessoa doente potencialmente contamina 3 outras pessoas (R = 3). Assim, esses 119 preveniriam não apenas 1 caso, mas 4 casos, reduzindo o NNT para 30. Esse já é o início do pensamento sistêmico. 


Mas o pensamento sistêmico toma sua maior forma quando entendemos o verdadeiro caráter populacional deste tratamento. Neste caso, não temos um conjunto de doentes, temos apenas um doente: a população. Não vacinaremos pessoas. Vacinaremos a população. 


Esse nosso paciente, a população, terá sua doença (pandemia) curada se vacinada, e já vimos que não terá a resolução do quadro se não for vacinado. Assim, surge um fenômeno raro: o NNT será 1, caso 70% das pessoas seja vacinada, a doença (pandemia) se resolverá. 


Estamos assim com um benefício exponencial. O NNT populacional é quase determinístico. E está incorreto usar o paradigma do NNT clínico (individual) nesta questão.


Essa perspectiva reforça o elefante na sala. 



A Irracional Dúvida quanto ao Impacto em Letalidade


Uma pseudodúvida que alguns pseudocriteriosos têm apresentado (carta ao BMJ, tweeter) é se vacinas reduzem mortalidade, visto que os desfechos analisados pelos ensaios clínicos não são “duros” como morte. 


Esse questionamento desconsidera o “princípio da obviedade do desfecho fatal”, aplicável a prevenção do surgimento de doenças que levam algumas pessoas a morte. 


[Não é a primeira vez que este equívoco ocorre. Um bom exemplo é o constante questionamento de que estatinas não tem demonstração de redução de mortalidade em prevenção primária. Ora, se estatina previne infarto e se infarto mata alguns, haverá prevenção de morte. Claro, em cenários de poucas mortes como a prevenção primária, o tamanho do efeito será menor, mas a questão não é se há redução de mortalidade. Devo salientar que isso se aplica a situações de assimetria entre benefício e risco. Mesmo que alguma estatina cause uma rabdomiólise e mate uma pessoa, isso é raro, e assimétrico em incidência se comparado ao benefício]. 


O mesmo raciocínio de assimetria pertence à vacina de COVID-19. Eventuais prejuízos muito provavelmente não superam a magnitude do benefício. Afinal, estamos falando em um tratamento que reduz em 95% a incidência de uma doença que já matou 1,6 milhões de pessoas no mundo.


Se COVID-19 mata e nós eliminamos COVID-19, haverá prevenção de mortes. Assim, em casos de prevenção de doenças que matam e de grande assimetria potencial risco e benefício, não há necessidade que o desfecho primário seja mortalidade. A prova do conceito de eficácia está na redução da doença.


É algo tão previsível, que não precisamos de dados empíricos para calcularmos o quanto haveria de redução de mortalidade. Em se considerando que a letalidade por COVID é 0.5%, precisamos prevenir 200 COVIDs para salvar uma vida. Para prevenir um COVID-19 precisamos vacinar 30 pessoas. Sendo assim, precisaríamos vacinar 6.000 pessoas para salvar uma vida (30 x 200). 


Mas seria um reducionismo calcularmos o NNT da morte: como já explicamos, a questão aqui não é de NNT individual. É uma questão populacional. No populacional, pensamos em número absoluto de mortes, não em relativo. E as vidas salvas serão milhares, milhões talvez. Sem contar todos os outros benefícios sociais do controle da pandemia.



A Irracional Dúvida quanto à Segurança


Tecnologia nova no caso da vacina de RNA, seguimento de curto prazo (meses), população muito selecionada nos ensaios clínicos, todos estes tem sido argumentos que trazem dúvida de segurança. No entanto, precisamos perceber a assimetria potencial da eficácia e segurança. Mesmo na ausência de uma evidência como esse grande ensaio clínico, estaríamos diante do princípio da assimetria. Corroborando, estamos com evidência de total ausência de evento adverso sério em 18.000 pacientes que receberam a vacina. Qual a dúvida?



A Irracional Dúvida quanto à Validade Externa


Alguns avaliadores da vacina da Pfizer na reunião do FDA votaram contra a aprovação devido à dúvida da eficácia em indivíduos mais jovens; outros tem questionado se pessoas com história de alergia podem ser vacinadas … Nestes questionamentos, as pessoas não percebem que em todos os exemplos médicos de eficácia e segurança, esses conceitos foram demonstrados em amostras superselecionadas em prol da validade interna do estudo, devendo ser a ideia expandida para a população geral (salvo exceções), com base na raridade do fenômeno de interação, que justifica o princípio da complacência”: em caso de evidências de alta validade interna (em estudos analíticos, que testam hipóteses), a validade externa deve ser expandida para além das características da amostra estudada. 


Essa dúvida é injusta e preconceituosa com aqueles, mais vulneráveis, que não participaram nos ensaios clínicos, pois assim ocorre em testes de provas de conceito. 


Não precisamos de análises de subgrupo comprovando a eficácia em diferentes tipos de pessoa, pois (como escrevemos na última postagem) estas análises sofrem alto risco de erro aleatório e um resultado diferente do estudo geral tem baixo valor preditivo. Ficou para a história o protesto dos autores do estudo ISIS-2 (trombólise no infarto) quanto à exigência dos revisores do Lancet que, ignorando o princípio da complacência, exigiram que fosse apresentada a análise de subgrupos, comprovando benefício em diferentes tipos de pessoas. Em protesto, estes incluiram na análise subgrupos de signos do zodíaco, mostrando que no (meu) signo de libra, o trombolítico não funcionaria. 


Estou preocupado, além de ser libra, tenho história de alergia …



De Eficácia para Efetividade (a dúvida válida)


As vacinas são portanto eficazes e seguras para a população geral, com potencial de promover magnitude de benefício imensa para a humanidade. No entanto, eficácia define quando uma conduta pode ser benéfica. Efetividade define se esta realmente será benéfica. 


Semear dúvida reduzirá o desejo das pessoas serem vacinadas (20% no Brasil e nos Estados Unidos diz que não se vacinará). Normal que um presidente de cognição e intenção questionáveis semeie dúvida. Deixa esse pra lá. Temos que cuidar para que, sem querer, nossa comunidade de profissionais de saúde, interessados em discussões e debates intermináveis, acabe por semear dúvida como forma de pseudocautela. Essa dúvida não é baseada em evidências, racionalidade, e é imprudente. 



Epílogo: Por que a Assimetria entre Dúvida e Evidência?


Biologicamente, como indivíduos e profissionais de saúde, sofremos da tendência ao overuse, o que denominei há 10 anos de mentalidade do médico ativo. Há evidências de que médicos superestimam o benefícios de suas terapias e a acurácia de seus testes, subestimando os riscos. Na verdade, este pensamento antieconômico é típico do sapiens quando lida com questões pessoais. Temos argumentado que essa tradução é facilitada pelo viés da aversão à incerteza, que nos faz procurar nessas ações a segurança perceptível (sentimento) de que estamos garantidos. Isso justifica tantas condutas irracionais, como rastreamento de certos cânceres, da doença coronária e o uso de medicamentos fantasiosos para tratar indivíduos com COVID-19. O “fenômeno cloroquina” é antigo (biológico) e não foi inventado na era COVID-19.

Neste ponto, chegamos a uma intrigante questão: por que no caso das vacinas há uma cautela (relutância) assimétrica ao elefante na sala de evidências? 

Alguns diriam que se trata de viés ideológico (político), o que pode ser um agravante. Porém não desejo reduzir minha discussão a esta situação (momentânea) de "alguns" países. Percebo uma relutância desproporcional em pessoas sem viés político ... uma relutância que não presencio quando, de forma antieconômica, uma medida populacional como rastreamento de câncer de próstata se torna tão popular. Como tentativa de resposta, racionalizarei uma hipótese no campo da psicologia social, algo a ser testado empiricamente no futuro. 

Por que a aversão ao risco (de morrer de COVID-19) e o desejo de segurança perceptível não prevalece nesse momento? Devido ao outro viés típico do sapiens: o viés do presente (present bias).


Em minhas aulas de overdiagnosis e overtreatment, costumo iniciar com o exemplo do colete salva-vidas dos aviões, que não reduzem mortalidade, mas são universalmente utilizados a fim de gerar segurança perceptível. Mas pode ser que segurança perceptível se aplique apenas situações de perigo iminente, coisas que nossos ancestrais viviam constantemente, mesmo fora de um avião. Estar em um avião se refere a um "perigo" no momento presente. 


Observem que isso é diferente de desenvolvimento um diabetes, infarto ou AVC. Estes incidentes não dizem respeito ao presente, mas sim ao futuro. Nestes casos, não se ouve falar em overuse de dieta adequada, peso ideal, interrupção de tabagismo, estilo de vida adequado. Pelo contrário, a dificuldade das pessoas em aderir a estas medidas está em nossa tendência a preferir a gratificação imediata ao investimento no futuro. Viés do presente justifica porque não adianta explicar às pessoas que elas precisam emagrecer ... a sobremesa do agora é mais sedutora. 


No caso do COVID-19, temos a percepção de que, individualmente, nosso risco não é alto, nem iminente. A vasta maioria das pessoas que conhecemos não morrem de COVID-19, e esta ocorrência não está no aqui e agora, mas é uma possibilidade remota no futuro. Isto explica porque as pessoas teimam em não aderir plenamente a medidas de distanciamento social. 


Portanto, a aversão ao risco não é forte e isso abre espaço para o viés do presente. E o que há no presente de tão gratificante? O hobismo médico. Este termo é utilizado pelo cientista político Eitan Hershpara descrever hobismo político, como a justificativa para a intensa polarização, como uma competição de quem tem mais argumentos. Vira muito mais um jogo do que um debate frutífero, e isso não é bom para a sociedade. Deveríamos depositar o desejo de jogar em situações mais adequadas para o jogo, como o debate entre torcidas de diferentes times de futebol sobre qual é o melhor time (Grêmio ou Internacional, Bahia ou Vitória, Cruzeiro ou Atlético Mineiro). Isso é divertido e não prejudica a sociedade.


O debate sobre questões médicas virou outra pandemia desde o início do ano. As pessoas sentem imensa satisfação ao compartilhar artigos de jornais populares, revistas médicas ou preprints, assim como debater, questionar, refutar, defender, em padrão de hobby. Esse é o assunto do momento, tal como ocorre durante uma olimpíada e copa do mundo de futebol. 


Na ausência de uma forte aversão ao risco, optamos pelo hobismosem perceber que a intensidade deste debate enfraquece a importância do advento da vacina. Pois onde há intenso debate, há dúvida, dilema, opiniões divergentes. 


Isso também explica o feitiço do tempo quanto ao eterno interesse na discussão sobre as cloroquinas e ivermectinas, um debate que há muito perdeu de vista o benefício ao paciente. O interesse contrário ou a favor virou uma obsessão que vai além do interesse na redução de mortalidade. Claramente, não é mais uma discussão clínica. 


Uma outra espécie de hobismo justifica a popularidade dos meses coloridos. O risco de câncer de próstata, mama ou infarto não é iminente. Portanto, a explicação para a popularidade do rastreamento não deve estar na aversão ao risco. Deve estar no hobismo médico, ou seja, no prazer momentâneo em saber que estamos fazendo a coisa certa. As pessoas se sentem elegantes, cuidadosas, é o mesmo que ter seu carro limpo, sem arranhões, é uma sensação do momento presente. É o saber que está "usando o convênio".


O problema da cautela excessiva ou preocupação com detalhes sobre vacinas está no hobismo médico surgido com a pandemia COVID-19. Precisamos colocar esse fenômeno cognitivo em nosso rol de preocupações quando pensamos na promoção de uma cultura médica racional. A meu ver, um intenso debate sobre a importância, segurança ou necessidade das vacinas é irracional. Há momentos em que a discussão deve aplicar o princípio do menos é mais


Proponho assim que discussões médicas sobre vacinas priorizem estratégias logísticas de como tornar algo muito eficaz também efetivo em curto espaço de tempo. Deixemos a teoria neste momento, e vamos à prática. Façamos o Zé Gotinha sorrir de satisfação, e ignoremos aqueles que dizem não ter interesse pessoal em se vacinar. Estes passarão, assim como a pandemia. 


-------------------------------------------------------------------------------------------------------------


Vejam discussão correlata em nosso MBE PodcastCanal do YouTube e tweeter


Conheçam nosso curso online de MBE, que traz o conhecimento que suporta nossas reflexões metodológicas. 

quinta-feira, 10 de dezembro de 2020

Análises de Subgrupo: segredos e soluções conceituais

 


Na última postagem deste Blog, prometi que escreveria sobre análise de subgrupo de forma mais abrangente. Este foi tema de episódio recente de nosso Podcast, que agora se materializa em texto. Este é o tipo de postagem que não está associada a algum assunto do momento, seu acesso no Blog é perene e usualmente consta no Curso Online como bloco de aulas. 


Análise de subgrupo é um procedimento muito utilizado em ensaios clínicos randomizados, presente em 70% das publicações, provocando afirmações peculiares em 30% dos artigos. No entanto, a valorização deste procedimento é equivocada.


O pensamento principal que suporta as numerosas análises de subgrupo reside na ideia de que pessoas são diferentes, e devemos considerar como estas diferenças influenciam no efeito do tratamento. 


No entanto, sendo da mesma espécie humana, pessoas são muito mais parecidas do que diferentes, o que faz com que o fenômeno de interação seja bastante raro (princípio da complacência). Assim, não se deve esperar que normalmente análises de subgrupo tragam informações adicionais ao todo da mensagem do trabalho. Entendo se esta afirmação causar desconforto cognitivo, pois vai de encontro com a prática do ecossistema científico. 


A segunda questão se refere ao problema da confiabilidade. Quando análises de subgrupo trazem informações adicionais, estas tendem a ser falsas, pois possuem alto risco de cometer erro aleatório, resultando em péssimo valor preditivo. 


Ao final desta postagem, concluiremos que análises de subgrupo em ensaios clínicos não devem ser realizadas, salvo em algumas situações específicas que esclareceremos. E quando for realizada, o foco deve ser em apenas uma análise, uma hipótese. Parece estranho, mas espero me fazer entender. 


Estudos Descritivos versus Analíticos


Antes de aprofundar a questão devo fazer um adendo: em estudos descritivos, análise de subgrupo são muito importantes, pois estas são situações em que o tipo de paciente (ou ambiente) influencia substancialmente a realidade, e esta realidade precisa ser individualizada. 


Por exemplo, a descrição da letalidade do COVID pode variar substancialmente com a idade da amostra estudada. Vale muito a pena descrever essa letalidade em diferentes estratos de pacientes. Da mesma forma, estudos de acurácia de exames são descritivos (não comparativos), e a sensibilidade e especificidade de um método (diagnóstico ou prognóstico) pode variar com a extensão da doença. Um tumor grande pode ser visto de forma mais fácil do que um tumor pequeno. 


Portanto, neste post, nossos argumentos se limitam a um tipo de estudo analítico: ensaios clínicos randomizados com intuito de avaliar eficácia de condutas. Nestes, a eficácia é um conceito científico, generalizável e pouco variável a depender do paciente. É só observar em estudos meta-científicos como normalmente o que funciona, funciona em todo mundo. Interação é um fenômeno raro. 


Os Três Cenários


A acurácia e valor preditivo de análises de subgrupo variam de acordo com o cenário em que esta é realizada. Há três cenários principais:


  • Estudo negativo, em que a análise de subgrupo procura algum resultado positivo, nos induzindo a pensar que naquele tipo de paciente o tratamento funciona. Gostam de chamar isso de gerador de hipótese. 
  • Estudo positivo, em que a análise de subgrupo procura consistência e algum resultado negativo nos induz a pensar que naquele tipo de paciente o tratamento não funciona. 
  • Teste de hipótese principal (terapia-alvo), que visa interação entre presença de um marcador e resultado de um tratamento. 


Nos primeiros dois casos, análise de subgrupo não devem ser realizadas, exceto quando se aplica o “princípio do tamanho do problema”. A terceira situação é quando a análise de subgrupo deve sempre ser realizada. 


Vamos abordar cada uma das situações. Mas antes, um adendo estatístico.


A Estatística Adequada


Em análise de subgrupo, o adequado é o teste de interação, que avalia se há variação do tamanho o efeito entre os subgrupos. Um valor de P da interação estatisticamente significante indica “modificação de efeito”, que pode ser quantitativa (varia o tamanho do efeito - rara) ou qualitativa (de positivo para negativo ou vice-versa - raríssima). Enfatizo isso, pois apenas 29% dos trabalhos reportam o teste de interação em análises de subgrupo. 


O restante faz da maneira incorreta: analisam a significância estatística separadamente dentro de cada subgrupo. Esta estratégia é incorreta, pois o teste não está comparando os grupos ou avaliando a modificação do efeito. Além disso, a perda de significância estatística dentro de um subgrupo ocorre comumente, pois um subgrupo tem menor poder estatístico do que o grupo. Perda de significância estatística não significa mudança de efeito. 


O ônus da prova está na mudança de efeito, portanto é necessário significância estatística para demonstrar, e isso é que faz o teste de interação. Se P < 0.05 sugere mudança de efeito. Ou seja, o teste de interação vai na direção do ônus da prova. 


Um segundo ponto muito importante é que a interação deve ser analisada em relação ao efeito relativo da conduta médica, e não ao efeito absoluto. Sabemos que a propriedade intrínseca do tratamento é o relativo, representado por risco relativo, hazard ratio ou odds ratio. É esse que deve ser avaliado se varia com o mudança do subgrupo. 


Uma análise que se volta para o efeito absoluto vai sempre mudar se um subgrupo tiver maior risco absoluto do que os demais. Quanto maior a incidência de um desfecho em um subgrupo (risco absoluto), maior será a redução absoluta desse risco. Isso é óbvio. A questão está no relativo. 


Estudo Negativo, Subgrupo Positivo


Esta análise é muito utilizada, mediada pela aversão ao resultado negativo. No entanto, são análises que sofrem fortemente do risco de erro aleatório, por dois motivos: primeiro, subgrupo é um grupo pequeno, seu baixo poder estatístico reduz a precisão e aumenta a incidência do erro tipo I; segundo, o problema dos múltiplos testes


Se fizermos uma única análise e afirmamos significância estatística com P = 0.049, a probabilidade de termos encontrado esse achado sendo a hipótese nula verdadeira é 5%. Aceitável. Mas se fizemos 10 análises, a probabilidade deste erro ocorrer (em alguma análise) subirá para 40%: 1 - (1 - 𝜶)número de comparações


Portanto, não adianta dizer que as análises são pre-determinadas, pois é o número de análise que insufla o erro tipo I. A ideia de pré-determinar é apenas limitar as análises.


* Vide logo abaixo “ajuste de Bonferroni”.


Uma análise de subgrupo funciona como um teste diagnóstico de péssima acurácia. Além disso, há a  probabilidade a priori. E neste caso, o resultado negativo do estudo geral reduziu substancialmente a probabilidade pré-teste de um fenômeno ser presente em um grupo específico. Pois o conceito científico demonstrado pelo resultado geral (lei na natureza) tende a funcionar em diferentes circunstâncias (subgrupos).


Então se considerarmos probabilidade pré-teste, baixo poder estatístico e múltiplas comparações, um subgrupo positivo em estudo negativo terá valor preditivo positivo muito baixo. 


Se perguntem: quantas análises de subgrupo positivas de estudos negativos vingaram em estudos subsequentes? Difícil se lembrar, pois é coisa rara.


Isso acontece em uma situação específica: quando o subgrupo define o “tamanho do problema” que será resolvido pelo tratamento. Neste raciocínio, o problema não deve ser visto no paradigma epidemiológico (incidência do desfecho indesejado), mas sim no biológico (tamanho do buraco a ser preenchido pelo tratamento). 


Imaginem um barco que está entrando água. Quando maior o buraco, maior o benefício da intervenção para fechar o buraco. Imaginem um sangramento devido a um corte na pele. Quanto maior o corte, maior o benefício relativo da sutura. Nestes casos, o impacto do tratamento varia com subgrupos definidos pelo tamanho do problema. 


Isto aconteceu com estudos de revascularização miocárdica ou carotídea, quando se analisou subgrupos pelo tamanho do problema a ser revascularizado. O estudo CASS (revascularização miocárdica versus tratamento clínico) foi negativo em relação a redução de mortalidade. Depois  se percebeu que no subgrupo de pacientes com doença de tronco ou triarteriais havia benefício. Estes são pacientes que receberiam mais enxertos e pontes para revascularização, como um corte maior que precisa de maior número de pontos de sutura. O mesmo ocorreu com revascularização de lesão carotídea. Se a lesão for < 50% não há benefício da endarterectomia, mas pacientes com lesões de maior grau de estenose apresentam benefício.


Por este motivo, julgo útil e adequado que estudos como o COURAGE e BARI-2D, que foram negativos, tenham feito análise de interação pelo grau de isquemia. Pois isquemia é o buraco da doença coronariana. Explicando para os não cardiologistas, estes estudos não demonstraram que angioplastia é eficaz em reduzir eventos cardiovasculares da doença estável. E as análises de subgrupo por grau de isquemia foram consistentemente negativas, jogando ainda mais para baixo a probabilidade de que este tratamento tivesse o benefício proposto. 


Estudo Positivo, Subgrupo Negativo


Em aulas, normalmente falo que este é um tipo de análise aceitável, pois tem objetivo de mostrar a consistência do resultado positivo, não de negar o próprio estudo. Isso é correto apenas em parte. Pois o sentido de uma análise é encontrar algo. No fundo, esta análise está querendo avaliar se em algum subgrupo o tratamento não funciona. 


Quanto a mostrar consistência do resultado positivo, a análise é duvidosa, pois a ausência de interação pode ocorrer por falta de poder estatístico (erro tipo II), o que reduz a capacidade da análise de confirmar a consistência. Quanto a encontrar um subgrupo em que o tratamento não funcione, a análise sofre do erro tipo I pelos mesmos motivos que foram mencionados no item acima. 


Muitos me perguntam, como interpretar se um subgrupo for negativo em estudo positivo. Em geral, duvidar do resultado de interação. Mas se estivermos diante do princípio do tamanho do problema, aí sim a análise pode ser verdadeira. Este foi o caso do Estudo RECOVERY, no qual corticoide reduziu a mortalidade de pacientes com COVID, pois esta droga reduz a inflamação de pulmões acometidos pela doença. E no subgrupo de pessoas sem dispnéia, não houve benefício. Claro, estas pessoas não tem o buraco para ser consertado pela medicação, portanto faz sentido não rejeitar a hipótese nula neste subgrupo. Na figura abaixo, "chi-square trend" equivale ao teste de interação (P < 0.001). 







Análise de Subgrupo como Teste de Hipótese Primária


Neste caso se testa a hipótese de que um biomarcardor identifica os pacientes que se beneficiarão de uma terapia. Por exemplo, uma característica genética identificando quem se beneficia de um tipo de quimioterapia. Pacientes são randomizados para o tratamento ou controle, e é utilizado e teste de interação entre o efeito do tratamento e subgrupos definidos pelo marcador.


Isto ocorre principalmente em terapias-alvo, que só tendem a funcionar quando o paciente tem o alvo da terapia (claro). O estudo é a validação da própria terapia-alvo. 



Ajuste de Bonferroni


𝜶 corrigido = 0.05 / número de comparações.


Para minimizar o problema do erro tipo I, alguns propõem a correção de Bonferroni, que reduz o valor do alfa, tornando mais difícil alcançar significância estatística. Se forem feitas 10 comparações, só iríamos considerar interação significante se P < 0.005. Normalmente os ensaios clínicos não fazem este ajuste em suas análises de subgrupo. Este ajuste é uma boa operação, porém não soluciona de todo o problema do erro aleatório. Devemos ficar atentos para que o ajuste de Bonferroni não sirva de validação plena para análises de subgrupo. 


A melhor solução é fazer apenas uma análise de subgrupo, a que se refere ao “tamanho do problema”. Melhor do que ajustar para múltiplas comparações é não fazer múltiplas comparações. 


Plausibilidade versus Probabilidade Biológica


Muitos dizem que plausibilidade biológica é necessária para dar credibilidade a análises de subgrupo. Essa “regra” também enviesa inadequadamente a mente das pessoas, pois conseguimos dar plausibilidade a tudo que quisermos, é só ter imaginação ou citar algum trabalho in vitro


Na realidade, o que é necessário é probabilidade, não plausibilidade. E a única situação que uma análise de subgrupo tem probabilidade razoável de ser verdadeira é na questão do “tamanho do problema”. Assim, devemos falar em probabilidade biológica, e saber que isto apenas se refere a uma característica biológica que mensure o tamanho do problema a ser consertado pelo tratamento. 


Neste caso do tamanho do problema, até a questão do baixo poder estatístico fica minimizada. Pois nas análises que se referem ao tamanho do problema, o tamanho do efeito do subgrupo mais grave tente a ser maior do que o tamanho do efeito do tratamento no grupo total. Ou seja, o incremento da redução relativa do risco observado no subgrupo mais grave (RRR do subgrupo mais grave - RRR subgrupo menos grave) é maior do que a RRR do tratamento versus controle na amostra total. Nesta situação, estima-se que o poder estatístico da análise de subgrupo tende a ser mais adequado. 



A Excelência da Individualização


Depois desta longa discussão metodológica, terminarei com uma reflexão sobre o processo clínico de tomada de decisão. Afirmei no início do texto que as pessoas são muito mais parecidas do que diferentes. Mas esta minha afirmação é válida apenas para conceitos científicos. Do ponto de vista clínico, as pessoas são muito mais diferentes do que parecidas, é a individualização é essencial no processo de tomada de decisão. 


O equívoco está em acreditar que cabe ao ensaio clínico fazer a individualização. 


Na verdade, cabe ao médico fazer a individualização, com base no “princípio da prova do conceito”. Como? Um estudo serve para gerar um conceito, que é um norte em um processo de decisão, mas não é uma recomendação. Devemos abandonar o paradigma da recomendação, e entrar no paradigma da probabilidade, que começa com o conceito (redução relativa do risco) aplicada à individualidade clínica do paciente (risco absoluto), resultando na magnitude do efeito individual, a ser comparada com todos os tipos de custos relacionados ao tratamento. E ao final, a modelagem do benefício / custo na ótica dos valores e preferências dos paciente.


Análises de subgrupo não ajudam a individualizar e devem estar presentes apenas em situações que avaliam a interação do tamanho do problema biológico com o tratamento ou terapias-alvo. A verdadeira individualização ocorre pela excelência do pensamento clínico. 


-------------------------------------------------------------------------------------------------------------


Vejam discussão correlata em nosso MBE PodcastCanal do YouTube e tweeter


Conheçam nosso curso online de MBE, que traz o conhecimento que suporta nossas reflexões.