Medicina Baseada em Evidências: Análises de Subgrupo: segredos e soluções conceituais

Na última postagem deste Blog, prometi que escreveria sobre análise de subgrupo de forma mais abrangente. Este foi tema de episódio recente de nosso Podcast, que agora se materializa em texto. Este é o tipo de postagem que não está associada a algum assunto do momento, seu acesso no Blog é perene e usualmente consta no Curso Online como bloco de aulas.

Análise de subgrupo é um procedimento muito utilizado em ensaios clínicos randomizados, presente em 70% das publicações, provocando afirmações peculiares em 30% dos artigos. No entanto, a valorização deste procedimento é equivocada.

O pensamento principal que suporta as numerosas análises de subgrupo reside na ideia de que pessoas são diferentes, e devemos considerar como estas diferenças influenciam no efeito do tratamento.

No entanto, sendo da mesma espécie humana, pessoas são muito mais parecidas do que diferentes, o que faz com que o fenômeno de interação seja bastante raro (princípio da complacência). Assim, não se deve esperar que normalmente análises de subgrupo tragam informações adicionais ao todo da mensagem do trabalho. Entendo se esta afirmação causar desconforto cognitivo, pois vai de encontro com a prática do ecossistema científico.

A segunda questão se refere ao problema da confiabilidade. Quando análises de subgrupo trazem informações adicionais, estas tendem a ser falsas, pois possuem alto risco de cometer erro aleatório, resultando em péssimo valor preditivo.

Ao final desta postagem, concluiremos que análises de subgrupo em ensaios clínicos não devem ser realizadas, salvo em algumas situações específicas que esclareceremos. E quando for realizada, o foco deve ser em apenas uma análise, uma hipótese. Parece estranho, mas espero me fazer entender.

**Estudos Descritivos versus Analíticos**

Antes de aprofundar a questão devo fazer um adendo: em estudos descritivos, análise de subgrupo são muito importantes, pois estas são situações em que o tipo de paciente (ou ambiente) influencia substancialmente a realidade, e esta realidade precisa ser individualizada.

Por exemplo, a descrição da letalidade do COVID pode variar substancialmente com a idade da amostra estudada. Vale muito a pena descrever essa letalidade em diferentes estratos de pacientes. Da mesma forma, estudos de acurácia de exames são descritivos (não comparativos), e a sensibilidade e especificidade de um método (diagnóstico ou prognóstico) pode variar com a extensão da doença. Um tumor grande pode ser visto de forma mais fácil do que um tumor pequeno.

Portanto, neste post, nossos argumentos se limitam a um tipo de estudo analítico: ensaios clínicos randomizados com intuito de avaliar eficácia de condutas. Nestes, a eficácia é um conceito científico, generalizável e pouco variável a depender do paciente. É só observar em estudos meta-científicos como normalmente o que funciona, funciona em todo mundo. Interação é um fenômeno raro.

Os Três Cenários

A acurácia e valor preditivo de análises de subgrupo variam de acordo com o cenário em que esta é realizada. Há três cenários principais:

Estudo negativo, em que a análise de subgrupo procura algum resultado positivo, nos induzindo a pensar que naquele tipo de paciente o tratamento funciona. Gostam de chamar isso de gerador de hipótese.
Estudo positivo, em que a análise de subgrupo procura consistência e algum resultado negativo nos induz a pensar que naquele tipo de paciente o tratamento não funciona.
Teste de hipótese principal (terapia-alvo), que visa interação entre presença de um marcador e resultado de um tratamento.

Nos primeiros dois casos, análise de subgrupo não devem ser realizadas, exceto quando se aplica o “princípio do tamanho do problema”. A terceira situação é quando a análise de subgrupo deve sempre ser realizada.

Vamos abordar cada uma das situações. Mas antes, um adendo estatístico.

A Estatística Adequada

Em análise de subgrupo, o adequado é o teste de interação, que avalia se há variação do tamanho o efeito entre os subgrupos. Um valor de P da interação estatisticamente significante indica “modificação de efeito”, que pode ser quantitativa (varia o tamanho do efeito - rara) ou qualitativa (de positivo para negativo ou vice-versa - raríssima). Enfatizo isso, pois apenas 29% dos trabalhos reportam o teste de interação em análises de subgrupo.

O restante faz da maneira incorreta: analisam a significância estatística separadamente dentro de cada subgrupo. Esta estratégia é incorreta, pois o teste não está comparando os grupos ou avaliando a modificação do efeito. Além disso, a perda de significância estatística dentro de um subgrupo ocorre comumente, pois um subgrupo tem menor poder estatístico do que o grupo. Perda de significância estatística não significa mudança de efeito.

O ônus da prova está na mudança de efeito, portanto é necessário significância estatística para demonstrar, e isso é que faz o teste de interação. Se P < 0.05 sugere mudança de efeito. Ou seja, o teste de interação vai na direção do ônus da prova.

Um segundo ponto muito importante é que a interação deve ser analisada em relação ao efeito relativo da conduta médica, e não ao efeito absoluto. Sabemos que a propriedade intrínseca do tratamento é o relativo, representado por risco relativo, hazard ratio ou odds ratio. É esse que deve ser avaliado se varia com o mudança do subgrupo.

Uma análise que se volta para o efeito absoluto vai sempre mudar se um subgrupo tiver maior risco absoluto do que os demais. Quanto maior a incidência de um desfecho em um subgrupo (risco absoluto), maior será a redução absoluta desse risco. Isso é óbvio. A questão está no relativo.

Estudo Negativo, Subgrupo Positivo

Esta análise é muito utilizada, mediada pela aversão ao resultado negativo. No entanto, são análises que sofrem fortemente do risco de erro aleatório, por dois motivos: primeiro, subgrupo é um grupo pequeno, seu baixo poder estatístico reduz a precisão e aumenta a incidência do erro tipo I; segundo, o problema dos múltiplos testes.

Se fizermos uma única análise e afirmamos significância estatística com P = 0.049, a probabilidade de termos encontrado esse achado sendo a hipótese nula verdadeira é 5%. Aceitável. Mas se fizemos 10 análises, a probabilidade deste erro ocorrer (em alguma análise) subirá para 40%: 1 - (1 - 𝜶)^{número de comparações}.

Portanto, não adianta dizer que as análises são pre-determinadas, pois é o número de análise que insufla o erro tipo I. A ideia de pré-determinar é apenas limitar as análises.

* Vide logo abaixo “ajuste de Bonferroni”.

Uma análise de subgrupo funciona como um teste diagnóstico de péssima acurácia. Além disso, há a probabilidade a priori. E neste caso, o resultado negativo do estudo geral reduziu substancialmente a probabilidade pré-teste de um fenômeno ser presente em um grupo específico. Pois o conceito científico demonstrado pelo resultado geral (lei na natureza) tende a funcionar em diferentes circunstâncias (subgrupos).

Então se considerarmos probabilidade pré-teste, baixo poder estatístico e múltiplas comparações, um subgrupo positivo em estudo negativo terá valor preditivo positivo muito baixo.

Se perguntem: quantas análises de subgrupo positivas de estudos negativos vingaram em estudos subsequentes? Difícil se lembrar, pois é coisa rara.

Isso acontece em uma situação específica: quando o subgrupo define o “tamanho do problema” que será resolvido pelo tratamento. Neste raciocínio, o problema não deve ser visto no paradigma epidemiológico (incidência do desfecho indesejado), mas sim no biológico (tamanho do buraco a ser preenchido pelo tratamento).

Imaginem um barco que está entrando água. Quando maior o buraco, maior o benefício da intervenção para fechar o buraco. Imaginem um sangramento devido a um corte na pele. Quanto maior o corte, maior o benefício relativo da sutura. Nestes casos, o impacto do tratamento varia com subgrupos definidos pelo tamanho do problema.

Isto aconteceu com estudos de revascularização miocárdica ou carotídea, quando se analisou subgrupos pelo tamanho do problema a ser revascularizado. O estudo CASS (revascularização miocárdica versus tratamento clínico) foi negativo em relação a redução de mortalidade. Depois se percebeu que no subgrupo de pacientes com doença de tronco ou triarteriais havia benefício. Estes são pacientes que receberiam mais enxertos e pontes para revascularização, como um corte maior que precisa de maior número de pontos de sutura. O mesmo ocorreu com revascularização de lesão carotídea. Se a lesão for < 50% não há benefício da endarterectomia, mas pacientes com lesões de maior grau de estenose apresentam benefício.

Por este motivo, julgo útil e adequado que estudos como o COURAGE e BARI-2D, que foram negativos, tenham feito análise de interação pelo grau de isquemia. Pois isquemia é o buraco da doença coronariana. Explicando para os não cardiologistas, estes estudos não demonstraram que angioplastia é eficaz em reduzir eventos cardiovasculares da doença estável. E as análises de subgrupo por grau de isquemia foram consistentemente negativas, jogando ainda mais para baixo a probabilidade de que este tratamento tivesse o benefício proposto.

Estudo Positivo, Subgrupo Negativo

Em aulas, normalmente falo que este é um tipo de análise aceitável, pois tem objetivo de mostrar a consistência do resultado positivo, não de negar o próprio estudo. Isso é correto apenas em parte. Pois o sentido de uma análise é encontrar algo. No fundo, esta análise está querendo avaliar se em algum subgrupo o tratamento não funciona.

Quanto a mostrar consistência do resultado positivo, a análise é duvidosa, pois a ausência de interação pode ocorrer por falta de poder estatístico (erro tipo II), o que reduz a capacidade da análise de confirmar a consistência. Quanto a encontrar um subgrupo em que o tratamento não funcione, a análise sofre do erro tipo I pelos mesmos motivos que foram mencionados no item acima.

Muitos me perguntam, como interpretar se um subgrupo for negativo em estudo positivo. Em geral, duvidar do resultado de interação. Mas se estivermos diante do princípio do tamanho do problema, aí sim a análise pode ser verdadeira. Este foi o caso do Estudo RECOVERY, no qual corticoide reduziu a mortalidade de pacientes com COVID, pois esta droga reduz a inflamação de pulmões acometidos pela doença. E no subgrupo de pessoas sem dispnéia, não houve benefício. Claro, estas pessoas não tem o buraco para ser consertado pela medicação, portanto faz sentido não rejeitar a hipótese nula neste subgrupo. Na figura abaixo, "chi-square trend" equivale ao teste de interação (P < 0.001).

Análise de Subgrupo como Teste de Hipótese Primária

Neste caso se testa a hipótese de que um biomarcardor identifica os pacientes que se beneficiarão de uma terapia. Por exemplo, uma característica genética identificando quem se beneficia de um tipo de quimioterapia. Pacientes são randomizados para o tratamento ou controle, e é utilizado e teste de interação entre o efeito do tratamento e subgrupos definidos pelo marcador.

Isto ocorre principalmente em terapias-alvo, que só tendem a funcionar quando o paciente tem o alvo da terapia (claro). O estudo é a validação da própria terapia-alvo.

Ajuste de Bonferroni

𝜶 corrigido = 0.05 / número de comparações.

Para minimizar o problema do erro tipo I, alguns propõem a correção de Bonferroni, que reduz o valor do alfa, tornando mais difícil alcançar significância estatística. Se forem feitas 10 comparações, só iríamos considerar interação significante se P < 0.005. Normalmente os ensaios clínicos não fazem este ajuste em suas análises de subgrupo. Este ajuste é uma boa operação, porém não soluciona de todo o problema do erro aleatório. Devemos ficar atentos para que o ajuste de Bonferroni não sirva de validação plena para análises de subgrupo.

A melhor solução é fazer apenas uma análise de subgrupo, a que se refere ao “tamanho do problema”. Melhor do que ajustar para múltiplas comparações é não fazer múltiplas comparações.

**Plausibilidade versus Probabilidade Biológica**

Muitos dizem que plausibilidade biológica é necessária para dar credibilidade a análises de subgrupo. Essa “regra” também enviesa inadequadamente a mente das pessoas, pois conseguimos dar plausibilidade a tudo que quisermos, é só ter imaginação ou citar algum trabalho in vitro.

Na realidade, o que é necessário é probabilidade, não plausibilidade. E a única situação que uma análise de subgrupo tem probabilidade razoável de ser verdadeira é na questão do “tamanho do problema”. Assim, devemos falar em probabilidade biológica, e saber que isto apenas se refere a uma característica biológica que mensure o tamanho do problema a ser consertado pelo tratamento.

Neste caso do tamanho do problema, até a questão do baixo poder estatístico fica minimizada. Pois nas análises que se referem ao tamanho do problema, o tamanho do efeito do subgrupo mais grave tente a ser maior do que o tamanho do efeito do tratamento no grupo total. Ou seja, o incremento da redução relativa do risco observado no subgrupo mais grave (RRR do subgrupo mais grave - RRR subgrupo menos grave) é maior do que a RRR do tratamento versus controle na amostra total. Nesta situação, estima-se que o poder estatístico da análise de subgrupo tende a ser mais adequado.

A Excelência da Individualização

Depois desta longa discussão metodológica, terminarei com uma reflexão sobre o processo clínico de tomada de decisão. Afirmei no início do texto que as pessoas são muito mais parecidas do que diferentes. Mas esta minha afirmação é válida apenas para conceitos científicos. Do ponto de vista clínico, as pessoas são muito mais diferentes do que parecidas, é a individualização é essencial no processo de tomada de decisão.

O equívoco está em acreditar que cabe ao ensaio clínico fazer a individualização.

Na verdade, cabe ao médico fazer a individualização, com base no “princípio da prova do conceito”. Como? Um estudo serve para gerar um conceito, que é um norte em um processo de decisão, mas não é uma recomendação. Devemos abandonar o paradigma da recomendação, e entrar no paradigma da probabilidade, que começa com o conceito (redução relativa do risco) aplicada à individualidade clínica do paciente (risco absoluto), resultando na magnitude do efeito individual, a ser comparada com todos os tipos de custos relacionados ao tratamento. E ao final, a modelagem do benefício / custo na ótica dos valores e preferências dos paciente.

Análises de subgrupo não ajudam a individualizar e devem estar presentes apenas em situações que avaliam a interação do tamanho do problema biológico com o tratamento ou terapias-alvo. A verdadeira individualização ocorre pela excelência do pensamento clínico.

-------------------------------------------------------------------------------------------------------------

Vejam discussão correlata em nosso MBE Podcast, Canal do YouTube e tweeter.

Conheçam nosso curso online de MBE, que traz o conhecimento que suporta nossas reflexões.

Medicina Baseada em Evidências

quinta-feira, 10 de dezembro de 2020

Análises de Subgrupo: segredos e soluções conceituais