Recentemente, foi publicado no New England Journal of Medicine o estudo
LOOK-AHEAD, o qual demonstrou
ausência de benefício clínico de intervenção intensa com exercício físico e dieta para perda de peso em
pacientes diabéticos. Será que é verdade?
Citamos este estudo na polêmica postagem O Politicamente Correto e as Recomendações de Hábitos de Vida. Naquele momento, o resultado do LOOK-AHEAD estava
anunciado, porém o artigo não havia sido publicado na íntegra. Agora podemos
fazer a avaliação deste trabalho, sendo uma boa oportunidade para discutir como
analisar veracidade de estudos negativos.
O resultado do LOOK-AHEAD vai de encontro a uma forte crença: intervenção com exercício e dieta para perda de peso trazem
benefício clínico. Esta crença é tão forte que a comunidade médica nem
mesmo achava que este trabalho seria necessário, tal a “certeza” do benefício
destas intervenções. Agora com o artigo publicado, devemos dissecar a evidência.
Neste caso, faremos uma análise ainda mais detalhada do que o habitual, devido
à surpresa do resultado negativo. Quem achar cansativo, simplesmente acredite
na veracidade do trabalho, pule as próximas três partes e leia a parte final,
que fala do conforto cognitivo. Mas
quem quiser aproveitar para revisar como se avalia um estudo negativo, leia
tudo.
Um estudo pode ser negativo por dois
motivos: de fato pode não haver benefício da conduta testada; ou pode ser
negativo devido a erros: sistemáticos (vieses) ou aleatórios (acaso). Temos que
diferenciar as duas circunstâncias. O resultado de qualquer estudo deve ser
visto com ceticismo até que se aplique a análise sistemática da veracidade da
evidência. Ceticismo é bom, pois nos deixa mais atentos.
Erros
Sistemáticos (vieses)
Que falhas metodológicas poderiam fazer
deste um estudo falso negativo? Observem na equação de um ensaio clínico que de
um lado há a intervenção, do outro lado há o desfecho.
INTERVENÇÃO => DESFECHO
Erros podem
acontecer na aplicação da intervenção ou aferição do desfecho.
A intervenção foi descrita pelo protocolo
do estudo como “intensa”, caracterizada por reuniões de aconselhamento toda
semana, durante os 6 primeiros meses. A dieta recomendada tinha 1.200 a 1.800
calorias/dia e o exercício 175 minutos de atividade moderada-intensa por
semana. Parece um bom planejamento, mas o que temos que questionar é se a
intervenção promoveu as alterações antropométricas e fisiológicas que
teoricamente resultariam em benefício clínico. Esta análise mostra que de fato
os pacientes perderam 8.6% de peso no primeiro ano, tal como havia sido planejado
pelo estudo. Mais do que isso, sustentaram boa parte dessa perda de peso aos
longos dos 13 anos de estudo, terminando com 6% de peso a menos do que no
início do estudo. Isso parece pouco, 6-8% de redução em população de 100 Kg em
média. De fato, não é uma perda de peso
que deixa ninguém esbelto, mas é o que se consegue com dieta; e é dieta que
está sendo aqui testada. Inclusive, essa perda de peso supera o que se
verifica em estudos de droga para obesidade. Por exemplo, a “aclamada”
Sibutramina reduziu 4.5% do peso no estudo SCOUT. Desta forma, o estudo
conseguiu testar uma intervenção que de fato reduziu peso; ou melhor reduziu o peso que dieta consegue reduzir. Portanto, não houve viés de aplicação da intervenção.
E quanto ao exercício? Este também foi
eficaz em promover mudanças fisiológicas, tendo gerado ganho de capacidade
funcional, medido em METS.
Ainda dentro da análise da intervenção, é
importante verificar se o grupo controle de fato fez o papel de controle. Um bom controle tem que ser diferente da
intervenção, gerando um contraste que provoque diferença de desfecho entre os
grupos. Por questões éticas, o grupo controle também recebeu
aconselhamento, em menor intensidade. Isso promoveu perda de peso progressiva
ao longo dos anos, reduzindo um pouco o contraste entre os grupos. Mas isso não
foi suficiente para fazer o contraste desaparecer: em média, ao longo dos anos
de estudo, a diferença de peso entre os grupos foi 4 Kg, o que se considera
significativo em estudos que avaliam perda de peso com dieta. Na verdade, em estudos de hábitos de vida,
é esperado que o grupo controle tenha algum tipo de melhora simplesmente pela
motivação de estarem no estudo. O que temos que avaliar é se essa melhora foi
grande o suficiente para invalidar o estudo. Aqui não parece ter sido o
caso.
Desta forma, quando à intervenção não
identificamos vieses preocupantes.
E quanto ao desfecho? Este foi um
desfecho composto apenas de eventos duros, objetivos e de importância clínica:
morte, infarto e AVC. Isto torna improvável a possibilidade de viés de aferição
dos desfechos. Mesmo em estudos abertos como o LOOK-AHEAD (não poderia deixar
de ser, por questões óbvias), estes tipos de desfechos raramente sofrem erros
de aferição, pois são muito objetivos. Além disso, os autores tiveram o
cuidado de tornar cega a adjudicação (auditoria) destes desfechos, evitando que
estes pesquisadores soubessem da alocação dos pacientes. Mesmo assim, um eventual viés de aferição, se ocorresse, possivelmente
seria a favor do grupo intervenção, visto que a noção de que um paciente
experimentou perda de peso e praticou atividade física nos deixa mais propícios
a acreditar em melhora prognóstica para estes indivíduos.
Uma virtude deste estudo é o tempo de
follow-up, cuja mediana foi de 10 anos.
Usualmente os estudos de prevenção primária têm em torno de 5 anos de segmento
(vide estatinas, anti-hipertensivos). Por se tratar de intervenções
relacionadas a hábitos de vida, poderia ser que os resultados demorassem mais a
aparecer. Portanto, os autores tiveram o
cuidado de realizar um longo follow-up, quase sem precedentes em estudos de
intervenção. Isso dá mais consistência ao resultado negativo, que não pode
ser atribuído a tempo insuficiente para se detectar benefício clínico.
Portanto, aqui temos um estudo confiável
quanto à intervenção e quanto à aferição dos desfechos.
Mas ainda analisando erros sistemáticos,
resta outra possibilidade: o viés de confusão, que ocorre quando os dois grupos
são diferentes e essas diferenças podem provocar heterogeneidade de desfechos.
Isso pode explicar o resultado consistente dos estudos observacionais, que
demonstram associação entre exercício físico e menor risco cardiovascular. Quem
faz exercício é diferente de quem não faz (menos doentes, mais cuidadosos com a
saúde) e essas diferenças podem ser as verdadeiras causas do melhor prognóstico
destes pacientes. Como solucionar? Fazendo ensaios clínicos randomizados, pois
a “mágica da randomização” garante que os grupos sejam semelhantes.
Paradoxalmente, as pessoas
não atentam muito para a grande necessidade de ensaios clínicos randomizados e insistem em citar estudos observacionais
como evidências definitivas do benefício de hábitos de vida, como é o caso do
exercício. São exatamente os hábitos de vida que mais precisam de estudos
randomizados, pois estes hábitos trazem consigo várias características
demográficas, clínicas, antropométricas, sociais, econômicas de seus
praticantes. Portanto, às viúvas do exercício ou perda de peso, por favor, não
critiquem o LOOK-AHEAD citando estudos observacionais
positivos. O potencial viés do desenho observacional é maior do que qualquer
outro.
O LOOK-AHEAD é um
estudo randomizado e como podemos perceber na tabela de características
clínicas, as duas amostras (intervenção e controle) são idênticas.
Porém ainda há um
detalhe que normalmente não se percebe e não é considerado na análise de
fatores de confusão. Às vezes, os
pacientes são semelhantes no momento basal, mas ao longo do estudo se tornam
diferentes. É o que resolvi denominar de fator de
confusão prospectivo. Será que o grupo controle foi melhor tratado com
drogas por uma reação compensatória dos médicos para com os pacientes que não
foram randomizados para a intervenção? Seria um viés de desempenho, típico de um estudo aberto. De fato, houve
maior freqüência do uso de estatinas e anti-hipertensivos. Isso foi o que mais me preocupou como potencial viés. Isto poderia
ter feito o grupo controle menos predisposto a desfechos, anulando uma eventual
superioridade do grupo intervenção. Fui atrás dos detalhes e o material
suplementar do artigo traz as informações. Na verdade, a diferença de uso de
estatina foi mínina (74% versus 71%),
o mesmo com anti-hipertensivos (88% versus 87%).
Erros Aleatórios
Quando um estudo é
negativo (não encontra associação), devemos nos questionar se isto ocorreu devido
ao que se chama de erro tipo II: não
encontrar uma associação que na verdade existe, devido a falta de poder
estatístico. Assim, devemos começar por ler o cálculo do tamanho amostral
(usualmente no final dos métodos, no item de análise estatística), observando quatro questões:
Primeiro: qual poder estatístico o autor propõe para seu estudo? Este poder
deve ser de pelo menos 80%, pois a maior probabilidade de erro tipo II
aceitável é 20%. Observem que a probabilidade do erro tipo II é o complemento
do poder estatístico (100% - 80% = 20%). Neste quesito, nunca um autor vai propor ter um poder estatístico menor que 80% (seria um tiro no pé). Assim,
geralmente o planejado é um poder de 80%, 85% ou 90%. O que pode acontecer é o autor
omitir o cálculo do tamanho amostral, justamente por não ter um poder de pelo
menos 80%. Isso levantaria suspeita, mas não foi o caso aqui. No LOOK-AHEAD, o poder proposto foi 80%.
Segundo: qual a diferença de desfecho entre os grupos que o autor se propõe
detectar? Esse item é muito importante. Na verdade, não existe um único tamanho
amostral necessário para cada estudo, pois este depende da diferença que o autor faz questão de encontrar. Quanto menor
essa diferença, maior o tamanho amostral necessário, pois para detectar coisas
pequenas, precisamos de uma lente grande. Aqui a lente do estudo é seu
tamanho amostral. Se o autor faz questão de encontrar uma diferença pequena,
seu tamanho amostral necessário grande. Se a diferença que ele faz questão de
encontrar é grande, seu tamanho amostral pode ser menor. Quando digo “encontrar
diferença” significo obter um valor de P < 0.05.
O que devemos
analisar é se faz sentido o grau de diferença que o autor faz questão de
encontrar. Ou colocado de outra forma, qual a diferença que ele tolera não
encontrar. Devemos avaliar se nesta proposta o autor está aceitando não
encontrar algo que seja clinicamente relevante. Idealmente, o estudo deve ter tamanho amostral para detectar as
diferenças que sejam relevantes em magnitude, não necessitando demonstrar
diferenças sem importância.
Neste estudo, o
autor parte das premissas de que a incidência do desfecho no grupo controle
seria de 2% ao ano e de que o tratamento traria um redução relativa de 18% no
desfecho. Uma redução relativa de 18% em cima de uma incidência de 2% resulta
em 0.4% de redução absoluta ao ano. Parece algo razoável, ou seja, ele não está
tolerando que grandes reduções não sejam detectadas, pois tem capacidade de
detectar 0.4% de redução absoluta.
Terceiro: devemos agora olhar nos resultados se realmente a incidência de 2%
ao ano ocorreu no estudo, do contrário o estudo não teria um numero de
desfechos necessários para oferecer tal poder estatístico. Vejam nos resultados
que a incidência do desfecho foi 1.9% ao ano, ficando bem próximo ao que o
autor se propôs.
Observem então que a
análise do poder não se resume à leitura do planejamento do estudo, mas também
à leitura de se o resultado do estudo correspondeu à premissa de incidência do
desfecho. Se o autor imaginou que a incidência do desfecho seria X e sua
incidência foi menor, o estudo terá um poder menor do que ele planejou.
No LOOK-AHEAD a
incidência ficou bem próximo no planejado. Sendo assim, podemos afirmar que o
autor tinha um poder de 80% para detectar uma redução relativa de 18%, o que
julgamos ser adequado. Ou seja, o
erro tipo II deixa de ser uma preocupação maior.
Quarto: por fim, devemos
olhar as diferença de desfecho entre os dois grupos. Observem abaixo a curva de
incidência cumulativa. É muito próxima, não há diferença alguma. A suspeita de erro
tipo II faz mais sentido quando há alguma diferença que não alcançou
significância estatística, o que não é o caso aqui.
Aplicabilidade e Diabetes
O resultado deste
trabalho se aplica apenas a diabéticos? Já comentamos várias vezes neste Blog
sobre o Princípio da Complacência.
Ensaios clínicos são experimentos intensamente controlados, que utilizam de uma
população-alvo restrita para prova de conceito. Uma vez este conceito
demonstrado, devemos (até certo limite) permitir sua extrapolação para que uma
população abrangente se beneficie. Esta conduta é respaldada, pois uma vez
demonstrado um conceito, é raro que o conceito mude com a mudança do tipo de
paciente. Isto porque interação é um
fenômeno raro, é só verificar na análise de subgrupo dos ensaios clínicos
em geral. A definição de diabetes como critério de inclusão tem sido usada em
ensaios clínicos para identificar uma amostra de risco elevado, o que favorece
o poder estatístico do estudo. E não porque o interesse da pergunta diz respeito apenas em
diabéticos. Isso tem sido um engano, assim como o não entendimento do Princípio da Complacência tem sido talvez o mais importante equívoco de raciocínio em medicina baseada em evidências.
Desta forma, o
presente estudo mostra que a intervenção não é benéfica em diabético. Quanto ao não diabético, o estudo pelo
menos reduz a probabilidade de que a intervenção seja benéfica. Há alguma
aplicabilidade. Pode não fechar a questão em não diabéticos, mas coloca um
forte ponto de interrogação, reforçando a necessidade de que isso seja testado,
antes de ficarmos afirmando benéficos não demonstrados.
Conforto
Cognitivo
Embora bem desenhado e a
despeito de nossa criteriosa análise, não faltarão críticas ao LOOK-AHEAD. Estas
críticas serão de múltiplas ordens, e ocorrerão devido ao fenômeno de leitura seletiva, quando rejeitarmos
evidências que vão de encontro às
nossas crenças e abraçamos as evidências que vão ao encontro de nossas crenças.
Os psicólogos dão algumas
explicações para isto e uma delas é o interessante fenômeno de conforto cognitivo. Acreditamos no que
é mais confortável, pois é desconfortável ter seus valores questionados, dá
trabalho de pensamento. Mudança de paradigma é sempre uma ruptura com a
tradição. É mais confortável ouvir alguém falar o que já pensamos, dá menos
trabalho mental, por mais monótono que isso possa ser. É interessante perceber
a feição das pessoas quando falamos em público. Dá para perceber nitidamente o
sorriso, a satisfação de alguém quando estamos falando algo com que a pessoa
concorda, enquanto percebemos nítida mudança de expressão quando algo
controverso entre em conflito com o pensamento vigente. Uma mentira repetida
várias vezes vira verdade, pois se torna confortável ouvir uma idéia comum. Conforto
cognitivo é um fenômeno psicológico demonstrado cientificamente. É confortável ouvir falar que intervenção intensa com exercício e dieta são condutas benéficas, é desconfortável ouvir falar o contrário.
Pode ser que uma intervenção que promova perda mais substancial de peso (dieta não consegue de forma sustentada, isso é um fato) ofereça benefícios clínicos. Nesta questão, necessitamos de ensaios clínicos randomizados a respeito do impacto de longo prazo da cirurgia bariátrica em desfechos duros, tais como os avaliados no LOOH-AHEAD.
Na construção do
conhecimento científico, devemos fazer um esforço para nos livrar do conforto cognitivo, estando abertos a novos paradigmas,
mesmo que estes sejam transgressores da tradição. O rabino Nilson Bonder nos
traz em seu livro “A Alma Imoral” a idéia de que transgressão promove evolução, tradição promove estagnação. E
quando a transgressão é baseada em evidências (como é o caso da conclusão do
estudo em questão), melhor ainda.
Neste aspecto, este trabalho
tem um nome perfeito, até visionário em relação ao resultado aqui apresentado:
LOOK-AHEAD. Precisamos olhar para frente, sair na zona de conforto cognitivo e nos permitir transgressões de velhos
paradigmas, desde que estas sejam baseadas em evidências científicas. Assim,
evoluiremos científica, filosófica e clinicamente.
OBS: Este texto é um complemento da antiga postagem O Politicamente Correto e as Recomendações de Hábitos de Vida, onde o estudo LOOK-AHEAD foi pela primeira vez mencionado. Naquela postagem se encontra nossa opinião em relação ao papel do exercício e perda de peso na recomendação médica.
OBS: Este texto é um complemento da antiga postagem O Politicamente Correto e as Recomendações de Hábitos de Vida, onde o estudo LOOK-AHEAD foi pela primeira vez mencionado. Naquela postagem se encontra nossa opinião em relação ao papel do exercício e perda de peso na recomendação médica.