Mostrando postagens classificadas por relevância para a consulta look-ahead. Classificar por data Mostrar todas as postagens
Mostrando postagens classificadas por relevância para a consulta look-ahead. Classificar por data Mostrar todas as postagens

domingo, 21 de julho de 2013

LOOK AHEAD



Recentemente, foi publicado no New England Journal of Medicine o estudo LOOK-AHEAD, o qual demonstrou ausência de benefício clínico de intervenção intensa com  exercício físico e dieta para perda de peso em pacientes diabéticos. Será que é verdade?

Citamos este estudo na polêmica postagem O Politicamente Correto e as Recomendações de Hábitos de Vida. Naquele momento, o resultado do LOOK-AHEAD estava anunciado, porém o artigo não havia sido publicado na íntegra. Agora podemos fazer a avaliação deste trabalho, sendo uma boa oportunidade para discutir como analisar veracidade de estudos negativos.

O resultado do LOOK-AHEAD vai de encontro a uma forte crença: intervenção com exercício e dieta para perda de peso trazem benefício clínico. Esta crença é tão forte que a comunidade médica nem mesmo achava que este trabalho seria necessário, tal a “certeza” do benefício destas intervenções. Agora com o artigo publicado, devemos dissecar a evidência. Neste caso, faremos uma análise ainda mais detalhada do que o habitual, devido à surpresa do resultado negativo. Quem achar cansativo, simplesmente acredite na veracidade do trabalho, pule as próximas três partes e leia a parte final, que fala do conforto cognitivo.  Mas quem quiser aproveitar para revisar como se avalia um estudo negativo, leia tudo.

Um estudo pode ser negativo por dois motivos: de fato pode não haver benefício da conduta testada; ou pode ser negativo devido a erros: sistemáticos (vieses) ou aleatórios (acaso). Temos que diferenciar as duas circunstâncias. O resultado de qualquer estudo deve ser visto com ceticismo até que se aplique a análise sistemática da veracidade da evidência. Ceticismo é bom, pois nos deixa mais atentos. 

Erros Sistemáticos (vieses)

Que falhas metodológicas poderiam fazer deste um estudo falso negativo? Observem na equação de um ensaio clínico que de um lado há a intervenção, do outro lado há o desfecho.

INTERVENÇÃO  => DESFECHO

Erros podem acontecer na aplicação da intervenção ou aferição do desfecho.

A intervenção foi descrita pelo protocolo do estudo como “intensa”, caracterizada por reuniões de aconselhamento toda semana, durante os 6 primeiros meses. A dieta recomendada tinha 1.200 a 1.800 calorias/dia e o exercício 175 minutos de atividade moderada-intensa por semana. Parece um bom planejamento, mas o que temos que questionar é se a intervenção promoveu as alterações antropométricas e fisiológicas que teoricamente resultariam em benefício clínico. Esta análise mostra que de fato os pacientes perderam 8.6% de peso no primeiro ano, tal como havia sido planejado pelo estudo. Mais do que isso, sustentaram boa parte dessa perda de peso aos longos dos 13 anos de estudo, terminando com 6% de peso a menos do que no início do estudo. Isso parece pouco, 6-8% de redução em população de 100 Kg em média. De fato, não é uma perda de peso que deixa ninguém esbelto, mas é o que se consegue com dieta; e é dieta que está sendo aqui testada. Inclusive, essa perda de peso supera o que se verifica em estudos de droga para obesidade. Por exemplo, a “aclamada” Sibutramina reduziu 4.5% do peso no estudo SCOUT. Desta forma, o estudo conseguiu testar uma intervenção que de fato reduziu peso; ou melhor reduziu o peso que dieta consegue reduzir. Portanto, não houve viés de aplicação da intervenção.

E quanto ao exercício? Este também foi eficaz em promover mudanças fisiológicas, tendo gerado ganho de capacidade funcional, medido em METS.

Ainda dentro da análise da intervenção, é importante verificar se o grupo controle de fato fez o papel de controle. Um bom controle tem que ser diferente da intervenção, gerando um contraste que provoque diferença de desfecho entre os grupos. Por questões éticas, o grupo controle também recebeu aconselhamento, em menor intensidade. Isso promoveu perda de peso progressiva ao longo dos anos, reduzindo um pouco o contraste entre os grupos. Mas isso não foi suficiente para fazer o contraste desaparecer: em média, ao longo dos anos de estudo, a diferença de peso entre os grupos foi 4 Kg, o que se considera significativo em estudos que avaliam perda de peso com dieta. Na verdade, em estudos de hábitos de vida, é esperado que o grupo controle tenha algum tipo de melhora simplesmente pela motivação de estarem no estudo. O que temos que avaliar é se essa melhora foi grande o suficiente para invalidar o estudo. Aqui não parece ter sido o caso.

Desta forma, quando à intervenção não identificamos vieses preocupantes.

E quanto ao desfecho? Este foi um desfecho composto apenas de eventos duros, objetivos e de importância clínica: morte, infarto e AVC. Isto torna improvável a possibilidade de viés de aferição dos desfechos. Mesmo em estudos abertos como o LOOK-AHEAD (não poderia deixar de ser, por questões óbvias), estes tipos de desfechos raramente sofrem erros de aferição, pois são muito objetivos. Além disso, os autores tiveram o cuidado de tornar cega a adjudicação (auditoria) destes desfechos, evitando que estes pesquisadores soubessem da alocação dos pacientes. Mesmo assim, um eventual viés de aferição, se ocorresse, possivelmente seria a favor do grupo intervenção, visto que a noção de que um paciente experimentou perda de peso e praticou atividade física nos deixa mais propícios a acreditar em melhora prognóstica para estes indivíduos.

Uma virtude deste estudo é o tempo de follow-up, cuja mediana foi de 10 anos. Usualmente os estudos de prevenção primária têm em torno de 5 anos de segmento (vide estatinas, anti-hipertensivos). Por se tratar de intervenções relacionadas a hábitos de vida, poderia ser que os resultados demorassem mais a aparecer. Portanto, os autores tiveram o cuidado de realizar um longo follow-up, quase sem precedentes em estudos de intervenção. Isso dá mais consistência ao resultado negativo, que não pode ser atribuído a tempo insuficiente para se detectar benefício clínico.

Portanto, aqui temos um estudo confiável quanto à intervenção e quanto à aferição dos desfechos.

Mas ainda analisando erros sistemáticos, resta outra possibilidade: o viés de confusão, que ocorre quando os dois grupos são diferentes e essas diferenças podem provocar heterogeneidade de desfechos. Isso pode explicar o resultado consistente dos estudos observacionais, que demonstram associação entre exercício físico e menor risco cardiovascular. Quem faz exercício é diferente de quem não faz (menos doentes, mais cuidadosos com a saúde) e essas diferenças podem ser as verdadeiras causas do melhor prognóstico destes pacientes. Como solucionar? Fazendo ensaios clínicos randomizados, pois a “mágica da randomização” garante que os grupos sejam semelhantes.

Paradoxalmente, as pessoas não atentam muito para a grande necessidade de ensaios clínicos randomizados e insistem em citar estudos observacionais como evidências definitivas do benefício de hábitos de vida, como é o caso do exercício. São exatamente os hábitos de vida que mais precisam de estudos randomizados, pois estes hábitos trazem consigo várias características demográficas, clínicas, antropométricas, sociais, econômicas de seus praticantes. Portanto, às viúvas do exercício ou perda de peso, por favor, não critiquem o LOOK-AHEAD citando estudos observacionais positivos. O potencial viés do desenho observacional é maior do que qualquer outro.

O LOOK-AHEAD é um estudo randomizado e como podemos perceber na tabela de características clínicas, as duas amostras (intervenção e controle) são idênticas.

Porém ainda há um detalhe que normalmente não se percebe e não é considerado na análise de fatores de confusão. Às vezes, os pacientes são semelhantes no momento basal, mas ao longo do estudo se tornam diferentes.  É o que resolvi denominar de fator de confusão prospectivo. Será que o grupo controle foi melhor tratado com drogas por uma reação compensatória dos médicos para com os pacientes que não foram randomizados para a intervenção? Seria um viés de desempenho, típico de um estudo aberto. De fato, houve maior freqüência do uso de estatinas e anti-hipertensivos. Isso foi o que mais me preocupou como potencial viés. Isto poderia ter feito o grupo controle menos predisposto a desfechos, anulando uma eventual superioridade do grupo intervenção. Fui atrás dos detalhes e o material suplementar do artigo traz as informações. Na verdade, a diferença de uso de estatina foi mínina (74% versus 71%), o mesmo com anti-hipertensivos (88% versus 87%).

Erros Aleatórios

Quando um estudo é negativo (não encontra associação), devemos nos questionar se isto ocorreu devido ao que se chama de erro tipo II: não encontrar uma associação que na verdade existe, devido a falta de poder estatístico. Assim, devemos começar por ler o cálculo do tamanho amostral (usualmente no final dos métodos, no item de análise estatística), observando quatro questões:

Primeiro: qual poder estatístico o autor propõe para seu estudo? Este poder deve ser de pelo menos 80%, pois a maior probabilidade de erro tipo II aceitável é 20%. Observem que a probabilidade do erro tipo II é o complemento do poder estatístico (100% - 80% = 20%). Neste quesito, nunca um autor vai propor ter um poder estatístico menor que 80% (seria um tiro no pé). Assim, geralmente o planejado é um poder de 80%, 85% ou 90%. O que pode acontecer é o autor omitir o cálculo do tamanho amostral, justamente por não ter um poder de pelo menos 80%. Isso levantaria suspeita, mas não foi o caso aqui. No LOOK-AHEAD, o poder proposto foi 80%.

Segundo: qual a diferença de desfecho entre os grupos que o autor se propõe detectar? Esse item é muito importante. Na verdade, não existe um único tamanho amostral necessário para cada estudo, pois este depende da diferença que o autor faz questão de encontrar. Quanto menor essa diferença, maior o tamanho amostral necessário, pois para detectar coisas pequenas, precisamos de uma lente grande. Aqui a lente do estudo é seu tamanho amostral. Se o autor faz questão de encontrar uma diferença pequena, seu tamanho amostral necessário grande. Se a diferença que ele faz questão de encontrar é grande, seu tamanho amostral pode ser menor. Quando digo “encontrar diferença” significo obter um valor de P < 0.05.

O que devemos analisar é se faz sentido o grau de diferença que o autor faz questão de encontrar. Ou colocado de outra forma, qual a diferença que ele tolera não encontrar. Devemos avaliar se nesta proposta o autor está aceitando não encontrar algo que seja clinicamente relevante. Idealmente, o estudo deve ter tamanho amostral para detectar as diferenças que sejam relevantes em magnitude, não necessitando demonstrar diferenças sem importância.

Neste estudo, o autor parte das premissas de que a incidência do desfecho no grupo controle seria de 2% ao ano e de que o tratamento traria um redução relativa de 18% no desfecho. Uma redução relativa de 18% em cima de uma incidência de 2% resulta em 0.4% de redução absoluta ao ano. Parece algo razoável, ou seja, ele não está tolerando que grandes reduções não sejam detectadas, pois tem capacidade de detectar 0.4% de redução absoluta. 

Terceiro: devemos agora olhar nos resultados se realmente a incidência de 2% ao ano ocorreu no estudo, do contrário o estudo não teria um numero de desfechos necessários para oferecer tal poder estatístico. Vejam nos resultados que a incidência do desfecho foi 1.9% ao ano, ficando bem próximo ao que o autor se propôs.

Observem então que a análise do poder não se resume à leitura do planejamento do estudo, mas também à leitura de se o resultado do estudo correspondeu à premissa de incidência do desfecho. Se o autor imaginou que a incidência do desfecho seria X e sua incidência foi menor, o estudo terá um poder menor do que ele planejou.

No LOOK-AHEAD a incidência ficou bem próximo no planejado. Sendo assim, podemos afirmar que o autor tinha um poder de 80% para detectar uma redução relativa de 18%, o que julgamos ser adequado.  Ou seja, o erro tipo II deixa de ser uma preocupação maior.

Quarto: por fim, devemos olhar as diferença de desfecho entre os dois grupos. Observem abaixo a curva de incidência cumulativa. É muito próxima, não há diferença alguma. A suspeita de erro tipo II faz mais sentido quando há alguma diferença que não alcançou significância estatística, o que não é o caso aqui.



Aplicabilidade e Diabetes

O resultado deste trabalho se aplica apenas a diabéticos? Já comentamos várias vezes neste Blog sobre o Princípio da Complacência. Ensaios clínicos são experimentos intensamente controlados, que utilizam de uma população-alvo restrita para prova de conceito. Uma vez este conceito demonstrado, devemos (até certo limite) permitir sua extrapolação para que uma população abrangente se beneficie. Esta conduta é respaldada, pois uma vez demonstrado um conceito, é raro que o conceito mude com a mudança do tipo de paciente. Isto porque interação é um fenômeno raro, é só verificar na análise de subgrupo dos ensaios clínicos em geral. A definição de diabetes como critério de inclusão tem sido usada em ensaios clínicos para identificar uma amostra de risco elevado, o que favorece o poder estatístico do estudo. E não porque o interesse da pergunta diz respeito apenas em diabéticos. Isso tem sido um engano, assim como o não entendimento do Princípio da Complacência tem sido talvez o mais importante equívoco de raciocínio em medicina baseada em evidências.

Desta forma, o presente estudo mostra que a intervenção não é benéfica em diabético. Quanto ao não diabético, o estudo pelo menos reduz a probabilidade de que a intervenção seja benéfica. Há alguma aplicabilidade. Pode não fechar a questão em não diabéticos, mas coloca um forte ponto de interrogação, reforçando a necessidade de que isso seja testado, antes de ficarmos afirmando benéficos não demonstrados.

Conforto Cognitivo

Embora bem desenhado e a despeito de nossa criteriosa análise, não faltarão críticas ao LOOK-AHEAD. Estas críticas serão de múltiplas ordens, e ocorrerão devido ao fenômeno de leitura seletiva, quando rejeitarmos evidências que vão de encontro às nossas crenças e abraçamos as evidências que vão ao encontro de nossas crenças.

Os psicólogos dão algumas explicações para isto e uma delas é o interessante fenômeno de conforto cognitivo. Acreditamos no que é mais confortável, pois é desconfortável ter seus valores questionados, dá trabalho de pensamento. Mudança de paradigma é sempre uma ruptura com a tradição. É mais confortável ouvir alguém falar o que já pensamos, dá menos trabalho mental, por mais monótono que isso possa ser. É interessante perceber a feição das pessoas quando falamos em público. Dá para perceber nitidamente o sorriso, a satisfação de alguém quando estamos falando algo com que a pessoa concorda, enquanto percebemos nítida mudança de expressão quando algo controverso entre em conflito com o pensamento vigente. Uma mentira repetida várias vezes vira verdade, pois se torna confortável ouvir uma idéia comum. Conforto cognitivo é um fenômeno psicológico demonstrado cientificamente. É confortável ouvir falar que intervenção intensa com exercício e dieta são condutas benéficas, é desconfortável ouvir falar o contrário.

Pode ser que uma intervenção que promova perda mais substancial de peso (dieta não consegue de forma sustentada, isso é um fato) ofereça benefícios clínicos. Nesta questão, necessitamos de ensaios clínicos randomizados a respeito do impacto de longo prazo da cirurgia bariátrica em desfechos duros, tais como os avaliados no LOOH-AHEAD. 

Na construção do conhecimento científico, devemos fazer um esforço para nos livrar do conforto cognitivo, estando abertos a novos paradigmas, mesmo que estes sejam transgressores da tradição. O rabino Nilson Bonder nos traz em seu livro “A Alma Imoral” a idéia de que transgressão promove evolução, tradição promove estagnação. E quando a transgressão é baseada em evidências (como é o caso da conclusão do estudo em questão), melhor ainda.

Neste aspecto, este trabalho tem um nome perfeito, até visionário em relação ao resultado aqui apresentado: LOOK-AHEAD. Precisamos olhar para frente, sair na zona de conforto cognitivo e nos permitir transgressões de velhos paradigmas, desde que estas sejam baseadas em evidências científicas. Assim, evoluiremos científica, filosófica e clinicamente.

OBS: Este texto é um complemento da antiga postagem O Politicamente Correto e as Recomendações de Hábitos de Vida, onde o estudo LOOK-AHEAD foi pela primeira vez mencionado. Naquela postagem se encontra nossa opinião em relação ao papel do exercício e perda de peso na recomendação médica.

sábado, 26 de setembro de 2015

BENEFIT Trial: Estudo Pragmático ou Prova de Conceito ?



O ensaio clínico BENEFIT foi apresentado no início deste mês, em Londres, durante o Congresso Europeu de Cardiologia, com publicação simultânea no New England Journal of Medicine. 

Este é o primeiro estudo de grande escala sobre esta afecção típica de nossa realidade e descrita originalmente por um brasileiro, que deu nome à doença. Como não poderia deixar de ser, o BENEFIT foi também idealizado por brasileiros (Anis Rassi, Anis Rassi Jr, Marin Neto). Por tudo isso, este estudo representou uma espécie de orgulho nacional. 

Este trabalho randomizou 2.854 pacientes com miocardiopatia chagásica para o uso de benzonidazol ou placebo, tendo como objetivo a avaliação da eficácia clínica deste tratamento. Para nossa frustração, seu resultado foi negativo. 

A análise metodológica evidencia um estudo sem risco significativo de viés e com poder estatístico adequado para demonstrar um benefício de magnitude relevante, respaldando a conclusão de que o esquema testado de benzonidazol não traz benefício clínico em pacientes com miocardiopatia chagásica. Esta seria a conclusão correta do trabalho.

No entanto, na publicação, os autores estruturaram sentenças de uma forma que pode levar ao entendimento da ausência de causalidade entre a presença do parasita e agravamento clínico. Isto nos pareceu inadequado

Esta aparente inadequação nos trouxe a oportunidade de discutir a diferença entre ensaios clínicos que testam hipóteses pragmáticas versus ensaios clínicos de prova de conceito causal. Esta é um importante distinção para a análise das implicações de um ensaio clínico e aproveitaremos o BENEFIT para realizar esta discussão didática.

Hipótese Pragmática versus Causal


Ensaios clínicos pragmáticos são aqueles cuja implicação se limita à eficácia de um determinada conduta. 

Ensaios clínicos de prova de conceito, além de avaliar eficácia, testam causalidade entre exposição e desfecho. Nestes trabalhos, utiliza-se o princípio da reversibilidade para testar causalidade: se o controle da exposição reduz o risco, a exposição tem uma relação causal com o desfecho. De acordo com os Critérios de Hill, reversibilidade é a principal evidência a favor da causalidade. 

Como exemplo de estudo pragmático, temos o ensaio clínico LOOK-AHEAD, discutido extensamente neste Blog. Neste trabalho ficou evidenciado ausência de benefício clínico de uma estratégia dietética para perda de peso em diabéticos. Portanto, a magnitude da perda de peso obtida com estratégias dietéticas (em média 4 Kg, incluindo estudos que usam drogas anorexígenas) não reduz eventos cardiovasculares. Porém não podemos extrapolar este achado para um prova de conceito mecanicista, dizendo que este estudo implica na ausência de relação causal entre obesidade e risco cardiovascular. O conceito da obesidade como fator de risco ficaria testado apenas com tratamentos que eliminassem ou reduzissem substancialmente a obesidade. Se o estudo fosse com cirurgia bariátrica, haveria redução de risco? Não sabemos, mas precisamos de um estudo assim para testar o conceito de causalidade. O LOOK-AHEAD tem um sentido científico apenas pragmático: a perda de peso usualmente obtida com dieta não reduz risco.

Como exemplo de estudo de prova de conceito, podemos citar trabalhos que avaliam a eficácia clínica de terapias que elevam HDL-colesterol, todos estes negativos quanto à redução de eventos cardiovasculares. Neste caso, é consistente e significativa a magnitude do aumento do HDL-colesterol. Todos os pacientes respondem ao tratamento de forma significativa. A despeito disso, não há benefício clínico. Portanto estes dados representam uma forte sugestão de que HDL-colesterol baixo não é um fator de risco cardiovascular, é apenas uma marcador de risco. Esta é uma inferência de causalidade.

BENEFIT (Pragmático ou Causal)


Vejam agora a conclusão do BENEFIT: “Trypanocidal therapy with benznidazole in patients with established Chagas’ cardiomyopathy significantly reduced serum parasite detection but did not significantly reduce cardiac clinical deterioration through 5 years of follow-up.”

Vejam que os autores fazem uma ligação entre uma possível eliminação do parasita e a ausência de benefício clínico. A ligação entre um desfecho intermediário e um desfecho final é uma inferência causal. 

E continuam insistindo no link durante a discussão: “Benzonidazole did not significantly reduce the rate of the primary clinical outcome, despite reductions in the parasite detection in serum samples.”

E vão adiante, comentando que a taxa de negativação da detecção do parasita no sangue não guardou relação com benefício clínico: “Rates of conversion to negative PCR results varied significantly according to geographic location, but the difference in rates of conversion did not correspond to a difference in the rates of clinical outcomes.” Nesta caso, eles fizeram uma análise estatística avaliando se havia diferença de benefício do tratamento entre regiões onde a negativação do parasita foi maior ou menor. Essa análise tem um forte intuito de avaliar causalidade. 

O grande problema é que, no que tange à hipótese testada, o BENEFIT está muito mais próximo do LOOK-AHEAD do que dos estudos de HDL-colesterol, pois a droga foi na verdade pouco consistente para negativação do parasita. 

A Negativação do Parasita (PCR)


No grupo droga, apenas 66% dos pacientes apresentaram negativação da detecção do parasita, avaliado pela técnica de polymerase chain reaction (PCR). E para confundir mais ainda, 34% do grupo placebo apresentou negativação. Ou seja, encontrar o parasita no sangue depende também da aleatoriedade do momento em que o sangue é colhido. Sendo assim, o efeito verdadeiro do Benzonidazol é o observado subtraído do aleatório (este representado pelo grupo controle). O efeito verdadeiro de negativação decorrente do Benzonidazol ocorre em apenas 32% dos pacientes (66% - 34%). Isso é suficiente para testar um conceito de causalidade?

Desta forma, são inadequadas as frases “significantly reduced serum parasite detection” ou “despite reductions in the parasite detection”.

Para piorar a análise de causalidade, apenas 60% dos pacientes do estudo tinham parasita detectado no sangue antes do início do tratamento. Como vamos fazer um link causal com a correção de um fator que não está presente em 40% dos pacientes?

Mais confuso ainda é o fato de que muitos pacientes que não tinham o parasita detectado antes do tratamento positivaram sua detecção ao longo do seguimento. Dentre pacientes inicialmente negativos no grupo Benzonidazol, 30% ficaram positivos!! 

Na verdade, PCR no soro tem muita variabilidade intra-paciente, decorrente do momento da dosagem. A medida é do parasita no sangue, ou seja, se o parasita estiver passando por aquela veia na hora da coleta será detectado, do contrário não será detectado. 

Por fim, dos 2854 pacientes no estudo, apenas 1487 pacientes tiveram a avaliação de PCR antes e depois do tratamento.

Isso tudo sugere que a metodologia do trabalho não é suficiente para avaliar negativação do parasita, muito menos para enfatizar esta observação na frase mais importante da conclusão, ao lado do achado referente a desfechos clínicos. Este não é um estudo que permite inferências causais. 

A postura científica correta e cautelosa seria limitar as conclusões à ausência de benefício do presente esquema anti-parasitário. Apenas ligar o tratamento ao desfecho clínico. A questão continua aberta para outras formas de tratamento que possam ser mais eficazes na eliminação do parasite e, eventualmente, outras formas ou estágios da cardiopatia crônica.

Poder Estatístico (Pragmático versus Causal)


Um conceito importante, porém pouco conhecido é que cálculo do tamanho amostral deve levar em consideração se o estudo é pragmático ou causal. 

Em um estudo de hipótese pragmática, deve-se dimensionar o tamanho amostral para oferecer poder adequado na detecção de diferenças clinicamente relevantes. Neste contexto, 26% de redução relativa do risco que o estudo se propôs a detectar é uma magnitude adequada. 

Por outro lado, um estudo que se propõe a expandir a inferência para causalidade deve ter poder de detectar efeitos menores da terapia, pois em um sistema biológico nem sempre um mecanismo causal se traduz em grande impacto clínico. 

Um bom exemplo é o que se discute sobre análise de correlação entre variáveis biológicas, no intuito de inferir causalidade. Por exemplo, para avaliar se obesidade predispõe a hipertensão arterial, poderíamos analisar correlação entre índice de massa corpórea e pressão arterial. Neste caso, não devemos esperar encontrar fortes correlações (r > 0.8), pois não é apenas obesidade que determina a pressão arterial, em um sistema complexo de causalidade. Assim, se o intuito for avaliação etiológica, devemos estar preparados para detectar correlações fracas, porém de sentido biológico

Desde seu desenho, os autores deveriam ter refletido sobre o poder estatístico se quisessem fazer inferências causais. 

A Grande Lição


Parece-me injustificável do ponto de vista científico tanta ênfase na análise de negativação do parasita, conectada com ausência de benefício clínico. Por que sempre que os autores disseram que o tratamento não funciona, também fizeram um link com a (pseudo) eficácia do tratamento na negativação do parasita?

A história do BENEFIT é um grande ensinamento quanto ao jogo das hipóteses pragmáticas versus causais.

Nos bastidores de Londres, conversei longamente com dois autores do BENEFIT, Marin-Neto e Anis Rassi Jr, os quais foram os verdadeiros idealizadores deste estudo e se associaram ao grupo da McMaster para viabilizar um ensaio clínico desta magnitude. Fiz várias provocações e senti nas entrelinhas o grande desconforto de ambos com as inferências causais presentes do texto. Em um estudo escrito a tantas mãos, eles foram votos vencidos na conotação do texto. 

Aí está a diferença de cientistas e pesquisadores. Os primeiros se preocupam prioritariamente com a verdade científica, enquanto os segundos com o impacto de suas publicações. Expandir as conclusões para um aspecto de causalidade dá mais impacto ao trabalho, porém menor veracidade. Pesquisadores tendem a superestimar os achados de seus trabalhos, cientistas tendem a reconhecer as lacunas que permanecem em aberto. Cientistas se fascinam mais com perguntas do que respostas. 

Anis e Marin-Neto são exemplos de grandes cientistas. Estavam mais preocupados com a mensagem que ficou do que com a publicação no New England Journal of Medicine. 

_________________________________________________________________________________

Comentário registrado por Anis Rassi Jr. horas após a postagem de nosso texto:

Luis, grato pelas palavras e parabéns mais uma vez pela sua análise precisa do estudo BENEFIT. Infelizmente, os neófitos da McMaster preferiram supervalorizar os resultados do PCR (a inclusão deste limitado desfecho substituto foi a única sugestão original do Dr Salim Yusuf e de seu grupo) ao invés de focar os resultados clínicos do estudo (por nós delineado). Recentemente Marin e eu postamos alguns de nossos comentários no endereço https://www.researchgate.net/profile/Anis_Rassi2/publications, onde deixamos também bem claro que análise de subgrupos adequada evidencia benefício do Benzonidazol na redução de desfechos clínicos no Brasil (onde predomina o T cruzi II), quando comparado aos demais países. Devemos escrever artigo de atualização sobre tratamento etiológico da doença de Chagas em breve salientando todos estes aspectos.

sexta-feira, 29 de junho de 2018

O Escândalo do Mediterrâneo e a Mito das Dietas


Os autores do PREDIMED Trial acabam de fazer uma retratação (retraction) referente à publicação original do trabalho em 2013 no New England Journal of Medicine. Na retratação os autores reconhecem violações no processo de randomização e retiram o artigo (withdraw).

O PREDIMED testou a eficácia da dieta do mediterrâneo (rica em azeite de oliva, avelãs, nozes, amêndoas, peixe, frutas, vegetais), tendo como grupo controle a recomendação de uma dieta saudável (evitar excesso de gordura saturada e incentivo para frutas e vegetais). O estudo concluiu que a dieta do mediterrâneo reduzia o risco de eventos cardiovasculares de forma expressiva (redução relativa do risco de 30%).

Naquela época, publicamos neste Blog nossa análise crítica do PREDIMED, apontando alto risco de viés de desempenho e “imprecisão tendenciosa”, induzida pela interrupção precoce baseada em resultado positivo (truncamento), em momento de poucos desfechos. 

Ademais, nos parecia inverossímil a magnitude do tamanho do efeito das nozes com azeite de oliva: 30% de redução relativa de risco, equivalente a estratégias farmacológicas ou invasivas de prevenção cardiovascular. 

Em paralelo ao nosso post, submetemos a crítica como Carta ao Editor do NEJM, porém nossa correspondência foi rejeitada em 2013.

As raras críticas ao estudo passaram despercebidas frente ao entusiasmante resultado e a dieta do mediterrâneo passou a ser cortejada. Quanto a mim, passei a usar o PREDIMED em aulas como exemplo de estudo com baixo valor preditivo positivo.

Cinco anos depois, somos surpreendidos com esta retratação e retirada bombástica.

Mais surpreendente, no entanto, foi o NEJM aceitar a republicação de uma nova versão do trabalho, após suposta exclusão dos pacientes não randomizados. Versão esta que mantém o mesmo resultado inverossímil e os mesmos problemas apontados por nós em época que não tínhamos ideia das grosseiras violações na randomização. 

O risco é que a nova versão do PREDIMED (publicada no mesmo dia que a versão antiga foi retirada) seja vista como uma confirmação dos resultados positivos. Fica claro que precisamos aprofundar essa discussão. Enviei novamente uma carta ao editor do NEJM, intitulada “still, too good to be true”, que está em processo de análise. 

Esta postagem pretende contar a interessante história de investigação estatística que descobriu a farsa do PREDIMED, discutir porque o resultado do PREDIMED é inverossímil, e porque tendemos a acreditar religiosamente em grandes benefícios do estilo alimentar.

O Detetive Estatístico

Tudo surgiu quando o compulsivo estatístico Carlisle avaliou 5.000 trabalhos randomizados e procurou por diferenças estatisticamente significantes entre dois grupos de alocação, publicando sua análise no Anaesthesia

Nas revistas modernas não mais se expõe na Tabela 1 o valor de P da comparação de características entre grupos de pacientes alocados randomicamente. Isto porque não há sentido estatístico no valor de P, pois sendo uma alocação aleatória, qualquer diferença entre os dois grupos se deveria ao acaso. Portanto, espera-se que todos os valores de P sejam próximos a 1.0, principalmente em um grande estudo de 7.500 pacientes como é o caso do PREDIMED.

A presença de alguma diferença muito significativa sugere que houve violação da randomização. O autor do estudo encontrou valor de P muito significativo em 11 artigos do NEJM. Destes, todos os trabalhos conseguiram se justificar (erro de digitação ou erro da análise de Carlisle), exceto o PREDIMED. Foi então que seus autores reconheceram que houve problema de randomização: foram incluídos na dieta do mediterrâneo 425 indivíduos simplesmente por morarem na mesma casa de pacientes randomizados e 467 outros pacientes foram alocados de acordo com centro pesquisador e não individualmente randomizados.

A gravidade desse erro quebra a confiabilidade do estudo, e aumenta o potencial impacto de vieses subliminares como os que havíamos levantado há 5 anos. Se já não dava para confiar, agora então fica muito mais questionável. Mesmo assim, os autores foram presenteados com a oportunidade de republicar o estudo após exclusão destes pacientes, mantendo o mesmo resultado positivo, na mesma inverossímil magnitude.


Por que o PREDIMED é Inverossímil

Enquanto estudos observacionais mostram animadores resultados de hábitos de vida na promoção da saúde, quando devidamente testados em estudos intervencionistas randomizados, o impacto de hábitos supostamente saudáveis torna-se inexistente ou de magnitude frustrante. É o caso das evidências contrárias ao efeito do exercício na perda de peso ou na redução de risco cardiovascular (controversas postagens desse Blog), assim como ausência de efeito cardiovascular de uma dieta mais rigorosa em pacientes com diabetes (Look AHEAD Trial). 

A princípio, estas afirmações parecem improváveis. Mas se pensarmos mais a fundo, perceberemos que estes resultados negativos fazem sentido. Se intervenções mais “agressivas” como drogas ou procedimentos possuem em geral modesto tamanho de efeito (condutas comprovadamente benéficas são raramente benéficas do ponto de vista individual), imaginem uma modificação nutricional. 

A ilusão que faz acreditarmos no grande benefício da dieta sofisticada (mais saudável, mais natural, mais mediterrânea ou qualquer coisa da moda) vem do fato de que dietas muito ruins são muito prejudiciais. Mas erramos quando confundimos fator de risco alimentar (dieta calórica o suficiente para promover obesidade mórbida, dieta riquíssima em gordura saturada) com fator de proteção alimentar (ilusório). 

Ioannidis publicou no International Journal of Epidemiology uma revisão sobre estudos com mínimos tamanhos de efeito. Nesta revisão, o tipo de estudo mais prevalente dentre esses mini-tamanhos de efeito foram os de nutrição. Mesmo quando se demonstra um benefício em ensaio clínico randomizado, este efeito é mínimo. Isto reforça a lógica de considerar inverossímil os 30% de redução relativa do risco do PREDIMED. 

Inverossímil significa baixa probabilidade pré-teste da hipótese ser verdadeira. Considerando que o teste (PREDIMED) tem alto risco de viés, seu valor em aumentar esta baixa probabilidade pré-teste é pequeno. Esta sequência condicional de probabilidade (bayesiana) resulta em baixo valor preditivo positivo do PREDIMED.

Fica a questão do porquê, mesmo depois da descoberta da farsa que promoveu um resultado de baixíssimo valor preditivo positivo, o NEJM concorda em republicar um trabalho, agora com valor preditivo positivo ainda mais baixo. Este é o “Rosebud” do PREDIMED, um mistério que pode guardar consigo um significado maior.


A Crença em Dietas Peculiares

É forte a crença no efeito mágico da alimentação, representada por dietas com restrições ou ofertas peculiares. Muitas destas dietas trazem consigo o rótulo de naturais. Mas na verdade é antinatural fantasiar o alimento de remédio, não comer o que nos dá vontade e apenas ingerir o que nos faria bem de acordo com conceitos teóricos. 

Não foi pensando em alimentação natureba que o homo sapiens sobreviveu enquanto espécie. Ao longo de 180.000 anos de coletador-caçador, o homem comia o que tinha vontade dentre o que estava disponível. Portanto, biologicamente somos feitos para comer o que queremos.

Infelizmente não podemos mais fazer isso, pois há grande disponibilidade de alimentos sedutores com alta concentração de calorias. Por isso, precisamos ser artificialmente restritivos, o que é difícil por não ser um dom biológico. 

Sendo difícil criar regras alimentares, precisamos focar no que sabemos ser de fato necessário: não exagerar na quantidade de alimentos, principalmente os calóricos, uma conduta de plausibilidade extrema (o paradigma da quantidade). No entanto, parece que há um desvio quando o foco passa a ser no paradigma da qualidade da dieta, que carece de respaldo científico. 

Procurar racionalizar as calorias é uma coisa, inventar modas artificiais de dietas com grandes especificidades sob a premissa de que isso trará grande benefício para a saúde é outra coisa. 

Mas vamos às razões que nos fazem acreditar em dietas. 

Conforto cognitivo é o primeiro viés responsável pela crença na alimentação. Entendo que para leitores entusiastas de dieta, meu texto lhes tira da zona de conforto. Quando somos apresentados a ideias diferentes, somos obrigados a refletir, reavaliar, reconhecer falhas de pensamento. Como isso é trabalhoso, mais fácil é reagir contra a reflexão.

Em segundo lugar, há nossa necessidade de segurança perceptível, que em boa parte obtemos por condutas fantasiosas, já que risco zero (viés do risco zero) é uma utopia.

Em terceiro lugar, há a ilusão de validade, viés descrito por Kahneman como “confiança por coerência”. A coerência da história é suficiente para acreditarmos, sem muitas vezes percebermos o baixo nível de evidência que respalda a ideia. Como há hábitos ruins que fazem muito mal (engordar 50 Kg, fumar, beber em demasia), parece coerente que hábitos bons fariam muito bem. Fácil de se confundir. 

Finalmente, para validar nossa crença, o mundo está repleto de exemplos de pessoas que se alimentam muito bem e são de fato saudáveis. Aliás, quando fazemos comparações epidemiológicas (observacionais), pessoas cuja alimentação é rica em vitaminas, vegetais e mais outras coisas boas de fato têm menor incidência de doenças cardiovasculares e câncer. O problema é que as mesmas pessoas que comem as supostas coisas boas são as que não comem as coisas ruins ou que comem em menor quantidade, não fumam, etc. É o viés de confusão.

Portanto, o mundo não randomizado é uma máquina de viés de confirmação no que diz respeito a hábitos de vida. A única forma de esclarecer a questão é randomizar os pacientes. E a melhor forma de manter a crença intocada é fazer um estudo grande, chamá-lo de randomizado, mas na verdade violar grosseiramente a randomização. 

E, por trás de todos esses vieses cognitivos, há o viés da lealdade (allegiance bias), quando o resultado de um estudo é construído de forma a se adequar às preferências dos pesquisadores. É a lealdade às suas crenças. Meus amigos sabem que me sou um tanto metódico com alimentação, cultivo meu próprio estilo pessoal. Mas não posso generalizar meu gosto, passando ao usar o que pratico como uma recomendação médica baseada em evidências. Seria uma lealdade excessiva às minhas próprias escolhas pessoais.

No campo individual, crença tem seu papel. No campo coletivo, conceitos devem ser norteados por evidências empíricas de qualidade metodológica adequada. É neste ponto que dietas peculiares perdem sua magia e se tornam apenas modismos sem base em evidências. 
----------------------------------------------------------------------------------------------------------------------

Conceitos Discutidos 

- Viés de desempenho
- Estudo truncado reduz precisão e veracidade do estudo
- O valor do valor de P na tabela 1: identificar pseudo-randomização
- Malefício da alimentação ruim não é o mesmo que benefício de alimentação peculiar
- Valor preditivo positivo de um estudo (análise bayesiana)
- Vieses cognitivos: conforto cognitivo, segurança perceptível, viés de confirmação, viés de lealdade.

Conheça nosso curso online de medicina baseada em evidências, clicando aqui.

quarta-feira, 17 de junho de 2015

Exercício e Perda de Peso: Um Mito Prejudicial



Há mitos e mitos. Há mitos interessantes e há mitos prejudiciais. 

O aspecto cultural da mitologia grega é um exemplo da utilidade representativa dos mitos.

O mito de que o arco-íris tem 7 cores é atraente, melhor do que falar a realidade de que o arco-íris não tem cores individuais, tem um espectro contínuo de cores. É apenas um artefato da percepção humana que faz com que ele apareça como uma série de cores separadas. Esse mito, proveniente de uma ilusão visual, não é prejudicial. 

Por outro lado, quando os mitos nos desfocam de verdades práticas, estes podem se tornar indesejáveis. A ideia de que a prática regular de exercício físico causa redução de peso significativa é exemplo de um mito prejudicial, causado por uma ilusão cognitiva.

Para resolver a ilusão visual do arco-íris, precisamos de aparelhos especiais de visualização. Para resolver nossas ilusões cognitivas de interpretação do mundo real, precisamos da aparelhagem do método científico. 

Ao acreditar fortemente que exercício possui um efeito direto na perda de peso, cada pessoa que  percebemos perder peso durante atividade física servirá de confirmação para nossa crença. E as pessoas que não perdem peso são eliminadas de nossa memória. É o viés cognitivo de confirmação selecionando os casos positivos. 

Já o método científico é estatístico, pois leva em conta as pessoas que perdem e as que não perdem peso. E compara a frequência de sucesso na perda de peso entre pessoas que fazem e que não fazem exercício. Em segundo lugar, o método científico se preocupa com vieses. Será que as pessoas que perdem peso fazendo exercício obtém este efeito porque melhoram a dieta em paralelo? Dieta aqui funciona como uma potencial variável de confusão. E como resolver essa confusão? Através de ensaios clínicos randomizados, pois como sabemos a randomização tornam homogêneos os grupos intervenção e controle, eliminando inclusive diferenças de hábitos alimentares, pelo menos no momento baseline. 

Em 2010, o US Prevention Task Force publica a revisão sistemática de ensaios clínicos randomizados comparando orientação para atividade física versus controle, não evidenciando redução estatisticamente significante de adiposidade. Poderíamos imaginar que os indivíduos do grupo exercício enrolaram e não praticaram devidamente. Mas estes estudos descreveram um aumento significativo da prática de atividade e melhora da capacidade funcional no grupo intervenção. Portanto, este não foi um viés. Vejam figura abaixo. 


Um ano após, em 2011, é publicado no New England Journal of Medicine o ensaio clínico  randomizado "Weight Loss, Exercise, or Both and Physical Function in Obese Older Adults”, reforçando a ausência de efeito do exercício no peso. Observem o gráfico abaixo, que representa o peso de 4 grupos ao longo de 1 ano: dieta isolada, exercício isolado, ambos ou nada (controle). A linha do grupo exercício isolado está colada na linha do grupo controle. E a linha do grupo exercício e dieta, está colada na linha do grupo dieta isolada. Primeiro, sozinho o exercício não promoveu perda de peso; segundo, o exercício não potencializou a perda de peso da dieta. O resultado é evidente.

Mas o peso não depende apenas de gordura. Seria interessante avaliarmos o impacto do exercício na massa gorda. E isso foi feito pelo estudo, demonstrando que quando o exercício foi associado à dieta a redução de massa gorda foi menor (- 6.3 ± 2.8 Kg) do que a dieta isolada (- 7.1 ± 3.9 Kg).


De fato, exercício nos faz gastar algumas poucas calorias. Mas o que nós perdemos no exercício é facilmente reposto por uma garrafa de Gatorade + 1 banana. E normalmente nós superestimamos o quanto podemos comer a mais por conta do gasto calórico do exercício. Por isso que às vezes até ganhamos peso com o exercício. 

E quanto ao metabolismo? Se este aumenta, não aumenta o suficiente para ter efeito no peso, seria apenas a tentativa de convencer que algo funciona através de um argumento mecanicista. Pífio.

Portanto, este é um mito médico. Agora vem a segunda questão, é um mito prejudicial ou tanto faz?

Ao colocar parte da responsabilidade da perda de peso no exercício, retiramos erroneamente parte da responsabilidade da dieta. Vejo com frequência afirmações do tipo “estou fazendo dieta e não perco peso. Preciso começar a fazer exercício." Observem a perda de foco. O que a pessoa precisaria pensar é que deve aprimorar a dieta. Acreditar que o segredo para a resolução do problema está na associação com exercício é anti-científico e não promove a mudança necessária na dieta. 

Há pessoas inclusive que acham poder fazer uma dieta menos restrita pois estão fazendo exercício, o que tende a reduzir a efetividade da dieta.

Administradores sabem que foco é o maior segredo gerencial e controle do peso é um dos grandes exemplos de dependência do bom gerencialmente pessoal. Esse mito nos desfoca.

Por outro lado, devemos reconhecer que do ponto de vista pragmático, exercício pode contribuir para a perda de peso em alguns, pois como parte de uma medida geral de mudança de hábitos, pode motivar a pessoa a reduzir a infesta calórica. Imaginem uma pessoa que passa a ter o hobby de corrida. É comum que ao lado disso a pessoa se motive a iniciar uma dieta, pois a perda de peso poderá melhorar seu desempenho na corrida. O exercício entra como um motivador da dieta. Isso é positivo. Porém é diferente de confundir isso com efeito direto do exercício. Há uma evidente utilidade clínica em reconhecer a diferença destas duas coisas. 

Já não é a primeira, nem segunda vez que discuto evidências que desmistificam certos benefício do exercício neste Blog. Uma postagem bastante discutida foi a do estudo LOOK-AHEAD, estudo que ficou com a hipótese nula da ausência de beneficio cardiovascular. Isto pode fazer parecer que tenho preconceito contra exercício. O que me salva é meu hábito diário de fazer 1 hora e meia de exercício, pois reconheço outros benefícios da atividade física que vão além da redução de peso ou de risco cardiovascular. Essas reflexões não vêem de um preconceito contra exercício, mas sim de uma predileção em utilizar a lente científica para filtrar as ilusões do mundo real. 

Considerando um potencial efeito motivador para uma dieta mais adequada e outros benefícios advindos do exercício (funcionalidade, bem estar, qualidade de vida), pessoalmente sou um incentivador da atividade física quando converso com meus pacientes. Porém há uma diferença entre incentivar e indicar a atividade física como parte de uma conduta preventiva ou terapêutica. Há diferença entre incentivar e impor um falsa verdade para nosso cliente. Esta distinção deve fazer parte de nosso processo de decisão compartilhada. 

Devemos também reconhecer que há conflitos de interesse por trás de tudo isso. Indústria produtora de produtos esportivos, equipamentos, novas formas de exercício, academias têm grande interesse em exagerar estes benefícios, sugerindo o sedentarismo como um fator de risco cardiovascular.  Sedentarismo é associado a risco em uma visão univariada, pois o sedentário tem outras características que causam aumento de risco. A validação final de que sedentarismo seria um fator de risco, estaria no critérios de reversibilidade, o mais importante dos Critérios de Causalidade de Hill. E este critério não confirma a ideia. Pois uma variável é fator de risco quando o controle dela reduz o risco do paciente. E estes trabalhos demonstraram que o controle do sedentarismo não reduz o risco. Este é um interessante paradigma a ser discutido.

Observem que o magro que faz exercício quase invariavelmente é disciplinado na dieta. Exercício e dieta vêm junto no pacote de disciplina no indivíduo. 

Desta forma, devemos abandonar a fantasia e considerar que o efeito do exercício na perda de peso é um mito que cria uma expectativa prejudicial. 

O Mito do Exercício na Perda de Peso pode ser comparado ao Mito do Amor Românticoprevalente nos dias de hoje. Este mito cria uma expectativa que prejudica o relacionamento de casais, pois pressupõe que as partes devam se complementar plenamente, correspondendo com perfeição aos anseios mútuos, como Romeu e Julieta. Esta expectativa leva a frustração e insatisfação de uma pessoa para com a outra. 

Evitando o Mito do Amor Romântico seremos mais tolerantes e aprenderemos a admirar eventuais diferenças de nossos companheiros. Evitando o Mito do Exercício na Perda de Peso, teremos mais foco na medida que de fato impacta no peso, a dieta. 

Assim como no amor, o pensamento de vanguarda deve abandonar a visão romântica quanto aos benefícios do exercício, evitando uma distorção da realidade que acaba por inibir o aprimoramento de medidas realmente efetivas. Isto não impede de incentivarmos a prática do exercício, sob o paradigma da qualidade de vida. Devemos ser ao mesmo tempo entusiastas da verdade científica e entusiastas da qualidade de vida promovida pelo movimento saudável de nosso corpo.