Medicina Baseada em Evidências

quinta-feira, 12 de setembro de 2013

Check-list para Análise Crítica de Artigo sobre Conduta Terapêutica

Em duas de nossas principais postagens, há aproximadamente dois anos, descrevemos textualmente como analisar a veracidade e relevância de evidências sobre condutas terapêuticas. Nesta postagem, organizamos os detalhes metodológicos sob a forma de check-list, sistematizando a análise crítica deste tipo de evidência. Estes check-list servirá de guia para nossas análises e postagens futuras.

Análise de Veracidade

I. Erros Sistemáticos (vieses)

Quanto à Intervenção

1. Efeito de confusão: há diferenças entre os grupos que possam simular ou anular o benefício da intervenção? Ensaio clínico randomizado?

2. Aplicação da intervenção: o tratamento foi corretamente aplicado aos indivíduos do grupo intervenção?

3. Aplicação do controle: o grupo controle recebeu tratamento que possa atenuar o contraste com o grupo intervenção?

4. Intenção de tratar: os pacientes forma analisados de acordo com sua randomização inicial?
5. Viés de desempenho: caso o estudo seja aberto, pode ter havido melhor qualidade de assistência aos pacientes do grupo intervenção que gere um falso benefício do tratamento? Ou melhor de qualidade compensatória aos pacientes do grupo controle que atenue o efeito da intervenção?

Quanto ao Desfecho (viés de aferição do desfecho)

6. Subjetividade: o desfecho é subjetivo o suficiente para provocar erros de aferição?

7. Efeito placebo: em um estudo aberto, o desfecho em questão é vulnerável ao efeito placebo?
8. Desfecho criado pelo médico: em um estudo aberto, o desfecho se constitui em uma conduta médica, que possa ser influenciada pela caráter aberto do estudo (por exemplo, indicação de cirurgia por suposta falência do tratamento clínico).

9. Seguimento: houve perda significativa de seguimento dos pacientes (> 10%).

II. Erros Aleatórios (acaso)

Em estudo positivo (P < 0.05), condições de baixa confiabilidade do valor de P:

1. Conclusão baseada em desfecho secundário? (problema das múltiplas comparações)

2. Conclusão positiva baseada em análise de subgrupo de estudo negativo?

3. Estudo truncado?

4. Estudo com baixo poder estatístico?

Em estudo negativo (P > 0.05), avaliar:

5. O estudo tem poder estatístico satisfatório para testar benefício clinicamente relevante?

Análise de Relevância

I. Análise Qualitativa

1. O desfecho é substituto ou clínico? O primeiro apenas gera hipótese; o segundo modifica conduta.

2. Em sendo desfecho clínico, qual a importância do desfecho na vida do indivíduos (hard vs. soft).

3. Caso o desfecho clínico seja composto, o resultado resulta do efeito em cada componente do desfecho ou apenas nos menos importantes?

II. Análise Quantitativa

1. Cuidado com redução relativa de risco, pode causar ilusão de grande benefício.

2. Prefira redução absoluta do risco (risco grupo 1 – risco grupo 2).

3. Calcule o NNT para avaliar a magnitude do benefício da terapia.

- NNT = 100/redução absoluta de risco

- NNT < 50 é considerado satisfatório.

quarta-feira, 4 de setembro de 2013

Limites da Relação Médicos / Indústria Farmacêutica

Artigo escrito por Guilherme Brauner Barcelos, autor dos blogs Evidence Biased Medicine e Medicina Hospitalar.

Recentemente estive em evento onde a farmacêutica Sanofi foi patrocinadora e esteve fisicamente presente através de estande / propagandistas. Ao perceber que buscavam gestores e médicos para divulgar uma iniciativa, resolvi me aproximar e conversei com um dos promotores.

Trata-se do Programa "TEV Safety Zone", uma iniciativa global de educação continuada e outras ações para prevenir o tromboembolismo venoso no ambiente hospitalar. O objetivo é auxiliar os hospitais, por meio de palestras para profissionais da saúde, auxílio para implantação de comissões hospitalares de prevenção de TEV e protocolos, e apoio para o treinamento da enfermagem. O programa contribui também para que os hospitais que estejam em processo de acreditação recebam sua certificação, segundo fonte oficial.

Quando questionei se o projeto tinha algum site de apresentação em língua portuguesa, o funcionário da indústria orientou-me a procurar informações via portal do HC/FMUSP, valorizando ainda a existência de um banco de dados eletrônico conjunto, com informações sobre o tema envolvendo diversas instituições hospitalares. Acabei encontrando o material abaixo dentro do portal da Disciplina de Clínica Médica e Propedêutica da USP, sem nenhuma referência visual ou textual à parceria com o laboratório:

"Banco de dados desenvolvido para que hospitais e clínicas cadastrados tenham acesso a uma ferramenta para registro de profilaxia de tromboembolismo venoso (TEV) em pacientes clínicos e cirúrgicos internados. Uma senha e usuário serão criados para o diretor do hospital ou clínica e para mais duas pessoas por ele designadas – tipicamente o profissional médico envolvido no programa e o responsável por alimentar o banco de dados. Os dados são registrados de maneira padronizada e é obrigatória a obtenção de consentimento pós-informação, ou de autorização do CEP local que libere a necessidade do consentimento, para que os dados aqui compilados possam ser utilizados em publicações científicas ou apresentações em congressos" - saiba mais aqui.

Sequer tenho convicção de que bati corretamente as informações ou de que não existem outros espaços virtuais do próprio HC/FMUSP onde apresentem a parceria abertamente, mas, de qualquer forma, alguns pontos merecem ser discutidos em uma perspectiva sistêmica:

1. Devem grupos que lidam diretamente com ensino médico em graduação e estudantes de Medicina participar deste tipo de aliança?

2. É relevante alguma referência ao vínculo com indústria farmacêutica por parte de autarquias estaduais ou outras organizações tuteladas pelo Estado brasileiro em projetos desta natureza? Por quê?

3. É indiscutível a complexidade dos processos necessários para adequada e bem sucedida implantação de protocolos nas organizações de saúde. Mas realmente é preciso parceria com a indústria na elaboração de recomendações e treinamentos locais? Quais são os reais desafios para homogeneização de práticas e condutas a partir de protocolos institucionais e para a capacitação de corpo funcional dos hospitais? Se entendo mais fácil o papel da indústria no grandes congressos médicos, alguns quase espetáculos circenses, nessas situações faz a diferença? E se faz, como? Vantagens e desvantagens?

No hospital em que trabalho em Porto Alegre dispomos de inúmeras comissões ativas e produtivas no campo da qualidade e segurança, não sendo necessário em nenhuma delas este tipo de suporte. Uma parceria com a indústria para implantação de comissões hospitalares de prevenção de TEV, onde vislumbram "um grupo multidisciplinar envolvido, constituído de profissionais dos principais serviços, como clínica médica, terapia intensiva, cardiologia, pneumologia, cirurgia geral, enfermagem e farmácia", não se presta muito mais a estimular o contato de lideranças e formadores de opinião com a empresa?

Considerando que a empresa produz especificamente o CLEXANE®, o processo de decisão da instituição entre marcas e tipos de anticoagulantes semelhantes poderia ser influenciado de alguma forma?

Já o "trabalho de apoio para o treinamento da enfermagem" fez-me lembrar de iniciativa semelhante que vivenciei em instituição onde no passado trabalhei. Uma indústria de tecnologias promoveu capacitação de enfermeiros e técnicos e, amparados pela premissa [verdadeira] de que "em sepse, tempo é vida", estimulava os profissionais a trazerem dispositivos já prontos para o uso (com a embalagem aberta).

E por fim, chamo atenção de que anunciam construir todas as recomendações técnicas a partir da Diretriz Brasileira de Profilaxia de TEV em Pacientes Clínicos Internados (AMB/CFM). Neste documento, onde declaram os conflitos de interesse envolvidos, informam que o grupo elaborador contou com o apoio logístico da Sanofi-Aventis do Brasil, havendo consultores da empresa entre os autores, bem como membros do Advisory Board da Sanofi-Aventis do Brasil.

Em momento tão complicado para os médicos brasileiros, em que estamos sendo jogados contra a população pelo Governo, na tentativa de melhorar nossa imagem, não seria oportuno abandonarmos a soberba de acreditar que políticos se perdem quando envolvidos em relacionamentos complicados, mas médicos jamais? Mesmo reconhecendo que a maioria dos médicos e sociedades médicas age corretamente perante conflitos de interesse, mas na falta de barreiras efetivas e transparentes para o contrário, não seria um bom momento para mostrar que também queremos parecer publicamente que agimos bem? E então evoluir em políticas de relacionamento com elementos além da simples declarações de conflitos de interesse?

Que esta e outras questões sirvam para debate construtivo...

sábado, 24 de agosto de 2013

O Estranho Mundo do Overdiagnosis

Neste mês, o ex-presidente americano George W. Bush fez um teste de esforço, recebeu o diagnóstico de doença coronariana, e foi submetido a implante de stent em uma das artérias de seu coração. Na alta hospitalar, saiu acreditando que se beneficiou, porém mal sabe ele que sofreu do que a literatura médica internacional denomina overdiagnosis.

Overdiagnosis é um diagnóstico verdadeiro, porém desnecessário, com maior potencial de causar danos do que benefícios. Este fenômeno decorre da cultura do check-up, propagada pelo lobby em prol do excesso de exames em pessoas saudáveis. Em contraposição, o pensamento médico-científico propõe que a realização de exames se justifique pela existência de um benefício clínico advindo do diagnóstico. E não pela falsa perspectiva de proteção gerada pelo exame. Em pessoas saudáveis, assintomáticas, há exames que devem e outros que não devem ser realizados.

O senso comum sugere que o “desentupimento” da artéria de Bush foi benéfico. No entanto, isto vai de encontro à totalidade das evidências científicas de qualidade (COURAGE, BARI 2D, FAME-II): no paciente estável, “desentupimentos” não previnem morte cardiovascular, nem infarto. Isto ocorre porque a intervenção é feita na placa de gordura que mais impressiona visualmente, sendo que o infarto por decorrer de qualquer das inúmeras placas invisíveis que residem em todo leito coronário. O que previne infarto é o controle dos fatores de risco. Principalmente controle do colesterol elevado, da hipertensão arterial e tabagismo. Este deve ser o verdadeiro enfoque preventivo.

O benefício do procedimento que Bush recebeu é útil para controlas dos sintomas de angina. Porém Bush não pode desfrutar deste benefício, pois não sente nada, tendo recentemente pedalado 30 milhas em um evento que homenageou veteranos da guerra do Iraque. Desfrutou, isto sim, do estresse psicológico do internamento, do desconforto de uma intervenção invasiva, da necessidade de uso prolongado de drogas antiplaquetárias, além do alto custo de seu procedimento.

Outra exemplo de overdiagnosis é o rastreamento indiscriminado de alguns cânceres em pessoas assintomáticas. Por exemplo, a realização anual do exame de PSA para pesquisa de câncer de próstata em homens assintomáticos. Embora câncer de próstata em alguns casos possa ser fatal, está provado cientificamente que fazer PSA de rotina não reduz probabilidade de morte por esta doença. Isto porque na prática, a detecção de cânceres precoces e localizados não necessariamente previne cânceres avançados, como sugere o senso comum. Em contrapartida, a cada 1000 homens que realizam PSA, 200 sofrem biópsias desnecessárias, 29 terminam impotentes e 18 com incontinência urinária devido a previsíveis efeitos advindos do tratamento resultante do overdiagnosis. Por este motivo, no ano passado US Prevention Task Force (órgão americano que recomenda exames preventivos) contraindicou o uso de PSA em homens assintomáticos. Paradoxalmente, PSA continua sendo um dos mais populares exames em nossa prática médica. Isto não quer dizer que a pesquisa do câncer de próstata e seu tratamento cirúrgico não esteja indicada em certos casos, principalmente em pacientes com sintomas. O overdiagnosis se refere ao uso do exame em qualquer pessoa, independente de seus fatores de risco ou quadro clínico.

Esta discussão não propõe que passemos a negligenciar a medicina preventiva. Propõe que os exames certos sejam realizados nas pessoas certas. Ao solicitar um exame, tenhamos em mente que em última instância o objetivo é beneficiar o sujeito clinicamente. Há casos em que o rastreamento para câncer e a pesquisa da doença coronária devem ser realizados. Segundo, devemos lembrar que prevenir não é necessariamente fazer exames, há situações em que a prevenção vem de outras condutas.

Quando presidente, George W. Bush diagnosticou que o Iraque representava uma ameaça ao mundo ocidental e promoveu uma guerra de benefícios questionáveis e eventos adversos evidentes. Dez anos se passaram e agora seus médicos fizeram o mesmo: diagnóstico desnecessário e tratamento fútil. Tudo não passa do estranho mundo do overdiagnosis.

* Artigo publicado ontem no Jornal A Tarde por Luis Correia.

domingo, 4 de agosto de 2013

O sucesso do Bahia é estatisticamente significante?

Sou Bahia e vibro com a terceira posição do tricolor no Brasileirão. Poderia deixar meu cérebro direito (emoção, paixão) prevalecer, argumentar que nosso time atualmente é um dos melhores e que corremos o risco de sermos campeões mais uma vez. Esse argumento não estaria errado, pois futebol é paixão. Por outro lado, este Blog é científico e serve para exercitarmos o cérebro esquerdo, racional, matemático, realista. Portanto, farei uma abordagem de torcedor estatístico.

Neste contexto, surge a seguinte questão. O Bahia está bem mesmo? Observem que o que temos neste momento não é o campeonato brasileiro inteiro, é apenas uma amostra (uma parte) do campeonato, representado pelas primeiras 10 de um total de 38 rodadas. Isso se assemelha às evidências científicas, que em geral são observação obtidas em amostras populacionais e depois extrapoladas para a população. Quando utilizamos amostras para obter informações a cerca da população, devemos fazer uso da estatística, que serve para quantificar a incerteza a respeito de nossas conclusões amostrais.

Formulando esse problema sob a forma científica, precisamos testar a hipótese de que o Bahia de 2013 é melhor do que o Bahia de 2012. Ao comparar a posição do Bahia após a décima rodada do campeonato, percebemos que hoje estamos na 3^o posição, muito melhor do que no ano passado, que nesta altura estávamos na (pasmem) 19^o posição. Que diferença gritante!

No entanto, o que percebemos nessa amostra pode ou não ser representativa da realidade do campeonato por inteiro. Quando estamos com uma amostra, existe a possibilidade da diferença entre os campeonatos ter sido obra do acaso e não uma concreta melhora de qualidade do time. Foi apenas sorte do Bahia?

Teste de Hipótese

Vou aproveitar este exemplo futebolístico para explicar como funciona teste de hipótese em estatística. Primeiro, começamos a premissa da hipótese nula, que prima pela inexistência do fenômeno (Bahia está melhor). Daí nos perguntamos: se a hipótese nula for verdadeira (Bahia não está melhor), qual a probabilidade desta diferença entre os dois campeonatos se fazer presente?

Se na presença da hipótese nula, for alta a probabilidade da diferença observada, pode ser que tudo não passe do acaso. Daí não vamos acreditar no fenômeno, vamos ficar com a hipótese nula. Estatisticamente falando, não podemos rejeitar a hipótese nula.

O que a estatística faz é calcular a probabilidade do resultado observado aparecer na vigência da hipótese nula. Essa probabilidade é o valor de P.

Sendo assim, calculei o valor de P da diferença da proporção de vitórias do Bahia nas primeiras 10 rodadas de 2013 versus 2012. Sendo uma diferença de proporção, usei o teste de Fisher, que se adéqua melhor a pequenas amostras (N = 10 jogos). Encontramos o seguinte: o Bahia ganhou 40% dos primeiros 10 jogos em 2013, comparado a 10% de vitórias em 2012, sendo o valor de P = 0.30. Isso significa que há 30% de probabilidade dessa diferença aparecer, mesmo na vigência da hipótese nula. Se o time for tão ruim quanto 2012, há ainda 30% de probabilidade da campanha destas primeiras rodadas se fazer presente. Ou seja, essa campanha não é suficientemente diferente de 2012 para rejeitar mos a hipótese nula.

Como todos sabem, para rejeitar a hipótese nula, é necessário valor de P < 0.05. O que significa isso? Se aparecer um resultado que seja muito improvável na vigência da hipótese nula, a gente começa a duvidar da hipótese nula, que era nossa premissa inicial. Se essa probabilidade ficar abaixo do limite de 5%, a gente para de insistir na hipótese nula, rejeita esta hipótese e fica com a hipótese alternativa de que o fenômeno é verdadeiro. Neste caso, seria a hipótese alternativa de que o Bahia está de fato melhor.

Assim funciona teste de hipótese. Partindo do ceticismo científico, nossa tendência é proteger a hipótese nula. Porém só até um certo ponto. Na presença de um resultado muito improvável (uma diferença muito grande, com P < 0.05), faz mais sentido achar que a hipótese nula é falsa, achar que de fato o Bahia está melhor.

O porquê de 5% ser o limite para rejeição da hipótese nula será tema de futura postagem. Mas adianto que este valor específico é uma convenção do que se considera matematicamente muito improvável.

Podemos também fazer uma comparação dos pontos obtidos pelo Bahia a cada rodada. Em 2012, o Bahia obtinha uma média de 0.90 pontos por jogo, com desvio-padrão de 0.88. Em 2013, a média de pontos por jogo subiu para 1.6, com desvio-padrão de 1.27. A diferença de 0.90 ± 0.88 versus 1.6 ± 1.27 resulta em valor de P = 0.28. Ou seja, 28% de probabilidade dessa diferença aparecer mesmo a hipótese nula sendo verdadeira.

O Fenômeno de Regressão à Média

Sendo assim, o que vimos até então pode ser mera obra do acaso e não garante que o Bahia esteja melhor. Se isso for por acaso, a tendência será o desempenho do Bahia regredir à média. Ou seja, com o passar das rodadas o Bahia vai caindo de posição, terminando em uma posição abaixo do que a atual. Este é o fenômeno estatístico de regressão à média, já comentado em detalhes nesse Blog (vale a pena rever esta e esta postagens). Em resumo, este fenômeno indica que na presença de resultados extremos (Bahia muito bom ou muito ruim), na medida em que se aumenta o tamanho amostral, a observação vai tomando uma forma mais próxima do usual. Vai regredindo à média.

Observem o progredir do campeonato. Pode ser um grande exemplo de regressão à média.

Poder Estatístico

Quando diante de um estudo negativo (ausência de diferença estatística entre os grupos), devemos considerar duas possíveis explicações: (1) de fato não há diferença ou (2) o estudo sofreu o erro tipo II, aquele no qual uma diferença verdadeira não foi encontrada por falta de poder estatístico (estudo pequeno).

De fato, este é um estudo pequeno e para a diferença observada no percentual de vitórias, o poder estatístico é de apenas 15%. Como comentado na última postagem, um estudo deve ter pelo menos 80% de poder estatístico.

Desta forma, é possível que o Bahia esteja melhor e o estudo não foi capaz de encontrar significância pois ainda tem muito pouco jogo. Mas percebam que esta análise não nos permite concluir que quando aumentar os jogos, vai se comprovar que o Bahia está melhor. O baixo poder estatístico nos permite apenas concluir que o resultado negativo não é definitivo e que estudos maiores podem (ou não) mostrar um resultado positivo. Mas por enquanto devemos ficar com a hipótese nula, a qual não foi rejeitada neste estudo.

O que ocorre muitas vezes em medicina é a utilização inadequada do argumento de que um estudo não tem poder estatístico para rejeitar a hipótese nula. Por exemplo, alguém é a favor de um tratamento. Este tratamento foi semelhante ao placebo em um estudo pequeno, que não tinha poder estatístico ideal. Daí a pessoa diz que foi erro tipo II e com isso considera que o tratamento deva ser utilizado. Isso é errado! A interpretação certa é que este estudo não demonstrou benefício, portanto o tratamento não deve ser utilizado. Em segundo lugar, por este estudo ser pequeno, a questão ainda não está fechada. Estudos maiores podem (ou não) mostram resultados favoráveis. Devemos esperar estes estudos.

Portanto, devemos analisar o progredir do campeonato para avaliar se a diferença regride à média ou se torna estatisticamente significante com o aumento do tamanho amostral.

Viés de Comparação

Falamos até então da possibilidade de que tudo seja decorrente do acaso, de erro aleatório. Porém, estudos podem também sofrer de outro tipo de erro, o sistemático, denominado vieses. Estes vieses representam erros no métodos dos trabalho. Na questão desta postagem, podemos estar sofrendo do viés do grupo de comparação. Ou seja, o melhor resultado do Bahia em 2013 pode decorrer dos times que lhe servem de comparação (adversários em campo) estarem piores do que em 2012, e não do Bahia estar melhor. Que diga o Fluminense, campeão no ano passado que acaba de demitir o técnico devido a 5 derrotas consecutivas; ou o São Paulo, atualmente na zona de rebaixamento.

**Plausibilidade versus Realidade**

Como já vimos, plausibilidade é um dos critérios de causalidade propostos por Bradford Hill. Devo reconhecer que existe certa plausibilidade do Bahia estar melhor. Uma delas é o aspecto motivacional. Observem que esta melhora coincide com o afastamento de um presidente acusado de "irregularidades". Imagine a situação (hipotética) de uma empresa cujo suposto líder é corrupto. Isso torna o grupo de trabalho desmotivado, sendo motivação algo essencial para ganhar competições. Agora imaginem que esse líder é afastado. Isso pode ter um impacto enorme sobre a motivação dos funcionários. Uma esperança de melhora no ambiente de trabalho.

Sendo assim, me parece plausível que o Bahia esteja de fato melhor. Porém devemos lembrar que, cientificamente, plausibilidade não garante realidade. Não basta que um tratamento tenha plausibilidade de benefício, para que seja adotado. Sua eficácia deve ser demonstrada. Portanto, não é porque faz sentido que já podemos ir achando que o Bahia está ótimo. Vamos esperar...

Ainda dentro da plausibilidade, podemos ouvir muitos comentários de especialistas em futebol (os comentaristas), mostrando os porquês do Bahia estar tão bom. Caímos na mesma situação, onde plausibilidade não representa realidade. Até porque estas explicações vem depois dos resultados. Observem (que diga Milton Neves) como os comentaristas erram as previsões dos resultados dos jogos. Aliás se fossem bons preditores, estariam todos ricos com a loteria esportiva. Isso é muito bem retratado no filme Moneyball, em que o personagem de Brad Pitt, manager de um time de baseball, dispensa os velhos especialistas na contratação de jogadores e traz um jovem estatístico, capaz de indicar contratações muito mais efetivas do que as escolhidas pelos entendidos no assunto. A mente do especialista não funciona estatisticamente, funciona de acordo com suas crenças e emoções, ficando sujeitas a vieses de pensamento e fatores de confusão. Isso ocorre muito com especialistas médicos, tema de postagem futura.

Considerações Finais

A vida baseada em evidências (assim como a medicina baseada em evidências) evita de toda forma o dogmatismo. Dogma é quando a gente acredita em uma coisa porque quer acreditar e pronto. Se embasar em evidência é estar de mente aberta e olhar para os dados de maneira fria, estatística, a procura da melhor conclusão. Dizer que o Bahia tem chance de ser campeão é algo que se aproxima mais de fé ou fantasia. É o cérebro direito funcionando mais do que o esquerdo. No esporte, não tem nada de errado nisso, pois esporte é paixão, emoção, sangue, suor e lágrimas. Mas em medicina, tem que ser diferente. Não podemos ser dogmáticos e (por exemplo) propor congelar cérebros de pacientes pós-parada (hipotermia) antes de que surjam evidências melhores do que as primeiras 10 rodadas do brasileirão.

A foto abaixo retrata a última vez que meu cérebro direito me guiou no caso do Bahia. Estava eu ali, entusiasmado com meus sobrinhos, entrando na nova Arena. Para que? Para ver o Bahia perder de 7 x 3 do Vitória. Depois dessa, ficarei com a hipótese nula, até que se prove o contrário (P < 0.05).

Agora, fazendo uma previsão realista. Vai haver uma regressão à média, o Bahia vai cair da 3^o posição. Talvez não termine na 15^o como no ano passado, terminará algo como na 10o posição. Veremos ...

OBS: Percebam que não sou do tipo de torcedor do Bahia que fico pensando no Vitória. Desta forma, nem mencionei este time em minha postagem. Prefiro convidar o professor de estatística da pós-graduação de medicina da UFBA, meu amigo Paulo Rocha, a escrever sobre seu Vitória. Espero que ele utilize o cérebro esquerdo em sua análise.

* Agradeço ao acadêmico de medicina Marcos Correia, pela assessoria esportiva neste postagem.

domingo, 21 de julho de 2013

LOOK AHEAD

Recentemente, foi publicado no New England Journal of Medicine o estudo LOOK-AHEAD, o qual demonstrou ausência de benefício clínico de intervenção intensa com exercício físico e dieta para perda de peso em pacientes diabéticos. Será que é verdade?

Citamos este estudo na polêmica postagem O Politicamente Correto e as Recomendações de Hábitos de Vida. Naquele momento, o resultado do LOOK-AHEAD estava anunciado, porém o artigo não havia sido publicado na íntegra. Agora podemos fazer a avaliação deste trabalho, sendo uma boa oportunidade para discutir como analisar veracidade de estudos negativos.

O resultado do LOOK-AHEAD vai de encontro a uma forte crença: intervenção com exercício e dieta para perda de peso trazem benefício clínico. Esta crença é tão forte que a comunidade médica nem mesmo achava que este trabalho seria necessário, tal a “certeza” do benefício destas intervenções. Agora com o artigo publicado, devemos dissecar a evidência. Neste caso, faremos uma análise ainda mais detalhada do que o habitual, devido à surpresa do resultado negativo. Quem achar cansativo, simplesmente acredite na veracidade do trabalho, pule as próximas três partes e leia a parte final, que fala do conforto cognitivo. Mas quem quiser aproveitar para revisar como se avalia um estudo negativo, leia tudo.

Um estudo pode ser negativo por dois motivos: de fato pode não haver benefício da conduta testada; ou pode ser negativo devido a erros: sistemáticos (vieses) ou aleatórios (acaso). Temos que diferenciar as duas circunstâncias. O resultado de qualquer estudo deve ser visto com ceticismo até que se aplique a análise sistemática da veracidade da evidência. Ceticismo é bom, pois nos deixa mais atentos.

Erros Sistemáticos (vieses)

Que falhas metodológicas poderiam fazer deste um estudo falso negativo? Observem na equação de um ensaio clínico que de um lado há a intervenção, do outro lado há o desfecho.

INTERVENÇÃO => DESFECHO

Erros podem acontecer na aplicação da intervenção ou aferição do desfecho.

A intervenção foi descrita pelo protocolo do estudo como “intensa”, caracterizada por reuniões de aconselhamento toda semana, durante os 6 primeiros meses. A dieta recomendada tinha 1.200 a 1.800 calorias/dia e o exercício 175 minutos de atividade moderada-intensa por semana. Parece um bom planejamento, mas o que temos que questionar é se a intervenção promoveu as alterações antropométricas e fisiológicas que teoricamente resultariam em benefício clínico. Esta análise mostra que de fato os pacientes perderam 8.6% de peso no primeiro ano, tal como havia sido planejado pelo estudo. Mais do que isso, sustentaram boa parte dessa perda de peso aos longos dos 13 anos de estudo, terminando com 6% de peso a menos do que no início do estudo. Isso parece pouco, 6-8% de redução em população de 100 Kg em média. De fato, não é uma perda de peso que deixa ninguém esbelto, mas é o que se consegue com dieta; e é dieta que está sendo aqui testada. Inclusive, essa perda de peso supera o que se verifica em estudos de droga para obesidade. Por exemplo, a “aclamada” Sibutramina reduziu 4.5% do peso no estudo SCOUT. Desta forma, o estudo conseguiu testar uma intervenção que de fato reduziu peso; ou melhor reduziu o peso que dieta consegue reduzir. Portanto, não houve viés de aplicação da intervenção.

E quanto ao exercício? Este também foi eficaz em promover mudanças fisiológicas, tendo gerado ganho de capacidade funcional, medido em METS.

Ainda dentro da análise da intervenção, é importante verificar se o grupo controle de fato fez o papel de controle. Um bom controle tem que ser diferente da intervenção, gerando um contraste que provoque diferença de desfecho entre os grupos. Por questões éticas, o grupo controle também recebeu aconselhamento, em menor intensidade. Isso promoveu perda de peso progressiva ao longo dos anos, reduzindo um pouco o contraste entre os grupos. Mas isso não foi suficiente para fazer o contraste desaparecer: em média, ao longo dos anos de estudo, a diferença de peso entre os grupos foi 4 Kg, o que se considera significativo em estudos que avaliam perda de peso com dieta. Na verdade, em estudos de hábitos de vida, é esperado que o grupo controle tenha algum tipo de melhora simplesmente pela motivação de estarem no estudo. O que temos que avaliar é se essa melhora foi grande o suficiente para invalidar o estudo. Aqui não parece ter sido o caso.

Desta forma, quando à intervenção não identificamos vieses preocupantes.

E quanto ao desfecho? Este foi um desfecho composto apenas de eventos duros, objetivos e de importância clínica: morte, infarto e AVC. Isto torna improvável a possibilidade de viés de aferição dos desfechos. Mesmo em estudos abertos como o LOOK-AHEAD (não poderia deixar de ser, por questões óbvias), estes tipos de desfechos raramente sofrem erros de aferição, pois são muito objetivos. Além disso, os autores tiveram o cuidado de tornar cega a adjudicação (auditoria) destes desfechos, evitando que estes pesquisadores soubessem da alocação dos pacientes. Mesmo assim, um eventual viés de aferição, se ocorresse, possivelmente seria a favor do grupo intervenção, visto que a noção de que um paciente experimentou perda de peso e praticou atividade física nos deixa mais propícios a acreditar em melhora prognóstica para estes indivíduos.

Uma virtude deste estudo é o tempo de follow-up, cuja mediana foi de 10 anos. Usualmente os estudos de prevenção primária têm em torno de 5 anos de segmento (vide estatinas, anti-hipertensivos). Por se tratar de intervenções relacionadas a hábitos de vida, poderia ser que os resultados demorassem mais a aparecer. Portanto, os autores tiveram o cuidado de realizar um longo follow-up, quase sem precedentes em estudos de intervenção. Isso dá mais consistência ao resultado negativo, que não pode ser atribuído a tempo insuficiente para se detectar benefício clínico.

Portanto, aqui temos um estudo confiável quanto à intervenção e quanto à aferição dos desfechos.

Mas ainda analisando erros sistemáticos, resta outra possibilidade: o viés de confusão, que ocorre quando os dois grupos são diferentes e essas diferenças podem provocar heterogeneidade de desfechos. Isso pode explicar o resultado consistente dos estudos observacionais, que demonstram associação entre exercício físico e menor risco cardiovascular. Quem faz exercício é diferente de quem não faz (menos doentes, mais cuidadosos com a saúde) e essas diferenças podem ser as verdadeiras causas do melhor prognóstico destes pacientes. Como solucionar? Fazendo ensaios clínicos randomizados, pois a “mágica da randomização” garante que os grupos sejam semelhantes.

Paradoxalmente, as pessoas não atentam muito para a grande necessidade de ensaios clínicos randomizados e insistem em citar estudos observacionais como evidências definitivas do benefício de hábitos de vida, como é o caso do exercício. São exatamente os hábitos de vida que mais precisam de estudos randomizados, pois estes hábitos trazem consigo várias características demográficas, clínicas, antropométricas, sociais, econômicas de seus praticantes. Portanto, às viúvas do exercício ou perda de peso, por favor, não critiquem o LOOK-AHEAD citando estudos observacionais positivos. O potencial viés do desenho observacional é maior do que qualquer outro.

O LOOK-AHEAD é um estudo randomizado e como podemos perceber na tabela de características clínicas, as duas amostras (intervenção e controle) são idênticas.

Porém ainda há um detalhe que normalmente não se percebe e não é considerado na análise de fatores de confusão. Às vezes, os pacientes são semelhantes no momento basal, mas ao longo do estudo se tornam diferentes. É o que resolvi denominar de fator de confusão prospectivo. Será que o grupo controle foi melhor tratado com drogas por uma reação compensatória dos médicos para com os pacientes que não foram randomizados para a intervenção? Seria um viés de desempenho, típico de um estudo aberto. De fato, houve maior freqüência do uso de estatinas e anti-hipertensivos. Isso foi o que mais me preocupou como potencial viés. Isto poderia ter feito o grupo controle menos predisposto a desfechos, anulando uma eventual superioridade do grupo intervenção. Fui atrás dos detalhes e o material suplementar do artigo traz as informações. Na verdade, a diferença de uso de estatina foi mínina (74% versus 71%), o mesmo com anti-hipertensivos (88% versus 87%).

Erros Aleatórios

Quando um estudo é negativo (não encontra associação), devemos nos questionar se isto ocorreu devido ao que se chama de erro tipo II: não encontrar uma associação que na verdade existe, devido a falta de poder estatístico. Assim, devemos começar por ler o cálculo do tamanho amostral (usualmente no final dos métodos, no item de análise estatística), observando quatro questões:

Primeiro: qual poder estatístico o autor propõe para seu estudo? Este poder deve ser de pelo menos 80%, pois a maior probabilidade de erro tipo II aceitável é 20%. Observem que a probabilidade do erro tipo II é o complemento do poder estatístico (100% - 80% = 20%). Neste quesito, nunca um autor vai propor ter um poder estatístico menor que 80% (seria um tiro no pé). Assim, geralmente o planejado é um poder de 80%, 85% ou 90%. O que pode acontecer é o autor omitir o cálculo do tamanho amostral, justamente por não ter um poder de pelo menos 80%. Isso levantaria suspeita, mas não foi o caso aqui. No LOOK-AHEAD, o poder proposto foi 80%.

Segundo: qual a diferença de desfecho entre os grupos que o autor se propõe detectar? Esse item é muito importante. Na verdade, não existe um único tamanho amostral necessário para cada estudo, pois este depende da diferença que o autor faz questão de encontrar. Quanto menor essa diferença, maior o tamanho amostral necessário, pois para detectar coisas pequenas, precisamos de uma lente grande. Aqui a lente do estudo é seu tamanho amostral. Se o autor faz questão de encontrar uma diferença pequena, seu tamanho amostral necessário grande. Se a diferença que ele faz questão de encontrar é grande, seu tamanho amostral pode ser menor. Quando digo “encontrar diferença” significo obter um valor de P < 0.05.

O que devemos analisar é se faz sentido o grau de diferença que o autor faz questão de encontrar. Ou colocado de outra forma, qual a diferença que ele tolera não encontrar. Devemos avaliar se nesta proposta o autor está aceitando não encontrar algo que seja clinicamente relevante. Idealmente, o estudo deve ter tamanho amostral para detectar as diferenças que sejam relevantes em magnitude, não necessitando demonstrar diferenças sem importância.

Neste estudo, o autor parte das premissas de que a incidência do desfecho no grupo controle seria de 2% ao ano e de que o tratamento traria um redução relativa de 18% no desfecho. Uma redução relativa de 18% em cima de uma incidência de 2% resulta em 0.4% de redução absoluta ao ano. Parece algo razoável, ou seja, ele não está tolerando que grandes reduções não sejam detectadas, pois tem capacidade de detectar 0.4% de redução absoluta.

Terceiro: devemos agora olhar nos resultados se realmente a incidência de 2% ao ano ocorreu no estudo, do contrário o estudo não teria um numero de desfechos necessários para oferecer tal poder estatístico. Vejam nos resultados que a incidência do desfecho foi 1.9% ao ano, ficando bem próximo ao que o autor se propôs.

Observem então que a análise do poder não se resume à leitura do planejamento do estudo, mas também à leitura de se o resultado do estudo correspondeu à premissa de incidência do desfecho. Se o autor imaginou que a incidência do desfecho seria X e sua incidência foi menor, o estudo terá um poder menor do que ele planejou.

No LOOK-AHEAD a incidência ficou bem próximo no planejado. Sendo assim, podemos afirmar que o autor tinha um poder de 80% para detectar uma redução relativa de 18%, o que julgamos ser adequado. Ou seja, o erro tipo II deixa de ser uma preocupação maior.

Quarto: por fim, devemos olhar as diferença de desfecho entre os dois grupos. Observem abaixo a curva de incidência cumulativa. É muito próxima, não há diferença alguma. A suspeita de erro tipo II faz mais sentido quando há alguma diferença que não alcançou significância estatística, o que não é o caso aqui.

Aplicabilidade e Diabetes

O resultado deste trabalho se aplica apenas a diabéticos? Já comentamos várias vezes neste Blog sobre o Princípio da Complacência. Ensaios clínicos são experimentos intensamente controlados, que utilizam de uma população-alvo restrita para prova de conceito. Uma vez este conceito demonstrado, devemos (até certo limite) permitir sua extrapolação para que uma população abrangente se beneficie. Esta conduta é respaldada, pois uma vez demonstrado um conceito, é raro que o conceito mude com a mudança do tipo de paciente. Isto porque interação é um fenômeno raro, é só verificar na análise de subgrupo dos ensaios clínicos em geral. A definição de diabetes como critério de inclusão tem sido usada em ensaios clínicos para identificar uma amostra de risco elevado, o que favorece o poder estatístico do estudo. E não porque o interesse da pergunta diz respeito apenas em diabéticos. Isso tem sido um engano, assim como o não entendimento do Princípio da Complacência tem sido talvez o mais importante equívoco de raciocínio em medicina baseada em evidências.

Desta forma, o presente estudo mostra que a intervenção não é benéfica em diabético. Quanto ao não diabético, o estudo pelo menos reduz a probabilidade de que a intervenção seja benéfica. Há alguma aplicabilidade. Pode não fechar a questão em não diabéticos, mas coloca um forte ponto de interrogação, reforçando a necessidade de que isso seja testado, antes de ficarmos afirmando benéficos não demonstrados.

Conforto Cognitivo

Embora bem desenhado e a despeito de nossa criteriosa análise, não faltarão críticas ao LOOK-AHEAD. Estas críticas serão de múltiplas ordens, e ocorrerão devido ao fenômeno de leitura seletiva, quando rejeitarmos evidências que vão de encontro às nossas crenças e abraçamos as evidências que vão ao encontro de nossas crenças.

Os psicólogos dão algumas explicações para isto e uma delas é o interessante fenômeno de conforto cognitivo. Acreditamos no que é mais confortável, pois é desconfortável ter seus valores questionados, dá trabalho de pensamento. Mudança de paradigma é sempre uma ruptura com a tradição. É mais confortável ouvir alguém falar o que já pensamos, dá menos trabalho mental, por mais monótono que isso possa ser. É interessante perceber a feição das pessoas quando falamos em público. Dá para perceber nitidamente o sorriso, a satisfação de alguém quando estamos falando algo com que a pessoa concorda, enquanto percebemos nítida mudança de expressão quando algo controverso entre em conflito com o pensamento vigente. Uma mentira repetida várias vezes vira verdade, pois se torna confortável ouvir uma idéia comum. Conforto cognitivo é um fenômeno psicológico demonstrado cientificamente. É confortável ouvir falar que intervenção intensa com exercício e dieta são condutas benéficas, é desconfortável ouvir falar o contrário.

Pode ser que uma intervenção que promova perda mais substancial de peso (dieta não consegue de forma sustentada, isso é um fato) ofereça benefícios clínicos. Nesta questão, necessitamos de ensaios clínicos randomizados a respeito do impacto de longo prazo da cirurgia bariátrica em desfechos duros, tais como os avaliados no LOOH-AHEAD.

Na construção do conhecimento científico, devemos fazer um esforço para nos livrar do conforto cognitivo, estando abertos a novos paradigmas, mesmo que estes sejam transgressores da tradição. O rabino Nilson Bonder nos traz em seu livro “A Alma Imoral” a idéia de que transgressão promove evolução, tradição promove estagnação. E quando a transgressão é baseada em evidências (como é o caso da conclusão do estudo em questão), melhor ainda.

Neste aspecto, este trabalho tem um nome perfeito, até visionário em relação ao resultado aqui apresentado: LOOK-AHEAD. Precisamos olhar para frente, sair na zona de conforto cognitivo e nos permitir transgressões de velhos paradigmas, desde que estas sejam baseadas em evidências científicas. Assim, evoluiremos científica, filosófica e clinicamente.

OBS: Este texto é um complemento da antiga postagem O Politicamente Correto e as Recomendações de Hábitos de Vida, onde o estudo LOOK-AHEAD foi pela primeira vez mencionado. Naquela postagem se encontra nossa opinião em relação ao papel do exercício e perda de peso na recomendação médica.

quinta-feira, 4 de julho de 2013

O Movimento da Ruas e a Medicina Baseada em Evidências

Nessa época de indignação que vinha adormecida há muito tempo, foi bonito ver a manifestação dos médicos ontem pelo país a fora. Cobramos melhores condições de trabalho e mostramos que não é com soluções fictícias que se resolverá o problema da saúde no Brasil. As soluções apresentadas pela presidente deste país evidenciam claramente a desordem que habita a mente presidencial, as virtuais propostas representam mais coisa de marqueteiro do que de estadista. De fato, Dilma está longe de ser um estadista e esse momento requer um desses. De médicos cubanos a “20.000 unidades de atendimento médico” essas são as soluções até então apresentadas.

Qual a relação da medicina baseada em evidências com esse momento que o país está vivendo? Além de ir às ruas para exigir condições melhores de trabalho, talvez os médicos possam usar esse momento para refletir se a responsabilidade está toda nos governantes ou se tem alguma que seja nossa também. Ou somos apenas vítimas?

É aí que entra a medicina baseada em evidências, pois além de propor que decisões médicas sejam baseadas em análise científica voltada para eficácia e segurança, o pensamento vai ao encontro da racionalização dos gastos médicos. Deveríamos pensar de forma sistemática em eficácia, efetividade e eficiência (custo-efetividade). Perceberíamos que a melhoria não depende apenas do governo, mas também de como nós, médicos, “administramos” os recursos oferecidos. Senti falta de alguns cartazes com esse tom de amadurecimento em relação a nossas próprias responsabilidades. Desta forma, seguindo o estilo presidencial, apresentarei cinco propostas baseadas em evidências, que representam um pouco que podemos fazer por um sistema de saúde mais eficiente.

1. Utilizar do princípio mais básico da medicina baseada em evidências: uma conduta terapêutica deve ser instituída como rotina quando houver comprovação científica de seu benefício (exceção às situações de plausibilidade extrema). Neste quesito, devemos evitar o fanatismo por condutas nãodemonstradas e, de forma responsável, implementar rotinas com base no demonstrado. Assim, economizaríamos bilhões na medida em que coisas como Xigris não seriam implementadas antes da hora. Cada especialista pode rapidamente identificar os inúmeros exemplos de procedimentos de alto custo que foram utilizados por muito tempo apenas para depois entendermos que aquilo de nada valia. Isso é rotina na prática médica, trazendo prejuízos financeiros, clínicos (quando a conduta na verdade é maléfica) e científicos (criação de falsos paradigmas, difíceis de derrubar retroativamente).

2. Evitar a cultura de exames inapropriados. Grande parte dos exames que solicitamos não vão ajudar o raciocínio diagnóstico (atrapalham), nem muito menos melhoram o desfecho do paciente. No entanto, vivemos e propagamos a cultura dos exames, a cultura do check-up. Vejam o caso do teste ergométrico, em que os médicos reclamam tanto o pagamento de míseros 50 reais pelos planos de saúde. Estudo realizado por nosso grupo (tese de Antônio Marconi, de Petrolina) mostrou que 85% das solicitações de testes ergométricos para pesquisa de doença coronária em sua região são inapropriadas, ou seja, testes realizados em pacientes assintomáticos ou com baixa probabilidade pré-teste. Essa amostra tinha tanto pacientes do SUS, como de convênio. Ora, se a gente banaliza tanto um exame, nossa remuneração fica banalizada também, claro. Um exame que praticamente todo adulto faz anualmente, precisa ser muito barato mesmo. Por que não sentamos na mesa e negociamos? “Vou pedir menos exame desnecessário e você aumenta o valor do exame.” Isso sem falar na peregrinação que um paciente do SUS tem que fazer quando um médico “caneta” a solicitação inapropriada de um teste ergométrico. Peregrinação esta que muitas vezes termina em uma clínica popular, com o paciente pagando (desnecessariamente) pelo exame, pois o SUS não tem (nem nunca terá) condição de fazer tanto teste, em tanta gente. Vai até de encontro ao Ato Médico, pois não tem médico para fazer teste em 100% dos adultos brasileiros. Vai acabar tendo que importar médico de cuba mesmo. Estão vendo a incoerência?

3. Evitar overdiagnosis e overtreatment: muitos dos exames desnecessários acabam sendo positivos (verdadeiramente), mas isso não significa que haja necessidade de tratamento. Angioplastia está indicada em paciente assintomático com entupimento de 75% de uma de suas artérias? Depois de um PSA (contra-indicado como exame de triagem), vem a biópsia, que muitas vezes dá positiva para uma adenocarcinoma localizado, em paciente assintomático. Quase sempre resulta em prostatectomia. Estamos no caminho certo ao diagnosticar e tratar pseudo-doenças? Isso merece uma reflexão.

4. Pensar em custo-efetividade: mesmo terapias de comprovada eficácia, devem ser analisados sob o crivo da magnitude de seu benefício. Utilizemos o paradigma do NNT. Benefícios verdadeiros, porém de baixo impacto, pouco mudam a vida do paciente. E às vezes são de alto custo. Mesuremos o benefício e avaliemos o custo deste benefício. Há terapias de alto custo (novidades), cujo impacto devem ser analisado na razão de seu benefício. Sejamos responsáveis ao propor que o SUS passe a oferecer stents farmacológicos. Vela a pena mesmo? Onde chegaremos? Precisamos entender melhor o pensamento de custo-efetividade.

5. Propagar o desenvolvimento do pensamento científico: esta deve ser ferramenta crucial para o médico. Nos livra do lobby da indústria farmacêutica, de interesses pessoais, da excessiva hierarquia de conhecimento, a qual inibe o desenvolvimento de nossa forma de pensar. Ciência se desenvolve com base no debate informal, troca de idéias. Em nossos congressos, pouco discutimos ideias, pouco reavaliamos nossos paradigmas. Nos limitamos a repetir o que é dito tradicionalmente, repetir o texto de guidelines. Assim não há risco de discordância, porém corremos o risco de estagnação. Ciência é democracia.

Temos poder de modificar e melhorar a qualidade da saúde pública. E também da saúde complementar, por que não? Embora nosso aprimoramento não seja suficiente para resolver as questões, este é necessário. Sem a racionalização da medicina, as mudanças reivindicadas não serão resolutivas. Há exemplos de países desenvolvidos com medicina socializada, que aplicam os recursos de forma muito mais racional do que nosso pobre país. Precisamos mudar nossa cultura. Devemos exigir desse governo mediano, como fizemos ontem. Mas podemos também oferecer nossa contra-partida.