Medicina Baseada em Evidências: abril 2011

quinta-feira, 28 de abril de 2011

Aliskireno: uma Droga Não Embasada em Evidências

Hoje me deparei com uma senhora de 92 anos, em uso regular de Aliskireno como monoterapia para sua hipertensão arterial sistêmica. Se alguém questionar se realmente esta droga está indicada, o médico da paciente terá uma boa resposta, na ponta da língua: essa é uma das indicações respaldadas pela mais nova Diretriz Brasileira de Hipertensão (2010). Isso mesmo, no capítulo Tratamento Medicamentoso, no item Escolha do Medicamento, tem escrito: “Qualquer medicamento do grupo de anti-hipertensivos comercialmente disponíveis pode ser utilizado para o tratamento da hipertensão arterial (Tabela 2).” Na Tabela 2, lá no final lemos: inibidores diretos da renina, ou seja, Aliskireno. Pronto, a conduta médica está respaldada, e nada melhor que por uma Diretriz.

Mas qual o problema do Aliskireno? O problema é que não sabemos se seu efeito terapêutico oferece o mesmo benefício que drogas já consagradas por evidências científicas. Diuréticos, inibidores da ECA e antagonistas dos canais de cálcio possuem comprovação científica de que sua utilização promove redução do risco de eventos cardiovasculares, tipo infarto, AVC, óbito. Estas classes de drogas possuem efeito anti-AVC, anti-infarto, anti-morte. Quanto ao Aliskireno, por enquanto esta é apenas uma droga anti-hipertensiva. Ou no máximo, um anti-microalbuminúria ou anti-hipertrofia do ventrículo esquerdo. Mas estes são desfechos substitutos, sem garantia de benefício clínico. Portanto, o tal do Aliskireno não pode ter o mesmo nível de indicação do que as outras drogas.

Pode ser tão benéfico quanto os outros, pode ser benéfico em um menor grau, ou pode até ser maléfico. Maléfico? Sim, isso acontece. Torcetrapib aumentou HDL-colesterol em 70%, porém aumentou mortalidade. Rosiglitazona reduz glicemia, porém há evidências de que aumenta eventos cardiovasculares. Sibutramina reduz peso, mas aumenta eventos cardiovasculares. Doxazozin, um anti-hipertensivo testado no estudo ALLHAT, aumentou eventos cardiovasculares.

Um exemplo bem atual é o ensaio clínico ROADMAP, publicado no New England Journal of Medicine, o qual demonstrou que Olmesartana (bloqueador do receptor da angiotensina) reduz microalbuminúria em diabéticos, porém aumenta de mortalidade cardiovascular. Devemos salientar que essa informação não é definitiva, pois consistiu de um desfecho secundário, o qual tem maior probabilidade de ser proveniente do acaso (erro tipo I). Por outro lado, não há comprovação prévia de que Olmesartana reduz desfechos cardiovasculares em hipertensos e na ausência dessa evidência o possível aumento de risco ganha mais importância. No entanto, Olmesartana é uma droga bastante prescrita pelos médicos, um verdadeiro blockbuster, também respaldado pela Diretriz de Hipertensão.

Mas porque as Diretrizes colocam certas drogas em um patamar desmerecido por suas evidências? Dentre os 110 autores da Diretriz (quanta gente), ninguém sabia do nível de evidência do Aliskireno? Improvável, até mesmo porque está escrito na Diretriz que faltam estudos grandes, de desfechos clínicos. Mas mesmo assim, lá está ele na tabela de opções, ao lado das drogas tradicionais.

Percebe-se que mesmo ambientes como o da realização de uma diretriz médica carecem do paradigma da medicina baseada em evidências. Ao mesmo tempo, 58% dos 110 membros da Diretriz de Hipertensão têm conflitos de interesse. Esse número deveria ser muito menor. Quem sabe aí não está a explicação para o sucesso do Aliskireno? Não era pra ser assim ...

quinta-feira, 21 de abril de 2011

STICH Trial: uma Mudança de Paradigma

Desde que me formei cardiologista, aprendi que o paciente coronariano que mais se beneficia da revascularização miocárdica é aquele com disfunção ventricular esquerda. Mas nunca busquei o nível de evidência que suportava esse conhecimento, considerava isso uma verdade absoluta e guiei minhas condutas a partir deste paradigma. Eu achava que essa verdade vinha do estudo CASS, que mostrou ser o subgrupo de pacientes com disfunção ventricular esquerda o único com tendência a benefício da cirurgia. Mas nunca parei para perceber que o estudo CASS excluía pacientes com fração de ejeção menor que 35% (severe dysfunction, como se fala em inglês). Ou seja, a idéia de que pacientes com disfunção severa se beneficiavam da cirurgia era uma extrapolação.

Já comentei nesse Blog que às vezes ampliamos a validade externa de alguns estudos para além da amostra estudada. Isso pode ser aceitável se for uma decisão cuidadosa e pautada em plausibilidade clínica. No entanto, neste caso também há plausibilidade clínica para que a cirurgia em pacientes com disfunção não seja benéfica: o elevado risco cirúrgico.

Foi então que em 2002 se iniciou o STICH Trial, um ensaio clínico randomizado para testar a hipótese de que cirurgia traz benefício adicional ao tratamento clínico em pacientes com disfunção sistólica do ventrículo esquerdo de grau severo. Este estudo, financiado pelo National Institute of Health (NIH), randomizou 1200 pacientes para cirurgia de revascularização + tratamento clínico versus tratamento clínico. Nove anos depois de seu início, o resultado desse estudo foi apresentado no congresso do American Heart Association e publicado simultaneamente no New England Journal of Medicine. Ficou demonstrado que a mortalidade geral, objetivo primário do estudo, foi semelhante entre os dois grupos. Ou seja, a cirurgia não oferece benefício adicional.

Mas antes de aceitar a veracidade dessa informação, temos que fazer nossa análise metodológica. Vamos lá.

Quando um estudo mostra diferença entre grupos, nos preocupamos com a probabilidade da diferença ser por acaso (erro tipo I). Aí verificamos o valor de P, que representa exatamente essa probabilidade.

Mas neste caso é diferente. Quando nos deparamos com um estudo “negativo” (ausência de diferença entre grupos), devemos nos questionar se aquele achado representa um erro tipo II. Erro tipo II significa não encontrar uma diferença que na realidade existe; ou como dizem os estatísticos, aceitar uma falsa hipótese nula. Esse erro decorre de baixo poder estatístico. Portanto, sempre que temos um estudo negativo, devemos ler na metodologia do trabalho se há poder estatístico adequado. Para se considerar adequado, o poder estatístico deve ser de pelo menos 80%, resultando em probabilidade do erro tipo II (100% – poder) menor que 20%. Em ciência, 20% é a máxima probabilidade aceitável do erro tipo II.

Os autores calcularam que precisariam de 400 mortes para ter um poder estatístico de 90% na detecção de uma diferença relativa de 25% na mortalidade entre os grupos. Olhando os resultados do estudo, percebemos que houve 462 mortes no seguimento de cinco anos, portanto o poder estatístico foi maior que 90%. Se o poder é maior que 90%, consideramos que a probabilidade do erro tipo II é menor que 10% - excelente, podemos aceitar o resultado, pois há baixa probabilidade desse tipo de erro.

Outros critérios reafirmam a veracidade da informação: mortalidade foi o desfecho pré-estabelecido como primário, a randomização resultou em dois grupos homogêneos (ausência de variáveis de confusão), a análise foi por intenção de tratar (ausência de viés na análise de dados), não houve cross-over excessivo que invalidasse a análise dos resultados, os cirurgiões foram de boa qualidade (ausência de viés de aplicação da técnica de tratamento), o estudo não foi truncado. Enfim, a essa pode ser considerada uma evidência de boa qualidade.

Mas podem esperar. Logo surgirão as viúvas do estudo STICH (todo estudo tem viúvas, aquelas que se sentem desamparados pelo resultado do estudo), que vão arranjar críticas para invalidar o trabalho. Algumas dessas críticas serão esdrúxulas, outras um pouco mais sérias, porém insuficientes para invalidar a informação científica.

Grande esforço foi aplicado para nos oferecer a informação científica que precisávamos, 1200 pacientes foram voluntários, nove anos de estudo, milhões de dólares, várias cabeças pensantes. Tudo isso para a evidência ser rejeitada? Não, temos que valorizar o que há de bom, mesmo que a informação vá de encontro com nossas crenças iniciais.

Mas porque a cirurgia não reduziu mortalidade? A análise de curvas de sobrevida nos fornece vários insights sobre como as coisas acontecem. Estes tipos de gráficos parecem mágicos em retratarem fenômenos ao longo do tempo, temos que prestar muita atenção neles. Percebam na curva de sobrevida que no primeiro ano o grupo cirúrgico tem maior tendência a morte e só a partir do terceiro ano que a cirurgia começa a proteger os pacientes. De uma forma prática: no início a cirurgia mata mais, porém quem não morre vai desfrutar de benefício no futuro, após vários anos. Dentre os que morrem, os pacientes do grupo cirúrgico morrem antes, pois o mecanismo de sua morte é a cirurgia propriamente dita. Se o poder estatístico fosse ainda maior ou o seguimento fosse de 10 anos, poderia se encontrar uma pequena redução na freqüência de morte no grupo cirúrgico, mas esse raciocínio de temporalidade faz com que esse benefício modesto não compense (se existir). Tempo de vida é uma coisa importante.

Claro, isso não quer dizer que um paciente com disfunção severa nunca será operado. Paciente com angina de difícil controle (classe canadense III ou IV), lesão de tronco de coronária esquerda ou até mesmo com insuficiência cardíaca refratária devem ser operados. Aí entra o paradigma do paraqueda, da plausibilidade extrema. Por isso que estes pacientes foram excluídos do estudo.

O estudo foi apresentado no congresso do AHA com um viés de positividade, focado em desfechos secundários. Mas nunca devemos colocar desfechos secundários como hierarquicamente mais importantes do que o desfecho primário, pois os primeiros têm maior probabilidade do erro tipo II. Além disso, não importa ter redução de mortalidade cardiovascular (desfecho secundário – P = 0.05) sem redução de mortalidade geral. O que imposta é não morrer. Morrer é morrer, independente do mecanismo. Pior ainda quando esse morrer acontece mais precocemente no grupo cirúrgico. Por isso que o Gregg Stone, coordenador da sessão, precisou intervir e lembrar do básico: este foi um estudo negativo.

Fica aqui a pergunta. Quantos pacientes de alto risco cirúrgico, com disfunção sistólica severa tiveram suas cirurgias indicadas com base em um falso paradigma e se prejudicaram com essa conduta? Devemos sempre lembrar que condutas não embasadas podem ser prejudiciais. Essa evidência não necessariamente proibe a cirurgia, mas nos dá a possibilidade de decidir com base em indicações mais concretas do que simplesmente na presença de doença coronária com disfunção ventricular severa.

E assim mais um paradigma é derrubado. Costumo dizer que muitos paradigmas são derrubados pois nunca deveriam ter sido criados. Não adianta um porquinho construir uma casa de palha, pois o lobo sopra e derruba com facilidade. Aqui o sopro do lobo é a evidência científica. Na verdade, nunca houve esse paradigma.

domingo, 17 de abril de 2011

Tostão e a Medicina Baseada em Evidências

Para quem não sabe, Tostão, tricampeão brasileiro de futebol, também é médico. Tostão escreve sobre esporte como nós médicos devemos pensar sobre medicina. Sempre mantém um pensamento critico, separando o que tem valor do que não vale nada.

Em sua última coluna, Tostão escreveu “É óbvio que informações estatísticas são importantíssimas. Mas exageram. Impressiona-me como se formam conceitos, dão opiniões, baseados em estatísticas que têm pouca ou nenhuma importância.” Que semelhança com nossa realidade médica!

Ele usou como exemplo a notícia da Globo de que Neymar foi o primeiro jogador a fazer dois gols contra a Escócia. Que imbecilidade de notícia ... Isso acontece em medicina todo dia. Exemplos múltiplos em cada postagem desse Blog.

Tostão é um comentarista baseado em evidências. Não é maria vai com as outras, separa o que é relevante do que é inútil. Como médicos, devemos seguir seu exemplo. E para os que gostam de futebol, devemos sempre ler Tostão, pois ele tem coragem de falar o que os Galvão Buenos não falam. Mais uma semelhança com a comunidade médica baseada em evidências.

Acho que Tostão deveria começar a escrever editoriais para revistas científicas.

Tostão, obrigado pelo tricampeonato mundial da seleção canarinha.
Mais do que isso, obrigado por nos mostrar como pensar.

quarta-feira, 13 de abril de 2011

O Sistema GRADE: Uma proposta que combina a força da recomendação e qualidade da evidência para orientar quais condutas devem ser adotadas ou evitadas na prática clínica

Artigo postado pelo Professor Antônio Alberto Lopes - Professor Associado, Livre-Docente de Nefrologia, Epidemiologia Clínica e Medicina Baseada em Evidências, Mestre em Saúde Pública e PhD em Ciência Epidemiológica pela Universidade de Michigan

No sentido de uniformizar os critérios usados para definir recomendações para condutas clínicas foi desenvolvido mais recentemente um sistema denominado “Grading of Recommendations, Assessment, Development and Evaluation” (GRADE) (1-5). Comparado com outros sistemas, o Sistema GRADE define de uma forma mais clara e objetiva o nível (qualidade) de evidência científica e força (ênfase) da recomendação para se adotar ou não adotar uma determinada conduta. O Sistema GRADE foi inicialmente idealizado para uso em diretrizes clinicas baseadas em evidências. O uso, no entanto, tem sido mais amplo passando a ser adotado por sistemas de informação eletrônica como o popular UPTODATE.

Força da Recomendação

No sistema GRADE a força recomendação para apoiar uma conduta é considerada forte quando as evidências disponíveis permitem concluir que os benefícios suplantam os malefícios (Quadro 1). Quando as evidências permitem concluir que a conduta é claramente maléfica, a força da recomendação para evitar a conduta é também considerado forte. Contrariamente, quando a relação entre benefícios e riscos não é muito clara o força da recomendação é considerado fraca. A recomendação forte é designada como “1” e a fraca como “2” no Sistema Grade.

1 – Forte: As vantagens de uma dada conduta claramente suplantam as desvantagens; ou então, as desvantagens claramente suplantam as vantagens.

2 – Fraco: Há um certo grau de incerteza sobre a relação entre vantagens e desvantagens de uma dada conduta.

Qualidade da Evidência

É importante observar a qualidade das fontes de evidência em que se baseia uma recomendação para adotar ou não adotar uma conduta, considerando que as fontes primárias de informação variam de forma muita ampla em sua qualidade científica. No sistema GRADE a qualidade da evidência tem sido classificada em quatro níveis2: alto, moderado, baixo, muito baixo, conforme mostrado na Quadro 2. É importante observar, no entanto, que tem sido verificada uma tendência para simplificar a classificação do nível ou qualidade da evidência combinando o nível baixo e o muito baixo em um único nível (6-8).

A - Alta - Este nível de evidência ocorre quando os resultados são provenientes de ensaios clínicos randomizados bem planejados e conduzidos, com grupos paralelos, com controles adequados, análise de dados adequada e achados consistentes tendo como alvo o desfecho clínico de interesse para o médico e o paciente. Em algumas situações estudos observacionais podem ser considerados de nível alto de qualidade para apoiar recomendações, inclusive terapêuticas. Este nível de evidência para estudo de tratamento é possível ocorrer com estudo observacional, particularmente com coorte prospectivo quando é bem planejado e conduzido utilizando métodos especiais de análise para controle de variáveis de confusão e mostrando efeitos muito fortes de intervenções terapêuticas que não podem ser explicados por potenciais vieses.

Quando a qualidade da evidência é considerada alta é muito improvável que trabalhos adicionais irão modificar a confiança na estimativa do efeito.

B - Moderada - Este nível de evidência ocorre quando os resultados são provenientes de ensaios clínicos randomizados com importantes problemas na condução, inconsistência nos resultados, avaliação de um desfecho substituto (surrogate endpoint) em lugar de um desfecho de maior interesse par ao médico e paciente, imprecisão nas estimativas e vieses de publicação. Os resultados podem ser também provenientes de estudos observacionais.

Quando a qualidade da evidência é considerada moderada trabalhos adicionais ainda não publicados poderão modificar a nossa confiança na estimativa de efeito podendo, inclusive, modificar a estimativa.

C - Baixa - Este nível de evidência ocorre quando os resultados são provenientes de estudos observacionais, mais especificamente estudos de coorte e caso-controle, considerados altamente susceptíveis a vieses. Pode ser também ensaios clínicos com importantes limitações.

Quando a qualidade da evidência é considerada baixa outros trabalhos ainda não publicados (particularmente ensaios clínicos com melhor qualidade metodológica) muito provavelmente terão um importante impacto na nossa confiança na estimativa de efeito.

D - Muito Baixa - Este nível de evidência ocorre quando os resultados são provenientes de estudos observacionais não controlados e observações clinicas não sistematizadas, exemplo relato de casos e série de casos.

Quando o qualidade da evidência é muito baixa qualquer estimativa de efeito deve ser vista como incerta.

• No UPTODATE as categorias C e D são combinadas em uma única categoria, ou seja categoria C.

Ao combinar força da recomendação e qualidade da evidência são obtidos os graus de recomendação, ou seja GRADE 1A, GRADE 1B, GRADE 1C, GRADE 1D, GRADE 2A e assim em diante.

REFERÊNCIAS

1. Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ 2008;336:924-6.

2. Guyatt GH, Oxman AD, Kunz R, Vist GE, Falck-Ytter Y, Schunemann HJ. What is "quality of evidence" and why is it important to clinicians? BMJ 2008;336:995-8.

3. Guyatt GH, Oxman AD, Kunz R, et al. Going from evidence to recommendations. BMJ 2008;336:1049-51.

4. Schunemann HJ, Oxman AD, Brozek J, et al. Grading quality of evidence and strength of recommendations for diagnostic tests and strategies. BMJ 2008;336:1106-10.

5. Guyatt GH, Oxman AD, Kunz R, et al. Incorporating considerations of resources use into grading recommendations. BMJ 2008;336:1170-3.

6. UPTODATE: Acessado em 20/11/2010 no endereço http://www.uptodate.com/.

segunda-feira, 11 de abril de 2011

A Farsa da Pioglitazona para Não Diabéticos

Há duas semanas, foi publicado New England Journal of Medicine o ensaio clínico ACT NOW, o qual randomizou 600 pacientes não diabéticos para utilizar Pioglitazona ou placebo. A conclusão do artigo nos faz acreditar que é bom iniciar tratamento para diabetes em quem não é diabético: "As compared with placebo, pioglitazone reduced the risk of conversion of impaired glucose tolerance to type 2 diabetes mellitus by 72%".

Mas porque uma pessoa não diabética teria que usar um hipoglicemiante oral? Iniciar um tratamento para uma doença em pessoas que não são doentes? Colocado desta forma, a idéia parece questionável. Mas tem muita gente que acha isso uma boa idéia. Esse é um dos muitos exemplos da mentalidade do médico ativo, a qual nos induz a aceitar essa idéia, visto que a população-alvo do estudo envolve pacientes com predisposição a diabetes (indivíduos com intolerância à glicose).

Por outro lado, não podemos ter preconceito só porque a proposta é tratar pessoas não doentes. O que precisamos fazer é analisar criticamente a evidência do artigo, aceitar se for uma boa evidência e rejeitar se for uma evidência insuficiente. Costumo dizer que temos que nos render às boas evidências, só precisamos antes avaliar se a evidência é boa mesmo.

Um argumento a favor desta evidência seria sua publicação na mais importante revista médica, o New England Journal of Medicine. Mas não podemos nos enganar, isso não é garantia de qualidade. Mesmo os artigos do New England Journal of Medicine devem ser analisados criticamente. Então vamos lá.

No ACT NOW, durante seguimento de dois anos, a proporção de pessoas cuja avaliação periódica de glicemia apresentou critérios para diabetes foi menor no grupo Pioglitazona, em relação ao grupo placebo. Esse achado completa critérios de veracidade, visto que este foi o objetivo primário, o estudo tinha poder estatístico para este desfecho laboratorial, o estudo não foi truncado e a diferença foi estatisticamente significante. Ou seja, de fato não diabéticos que utilizam Pioglitazona terão glicemia mais baixa do que não diabéticos que não utilizam a droga. Nada mais óbvio do que isso.

Por outro lado, dizer que este achado laboratorial significa prevenção de desenvolvimento de diabetes é uma verdadeira farsa, pois a avaliação laboratorial foi realizada sob o uso da droga. Suponhamos que o grupo Pioglitazona na verdade tivesse apresentado maior conversão para diabetes. Esse resultado seria mascarado pelo fato de que a avaliação laboratorial foi realizada sob o uso de hipoglicemiante oral apenas nesse grupo. Para falar em redução do desenvolvimento de diabetes, a droga teria que ter sido suspenda dias antes da avaliação laboratorial, para que os grupos fossem comparados em condições iguais. Portanto, esse estudo apenas nos diz que a glicemia fica mais baixa se Pioglitazona está sendo utilizada. Na verdade, pode não ter havido nenhuma mudança metabólica intrínseca no grupo Pioglitazona, apenas o resultado é reflexo do uso da droga no dia da medida laboratorial da glicemia. Esse é um bom exemplo de viés de mensuração da variável desfecho.

Mas vamos supor que esse grosseiro viés não existisse e os autores houvessem de fato demonstrado redução na conversão para diabetes com uso de Pioglitazona. Isso nos autorizaria a utilizar a medicação em não diabéticos? Aí entra a questão dos desfechos substitutos.

Desfechos substitutos são variáveis laboratoriais ou fisiológicas que são utilizadas em estudos que não têm poder estatístico para avaliar desfechos clínicos. Por exemplo, redução da pressão arterial é um desfecho substituto, enquanto redução de AVC é um desfecho clínico. Melhora da densidade óssea da densitometria é um desfecho substituto, enquanto redução da incidência de fratura é um desfecho clínico. Desfecho clínico é o que o paciente sente, é morbidade ou mortalidade, é qualidade de vida ou tempo de sobrevida. Desfecho substituto é apenas uma medida de exame complementar.

Espera-se que a influência da droga no desfecho substituto se reflita em benefício clínico. O problema é que a história da ciência médica está repleta de situações nas quais um aparente benefício em desfecho substituto não causa benefício clínico e às vezes causa até malefício. Poderiamos citar vários destes exemplos, mas vou me limitar a apenas um que tem tudo a ver com a questão da Pioglitazona: o caso da Rosiglitazona.

Como já comentamos neste Blog, Rosiglitazona foi um hipoglicemiante oral utilizado apenas com base no conhecimento de que a droga reduzia glicemia (desfecho substituto). Virou um sucesso comercial. Anos depois, foi publicado o estudo RECORD, dimensionado para avaliar desfechos clínicos. Resultado, o estudo não demonstrou benefício clínico, sendo observado aumento da incidência de insuficiência cardíaca. Desta forma, no ano passado a droga foi teve seru uso restrito.

O desfecho primário do ACT NOW foi a dosagem de glicemia de jejum > 125 mg/dl. Para disfarçar isso de desfecho clínico, os autores denominaram “desenvolvimento de diabetes.” Como se fosse uma ocorrência clínica. Foi até calculado o NNT (número necessário a tratar) para prevenção de um caso de diabetes. Até uma curva de incidência cumulativa de diabetes for criada. Tudo isso um desfecho substituto parecer desfecho clínico.

Diabetes só seria desfecho clínico se fossem utilizados sintomas de diabetes como critérios. E mesmo assim, seria um desfecho clínico menor. O que interesse mesmo é se a terapia em questão é capaz de reduzir a incidência de desfechos cardiovasculares (morte, infarto, AVC), insuficiência renal, sintomas de retinopatia hipertensiva. E não temos garantia disso. Lembrem-se que a Rosiglitazona reduz glicemia e aumenta eventos cardiovasculares.

Neste contexto, é surreal a sugestão do uso de uma glitazona, com base em um pequeno estudo de desfecho substituto e em pessoas que nem diabéticas são.

Esse é um grande exemplo da tendência trazida pelos interesses comerciais. Em primeiro lugar, se rotula de doente uma população sem doença. Em segundo lugar, inventa-se que esse grupo de pessoas precisa ser medicada. Pronto, lucro certo.

A indústria farmacêutica costuma utilizar desfechos substitutos para convencer médicos ingênuos do uso de terapias de eficácia desconhecida. Um estudo de desfecho substituto tem valor científico para gerar uma hipótese de eficácia, mas está longe de ser suficiente para modificar conduta clínica.

Canais de Luis Correia