domingo, 12 de junho de 2011

Telefone Celular, Câncer e os Alarmistas


Na semana passada, a principal notícia da imprensa leiga a respeito de saúde foi a possível relação entre telefone celular e câncer cerebral. Ao assistir longas reportagens no Jornal Nacional e na CNN, me questionei: qual o embasamento científico a respeito disso? Existem estudos?

Sim, existem vários estudos, portanto precisamos analisar a totalidade das evidências para chegarmos à conclusão. O tipo de estudo que nos fornece evidências a este respeito desse assunto têm o desenho de caso-controle. Sabemos que o ideal para se avaliar fatores de risco são estudos de coorte, mas esses são impraticáveis para doenças de baixa incidência. Como câncer de cérebro não é uma doença muito comum (tal como câncer em geral ou doença cardiovascular), centenas de milhares de pacientes teriam que ser seguidos prospectivamente para que alguns desenvolvessem esse problema. Isso seria impraticável. Nesta situação de raridade do desfecho, se utiliza o desenho de estudo denominado caso-controle. Nesse caso, são identificados pacientes com câncer de cérebro e indivíduos saudáveis. Então se aplica um questionário avaliando como foi nos últimos anos o uso de celular dessas pessoas. Ou seja, os doentes utilizaram mais celular do que os saudáveis?

Então o que dizem esses estudos? A grande maioria não demonstra associação entre câncer e uso de celular. Uma minoria de qualidade metodológica questionável sugere efeito protetor do celular contra câncer. E outra minoria de qualidade metodológica limitada sugere que celular causa câncer. Essas informações estão bem sumarizadas em uma revisão sistemática publicada na respeitada revista Epidemiology em 2009. E para corroborar com o que sugere a maioria das evidências, neste ano foi publicado no respeitado International Journal of Epidemiology o maior dos estudos de caso-controle, denominado INTERPHONE Study. Nesse grande estudo, participaram 13 países, sendo recrutados 2.708 pacientes com glioma, 2.409 pacientes com meningioma e 7.658 controle pareados. Resultado? Não há associação entre celular e câncer na análise primária do estudo. Em outras palavras, celular não causa câncer.

Outra importante evidência a favor da inocência do celular é a ausência de aumento da incidência de câncer de cérebro nos últimos 15 anos, de acordo com estudos de desenho ecológico. No início da década de 90, virtualmente ninguém no mundo usava celular. Na década de 2000, virtualmente todas as pessoas usavam celulares. Viraria uma epidemia de câncer de cérebro. Mas nada foi observado.

Mas porque então surge na imprensa uma notícia como essa? Porque a Organização Mundial de Saúde reconhece a possibilidade do vínculo entre celular e câncer?

Identifico três causas, a serem descritas nos próximos parágrafos:

Primeiro, os alarmistas, pessoas que vivem de assustar as pessoas. Os alarmistas existem em várias áreas, por todo lado. Existem porque uma notícia ruim gera mais impacto do que uma notícia boa. Quando assistimos ao Jornal Nacional, saímos deprimidos, pois o que vemos são 80% de notícias ruins e 20% de notícias neutras ou boas. Mas isso é um viés, o mundo é melhor do que parece aos olhos dos telejornais. É só olhar ao redor. Mas os alarmistas vivem do incêndio, seja por vocação, seja por interesse. Em nossa prática, vemos médicos alarmistas, também chamados de incendiários. Estes são aqueles que supervalorizam o problema de seu paciente, para também supervalorizar a importância de seu tratamento. Indivíduo assintomático, faz teste ergométrico desnecessário, porém positivo para isquemia miocárdica. Daí faz um cateterismo que mostra obstrução em apenas uma artéria. O médico alarmista diz ao paciente que ele pode ter um infarto ou morrer, portanto precisa fazer uma angioplastia. O médico científico diz que a angioplastia não reduz infarto, nem reduz probabilidade de óbito, então o que o paciente precisa é controlar seus fatores de risco. Qual médico parece mais importante aos olhos de mentes superficiais? O alarmista, é claro. Esse aparentemente resolveu o problema do paciente de forma mais ativa. Este é um simples exemplo do benefício pessoal de ser alarmista.

Segundo, a mente humana tende a ser crédula, por uma questão puramente evolutiva. Isso se explica pela lei da sobrevivência. Há 200.000 anos, o homem vivia em constante perigo. Quando os arbustos na floresta se mexiam, a probabilidade maior era de ser apenas o vento. Mas o homem crédulo achava logo que era um leão se aproximando e saía correndo. Um dia viria a ser um leão de fato. Assim, a mente crédula teve uma maior probabilidade de sobreviver do que a mente cética. Por este motivo, o homem é biologicamente crédulo. É só um alarmista trazer o problema, que logo acreditamos, devido ao medo, ao instinto de preservação. Mas estamos em outra época, não vivemos mais em constante perigo e hoje existe algo denominado ciência. Em ciência, uma idéia só deve ser tornar vigente, quando somos capazes de rejeitar a hipótese nula. Como comentado na postagem anterior, a premissa básica do pensamento científico é a hipótese nula. Só fortes evidências a rejeitam. Não há forte evidência para rejeitar a hipótese nula de que celular não causa câncer.

Terceiro, os politicamente corretos. Essas são pessoas que não têm convicção de que o celular causa câncer, no fundo acham que não causam, mas se posicionam com preocupação, cuidado e falam: ainda não sabemos, por via das dúvidas, devemos aproximar pouco o telefone da cabeça ou usar o viva-voz. Para estes, fico uma frase da Bíblia sempre lembrada por Nizan Guanaes: "Seja quente, ou seja, frio, não seja morno que eu vomito." O certo, sem querer parecer equilibrado é dizer: celular não causa câncer. Até que se prove o contrário, o que é muito improvável.

O telefone celular representou uma das maiores revoluções em comunicação do final do século passado, nos trouxe vários benefícios. Talvez a gente até exagere no uso dessa ferramenta, mas rejeitar a hipótese nula sobre o risco do celular e assumir que este causa câncer com base em estudos de má qualidade metodológica (desprezando os melhores estudos) é um desserviço.

Enfim, não precisamos exagerar no politicamente corretos, nossa mente não precisa funcionar como a dos nossos ancestrais, nem devemos nos influenciar por alarmistas: celular não causa câncer!

sábado, 4 de junho de 2011

A Futilidade da Niacina


De acordo com o dicionário Wikipédia, um dos significados da palavra futilidade é inutilidade, aquilo que não dá resultado. É o que está demonstrado na figura acima: tentar acertar a bolinha de golfe é quase o mesmo que não tentar, pois a probabilidade de acerto é mínima. Então essa tentativa pode ser considerada fútil. Em medicina baseada em evidências, o termo futilidade se aplica quando uma intervenção não produz resultados, ou no máximo produz um resultado desprezível.

É o que foi demonstrado pelo ensaio clínico AMI-HIGH, o qual testou a hipótese de que o uso de niacina (ácido nicotínico, vitamina B3) traz benefício em indivíduos que já fazem uso de estatina, mas têm HDL-colesterol baixo. Esse estudo pretendia randomizar 3.400 pacientes, mas foi interrompido com 1.700, pois não havia nenhum indício de benefício em análise interina. Em outras palavras, foi interrompido porque a Niacina preencheu critério de futilidade: mesmo se o estudo continuasse, iria mostrar ausência de benefício ou na melhor das hipóteses um benefício desprezível.

Já critiquei nesse Blog estudos truncados (interrompidos precocemente) que mostram benefício de uma terapia. Porém no caso presente a crítica não se aplica, pois a interrupção foi por critério de futilidade. Sabemos que o pensamento científico deve partir da premissa de que a hipótese nula é verdadeira. Interromper um estudo e continuar com a hipótese nula está dentro da ordem cientifica. Principalmente se a análise mostra que se houver benefício, este será irrelevante.

Por outro lado, é criticável rejeitar a hipótese nula (premissa básica) com base em estudo truncado. É exatamente devido à violação desse princípio científico da hipótese nula que muitos mitos são criados em medicina e depois precisam ser derrubados.

As pessoas acreditam nas coisas antes da hora. Por exemplo, acreditamos antes da hora que Robinho seria um novo Pelé. Até Pelé falou isso. Rejeitamos a hipótese nula de que Robinho era normal. O tempo mostrou que Robinho é apenas um bom jogador. Foi um entusiasmo precoce. Em futebol, tudo bem. Mas em medicina não podemos fazer isso (a exceção do paradigma do para-queda).

Vamos voltar à Niacina.

Ao longo da última década a indústria farmacêutica fez uma propaganda entusiástica do uso de niacina para paciente com HDL-baixo. Com isso ressuscitou a utilização de uma droga que após o advento das estatinas havia perdido espaço. O faturamento anual com a venda de Niacina nos Estados Unidos chega a $1 bilhão. O problema é que todo esse faturamento não é baseado em evidências. Os estudos que mostraram algum benefício clínico com Niacina datam mais de 30 anos, época em que estatinas não existiam. Agora com o uso de estatina, precisamos demonstrar benefício clínico nesse cenário.

Todos nos lembramos das visitas dos representantes, que argumentavam plausibilidade biológica, citavam estudos de Niacina em pacientes sem estatina ou citavam estudos de desfechos substitutos. Mas essas propagandas não eram cientificamente convincentes.

HDL-colesterol baixo tem associação independente com eventos cardiovasculares em estudos de coorte prospectiva, inclusive com uma relação dose-resposta. Estes dados epidemiológicos aliados à plausibilidade permitem a conclusão de que HDL-colesterol baixo representa um fator de risco para doença aterosclerótica. Isso é conclusão científica. A partir daí, pode-se criar a hipótese de que se aumentarmos farmacologicamente o HDL-colesterol, reduziremos eventos cardiovasculares. Isso é uma hipótese plausível. Por outro lado, considerar isso uma verdade suficiente para adotar a conduta é pura extrapolação.

Ao tempo em que critico a propaganda não embasada, devo reconhecer o mérito da indústria em ter co-financiado este estudo. Este não foi um estudo conduzido pela indústria, foi conduzido e parcialmente financiado pelo National Institute of Health (NIH), órgão governamental, isento. Mesmo assim, a Abbot aceitou financiar metade das despesas do estudo, sem influência nos resultados. É um mérito e um modelo que deveria ser mais freqüente: estudos financiados pela indústria, porém conduzidos por orgãos independentes.

O AMI-HIGH não está publicado, foi apenas anunciado em forma de conferência no NIH. Estes eram pacientes de alto risco cardiovascular, em uso de estatina, com LDL baixo, porém HDL baixo e triglicérides elevados. Apesar de a Niacina ter aumentado o HDL-colesterol, não houve benefício clínico: a incidência anual do desfecho primário composto foi 5.6% no grupo controle versus 5.8% no grupo niacina. Esse desfecho primário foi o composto de infarto fatal e não fatal, AVC, angina instável ou revascularização.

Precisamos entender que os sistemas biológicos são complexos, o que faz com que eventos sejam decorrentes de uma multiplicidade de fatores, que possuem uma multiplicidade de interações. Impossível prever o resultado de uma intervenção. Embora HDL-colesterol seja uma molécula anti-aterogênica, aumentar sua concentração pode não ter efeito anti-aterogênico, pois qualitativamente essas novas moléculas podem ser diferentes. Lembram do estudo Illuminate, que testou torcetrapib, uma droga muito mais potente do que Niacina para aumentar HDL-colesterol? Aumentou mortalidade! Justificaram pelo aumento dos níveis pressóricos com a droga, mas será que foi por isso mesmo? Recentemente, o estudo ACCORD não mostrou benefício de fibratos em diabéticos sob uso de estatina, que tinham HDL-colesterol médio de 38 mg/dl.

Ou seja, Niacina, torcetrapib, fibratos, todas estas são estratégias que aumentam HDL-colesterol, porém sem resultar em benefício clínico. Será que estamos com a hipótese certa? Será que HDL-colesterol é mesmo fator de risco? Sabemos que a validação final de um fator de risco é quando o controle do fator reduz a incidência de doença. Tratar LDL-colesterol reduz desfecho, tratar hipertensão reduz desfecho, parar de fumar reduz desfecho. Mas ainda não conseguimos provar o mesmo com HDL-colesterol. Os estudos de 30 anos atrás com Niacina aumentavam HDL-colesterol, mas também reduziam LDL-colesterol. De onde veio o benefício?

Essa é mais uma história que nos lembra do paradigma da medicina baseada em evidências. Mais um exemplo de que plausibilidade biológica não é suficiente para garantir benefício clínico. Mais um exemplo de que estudos de desfechos substitutos não garantem benefício clínico. E assim vamos evoluindo cientificamente.

quarta-feira, 1 de junho de 2011

Como Analisar Criticamente um Artigo sobre Acurácia


Na postagem anterior, definimos acurácia e mostramos a importância das medidas de sensibilidade, especificidade e razões de probabilidades de métodos diagnósticos. Estes parâmetros não surgem por encanto. O conhecimento da acurácia de um método é proveniente de evidências científicas. Como toda evidência científica, estas também devem passar pelo crivo da análise crítica dos métodos utilizados para chegar às respectivas conclusões. A comunidade médica está mais habituada a avaliar criticamente ensaios clínicos terapêuticos, mas a correta avaliação da acurácia de testes é de igual importância, pois tudo começa pelo diagnóstico.

Estudos de acurácia possuem o caráter transversal, do tipo que avalia uma realidade no momento presente. E diagnóstico é isso mesmo, é a tentativa de retratar o que está ocorrendo no presente. Portanto, não se faz necessário seguimento prospectivo. A metodologia consiste na realização do método em questão e na checagem se este método foi capaz de detectar os doentes (sensibilidade = testes positivos/doentes) e detectar os saudáveis (especificidade = testes negativos/saudáveis). Para avaliar se o método faz essa distinção corretamente, precisamos saber quem é realmente doente ou saudável. Desta forma, é necessário que os pacientes realizem outro exame, teoricamente melhor que o exame em questão, o qual é denominado de padrão-ouro ou padrão de referência. Por exemplo, para avaliar a acurácia da angiotomografia de coronárias, o cateterismo cardíaco será o padrão-ouro.

Muito bem, assim se fazem os estudos de acurácia diagnóstica. Para avaliar criticamente um estudo deste tipo, sugiro os seguintes passos:

1) Verifique se o padrão de referência escolhido é adequado, ou seja, realmente o padrão de referência é um método ouro? Um exemplo, um estudo publicado no New England Journal of Medicine, que avaliou acurácia da angiotomografia para o diagnóstico de embolia pulmonar, utilizou angiografia invasiva (OK) ou cintilografia pulmonar (?) ou ultrassom de membros inferiores (???) como padrões de referência. Claro, essas duas últimas referências podem ser de pior acurácia do que a angiotomografia, então não poderiam ser referências.

2) Verifique se a leitura do padrão de referência foi independente da leitura do método avaliado, ou seja, feita por pessoas diferentes, para que o conhecimento do padrão-ouro não influencie da leitura do exame. Além disso, a leitura do método deve ser cega em relação ao quadro clínico do paciente. Se não, o resultado do método não será apenas proveniente do método, mas da visão clínica do observador. As coisas não podem se confundir.

3) Procure pelo viés de verificação (referral bias): esse é o viés mais comum em estudos de acurácia. Ocorre quando nem todos os pacientes avaliados realizam padrão-ouro. A maioria dos estudos que avaliaram a acurácia da cintilografia miocárdica sofreu desse viés. Isso por que os médicos ficavam menos motivados a solicitar cateterismo cardíaco (padrão-ouro) se a cintilografia fosse negativa. Esse viés superestima a sensibilidade e subestima a especificidade. Imaginem se nenhum paciente com teste negativo fizesse o cateterismo e todos os pacientes com teste positivo fizessem o cateterismo. Isso iria provocar sensibilidade de 100% e especificidade de 0%. É só pensar um pouco que dá para entender: todos os pacientes com cateterismo positivo teriam cintilografia positiva (sensibilidade 100%) e nenhum paciente com cateterismo negativo teriam cintilografia negativa, porque só tinha gente com teste positivo (especificidade 0%). Já estudos mais contemporâneos, a exemplo dos que avaliaram a angiotomografia de coronárias, preveniram esse problema, pois recrutaram pacientes que já tinham indicação de cateterismo.

4) Verifique se o estudo é retrospectivo ou prospectivo. Na situação retrospectiva, o estudo é menos confiável,  pois o exame não é realizado com intuito de ser avaliado, na verdade eles são realizados como parte da conduta clínica. Desta forma, sua leitura é menos padronizada e nem sempre cega. Já vi na prática médicos laudando métodos de pesquisa de isquemia miocárdica tendo o laudo do cateterismo para se embasar. Do ponto de vista da geração de conhecimento científico, isso é um grande viés. Os estudos retrospectivos são também muito vulneráveis ao viés de verificação, pois refletem a prática clínica. Diferente de um desenho prospectivo, onde obrigatoriamente o paciente faz o padrão-ouro. Além disso, estudos retrospectivos são mais sujeitos ao viés de publicação, ou seja, têm menos possibilidade de serem publicados se o resultado for negativo. Já o prospectivo não, foi tudo planejado e o autor tem motivação de publicar, independente do resultado. Essa é a explicação para a falácia da avaliação de dissincronia pelo ecocardiograma. Esse método foi tido na década passada como um ótimo exame para predizer resposta à terapia de ressincronização. Porém eram todos estudos pequenos, a maioria retrospectivos, e no máximo deveriam ter gerado hipótese. No entanto, as pessoas se entusiasmaram e começaram a utilizar essa avaliação na prática clínica. Depois ficaram todos perplexos pelo resultado do primeiro estudo prospectivo de grande porte (denominado PROSPECT), que mostrou sensibilidade e especificidade em torno de 50% para a maioria dos parâmetros. Grande lição. Alguns viuvos da avaliação de dissincronia ainda tentam criticar o PROSPECT, mas sem grande repercussão.

5) Finalmente, observem intervalo de confiança das estimativas da sensibilidade e especificidade. Este nos dará a idéia da precisão do que está sendo dito a respeito da acurácia. Há artigos que nem traz esse o intervalo de confiança. Esta omissão é o mesmo que fazer uma comparação entre droga e placebo e não mostrar o valor de P. Lembro-me de um trabalho que encontrou uma especificidade de 85% da tomografia de coronárias. Porém o intervalo de confiança is de 62% a 96%. Ou seja, a precisão da estimativa não era boa, pois o trabalho só tinha 50 pacientes. De acordo com esse trabalho só poderíamos afirmar que a especificidade não é pior que 62%.

Depois de tudo isso, não podemos esquecer de avaliar se as razões de probabilidade são boas, pois tem autor concluindo muita besteira por aí. Além disso, tem gente fazendo conclusões erradas com base apenas no valor preditivo.

Chega a ser divertido ler com atenção artigos de acurácia. Criem esse hábito e vejam com é fácil achar erros. Parece até jogo dos sete erros.

* Essa é a segunda postagem da série Análise Crítica de Métodos Diagnósticos

sábado, 28 de maio de 2011

O que é Acurácia?

Na interpretação de evidências científicas, percebo que os equívocos são mais freqüentes quando se trata de métodos diagnósticos do que quando o assunto se refere a métodos terapêuticos. Na mente médica, a análise crítica da eficácia de uma terapia está mais desenvolvida do que a análise da adequação de um método diagnóstico. Desta forma, vemos métodos de nenhum valor clínico sendo utilizados sob falsas premissas de acurácia. Vemos autores de artigos concluindo pelo valor do método avaliado, quando o próprio trabalho mostra o contário. Chega a ser algo caótico.

Portanto, precisamos discutir em detalhe métodos diagnósticos sob o paradigma da medicina baseada em evidências. Diferentes perguntas devem ser feitas quando analisamos este tipo de evidência: (1) o método é acurado? (2) o método é preciso? (3) Em sendo acurado e preciso, o método é útil clinicamente.

Nessa postagem vamos começar pelo básico, ou seja, pelo primeiro item. O que é acurácia?

Respondendo de forma simples, acurácia é a capacidade do método de acertar o diagnóstico.

Quando estamos diante de um diagnóstico dicotômico (presença ou ausência de doença), os componentes da acurácia são sensibilidade e especificidade. Devemos nos lembrar que um método precisa ter um equilíbrio desses dois parâmetros. Sensibilidade é a capacidade do método em reconhecer os doentes, enquanto especificidade é a capacidade do método em reconhecer os saudáveis. Precisamos discriminar os doentes e saudáveis, portanto precisamos tanto de sensibilidade como de especificidade. É fácil simular a invenção de um método 100% sensível: é só dizer que toda a população é doente. Porém nesse caso teremos 0% de especificidade, ou seja, nenhum saudável será reconhecido como tal. Esse método não serve para nada. Não discrimina nada. Daí surge a importância de pensar sempre nos dois parâmetros conjuntamente.

Para isso existem as razões de probabilidade, que são parâmetros que combinam sensibilidade e especificidade.

1. Razão de probabilidade positiva (sensibilidade / (1 – especificidade) é um número que representa o quanto um método de resultado positivo aumenta a chance de um indivíduo ser doente. Quando mais alto este número, melhor, ou seja: RP positiva: > 10 (acurácia ótima); 5-10 (acurácia moderada); 2-5 (acurácia pequena); 1-2 (acurácia nula).

2. Razão de probabilidade negativa (1 – sensibilidade / especificidade) representa o quanto um método de resultado negativo influencia a chance de um indivíduo ser saudável. Quanto mais próximo de zero, melhor: RP negativa: < 0.1 (acurácia ótima); 0.1-0.2 (acurácia moderada); 0.2-0.5 (acurácia pequena); 0.5-1.0 (acurácia nula).

Seguindo esses números, teremos a noção exata da acurácia de um exame, ou seja, da capacidade do teste em influênciar corretamente nosso pensamento a respeito da presença ou ausência de doença.

Devemos evitar um equívoco grave, porém muito frequente: argumentação de acurácia baseada em valor preditivo, pois este não é uma propriedade intrínseca do método, depende da probabilidade pré-teste da doença. Valor preditivo positivo é a probabilidade de uma pessoa ser doente se o resultado do exame for positivo. Valor preditivo negativo é a probabilidade de a pessoa ser saudável se o teste for negativo. Desta forma, valor preditivo é uma propriedade do indivíduo submetido ao exame, não do exame em si.

Se a probabilidade de doença é muito baixa, qualquer método terá um bom valor preditivo negativo e ruim valor preditivo positivo. Se a probabilidade de doença for muito alta, qualquer método terá ruim valor preditivo negativo e bom valor preditivo positivo.

Por exemplo, um método muito ruim pode ter um excelente valor preditivo negativo se quase ninguém tiver a doença. Em 2009, foi publicado um artigo nos Arquivos Brasileiros de Cardiologia que sugeria ser a cintilografia miocárdica realizada durante dor precordial um bom método para ser usado em pacientes com dor torácica aguda. O argumento era baseado em um bom valor preditivo negativo. Porém as razões de probabilidade eram muito ruins (RP positiva = 1.6 e RP negativa = 0.3), pois a especificidade era ruim (46%) com sensibilidade de 86%. Mas mesmo assim, o valor preditivo negativo foi 98%. Baseado nisso, o autor concluiu que o método teria valor, porém esse valor preditivo se deveu basicamente à probabilidade pré-teste baixa (6% apenas). Ou seja, mesmo que o método seja péssimo, sendo a probabilidade de doença muito baixa, é só dizer que o resultado é negativo que teremos boa possibilidade de acertar.

O mesmo ocorre com o exame de sangue oculto nas fezes como pesquisa de câncer do colon. Um estudo publicado em 2005 no Annals of Internal Medicine mostrou sensibilidade mínima (5%) e especificidade excelente (97%). Mesmo com essa especificidade, devido à baixa sensibilidade, o método não tem valor nenhum. RP positiva = 1.7e RP negativa = 0.98. Ou seja, o resultado do método não muda em nada a chance do paciente ser doente. Mesmo assim, o valor preditivo negativo do método foi 90%. Isso porque a prevalência de câncer era 10%, ou seja, 90% dos pacientes não eram doentes. Ou seja, de acordo com esse artigo de boa qualidade metodológica, a pesquisa de sangue oculto nas fezes não tem valor nenhum. Então porque esse exame existe? Deve ser porque as pessoas não têm o hábito de procurar as evidências de acurácia e mesmo se procuram há grande confusão em relação ao que significa cada um desses parâmetros de acurácia.

Percebam bem como nós aprendemos medicina na faculdade: partindo de um quadro clínico, surge uma suspeita diagnóstica. Para cada suspeita aprendemos os exames que devem ser pedidos para confirmar ou afastar a suspeita. Pronto. Pouco se discute qual a acurácia dos métodos, muitas vezes isso nem está escrito nos livros. Devemos criar o hábito de procurar essas evidências, procurar saber quais as razões de probabilidade, pois este conhecimento vai melhorar tanto a utilização dos exames, como a interpretação de seus resultados.

Em postagem futura, apresentaremos um roteiro de avaliação crítica das evidências relativas a acurácia. Precisamos analisar criticamente os trabalhos que nos trazem essas informações.

* Essa postagem representa o início da série "Análise Crítica de Métodos Diagnósticos".

quarta-feira, 4 de maio de 2011

CHADSVASc: Uma Prosposta Inadequada


No ano passado, o Guideline Europeu de Fibrilação Atrial propôs que os cardiologistas passassem a utilizar um novo escore de risco para predição de acidente vascular cerebral em pacientes com fibrilação atrial. Deixaríamos de lado o velho escore CHADS2 e passaríamos a usar o novo CHADSVASc. Esse escore tornou-se uma sensação, sendo enfatizado em eventos científicos, nos quais especialistas em arritmia têm proposto a utilização do CHADSVASc como uma evolução na condução do paciente com fibrilação atrial. Utilizando este escore, seríamos capazes de identificar melhor os pacientes que necessitam de anticoagulação, pois faríamos uma melhor estimativa do risco de AVC. Esse foi o racional para o CHADSVASc.

Mas como proceder após ouvir uma sugestão de mudança de conduta médica? Claro, devemos analisar as evidências científicas que embasam o que está sendo proposto. Aqui falamos da evidência científica a favor de um modelo preditor de risco. Em fevereiro de 2010 foi publicado no CHEST o trabalho que avaliou e comparou o CHADSVASc com outros escores de risco, o qual acompanhou prospectivamente 1.080 pacientes sem anticoagulante e com fibrilação atrial. Devemos ler este trabalho e julgar o valor do novo escore.

O que um escore de risco precisa fazer é discriminar (diferenciar, distinguir) os pacientes que no futuro terão o desfecho e aqueles que permanecerão livres do desfecho. Análise discriminatória é mensurada pela área abaixo da curva ROC, também chamada de estatística-C, quando se fala de prognóstico. Resumidamente, a curva ROC é construída por vários pontos hipotéticos que são plotados em um gráfico cujo eixo vertical é a sensibilidade do marcador em reconhecer os que terão desfecho, enquanto o eixo horizontal é o complemento da especificidade (1-especificidade), que significa os pacientes sem eventos erradamente rotulados como pacientes que teriam desfecho. Parece complicado, mas essa plotagem gera uma curva, cuja área abaixo dela representa a capacidade discriminatória do escore (ou do teste) que está sendo avaliado (vide figura acima). Em outras palavras, a área abaixo da curva representa a probabilidade de um paciente que terá o desfecho ter um escore de risco maior do que um paciente que não terá o desfecho. Se essa probabilidade for 100%, o teste é perfeito e a área abaixo da curva (estatística-C) seria igual a 1. Sendo assim, quanto mais próximo de 1, melhor o teste. Se um teste não tiver nenhuma capacidade discriminatória, sua área abaixo da curva seria 0.5, ou seja, 50% de probabilidade de um paciente que terá o desfecho ter um escore de risco maior do que um paciente que não terá o desfecho. Entre 0.5 e 1.0, o escore tem diferentes níveis de capacidade discriminatória.

Desta forma, quando temos um novo teste ou um novo escore, devemos comparar sua estatística-C com a do escore antigo. Calcula-se que um ganho de pelo menos 0.05 na estatística-C é necessário para considerar um valor incremental relevante. Vamos então comparar a estatística-C do velho CHADS2, com a estatística-C do novo e entusiástico CHADSVASc. De acordo com o trabalho do CHEST, a estatística-C do CHADSVASc é 0.61, comparado a 0.59 do CHADS2. Ou seja, não houve praticamente nenhum incremento, o que nos impede de dizer (como estão dizendo) que o CHADSVASc é melhor.

Além de analisar a capacidade discriminatória, devemos analisar se um escore é capaz de estimar corretamente a probabilidade numérica de eventos em diferentes subgrupos, estratificados por faixa de risco. Isso se chama de calibração. Um escore calibrado é aquele que nos permite predizer com boa acurácia qual a probabilidade de que um indivíduo apresentar o desfecho. Ou seja, se eu digo que um paciente tem a probabilidade estimada de 3% de AVC, ao analisar uma amostra desse tipo de paciente, a incidência de evento deve ser algo próximo a isso. O problema é que o trabalho que valida o CHADSVASc não sugere que teremos uma ferramenta calibrada, pois as estimativas de risco são menos precisas devido à maior amplitude de seus possíveis resultados (0 a 9). Além disso, os intervalos de confiança das estimativas de risco de acordo com as pontuações são amplos (menos precisos) e bastante superponíveis. Só para demonstrar isso claramente, CHADSVASc de 2 a 6 tem risco de, respectivamente, 1.6%, 3.9%, 1.9%, 3.2%, 3.6%. Não há nenhum gradiente, nem nas medidas pontuais, nem nos intervalos de confiança (vide tabela abaixo). Já quando olhamos o CHADS2, percebemos que as 6 classes distinguem bem o risco do paciente (1.9%, 2.8%, 4.0%, 5.9%, 8.5%, 12.5%, 18.2%) e os intervalos de confiança não são superponíveis. CHADS2 um escore melhor calibrado.

O CHADSVASC classifica um maior número de pacientes como alto risco, porém sua estatística-C não é melhor do que o CHADS2. Isso indica que boa parte dessas reclassificações como alto risco estão erradas. E isso deve ser verdade. Por exemplo, um escore de 8 seria alto pelo CHADSVASc. Isso indica 8% de risco de AVC, mas vejam o intervalo de confiança: 1% a 26%, que imprecisão!


Ou seja, não vale muito coisa esse novo CHADSVASc.

O Guideline Europeu apresenta uma tabela que mostra o risco de acordo com o valor do CHADSVASc. Aquela tabela dá a impressão de uma boa relação entre risco e CHADSVASc. Inclusive a tabela cita um artigo de 7.000 pacientes, que "validou" aqueles números. Li o artigo. Primeiro, é uma amostra de pacientes submetidos a ensaios clíncios que comparam anticoagulantes (Warfarin x Ximelagatran), ou seja, a população não é adequada para avaliar risco, pois todos estão anticoagulados (diferente dos outros trabalhos que validaram os escores). Então ele ajusta a probabilidade de AVC para se o paciente não estivesse usando anticoagulante. Como? Empiricamente, manualmente, o autor aumenta o risco de cada grupo em 70%. E apresenta os riscos, sem intervalo de confiança. Ou seja, na verdade os riscos apresentados na tabela não são dados estatísticos verdadeiros. São resultantes de uma grande exptrapolação, nos apresentada sem intervalos de confiança, ou seja, sem a medida da imprecisão. O que vale mesmo é o artigo original do CHADSVASc. Esse é metodologicamente correto e não mostra boa calibração.

Mas porque então este novo escore foi proposto? Talvez haja uma vantagem em classificar mais pessoas como alto risco, mesmo errando parte dessas classificações. O uso do CHADSVASc vai implicar em maior número de pacientes anticoagulados. Mas qual a vantagem de anticoagular mais pacientes? Bem, o lançamento do CHADSVASc está coincidindo como lançamento do Dabigatran, o novo anticoagulante oral, de eficácia comprovadamente não inferior à Warfarina e muito mais prático de usar. Sendo mais prático, será mais atraente indicar o tratamento para mais pessoas. No final, mais pessoas usarão Dabigatran. Ou estou imaginando demais?

Na verdade, o que precisamos é anticoagular os pacientes que realmente precisam ser anticoagulados, o que não ocorre de forma ideal na prática. Não precisamos rotular, de forma imprecisa, mais pacientes como indicados para anticoagulação.

Precisamos também entender que um escore melhor é aquele capaz de discriminar melhor (estatística-C) e capaz de predizer a probabilidade de eventos de maneira correta (calibração). Isso é predição baseada em evidências.

quinta-feira, 28 de abril de 2011

Aliskireno: uma Droga Não Embasada em Evidências



Hoje me deparei com uma senhora de 92 anos, em uso regular de Aliskireno como monoterapia para sua hipertensão arterial sistêmica. Se alguém questionar se realmente esta droga está indicada, o médico da paciente terá uma boa resposta, na ponta da língua: essa é uma das indicações respaldadas pela mais nova Diretriz Brasileira de Hipertensão (2010). Isso mesmo, no capítulo Tratamento Medicamentoso, no item Escolha do Medicamento, tem escrito: “Qualquer medicamento do grupo de anti-hipertensivos comercialmente disponíveis pode ser utilizado para o tratamento da hipertensão arterial (Tabela 2).” Na Tabela 2, lá no final lemos: inibidores diretos da renina, ou seja, Aliskireno. Pronto, a conduta médica está respaldada, e nada melhor que por uma Diretriz.

Mas qual o problema do Aliskireno? O problema é que não sabemos se seu efeito terapêutico oferece o mesmo benefício que drogas já consagradas por evidências científicas. Diuréticos, inibidores da ECA e antagonistas dos canais de cálcio possuem comprovação científica de que sua utilização promove redução do risco de eventos cardiovasculares, tipo infarto, AVC, óbito. Estas classes de drogas possuem efeito anti-AVC, anti-infarto, anti-morte. Quanto ao Aliskireno, por enquanto esta é apenas uma droga anti-hipertensiva. Ou no máximo, um anti-microalbuminúria ou anti-hipertrofia do ventrículo esquerdo. Mas estes são desfechos substitutos, sem garantia de benefício clínico. Portanto, o tal do Aliskireno não pode ter o mesmo nível de indicação do que as outras drogas.

Pode ser tão benéfico quanto os outros, pode ser benéfico em um menor grau, ou pode até ser maléfico. Maléfico? Sim, isso acontece. Torcetrapib aumentou HDL-colesterol em 70%, porém aumentou mortalidade. Rosiglitazona reduz glicemia, porém há evidências de que aumenta eventos cardiovasculares. Sibutramina reduz peso, mas aumenta eventos cardiovasculares. Doxazozin, um anti-hipertensivo testado no estudo ALLHAT, aumentou eventos cardiovasculares.

Um exemplo bem atual é o ensaio clínico ROADMAP, publicado no New England Journal of Medicine, o qual demonstrou que Olmesartana (bloqueador do receptor da angiotensina) reduz microalbuminúria em diabéticos, porém aumenta de mortalidade cardiovascular. Devemos salientar que essa informação não é definitiva, pois consistiu de um desfecho secundário, o qual tem maior probabilidade de ser proveniente do acaso (erro tipo I). Por outro lado, não há comprovação prévia de que Olmesartana reduz desfechos cardiovasculares em hipertensos e na ausência dessa evidência o possível aumento de risco ganha mais importância. No entanto, Olmesartana é uma droga bastante prescrita pelos médicos, um verdadeiro blockbuster, também respaldado pela Diretriz de Hipertensão.

Mas porque as Diretrizes colocam certas drogas em um patamar desmerecido por suas evidências? Dentre os 110 autores da Diretriz (quanta gente), ninguém sabia do nível de evidência do Aliskireno? Improvável, até mesmo porque está escrito na Diretriz que faltam estudos grandes, de desfechos clínicos. Mas mesmo assim, lá está ele na tabela de opções, ao lado das drogas tradicionais.

Percebe-se que mesmo ambientes como o da realização de uma diretriz médica carecem do paradigma da medicina baseada em evidências. Ao mesmo tempo, 58% dos 110 membros da Diretriz de Hipertensão têm conflitos de interesse. Esse número deveria ser muito menor. Quem sabe aí não está a explicação para o sucesso do Aliskireno? Não era pra ser assim ...

quinta-feira, 21 de abril de 2011

STICH Trial: uma Mudança de Paradigma



Desde que me formei cardiologista, aprendi que o paciente coronariano que mais se beneficia da revascularização miocárdica é aquele com disfunção ventricular esquerda. Mas nunca busquei o nível de evidência que suportava esse conhecimento, considerava isso uma verdade absoluta e guiei minhas condutas a partir deste paradigma. Eu achava que essa verdade vinha do estudo CASS, que mostrou ser o subgrupo de pacientes com disfunção ventricular esquerda o único com tendência a benefício da cirurgia. Mas nunca parei para perceber que o estudo CASS excluía pacientes com fração de ejeção menor que 35% (severe dysfunction, como se fala em inglês). Ou seja, a idéia de que pacientes com disfunção severa se beneficiavam da cirurgia era uma extrapolação.

Já comentei nesse Blog que às vezes ampliamos a validade externa de alguns estudos para além da amostra estudada. Isso pode ser aceitável se for uma decisão cuidadosa e pautada em plausibilidade clínica. No entanto, neste caso também há plausibilidade clínica para que a cirurgia em pacientes com disfunção não seja benéfica: o elevado risco cirúrgico.

Foi então que em 2002 se iniciou o STICH Trial, um ensaio clínico randomizado para testar a hipótese de que cirurgia traz benefício adicional ao tratamento clínico em pacientes com disfunção sistólica do ventrículo esquerdo de grau severo. Este estudo, financiado pelo National Institute of Health (NIH), randomizou 1200 pacientes para cirurgia de revascularização + tratamento clínico versus tratamento clínico. Nove anos depois de seu início, o resultado desse estudo foi apresentado no congresso do American Heart Association e publicado simultaneamente no New England Journal of Medicine. Ficou demonstrado que a mortalidade geral, objetivo primário do estudo, foi semelhante entre os dois grupos. Ou seja, a cirurgia não oferece benefício adicional.

Mas antes de aceitar a veracidade dessa informação, temos que fazer nossa análise metodológica. Vamos lá.

Quando um estudo mostra diferença entre grupos, nos preocupamos com a probabilidade da diferença ser por acaso (erro tipo I). Aí verificamos o valor de P, que representa exatamente essa probabilidade.

Mas neste caso é diferente. Quando nos deparamos com um estudo “negativo” (ausência de diferença entre grupos), devemos nos questionar se aquele achado representa um erro tipo II. Erro tipo II significa não encontrar uma diferença que na realidade existe; ou como dizem os estatísticos, aceitar uma falsa hipótese nula. Esse erro decorre de baixo poder estatístico. Portanto, sempre que temos um estudo negativo, devemos ler na metodologia do trabalho se há poder estatístico adequado. Para se considerar adequado, o poder estatístico deve ser de pelo menos 80%, resultando em probabilidade do erro tipo II (100% – poder) menor que 20%. Em ciência, 20% é a máxima probabilidade aceitável do erro tipo II.

Os autores calcularam que precisariam de 400 mortes para ter um poder estatístico de 90% na detecção de uma diferença relativa de 25% na mortalidade entre os grupos. Olhando os resultados do estudo, percebemos que houve 462 mortes no seguimento de cinco anos, portanto o poder estatístico foi maior que 90%. Se o poder é maior que 90%, consideramos que a probabilidade do erro tipo II é menor que 10% - excelente, podemos aceitar o resultado, pois há baixa probabilidade desse tipo de erro.

Outros critérios reafirmam a veracidade da informação: mortalidade foi o desfecho pré-estabelecido como primário, a randomização resultou em dois grupos homogêneos (ausência de variáveis de confusão), a análise foi por intenção de tratar (ausência de viés na análise de dados), não houve cross-over excessivo que invalidasse a análise dos resultados, os cirurgiões foram de boa qualidade (ausência de viés de aplicação da técnica de tratamento), o estudo não foi truncado. Enfim, a essa pode ser considerada uma evidência de boa qualidade.

Mas podem esperar. Logo surgirão as viúvas do estudo STICH (todo estudo tem viúvas, aquelas que se sentem desamparados pelo resultado do estudo), que vão arranjar críticas para invalidar o trabalho. Algumas dessas críticas serão esdrúxulas, outras um pouco mais sérias, porém insuficientes para invalidar a informação científica.

Grande esforço foi aplicado para nos oferecer a informação científica que precisávamos, 1200 pacientes foram voluntários, nove anos de estudo, milhões de dólares, várias cabeças pensantes. Tudo isso para a evidência ser rejeitada? Não, temos que valorizar o que há de bom, mesmo que a informação vá de encontro com nossas crenças iniciais.

Mas porque a cirurgia não reduziu mortalidade? A análise de curvas de sobrevida nos fornece vários insights sobre como as coisas acontecem. Estes tipos de gráficos parecem mágicos em retratarem fenômenos ao longo do tempo, temos que prestar muita atenção neles. Percebam na curva de sobrevida que no primeiro ano o grupo cirúrgico tem maior tendência a morte e só a partir do terceiro ano que a cirurgia começa a proteger os pacientes. De uma forma prática: no início a cirurgia mata mais, porém quem não morre vai desfrutar de benefício no futuro, após vários anos. Dentre os que morrem, os pacientes do grupo cirúrgico morrem antes, pois o mecanismo de sua morte é a cirurgia propriamente dita. Se o poder estatístico fosse ainda maior ou o seguimento fosse de 10 anos, poderia se encontrar uma pequena redução na freqüência de morte no grupo cirúrgico, mas esse raciocínio de temporalidade faz com que esse benefício modesto não compense (se existir). Tempo de vida é uma coisa importante.

Claro, isso não quer dizer que um paciente com disfunção severa nunca será operado. Paciente com angina de difícil controle (classe canadense III ou IV), lesão de tronco de coronária esquerda ou até mesmo com insuficiência cardíaca refratária devem ser operados. Aí entra o paradigma do paraqueda, da plausibilidade extrema. Por isso que estes pacientes foram excluídos do estudo.

O estudo foi apresentado no congresso do AHA com um viés de positividade, focado em desfechos secundários. Mas nunca devemos colocar desfechos secundários como hierarquicamente mais importantes do que o desfecho primário, pois os primeiros têm maior probabilidade do erro tipo II. Além disso, não importa ter redução de mortalidade cardiovascular (desfecho secundário – P = 0.05) sem redução de mortalidade geral. O que imposta é não morrer. Morrer é morrer, independente do mecanismo. Pior ainda quando esse morrer acontece mais precocemente no grupo cirúrgico. Por isso que o Gregg Stone, coordenador da sessão, precisou intervir e lembrar do básico: este foi um estudo negativo.

Fica aqui a pergunta. Quantos pacientes de alto risco cirúrgico, com disfunção sistólica severa tiveram suas cirurgias indicadas com base em um falso paradigma e se prejudicaram com essa conduta? Devemos sempre lembrar que condutas não embasadas podem ser prejudiciais. Essa evidência não necessariamente proibe a cirurgia, mas nos dá a possibilidade de decidir com base em indicações mais concretas do que simplesmente na presença de doença coronária com disfunção ventricular severa.

E assim mais um paradigma é derrubado. Costumo dizer que muitos paradigmas são derrubados pois nunca deveriam ter sido criados. Não adianta um porquinho construir uma casa de palha, pois o lobo sopra e derruba com facilidade. Aqui o sopro do lobo é a evidência científica. Na verdade, nunca houve esse paradigma.

domingo, 17 de abril de 2011

Tostão e a Medicina Baseada em Evidências



Para quem não sabe, Tostão, tricampeão brasileiro de futebol, também é médico. Tostão escreve sobre esporte como nós médicos devemos pensar sobre medicina. Sempre mantém um pensamento critico, separando o que tem valor do que não vale nada.

Em sua última coluna, Tostão escreveu “É óbvio que informações estatísticas são importantíssimas. Mas exageram. Impressiona-me como se formam conceitos, dão opiniões, baseados em estatísticas que têm pouca ou nenhuma importância.” Que semelhança com nossa realidade médica!

Ele usou como exemplo a notícia da Globo de que Neymar foi o primeiro jogador a fazer dois gols contra a Escócia. Que imbecilidade de notícia ... Isso acontece em medicina todo dia. Exemplos múltiplos em cada postagem desse Blog.
Tostão é um comentarista baseado em evidências. Não é maria vai com as outras, separa o que é relevante do que é inútil. Como médicos, devemos seguir seu exemplo. E para os que gostam de futebol, devemos sempre ler Tostão, pois ele tem coragem de falar o que os Galvão Buenos não falam. Mais uma semelhança com a comunidade médica baseada em evidências.

Acho que Tostão deveria começar a escrever editoriais para revistas científicas.

Tostão, obrigado pelo tricampeonato mundial da seleção canarinha.
Mais do que isso, obrigado por nos mostrar como pensar.

quarta-feira, 13 de abril de 2011

O Sistema GRADE: Uma proposta que combina a força da recomendação e qualidade da evidência para orientar quais condutas devem ser adotadas ou evitadas na prática clínica

Artigo postado pelo Professor Antônio Alberto Lopes - Professor Associado, Livre-Docente de Nefrologia, Epidemiologia Clínica e Medicina Baseada em Evidências, Mestre em Saúde Pública e PhD em Ciência Epidemiológica pela Universidade de Michigan

No sentido de uniformizar os critérios usados para definir recomendações para condutas clínicas foi desenvolvido mais recentemente um sistema denominado “Grading of Recommendations, Assessment, Development and Evaluation” (GRADE) (1-5). Comparado com outros sistemas, o Sistema GRADE define de uma forma mais clara e objetiva o nível (qualidade) de evidência científica e força (ênfase) da recomendação para se adotar ou não adotar uma determinada conduta. O Sistema GRADE foi inicialmente idealizado para uso em diretrizes clinicas baseadas em evidências. O uso, no entanto, tem sido mais amplo passando a ser adotado por sistemas de informação eletrônica como o popular UPTODATE.

Força da Recomendação

No sistema GRADE a força recomendação para apoiar uma conduta é considerada forte quando as evidências disponíveis permitem concluir que os benefícios suplantam os malefícios (Quadro 1). Quando as evidências permitem concluir que a conduta é claramente maléfica, a força da recomendação para evitar a conduta é também considerado forte. Contrariamente, quando a relação entre benefícios e riscos não é muito clara o força da recomendação é considerado fraca. A recomendação forte é designada como “1” e a fraca como “2” no Sistema Grade.

 
1 – Forte: As vantagens de uma dada conduta claramente suplantam as desvantagens; ou então, as desvantagens claramente suplantam as vantagens.

2 – Fraco: Há um certo grau de incerteza sobre a relação entre vantagens e desvantagens de uma dada conduta.

Qualidade da Evidência

É importante observar a qualidade das fontes de evidência em que se baseia uma recomendação para adotar ou não adotar uma conduta, considerando que as fontes primárias de informação variam de forma muita ampla em sua qualidade científica. No sistema GRADE a qualidade da evidência tem sido classificada em quatro níveis2: alto, moderado, baixo, muito baixo, conforme mostrado na Quadro 2. É importante observar, no entanto, que tem sido verificada uma tendência para simplificar a classificação do nível ou qualidade da evidência combinando o nível baixo e o muito baixo em um único nível (6-8).

A - Alta - Este nível de evidência ocorre quando os resultados são provenientes de ensaios clínicos randomizados bem planejados e conduzidos, com grupos paralelos, com controles adequados, análise de dados adequada e achados consistentes tendo como alvo o desfecho clínico de interesse para o médico e o paciente. Em algumas situações estudos observacionais podem ser considerados de nível alto de qualidade para apoiar recomendações, inclusive terapêuticas. Este nível de evidência para estudo de tratamento é possível ocorrer com estudo observacional, particularmente com coorte prospectivo quando é bem planejado e conduzido utilizando métodos especiais de análise para controle de variáveis de confusão e mostrando efeitos muito fortes de intervenções terapêuticas que não podem ser explicados por potenciais vieses.

Quando a qualidade da evidência é considerada alta é muito improvável que trabalhos adicionais irão modificar a confiança na estimativa do efeito.

B - Moderada - Este nível de evidência ocorre quando os resultados são provenientes de ensaios clínicos randomizados com importantes problemas na condução, inconsistência nos resultados, avaliação de um desfecho substituto (surrogate endpoint) em lugar de um desfecho de maior interesse par ao médico e paciente, imprecisão nas estimativas e vieses de publicação. Os resultados podem ser também provenientes de estudos observacionais.

Quando a qualidade da evidência é considerada moderada trabalhos adicionais ainda não publicados poderão modificar a nossa confiança na estimativa de efeito podendo, inclusive, modificar a estimativa.

C - Baixa - Este nível de evidência ocorre quando os resultados são provenientes de estudos observacionais, mais especificamente estudos de coorte e caso-controle, considerados altamente susceptíveis a vieses. Pode ser também ensaios clínicos com importantes limitações.

Quando a qualidade da evidência é considerada baixa outros trabalhos ainda não publicados (particularmente ensaios clínicos com melhor qualidade metodológica) muito provavelmente terão um importante impacto na nossa confiança na estimativa de efeito.

D - Muito Baixa - Este nível de evidência ocorre quando os resultados são provenientes de estudos observacionais não controlados e observações clinicas não sistematizadas, exemplo relato de casos e série de casos.

Quando o qualidade da evidência é muito baixa qualquer estimativa de efeito deve ser vista como incerta.

• No UPTODATE as categorias C e D são combinadas em uma única categoria, ou seja categoria C.


Ao combinar força da recomendação e qualidade da evidência são obtidos os graus de recomendação, ou seja GRADE 1A, GRADE 1B, GRADE 1C, GRADE 1D, GRADE 2A e assim em diante.


REFERÊNCIAS

1. Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ 2008;336:924-6.

2. Guyatt GH, Oxman AD, Kunz R, Vist GE, Falck-Ytter Y, Schunemann HJ. What is "quality of evidence" and why is it important to clinicians? BMJ 2008;336:995-8.

3. Guyatt GH, Oxman AD, Kunz R, et al. Going from evidence to recommendations. BMJ 2008;336:1049-51.

4. Schunemann HJ, Oxman AD, Brozek J, et al. Grading quality of evidence and strength of recommendations for diagnostic tests and strategies. BMJ 2008;336:1106-10.

5. Guyatt GH, Oxman AD, Kunz R, et al. Incorporating considerations of resources use into grading recommendations. BMJ 2008;336:1170-3.

6. UPTODATE: Acessado em 20/11/2010 no endereço http://www.uptodate.com/.

segunda-feira, 11 de abril de 2011

A Farsa da Pioglitazona para Não Diabéticos


Há duas semanas, foi publicado New England Journal of Medicine o ensaio clínico ACT NOW, o qual randomizou 600 pacientes não diabéticos para utilizar Pioglitazona ou placebo. A conclusão do artigo nos faz acreditar que é bom iniciar tratamento para diabetes em quem não é diabético: "As compared with placebo, pioglitazone reduced the risk of conversion of impaired glucose tolerance to type 2 diabetes mellitus by 72%".

Mas porque uma pessoa não diabética teria que usar um hipoglicemiante oral? Iniciar um tratamento para uma doença em pessoas que não são doentes? Colocado desta forma, a idéia parece questionável. Mas tem muita gente que acha isso uma boa idéia. Esse é um dos muitos exemplos da mentalidade do médico ativo, a qual nos induz a aceitar essa idéia, visto que a população-alvo do estudo envolve pacientes com predisposição a diabetes (indivíduos com intolerância à glicose).

Por outro lado, não podemos ter preconceito só porque a proposta é tratar pessoas não doentes. O que precisamos fazer é analisar criticamente a evidência do artigo, aceitar se for uma boa evidência e rejeitar se for uma evidência insuficiente. Costumo dizer que temos que nos render às boas evidências, só precisamos antes avaliar se a evidência é boa mesmo.

Um argumento a favor desta evidência seria sua publicação na mais importante revista médica, o New England Journal of Medicine. Mas não podemos nos enganar, isso não é garantia de qualidade. Mesmo os artigos do New England Journal of Medicine devem ser analisados criticamente. Então vamos lá.

No ACT NOW, durante seguimento de dois anos, a proporção de pessoas cuja avaliação periódica de glicemia apresentou critérios para diabetes foi menor no grupo Pioglitazona, em relação ao grupo placebo. Esse achado completa critérios de veracidade, visto que este foi o objetivo primário, o estudo tinha poder estatístico para este desfecho laboratorial, o estudo não foi truncado e a diferença foi estatisticamente significante. Ou seja, de fato não diabéticos que utilizam Pioglitazona terão glicemia mais baixa do que não diabéticos que não utilizam a droga. Nada mais óbvio do que isso.

Por outro lado, dizer que este achado laboratorial significa prevenção de desenvolvimento de diabetes é uma verdadeira farsa, pois a avaliação laboratorial foi realizada sob o uso da droga. Suponhamos que o grupo Pioglitazona na verdade tivesse apresentado maior conversão para diabetes. Esse resultado seria mascarado pelo fato de que a avaliação laboratorial foi realizada sob o uso de hipoglicemiante oral apenas nesse grupo. Para falar em redução do desenvolvimento de diabetes, a droga teria que ter sido suspenda dias antes da avaliação laboratorial, para que os grupos fossem comparados em condições iguais. Portanto, esse estudo apenas nos diz que a glicemia fica mais baixa se Pioglitazona está sendo utilizada. Na verdade, pode não ter havido nenhuma mudança metabólica intrínseca no grupo Pioglitazona, apenas o resultado é reflexo do uso da droga no dia da medida laboratorial da glicemia. Esse é um bom exemplo de viés de mensuração da variável desfecho.

Mas vamos supor que esse grosseiro viés não existisse e os autores houvessem de fato demonstrado redução na conversão para diabetes com uso de Pioglitazona. Isso nos autorizaria a utilizar a medicação em não diabéticos? Aí entra a questão dos desfechos substitutos.

Desfechos substitutos são variáveis laboratoriais ou fisiológicas que são utilizadas em estudos que não têm poder estatístico para avaliar desfechos clínicos. Por exemplo, redução da pressão arterial é um desfecho substituto, enquanto redução de AVC é um desfecho clínico. Melhora da densidade óssea da densitometria é um desfecho substituto, enquanto redução da incidência de fratura é um desfecho clínico. Desfecho clínico é o que o paciente sente, é morbidade ou mortalidade, é qualidade de vida ou tempo de sobrevida. Desfecho substituto é apenas uma medida de exame complementar.

Espera-se que a influência da droga no desfecho substituto se reflita em benefício clínico. O problema é que a história da ciência médica está repleta de situações nas quais um aparente benefício em desfecho substituto não causa benefício clínico e às vezes causa até malefício. Poderiamos citar vários destes exemplos, mas vou me limitar a apenas um que tem tudo a ver com a questão da Pioglitazona: o caso da Rosiglitazona.

Como já comentamos neste Blog, Rosiglitazona foi um hipoglicemiante oral utilizado apenas com base no conhecimento de que a droga reduzia glicemia (desfecho substituto). Virou um sucesso comercial. Anos depois, foi publicado o estudo RECORD, dimensionado para avaliar desfechos clínicos. Resultado, o estudo não demonstrou benefício clínico, sendo observado aumento da incidência de insuficiência cardíaca. Desta forma, no ano passado a droga foi teve seru uso restrito.

O desfecho primário do ACT NOW foi a dosagem de glicemia de jejum > 125 mg/dl. Para disfarçar isso de desfecho clínico, os autores denominaram “desenvolvimento de diabetes.” Como se fosse uma ocorrência clínica. Foi até calculado o NNT (número necessário a tratar) para prevenção de um caso de diabetes. Até uma curva de incidência cumulativa de diabetes for criada. Tudo isso um desfecho substituto parecer desfecho clínico.

Diabetes só seria desfecho clínico se fossem utilizados sintomas de diabetes como critérios. E mesmo assim, seria um desfecho clínico menor. O que interesse mesmo é se a terapia em questão é capaz de reduzir a incidência de desfechos cardiovasculares (morte, infarto, AVC), insuficiência renal, sintomas de retinopatia hipertensiva. E não temos garantia disso. Lembrem-se que a Rosiglitazona reduz glicemia e aumenta eventos cardiovasculares.

Neste contexto, é surreal a sugestão do uso de uma glitazona, com base em um pequeno estudo de desfecho substituto e em pessoas que nem diabéticas são.

Esse é um grande exemplo da tendência trazida pelos interesses comerciais. Em primeiro lugar, se rotula de doente uma população sem doença. Em segundo lugar, inventa-se que esse grupo de pessoas precisa ser medicada. Pronto, lucro certo.

A indústria farmacêutica costuma utilizar desfechos substitutos para convencer médicos ingênuos do uso de terapias de eficácia desconhecida. Um estudo de desfecho substituto tem valor científico para gerar uma hipótese de eficácia, mas está longe de ser suficiente para modificar conduta clínica.