sábado, 28 de maio de 2011

O que é Acurácia?

Na interpretação de evidências científicas, percebo que os equívocos são mais freqüentes quando se trata de métodos diagnósticos do que quando o assunto se refere a métodos terapêuticos. Na mente médica, a análise crítica da eficácia de uma terapia está mais desenvolvida do que a análise da adequação de um método diagnóstico. Desta forma, vemos métodos de nenhum valor clínico sendo utilizados sob falsas premissas de acurácia. Vemos autores de artigos concluindo pelo valor do método avaliado, quando o próprio trabalho mostra o contário. Chega a ser algo caótico.

Portanto, precisamos discutir em detalhe métodos diagnósticos sob o paradigma da medicina baseada em evidências. Diferentes perguntas devem ser feitas quando analisamos este tipo de evidência: (1) o método é acurado? (2) o método é preciso? (3) Em sendo acurado e preciso, o método é útil clinicamente.

Nessa postagem vamos começar pelo básico, ou seja, pelo primeiro item. O que é acurácia?

Respondendo de forma simples, acurácia é a capacidade do método de acertar o diagnóstico.

Quando estamos diante de um diagnóstico dicotômico (presença ou ausência de doença), os componentes da acurácia são sensibilidade e especificidade. Devemos nos lembrar que um método precisa ter um equilíbrio desses dois parâmetros. Sensibilidade é a capacidade do método em reconhecer os doentes, enquanto especificidade é a capacidade do método em reconhecer os saudáveis. Precisamos discriminar os doentes e saudáveis, portanto precisamos tanto de sensibilidade como de especificidade. É fácil simular a invenção de um método 100% sensível: é só dizer que toda a população é doente. Porém nesse caso teremos 0% de especificidade, ou seja, nenhum saudável será reconhecido como tal. Esse método não serve para nada. Não discrimina nada. Daí surge a importância de pensar sempre nos dois parâmetros conjuntamente.

Para isso existem as razões de probabilidade, que são parâmetros que combinam sensibilidade e especificidade.

1. Razão de probabilidade positiva (sensibilidade / (1 – especificidade) é um número que representa o quanto um método de resultado positivo aumenta a chance de um indivíduo ser doente. Quando mais alto este número, melhor, ou seja: RP positiva: > 10 (acurácia ótima); 5-10 (acurácia moderada); 2-5 (acurácia pequena); 1-2 (acurácia nula).

2. Razão de probabilidade negativa (1 – sensibilidade / especificidade) representa o quanto um método de resultado negativo influencia a chance de um indivíduo ser saudável. Quanto mais próximo de zero, melhor: RP negativa: < 0.1 (acurácia ótima); 0.1-0.2 (acurácia moderada); 0.2-0.5 (acurácia pequena); 0.5-1.0 (acurácia nula).

Seguindo esses números, teremos a noção exata da acurácia de um exame, ou seja, da capacidade do teste em influênciar corretamente nosso pensamento a respeito da presença ou ausência de doença.

Devemos evitar um equívoco grave, porém muito frequente: argumentação de acurácia baseada em valor preditivo, pois este não é uma propriedade intrínseca do método, depende da probabilidade pré-teste da doença. Valor preditivo positivo é a probabilidade de uma pessoa ser doente se o resultado do exame for positivo. Valor preditivo negativo é a probabilidade de a pessoa ser saudável se o teste for negativo. Desta forma, valor preditivo é uma propriedade do indivíduo submetido ao exame, não do exame em si.

Se a probabilidade de doença é muito baixa, qualquer método terá um bom valor preditivo negativo e ruim valor preditivo positivo. Se a probabilidade de doença for muito alta, qualquer método terá ruim valor preditivo negativo e bom valor preditivo positivo.

Por exemplo, um método muito ruim pode ter um excelente valor preditivo negativo se quase ninguém tiver a doença. Em 2009, foi publicado um artigo nos Arquivos Brasileiros de Cardiologia que sugeria ser a cintilografia miocárdica realizada durante dor precordial um bom método para ser usado em pacientes com dor torácica aguda. O argumento era baseado em um bom valor preditivo negativo. Porém as razões de probabilidade eram muito ruins (RP positiva = 1.6 e RP negativa = 0.3), pois a especificidade era ruim (46%) com sensibilidade de 86%. Mas mesmo assim, o valor preditivo negativo foi 98%. Baseado nisso, o autor concluiu que o método teria valor, porém esse valor preditivo se deveu basicamente à probabilidade pré-teste baixa (6% apenas). Ou seja, mesmo que o método seja péssimo, sendo a probabilidade de doença muito baixa, é só dizer que o resultado é negativo que teremos boa possibilidade de acertar.

O mesmo ocorre com o exame de sangue oculto nas fezes como pesquisa de câncer do colon. Um estudo publicado em 2005 no Annals of Internal Medicine mostrou sensibilidade mínima (5%) e especificidade excelente (97%). Mesmo com essa especificidade, devido à baixa sensibilidade, o método não tem valor nenhum. RP positiva = 1.7e RP negativa = 0.98. Ou seja, o resultado do método não muda em nada a chance do paciente ser doente. Mesmo assim, o valor preditivo negativo do método foi 90%. Isso porque a prevalência de câncer era 10%, ou seja, 90% dos pacientes não eram doentes. Ou seja, de acordo com esse artigo de boa qualidade metodológica, a pesquisa de sangue oculto nas fezes não tem valor nenhum. Então porque esse exame existe? Deve ser porque as pessoas não têm o hábito de procurar as evidências de acurácia e mesmo se procuram há grande confusão em relação ao que significa cada um desses parâmetros de acurácia.

Percebam bem como nós aprendemos medicina na faculdade: partindo de um quadro clínico, surge uma suspeita diagnóstica. Para cada suspeita aprendemos os exames que devem ser pedidos para confirmar ou afastar a suspeita. Pronto. Pouco se discute qual a acurácia dos métodos, muitas vezes isso nem está escrito nos livros. Devemos criar o hábito de procurar essas evidências, procurar saber quais as razões de probabilidade, pois este conhecimento vai melhorar tanto a utilização dos exames, como a interpretação de seus resultados.

Em postagem futura, apresentaremos um roteiro de avaliação crítica das evidências relativas a acurácia. Precisamos analisar criticamente os trabalhos que nos trazem essas informações.

* Essa postagem representa o início da série "Análise Crítica de Métodos Diagnósticos".

quarta-feira, 4 de maio de 2011

CHADSVASc: Uma Prosposta Inadequada


No ano passado, o Guideline Europeu de Fibrilação Atrial propôs que os cardiologistas passassem a utilizar um novo escore de risco para predição de acidente vascular cerebral em pacientes com fibrilação atrial. Deixaríamos de lado o velho escore CHADS2 e passaríamos a usar o novo CHADSVASc. Esse escore tornou-se uma sensação, sendo enfatizado em eventos científicos, nos quais especialistas em arritmia têm proposto a utilização do CHADSVASc como uma evolução na condução do paciente com fibrilação atrial. Utilizando este escore, seríamos capazes de identificar melhor os pacientes que necessitam de anticoagulação, pois faríamos uma melhor estimativa do risco de AVC. Esse foi o racional para o CHADSVASc.

Mas como proceder após ouvir uma sugestão de mudança de conduta médica? Claro, devemos analisar as evidências científicas que embasam o que está sendo proposto. Aqui falamos da evidência científica a favor de um modelo preditor de risco. Em fevereiro de 2010 foi publicado no CHEST o trabalho que avaliou e comparou o CHADSVASc com outros escores de risco, o qual acompanhou prospectivamente 1.080 pacientes sem anticoagulante e com fibrilação atrial. Devemos ler este trabalho e julgar o valor do novo escore.

O que um escore de risco precisa fazer é discriminar (diferenciar, distinguir) os pacientes que no futuro terão o desfecho e aqueles que permanecerão livres do desfecho. Análise discriminatória é mensurada pela área abaixo da curva ROC, também chamada de estatística-C, quando se fala de prognóstico. Resumidamente, a curva ROC é construída por vários pontos hipotéticos que são plotados em um gráfico cujo eixo vertical é a sensibilidade do marcador em reconhecer os que terão desfecho, enquanto o eixo horizontal é o complemento da especificidade (1-especificidade), que significa os pacientes sem eventos erradamente rotulados como pacientes que teriam desfecho. Parece complicado, mas essa plotagem gera uma curva, cuja área abaixo dela representa a capacidade discriminatória do escore (ou do teste) que está sendo avaliado (vide figura acima). Em outras palavras, a área abaixo da curva representa a probabilidade de um paciente que terá o desfecho ter um escore de risco maior do que um paciente que não terá o desfecho. Se essa probabilidade for 100%, o teste é perfeito e a área abaixo da curva (estatística-C) seria igual a 1. Sendo assim, quanto mais próximo de 1, melhor o teste. Se um teste não tiver nenhuma capacidade discriminatória, sua área abaixo da curva seria 0.5, ou seja, 50% de probabilidade de um paciente que terá o desfecho ter um escore de risco maior do que um paciente que não terá o desfecho. Entre 0.5 e 1.0, o escore tem diferentes níveis de capacidade discriminatória.

Desta forma, quando temos um novo teste ou um novo escore, devemos comparar sua estatística-C com a do escore antigo. Calcula-se que um ganho de pelo menos 0.05 na estatística-C é necessário para considerar um valor incremental relevante. Vamos então comparar a estatística-C do velho CHADS2, com a estatística-C do novo e entusiástico CHADSVASc. De acordo com o trabalho do CHEST, a estatística-C do CHADSVASc é 0.61, comparado a 0.59 do CHADS2. Ou seja, não houve praticamente nenhum incremento, o que nos impede de dizer (como estão dizendo) que o CHADSVASc é melhor.

Além de analisar a capacidade discriminatória, devemos analisar se um escore é capaz de estimar corretamente a probabilidade numérica de eventos em diferentes subgrupos, estratificados por faixa de risco. Isso se chama de calibração. Um escore calibrado é aquele que nos permite predizer com boa acurácia qual a probabilidade de que um indivíduo apresentar o desfecho. Ou seja, se eu digo que um paciente tem a probabilidade estimada de 3% de AVC, ao analisar uma amostra desse tipo de paciente, a incidência de evento deve ser algo próximo a isso. O problema é que o trabalho que valida o CHADSVASc não sugere que teremos uma ferramenta calibrada, pois as estimativas de risco são menos precisas devido à maior amplitude de seus possíveis resultados (0 a 9). Além disso, os intervalos de confiança das estimativas de risco de acordo com as pontuações são amplos (menos precisos) e bastante superponíveis. Só para demonstrar isso claramente, CHADSVASc de 2 a 6 tem risco de, respectivamente, 1.6%, 3.9%, 1.9%, 3.2%, 3.6%. Não há nenhum gradiente, nem nas medidas pontuais, nem nos intervalos de confiança (vide tabela abaixo). Já quando olhamos o CHADS2, percebemos que as 6 classes distinguem bem o risco do paciente (1.9%, 2.8%, 4.0%, 5.9%, 8.5%, 12.5%, 18.2%) e os intervalos de confiança não são superponíveis. CHADS2 um escore melhor calibrado.

O CHADSVASC classifica um maior número de pacientes como alto risco, porém sua estatística-C não é melhor do que o CHADS2. Isso indica que boa parte dessas reclassificações como alto risco estão erradas. E isso deve ser verdade. Por exemplo, um escore de 8 seria alto pelo CHADSVASc. Isso indica 8% de risco de AVC, mas vejam o intervalo de confiança: 1% a 26%, que imprecisão!


Ou seja, não vale muito coisa esse novo CHADSVASc.

O Guideline Europeu apresenta uma tabela que mostra o risco de acordo com o valor do CHADSVASc. Aquela tabela dá a impressão de uma boa relação entre risco e CHADSVASc. Inclusive a tabela cita um artigo de 7.000 pacientes, que "validou" aqueles números. Li o artigo. Primeiro, é uma amostra de pacientes submetidos a ensaios clíncios que comparam anticoagulantes (Warfarin x Ximelagatran), ou seja, a população não é adequada para avaliar risco, pois todos estão anticoagulados (diferente dos outros trabalhos que validaram os escores). Então ele ajusta a probabilidade de AVC para se o paciente não estivesse usando anticoagulante. Como? Empiricamente, manualmente, o autor aumenta o risco de cada grupo em 70%. E apresenta os riscos, sem intervalo de confiança. Ou seja, na verdade os riscos apresentados na tabela não são dados estatísticos verdadeiros. São resultantes de uma grande exptrapolação, nos apresentada sem intervalos de confiança, ou seja, sem a medida da imprecisão. O que vale mesmo é o artigo original do CHADSVASc. Esse é metodologicamente correto e não mostra boa calibração.

Mas porque então este novo escore foi proposto? Talvez haja uma vantagem em classificar mais pessoas como alto risco, mesmo errando parte dessas classificações. O uso do CHADSVASc vai implicar em maior número de pacientes anticoagulados. Mas qual a vantagem de anticoagular mais pacientes? Bem, o lançamento do CHADSVASc está coincidindo como lançamento do Dabigatran, o novo anticoagulante oral, de eficácia comprovadamente não inferior à Warfarina e muito mais prático de usar. Sendo mais prático, será mais atraente indicar o tratamento para mais pessoas. No final, mais pessoas usarão Dabigatran. Ou estou imaginando demais?

Na verdade, o que precisamos é anticoagular os pacientes que realmente precisam ser anticoagulados, o que não ocorre de forma ideal na prática. Não precisamos rotular, de forma imprecisa, mais pacientes como indicados para anticoagulação.

Precisamos também entender que um escore melhor é aquele capaz de discriminar melhor (estatística-C) e capaz de predizer a probabilidade de eventos de maneira correta (calibração). Isso é predição baseada em evidências.