quarta-feira, 1 de junho de 2011

Como Analisar Criticamente um Artigo sobre Acurácia


Na postagem anterior, definimos acurácia e mostramos a importância das medidas de sensibilidade, especificidade e razões de probabilidades de métodos diagnósticos. Estes parâmetros não surgem por encanto. O conhecimento da acurácia de um método é proveniente de evidências científicas. Como toda evidência científica, estas também devem passar pelo crivo da análise crítica dos métodos utilizados para chegar às respectivas conclusões. A comunidade médica está mais habituada a avaliar criticamente ensaios clínicos terapêuticos, mas a correta avaliação da acurácia de testes é de igual importância, pois tudo começa pelo diagnóstico.

Estudos de acurácia possuem o caráter transversal, do tipo que avalia uma realidade no momento presente. E diagnóstico é isso mesmo, é a tentativa de retratar o que está ocorrendo no presente. Portanto, não se faz necessário seguimento prospectivo. A metodologia consiste na realização do método em questão e na checagem se este método foi capaz de detectar os doentes (sensibilidade = testes positivos/doentes) e detectar os saudáveis (especificidade = testes negativos/saudáveis). Para avaliar se o método faz essa distinção corretamente, precisamos saber quem é realmente doente ou saudável. Desta forma, é necessário que os pacientes realizem outro exame, teoricamente melhor que o exame em questão, o qual é denominado de padrão-ouro ou padrão de referência. Por exemplo, para avaliar a acurácia da angiotomografia de coronárias, o cateterismo cardíaco será o padrão-ouro.

Muito bem, assim se fazem os estudos de acurácia diagnóstica. Para avaliar criticamente um estudo deste tipo, sugiro os seguintes passos:

1) Verifique se o padrão de referência escolhido é adequado, ou seja, realmente o padrão de referência é um método ouro? Um exemplo, um estudo publicado no New England Journal of Medicine, que avaliou acurácia da angiotomografia para o diagnóstico de embolia pulmonar, utilizou angiografia invasiva (OK) ou cintilografia pulmonar (?) ou ultrassom de membros inferiores (???) como padrões de referência. Claro, essas duas últimas referências podem ser de pior acurácia do que a angiotomografia, então não poderiam ser referências.

2) Verifique se a leitura do padrão de referência foi independente da leitura do método avaliado, ou seja, feita por pessoas diferentes, para que o conhecimento do padrão-ouro não influencie da leitura do exame. Além disso, a leitura do método deve ser cega em relação ao quadro clínico do paciente. Se não, o resultado do método não será apenas proveniente do método, mas da visão clínica do observador. As coisas não podem se confundir.

3) Procure pelo viés de verificação (referral bias): esse é o viés mais comum em estudos de acurácia. Ocorre quando nem todos os pacientes avaliados realizam padrão-ouro. A maioria dos estudos que avaliaram a acurácia da cintilografia miocárdica sofreu desse viés. Isso por que os médicos ficavam menos motivados a solicitar cateterismo cardíaco (padrão-ouro) se a cintilografia fosse negativa. Esse viés superestima a sensibilidade e subestima a especificidade. Imaginem se nenhum paciente com teste negativo fizesse o cateterismo e todos os pacientes com teste positivo fizessem o cateterismo. Isso iria provocar sensibilidade de 100% e especificidade de 0%. É só pensar um pouco que dá para entender: todos os pacientes com cateterismo positivo teriam cintilografia positiva (sensibilidade 100%) e nenhum paciente com cateterismo negativo teriam cintilografia negativa, porque só tinha gente com teste positivo (especificidade 0%). Já estudos mais contemporâneos, a exemplo dos que avaliaram a angiotomografia de coronárias, preveniram esse problema, pois recrutaram pacientes que já tinham indicação de cateterismo.

4) Verifique se o estudo é retrospectivo ou prospectivo. Na situação retrospectiva, o estudo é menos confiável,  pois o exame não é realizado com intuito de ser avaliado, na verdade eles são realizados como parte da conduta clínica. Desta forma, sua leitura é menos padronizada e nem sempre cega. Já vi na prática médicos laudando métodos de pesquisa de isquemia miocárdica tendo o laudo do cateterismo para se embasar. Do ponto de vista da geração de conhecimento científico, isso é um grande viés. Os estudos retrospectivos são também muito vulneráveis ao viés de verificação, pois refletem a prática clínica. Diferente de um desenho prospectivo, onde obrigatoriamente o paciente faz o padrão-ouro. Além disso, estudos retrospectivos são mais sujeitos ao viés de publicação, ou seja, têm menos possibilidade de serem publicados se o resultado for negativo. Já o prospectivo não, foi tudo planejado e o autor tem motivação de publicar, independente do resultado. Essa é a explicação para a falácia da avaliação de dissincronia pelo ecocardiograma. Esse método foi tido na década passada como um ótimo exame para predizer resposta à terapia de ressincronização. Porém eram todos estudos pequenos, a maioria retrospectivos, e no máximo deveriam ter gerado hipótese. No entanto, as pessoas se entusiasmaram e começaram a utilizar essa avaliação na prática clínica. Depois ficaram todos perplexos pelo resultado do primeiro estudo prospectivo de grande porte (denominado PROSPECT), que mostrou sensibilidade e especificidade em torno de 50% para a maioria dos parâmetros. Grande lição. Alguns viuvos da avaliação de dissincronia ainda tentam criticar o PROSPECT, mas sem grande repercussão.

5) Finalmente, observem intervalo de confiança das estimativas da sensibilidade e especificidade. Este nos dará a idéia da precisão do que está sendo dito a respeito da acurácia. Há artigos que nem traz esse o intervalo de confiança. Esta omissão é o mesmo que fazer uma comparação entre droga e placebo e não mostrar o valor de P. Lembro-me de um trabalho que encontrou uma especificidade de 85% da tomografia de coronárias. Porém o intervalo de confiança is de 62% a 96%. Ou seja, a precisão da estimativa não era boa, pois o trabalho só tinha 50 pacientes. De acordo com esse trabalho só poderíamos afirmar que a especificidade não é pior que 62%.

Depois de tudo isso, não podemos esquecer de avaliar se as razões de probabilidade são boas, pois tem autor concluindo muita besteira por aí. Além disso, tem gente fazendo conclusões erradas com base apenas no valor preditivo.

Chega a ser divertido ler com atenção artigos de acurácia. Criem esse hábito e vejam com é fácil achar erros. Parece até jogo dos sete erros.

* Essa é a segunda postagem da série Análise Crítica de Métodos Diagnósticos

4 comentários:

  1. Fantástico. No coments..
    Porém sou meio viúvo consciente e reticente do Prospect. Ehehe.
    Abraço

    ResponderExcluir
  2. Perfeito Luis, claro e didatico!
    Também sou meio viuva do Prospect, penso que o eco pode ser util, mas ainda não encontrou seu lugar nesta historia..de fato.
    Nila

    ResponderExcluir
  3. Luis Cláudio, o "trabalho" mencionado sobre angiotomografia (acessei só o abstract) fala de sensibilidade de 98% (IC 96-99%). Seria possível IC tão estreito se fossem considerados os pacientes e não as lesões como um todo ? Acho que a análise do autor foi esta pois ele apresenta números bem maiores dos que o n=51 para definir as propriedades intrínsecas do teste e os valores preditivos. Abraço, Mário.

    ResponderExcluir