sábado, 9 de julho de 2011

Análise de Aplicabilidade: Ticagrelor


Vejam só que coisa. A gente fica esperando 10 anos para baratear o preço do Clopidogrel. Quanto isso acontece com o genérico, aparece uma melhor opção, cujo preço está no patamar do Clopidogrel antes da queda de sua patente.

No final da última postagem, escrevi que “uma equação envolvendo magnitude de benefício, risco de sangramento e custo da nova terapia permitirá uma decisão individualizada a respeito de qual das duas drogas deverá ser usada.”

Vamos exercitar este pensamento, que corresponde à análise de aplicabilidade de uma evidência científica. Este tipo de análise deve ocorrer após a análise de veracidade da evidência. Ou seja, partiremos do pressuposto de que a veracidade do artigo já foi analisada.

Primeiro, do ponto de vista de saúde pública esta droga não se aplica. Considerando o modesto benefício do Ticagrelor e seu alto preço, uma boa relação de custo-efetividade precisaria ser muito bem demonstrada, principalmente em nosso meio. Ainda não temos esta definição e é provável que não seja uma droga custo-efetiva.

Então fica a decisão para o paciente que vai pagar pela droga, cuja duração do tratamento é de pelo menos um ano após a síndrome coronariana aguda. Normalmente estamos dispostos a pagar um alto preço quando o retorno é muito bom. Mas ninguém vai querer pagar o preço de uma Mercedes e levar um fusquinha modelo antigo. Considerando o NNT de 52, o Ticagrelor não é nenhuma Mercedes, como comentado na postagem anterior. Então precisamos escolher a população que vai se beneficiar mais da droga, transformando um fusquinha em um carro de nível pelo menos médio. Digamos, numa Brasília (essa analogia é para aqueles com mais de 30 anos).

Foi exatamente isso que o estudo PLATO fez, corretamente. Ou seja, selecionou uma população de alto risco. A amostra do estudo PLATO é de risco mais alto do que a amostra do lendário estudo CURE, aquele que validou o uso de Clopidogrel: a incidência do desfecho combinado (morte CV, infarto e AVC) no grupo Clopidogrel do estudo PLATO é 11.7%, comparados a apenas 9.3% no estudo CURE. Isso ocorreu porque no PLATO eram necessários dois de três critérios para o paciente fosse incluído no estudo (dentre eletrocardiograma, marcadores de necrose, idade, DAC prévia, diabetes) e no CURE apenas um de três critérios de inclusão.

Devemos observar que este NNT está otimizado pela correta seleção de uma população de alto risco. Digo correta seleção, pois quando temos uma droga de benefício modesto, devemos identificar uma população de maior risco, cuja redução absoluta de risco será também maior. O PLATO fez isso e obteve o NNT de 52. Caso o PLATO houvesse selecionado uma amostra semelhante à do CURE, o NNT seria 100.

Como calculei isso? De acordo com o PLATO, Ticagrelor (comparado a Clopidogrel) promove uma redução relativa de 19% na incidência de desfechos combinados. Aplicando 19% aos 9.3% do grupo Clopidogrel na população do CURE, haveria uma redução para 8.5%, ou seja, redução absoluta de risco de 1%. Isto dá um NNT de 100.

Isto nos indica que o Ticagrelor deve ser uma droga limitada aos pacientes de alto risco cardiovascular. Primeiro, porque estes são os que vão experimentar uma redução absoluta de risco aceitável. Segundo, porque estes são os que se prejudicariam em esperar cinco dias de suspensão do Clopidogrel caso fosse indicada cirurgia cardíaca. Lembrem-se que o Ticagrelor só precisa ser suspenso por 24 horas antes da cirurgia, pois seu efeito é de curta duração.

Desta forma, no cenário de síndromes coronarianas sem supradesnível do ST, o Ticagrelor teria indicação para os pacientes de alto risco (Escore GRACE > 140 ou sintomas recorrentes durante internamento). Nestes pacientes, o impacto absoluto da terapia provavelmente justifica a troca do tradicional Clopidogrel pelo Ticagrelor. Nos demais, eu ficaria com Clopidogrel.

Quanto ao infarto com supradesnível, o subgrupo de pacientes submetidos a angioplastia primária mostrou resultados consistentes com a amostra geral do PLATO. Considerando que angioplastia primária é um procedimento não planejado, o início de ação mais precoce do Ticagrelor pode ser uma vantagem.

Os pacientes tratados com trombólise não entraram no PLATO, portanto para estes o Clopidogrel continua a droga de eleição, adjunta à Aspirina.
Percebe-se assim que na análise da aplicabilidade de uma evidência, precisamos avaliar criteriosamente qual a amostra estudada e o quanto devemos extrapolar a indicação para além desta amostra. Neste caso, não há sentido em se extrapolar para pacientes de risco baixo. Para conhecer a amostra estudada, devemos prestar atenção aos critérios de inclusão, tabela de características da população e na incidência dos desfechos de interesse. Em segundo lugar, o NNT deve ser contextualizado para a gravidade do paciente, aplicando a redução relativa de risco nos diferentes tipos de população, obtendo as reduções absolutas específicas. Por fim, análises de subgrupo são úteis para mostrar se há consistência do resultado positivo nos diferentes subgrupos, como fizemos agora com o infarto com supradesnível.

Imagino assim que Clopidogrel continue a primeira opção para pacientes com síndromes coronarianas agudas, ficando o Ticagrelor para os subgrupos aqui especificados.

quinta-feira, 7 de julho de 2011

Qual o verdadeiro valor do Ticagrelor?



Considerando a atual disponibilidade da droga em questão, reeditamos o texto abaixo que foi originalmente postado no início de 2010.

Em setembro de 2009 foi publicado o estudo PLATO no New England Journal of Medicine, o qual comparou o novo antiagregante plaquetário Ticagrelor versus Clopidogrel no tratamento de pacientes com síndromes coronarianas agudas. Este foi um ensaio clínico randomizado, envolvendo 18.000 pacientes, financiado pela indústria farmacêutica produtora do novo produto. Quando comparado à terapia padrão com Clopidogrel, o Ticagrelor demonstrou redução de eventos cardiovasculares à custa de redução de infarto não fatal e óbito, em seguimento de 12 meses (9.8% vs. 11.7%, P < 0.001). Há portanto um benefício que podemos considerar verdadeiro. A segunda questão é qual a magnitude deste benefício: grande, moderada, pequena? Calculando o NNT, percebemos que precisamos tratar 52 pacientes com Ticagrelor (ao invés de Clopidogrel) para prevenir um evento cardiovascular ou tratar 91 pacientes para prevenir um óbito. Estes números (NNT > 50) indicam que o benefício não é de grande magnitude, existe eficácia anti-isquêmica, porém esta é modesta.

Geralmente se espera que um antitrombótico de maior efeito anti-isquêmico aumente sangramento, como foi o caso do Clopidogrel versus placebo (CURE) e do Plasugrel versus Clopidogrel (TRITON). De fato, isso também ocorreu com o Ticagrelor, visto que sangramento maior não relacionado a cirurgia foi mais frequente neste grupo (4.5% vs. 3.8%, P=0.03; NNH = 143). Portanto, Ticagrelor é um pouco melhor anti-isquêmico do que Clopidogrel, e um pouco mais causador de sangramento grave do que Clopidogrel. O benefício que já é modesto, fica mais modesto ainda quando percebemos que a droga tem também seu lado negativo.

Mas então, qual a vantagem desta nova droga? Existe uma certa vantagem logística, que está relacionada ao fato de que esta droga tem o efeito mais rapidamente revertido após sua suspensão, quando comparado a Clopidogrel. Em torno de 12% dos pacientes com síndromes coronarianas agudas são submetidos a cirurgia de revascularização durante o internamento. Alguns deles têm esta indicação urgente, considerando a instabilidade do quadro. Porém se foi administrado Clopidogrel antes da indicação cirúrgica, a cirurgia normalmente é adiada por 5 dias, deixando o paciente vulnerável. Mas se o pacientes estiver usando Ticagrelor, a cirurgia pode ser realizada após apenas 24 horas de sua suspensão, mais rápida do que no paciente que usa Clopidogrel. No Plato, a incidência de sangramento grave relacionado à cirurgia foi semelhante nos grupos Ticagrelor e Clopidogrel, com a vantagem de que Ticagrelor foi suspenso no mínimo 24 horas antes e Clopidogrel no mínimo 5 dias antes.

Porém devemos fazer algumas ressalvas: primeiro, o estudo avaliou pacientes de moderado a alto risco para eventos isquêmicos recorrentes (por exemplo, 80% com troponina positiva, 60% com infradesnível do ST). Para pacientes de menor risco (e menor probabilidade de cirurgia de emergência) a magnitude do benefício deve ser menor ainda, sem o benefício de menor sangramento cirúrgico. Para estes, ficaria mais bem indicado o Clopidogrel, principalmente naqueles com alto escore de risco para sangramento; segundo, o estudo PLATO estudou conjuntamente duas patologias diferentes (IAM com supra e SCA sem supra). Misturou apples and oranges. Embora a análise de subgrupo sugira que o efeito é consistente nos dois grupos, o ideal do ponto de vista metodológico é que haja estudos diferentes para patologias tão diferentes e de tratamentos diferentes. Terceiro, 20% do grupo Clopidogrel não utilizou dose de ataque.

Desta forma, embora o Ticagrelor seja uma evolução farmacológica, não é uma panacéia. Ainda há muito espaço para a indicação do Clopidogrel. Uma equação envolvendo magnitude de benefício, risco de sangramento e custo da nova terapia permitirá uma decisão individualizada a respeito de qual das duas drogas deverá ser usada.

terça-feira, 5 de julho de 2011

Wear Sunscreen



Wear Sunscreen (em português, Use filtro solar) é o nome comum de uma obra chamada "Advice, like youth, probably just wasted on the young" escrita por Mary Schmich e publicada no Chicago Tribune como uma coluna em 1997. A forma mais conhecida da obra é uma música gravada em 1999, "Everybody's Free (To Wear Sunscreen)", produzida pelo cineasta australiano Baz Luhrmann. Narrado pelo dublador australiano Lee Perry, o vídeo e o texo ficaram famosos e no Brasil foi traduzido por Pedro Bial.

Provalmente muitos conhecem. Para os que não conhecem, vale a pena ouvir as mensagem no vídeo acima. Para os que já conhecem, vale a pena ouvir de novo. O autor nos dá conselhos sábios sobre a vida, mas humildemente reconhece que são só conselhos, sem comprovação científica. O texto começa com o autor reconhecendo que de tudo o que vai dizer, só de uma coisa ele tem certeza: de que usar filtro solar faz bem à saúde.

No entanto, sob a visão da medicina beseada em evidências, nem isso o autor poderia ter dito. Isto porque não havia evidências de ensaios clínicos randomizados sobre a eficácia do filtro solar na prevenção de câncer. Interessante, não? Algo que nós sempre tivemos como verdade absoluta. Até então o que existia eram estudos caso-controle de resultados controversos.

Mas agora surgiu uma evidência que valida a poesia do texto. Green et al publicaram no Journal of Clinical Oncology com 1.600 indivíduos, randomizados para uso diário de protetor solar versus uso a critério do usuário. Após 15 anos, verificou-se redução na incidência de melanoma pela metade (HR =0.50). Agora assim a gente pode ver este vídeo de forma embasada. Recomendo.

domingo, 3 de julho de 2011

Utilidade de Métodos Diagnósticos




Na série Análise Crítica de Métodos Diagnósticos, após discutir acurácia, chega o momento de abordar o conceito de utilidade. Como mencionado anteriormente, não basta que um método seja acurado para que este deva ser indicado para um paciente. O método precisa ser útil. E acurácia não garante utilidade.

Para avaliar utilidade de um método, devemos fazer duas análises seqüenciais: primeiro, o raciocínio diagnóstico probabilístico; segundo, a capacidade do método de beneficiar o paciente. Nesta postagem abordaremos a primeira questão.

Boa parte dos diagnósticos em medicina é probabilística, ou seja, no final da investigação a probabilidade é suficientemente alta para se considerar que o paciente é portador de certa doença. Esta probabilidade é o resultado da interação do quadro clínico (probabilidade pré-teste) e do resultado do teste (exame complementar). O impacto de um teste positivo na probabilidade de um indivíduo ser doente (assim como o impacto de um teste negativo na probabilidade de ser saudável) depende da sua acurácia, que é medida pelas razões de probabilidade (RP) – tema de postagem anterior. Quanto maior a RP positiva, mais o resultado positivo do teste aumenta a probabilidade do indivíduo ser doente. Quanto menor a RP negativa, mais o teste negativo reduz a probabilidade do indivíduo ser doente (ou aumenta a probabilidade de ser saudável).

Desta forma, há situações em que o teste não é capaz de modificar substancialmente a probabilidade pré-teste do paciente. Ou seja, o teste não muda muito nosso pensamento a respeito do paciente ter ou não ter a doença. Isto depende do tipo de paciente e da RP do teste. Um exemplo clássico é a realização de teste ergométrico em pacientes assintomáticos (check-up). De acordo com modelos probabilísticos validados, a maioria das pessoas assintomáticas tem baixa probabilidade de doença coronariana obstrutiva. No entanto, na rotina do consultório cardiológico, é quase garantia de que o paciente em avaliação anual saia com pedido de teste ergométrico. O teste ergométrico tem razão de probabilidade positiva de 3.0. Então se um paciente tiver 5% de probabilidade pré-teste, um teste ergométrico positivo vai resultar em probabilidade pós-teste de 14%. Ou seja, apesar do teste positivo, o paciente continua muito mais para não ter a doença do que para ter a doença. Continuamos pensando o mesmo que achávamos antes, ou seja, o paciente é saudável. O teste não mudou nosso pensamento. Não foi útil.

O mesmo acontece com métodos não invasivos de melhor acurácia, porém aplicados a indivíduos inadequados. Porém exemplo, a cintilografia miocárdica tem RP positiva de 3.6. Caso fosse positiva, a probabilidade deste paciente iria subir para 29%. Ainda muito duvidosa. E se fosse paciente assintomático, porém mais idoso, com maior probabilidade pré-teste, tipo 25%? Uma cintilografia positiva promoveria uma probabilidade pós-teste de 54%. Agora maior, porém ainda há muita dúvida se o paciente é saudável ou doente.

Assim fica claro que pesquisa de isquemia miocárdica em pacientes assintomáticos (screening de doença coronária) não tem utilidade. Esta indicação não deve existir na rotina, salvo algumas exceções. Ainda há outros motivos pelo qual o screening não deve existir que abordaremos na próxima postagem.

E quanto ao teste negativo? Se tivermos um paciente de 70 anos, com dor torácica típica para angina, sua probabilidade pré-teste de acordo com o modelo Diamond-Forrester é 90%. Se este paciente fizer uma cintilografia miocárdica, cujo resultado for negativo, considerando a RP negativa de 0.18, a probabilidade pós-teste cairá para 62%. Ou seja, apesar do teste negativo, ainda é mais provável que o indivíduo seja doente do que saudável. Portanto, a cintilografia não é útil neste caso, pois não vamos acreditar no resultado negativo e se fosse positiva não seria novidade. Por este motivo, diz-se que paciente com alta probabilidade pré-teste deve ir diretamente para a coronariografia.

E mesmo a coronariografia não afasta uma doença obstrutiva em paciente com altíssima probabilidade pré-teste. Recentemente, vivenciei um caso muito típico de angina, porém a coronariografia mostrava apenas uma estenose de 25-50% em descendente anterior. O quadro era tão típico que este resultado não foi suficiente para reduzir a probabilidade de doença para níveis aceitáveis. Sendo assim, solicitou-se um ultrassom intracoronário que mostrou obstrução de 70%.

A esta altura, alguns devem questionar como calculei a probabilidade pós-teste em todos estes exemplos. Hoje usei o aplicativo do Iphone (há muitos), onde coloco apenas a probabilidade pré-teste do paciente e a RP do método. Mas tradicionalmente isto é feito pelo Nomograma de Fagan (foto acima), onde traçamos uma linha que se inicia na probabilidade pré-teste, passa pela RP e termina na probabilidade pós-teste. Façam uma simulação e vejam como é fácil. Se o teste for positivo, utilizamos a RP positiva; se for negativo, utilizamos a RP negativa.

Em postagem anterior, comentamos sobre um registro americado publicado no New England Journal of MedicineDe 400.000 cateterismos eletivos realizados em 660 hospitais, apenas 38% evidenciaram lesões coronárias obstrutivas. E a maioria destes pacientes tinha exame não invasivo positivo para isquemia. O problema é que muitos pacientes com baixa probabilidade pré-teste tem exames solicitados. Quando chega o resultado positivo, o médico não faz o raciocínio probabilístico, considera que o paciente tem doença e solicita um cateterismo, cujo resultado vem normal. Como resolver isso? Solicitar o teste apenas nas situações de utilidade.

No caso da doença coronariana, a maior utilidade diagnóstica dos métodos não invasivos reside nos pacientes de probabilidade pré-teste intermediária. Uma mulher de 60 anos, com sintoma de tipicidade intermediária, tem probabilidade pré-teste de 54%. Se a cintilografia for positiva, sua probabilidade pós-teste vai para 80%. Aí sim, ela provavelmente tem doença. O teste foi útil, pois saímos da dúvida de 54% para um número mais sugestivo, 80%.

Isto não se resume à doença coronariana. Se começarmos a pesquisar embolia pulmonar para qualquer paciente internado com dispnéia, vamos ter resultados positivos alguns pacientes de baixa probabilidade pré-teste de acordo com o critério de Wells. E aí? O paciente tem mesmo embolia, precisa mesmo de anti-coagulação crônica? Ficará o dilema, pois a probabilidade pós-teste não vai ser alta. Por isso que só devemos investigar embolia quando a probabilidade pré-teste for pelo menos intermediária. Se não, vai confundir tudo.

Desta forma, a análise da utilidade de um teste diagnóstico passa pelo entendimento de que boa parte dos nossos diagnósticos é probabilística. Se pensarmos assim, é fácil detectar quando um teste será útil e quando será inútil. A utilidade aqui abordada se refere à capacidade do método de mudar substancialmente o que estamos pensando a respeito do paciente.

Como já dizia William Osler no início do século passado: “Medicina é a arte da incerteza e a ciência da probabilidade”. Diante da incerteza que nos ronda, precisamos pensar em probabilidade em nosso raciocínio diagnóstico.

Em recente editorial no JAMA 2010, Brook escreveu "in general, use of sensitivity, specificity, likelihood ratios, prior probabilities, and posterior probabilities in medical decision making has been largely ignored. An entire field of science is missing from the practice of medicine". Neste artigo o autor chama atençào para o fato dos médicos em geral não utilizarem o raciocínio probabilístico, simplesmente se tornam leitores de laudos de exames mal indicados.

Medicina baseada em evidências não se limita a discutir criticamente artigos científicos, mas também nos oferece ferramentas para a aplicação do conhecimento da prática clínica (from bench to bedside). Primeiro, há os artigos que mostram sensibilidade e especificidade dos métodos. Temos que analisá-los de forma crítica. Uma vez aceitando as informações, calculamos as RP. Quando aparece uma paciente, fazemos o raciocínio diagnóstico aqui proposto. Isto é medicina baseada em evidências.

Os critérios discutidos nesta postagem são necessários, mas não suficientes para um teste ser útil. O que discutimos representa a premissa básica: o teste deve ser capaz de influenciar nosso pensamento a respeito da probabilidade de doença. Porém, há um segundo critério que precisa ser avaliado: o resultado do teste deve provocar uma série de reações em cascata que resulte em benefício para o paciente. Este critério será discutido na próxima postagem desta série, cuja discussão é ainda mais palpitante.

* Está é a terceira postagem da série Análise Critica de Métodos Diagnósticos.

quinta-feira, 30 de junho de 2011

CHADSVASc: a Discussão Continua ...

Recentemente os colegas Danilo e Marcus Picoral me chamaram a atenção através deste Blog para um trabalho publicado no British Medical Journal, o qual avalia a acurácia do CHADSVASc para predizer desfechos em pacientes com fibrilação atrial, não anticoagulados.

Este trabalho é uma análise retrospectiva feita da Dinamarca, a partir dos registros do diagnóstico de internamento (CID) contidos no sistema de saúde daquele país. Os autores cruzaram o registro ambulatorial de que o paciente tinha fibrilação atrial com um eventual registro hospitalar de internamento por acidente vascular cerebral. Desta forma, dá para perceber que a validade interna dos dados apresentados neste trabalho é menor do que se fosse uma coorte de pacientes com fibrilação atrial para fins científicos. Não obstante, esta evidência não pode ser descartada, pois sua metodologia permitiu a análise de uma amostra de tamanho sem precedentes em 70.000 pacientes.

Este inédito tamanho amostral proporcionou (agora assim) que as estimativas do risco de AVC em cada pontuação do CHADSVASc fossem mais precisas, visto que os intervalos de confiança foram estreitos o suficiente para que cada faixa se diferenciasse em risco de AVC (menor superposição). Vale salientar que os valores encontrados diferem dos contidos na tabela que o Guideline Europeu apresentou, baseada em dados quase imaginários. Desta forma, agora temos uma tabela verdadeira, que nos permite saber qual o risco de acordo com o valor do CHADSVASc. Embora sejam dados provenientes de códigos de internamento, acho que o estudo agrega valor pelo seu tamanho amostral (os erros ficam um pouco mais diluídos).

Por outro lado, esse trabalho traz um dado concreto que reafirma nossa análise feita na postagem anterior: a acurácia discriminatória (entre quem vai e quem não vai ter AVC) do CHADSVASc é idêntica à do CHADS. Neste estudo de 70.000 pacientes, a estatísticas-C do CHADSVASC analisado em toda sua amplitude de valores (0-9) é 0.79, comparada a 0.80 do CHADS2 no seguimento de 10 anos. Ou seja, CHADSVASC de fato não é melhor.

Quem lê só o resumo do estudo, sai com a impressão de que as estatísticas-C do CHADSVASc são melhores. Porém a análise que demonstrou isso foi a que testou ambos os escores simplificados, ou seja, 3 possibilidades de classificação apenas (baixo, médio ou alto risco). Esta é uma forma inadequada de utilizar estatística-C, a qual funciona melhor para variáveis numéricas ou para ordinais que possuem vários possibilidades de resposta. A análise que vale é aquela que testou a estatística-C usando toda a amplitude dos escores. Nesta, eles são iguais, como descrito no parágrafo acima.

O artigo conclui que CHADSVASc is more valid for stroke prediction in patients categorised as being at low and intermediate risk by the CHADS scheme.

Eles dizem isso porque os pacientes classificados com de baixo risco pelo CHADSVASc realmente têm menor incidência de eventos embólicos (0.66%) do que os pacientes classificados como de baixo risco pelo CHADS (1.24%). Por outro lado (isto eles não dizem), os pacientes classificados como de alto risco pelo CHADSVASc têm menor incidência de eventos embólicos (5.72%) do que os pacientes classificados como de alto risco pelo CHADS (7.97%).

É trocar uma coisa pela outra. Por isso que o CHADSVASC não tem uma estatística-C melhor do que o CAHDS, não é superior.

O que é mais importante, identificar pacientes de alto risco ou de baixo risco? No mínimo, as coisas são igualmente importantes.

quinta-feira, 23 de junho de 2011

O Extraordinário Fenômeno de Regressão à Média


O fenômeno de regressão à média é um dos processos menos compreendidos entre leigos e médicos e esta incompreensão provoca interpretações inadequadas de observações científicas. Esta falta de entendimento não decorre de complexidade, pois este é um fenômeno simples. Decorre da regressão à média ser dependente do acaso e da mente humana não estar condicionada a considerar o acaso como um importante componente dos eventos universais.

Por uma questão evolutiva, de sobrevivência, acostumamos a encontrar alguma relação de causa-efeito para qualquer fato com o qual nos deparamos. Nossos ancestrais, na tentativa de criar um ambiente favorável à sobrevivência, procuravam associar todo fato positivo e todo fato negativo a uma causa específica. É freqüente a observação “peguei uma gripe, pois tomei um vento forte ontem”. Na verdade adquirir ou não uma infecção viral é puraobra do acaso, ou azar de ter respirado um ar momentaneamente contaminado por um vírus. O azar ou a sorte diferencia pessoas que ficaram ou não doentes durante um surto de gripe. No entanto, nosso pensamento inato não funciona assim. Por isso que o fenômeno de regressão à média não é intuitivo.

A regressão à média define que em qualquer série de eventos aleatórios, há uma grande probabilidade de um acontecimento extraordinário ser seguido, em virtude puramente do acaso, por um acontecimento mais corriqueiro. Tentarei ilustrar isto com exemplos cotidianos, depois utilizarei o exemplo de um ensaio clínico para demonstrar a importância disto na prática científica.

Imaginem um aluno mediano, daquele que tira sempre a nota mínima para passar de ano, digamos 5,0. Um belo dia esse aluno chega em casa com uma nota 9,0 em matemática (sem ter colado na prova, ou seja, nota verídica). Os pais ficam felizes, elogiam e até lhes compram um belo presente, na intenção de que o incentivo perpetue aquele extraordinário desempenho do garoto. No entanto, na prova seguinte, o aluno volta a seu padrão mediano, recebendo uma nota 6,0. Os pais pensam: não se pode elogiar, temos que ser mais duros com ele. Mas não foi a moleza dos pais que provocou a queda do aproveitamento, foi o fenômeno de regressão à média. Na verdade, o normal do garoto é tirar notas medianas, a nota 9,0 foi obra meramente do acaso e o acaso tende a não se repetir. Por isso que no próximo teste o garoto vai regredir à média de suas notas ao longo do ano. 

Outro dia, o aluno top da turma por acaso tira uma nota 6,0 em matemática. Os pais, bastante rígidos, o colocam de castigo. Na prova seguinte, ele tira nota 10, como de costume. Raciocínio dos pais? Temos que ser duros com ele, assim dá resultado. Nada disso, a nota 6,0 foi um acaso, ele regrediria a sua nota 10 de qualquer jeito.

Assim surgiu o mito de que quanto mais rígida a escola, melhor o desempenho do aluno. A palmatória, usada na época de nossos avós, surgiu exatamente da falta de entendimento da regressão à média. O bom aluno, quando falhava, melhorava após a punição. O aluno medíocre, quando tinha um bom desempenho, não poderia ser premiado, pois após a premiação, seu rendimento cairia. Quanto sofrimento poderia ter sido evitado pelo conhecimento da regressão à média.

Às vezes um bom jogador de futebol (porém não espetacular), após boas temporadas pelo campeonato brasileiro, joga um campeonato extraordinário (artilheiro), se tornando um ídolo. Daí se cria um mito, um novo Pelé. O jogador é rapidamente vendido para um clube europeu por milhões de Euros. Lá não corresponde às expectativas. Daí surgem várias explicações: não se adaptou ao frio, tem saudade dos amigos, só quer saber de balada... Nada disso, simplesmente regressão à média. Claro, as baladas atrapalham, mas craque é craque, que diga Romário.

Lembro de Adriano, bom jogador, que se tornou um ídolo após ter feito um gol na final da Copa América contra a Argentina, aos 47 minutos do segundo tempo. Brasil campeão, por acaso. Adriano se tornou um mito depois daquele jogo, sendo inclusive comparado a Ronaldo Fenômeno. Foi para Europa e regrediu à sua média de bom jogador. Até concordo que houve outras causas, mais um grande fator foi a sua valorização excessiva após algo ocorrido pelo acaso. Com certeza, regressão à média foi um importante componente.

A figura acima ilustra porque pais muito baixos tendem a ter filhos mais altos que eles e pais extremamente altos tendem a ter filhos um pouco mais baixos que eles. Esse é um dos mais usados exemplos de regressão à média. Os pais eram tão baixos ou tão altos por acaso.

Entrando na ciência médica, o fenômeno de regressão à média explica porque é imprescindível a presença de um grupo controle para avaliar se uma intervenção é benéfica. Recentemente foi publicado no Journal of American College of Cardiology um ensaio clínico randomizado, avaliando o efeito do transplante de células-tronco na melhora da fração de ejeção em pacientes com miocardiopatia isquêmica. Metade dos pacientes recebeu células-tronco e a outra metade não, servindo de grupo controle. Interessante notar que a média da fração de ejeção no grupo controle apresentou um aumento de 7% em termos absolutos, sem que nada fosse feito. O grupo transplantado apresentou uma melhora maior, a qual foi estatisticamente superior ao grupo controle, concluindo-se que a terapia influenciou positivamente na função ventricular. Agora imaginem se o tratamento não servisse para nada e os autores fizessem um estudo sem grupo controle. A melhora de 7% entre antes e depois, estatisticamente significante, lhes faria concluir que a terapia teria funcionado. Mas essa melhora decorreu do fenômeno de regressão à média. Isso ocorre quando uma amostra é selecionada com base em uma característica anormal, no caso, fração de ejeção muito baixa. Alguns desses pacientes estão com valores tão baixos por acaso. Quando é feita uma segunda medida, eles tendem a regredir à média, elevando a média geral do grupo.

É por este mesmo motivo que ensaios clínicos de drogas anti-hipertensivas e anti-lipidêmicas precisam de grupo controle, não basta medir antes e depois, pois a segunda medida da pressão arterial e do colesterol sempre tenderá a ser menor, uma vez que a seleção da amostra foi feita com base na variável de interesse sendo anormal.

Como este fenômeno é mal compreendido, vemos com freqüência pessoas insistindo em avaliar efeito de uma estratégia terapêutica simplesmente medindo a variável de desfecho antes e depois. O paciente nunca pode ser seu próprio controle, pois a média do grupo tende sempre a melhorar. É um equívoco testar efeito terapêutico sem grupo controle.

Enfim, na vida cotidiana e científica devemos considerar o acaso com um dos componentes da realidade multifatorial responsável pelos fenômenos a nossa volta. Isso evitará interpretações equivocadas de nossa realidade e desenhos metodológicos incorretos. A noção do fenômeno de regressão à média é um dos componentes da maturidade científica.

* Esta é a primeira postagem da série Curiosidades Estatísticas de Utilidade Científica.

quinta-feira, 16 de junho de 2011

STICH Trial: Um Estudo Negativo (por Anis Rassi Jr)

O STICH trial foi comentado neste Blog como um estudo negativo, ou seja, indica que cirurgia de revascularização não traz benefício além do tratamento clínico em pacientes com miocardiopatia isquêmica.
Percebe-se ao longo do estudo uma tendência a não aceitar plenamente sua negatividade. Isso fica demonstrado na dúbia conclusão do autor:

In this randomized trial, there was no significant difference between medical therapy alone and medical therapy plus CABG with respect to the primary end point of death from any cause. Patients assigned to CABG, as compared with those assigned to medical therapy alone, had lower rates of death from cardiovascular causes and of death from any cause or hospitalization for cardiovascular causes.

As colocações informais do autor vão ainda mais longe na valorização de análises secundários, em detrimento da análise primária, colocando o estudo como pró-cirúrgico: 

No trial is “negative” if patients and physicians win by having access to truly new data to inform complex decision making. The totality of the information — i.e., the adjusted analyses of the as-randomized (intention-to-treat population) for the all-cause mortality endpoint, the unadjusted and adjusted analyses of the important secondary endpoints, and the treatment-received and per-protocol analyses of all the endpoints — clearly supports the clinical efficacy of CABG plus medical therapy over that of medical therapy alone. My fellow investigators and I hypothesized that CABG plus medical therapy would reduce unadjusted all-cause mortality by 25%; instead, the hazard ratio in the CABG group was 0.86 (relative risk reduction, 14%; P=0.12). So from a purely statistical perspective, our finding did not prove our hypothesis; what we may infer clinically from the data is a different thing.

Em resposta, Anis Rassi Jr enviou a correspondência abaixo ao New England Journal of Medicine, nos cedida pelo autor para postagem neste Blog. Um bom exemplo de interpretação correta de evidências científicas:

Findings of the STICH Trial do not support preferential indication of CABG above medical therapy alone for patients with left ventricular dysfunction. All-cause mortality (primary outcome) did not differ between treatment groups. The decrease in cardiovascular mortality (secondary outcome) was marginal (p=0.05), unadjusted for multiple outcome comparisons, and clinically irrelevant since overall mortality was unaffected. Death from any cause or hospitalization for cardiovascular causes (another major secondary outcome), although lower in the CABG group, was not prespecified and was newly introduced in the published report.

Also, whether subsequent CABG was counted as a hospitalization event is not clear, but doing so could have biased the results against the medically-treated group. Finally, there is no justifiable reason for secondary as-treated and per-protocol analyses, particularly when treatment crossovers of up to 20% were anticipated and included in the sample size and power calculations (2). With recent evidence that in different subgroups of patients with chronic CAD, surgical or percutaneous coronary revascularization is not superior to optimal medical therapy (1,3,4) a randomized trial of left main disease is now justified.

domingo, 12 de junho de 2011

Telefone Celular, Câncer e os Alarmistas


Na semana passada, a principal notícia da imprensa leiga a respeito de saúde foi a possível relação entre telefone celular e câncer cerebral. Ao assistir longas reportagens no Jornal Nacional e na CNN, me questionei: qual o embasamento científico a respeito disso? Existem estudos?

Sim, existem vários estudos, portanto precisamos analisar a totalidade das evidências para chegarmos à conclusão. O tipo de estudo que nos fornece evidências a este respeito desse assunto têm o desenho de caso-controle. Sabemos que o ideal para se avaliar fatores de risco são estudos de coorte, mas esses são impraticáveis para doenças de baixa incidência. Como câncer de cérebro não é uma doença muito comum (tal como câncer em geral ou doença cardiovascular), centenas de milhares de pacientes teriam que ser seguidos prospectivamente para que alguns desenvolvessem esse problema. Isso seria impraticável. Nesta situação de raridade do desfecho, se utiliza o desenho de estudo denominado caso-controle. Nesse caso, são identificados pacientes com câncer de cérebro e indivíduos saudáveis. Então se aplica um questionário avaliando como foi nos últimos anos o uso de celular dessas pessoas. Ou seja, os doentes utilizaram mais celular do que os saudáveis?

Então o que dizem esses estudos? A grande maioria não demonstra associação entre câncer e uso de celular. Uma minoria de qualidade metodológica questionável sugere efeito protetor do celular contra câncer. E outra minoria de qualidade metodológica limitada sugere que celular causa câncer. Essas informações estão bem sumarizadas em uma revisão sistemática publicada na respeitada revista Epidemiology em 2009. E para corroborar com o que sugere a maioria das evidências, neste ano foi publicado no respeitado International Journal of Epidemiology o maior dos estudos de caso-controle, denominado INTERPHONE Study. Nesse grande estudo, participaram 13 países, sendo recrutados 2.708 pacientes com glioma, 2.409 pacientes com meningioma e 7.658 controle pareados. Resultado? Não há associação entre celular e câncer na análise primária do estudo. Em outras palavras, celular não causa câncer.

Outra importante evidência a favor da inocência do celular é a ausência de aumento da incidência de câncer de cérebro nos últimos 15 anos, de acordo com estudos de desenho ecológico. No início da década de 90, virtualmente ninguém no mundo usava celular. Na década de 2000, virtualmente todas as pessoas usavam celulares. Viraria uma epidemia de câncer de cérebro. Mas nada foi observado.

Mas porque então surge na imprensa uma notícia como essa? Porque a Organização Mundial de Saúde reconhece a possibilidade do vínculo entre celular e câncer?

Identifico três causas, a serem descritas nos próximos parágrafos:

Primeiro, os alarmistas, pessoas que vivem de assustar as pessoas. Os alarmistas existem em várias áreas, por todo lado. Existem porque uma notícia ruim gera mais impacto do que uma notícia boa. Quando assistimos ao Jornal Nacional, saímos deprimidos, pois o que vemos são 80% de notícias ruins e 20% de notícias neutras ou boas. Mas isso é um viés, o mundo é melhor do que parece aos olhos dos telejornais. É só olhar ao redor. Mas os alarmistas vivem do incêndio, seja por vocação, seja por interesse. Em nossa prática, vemos médicos alarmistas, também chamados de incendiários. Estes são aqueles que supervalorizam o problema de seu paciente, para também supervalorizar a importância de seu tratamento. Indivíduo assintomático, faz teste ergométrico desnecessário, porém positivo para isquemia miocárdica. Daí faz um cateterismo que mostra obstrução em apenas uma artéria. O médico alarmista diz ao paciente que ele pode ter um infarto ou morrer, portanto precisa fazer uma angioplastia. O médico científico diz que a angioplastia não reduz infarto, nem reduz probabilidade de óbito, então o que o paciente precisa é controlar seus fatores de risco. Qual médico parece mais importante aos olhos de mentes superficiais? O alarmista, é claro. Esse aparentemente resolveu o problema do paciente de forma mais ativa. Este é um simples exemplo do benefício pessoal de ser alarmista.

Segundo, a mente humana tende a ser crédula, por uma questão puramente evolutiva. Isso se explica pela lei da sobrevivência. Há 200.000 anos, o homem vivia em constante perigo. Quando os arbustos na floresta se mexiam, a probabilidade maior era de ser apenas o vento. Mas o homem crédulo achava logo que era um leão se aproximando e saía correndo. Um dia viria a ser um leão de fato. Assim, a mente crédula teve uma maior probabilidade de sobreviver do que a mente cética. Por este motivo, o homem é biologicamente crédulo. É só um alarmista trazer o problema, que logo acreditamos, devido ao medo, ao instinto de preservação. Mas estamos em outra época, não vivemos mais em constante perigo e hoje existe algo denominado ciência. Em ciência, uma idéia só deve ser tornar vigente, quando somos capazes de rejeitar a hipótese nula. Como comentado na postagem anterior, a premissa básica do pensamento científico é a hipótese nula. Só fortes evidências a rejeitam. Não há forte evidência para rejeitar a hipótese nula de que celular não causa câncer.

Terceiro, os politicamente corretos. Essas são pessoas que não têm convicção de que o celular causa câncer, no fundo acham que não causam, mas se posicionam com preocupação, cuidado e falam: ainda não sabemos, por via das dúvidas, devemos aproximar pouco o telefone da cabeça ou usar o viva-voz. Para estes, fico uma frase da Bíblia sempre lembrada por Nizan Guanaes: "Seja quente, ou seja, frio, não seja morno que eu vomito." O certo, sem querer parecer equilibrado é dizer: celular não causa câncer. Até que se prove o contrário, o que é muito improvável.

O telefone celular representou uma das maiores revoluções em comunicação do final do século passado, nos trouxe vários benefícios. Talvez a gente até exagere no uso dessa ferramenta, mas rejeitar a hipótese nula sobre o risco do celular e assumir que este causa câncer com base em estudos de má qualidade metodológica (desprezando os melhores estudos) é um desserviço.

Enfim, não precisamos exagerar no politicamente corretos, nossa mente não precisa funcionar como a dos nossos ancestrais, nem devemos nos influenciar por alarmistas: celular não causa câncer!

sábado, 4 de junho de 2011

A Futilidade da Niacina


De acordo com o dicionário Wikipédia, um dos significados da palavra futilidade é inutilidade, aquilo que não dá resultado. É o que está demonstrado na figura acima: tentar acertar a bolinha de golfe é quase o mesmo que não tentar, pois a probabilidade de acerto é mínima. Então essa tentativa pode ser considerada fútil. Em medicina baseada em evidências, o termo futilidade se aplica quando uma intervenção não produz resultados, ou no máximo produz um resultado desprezível.

É o que foi demonstrado pelo ensaio clínico AMI-HIGH, o qual testou a hipótese de que o uso de niacina (ácido nicotínico, vitamina B3) traz benefício em indivíduos que já fazem uso de estatina, mas têm HDL-colesterol baixo. Esse estudo pretendia randomizar 3.400 pacientes, mas foi interrompido com 1.700, pois não havia nenhum indício de benefício em análise interina. Em outras palavras, foi interrompido porque a Niacina preencheu critério de futilidade: mesmo se o estudo continuasse, iria mostrar ausência de benefício ou na melhor das hipóteses um benefício desprezível.

Já critiquei nesse Blog estudos truncados (interrompidos precocemente) que mostram benefício de uma terapia. Porém no caso presente a crítica não se aplica, pois a interrupção foi por critério de futilidade. Sabemos que o pensamento científico deve partir da premissa de que a hipótese nula é verdadeira. Interromper um estudo e continuar com a hipótese nula está dentro da ordem cientifica. Principalmente se a análise mostra que se houver benefício, este será irrelevante.

Por outro lado, é criticável rejeitar a hipótese nula (premissa básica) com base em estudo truncado. É exatamente devido à violação desse princípio científico da hipótese nula que muitos mitos são criados em medicina e depois precisam ser derrubados.

As pessoas acreditam nas coisas antes da hora. Por exemplo, acreditamos antes da hora que Robinho seria um novo Pelé. Até Pelé falou isso. Rejeitamos a hipótese nula de que Robinho era normal. O tempo mostrou que Robinho é apenas um bom jogador. Foi um entusiasmo precoce. Em futebol, tudo bem. Mas em medicina não podemos fazer isso (a exceção do paradigma do para-queda).

Vamos voltar à Niacina.

Ao longo da última década a indústria farmacêutica fez uma propaganda entusiástica do uso de niacina para paciente com HDL-baixo. Com isso ressuscitou a utilização de uma droga que após o advento das estatinas havia perdido espaço. O faturamento anual com a venda de Niacina nos Estados Unidos chega a $1 bilhão. O problema é que todo esse faturamento não é baseado em evidências. Os estudos que mostraram algum benefício clínico com Niacina datam mais de 30 anos, época em que estatinas não existiam. Agora com o uso de estatina, precisamos demonstrar benefício clínico nesse cenário.

Todos nos lembramos das visitas dos representantes, que argumentavam plausibilidade biológica, citavam estudos de Niacina em pacientes sem estatina ou citavam estudos de desfechos substitutos. Mas essas propagandas não eram cientificamente convincentes.

HDL-colesterol baixo tem associação independente com eventos cardiovasculares em estudos de coorte prospectiva, inclusive com uma relação dose-resposta. Estes dados epidemiológicos aliados à plausibilidade permitem a conclusão de que HDL-colesterol baixo representa um fator de risco para doença aterosclerótica. Isso é conclusão científica. A partir daí, pode-se criar a hipótese de que se aumentarmos farmacologicamente o HDL-colesterol, reduziremos eventos cardiovasculares. Isso é uma hipótese plausível. Por outro lado, considerar isso uma verdade suficiente para adotar a conduta é pura extrapolação.

Ao tempo em que critico a propaganda não embasada, devo reconhecer o mérito da indústria em ter co-financiado este estudo. Este não foi um estudo conduzido pela indústria, foi conduzido e parcialmente financiado pelo National Institute of Health (NIH), órgão governamental, isento. Mesmo assim, a Abbot aceitou financiar metade das despesas do estudo, sem influência nos resultados. É um mérito e um modelo que deveria ser mais freqüente: estudos financiados pela indústria, porém conduzidos por orgãos independentes.

O AMI-HIGH não está publicado, foi apenas anunciado em forma de conferência no NIH. Estes eram pacientes de alto risco cardiovascular, em uso de estatina, com LDL baixo, porém HDL baixo e triglicérides elevados. Apesar de a Niacina ter aumentado o HDL-colesterol, não houve benefício clínico: a incidência anual do desfecho primário composto foi 5.6% no grupo controle versus 5.8% no grupo niacina. Esse desfecho primário foi o composto de infarto fatal e não fatal, AVC, angina instável ou revascularização.

Precisamos entender que os sistemas biológicos são complexos, o que faz com que eventos sejam decorrentes de uma multiplicidade de fatores, que possuem uma multiplicidade de interações. Impossível prever o resultado de uma intervenção. Embora HDL-colesterol seja uma molécula anti-aterogênica, aumentar sua concentração pode não ter efeito anti-aterogênico, pois qualitativamente essas novas moléculas podem ser diferentes. Lembram do estudo Illuminate, que testou torcetrapib, uma droga muito mais potente do que Niacina para aumentar HDL-colesterol? Aumentou mortalidade! Justificaram pelo aumento dos níveis pressóricos com a droga, mas será que foi por isso mesmo? Recentemente, o estudo ACCORD não mostrou benefício de fibratos em diabéticos sob uso de estatina, que tinham HDL-colesterol médio de 38 mg/dl.

Ou seja, Niacina, torcetrapib, fibratos, todas estas são estratégias que aumentam HDL-colesterol, porém sem resultar em benefício clínico. Será que estamos com a hipótese certa? Será que HDL-colesterol é mesmo fator de risco? Sabemos que a validação final de um fator de risco é quando o controle do fator reduz a incidência de doença. Tratar LDL-colesterol reduz desfecho, tratar hipertensão reduz desfecho, parar de fumar reduz desfecho. Mas ainda não conseguimos provar o mesmo com HDL-colesterol. Os estudos de 30 anos atrás com Niacina aumentavam HDL-colesterol, mas também reduziam LDL-colesterol. De onde veio o benefício?

Essa é mais uma história que nos lembra do paradigma da medicina baseada em evidências. Mais um exemplo de que plausibilidade biológica não é suficiente para garantir benefício clínico. Mais um exemplo de que estudos de desfechos substitutos não garantem benefício clínico. E assim vamos evoluindo cientificamente.

quarta-feira, 1 de junho de 2011

Como Analisar Criticamente um Artigo sobre Acurácia


Na postagem anterior, definimos acurácia e mostramos a importância das medidas de sensibilidade, especificidade e razões de probabilidades de métodos diagnósticos. Estes parâmetros não surgem por encanto. O conhecimento da acurácia de um método é proveniente de evidências científicas. Como toda evidência científica, estas também devem passar pelo crivo da análise crítica dos métodos utilizados para chegar às respectivas conclusões. A comunidade médica está mais habituada a avaliar criticamente ensaios clínicos terapêuticos, mas a correta avaliação da acurácia de testes é de igual importância, pois tudo começa pelo diagnóstico.

Estudos de acurácia possuem o caráter transversal, do tipo que avalia uma realidade no momento presente. E diagnóstico é isso mesmo, é a tentativa de retratar o que está ocorrendo no presente. Portanto, não se faz necessário seguimento prospectivo. A metodologia consiste na realização do método em questão e na checagem se este método foi capaz de detectar os doentes (sensibilidade = testes positivos/doentes) e detectar os saudáveis (especificidade = testes negativos/saudáveis). Para avaliar se o método faz essa distinção corretamente, precisamos saber quem é realmente doente ou saudável. Desta forma, é necessário que os pacientes realizem outro exame, teoricamente melhor que o exame em questão, o qual é denominado de padrão-ouro ou padrão de referência. Por exemplo, para avaliar a acurácia da angiotomografia de coronárias, o cateterismo cardíaco será o padrão-ouro.

Muito bem, assim se fazem os estudos de acurácia diagnóstica. Para avaliar criticamente um estudo deste tipo, sugiro os seguintes passos:

1) Verifique se o padrão de referência escolhido é adequado, ou seja, realmente o padrão de referência é um método ouro? Um exemplo, um estudo publicado no New England Journal of Medicine, que avaliou acurácia da angiotomografia para o diagnóstico de embolia pulmonar, utilizou angiografia invasiva (OK) ou cintilografia pulmonar (?) ou ultrassom de membros inferiores (???) como padrões de referência. Claro, essas duas últimas referências podem ser de pior acurácia do que a angiotomografia, então não poderiam ser referências.

2) Verifique se a leitura do padrão de referência foi independente da leitura do método avaliado, ou seja, feita por pessoas diferentes, para que o conhecimento do padrão-ouro não influencie da leitura do exame. Além disso, a leitura do método deve ser cega em relação ao quadro clínico do paciente. Se não, o resultado do método não será apenas proveniente do método, mas da visão clínica do observador. As coisas não podem se confundir.

3) Procure pelo viés de verificação (referral bias): esse é o viés mais comum em estudos de acurácia. Ocorre quando nem todos os pacientes avaliados realizam padrão-ouro. A maioria dos estudos que avaliaram a acurácia da cintilografia miocárdica sofreu desse viés. Isso por que os médicos ficavam menos motivados a solicitar cateterismo cardíaco (padrão-ouro) se a cintilografia fosse negativa. Esse viés superestima a sensibilidade e subestima a especificidade. Imaginem se nenhum paciente com teste negativo fizesse o cateterismo e todos os pacientes com teste positivo fizessem o cateterismo. Isso iria provocar sensibilidade de 100% e especificidade de 0%. É só pensar um pouco que dá para entender: todos os pacientes com cateterismo positivo teriam cintilografia positiva (sensibilidade 100%) e nenhum paciente com cateterismo negativo teriam cintilografia negativa, porque só tinha gente com teste positivo (especificidade 0%). Já estudos mais contemporâneos, a exemplo dos que avaliaram a angiotomografia de coronárias, preveniram esse problema, pois recrutaram pacientes que já tinham indicação de cateterismo.

4) Verifique se o estudo é retrospectivo ou prospectivo. Na situação retrospectiva, o estudo é menos confiável,  pois o exame não é realizado com intuito de ser avaliado, na verdade eles são realizados como parte da conduta clínica. Desta forma, sua leitura é menos padronizada e nem sempre cega. Já vi na prática médicos laudando métodos de pesquisa de isquemia miocárdica tendo o laudo do cateterismo para se embasar. Do ponto de vista da geração de conhecimento científico, isso é um grande viés. Os estudos retrospectivos são também muito vulneráveis ao viés de verificação, pois refletem a prática clínica. Diferente de um desenho prospectivo, onde obrigatoriamente o paciente faz o padrão-ouro. Além disso, estudos retrospectivos são mais sujeitos ao viés de publicação, ou seja, têm menos possibilidade de serem publicados se o resultado for negativo. Já o prospectivo não, foi tudo planejado e o autor tem motivação de publicar, independente do resultado. Essa é a explicação para a falácia da avaliação de dissincronia pelo ecocardiograma. Esse método foi tido na década passada como um ótimo exame para predizer resposta à terapia de ressincronização. Porém eram todos estudos pequenos, a maioria retrospectivos, e no máximo deveriam ter gerado hipótese. No entanto, as pessoas se entusiasmaram e começaram a utilizar essa avaliação na prática clínica. Depois ficaram todos perplexos pelo resultado do primeiro estudo prospectivo de grande porte (denominado PROSPECT), que mostrou sensibilidade e especificidade em torno de 50% para a maioria dos parâmetros. Grande lição. Alguns viuvos da avaliação de dissincronia ainda tentam criticar o PROSPECT, mas sem grande repercussão.

5) Finalmente, observem intervalo de confiança das estimativas da sensibilidade e especificidade. Este nos dará a idéia da precisão do que está sendo dito a respeito da acurácia. Há artigos que nem traz esse o intervalo de confiança. Esta omissão é o mesmo que fazer uma comparação entre droga e placebo e não mostrar o valor de P. Lembro-me de um trabalho que encontrou uma especificidade de 85% da tomografia de coronárias. Porém o intervalo de confiança is de 62% a 96%. Ou seja, a precisão da estimativa não era boa, pois o trabalho só tinha 50 pacientes. De acordo com esse trabalho só poderíamos afirmar que a especificidade não é pior que 62%.

Depois de tudo isso, não podemos esquecer de avaliar se as razões de probabilidade são boas, pois tem autor concluindo muita besteira por aí. Além disso, tem gente fazendo conclusões erradas com base apenas no valor preditivo.

Chega a ser divertido ler com atenção artigos de acurácia. Criem esse hábito e vejam com é fácil achar erros. Parece até jogo dos sete erros.

* Essa é a segunda postagem da série Análise Crítica de Métodos Diagnósticos