sábado, 16 de julho de 2011
quinta-feira, 14 de julho de 2011
A Retórica de Artigos Científicos
Com relativa freqüência, alunos da graduação me perguntam como podemos saber se os dados de um artigo são verídicos. Na verdade, a medicina baseada em evidências não possui ferramentas investigativas a fim de detectar o crime de fraude. Portanto, isto não cabe aos leitores do artigo. A premissa básica é a da honestidade, este é um pressuposto do código de honra científico. Ainda bem que é assim, pois seria caótico se a cada artigo publicado, ficássemos nos questionando se o autor é honesto ou fraudulento. E de fato acredito que a grande maioria das evidências publicadas não contém fraudes grandes, das que modificam substancialmente a interpretação científica. Seria um risco muito grande para o cientista, risco de terminar sua carreira se for descoberto.
Por outro lado, vivo falando que precisamos ser céticos, pois os o mundo está repleto de conflitos de interesse. Desde que declarados, ter conflitos não é uma desonestidade (não obstante, a linha é tênue), mas cabe aos que interpretam as evidências serem capazes de perceber tendenciosidades. Estas tendenciosidades podem estar presentes desde o planejamento do estudo, cujo desenho pode favorecer ao resultado de interesse. Por exemplo, a dosagem utilizada de um novo antibiótico em um ensaio clínico pode ser comparativamente superior à dosagem administrada do antibiótico usual. Outra opção de desenho de estudo tendencioso é escolher uma definição do desfecho primário voltada para uma maior probabilidade de benefício da terapia de interesse, mesmo que esse desfecho não seja o mais importante. E assim por diante.
Uma vez o estudo realizado, a forma de tendenciosidade mais freqüente é a retórica. No dicionário Wikipédia, retórica é a arte de usar a linguagem para comunicar de forma persuasiva. Neste contexto, foi recentemente publicado no Archives of Internal Medicine um interessante e reflexivo artigo, intitulado Rhetorical Techniques Used in the Reporting of Cardiac Resynchronization Trials. Sabemos que a ressincronização cardíaca é comprovadamente benéfica em pacientes com disfunção sistólica do ventrículo esquerdo de grau severo e bloqueio de ramo esquerdo com duração do QRS ≥ 150 ms. Mesmo assim, o estudo nos mostra que os artigos são escritos de forma a supervalorizar a terapia ou induzir o benefício em subgrupos em que este não existe. Os autores revisaram 10 ensaios clínicos randomizados e sinais de retórica foram observados em todos os trabalhos, tais como:
1) Em 80% dos estudos, o resumo não mencionava avaliação do malefício (complicações), apenas o benefício.
2) Em 90% dos estudos, o objetivo não mencionava avaliação de segurança da terapia, como se fosse garantido que não haveria complicações.
3) Em 70% dos estudos, a fundamentação escrita na introdução só trazia racional para o benefício, não demonstrando nenhum dado de plausibilidade para malefício, como se não houvesse dúvida do resultado que viria a ser demonstrado pelo artigo.
4) Em 20% dos estudos, foram utilizadas apenas medidas relativas de associação, ao invés de medida absoluta (risco absoluto), a qual fornece verdadeira magnitude do benefício.
5) Em 80% dos estudos, as complicações provenientes dos implantes não foram relatadas.
6) Na discussão, limitações dos trabalhos não foram mencionadas em 40% dos trabalhos.
7) Nenhum estudo continha análise de risco/benefício.
8) Nenhum estudo discutiu a validade externa dos dados apresentados.
9) Em 40% dos trabalhos, o resultado referente ao desfecho primário foi negativo, mesmo assim concluíram que a terapia deveria ser utilizada na prática clínica.
Esta análise serve para nos mostrar que mesmo na ausência de fraude, um estudo pode ser escrito de forma que os leitores sejam convencidos de uma idéia algo distorcida em relação à realidade.
Isto ocorre em artigos, mas também em situações menos formais, tais como palestras. É assim que funciona, o conflito de interesse não faz com que palestrante minta durante sua apresentação, mas faz com que ele utilize da retórica de uma forma mais tendenciosa do que se não houvesse conflito de interesse. Seja um processo consciente ou inconsciente. Portanto, cuidado com o que lêem ou ouvem.
Então, onde está a solução? A solução está nos médicos desenvolverem a habilidade para analisar criticamente a literatura, possuindo opinião própria em relação aos assuntos, ficando assim isentos da influência velada dos formadores de opinião com conflitos de interesse. Quando isto acontecer, estes formadores de opinião perderão a utilidade.
terça-feira, 12 de julho de 2011
sábado, 9 de julho de 2011
Análise de Aplicabilidade: Ticagrelor
Vejam só que coisa. A gente fica esperando 10 anos para baratear o preço do Clopidogrel. Quanto isso acontece com o genérico, aparece uma melhor opção, cujo preço está no patamar do Clopidogrel antes da queda de sua patente.
No final da última postagem, escrevi que “uma equação envolvendo magnitude de benefício, risco de sangramento e custo da nova terapia permitirá uma decisão individualizada a respeito de qual das duas drogas deverá ser usada.”
Vamos exercitar este pensamento, que corresponde à análise de aplicabilidade de uma evidência científica. Este tipo de análise deve ocorrer após a análise de veracidade da evidência. Ou seja, partiremos do pressuposto de que a veracidade do artigo já foi analisada.
Primeiro, do ponto de vista de saúde pública esta droga não se aplica. Considerando o modesto benefício do Ticagrelor e seu alto preço, uma boa relação de custo-efetividade precisaria ser muito bem demonstrada, principalmente em nosso meio. Ainda não temos esta definição e é provável que não seja uma droga custo-efetiva.
Então fica a decisão para o paciente que vai pagar pela droga, cuja duração do tratamento é de pelo menos um ano após a síndrome coronariana aguda. Normalmente estamos dispostos a pagar um alto preço quando o retorno é muito bom. Mas ninguém vai querer pagar o preço de uma Mercedes e levar um fusquinha modelo antigo. Considerando o NNT de 52, o Ticagrelor não é nenhuma Mercedes, como comentado na postagem anterior. Então precisamos escolher a população que vai se beneficiar mais da droga, transformando um fusquinha em um carro de nível pelo menos médio. Digamos, numa Brasília (essa analogia é para aqueles com mais de 30 anos).
Foi exatamente isso que o estudo PLATO fez, corretamente. Ou seja, selecionou uma população de alto risco. A amostra do estudo PLATO é de risco mais alto do que a amostra do lendário estudo CURE, aquele que validou o uso de Clopidogrel: a incidência do desfecho combinado (morte CV, infarto e AVC) no grupo Clopidogrel do estudo PLATO é 11.7%, comparados a apenas 9.3% no estudo CURE. Isso ocorreu porque no PLATO eram necessários dois de três critérios para o paciente fosse incluído no estudo (dentre eletrocardiograma, marcadores de necrose, idade, DAC prévia, diabetes) e no CURE apenas um de três critérios de inclusão.
Devemos observar que este NNT está otimizado pela correta seleção de uma população de alto risco. Digo correta seleção, pois quando temos uma droga de benefício modesto, devemos identificar uma população de maior risco, cuja redução absoluta de risco será também maior. O PLATO fez isso e obteve o NNT de 52. Caso o PLATO houvesse selecionado uma amostra semelhante à do CURE, o NNT seria 100.
Como calculei isso? De acordo com o PLATO, Ticagrelor (comparado a Clopidogrel) promove uma redução relativa de 19% na incidência de desfechos combinados. Aplicando 19% aos 9.3% do grupo Clopidogrel na população do CURE, haveria uma redução para 8.5%, ou seja, redução absoluta de risco de 1%. Isto dá um NNT de 100.
Isto nos indica que o Ticagrelor deve ser uma droga limitada aos pacientes de alto risco cardiovascular. Primeiro, porque estes são os que vão experimentar uma redução absoluta de risco aceitável. Segundo, porque estes são os que se prejudicariam em esperar cinco dias de suspensão do Clopidogrel caso fosse indicada cirurgia cardíaca. Lembrem-se que o Ticagrelor só precisa ser suspenso por 24 horas antes da cirurgia, pois seu efeito é de curta duração.
Desta forma, no cenário de síndromes coronarianas sem supradesnível do ST, o Ticagrelor teria indicação para os pacientes de alto risco (Escore GRACE > 140 ou sintomas recorrentes durante internamento). Nestes pacientes, o impacto absoluto da terapia provavelmente justifica a troca do tradicional Clopidogrel pelo Ticagrelor. Nos demais, eu ficaria com Clopidogrel.
Quanto ao infarto com supradesnível, o subgrupo de pacientes submetidos a angioplastia primária mostrou resultados consistentes com a amostra geral do PLATO. Considerando que angioplastia primária é um procedimento não planejado, o início de ação mais precoce do Ticagrelor pode ser uma vantagem.
Os pacientes tratados com trombólise não entraram no PLATO, portanto para estes o Clopidogrel continua a droga de eleição, adjunta à Aspirina.
Os pacientes tratados com trombólise não entraram no PLATO, portanto para estes o Clopidogrel continua a droga de eleição, adjunta à Aspirina.
Percebe-se assim que na análise da aplicabilidade de uma evidência, precisamos avaliar criteriosamente qual a amostra estudada e o quanto devemos extrapolar a indicação para além desta amostra. Neste caso, não há sentido em se extrapolar para pacientes de risco baixo. Para conhecer a amostra estudada, devemos prestar atenção aos critérios de inclusão, tabela de características da população e na incidência dos desfechos de interesse. Em segundo lugar, o NNT deve ser contextualizado para a gravidade do paciente, aplicando a redução relativa de risco nos diferentes tipos de população, obtendo as reduções absolutas específicas. Por fim, análises de subgrupo são úteis para mostrar se há consistência do resultado positivo nos diferentes subgrupos, como fizemos agora com o infarto com supradesnível.
Imagino assim que Clopidogrel continue a primeira opção para pacientes com síndromes coronarianas agudas, ficando o Ticagrelor para os subgrupos aqui especificados.
quinta-feira, 7 de julho de 2011
Qual o verdadeiro valor do Ticagrelor?
Considerando a atual disponibilidade da droga em questão, reeditamos o texto abaixo que foi originalmente postado no início de 2010.
Em setembro de 2009 foi publicado o estudo PLATO no New England Journal of Medicine, o qual comparou o novo antiagregante plaquetário Ticagrelor versus Clopidogrel no tratamento de pacientes com síndromes coronarianas agudas. Este foi um ensaio clínico randomizado, envolvendo 18.000 pacientes, financiado pela indústria farmacêutica produtora do novo produto. Quando comparado à terapia padrão com Clopidogrel, o Ticagrelor demonstrou redução de eventos cardiovasculares à custa de redução de infarto não fatal e óbito, em seguimento de 12 meses (9.8% vs. 11.7%, P < 0.001). Há portanto um benefício que podemos considerar verdadeiro. A segunda questão é qual a magnitude deste benefício: grande, moderada, pequena? Calculando o NNT, percebemos que precisamos tratar 52 pacientes com Ticagrelor (ao invés de Clopidogrel) para prevenir um evento cardiovascular ou tratar 91 pacientes para prevenir um óbito. Estes números (NNT > 50) indicam que o benefício não é de grande magnitude, existe eficácia anti-isquêmica, porém esta é modesta.
Geralmente se espera que um antitrombótico de maior efeito anti-isquêmico aumente sangramento, como foi o caso do Clopidogrel versus placebo (CURE) e do Plasugrel versus Clopidogrel (TRITON). De fato, isso também ocorreu com o Ticagrelor, visto que sangramento maior não relacionado a cirurgia foi mais frequente neste grupo (4.5% vs. 3.8%, P=0.03; NNH = 143). Portanto, Ticagrelor é um pouco melhor anti-isquêmico do que Clopidogrel, e um pouco mais causador de sangramento grave do que Clopidogrel. O benefício que já é modesto, fica mais modesto ainda quando percebemos que a droga tem também seu lado negativo.
Mas então, qual a vantagem desta nova droga? Existe uma certa vantagem logística, que está relacionada ao fato de que esta droga tem o efeito mais rapidamente revertido após sua suspensão, quando comparado a Clopidogrel. Em torno de 12% dos pacientes com síndromes coronarianas agudas são submetidos a cirurgia de revascularização durante o internamento. Alguns deles têm esta indicação urgente, considerando a instabilidade do quadro. Porém se foi administrado Clopidogrel antes da indicação cirúrgica, a cirurgia normalmente é adiada por 5 dias, deixando o paciente vulnerável. Mas se o pacientes estiver usando Ticagrelor, a cirurgia pode ser realizada após apenas 24 horas de sua suspensão, mais rápida do que no paciente que usa Clopidogrel. No Plato, a incidência de sangramento grave relacionado à cirurgia foi semelhante nos grupos Ticagrelor e Clopidogrel, com a vantagem de que Ticagrelor foi suspenso no mínimo 24 horas antes e Clopidogrel no mínimo 5 dias antes.
Porém devemos fazer algumas ressalvas: primeiro, o estudo avaliou pacientes de moderado a alto risco para eventos isquêmicos recorrentes (por exemplo, 80% com troponina positiva, 60% com infradesnível do ST). Para pacientes de menor risco (e menor probabilidade de cirurgia de emergência) a magnitude do benefício deve ser menor ainda, sem o benefício de menor sangramento cirúrgico. Para estes, ficaria mais bem indicado o Clopidogrel, principalmente naqueles com alto escore de risco para sangramento; segundo, o estudo PLATO estudou conjuntamente duas patologias diferentes (IAM com supra e SCA sem supra). Misturou apples and oranges. Embora a análise de subgrupo sugira que o efeito é consistente nos dois grupos, o ideal do ponto de vista metodológico é que haja estudos diferentes para patologias tão diferentes e de tratamentos diferentes. Terceiro, 20% do grupo Clopidogrel não utilizou dose de ataque.
Desta forma, embora o Ticagrelor seja uma evolução farmacológica, não é uma panacéia. Ainda há muito espaço para a indicação do Clopidogrel. Uma equação envolvendo magnitude de benefício, risco de sangramento e custo da nova terapia permitirá uma decisão individualizada a respeito de qual das duas drogas deverá ser usada.
terça-feira, 5 de julho de 2011
Wear Sunscreen
Wear Sunscreen (em português, Use filtro solar) é o nome comum de uma obra chamada "Advice, like youth, probably just wasted on the young" escrita por Mary Schmich e publicada no Chicago Tribune como uma coluna em 1997. A forma mais conhecida da obra é uma música gravada em 1999, "Everybody's Free (To Wear Sunscreen)", produzida pelo cineasta australiano Baz Luhrmann. Narrado pelo dublador australiano Lee Perry, o vídeo e o texo ficaram famosos e no Brasil foi traduzido por Pedro Bial.
Provalmente muitos conhecem. Para os que não conhecem, vale a pena ouvir as mensagem no vídeo acima. Para os que já conhecem, vale a pena ouvir de novo. O autor nos dá conselhos sábios sobre a vida, mas humildemente reconhece que são só conselhos, sem comprovação científica. O texto começa com o autor reconhecendo que de tudo o que vai dizer, só de uma coisa ele tem certeza: de que usar filtro solar faz bem à saúde.
No entanto, sob a visão da medicina beseada em evidências, nem isso o autor poderia ter dito. Isto porque não havia evidências de ensaios clínicos randomizados sobre a eficácia do filtro solar na prevenção de câncer. Interessante, não? Algo que nós sempre tivemos como verdade absoluta. Até então o que existia eram estudos caso-controle de resultados controversos.
Mas agora surgiu uma evidência que valida a poesia do texto. Green et al publicaram no Journal of Clinical Oncology com 1.600 indivíduos, randomizados para uso diário de protetor solar versus uso a critério do usuário. Após 15 anos, verificou-se redução na incidência de melanoma pela metade (HR =0.50). Agora assim a gente pode ver este vídeo de forma embasada. Recomendo.
domingo, 3 de julho de 2011
Utilidade de Métodos Diagnósticos
Na série Análise Crítica de Métodos Diagnósticos, após discutir acurácia, chega o momento de abordar o conceito de utilidade. Como mencionado anteriormente, não basta que um método seja acurado para que este deva ser indicado para um paciente. O método precisa ser útil. E acurácia não garante utilidade.
Para avaliar utilidade de um método, devemos fazer duas análises seqüenciais: primeiro, o raciocínio diagnóstico probabilístico; segundo, a capacidade do método de beneficiar o paciente. Nesta postagem abordaremos a primeira questão.
Boa parte dos diagnósticos em medicina é probabilística, ou seja, no final da investigação a probabilidade é suficientemente alta para se considerar que o paciente é portador de certa doença. Esta probabilidade é o resultado da interação do quadro clínico (probabilidade pré-teste) e do resultado do teste (exame complementar). O impacto de um teste positivo na probabilidade de um indivíduo ser doente (assim como o impacto de um teste negativo na probabilidade de ser saudável) depende da sua acurácia, que é medida pelas razões de probabilidade (RP) – tema de postagem anterior. Quanto maior a RP positiva, mais o resultado positivo do teste aumenta a probabilidade do indivíduo ser doente. Quanto menor a RP negativa, mais o teste negativo reduz a probabilidade do indivíduo ser doente (ou aumenta a probabilidade de ser saudável).
Desta forma, há situações em que o teste não é capaz de modificar substancialmente a probabilidade pré-teste do paciente. Ou seja, o teste não muda muito nosso pensamento a respeito do paciente ter ou não ter a doença. Isto depende do tipo de paciente e da RP do teste. Um exemplo clássico é a realização de teste ergométrico em pacientes assintomáticos (check-up). De acordo com modelos probabilísticos validados, a maioria das pessoas assintomáticas tem baixa probabilidade de doença coronariana obstrutiva. No entanto, na rotina do consultório cardiológico, é quase garantia de que o paciente em avaliação anual saia com pedido de teste ergométrico. O teste ergométrico tem razão de probabilidade positiva de 3.0. Então se um paciente tiver 5% de probabilidade pré-teste, um teste ergométrico positivo vai resultar em probabilidade pós-teste de 14%. Ou seja, apesar do teste positivo, o paciente continua muito mais para não ter a doença do que para ter a doença. Continuamos pensando o mesmo que achávamos antes, ou seja, o paciente é saudável. O teste não mudou nosso pensamento. Não foi útil.
O mesmo acontece com métodos não invasivos de melhor acurácia, porém aplicados a indivíduos inadequados. Porém exemplo, a cintilografia miocárdica tem RP positiva de 3.6. Caso fosse positiva, a probabilidade deste paciente iria subir para 29%. Ainda muito duvidosa. E se fosse paciente assintomático, porém mais idoso, com maior probabilidade pré-teste, tipo 25%? Uma cintilografia positiva promoveria uma probabilidade pós-teste de 54%. Agora maior, porém ainda há muita dúvida se o paciente é saudável ou doente.
Assim fica claro que pesquisa de isquemia miocárdica em pacientes assintomáticos (screening de doença coronária) não tem utilidade. Esta indicação não deve existir na rotina, salvo algumas exceções. Ainda há outros motivos pelo qual o screening não deve existir que abordaremos na próxima postagem.
E quanto ao teste negativo? Se tivermos um paciente de 70 anos, com dor torácica típica para angina, sua probabilidade pré-teste de acordo com o modelo Diamond-Forrester é 90%. Se este paciente fizer uma cintilografia miocárdica, cujo resultado for negativo, considerando a RP negativa de 0.18, a probabilidade pós-teste cairá para 62%. Ou seja, apesar do teste negativo, ainda é mais provável que o indivíduo seja doente do que saudável. Portanto, a cintilografia não é útil neste caso, pois não vamos acreditar no resultado negativo e se fosse positiva não seria novidade. Por este motivo, diz-se que paciente com alta probabilidade pré-teste deve ir diretamente para a coronariografia.
E mesmo a coronariografia não afasta uma doença obstrutiva em paciente com altíssima probabilidade pré-teste. Recentemente, vivenciei um caso muito típico de angina, porém a coronariografia mostrava apenas uma estenose de 25-50% em descendente anterior. O quadro era tão típico que este resultado não foi suficiente para reduzir a probabilidade de doença para níveis aceitáveis. Sendo assim, solicitou-se um ultrassom intracoronário que mostrou obstrução de 70%.
A esta altura, alguns devem questionar como calculei a probabilidade pós-teste em todos estes exemplos. Hoje usei o aplicativo do Iphone (há muitos), onde coloco apenas a probabilidade pré-teste do paciente e a RP do método. Mas tradicionalmente isto é feito pelo Nomograma de Fagan (foto acima), onde traçamos uma linha que se inicia na probabilidade pré-teste, passa pela RP e termina na probabilidade pós-teste. Façam uma simulação e vejam como é fácil. Se o teste for positivo, utilizamos a RP positiva; se for negativo, utilizamos a RP negativa.
Em postagem anterior, comentamos sobre um registro americado publicado no New England Journal of Medicine. De 400.000 cateterismos eletivos realizados em 660 hospitais, apenas 38% evidenciaram lesões coronárias obstrutivas. E a maioria destes pacientes tinha exame não invasivo positivo para isquemia. O problema é que muitos pacientes com baixa probabilidade pré-teste tem exames solicitados. Quando chega o resultado positivo, o médico não faz o raciocínio probabilístico, considera que o paciente tem doença e solicita um cateterismo, cujo resultado vem normal. Como resolver isso? Solicitar o teste apenas nas situações de utilidade.
No caso da doença coronariana, a maior utilidade diagnóstica dos métodos não invasivos reside nos pacientes de probabilidade pré-teste intermediária. Uma mulher de 60 anos, com sintoma de tipicidade intermediária, tem probabilidade pré-teste de 54%. Se a cintilografia for positiva, sua probabilidade pós-teste vai para 80%. Aí sim, ela provavelmente tem doença. O teste foi útil, pois saímos da dúvida de 54% para um número mais sugestivo, 80%.
Isto não se resume à doença coronariana. Se começarmos a pesquisar embolia pulmonar para qualquer paciente internado com dispnéia, vamos ter resultados positivos alguns pacientes de baixa probabilidade pré-teste de acordo com o critério de Wells. E aí? O paciente tem mesmo embolia, precisa mesmo de anti-coagulação crônica? Ficará o dilema, pois a probabilidade pós-teste não vai ser alta. Por isso que só devemos investigar embolia quando a probabilidade pré-teste for pelo menos intermediária. Se não, vai confundir tudo.
Desta forma, a análise da utilidade de um teste diagnóstico passa pelo entendimento de que boa parte dos nossos diagnósticos é probabilística. Se pensarmos assim, é fácil detectar quando um teste será útil e quando será inútil. A utilidade aqui abordada se refere à capacidade do método de mudar substancialmente o que estamos pensando a respeito do paciente.
Como já dizia William Osler no início do século passado: “Medicina é a arte da incerteza e a ciência da probabilidade”. Diante da incerteza que nos ronda, precisamos pensar em probabilidade em nosso raciocínio diagnóstico.
Em recente editorial no JAMA 2010, Brook escreveu "in general, use of sensitivity, specificity, likelihood ratios, prior probabilities, and posterior probabilities in medical decision making has been largely ignored. An entire field of science is missing from the practice of medicine". Neste artigo o autor chama atençào para o fato dos médicos em geral não utilizarem o raciocínio probabilístico, simplesmente se tornam leitores de laudos de exames mal indicados.
Medicina baseada em evidências não se limita a discutir criticamente artigos científicos, mas também nos oferece ferramentas para a aplicação do conhecimento da prática clínica (from bench to bedside). Primeiro, há os artigos que mostram sensibilidade e especificidade dos métodos. Temos que analisá-los de forma crítica. Uma vez aceitando as informações, calculamos as RP. Quando aparece uma paciente, fazemos o raciocínio diagnóstico aqui proposto. Isto é medicina baseada em evidências.
Os critérios discutidos nesta postagem são necessários, mas não suficientes para um teste ser útil. O que discutimos representa a premissa básica: o teste deve ser capaz de influenciar nosso pensamento a respeito da probabilidade de doença. Porém, há um segundo critério que precisa ser avaliado: o resultado do teste deve provocar uma série de reações em cascata que resulte em benefício para o paciente. Este critério será discutido na próxima postagem desta série, cuja discussão é ainda mais palpitante.
* Está é a terceira postagem da série Análise Critica de Métodos Diagnósticos.
quinta-feira, 30 de junho de 2011
CHADSVASc: a Discussão Continua ...
Recentemente os colegas Danilo e Marcus Picoral me chamaram a atenção através deste Blog para um trabalho publicado no British Medical Journal, o qual avalia a acurácia do CHADSVASc para predizer desfechos em pacientes com fibrilação atrial, não anticoagulados.
Este trabalho é uma análise retrospectiva feita da Dinamarca, a partir dos registros do diagnóstico de internamento (CID) contidos no sistema de saúde daquele país. Os autores cruzaram o registro ambulatorial de que o paciente tinha fibrilação atrial com um eventual registro hospitalar de internamento por acidente vascular cerebral. Desta forma, dá para perceber que a validade interna dos dados apresentados neste trabalho é menor do que se fosse uma coorte de pacientes com fibrilação atrial para fins científicos. Não obstante, esta evidência não pode ser descartada, pois sua metodologia permitiu a análise de uma amostra de tamanho sem precedentes em 70.000 pacientes.
Este inédito tamanho amostral proporcionou (agora assim) que as estimativas do risco de AVC em cada pontuação do CHADSVASc fossem mais precisas, visto que os intervalos de confiança foram estreitos o suficiente para que cada faixa se diferenciasse em risco de AVC (menor superposição). Vale salientar que os valores encontrados diferem dos contidos na tabela que o Guideline Europeu apresentou, baseada em dados quase imaginários. Desta forma, agora temos uma tabela verdadeira, que nos permite saber qual o risco de acordo com o valor do CHADSVASc. Embora sejam dados provenientes de códigos de internamento, acho que o estudo agrega valor pelo seu tamanho amostral (os erros ficam um pouco mais diluídos).
Por outro lado, esse trabalho traz um dado concreto que reafirma nossa análise feita na postagem anterior: a acurácia discriminatória (entre quem vai e quem não vai ter AVC) do CHADSVASc é idêntica à do CHADS. Neste estudo de 70.000 pacientes, a estatísticas-C do CHADSVASC analisado em toda sua amplitude de valores (0-9) é 0.79, comparada a 0.80 do CHADS2 no seguimento de 10 anos. Ou seja, CHADSVASC de fato não é melhor.
Quem lê só o resumo do estudo, sai com a impressão de que as estatísticas-C do CHADSVASc são melhores. Porém a análise que demonstrou isso foi a que testou ambos os escores simplificados, ou seja, 3 possibilidades de classificação apenas (baixo, médio ou alto risco). Esta é uma forma inadequada de utilizar estatística-C, a qual funciona melhor para variáveis numéricas ou para ordinais que possuem vários possibilidades de resposta. A análise que vale é aquela que testou a estatística-C usando toda a amplitude dos escores. Nesta, eles são iguais, como descrito no parágrafo acima.
O artigo conclui que CHADSVASc is more valid for stroke prediction in patients categorised as being at low and intermediate risk by the CHADS scheme.
Eles dizem isso porque os pacientes classificados com de baixo risco pelo CHADSVASc realmente têm menor incidência de eventos embólicos (0.66%) do que os pacientes classificados como de baixo risco pelo CHADS (1.24%). Por outro lado (isto eles não dizem), os pacientes classificados como de alto risco pelo CHADSVASc têm menor incidência de eventos embólicos (5.72%) do que os pacientes classificados como de alto risco pelo CHADS (7.97%).
É trocar uma coisa pela outra. Por isso que o CHADSVASC não tem uma estatística-C melhor do que o CAHDS, não é superior.
O que é mais importante, identificar pacientes de alto risco ou de baixo risco? No mínimo, as coisas são igualmente importantes.
quinta-feira, 23 de junho de 2011
O Extraordinário Fenômeno de Regressão à Média
O fenômeno de regressão à média é um dos processos menos compreendidos entre leigos e médicos e esta incompreensão provoca interpretações inadequadas de observações científicas. Esta falta de entendimento não decorre de complexidade, pois este é um fenômeno simples. Decorre da regressão à média ser dependente do acaso e da mente humana não estar condicionada a considerar o acaso como um importante componente dos eventos universais.
Por uma questão evolutiva, de sobrevivência, acostumamos a encontrar alguma relação de causa-efeito para qualquer fato com o qual nos deparamos. Nossos ancestrais, na tentativa de criar um ambiente favorável à sobrevivência, procuravam associar todo fato positivo e todo fato negativo a uma causa específica. É freqüente a observação “peguei uma gripe, pois tomei um vento forte ontem”. Na verdade adquirir ou não uma infecção viral é puraobra do acaso, ou azar de ter respirado um ar momentaneamente contaminado por um vírus. O azar ou a sorte diferencia pessoas que ficaram ou não doentes durante um surto de gripe. No entanto, nosso pensamento inato não funciona assim. Por isso que o fenômeno de regressão à média não é intuitivo.
A regressão à média define que em qualquer série de eventos aleatórios, há uma grande probabilidade de um acontecimento extraordinário ser seguido, em virtude puramente do acaso, por um acontecimento mais corriqueiro. Tentarei ilustrar isto com exemplos cotidianos, depois utilizarei o exemplo de um ensaio clínico para demonstrar a importância disto na prática científica.
Imaginem um aluno mediano, daquele que tira sempre a nota mínima para passar de ano, digamos 5,0. Um belo dia esse aluno chega em casa com uma nota 9,0 em matemática (sem ter colado na prova, ou seja, nota verídica). Os pais ficam felizes, elogiam e até lhes compram um belo presente, na intenção de que o incentivo perpetue aquele extraordinário desempenho do garoto. No entanto, na prova seguinte, o aluno volta a seu padrão mediano, recebendo uma nota 6,0. Os pais pensam: não se pode elogiar, temos que ser mais duros com ele. Mas não foi a moleza dos pais que provocou a queda do aproveitamento, foi o fenômeno de regressão à média. Na verdade, o normal do garoto é tirar notas medianas, a nota 9,0 foi obra meramente do acaso e o acaso tende a não se repetir. Por isso que no próximo teste o garoto vai regredir à média de suas notas ao longo do ano.
Outro dia, o aluno top da turma por acaso tira uma nota 6,0 em matemática. Os pais, bastante rígidos, o colocam de castigo. Na prova seguinte, ele tira nota 10, como de costume. Raciocínio dos pais? Temos que ser duros com ele, assim dá resultado. Nada disso, a nota 6,0 foi um acaso, ele regrediria a sua nota 10 de qualquer jeito.
Assim surgiu o mito de que quanto mais rígida a escola, melhor o desempenho do aluno. A palmatória, usada na época de nossos avós, surgiu exatamente da falta de entendimento da regressão à média. O bom aluno, quando falhava, melhorava após a punição. O aluno medíocre, quando tinha um bom desempenho, não poderia ser premiado, pois após a premiação, seu rendimento cairia. Quanto sofrimento poderia ter sido evitado pelo conhecimento da regressão à média.
Às vezes um bom jogador de futebol (porém não espetacular), após boas temporadas pelo campeonato brasileiro, joga um campeonato extraordinário (artilheiro), se tornando um ídolo. Daí se cria um mito, um novo Pelé. O jogador é rapidamente vendido para um clube europeu por milhões de Euros. Lá não corresponde às expectativas. Daí surgem várias explicações: não se adaptou ao frio, tem saudade dos amigos, só quer saber de balada... Nada disso, simplesmente regressão à média. Claro, as baladas atrapalham, mas craque é craque, que diga Romário.
Lembro de Adriano, bom jogador, que se tornou um ídolo após ter feito um gol na final da Copa América contra a Argentina, aos 47 minutos do segundo tempo. Brasil campeão, por acaso. Adriano se tornou um mito depois daquele jogo, sendo inclusive comparado a Ronaldo Fenômeno. Foi para Europa e regrediu à sua média de bom jogador. Até concordo que houve outras causas, mais um grande fator foi a sua valorização excessiva após algo ocorrido pelo acaso. Com certeza, regressão à média foi um importante componente.
A figura acima ilustra porque pais muito baixos tendem a ter filhos mais altos que eles e pais extremamente altos tendem a ter filhos um pouco mais baixos que eles. Esse é um dos mais usados exemplos de regressão à média. Os pais eram tão baixos ou tão altos por acaso.
Entrando na ciência médica, o fenômeno de regressão à média explica porque é imprescindível a presença de um grupo controle para avaliar se uma intervenção é benéfica. Recentemente foi publicado no Journal of American College of Cardiology um ensaio clínico randomizado, avaliando o efeito do transplante de células-tronco na melhora da fração de ejeção em pacientes com miocardiopatia isquêmica. Metade dos pacientes recebeu células-tronco e a outra metade não, servindo de grupo controle. Interessante notar que a média da fração de ejeção no grupo controle apresentou um aumento de 7% em termos absolutos, sem que nada fosse feito. O grupo transplantado apresentou uma melhora maior, a qual foi estatisticamente superior ao grupo controle, concluindo-se que a terapia influenciou positivamente na função ventricular. Agora imaginem se o tratamento não servisse para nada e os autores fizessem um estudo sem grupo controle. A melhora de 7% entre antes e depois, estatisticamente significante, lhes faria concluir que a terapia teria funcionado. Mas essa melhora decorreu do fenômeno de regressão à média. Isso ocorre quando uma amostra é selecionada com base em uma característica anormal, no caso, fração de ejeção muito baixa. Alguns desses pacientes estão com valores tão baixos por acaso. Quando é feita uma segunda medida, eles tendem a regredir à média, elevando a média geral do grupo.
É por este mesmo motivo que ensaios clínicos de drogas anti-hipertensivas e anti-lipidêmicas precisam de grupo controle, não basta medir antes e depois, pois a segunda medida da pressão arterial e do colesterol sempre tenderá a ser menor, uma vez que a seleção da amostra foi feita com base na variável de interesse sendo anormal.
Como este fenômeno é mal compreendido, vemos com freqüência pessoas insistindo em avaliar efeito de uma estratégia terapêutica simplesmente medindo a variável de desfecho antes e depois. O paciente nunca pode ser seu próprio controle, pois a média do grupo tende sempre a melhorar. É um equívoco testar efeito terapêutico sem grupo controle.
Enfim, na vida cotidiana e científica devemos considerar o acaso com um dos componentes da realidade multifatorial responsável pelos fenômenos a nossa volta. Isso evitará interpretações equivocadas de nossa realidade e desenhos metodológicos incorretos. A noção do fenômeno de regressão à média é um dos componentes da maturidade científica.
* Esta é a primeira postagem da série Curiosidades Estatísticas de Utilidade Científica.
quinta-feira, 16 de junho de 2011
STICH Trial: Um Estudo Negativo (por Anis Rassi Jr)
O STICH trial foi comentado neste Blog como um estudo negativo, ou seja, indica que cirurgia de revascularização não traz benefício além do tratamento clínico em pacientes com miocardiopatia isquêmica.
Percebe-se ao longo do estudo uma tendência a não aceitar plenamente sua negatividade. Isso fica demonstrado na dúbia conclusão do autor:
In this randomized trial, there was no significant difference between medical therapy alone and medical therapy plus CABG with respect to the primary end point of death from any cause. Patients assigned to CABG, as compared with those assigned to medical therapy alone, had lower rates of death from cardiovascular causes and of death from any cause or hospitalization for cardiovascular causes.
As colocações informais do autor vão ainda mais longe na valorização de análises secundários, em detrimento da análise primária, colocando o estudo como pró-cirúrgico:
No trial is “negative” if patients and physicians win by having access to truly new data to inform complex decision making. The totality of the information — i.e., the adjusted analyses of the as-randomized (intention-to-treat population) for the all-cause mortality endpoint, the unadjusted and adjusted analyses of the important secondary endpoints, and the treatment-received and per-protocol analyses of all the endpoints — clearly supports the clinical efficacy of CABG plus medical therapy over that of medical therapy alone. My fellow investigators and I hypothesized that CABG plus medical therapy would reduce unadjusted all-cause mortality by 25%; instead, the hazard ratio in the CABG group was 0.86 (relative risk reduction, 14%; P=0.12). So from a purely statistical perspective, our finding did not prove our hypothesis; what we may infer clinically from the data is a different thing.
Em resposta, Anis Rassi Jr enviou a correspondência abaixo ao New England Journal of Medicine, nos cedida pelo autor para postagem neste Blog. Um bom exemplo de interpretação correta de evidências científicas:
Findings of the STICH Trial do not support preferential indication of CABG above medical therapy alone for patients with left ventricular dysfunction. All-cause mortality (primary outcome) did not differ between treatment groups. The decrease in cardiovascular mortality (secondary outcome) was marginal (p=0.05), unadjusted for multiple outcome comparisons, and clinically irrelevant since overall mortality was unaffected. Death from any cause or hospitalization for cardiovascular causes (another major secondary outcome), although lower in the CABG group, was not prespecified and was newly introduced in the published report.
Also, whether subsequent CABG was counted as a hospitalization event is not clear, but doing so could have biased the results against the medically-treated group. Finally, there is no justifiable reason for secondary as-treated and per-protocol analyses, particularly when treatment crossovers of up to 20% were anticipated and included in the sample size and power calculations (2). With recent evidence that in different subgroups of patients with chronic CAD, surgical or percutaneous coronary revascularization is not superior to optimal medical therapy (1,3,4) a randomized trial of left main disease is now justified.
Assinar:
Postagens (Atom)