domingo, 26 de fevereiro de 2012

Guia para Análise Crítica de Evidências sobre Terapia



O primeiro princípio da medicina baseada em evidências nos lembra que precisamos analisar o nível de evidência antes de incorporar a informação de um estudo na conduta médica. Várias foram as postagens deste Blog nas quais abordamos estudos terapêuticos, utilizando-os como gancho para discussão de análise crítica de evidências referentes a eficácia. Pretendemos agora apresentar a técnica de análise crítica de forma sistematizada, passo a passo, o que pode servir de guia para quando nos deparamos com um estudo que sugere ou nega benefício de uma conduta terapêutica.

A leitura de um artigo deve ser um processo sistematizado, devemos saber o que procurar. A atividade mental deve ser ativa, um processo investigativo. Devemos começar lendo a conclusão do artigo, e depois iniciamos a avaliação do quanto fundamentada é a conclusão. Aí cabe uma leitura dos resultados e métodos, dirigida por um check-list mental. A leitura de um artigo não deve ser como a leitura de um romance, do início ao fim, de forma relaxada. Na verdade, nem precisamos ler todas as palavras dos artigos, não recomendo isso.

Na análise de evidência sobre terapia, precisamos considerar três aspectos: (1) a veracidade, (2) a relevância e (3) a aplicabilidade da informação oferecida pelo trabalho. Devemos sempre começar a análise pela veracidade, pois quando mudamos a ordem de avaliação destes três tópicos, podemos nos confundir na conclusão final. Afinal, não haveria sentido em discutir a relevância ou aplicabilidade de uma informação falsa.

Inicialmente abordaremos veracidade. São os cinco passos para análise de veracidade:

Passo 1: Há efeito de confusão influenciando o resultado?
Passo 2: O resultado decorre do acaso (significância estatística)?
Passo 3: A conclusão foi baseada no resultado do desfecho primário ou secundário?
Passo 4: Há viés de mensuração?  (estudo aberto? desfecho subjetivo?)
Passo 5: Há viés de tratamento ? (intenção de tratar? cross-over acentuado?)

Passo 1: Há efeito de confusão influenciando o resultado? – Ensaio clínico randomizado versus estudo observacional.

A possibilidade de efeito de confusão representa o mais importante “fator de risco” para gerar resultados incorretos sobre eficácia terapêutica. Foi devido a fatores de confusão que se afirmou que vitaminas previnem câncer/doença cardiovascular e que terapia de reposição hormonal (TRH) previne infarto. Nestes casos, a afirmação se embasou em estudos observacionais, que foram contraditos por ensaios clínicos subseqüentes. No estudo observacional, o tratamento (vitamina, TRH) é determinado pelo escolha do paciente ou permissão do seu médico. Isso gera um imenso problema, pois a escolha faz com que os pacientes tratados sejam muito diferentes dos não tratados. Por exemplo, evita-se TRH em mulheres hipertensas e tabagistas, devido ao risco de associação do hormônio com estes fatores. Por isso, quem usa TRH geralmente não é hipertensa, nem tabagista, sendo de menor risco (não pela TRH). Embora sem comprovação de benefício, o ato de usar vitamina diariamente marca indivíduos com estilo de vida mais saudável do que as pessoas que não usam vitamina.

Já comentamos neste Blog sobre a associação de chocolate e de vinho com menor risco cardiovascular. Embora pareça sedutor relacionar estas coisas a saúde (muitos falam do vinho como se fosse um fato), é muito possível que estas associações tenham influência de fatores de confusão. Tudo é baseado em estudos observacionais e é fácil de entender o mecanismo dos fatores de confusão nestes casos. Por exemplo, quem come chocolate não é diabético, tornando-o de menor risco (não por causa do chocolate); quem bebe vinho com frequência geralmente não é doente, nem muito idoso. Estes fatores inibem o uso de bebida alcoólica, seja por proibição, seja por motivação do paciente.  A solução para essa confusão são os ensaios clínicos randomizados para chocolate versus controle, ou vinho versus controle.

Mas porque o ensaio clínico não é vulnerável a fatores de confusão?

O ensaio clínico determina o tratamento por sorteio, de forma aleatória, fazendo com que o grupo tratado e o grupo não tratado sejam idênticos. É só olhar as tabelas de características clínicas de grandes ensaios clínicos (> 300 pacientes, idealmente > 1000 pacientes), os dois grupos são iguais em tudo! É a magia da randomização.

Por isso que um ensaio clínico randomizado é sempre um nível de evidência muito superior a estudos observacionais, pois o principal “fator de risco” para resultados espúrios é evitado neste primeiro modelo. Já os estudos observacionais, mesmo que se faça análise estatística ajustando para fatores de confusão, não ficam isentos do problema. Todos estes estudos fizeram análise multivariada, mas isso não bastou para prevenir o erro.

Há ainda aqueles que tentam priorizar resultados de estudos observacionais por estes representarem melhor o “mundo real”. Este é um grande equívoco, pois coloca a análise de aplicabilidade antes da análise de veracidade e  sugere acreditar nos observacionais por uma vantagem (“mundo real”) muito inferior à desvantagem que se recebe em troca (o pior “fator de risco” para resultados espúrios – efeito de confusão).

Uma vez verificando que a evidência é proveniente de um ensaio clínico (bem) randomizado, ficamos mais tranqüilos. Porém devemos saber que isto é uma condição necessária para a veracidade, porém não suficiente.

A informação proveniente de um ensaio clínico pode decorrer de três fenômenos: acaso, viés ou causa. Causa significa uma associação verdadeira entre o uso da terapia e a melhora do paciente, quando a terapia de fato causa um benefício. Mas antes de chegar a esta conclusão, precisamos nos preocupar com os dois tipos de erros que se observa em ciência: erro aleatório (acaso) e erro sistemático (viés). O erro aleatório decorre do acaso, não ocorre por falha do pesquisador ou porque o protocolo do estudo foi feito de maneira incorreta. É simplesmente o azar do resultado na sua amostra ter desviado do que ocorre da população. Já o erro sistemático decorre de falha no protocolo do estudo, pode ser previsível até mesmo antes do estudo ser realizado.

Vamos começar pelo erro aleatório.

Passo 2: O resultado decorre do acaso (significância estatística)?

Como já mencionado neste Blog (regressão à média, pênalti), o acaso permeia nossas vidas de forma mais prevalente do que o senso comum sugere. Um ensaio clínico randomizado é realizado em uma amostra da população-alvo do estudo. Quando avaliamos a eficácia da aspirina no infarto do miocárdio, não a testamos em todos os pacientes com infarto. Utilizamos uma amostra (uma parte pequena) de todos os pacientes infartados no mundo. Quando trabalhamos com amostra, devemos nos preocupar com o papel do acaso. Ou seja, por acaso (por azar) o observado em nossa amostra pode ser diferente do resultado se tivéssemos estudado a eficácia da droga em toda a população de infartados do mundo (o que seria impraticável).

Por este motivo, ao observamos um resultado, devemos ter a consciência de que este pode ter sido decorrente do acaso. Para resolver esta preocupação, em meados no século XX os testes estatísticos foram inventados, através dos quais estimamos a probabilidade de um resultado ser decorrente do acaso. Esta probabilidade é comumente expressa nos ensaios clínicos pelo valor de P. Como trabalhamos com amostras, nunca podemos garantir que o resultado não decorreu do acaso, no máximo o que fazemos é tolerar certa probabilidade do acaso como desprezível. E, por convenção, a probabilidade tolerável é 5%. Se em ensaio clínico hipotético, a mortalidade no grupo droga for 10%, comparada a 13% no grupo placebo, os dados sugerem que a droga reduz mortalidade. Mas isso pode ter decorrido do acaso. Então se o valor de P for menor do que 5% (digamos 3% = 0.03), consideramos esta probabilidade desprezível e diremos que a diferença não decorreu do acaso. Todo este raciocínio pode ser resumido na expressão estatisticamente significante, que nada mais é do que probabilidade desprezível do acaso. O ato de afirmar que existe uma diferença que decorreu do acaso é denominado Erro Tipo I. Evitamos o erro tipo I quando exigimos significância estatística.

Até agora está simples e fácil, pois o conceito de que precisamos de um valor de P < 0.05 está muito bem sedimentado no meio médico. Porém precisamos saber que há situações onde a probabilidade do acaso não é desprezível mesmo com um valor de P < 0.05.


Passo 3: A conclusão foi baseada no resultado do desfecho primário ou secundário ?

Como dissemos, há situações onde a probabilidade do acaso não é desprezível mesmo com um valor de P < 0.05. E a principal situação ocorre quando são analisamos desfechos secundários. Diferente do desfecho primário, são muitos os desfechos secundários analisados simultaneamente. Quando muitas comparações são feitas simultaneamente, a probabilidade do acaso é amplificada além do que o valor de P está representando. Este fenômeno é chamado de problema das múltiplas comparações.
Por exemplo, qual a probabilidade de que ao jogar uma moeda 10 vezes, o resultado seja cara todas as 10 vezes? Esta probabilidade é ínfima. Mas se fizemos esse experimento (jogar 10 vezes a moeda) 50 vezes, a probabilidade de que em algum dos 50 experimentos cara seja o resultado todas as 10 vezes é maior do que se fizermos o experimento apenas 1 vez. Claro, é só pensar um pouco. Isso faz com que quando analisamos desfechos secundários, a probabilidade do acaso fica amplificada, pois são muitos os desfechos analisados simultaneamente. Algum pode aparecer significativo por acaso. Este foi o raciocínio que fizemos em recente postagem, quando contestamos que Dabigatran causa infarto, pois infarto foi um desfecho secundário.
Desta forma, devido à maior probabilidade do Erro Tipo I, resultados de desfechos secundários podem gerar hipóteses, mas não devem ser vistos como definitivamente verdadeiros.
Outro problema dos desfechos secundários é o fato de que o estudo não foi dimensionado para tal, ou seja, muitas vezes não há poder estatístico para se testar aquele desfecho. Quando encontramos uma diferença em um estudo sem poder estatístico, esta tem maior “risco” de ser decorrente do acaso. Porque? Imaginemos um caso extremo, onde o estudo é muito pequeno e para que se consiga um P < 0.05 em um estudo tão pequeno, seria necessário uma diferença muito grande entre os grupos (tipo mortalidade 10 vs. 50%). Uma diferença tão grande que se torna implausível, sendo o acaso a única possibilidade de explicação. Lembram-se da enorme diferença de mortalidade obtida em um estudo pequeno com beta-bloqueador em pré-operatório de cirurgia não cardíaca? Lembram-se do estudo LIDO que mostrou levosimedan reduzindo mortalidade (desfecho secundário) quando comparado a dobutamina em pacientes com insuficiência cardíaca agudamente descompensada. Isto fez com que entusiastas e interessados propusessem o uso do levosimedan. No entanto, mortalidade era desfecho secundário naquele estudo de apenas 200 pacientes. Anos mais tarde, o estudo SURVIVE (1200 pacientes, morte como desfecho primário) demonstrou mortalidade idêntica nos dois grupos. 
Pior quando o desfecho nem é definido a priori, ou seja, os autores nem dizem antes do estudo o que vão testar, testam uns 300 desfechos e apresentam os de resultados positivos (embora positivos por acaso).
Desta forma, uma evidência ideal sobre eficácia deve ser proveniente da análise de um desfecho primário e deve ter um valor de P < 0.05. Se for proveniente de desfecho secundário, é apenas um resultado parcial, que precisa ser testado em estudos desenhados para ter aquele desfecho como primário.
Passo 4: Há viés de mensuração?  (estudo aberto? desfecho subjetivo?)
Afastada a probabilidade do acaso, devemos nos preocupar com potenciais vieses como mediadores de um falso resultado.  O viés é um erro sistemático, ou seja, decorre de falha na metodologia do estudo. Se é um estudo de uma droga anti-hipertensiva e o medidor de pressão está descalibrado, podemos incorrer em um erro sistemático, um erro que se repete em diferentes pacientes, por falha da ferramenta de medida. Este é um exemplo básico de um viés de mensuração. Tão básico que não vai ocorrer em estudos minimamente organizados.
Na realidade, o principal “risco” de viés de mensuração ocorre quando temos um estudo aberto (ao invés de cego), onde o pesquisador sabe quem está usando a terapia. Este viés fica acentuado quando o pesquisador está avaliando um desfecho subjetivo, denominado de soft. Ao sabermos o que o paciente está usando e este se queixa de um sintoma subjetivo de dispnéia, temos mais tendência a interpretar a dispnéia como verdadeira se o paciente está usando placebo, e mais tendência a não valorizar a dispnéia se a droga ativa estiver sendo usada. Lembram-se da análise do estudo do BNP em insuficiência cardíaca?
O valor do placebo (vide postagem) não se limita a simular o efeito psicológico do tratamento. É muito útil também para cegar o médico na interpretação dos desfechos.
Há outros tipo de vieses. Viés de seleção, quando os critérios de inclusão não foram suficientes para selecionar a amostra de interesse. Por exemplo, queremos avaliar pacientes com síndromes coronarianas agudas, mas incluímos qualquer dor torácica, muitas delas que podem ser decorrentes de outras causas. Viés de seguimento, quando há muitas perdas de pacientes durante o seguimento (será que os pacientes que sumiram do mapa foram os que morreram?). Viés de análise de dados, desde erros estatísticos até tendência na escolha da forma de análise.

Passo 5: Há viés de tratamento ? (intenção de tratar? cross-over acentuado?)
O viés do tratamento é algo que precisamos nos preocupar também. Este é muito presente em estudos observacionais, pois a forma de tratamento não é padronizada (dose, tipo de droga, duração), nem monitorada. Porém mesmo em ensaios clínicos, pode ocorrer o viés de tratamento. Sempre que randomizamos um grupo para tratamento, nem todos deste grupo de fato completam o tratamento, assim como alguns do grupo controle acabam usando o tratamento. Isso se denomina de cross-over, que é inerente de qualquer tipo de tratamento e idealmente não deve ultrapassar 30%. Mas porque toleramos um certo nível de cross-over ? Toleramos porque no mundo real, de fato, nem todos os pacientes que prescrevemos um tratamento são submetidos ao tratamento. Precisamos entender que o ensaio clínico está na verdade testando a intenção de tratar, ou seja, a eficácia do ato médico de prescrever o tratamento. Esta eficácia é também determinada pela aceitação do paciente ao tratamento, que deve ser computada no estudo. Se excluirmos estes pacientes, estaríamos tornando mais artificiais nosso resultado, seria um viés de tratamento. Portanto, a análise primária dos estudos deve ser baseada na intenção de tratar, onde alguém alocado para o grupo droga será sempre droga, mesmo que não tenha recebido a droga. O mesmo com o grupo placebo ou controle. Trocar os pacientes de grupo de acordo com o verdadeiro uso do tratamento (análise per protocol) deve ser visto como uma análise secundária. Além do problema mencionado, esta conduta viola o processo de randomização e faz voltar o risco de efeito de confusão. A exceção onde a análise per protocol deve ser valorizada são estudos de não-inferioridade (vide postagem de Adriana Latado).
Outro aspecto importante: quando estamos avaliando um tratamento conservador versus tratamento agressivo, é natural e desejado que parte dos pacientes do grupo conservador ao longo do segmento migrem para o grupo agressivo, a depender do julgamento médico. Isso faz parte da estratégia conservadora, e estes pacientes devem continuar rotulados como tendo sido submetidos ao grupo conservador. Por exemplo, no estudo COURAGE, ao longo do seguimento parte dos pacientes do tratamento clínico realizaram angioplastia. Isso não é um problema, pois tratamento clínico significa a primeira estratégia e não implica em proibir o médico de optar pelo tratamento intervencionista se o conservador não funcionar plenamente.

Em conclusão, na primeira etapa de avaliação (veracidade), devemos nos preocupar com as seguintes questões:

Passo 1: Há efeito de confusão influenciando o resultado?
Passo 2: O resultado decorre do acaso (significância estatística)?
Passo 3: A conclusão foi baseada no resultado do desfecho primário ou secundário?
Passo 4: Há viés de mensuração?  (estudo aberto? desfecho subjetivo?)
Passo 5: Há viés de tratamento ? (intenção de tratar? cross-over acentuado?)

Caso a conclusão passe pelo crivo de todas estas análises, a consideramos verdadeira e partimos sem medo para a análise de relevância. Caso haja dúvida em relação à veracidade, devemos considerar o estudo apenas como gerador de hipótese, insuficiente para modificar nossa conduta. Em alguns casos, nem gerador de hipótese podemos considerar o estudo.

quarta-feira, 22 de fevereiro de 2012

O Mito da Caverna de Platão, o Axé e a Medicina Pouco Embasada em Evidências



Qual a ligação entre axé e medicina? A resposta está no Mito da Caverna de Platão.

Este Mito conta a história de homens que nasceram dentro de uma caverna e vivem acorrentados de frente para a parede. Tudo o que eles podem ver é a sombra do que está lá fora, portanto sua perspectiva de vida é bastante limitada. Inclusive, estes homens acreditam que tudo que existe no mundo são aquelas sombras, pois não nunca tiveram contato com outra realidade.

Do ponto de vista cultural, o axé está para a Bahia, assim como a Caverna estava para aqueles homens. Embora desprovido de qualidades artísticas, o axé é massificante e ocupa o espaço de outros movimento culturais que ousem se manifestar na Bahia. O que não é axé tem dificuldade de crescer. Aliás, tudo que não é carnaval tem dificuldade de evoluir nesta terra. Temos o melhor carnaval do Brasil, isso nos basta, não precisamos de mais nada. A orla Barra-Ondina pode ficar sucateada a vida inteira, pois sua função é esperar seu curto período de esplendor no melhor carnaval do Brasil, durante 7 dias no ano. A Praia do Porto pode feder o ano inteiro, especialmente no verão, pois somos a terra do carnaval, nossa auto-estima é intocada. O carnaval baiano é a Caverna de Platão dos dias atuais.

Fico a imaginar se artistas como Gil e Caetano tivessem surgido nos dias atuais, época de esplendor do axé. Será que teriam despontado? Será que se tornariam conhecidos? Será que o massificante axé, com suas Ivetes e Cláudias, dariam espaço para estes verdadeiros artistas baianos?

Porém não devo me alongar no axé, pois careço de intelectualidade para isso e este é um Blog voltado para discussão científica. Só ousei falar desta tema, pois estou contagiado pelo maravilhoso clima de carnaval que povoa nossa terra esta semana e este contágio me fez lembrar de nossa medicina.

Em medicina, há fenômenos parecidos com o axé, que distanciam a prática clínica das evidências científicas. São idéias massificantes, que ofuscam a verdade científica, atendendo a interesses específicos. Interesses de diversas ordens.

A começar pelo interesse da indústria farmacêutica. Somos massificados pelos argumentos a favor de drogas baseados apenas em desfechos substitutos, argumentos que muitas vezes ocorrem em detrimentos de drogas com comprovação de eficácia em desfechos clínicos. Marcou o ano 2011 o massificante lobby a favor das drogas anorexígenas, inúteis (perda de 3 Kg em média, de acordo com ensaios clínicos randomizados) e prejudiciais (infarto, depressão). Ponto para a ANVISA, que restringiu e/ou proibiu varias destas drogas, a despeito do protesto (sem argumentos científicos, apenas argumentos emocionais – todos) de alguns obesos e de alguns médicos de obesos. Somos massificados pela indústria farmacêutica, que nos presenteiam com viagens e resorts sob a justificativa de eventos científicos. 

Há também o interesse de aparentar ser um médico resolutivo, adotando a “mentalidade do médico ativo”. Isso nos faz optar por condutas extravagantes, de alto custo, sem benefício e às vezes maléficas. Angioplastia é um tratamento revolucionário, admirável e benéfico quando bem indicado. Porém este tratamento é a toda hora banalizado por indicações estapafúrdias, assim como a África foi banalizada pela homenagem que Claudinha Leite lhe prestou neste que é o melhor carnaval do mundo.

Estes fenômenos dificultam a evolução do pensamento médico na direção do paradigma baseado em evidências, da mesma forma que o axé dificulta o progresso cultural e social da Bahia.

Plantão criou este Mito para nos lembrar de como podemos nos libertar da condição de escuridão que nos aprisiona através da luz da verdade. A luz da verdade, contra os interesses escusos que aprisionam o pensamento médico, são as evidências científicas bem analisadas e aplicadas.

Vejo um grande valor no axé. Lembrar-nos que somos a toda hora tentados por pensamentos massificantes, sem embasamento cultural ou científico. Mas se por acaso tiverem me visto algum dia perdido na Avenida, já me justifico. Não sou de ferro, também tenho direito de dançar de vez em quando na Caverna de Platão.  

sábado, 21 de janeiro de 2012

Dabigatran Causa Infarto? - Meta-análise de Antônio Alberto Lopes



Na recente postagem Dabigatran Causa Infarto?, sugerimos que essa idéia representava apenas uma ilusão meta-analítica:

Temos um estudo (RELY) de alta influência no resultado da meta-análise sugerindo aumento de risco, somado a um conjunto de estudos pequenos que não mostram associação. Qual o resultado final da meta-análise: prevalecerá o resultado de maior influência, a despeito dos outros estudos sugerirem ausência de malefício. 

Essa meta-análise não confirma o resultado no RELY, e sim praticamente copia o resultado do RELY. Os outros estudos não estão de acordo como RELY, simplesmente não conseguem anular seu resultado. Desta forma, é criada uma ilusão meta-analítica baseada apenas no RELY. 

Baseado nesta idéia, Prof. Antônio Alberto Lopes realizou uma meta-análise excluindo o estudo RELY. O resultado de sua análise está representado pelo texto abaixo e confirma nosso raciocínio. Vejam seu texto e o gráfico da meta-análise:


Prezado Luis,

Achei os dados interessantes e resolvi fazer uma reanálise dos dados com e sem os dados do RELY. Os resultados estão em anexo. A meta-análise do artigo foi de odds ratio mas como o risco do evento é pequeno a meta-análise de odds ratios e de riscos relativos mostram resultados muito semelhantes. Como você comentou os resultados mostrados no sumário da odds ratios (1,33 no artigo e 1,32 na re-análise) do evento coronariano agudo são em grande parte devido aos resultados do RELY, devendo ser observado que evento coronariano agudo não foi o evento primário. Na meta-análise sem o RELY a odds ratio e o risco relativo (1,12) ficam bem mais próximos da hipótese nula. O número necessário para lesar (NNH) no presente caso deve ser interpretado com cautela pois é o que se observa ao se comparar com pacientes não tratados usando outro anticoagulante. É errado, portanto, interpretar que dabigatran aumenta risco de eventos coronarianos agudos. Na meta-análise de diferença de risco incluindo todos os estudo o NNH foi de aproximadamente 667 (1/0,0015). Grosseiramente poderíamos dizer que ao tratar 667 pacientes com dabigatran em lugar do outro anticoagulante ocorre 1 desfecho adicional, no caso evento coronariano agudo. O NNH foi estimado em 2000 (1/0,005) ao se excluir o RELY da análise. Estes dados sugerem que a pequena diferença no isco de eventos coronarianos entre os grupos não permite concluir que o benefício de dabigatran é menor do que do anticoagulante usado para comparação. Outros eventos clínicos devem ser levados em consideração e o valor que é conferido  (pelo paciente e médico) para evento. 

Obrigado por trazer este trabalho para o meu conhecimento e pela sua análise crítica.

Abraço
Antonio Alberto


O conteúdo desta postagem foi aceito como Letter to the Editor, a ser em breve publicada nos Archives of Internal Medicine.

quinta-feira, 19 de janeiro de 2012

Eficácia versus Efetividade


Essas são duas palavras usadas como sinônimos na linguagem coloquial, porém de significado científico diferente. Eficácia é uma propriedade intrínseca de uma conduta médica. Efetividade é o resultado da interação do tratamento com o ambiente em que ele está sendo aplicado.


Imaginem um excelente jogador de futebol, Ronaldinho Gaúcho nos tempos áureos. Um gênio, recebeu o titulo de melhor jogador do mundo. Porém os entendidos afirmam que ele não brilhava da mesma forma na seleção brasileira. Ronaldinho era um jogador muito eficaz, porém na seleção brasileira era menos efetivo do que no Barcelona. Talvez devido à forma como ele era usado na seleção ou ao ambiente de glamour que o fazia perder o foco.

Agora imaginem uma droga. Em primeiro lugar, precisamos saber da sua eficácia e segurança. O melhor nível de evidência para responder esta pergunta são ensaios clínicos randomizados, que tenham eventos clínicos como desfecho. Uma vez isto demonstrado por ensaios clínicos de qualidade metodológica satisfatória, apenas outro ensaio clínico pode refutar esta informação.

Uma droga com clara demonstração de eficácia e segurança pode então ser liberada para utilização clínica. Aí entram os estudos de efetividade, que fazem parte de uma linha de pesquisa denominada outcomes research. Uma vez entrando na prática clínica, a droga deve ter seu efeito no mundo real monitorado por este tipo de estudo.

E nem sempre a eficácia se traduz em efetividade. Mas não por culpa da droga, mas sim por culpa do sistema de utilização ou por culpa do médico.

Por exemplo, na década de 90, o estudo RALES demonstrou eficácia e segurança da espironolactona em pacientes com insuficiência cardíaca grave (redução de mortalidade). Cinco anos depois foi publicado no New England Journal of Medicine o estudo Rates of Hyperkalemia after Publication of the Randomized Aldactone Evaluation Study. Este foi um trabalho observacional que mostrou aumento dos casos de morte por hiperpotassemia após a publicação do RALES (figura acima).

Maior incidência de hiperpotassemia também foi observada com o uso de espironolactona para ICC em nosso meio, de acordo com publicação de Constança Cruz e Carlos Marcílio.

Por que? Será que o ensaio clínico RALES estava errado e a droga é deletéria? Não, o fato ocorreu porque os médicos utilizaram a droga de forma indiscriminada, em pacientes com disfunção renal, sem a monitorização adequada. Estes são estudos de efetividade, que não vão de encontro aos achados do RALES, pelo contrário, ratificam que o esquema utilizado no RALES deve ser obedecido estritamente. Percebam assim que estudos de efetividade avaliam mais o médico ou o sistema do que a droga.

Por isso que afirmamos acima que o resultado de um ensaio clínico só pode ser refutado por outro ensaio clínico. Isto porquê estudos de efetividade não avaliam o valor intrínseco do tratamento.

Outro bom exemplo é angioplastia primária versus trombólise no infarto com supra. Angioplastia é um pouco mais eficaz do que a trombólise de acordo com ensaios clínicos randomizados. Porém se o tempo porta-balão (tempo para se iniciar a trombólise) for mais prolongado do que o tempo dos ensaios clínicos (90 minutos), esta superioridade da angioplastia se perde. E é isto que acontece em boa parte dos hospitais. O tempo para se iniciar a angioplastia é prolongado, e na verdade não se sabe se aquela angioplastia fora do tempo ideal não ocorre em detrimento de um tratamento mais efetivo, que seria trombólise em tempo hábil. É uma falha do sistema fazendo que um tratamento intrinsecamente mais eficaz, se torne talvez menos efetivo.

Trazendo estas definições para uma questão bem contemporânea, ultimamente o FDA vem alertando sobre relatos de sangramentos graves com o dabigatran no mundo real, aparentemente mais do que o número de relatos com warfarina. Estranho, pois no ensaio clínico randomizado RELY, seu perfil de segurança foi igual à warfarina e a eficácia um pouquinho superior. O RELY falhou em detectar o verdadeiro risco da droga? Não, o RELY está correto. Estes relatos, os quais no futuro poderão vir na forma de estudos observacionais melhor sistematizados, servem de importante alerta de que no mundo real pode estar havendo um uso inadequado ou indiscriminado da droga.

De fato, o maior risco do dabigatran é a banalização da indicação de anticoagulação. Considerando a complexidade que é anticoagular um paciente com warfarina, o médico antes pensava duas vezes para introduzir o tratamento. Agora com a facilidade do dabigatran, pessoas de alto risco de sangramento podem estar recebendo anticoagulação, que antes não recebiam com warfarina. Estes relatos nos lembram que a indicação de anticoagulação com dabigatran é a mesma da warfarina, os mesmos critérios de ponderação risco-benefício devem ser  usados e não devemos ser mais liberais da indicação só porque agora temos dabigatran. Além disso, à semelhança do caso da espironolactona, pacientes com disfunção renal (CC < 30 ml/Kg/min) não devem usar dabigatran.

Para garantirmos que uma terapia eficaz seja também efetiva, devemos analisar com cuidados que tipo de paciente foi testado no ensaio clínico e como a terapia foi instituída. Principalmente nos momentos de experiência inicial com novas terapias, devemos ser rígidos e utilizar os mesmos critérios na prática clínica. Se fizermos isso, a eficácia provavelmente terá seu correspondente de efetividade.

Em conclusão, estudos de eficácia e segurança falam de coisas diferentes, seus resultados se complementam e não entram em conflito. Devemos defender o tipo de evidência certa (ensaios clínicos ou outcomes research) para a pergunta certa (eficácia ou efetividade, respectivamente).

OBS: Depois falaremos de uma outra palavrinha parecida, porém de significado diferente: eficiência.

domingo, 15 de janeiro de 2012

Dabigratran Causa Infarto - Verdade ou Ilusão Meta-analítica?



Nesta semana que passou foi publicada nos Archives of Internal Medicine a meta-análise intitulada Dabigatran Association With Higher Risk of Acute Coronary Events. O assunto teve grande repercussão nos sites de cardiologia e mereceu um editorial da revista. 

Quando se fala de uma informação proveniente de meta-análise, normalmente se interpreta como um nível de evidência definitivo, quase como a voz de Deus. Porém meta-análises também devem passar pelo crivo da análise crítica metodológica. 

Antes de iniciar esta análise, vamos primeiro fazer uma pequena revisão história sobre o dabigatran, voltada para os não cardiologistas leitores deste Blog.

Um dos maiores sonhos do cardiologista tem sido anticoagular cronicamente um paciente com uma droga de ação estável e previsível, sem necessitar de controle laboratorial (RNI). Parando um pouco para refletir, percebemos que quase todas as drogas funcionam assim, a ação é tão previsível que não precisamos medir laboratorialmente seu resultado. Os anticoagulantes, por outro lado, sofrem interferências biológicas e de fatores ambientais, resultando em uma ação instável. Portanto sua farmacologia precisa ser monitorada constantemente.

Assim sempre funcionaram os dois mais tradicionais anticoagulantes, heparina não fracionada (uso hospitalar) e a warfarina (uso ambulatorial). Na década de 90 foram descobertas as heparinas de baixo peso molecular, cuja administração poderia ocorrer de forma subcutânea e não se fazia necessário monitoramento laboratorial, pois estas pouco se ligavam a proteínas plasmáticas, o que fazia de sua ação estável e previsível. Ensaios clínicos randomizados demonstraram que as heparinas de baixo peso molecular são não inferiores à heparina não fracionada em diversas patologias (em alguns casos até superiores), disseminando o uso destas drogas em detrimento da heparina não fracionada. Agora foi a vez do surgimento de uma alternativa prática de anticoagulantes orais. Os inibidores diretos da trombina de administração oral foram desenvolvidos da década passada e não necessitam de monitoramento laboratorial. Seria a grande esperança. Primeiro veio o ximelagatran, porém estudos iniciais mostraram que esta droga era muito hepatotóxica. Foi uma decepção. Mas aí inventaram o dabigatran, droga que se mostrou segura do ponto de vista hepático. O ensaio clínico randomizado RELY, publicado em 2009, testou o dabigatran na prevenção de eventos embólicos em pacientes com fibrilação atrial, demonstrando não inferioridade do dabigratan em relação ao warfarina e até mesmo uma pequena superioridade na dose de 150 mg (NNT = 345). Não houve aumento de sangramento com dabigatran em relação à warfarina. Desta forma, ficou demonstrado que tínhamos uma droga de uso muito mais prático do que warfarina, de eficácia e segurança comparáveis. Sonho realizado, pelo menos para a indicação de fibrilação atrial. O problema restante seria o preço da droga, muito alto (em torno de 150 reais por mês), o que deve perdurar nos próximos anos.  No entanto, agora estão dizendo que o sonho de anticoagular os pacientes sem precisar medir o TP causa infarto do miocárdio. Estranho, um anticoagulante causando infarto. Os próprios autores da mata-análise afirmam "We do not know the pharmacologic mechanism that may result in dabigatran increasing the risk of MI or ACS." Mas não saber o mecanismo não significa que a informação não é verdadeira, precisamos analisar sem preconceito contra ou a favor. 


Como surgiu esse história? Isso é uma afirmação baseada em evidências com características de veracidade?


O problema é que no estudo RELY a freqüência de infarto do miocárdio foi um pouco maior no grupo dabigatran quando comparado ao grupo warfarina. Isso levantou uma suspeita. Agora vem uma meta-análise que mostra o mesmo resultado. Ora, primeiro um estudo levanta uma suspeita, depois uma meta-análise de vários estudos mostra o mesmo resultado. A impressão que fica é de confirmação na suspeita. Só que isso pode ser verdade ou simplesmente ser uma mera ilusão meta-analítica


Vamos analisar. O gráfico acima é o forrest plot da meta-análise. O pequeno diamante preto na parte inferior do gráfico representa o efeito resultante da combinação dos diversos estudos, o qual está do lado direito da linha da nulidade, ou seja, odds ratio maior do que 1, indicando aumento da chance de infarto com a droga. Agora observem o resultado de cada estudo individualmente. A meta-análise foi feita de 7 estudos, sendo o maior deles o RELY. Enquanto só o RELY possui 18.000 pacientes, o tamanho dos outros 6 estudos varia de apenas 500 a 3500 pacientes. O tamanho amostral do RELY é maior do que a soma das amostras de todos os outros seis estudos. Neste momento entra um conceito importante de meta-análises, o effect size. Este efeito diz que a contribuição de um estudo na análise dos dados deve ser proporcional ao seu tamanho amostral (à sua precisão), naturalmente. Isso quer dizer que o impacto do RELY na metaanálise é maior do que o impacto de todos os outros estudos somados.

Agora observem o resultado de cada estudo. Como já sabemos, o RELY mostra aumento do risco de infarto com dabigatran. Por outro lado, a tendência nítida do conjunto dos 6 estudos pequenos é a ausência de efeito do dabigatran no infarto.  Tanto pela estimativa pontual (4 estudos com o pontinho em cima da linha da nulidade), como pela posição dos intervalos de confiança (dois estudos com o ponto do lado direito, mas o intervalo de confiança invadindo demais o lado esquerdo do gráfico), o conjunto dos estudos pequenos sugere ausência de associação entre infarto e dabigatran.

Agora vejamos, temos um estudo (RELY) de alta influência no resultado da meta-análise sugerindo aumento de risco, somado a um conjunto de estudos pequenos que não mostram associação. Qual o resultado final da meta-análise: prevalecerá o resultado de maior influência, a despeito dos outros estudos sugerirem ausência de malefício. 


Essa meta-análise não confirma o resultado no RELY, e sim praticamente copia o resultado do RELY. Os outros estudos não estão de acordo como RELY, simplesmente não conseguem anular seu resultado. Desta forma, é criada uma ilusão meta-analítica baseada apenas no RELY.


Meta-análises avaliam também a heterogeneidade entre os resultados dos estudos, no intuito de testar se existe discordância entre eles. Um teste estatístico é realizado, cujo o valor de P < 0.05 indica heterogeneidade, e se não for estatisticamente significante indica homogeneidade. Esta meta-análise sugeriu homogeneidade entre os estudos. Baseado nisso, alguém poderia interpretar que os estudos pequenos estão dizendo a mesma coisa que o RELY. Engano, na verdade os 6 estudos pequenos são tão semelhantes entre si ao dizer que não há associação, que esta semelhança prevaleceu sobre a heterogeneidade de apenas um estudo, o RELY. Ou seja, dentre os 7 estudos, 6 se assemelham (na nulidade), por isso que o teste mostrou homogeneidade. 

Mas o RELY não é um estudo grande, randomizado, de boa qualidade metodológica? As conclusões do RELY não devem ser vistas como verdadeiras? Sim, em relação ao seu desfecho primário. Quando falamos de desfechos secundários, como já comentado neste Blog, há uma boa probabilidade do erro tipo I. Ou seja, encontrarmos associação falsas, decorrentes do problemas da múltiplas comparações: quando múltiplos desfechos (secundários) são testados simultaneamente, algum pode aparecer significativo por acaso. Inclusive alguns autores sugerem que o valor de P a ser considerado estatisticamente significante para múltiplas análises secundárias não seja 0.05, seja 0.05 / número de análises = 0.05 / 6 (neste estudo) = 0.008 (correção de Bonferroni). Se fizéssemos isso, veríamos que o limítrofe 0.048 descrito pelo RELY na verdade não representa significância estatística. Pode ser que tudo não passe do bom e velho acaso.


Análises secundários como a do infarto no RELY devem ser vistas como geradoras de hipóteses, a serem descartadas ou confirmadas por outros estudos. O que foi feito aqui foi confirmar a hipótese gerada pelo RELY, analisando o próprio RELY. O mesmo estudo que gerou uma hipótese um tanto implausível é incluído na meta-análise que vai responder a questão, e além disso é o maior de todos os estudos. É o mesmo que utilizar o conhecimento da probabilidade pré-teste de doença para laudar a imagem de um exame diagnóstico. Claro que a interpretação da imagem do teste vai ser influenciada pelo que se sabe previamente. Outra analogia: quando se cria um escore prognóstico a partir de uma amostra, este deve ser validado em outra amostra, diferente da que foi utilizada para a derivação do escore. Para evitar o erro da repetição. Considerando que a hipótese foi criada a partir de um achado inesperado do RELY, seria necessário ter excluído este estudo da meta-análise em questão. Aí sim seria uma validação da hipótese gerada pelo RELY.


Além destas análises estatísticas, há outras justificativas para este resultado. A fim de demonstrar que algo provoca infarto, este algo deve ser comparado ao nada (placebo) e não a uma coisa que previne infarto. Sabemos que warfarina previne infarto tão bem quando aspirina (AAS é preferido pois é mais prático e causa menos sangramento). Então pode ser que para prevenir infarto, warfarina seja melhor do que dabigatran, por isso a incidência de infarto com dabigratran foi maior. Mas isso não quer dizer que dabigatran é pior que placebo, ou seja, que causa infarto. 

Mas vamos considerar que tudo que eu falei está errado e que dabigatran de fato provoca infarto. Aí vem a segunda questão: qual a magnitude do problema? O aumento absoluto do risco de infarto com dabigatran foi de 0.21%. Calculando o NNH (number needed to harm) para infarto, 100 / 0.21 = 476 pacientes. A cada 476 pacientes tratados com dabigatran, um apresenta infarto, sendo que no estudo boa partes desses infartos foram silenciosos, sem nenhuma repercussão clínica. Ou seja, o problema é irrelevante, comparado ao ganho de praticidade da anticoagulação com dabigatran.

Portanto, esse negócio de dabigatran causando infarto é irrelevante e tem alta probabilidade de ser devido ao acaso. Lembram que no início diziam que estatina causava câncer?

Com isso tudo isso, não quero dizer que o dabigatran deve ser adotado de forma indiscriminada, sem o cuidado necessário. Na verdade, acho que devemos ser muito cautelosos. Primeiro, haverá uma tendência (freada pelo preço, é verdade) de maior indicação de anticoagulação, devido à maior praticidade. Hoje em dia, o médico pensa duas vezes (ou 3, 4, 5 vezes) antes de indicar anticoagulação crônica, pela complexidade do tratamento. Com dabigatran, a facilidade pode predispor ao uso indiscriminado. Coincidentemente ou não, paralelo ao advento do dabigatran, inventaram o escore CHADSVASC, cuja utilização indica anticoagulação para 92% dos pacientes com fibrilação atrial. Temos que ter cuidado, dabigatran causa sangramento quase tão frequente como a warfarina. Segundo, temos evidências de eficácia apenas em fibrilação atrial. Já vi gente usando para trombo em VE, embolia pulmonar. Ainda não temos dados para estas indicações. Terceiro, a ausência do controle laboratorial pode fazer falta em algumas situações específicas. Quarto, temos que iniciar o uso devagar, para aprendermos a usar um anticoagulante cuja forma de utilização representa uma mudança de paradigma, algo que não estamos acostumados. Esta é um droga cuja efetividade (mundo real) pode ser diferente da eficácia demonstrada nos ensaios clínicos, por erro ou negligência na sua utilização. Portanto, temos que ser cautelosos e monitorar o uso da droga no mundo real (estudos de efetividade).

Usualmente fazemos postagens críticas em relação a drogas, por motivos didáticos e porque criticar é mais divertido do que apoiar. Mas deve ter dado para perceber que neste artigo fiz a defesa de uma droga recentemente lançada pela indústria. É importante salientar que não tenho vínculo algum com o fabricante desta ou de nenhuma droga. Nosso vínculo é com a verdade científica, devemos ser imparciais, seja contra ou a favor da indústria. Devemos ser parciais a favor do paciente. Dabigatran, apixaban, rivaroxaban representam um avanço médico, que não podemos resistir com base em evidências questionáveis, em detrimento de boas evidências de eficácia. Aliás, lembrando a velha teoria da conspiração, será que o apixaban ou rivaroxaban estão por trás destas críticas ao dabigatran? Estamos no mundo capitalista.


A forma mais fácil de convencer alguém é dizer: uma meta-análise recentemente publicada comprova que ... A mensagem principal desta discussão é a de que meta-análises não garantem bom nível de evidência simplesmente porque são meta-análises. Sabemos que nem sempre é assim.


* O conteúdo desta postagem foi aceito como Letter to the Editor, a ser em breve publicada nos Archives of Internal Medicine.

sábado, 24 de dezembro de 2011

Papai Noel Baseado em Evidências



Papai Noel existe? Essa é uma pergunta comum nesta época do ano. Considerando que este Blog se propõe a discutir a veracidade dos fatos sob o paradigma científico, precisamos abordar esta importante questão, a qual impactará na vida de milhares de famílias nas próximas horas.

Partimos inicialmente do Princípio da Hipótese Nula (Princípio 2), o qual afirma que todo fenômeno é inexistente até que se prove o contrário (prova  científica). Esta é a justificativa para eventualmente nos questionarmos sobre a existência de Papai Noel. Ou seja, duvidar de vez em quando, é natural, humano e faz parte do pensamento científico. Mas não podemos parar por aqui, temos que evoluir nosso pensamento.

Após considerar o Princípio 2, devemos evoluir e nos perguntar se a presente questão se adéqua ao Princípio 3, o da Plausibilidade Extrema. Este princípio se aplica a situações de exceção, onde o fenômeno é tão plausível, que dispensamos comprovação científica. Por exemplo, na prática clínica ter uma boa relação médico-paciente, saber ouvir e conversar com nosso cliente, representa uma habilidade que deve ser utilizada, mesmo sem um ensaio clínico randomizado demonstrando que a boa relação é benéfica. É extremamente plausível que um médico atencioso faz bem ao seu paciente e por isso aplicamos (ou devemos aplicar) essa abordagem mesmo na ausência de evidência científica.

A existência de Papai Noel é extremamente plausível. Isto porque esta existência só se materializa se formos capazes de acreditar. Se acreditarmos, Papai Noel existirá, se não acreditarmos, ele desaparecerá (ou não aparecerá). Desta forma, só nos resta aplicar o Princípio 3, pois acreditando que Papai Noel é extremamente plausível, este se tornará extremamente verdadeiro. É um perfeito exemplo do Princípio da Plausibilidade Extrema, que deve ser aplicado apenas a situações especiais, onde dispensamos o Princípio 2 (da necessidade de demonstração) e ficamos como a verdade, simplesmente porque aquela verdade é indubitável.

Há também o argumento da plausibilidade extrema do benefício em se acreditar em Papai Noel. Óbvio que esta crença faz bem para a alma, portanto devemos nutri-la. E não faz bem apenas para crianças, para adultos também.  Nós todos devemos acreditar em Papai Noel.

É tão plausível que ao imaginarmos um ensaio clínico randomizado para provar esta questão, percebemos que este seria inútil. Imaginem que vamos randomizar famílias, metade para acreditar em Papai Noel e metade para não acreditar. É óbvio que nas famílias que acreditarem, as árvores acordarão repletas de presentes, enquanto nas famílias randomizadas para não acreditar, as árvores estarão vazias, se é que nestas casas haveria árvores de natal. É tão óbvio que seria uma perda de tempo fazer esse estudo.

Poderíamos então fazer um estudo observacional. Observem como o Natal de famílias crentes é mais mágico do que o Natal de famílias descrentes.

Percebam que todo esse pensamento é baseado em uma seqüência lógica que respeita dos princípios da medicina baseada em evidências. Mas para aqueles que ainda permanecem com o Princípio da Hipótese Nula a despeito de meus argumentos, vamos fazer um teste: amanhã, ao acordar, se houver presentes na árvore, estará provado que Papai Noel passou em sua casa.

Na verdade, todo mundo acredita em Papai Noel, mesmo aqueles que fingem não acreditar.

Feliz Natal a todos.

* Esta é a postagem mais embasada em evidência de todas já escritas neste Blog.

domingo, 27 de novembro de 2011

Viés, Acaso e Demissão


Na recente postagem Ensaio sobre Conflito de Interesse, utilizei como exemplo um editorial escrito por Podermans D, o qual defendia o uso dos beta-bloqueadores em pré-operatório de cirurgia não cardíaca, exatamente quando o ensaio clínico POISE mostrou aumento da mortalidade com esta terapia. Aquele foi um exemplo especulativo, pois coincidentemente eu havia “flagrado” o mesmo médico fazendo o papel de speaker da indústria de beta-bloqueadores no congresso mundial de cardiologia.

Na semana passada, o colega Roberto Dutra me chamou atenção de uma notícia no theheart.org:

Rotterdam, the Netherlands (updated) - Erasmus Medical Center has fired Dr Don Poldermans, a well-known researcher in cardiovascular medicine, for violations of academic integrity [1]. In a statement, the hospital said that Poldermans was careless in collecting data for his research and also used fictitious data to prop up his findings.

Podermans foi demitido por um padrão inadequado de conduta científica.

Muitas vezes alunos me perguntam como a gente pode saber se um pesquisador fraudou seus dados. Minha resposta é que isso geralmente não é o caso. O que normalmente ocorre é uma tendenciosidade no desenho, condução ou interpretação do estudo, mais do que exatamente uma fraude. E dá para diagnosticar este padrão com a análise metodológica do trabalho em questão.

Vamos exemplicar com o estudo DECREASE I, publicado por Podermans et al em 1999, no prestigiado New England Journal of Medicine, artigo bastante citado pelos entusiastas do uso de beta-bloqueador em pré-operatório de cirurgia não cardíaca.

O estudo DECREASE é um prato cheio para treinamento de análise crítica. Trata-se de um ensaio clínico que randomizou 112 pacientes (candidatos a cirurgia vascular e que tinham isquemia miocárdica) para dois tipos de tratamento: usar bisoprolol (iniciado uma semana antes da cirurgia e mantido por 30 dias depois) ou não usar bisoprolol. O estudo mostrou uma impressionante redução de mortalidade cardiovascular (3.4% vs. 17%, P = 0.02) e redução de infarto (0% vs. 17%; P < 0.001). Impressionante mesmo, NNT = 7 (100/redução absoluta do risco = 100/14) para redução de morte. Sinceramente, eu nunca vi um NNT tão bom para redução de mortalidade com qualquer terapia farmacológica. Os tratamentos farmacológicos de maior impacto em cardiologia, como inibidor de ECA em ICC ou trombólise no infarto possuem NNT em torno de 20. O NNT = 7 é um achado sem precedentes.

Precisamos então analisar a veracidade deste achado. Epidemiologicamente, uma associação pode decorrer de 3 fatores: viés, acaso ou causa. Causa é quando de fato a droga está provocando redução de mortalidade. Mas antes temos que analisar as outras duas possibilidades.

Viés é um erro decorrente de falha na metodologia do trabalho. Neste estudo, existe um potencial viés de mensuração da variável desfecho: o estudo é aberto, sem utilização de placebo no grupo controle.

Usualmente desfechos duros como morte são mais resistentes ao viés de mensuração de um estudo aberto. Isto porquê morte é um desfecho tão objetivo que sofre menos de erro de interpretação. Porém devemos notar que o desfecho no estudo DECREASE I é morte cardiovascular, não morte geral. Segundo o trabalho, não houve morte não cardiovascular, todas as 9 mortes do grupo controle e as duas no grupo bisoprolol foram de origem cardiovascular. Estranho só ter morte cardiovascular. E o que é morte cardiovascular em cirurgia vascular? É morte por infarto ou morte por complicação da cirurgia vascular foi considerada? De fato, o saber que um paciente estava no grupo controle poderia ter induzido os médicos a considerar a causa da morte do paciente como cardiovascular. Ou seja, morte de uma dada origem não é desfecho tão objetivo como morte geral. De forma que ocorre aqui a interação do caráter aberto do estudo com um desfecho que não é plenamente objetivo, interação esta já mencionada previamente neste Blog. Isso representa um potencial viés de mensuração do desfecho.

Na verdade, não podemos ter certeza qual o mecanismo exato pelo qual este viés pode ter contribuído para os resultados. O fato é que temos duas situações inusitadas: um estudo aberto de apenas 112 pacientes publicado no NEJM e uma redução de mortalidade nunca antes vista com um tratamento farmacológico. Talvez tenha alguma coisa errada.

Mas não ficamos por aqui. Falamos em três possibilidades: viés, acaso e causa. Analisando agora a segunda possibilidade, acaso, percebemos outro potencial problema. Este é um estudo truncado - interrompido precocemente devido a achado favorável à droga. Inicialmente o autor planejou um tamanho amostral de 226 pacientes para lhe fornecer um poder estatístico adequado. De início, já acho esse cálculo de tamanho amostral questionável, pois foi baseado em uma premissa de altíssima incidência de desfecho (28%). Mas vamos considerar que este cálculo de tamanho amostral como adequado. Mesmo assim, não foram randomizados os 226 pacientes prometidos. O autor interrompeu o estudo com apenas metade dos pacientes randomizados, pois verificou um resultado muito bom a favor da droga. Muito bom para ser verdade.

E é exatamente este o problema de estudos truncados. Quando o tamanho amostral é muito pequeno, uma diferença muito grande entre os dois grupos é necessária para que se consiga significância estatística. Diferença tão grande que se torna inverossímil. Diferença tão grande que só pode ter decorrido do acaso. Por isto que quando o poder estatístico é insuficiente, o valor de P tende a subestimar a probabilidade do acaso. Ou seja, o acaso pode ter ocorrido, apesar do valor de P < 0.05. Este é o primeiro problema. O segundo problema é que o autor está interrompendo o estudo no melhor momento, garantindo que aquele resultado desejável não seja corrigido pelo crescimento do tamanho amostral, se de fato precisar ser corrigido. Terceiro, são várias as análises interinas, e a probabilidade do acaso aumenta pelo problema das múltiplas comparações (postagem futura abordará este problema). Desta forma, este estudo tem grande possibilidade de estar errado, não devendo servir de argumento para o uso de beta-bloqueador.

Em 2009 Podermans publicou o DECREASE IV, agora no Annals of Surgery. E fez a mesma coisa: estudo aberto e truncado. Havia sido planejado 6.000 pacientes e o cara interrompeu o estudo com apenas 1.000 pacientes! Assim, ele demonstra benefício, porém de uma magnitude muito menor (mortalidade total: 1.1% bisoprolol vs. 3.4% controle - NNT = 43) do que o impressionante benefício do DECREASE I. Isso é uma prova de que o DECREASE I era um estudo enviesado e impreciso. O DECREASE IV é menos impreciso, pois tem maior tamanho amostral, porém sofre dos mesmos problemas metodológicos.


Por outro lado, há o estudo POISE, co-patrocinado pela indústria farmacêutica e por orgãos governamentais do Canadá, Austrália e Inglaterra. Este estudo randomizou 8.000 pacientes e não demonstrou benefício do uso do beta-bloqueador. Na verdade, houve até maior incidência do desfecho primário no grupo beta-bloqueador.  Este estudo foi criticado pela forma intempestiva com que o beta-bloqueador foi utilizado, o que poderia ter sido responsável pelo resultado insatisfatório. Pode até ser, mas isso não nos autoriza a utilizar beta-bloqueador. O que nos autorizaria a usar o beta-bloqueador seria a demonstração de benefício, o que não ocorreu no estudo POISE. Benefício foi apenas demonstrado por estudos de má qualidade metodológica. 

Em 2008 foi publicada no Lancet uma meta-análise de 33 ensaios clínicos randomizados que avaliaram a questão. A conclusão foi ausência de benefício. Interessante foi a análise de sensibilidade, onde os estudos classificados como alto risco de viés sugeriam benefício e os estudos classificados como baixo risco de viés não sugeriam benefício. 

É neste momento que presenciamos uma dos maiores exemplos de violação do segundo princípio da medicina baseada em evidências (A Hipótese Nula). O recente Guideline Europeu de Pré-operatório (2009 - coordenado por Poderman) e a recente Diretriz Brasileira (2011) recomendam o uso de beta-bloqueador como Classe I, sem dados científicos suficientes para rejeitar a hipótese nula e passar a acreditar neste benefício. Lembrem-se, o que justifica uma terapia é a demonstração do benefício. A ausência de demonstração definitiva de malefício com formas mais brandas de utilização do beta-bloqueador não indica terapia nenhuma. Já o Guideline Americano atualizou sua diretriz em 2009 no intuito de retirar a indicação classe I do beta-bloqueador. Classe I foi apenas para pacientes que já vinham em uso de beta-bloqueador.

Drogas não devem ser recomendadas com base apenas em plausibilidade (Princípio 4), nem com base em estudos como os DECREASE I ou IV, nem com base na não demonstração de prejuízo se for usada de forma mais cuidadosa. Até que se prove o contrário, beta-bloqueador não é benéfico e pode até ser deletério.

Basear-se em estudos como DECREASE I e IV é um tipo de erro de pensamento médico denominado de ancoragem. Este erro ocorre quando queremos acreditar em uma hipótese (clínica ou científica) e nos ancoramos em argumentos que nunca utilizaríamos se não tivéssemos um viés a favor daquela conclusão.

Não precisávamos da notícia da demissão de Podermans para duvidar do resultado dos DECREASEs. Era só ler os estudos. Mas só agora com esta notícia que a Sociedade Européia de Cardiologia anuncia que resolveu revisar suas conclusões relativas ao Guideline de Pré-operatório de Cirurgia não Cardíaca.

domingo, 13 de novembro de 2011

Valor Diagnóstico do Escore de Cálcio Zero




Recentemente postamos uma série de artigos entitulada Análise Crítica de Métodos Diagnósticos.

Naquelas postagem discutimos detalhadamente como analisar a veracidade da informação sobre acurácia (1), magnitude da acurácia (2) e utilidade de métodos dignósticos (3,4). A intenção daquela série foi servir de guia para futuras análises da literatura, onde revisamos este conhecimento. Foi o que fizemos na análise do artigo sobre troponina de alta sensibilidade (5) e faremos agora com um artigo publicado ahead of print no Journal of the American College of Cardiology por Villines et al (Estudo CONFIRM).

O trabalho intitulado Prevalence and Severity of Coronary Artery Disease and Adverse Events Among  Symptomatic Patients With Coronary Artery Calcification Scores of Zero Undergoing Coronary Computed Tomography Angiography avalia a acurácia diagnóstica do escore de cálcio coronário na detecção de doença coronária obstrutiva em 10.000 pacientes com sintomas possivelmente anginosos, tendo angiotomografia de coronária como padrão de referência. Nesta postagem, discutiremos o significado diagnóstico destes achados.

Na discussão do trabalho, o autor afirma:

In this large, multicenter, international cohort without known CAD, clinically referred for noninvasive coronary angiography, the absence of measurable CAC significantly reduced, but did not fully exclude, the presence of obstructive CAD on current generation CCTA.

Observem que esta sentença tem uma afirmação positiva (the absence of measurable CAC significantly reduced, the presence of obstructive CAD) e outra negativa (but did not fully exclude) – ambas corretas. Mas o que deve prevalecer como mensagem final? As frases de conclusão do autor sugerem que a mensagem negativa deve prevalecer:

Conclusão do Resumo: In symptomatic patients with a CAC score of 0, obstructive CAD is possible.
Conclusão do Artigo: In symptomatic patients referred for CCTA, the absence of CAC reduces but does not fully eliminate the occurrence of obstructive CAD.

É neste ponto que discordamos.

Primeiro devemos reconhecer que a especificidade do escore de cálcio é insatisfatória, apenas 59%. Mas nossa discussão aqui será mais focada na sensibilidade, pois esta é a propriedade que interfere nas conclusões acima citadas.

Em sentido estrito, a conclusão é correta, ou seja, o escore de cálcio zero não afasta a possibilidade da presença de estenose coronária. Isto porquê a sensibilidade relatada foi 89% para estenose > 50%. Significa que 11% dos pacientes com estenose coronária não teriam este problema detectado pelo escore de cálcio.

Depois de reconhecer que o método não afasta a doença, devemos partir para uma análise mais aprofundada da acurácia. Primeiro, precisamos ter a perspectiva de que nenhum método não invasivo é capaz de afastar totalmente a presença de doença coronária. Mesmo métodos consagrados, tais como cintilografia miocárdica (sensibilidade de 87%), eco-estresse (80%) e até mesmo a angiotomografia de coronária (83%) não têm sensibilidade melhor do que a relatada aqui. Ou seja, nenhuma pesquisa não invasiva de doença coronária é determinística. Isto faz com que precisemos aplicar nesta discussão o raciocínio probabilístico, ou seja, o quanto um resultado negativo do escore de cálcio reduz a probabilidade do indivíduo ter doença obstrutiva. Este é o raciocínio que vai definir o valor da informação escore de cálcio zero.

Para saber o quanto um resultado negativo (escore zero) é capaz de reduzir a probabilidade da doença, precisamos avaliar a razão de probabilidade (RP) negativa (1-sensibilidade/especificidade). O autor fez este cálculo (1 – sensibilidade 0.89 / especificidade 0.59): RP negativa = 0.19. Este é um valor bem razoável, pois entre 0.10 e 0.20 o resultado negativo promove uma mudança moderada na probabilidade pré-teste de doença (RP negativa menor que 0.10 seria uma grande mudança).

Testes com RP negativa moderada são utéis para afastar doença em pacientes com probabilidade pré-teste até intermediária. E foi exatamente isto que aconteceu neste trabalho. A probabilidade pré-teste de doença, estimada pelos critérios de Diamond-Forrester, foi de 32% no grupo com escore negativo e 54% no grupo com escore positivo (probabilidades intermediárias). Desta forma, se o teste for negativo, vamos aplicar uma RP negativa de 0.19 a uma probabilidade pré-teste moderada. Isto é suficiente para reduzir a probabilidade de doença para valores bem baixos. É suficiente para nos deixar em uma zona de conforto. Na mesma zona de conforto que qualquer outro método não invasivo nos deixaria.

Probabilidade pós-teste é o mesmo que valor preditivo. Neste caso, os autores relatam que o valor preditivo negativo do escore de cálcio foi de 96% para afastar estenose > 50% (ou seja, sobra apenas 4% de probabilidade de doença). 

Na verdade, o escore de cálcio é um bom teste para reduzir a probabilidade de doença. Se quisermos tanta certeza para afastar a doença, apenas o cateterismo (que é definido como padrão-ouro) faria melhor. Nenhum outro método não invasivo faria melhor.

Vamos imaginar um homem de 50 anos, que dá entrada no setor de emergência com dor torácica de características intermediária. Digamos uma dor atípica, porém não atípica o suficiente para termos segurança de liberar este paciente. Eletrocardiograma normal, troponina negativa. De acordo com critérios de Diamond-Forrester, este paciente tem 22% de probabilidade pré-teste de doença obstrutiva. Se fizer um escore de cálcio zero, aplicando a RP negativa de 0.19, este indivíduo passa a ter apenas 5% de probabilidade de doença obstrutiva (como calculei? acabo de usar o Medcalc do meu Iphone – categoria evidence-based medicine – post-test probability). Assim, ele pode ser liberado.

A coisa ainda fica melhor se considerarmos os resultados do trabalho relativos a estenose > 70% como definição de doença obstrutiva. Neste caso, a sensibilidade do escore de cálcio sobe para 92%, a razão de probabilidade negativa passa para 0.15 e o valor preditivo negativo (nessa amostra de probabilidade intermediária) para 99%.

Metade dos pacientes deste estudo tiveram escore de cálcio zero. E neste caso, a probabilidade de estenose > 50% cai para 4% e > 70% cai para 1%. Então como rejeitar o valor deste método em pacientes de probabilidade baixa ou intermediária?

Um possível argumento contra a minha idéia é o de que não queremos perder a detecção destes 4% dos pacientes (ou 1% dos pacientes com placa > 70%), pois doença coronária é um problema grave. Mas então, como fazer para melhorar ainda mais a sensibilidade, o que levaria a uma melhora na RP negativa e finalmente a um valor preditivo negativo ainda melhor? Faríamos um angiotomografia de coronária?

Qual a acurácia da angiotomografia de coronária mesmo? Vamos utilizar o CORE-64, principal estudo desta área, publicado no NEJM: a sensibilidade é 83%, especificidade 91%, razão de probabilidade negativa de 0.19. Isto mesmo, 0.19, exatemente a mesma RP negativa do escore de cálcio igual a zero. Por isso, o valor preditivo negativo da angiotomografia de coronária no CORE-64 foi 81%, também não afasta a doença. Ou seja, uma vez que o resultado seja negativo, angiotomografia de coronária não é melhor que escore de cálcio coronário para afastar a doença. Se quisermos certeza mesmo da ausência de doença, deveríamos solicitar cateterismo cardíaco para todo mundo. Porém isso não faz sentido, usar o raciocínio diagnóstico probabilístico faz mais sentido, claro.

Devemos reconhecer que o resultado da angiotomografia identifica um maior número de pacientes sem a doença (especificidade). Este pode ser um argumento válido a favor da angiotomografia. Mas o argumento de que o escore de cálcio zero não afasta doença é errado, pois ele não afasta exatamente da mesma forma que a angiotomografia não afasta. 

Aí surge um novo problema do estudo em questão. Diferente dos estudos  prévios (por exemplo, Gotllieb et al, JACC 2010), o estudo que discutimos hoje não utilizou o cateterismo como padrão de referência para avaliar a acurácia do escore de cálcio. Utilizou a angiotomografia de coronária, a qual não tem melhor sensibilidade do que o escore de cálcio (apesar de ter melhor especificidade). É como uma aluno mediano corrigir a prova de outro aluno mediano (no que diz respeito à sensibilidade). Desta forma, há um problema de veracidade, relacionado à escolha do padrão de referência. Como já comentamos, este é um dos principais ítens da análise de veracidade: qualidade do padrão de referência.

Em resumo, o que precisamos entender é que nenhum método não invasivo afasta a doença coronária obstrutiva. Neste caso, o que temos que procurar é o raciocínio probabilístico e não o pensamento determinístico. O raciocínio probabilístico promove a interação do quadro clínico com o resultado de um exame, nos oferecendo uma probabilidade de doença final que nos deixa confortáveis para tomar uma decisão.

Na verdade, o artigo em questão vai ao encontro das evidências que mostram ser o escore de cálcio um método aceitável para afastar doença coronária em pacientes com probabilidade pré-teste baixa ou intermediária. Não vai de encontro, tal como tentam sugerir os autores.


* Um melhor entendimento desta discussão ocorre após revisão das série de postagens Análise Crítica de Métodos Diagnósticos.