sábado, 17 de março de 2012

A Magia do NNT

Da Série Análise Crítica de Evidências sobre Terapia - Terceira Postagem

Na postagem anterior iniciamos a avaliação da relevância terapêutica pela análise do tipo de desfecho testado no trabalho científico. Após análise do tipo de desfecho, devemos quantificar a magnitude do benefício da terapia quanto à redução do desfecho indesejado. Um benefício comprovado (veracidade), pode variar de mínima magnitude a uma enorme magnitude. Seria simplório afirmar “esta terapia é comprovadamente benéfica, devemos implementar.” Precisamos saber o grau de benefício para tomar a decisão clínica certa, ponderando em relação ao custos, inconvenientes e riscos da terapia.

Para isso, utiliza-se o NNT, que significa Número de pacientes Necessário a Tratar a fim de prevenir um desfecho indesejado (Number Needed to Treat). Esta medida quantifica o grau de benefício: quanto menor este número, maior o benefício. O ideal é um NNT de 1, que significa que todo paciente tratado se beneficia da terapia. Por exemplo, um NNT de 1 para o desfecho morte significa que se implementarmos a terapia o paciente vai sobreviver e se não implementarmos o paciente vai morrer. Um NNT de 100 significa que de 100 pacientes tratados, um vai ter sua vida salva pela terapia.

O NNT nos fornece uma importantíssima noção filosófica a respeito do alcance dos atos médicos, noção normalmente ausente no nosso inconsciente coletivo. Refiro-me à consciência de que nossas decisões são limitadas em termos de eficácia. O sistema biológico é complexo e um tratamento implementado não garante benefício. É impossível prever de forma acurada quem é o paciente que vai se beneficiar. Desta forma, o que fazemos é tratar um grande número de pacientes, na esperança de que alguns se beneficiem.

Observem a figura acima, que representa um tratamento hipotético cujo objetivo é prevenir apenas morte no infarto de risco alto. Neste caso, o tratamento só precisaria ser implementado nos 12% dos pacientes que morrem na fase aguda do infarto (as carinhas vermelhas do grupo controle). Porém, no momento da admissão não sabemos quem vai morrer (vermelho) e quem vai sobreviver (carinhas laranjas do grupo controle), pois o paciente não chega na emergência com a cara pintada de vermelho ou laranja. Desta forma, tratamos todos os pacientes, para que aqueles 12% que estão predestinados a morrer recebam o tratamento. Os outros 88% (laranjas) não precisariam receber o tratamento, pois não iriam morrer. Porém mas não sabemos quem é quem.

Agora vamos nos concentrar nestes 12% que vão (ou iriam) morrer. Quase nenhum tratamento consegue impedir a morte de todos os predestinados. Portanto apenas uma parcela dos pacientes terão sua morte prevenida. Na figura do grupo tratamento, apenas 4 dos 12 pacientes predestinados não morrem. Estas são as carinhas verdes, os que são salvos pelo tratamento.

Desta forma, tratamos 100 pacientes para prevenir 4 mortes: 100/4 = 25, ou seja, precisamos tratar 25 pacientes para prevenir 1 morte. Este é o NNT.

Embora o conceito de NNT tem sido bem difundido, minha percepção é que a noção filosófica não é muito prevalente no pensamento médico. Por exemplo, uso de stent farmacológico versus stent convencional. O primeiro reduz reestenose, é verdade. Porém percebemos que quando elegemos o stent farmacológico, o fazemos como se o este tipo de stent fosse prevenir a reestenose em todos e como se o stent convencional fosse provocar reestenose em todos. Ou seja, como se o NNT fosse de 1. Digo isso, pois vemos algumas vezes pacientes internados por 40 dias a espera da liberação de  um stent farmacológico pelo convênio. Ou pacientes instáveis que deixam de receber um tratamento imediato em artéria criticamente obstruída para esperar a liberação de stent farmacológico. Mas qual o NNT do stent farmacológico em comparação ao stent convencional? Para reestenose clínica é 16. Significa que, em média, precisamos implantar stents farmacológicos em 16 pacientes (no lugar do convencional), para prevenir reestenose em 1 destes 16 pacientes. Certas horas, o médico não lembra disso e toma decisões como se o NNT fosse 1.

A magia do NNT é nos dar exatamente esta percepção. 


De posse do NNT da estatina em prevenção primária em pacientes dislipidêmicos (conhecimento científico = NNT de 53 para infarto – não reduz morte), decidiremos se um paciente que se queixa de dor muscular deve ter sua estatina suspensa. Para isso precisamos também do julgamento clínico que avaliará subjetivamente o quanto aquele efeito colateral está reduzindo a qualidade de vida do paciente. Este é um dos momentos especiais, quando o conhecimento científico (NNT) se alia ao julgamento clínico (percepção subjetivo do médico) na decisão terapêutica. Cada um com sua função, se complementando na hora certa.

Percebam então que são dois os componentes que determinam o NNT. Primeiro, a quantidade de paciente que vai sofrer o desfecho indesejado (risco). Depois a eficácia do tratamento em prevenir este desfecho. Desta forma, uma mesma droga pode ter um NNT baixo (grande magnitude) quando aplicada em um paciente de alto risco, ou um NNT alto (pequena relevância) quando aplicada a um paciente de baixo risco.

Risco é a probabilidade do paciente apresentar um desfecho indesejado. Em trabalhos científicos isto é chamado de risco absoluto. Quando subtraímos o risco observado no grupo controle pelo risco observado no grupo tratamento, obtemos a redução absoluta do risco. Por exemplo, RA de morte no grupo droga é 12% e RA de morte do grupo placebo é 8% = RAR = 12% - 8% = 4%. Essa é a magnitude da redução absoluta do risco. Agora, NNT é 100 dividido pela RAR = 100/4 = 25.

RAR = RA do controle – RA do tratamento

NNT = 100 / RAR

A maioria dos artigos não trazem o cálculo do NNT, cabe a nós utilizar a RAR descrita no artigo e calcular o NNT. Ou seja, cabe a nós interpretar a magnitude do benefício do tratamento.

E como interpretar a magnitude, utilizando o valor no NNT? NNT abaixo de que número implica em tratamento relevante?  Não existe uma resposta única para esta pergunta, pois isto depende de algumas coisas. Primeiro, depende do tipo de desfecho, assunto da postagem passada. Um NNT de 40 para morte terá uma relevância maior do que um NNT de 40 para infarto não fatal ou para desfechos combinados que incluam situações não fatais. Outra variável é o tempo de tratamento necessário para obter o benefício. Trombólise no infarto tem NNT de 20 para prevenir morte na fase hospitalar, enquanto inibidor da ECA em ICC tem o mesmo NNT de 20, só que previne morte ao longo de um 1 ano. Trombólise é então mais relevante no IAM do que IECA na ICC.

Mesmo diante destas variáveis, precisamos de um número que nos sirva de guia. Este número é 50. NNT < 50 para morte é considerado tratamento de grande relevância e para desfechos não necessariamente fatais NNT < 50 é tratamento de moderada relevância. Abaixo, vejam um guia lógico para interpretação.



Ainda tem o NNT para causar prejuízo (harm) ao paciente. Este é chamado de NNH (Number Needed to Harm). E isso permite que comparemos o NNT com o NNH, ou seja, façamos um raciocínio de risco/benefício. Por exemplo, Clopidogrel em síndromes coronarianas agudas reduz eventos cardiovasculares não fatais (em 1 ano), porém aumenta a incidência de sangramento maior. O NNT é 48, enquanto do NNH é 100. Por isso que normalmente utilizamos Clopidogrel em SCA, pois em geral o benefício supera o risco.

Desta forma, o NNT é uma medida que oferece um valor filosófico e um valor prático. O valor filosófico é inserir no pensamento médico a noção não determinística do tratamento: tratar (ou não tratar) não é o único determinante do desfecho. O valor prático é quantificar o benefício e o malefício, aprimorando nossa capacidade de decisão clínica.

quarta-feira, 14 de março de 2012

Análise Crítica da Relevância Terapêutica


Da Série Análise Crítica de Evidências sobre Terapia - Segunda Postagem

Na primeira postagem desta série discutimos como avaliar a veracidade da informação científica sobre terapia. Uma vez definido um grau aceitável de veracidade, devemos instituir o tratamento? Não exatamente, pois para que se justifique um tratamento, o tipo de informação trazido pelo trabalho (mesmo que verdadeira) precisa ser relevante.

A relevância deve ser analisada de duas formas. Primeiro, aquela informação verdadeira realmente garante benefício clínico ao paciente? Segundo, o benefício clínico trazido é de magnitude suficiente que justifique os esforços (custo, risco, às vezes desconforto) para se instituir a terapia?

A primeira questão diz respeito ao tipo de desfecho analisado. E a segunda questão ao famoso número necessário a tratar (NNT), que melhor descreve a magnitude de um benefício.

Inicialmente devemos analisar qual é o tipo de desfecho que foi definido como primário. E aí entra a importante distinção entre desfecho clínico e desfecho substituto (surrogate, em inglês).

Desfecho clínico é o verdadeiro impacto da doença na vida do paciente. É o que paciente sente, é morbidade (qualidade de vida) ou mortalidade (tempo de sobrevida). Teoricamente, morte é o evento clínico mais importante na hierarquia de relevância. Abaixo de morte, estão AVC, infarto, angina, internamento por ICC, qualidade da visão em paciente com catarata, fratura em paciente com osteoporose. Para que uma evidência sobre terapia seja suficiente para recomendar a utilização da mesma, se faz necessário que o desfecho avaliado seja de caráter clínico.

Desfechos substitutos são variáveis laboratoriais ou fisiológicas que são utilizadas em estudos que não têm poder estatístico para avaliar desfechos clínicos. Por exemplo, no tratamento anti-hipertensivo, redução da pressão arterial é um desfecho substituto da redução de AVC (desfecho clínico). Melhora da densidade óssea na densitometria é um desfecho substituto, enquanto redução da incidência de fratura é um desfecho clínico. Desfecho substituto é apenas uma informação obtida em um exame complementar, a qual o paciente não sente. Ao fazer um Doppler de carótidas, podemos demonstrar aterosclerose. Se o paciente for assintomático, essa aterosclerose observada é um desfecho substituo de um futuro AVC que poderá acontecer. Mas não há garantia alguma que irá acontecer. Da mesma forma, não há garantia de que um tratamento que melhore esta aterosclerose reduza a probabilidade de AVC.

Como desfechos substitutos são em geral variáveis numéricas, se consegue poder estatístico para detectar mudança destes desfechos mesmo em estudos de porte modesto. Isso justifica a utilização de estudos com desfechos substitutos antes dos ensaios de desfechos clínicos.

Conceitualmente, espera-se que a influência do tratamento no desfecho substituto se reflita em benefício clínico. O problema é que a história da ciência médica está repleta de situações nas quais um aparente benefício em desfecho substituto não causa benefício clínico e às vezes causa até malefício: vernarinona é um inotrópico positivo que melhora fração de ejeção (desfecho substituto), mas aumenta mortalidade; flecainide é um anti-arrítmico que reduz extrassístoles (desfecho substituto), mas aumenta mortalidade; torcetrapib aumenta em 70% o HDL-colesterol (desfecho substituto), mas aumenta mortalidade; doxazozin, um anti-hipertensivo testado no estudo ALLHAT, aumentou eventos cardiovasculares; rosiglitazona reduz glicemia, porém há evidências de que aumenta eventos cardiovasculares; vitaminas podem ter demonstrado efeito anti-oxidante em partículas de LDL (desfecho substituto), mas não alteram risco de infarto. Isto ocorre porque os sistemas biológicos são do tipo complexo, o que torna impossível prever o verdadeiro efeito de uma intervenção, baseado na lógica. Por mais lógico que possa ser.

Há ainda alguns desfechos que podem ser interpretados como clínicos no que dizem respeito a qualidade de vida, porém são substitutos em relação à eventos que levam a risco de vida. Por exemplo, redução de peso é um desfecho clínico, pois melhora qualidade de vida em obesos. Por outro lado, a redução de peso não é garantia de redução das conseqüências clínicas da obesidade, tal como eventos cardiovasculares. De fato, sibutramina reduz peso (embora pouco – apenas 5 Kg em ensaios clínicos randomizados), porém aumenta risco de eventos cardiovasculares.

A indústria farmacêutica costuma tentar (e consegue) convencer médicos da utilização de substâncias de benefício clínico não comprovado, utilizando apenas argumentos de desfechos substitutos. Isso é muito com anti-hipertensivos, como o tal do Aliskireno, droga já comentada neste Blog. Observem:

Diuréticos, inibidores da ECA e antagonistas dos canais de cálcio possuem comprovação científica de que sua utilização promove redução do risco de eventos cardiovasculares, tipo infarto, AVC, óbito. Estas classes de drogas possuem efeito anti-AVC, anti-infarto, anti-morte. Quanto ao Aliskireno, por enquanto esta é apenas uma droga anti-hipertensiva. Mas estes são desfechos substitutos, sem garantia de benefício clínico. Portanto, o Aliskireno não pode ser usado como alternativa a drogas que possuem comprovação de proteção quanto a desfechos clínicos. Não podem ser colocadas como drogas de primeira linha, tal como sugerido na atual Diretriz de Hipertensão da Sociedade Brasileira de Cardiologia.

Para complicar, no final do ano passado o estudo ALTITUDE foi interrompido (ainda não publicado). Este era um ensaio clínico randomizado para Aliskireno ou placebo, em hipertensos diabéticos que já vinham em uso de IECA ou BRA. Houve aumento na incidência de AVC com o Aliskireno, o que motivou à interrupção do estudo. Vejam só, a droga reduz pressão (desfecho substituto), porém pode ser que aumente AVC (desfecho clínico). É o paradoxo dos desfechos, um fenômeno frequente.

Portanto, um estudo de desfecho substituto tem relevância limitada à geração da hipótese de benefício, servindo de degrau para a realização de ensaios cujos desfechos sejam clínicos. Estes sim tem o poder de modificar nossa conduta.

Mas os desfechos clínicos também devem ser analisados criticamente quanto a sua importância. Primeiro quanto a sua hierarquia. Eventos cardiovasculares, por exemplo, temos em ordem decrescente de valor: morte, AVC, infarto, internamento por angina...

Mas não é só isso. Precisamos avaliar a definição do desfecho. Vejamos o caso do infarto. Há estudos cuja definição de infarto garante que o evento é clinicamente importante (dor precordial, corrente de lesão do eletrocardiograma, ...), enquanto há estudos cuja definição de infarto se aproxima mais de um desfecho substituto: por exemplo, elevação de marcador de necrose após angioplastia. E AVC: temos variações de eventos transitórios até eventos com alto grau de seqüela.  Tudo isso deve ser considerado.

Portanto, em primeiro lugar, precisamos avaliar a qualidade do desfecho. Em segundo lugar, precisamos fazer uma avaliação quantitativa do grau de redução do desfecho. Esse é o assunto da próxima postagem: a magia do NNT.

domingo, 26 de fevereiro de 2012

Guia para Análise Crítica de Evidências sobre Terapia



O primeiro princípio da medicina baseada em evidências nos lembra que precisamos analisar o nível de evidência antes de incorporar a informação de um estudo na conduta médica. Várias foram as postagens deste Blog nas quais abordamos estudos terapêuticos, utilizando-os como gancho para discussão de análise crítica de evidências referentes a eficácia. Pretendemos agora apresentar a técnica de análise crítica de forma sistematizada, passo a passo, o que pode servir de guia para quando nos deparamos com um estudo que sugere ou nega benefício de uma conduta terapêutica.

A leitura de um artigo deve ser um processo sistematizado, devemos saber o que procurar. A atividade mental deve ser ativa, um processo investigativo. Devemos começar lendo a conclusão do artigo, e depois iniciamos a avaliação do quanto fundamentada é a conclusão. Aí cabe uma leitura dos resultados e métodos, dirigida por um check-list mental. A leitura de um artigo não deve ser como a leitura de um romance, do início ao fim, de forma relaxada. Na verdade, nem precisamos ler todas as palavras dos artigos, não recomendo isso.

Na análise de evidência sobre terapia, precisamos considerar três aspectos: (1) a veracidade, (2) a relevância e (3) a aplicabilidade da informação oferecida pelo trabalho. Devemos sempre começar a análise pela veracidade, pois quando mudamos a ordem de avaliação destes três tópicos, podemos nos confundir na conclusão final. Afinal, não haveria sentido em discutir a relevância ou aplicabilidade de uma informação falsa.

Inicialmente abordaremos veracidade. São os cinco passos para análise de veracidade:

Passo 1: Há efeito de confusão influenciando o resultado?
Passo 2: O resultado decorre do acaso (significância estatística)?
Passo 3: A conclusão foi baseada no resultado do desfecho primário ou secundário?
Passo 4: Há viés de mensuração?  (estudo aberto? desfecho subjetivo?)
Passo 5: Há viés de tratamento ? (intenção de tratar? cross-over acentuado?)

Passo 1: Há efeito de confusão influenciando o resultado? – Ensaio clínico randomizado versus estudo observacional.

A possibilidade de efeito de confusão representa o mais importante “fator de risco” para gerar resultados incorretos sobre eficácia terapêutica. Foi devido a fatores de confusão que se afirmou que vitaminas previnem câncer/doença cardiovascular e que terapia de reposição hormonal (TRH) previne infarto. Nestes casos, a afirmação se embasou em estudos observacionais, que foram contraditos por ensaios clínicos subseqüentes. No estudo observacional, o tratamento (vitamina, TRH) é determinado pelo escolha do paciente ou permissão do seu médico. Isso gera um imenso problema, pois a escolha faz com que os pacientes tratados sejam muito diferentes dos não tratados. Por exemplo, evita-se TRH em mulheres hipertensas e tabagistas, devido ao risco de associação do hormônio com estes fatores. Por isso, quem usa TRH geralmente não é hipertensa, nem tabagista, sendo de menor risco (não pela TRH). Embora sem comprovação de benefício, o ato de usar vitamina diariamente marca indivíduos com estilo de vida mais saudável do que as pessoas que não usam vitamina.

Já comentamos neste Blog sobre a associação de chocolate e de vinho com menor risco cardiovascular. Embora pareça sedutor relacionar estas coisas a saúde (muitos falam do vinho como se fosse um fato), é muito possível que estas associações tenham influência de fatores de confusão. Tudo é baseado em estudos observacionais e é fácil de entender o mecanismo dos fatores de confusão nestes casos. Por exemplo, quem come chocolate não é diabético, tornando-o de menor risco (não por causa do chocolate); quem bebe vinho com frequência geralmente não é doente, nem muito idoso. Estes fatores inibem o uso de bebida alcoólica, seja por proibição, seja por motivação do paciente.  A solução para essa confusão são os ensaios clínicos randomizados para chocolate versus controle, ou vinho versus controle.

Mas porque o ensaio clínico não é vulnerável a fatores de confusão?

O ensaio clínico determina o tratamento por sorteio, de forma aleatória, fazendo com que o grupo tratado e o grupo não tratado sejam idênticos. É só olhar as tabelas de características clínicas de grandes ensaios clínicos (> 300 pacientes, idealmente > 1000 pacientes), os dois grupos são iguais em tudo! É a magia da randomização.

Por isso que um ensaio clínico randomizado é sempre um nível de evidência muito superior a estudos observacionais, pois o principal “fator de risco” para resultados espúrios é evitado neste primeiro modelo. Já os estudos observacionais, mesmo que se faça análise estatística ajustando para fatores de confusão, não ficam isentos do problema. Todos estes estudos fizeram análise multivariada, mas isso não bastou para prevenir o erro.

Há ainda aqueles que tentam priorizar resultados de estudos observacionais por estes representarem melhor o “mundo real”. Este é um grande equívoco, pois coloca a análise de aplicabilidade antes da análise de veracidade e  sugere acreditar nos observacionais por uma vantagem (“mundo real”) muito inferior à desvantagem que se recebe em troca (o pior “fator de risco” para resultados espúrios – efeito de confusão).

Uma vez verificando que a evidência é proveniente de um ensaio clínico (bem) randomizado, ficamos mais tranqüilos. Porém devemos saber que isto é uma condição necessária para a veracidade, porém não suficiente.

A informação proveniente de um ensaio clínico pode decorrer de três fenômenos: acaso, viés ou causa. Causa significa uma associação verdadeira entre o uso da terapia e a melhora do paciente, quando a terapia de fato causa um benefício. Mas antes de chegar a esta conclusão, precisamos nos preocupar com os dois tipos de erros que se observa em ciência: erro aleatório (acaso) e erro sistemático (viés). O erro aleatório decorre do acaso, não ocorre por falha do pesquisador ou porque o protocolo do estudo foi feito de maneira incorreta. É simplesmente o azar do resultado na sua amostra ter desviado do que ocorre da população. Já o erro sistemático decorre de falha no protocolo do estudo, pode ser previsível até mesmo antes do estudo ser realizado.

Vamos começar pelo erro aleatório.

Passo 2: O resultado decorre do acaso (significância estatística)?

Como já mencionado neste Blog (regressão à média, pênalti), o acaso permeia nossas vidas de forma mais prevalente do que o senso comum sugere. Um ensaio clínico randomizado é realizado em uma amostra da população-alvo do estudo. Quando avaliamos a eficácia da aspirina no infarto do miocárdio, não a testamos em todos os pacientes com infarto. Utilizamos uma amostra (uma parte pequena) de todos os pacientes infartados no mundo. Quando trabalhamos com amostra, devemos nos preocupar com o papel do acaso. Ou seja, por acaso (por azar) o observado em nossa amostra pode ser diferente do resultado se tivéssemos estudado a eficácia da droga em toda a população de infartados do mundo (o que seria impraticável).

Por este motivo, ao observamos um resultado, devemos ter a consciência de que este pode ter sido decorrente do acaso. Para resolver esta preocupação, em meados no século XX os testes estatísticos foram inventados, através dos quais estimamos a probabilidade de um resultado ser decorrente do acaso. Esta probabilidade é comumente expressa nos ensaios clínicos pelo valor de P. Como trabalhamos com amostras, nunca podemos garantir que o resultado não decorreu do acaso, no máximo o que fazemos é tolerar certa probabilidade do acaso como desprezível. E, por convenção, a probabilidade tolerável é 5%. Se em ensaio clínico hipotético, a mortalidade no grupo droga for 10%, comparada a 13% no grupo placebo, os dados sugerem que a droga reduz mortalidade. Mas isso pode ter decorrido do acaso. Então se o valor de P for menor do que 5% (digamos 3% = 0.03), consideramos esta probabilidade desprezível e diremos que a diferença não decorreu do acaso. Todo este raciocínio pode ser resumido na expressão estatisticamente significante, que nada mais é do que probabilidade desprezível do acaso. O ato de afirmar que existe uma diferença que decorreu do acaso é denominado Erro Tipo I. Evitamos o erro tipo I quando exigimos significância estatística.

Até agora está simples e fácil, pois o conceito de que precisamos de um valor de P < 0.05 está muito bem sedimentado no meio médico. Porém precisamos saber que há situações onde a probabilidade do acaso não é desprezível mesmo com um valor de P < 0.05.


Passo 3: A conclusão foi baseada no resultado do desfecho primário ou secundário ?

Como dissemos, há situações onde a probabilidade do acaso não é desprezível mesmo com um valor de P < 0.05. E a principal situação ocorre quando são analisamos desfechos secundários. Diferente do desfecho primário, são muitos os desfechos secundários analisados simultaneamente. Quando muitas comparações são feitas simultaneamente, a probabilidade do acaso é amplificada além do que o valor de P está representando. Este fenômeno é chamado de problema das múltiplas comparações.
Por exemplo, qual a probabilidade de que ao jogar uma moeda 10 vezes, o resultado seja cara todas as 10 vezes? Esta probabilidade é ínfima. Mas se fizemos esse experimento (jogar 10 vezes a moeda) 50 vezes, a probabilidade de que em algum dos 50 experimentos cara seja o resultado todas as 10 vezes é maior do que se fizermos o experimento apenas 1 vez. Claro, é só pensar um pouco. Isso faz com que quando analisamos desfechos secundários, a probabilidade do acaso fica amplificada, pois são muitos os desfechos analisados simultaneamente. Algum pode aparecer significativo por acaso. Este foi o raciocínio que fizemos em recente postagem, quando contestamos que Dabigatran causa infarto, pois infarto foi um desfecho secundário.
Desta forma, devido à maior probabilidade do Erro Tipo I, resultados de desfechos secundários podem gerar hipóteses, mas não devem ser vistos como definitivamente verdadeiros.
Outro problema dos desfechos secundários é o fato de que o estudo não foi dimensionado para tal, ou seja, muitas vezes não há poder estatístico para se testar aquele desfecho. Quando encontramos uma diferença em um estudo sem poder estatístico, esta tem maior “risco” de ser decorrente do acaso. Porque? Imaginemos um caso extremo, onde o estudo é muito pequeno e para que se consiga um P < 0.05 em um estudo tão pequeno, seria necessário uma diferença muito grande entre os grupos (tipo mortalidade 10 vs. 50%). Uma diferença tão grande que se torna implausível, sendo o acaso a única possibilidade de explicação. Lembram-se da enorme diferença de mortalidade obtida em um estudo pequeno com beta-bloqueador em pré-operatório de cirurgia não cardíaca? Lembram-se do estudo LIDO que mostrou levosimedan reduzindo mortalidade (desfecho secundário) quando comparado a dobutamina em pacientes com insuficiência cardíaca agudamente descompensada. Isto fez com que entusiastas e interessados propusessem o uso do levosimedan. No entanto, mortalidade era desfecho secundário naquele estudo de apenas 200 pacientes. Anos mais tarde, o estudo SURVIVE (1200 pacientes, morte como desfecho primário) demonstrou mortalidade idêntica nos dois grupos. 
Pior quando o desfecho nem é definido a priori, ou seja, os autores nem dizem antes do estudo o que vão testar, testam uns 300 desfechos e apresentam os de resultados positivos (embora positivos por acaso).
Desta forma, uma evidência ideal sobre eficácia deve ser proveniente da análise de um desfecho primário e deve ter um valor de P < 0.05. Se for proveniente de desfecho secundário, é apenas um resultado parcial, que precisa ser testado em estudos desenhados para ter aquele desfecho como primário.
Passo 4: Há viés de mensuração?  (estudo aberto? desfecho subjetivo?)
Afastada a probabilidade do acaso, devemos nos preocupar com potenciais vieses como mediadores de um falso resultado.  O viés é um erro sistemático, ou seja, decorre de falha na metodologia do estudo. Se é um estudo de uma droga anti-hipertensiva e o medidor de pressão está descalibrado, podemos incorrer em um erro sistemático, um erro que se repete em diferentes pacientes, por falha da ferramenta de medida. Este é um exemplo básico de um viés de mensuração. Tão básico que não vai ocorrer em estudos minimamente organizados.
Na realidade, o principal “risco” de viés de mensuração ocorre quando temos um estudo aberto (ao invés de cego), onde o pesquisador sabe quem está usando a terapia. Este viés fica acentuado quando o pesquisador está avaliando um desfecho subjetivo, denominado de soft. Ao sabermos o que o paciente está usando e este se queixa de um sintoma subjetivo de dispnéia, temos mais tendência a interpretar a dispnéia como verdadeira se o paciente está usando placebo, e mais tendência a não valorizar a dispnéia se a droga ativa estiver sendo usada. Lembram-se da análise do estudo do BNP em insuficiência cardíaca?
O valor do placebo (vide postagem) não se limita a simular o efeito psicológico do tratamento. É muito útil também para cegar o médico na interpretação dos desfechos.
Há outros tipo de vieses. Viés de seleção, quando os critérios de inclusão não foram suficientes para selecionar a amostra de interesse. Por exemplo, queremos avaliar pacientes com síndromes coronarianas agudas, mas incluímos qualquer dor torácica, muitas delas que podem ser decorrentes de outras causas. Viés de seguimento, quando há muitas perdas de pacientes durante o seguimento (será que os pacientes que sumiram do mapa foram os que morreram?). Viés de análise de dados, desde erros estatísticos até tendência na escolha da forma de análise.

Passo 5: Há viés de tratamento ? (intenção de tratar? cross-over acentuado?)
O viés do tratamento é algo que precisamos nos preocupar também. Este é muito presente em estudos observacionais, pois a forma de tratamento não é padronizada (dose, tipo de droga, duração), nem monitorada. Porém mesmo em ensaios clínicos, pode ocorrer o viés de tratamento. Sempre que randomizamos um grupo para tratamento, nem todos deste grupo de fato completam o tratamento, assim como alguns do grupo controle acabam usando o tratamento. Isso se denomina de cross-over, que é inerente de qualquer tipo de tratamento e idealmente não deve ultrapassar 30%. Mas porque toleramos um certo nível de cross-over ? Toleramos porque no mundo real, de fato, nem todos os pacientes que prescrevemos um tratamento são submetidos ao tratamento. Precisamos entender que o ensaio clínico está na verdade testando a intenção de tratar, ou seja, a eficácia do ato médico de prescrever o tratamento. Esta eficácia é também determinada pela aceitação do paciente ao tratamento, que deve ser computada no estudo. Se excluirmos estes pacientes, estaríamos tornando mais artificiais nosso resultado, seria um viés de tratamento. Portanto, a análise primária dos estudos deve ser baseada na intenção de tratar, onde alguém alocado para o grupo droga será sempre droga, mesmo que não tenha recebido a droga. O mesmo com o grupo placebo ou controle. Trocar os pacientes de grupo de acordo com o verdadeiro uso do tratamento (análise per protocol) deve ser visto como uma análise secundária. Além do problema mencionado, esta conduta viola o processo de randomização e faz voltar o risco de efeito de confusão. A exceção onde a análise per protocol deve ser valorizada são estudos de não-inferioridade (vide postagem de Adriana Latado).
Outro aspecto importante: quando estamos avaliando um tratamento conservador versus tratamento agressivo, é natural e desejado que parte dos pacientes do grupo conservador ao longo do segmento migrem para o grupo agressivo, a depender do julgamento médico. Isso faz parte da estratégia conservadora, e estes pacientes devem continuar rotulados como tendo sido submetidos ao grupo conservador. Por exemplo, no estudo COURAGE, ao longo do seguimento parte dos pacientes do tratamento clínico realizaram angioplastia. Isso não é um problema, pois tratamento clínico significa a primeira estratégia e não implica em proibir o médico de optar pelo tratamento intervencionista se o conservador não funcionar plenamente.

Em conclusão, na primeira etapa de avaliação (veracidade), devemos nos preocupar com as seguintes questões:

Passo 1: Há efeito de confusão influenciando o resultado?
Passo 2: O resultado decorre do acaso (significância estatística)?
Passo 3: A conclusão foi baseada no resultado do desfecho primário ou secundário?
Passo 4: Há viés de mensuração?  (estudo aberto? desfecho subjetivo?)
Passo 5: Há viés de tratamento ? (intenção de tratar? cross-over acentuado?)

Caso a conclusão passe pelo crivo de todas estas análises, a consideramos verdadeira e partimos sem medo para a análise de relevância. Caso haja dúvida em relação à veracidade, devemos considerar o estudo apenas como gerador de hipótese, insuficiente para modificar nossa conduta. Em alguns casos, nem gerador de hipótese podemos considerar o estudo.

quarta-feira, 22 de fevereiro de 2012

O Mito da Caverna de Platão, o Axé e a Medicina Pouco Embasada em Evidências



Qual a ligação entre axé e medicina? A resposta está no Mito da Caverna de Platão.

Este Mito conta a história de homens que nasceram dentro de uma caverna e vivem acorrentados de frente para a parede. Tudo o que eles podem ver é a sombra do que está lá fora, portanto sua perspectiva de vida é bastante limitada. Inclusive, estes homens acreditam que tudo que existe no mundo são aquelas sombras, pois não nunca tiveram contato com outra realidade.

Do ponto de vista cultural, o axé está para a Bahia, assim como a Caverna estava para aqueles homens. Embora desprovido de qualidades artísticas, o axé é massificante e ocupa o espaço de outros movimento culturais que ousem se manifestar na Bahia. O que não é axé tem dificuldade de crescer. Aliás, tudo que não é carnaval tem dificuldade de evoluir nesta terra. Temos o melhor carnaval do Brasil, isso nos basta, não precisamos de mais nada. A orla Barra-Ondina pode ficar sucateada a vida inteira, pois sua função é esperar seu curto período de esplendor no melhor carnaval do Brasil, durante 7 dias no ano. A Praia do Porto pode feder o ano inteiro, especialmente no verão, pois somos a terra do carnaval, nossa auto-estima é intocada. O carnaval baiano é a Caverna de Platão dos dias atuais.

Fico a imaginar se artistas como Gil e Caetano tivessem surgido nos dias atuais, época de esplendor do axé. Será que teriam despontado? Será que se tornariam conhecidos? Será que o massificante axé, com suas Ivetes e Cláudias, dariam espaço para estes verdadeiros artistas baianos?

Porém não devo me alongar no axé, pois careço de intelectualidade para isso e este é um Blog voltado para discussão científica. Só ousei falar desta tema, pois estou contagiado pelo maravilhoso clima de carnaval que povoa nossa terra esta semana e este contágio me fez lembrar de nossa medicina.

Em medicina, há fenômenos parecidos com o axé, que distanciam a prática clínica das evidências científicas. São idéias massificantes, que ofuscam a verdade científica, atendendo a interesses específicos. Interesses de diversas ordens.

A começar pelo interesse da indústria farmacêutica. Somos massificados pelos argumentos a favor de drogas baseados apenas em desfechos substitutos, argumentos que muitas vezes ocorrem em detrimentos de drogas com comprovação de eficácia em desfechos clínicos. Marcou o ano 2011 o massificante lobby a favor das drogas anorexígenas, inúteis (perda de 3 Kg em média, de acordo com ensaios clínicos randomizados) e prejudiciais (infarto, depressão). Ponto para a ANVISA, que restringiu e/ou proibiu varias destas drogas, a despeito do protesto (sem argumentos científicos, apenas argumentos emocionais – todos) de alguns obesos e de alguns médicos de obesos. Somos massificados pela indústria farmacêutica, que nos presenteiam com viagens e resorts sob a justificativa de eventos científicos. 

Há também o interesse de aparentar ser um médico resolutivo, adotando a “mentalidade do médico ativo”. Isso nos faz optar por condutas extravagantes, de alto custo, sem benefício e às vezes maléficas. Angioplastia é um tratamento revolucionário, admirável e benéfico quando bem indicado. Porém este tratamento é a toda hora banalizado por indicações estapafúrdias, assim como a África foi banalizada pela homenagem que Claudinha Leite lhe prestou neste que é o melhor carnaval do mundo.

Estes fenômenos dificultam a evolução do pensamento médico na direção do paradigma baseado em evidências, da mesma forma que o axé dificulta o progresso cultural e social da Bahia.

Plantão criou este Mito para nos lembrar de como podemos nos libertar da condição de escuridão que nos aprisiona através da luz da verdade. A luz da verdade, contra os interesses escusos que aprisionam o pensamento médico, são as evidências científicas bem analisadas e aplicadas.

Vejo um grande valor no axé. Lembrar-nos que somos a toda hora tentados por pensamentos massificantes, sem embasamento cultural ou científico. Mas se por acaso tiverem me visto algum dia perdido na Avenida, já me justifico. Não sou de ferro, também tenho direito de dançar de vez em quando na Caverna de Platão.  

sábado, 21 de janeiro de 2012

Dabigatran Causa Infarto? - Meta-análise de Antônio Alberto Lopes



Na recente postagem Dabigatran Causa Infarto?, sugerimos que essa idéia representava apenas uma ilusão meta-analítica:

Temos um estudo (RELY) de alta influência no resultado da meta-análise sugerindo aumento de risco, somado a um conjunto de estudos pequenos que não mostram associação. Qual o resultado final da meta-análise: prevalecerá o resultado de maior influência, a despeito dos outros estudos sugerirem ausência de malefício. 

Essa meta-análise não confirma o resultado no RELY, e sim praticamente copia o resultado do RELY. Os outros estudos não estão de acordo como RELY, simplesmente não conseguem anular seu resultado. Desta forma, é criada uma ilusão meta-analítica baseada apenas no RELY. 

Baseado nesta idéia, Prof. Antônio Alberto Lopes realizou uma meta-análise excluindo o estudo RELY. O resultado de sua análise está representado pelo texto abaixo e confirma nosso raciocínio. Vejam seu texto e o gráfico da meta-análise:


Prezado Luis,

Achei os dados interessantes e resolvi fazer uma reanálise dos dados com e sem os dados do RELY. Os resultados estão em anexo. A meta-análise do artigo foi de odds ratio mas como o risco do evento é pequeno a meta-análise de odds ratios e de riscos relativos mostram resultados muito semelhantes. Como você comentou os resultados mostrados no sumário da odds ratios (1,33 no artigo e 1,32 na re-análise) do evento coronariano agudo são em grande parte devido aos resultados do RELY, devendo ser observado que evento coronariano agudo não foi o evento primário. Na meta-análise sem o RELY a odds ratio e o risco relativo (1,12) ficam bem mais próximos da hipótese nula. O número necessário para lesar (NNH) no presente caso deve ser interpretado com cautela pois é o que se observa ao se comparar com pacientes não tratados usando outro anticoagulante. É errado, portanto, interpretar que dabigatran aumenta risco de eventos coronarianos agudos. Na meta-análise de diferença de risco incluindo todos os estudo o NNH foi de aproximadamente 667 (1/0,0015). Grosseiramente poderíamos dizer que ao tratar 667 pacientes com dabigatran em lugar do outro anticoagulante ocorre 1 desfecho adicional, no caso evento coronariano agudo. O NNH foi estimado em 2000 (1/0,005) ao se excluir o RELY da análise. Estes dados sugerem que a pequena diferença no isco de eventos coronarianos entre os grupos não permite concluir que o benefício de dabigatran é menor do que do anticoagulante usado para comparação. Outros eventos clínicos devem ser levados em consideração e o valor que é conferido  (pelo paciente e médico) para evento. 

Obrigado por trazer este trabalho para o meu conhecimento e pela sua análise crítica.

Abraço
Antonio Alberto


O conteúdo desta postagem foi aceito como Letter to the Editor, a ser em breve publicada nos Archives of Internal Medicine.

quinta-feira, 19 de janeiro de 2012

Eficácia versus Efetividade


Essas são duas palavras usadas como sinônimos na linguagem coloquial, porém de significado científico diferente. Eficácia é uma propriedade intrínseca de uma conduta médica. Efetividade é o resultado da interação do tratamento com o ambiente em que ele está sendo aplicado.


Imaginem um excelente jogador de futebol, Ronaldinho Gaúcho nos tempos áureos. Um gênio, recebeu o titulo de melhor jogador do mundo. Porém os entendidos afirmam que ele não brilhava da mesma forma na seleção brasileira. Ronaldinho era um jogador muito eficaz, porém na seleção brasileira era menos efetivo do que no Barcelona. Talvez devido à forma como ele era usado na seleção ou ao ambiente de glamour que o fazia perder o foco.

Agora imaginem uma droga. Em primeiro lugar, precisamos saber da sua eficácia e segurança. O melhor nível de evidência para responder esta pergunta são ensaios clínicos randomizados, que tenham eventos clínicos como desfecho. Uma vez isto demonstrado por ensaios clínicos de qualidade metodológica satisfatória, apenas outro ensaio clínico pode refutar esta informação.

Uma droga com clara demonstração de eficácia e segurança pode então ser liberada para utilização clínica. Aí entram os estudos de efetividade, que fazem parte de uma linha de pesquisa denominada outcomes research. Uma vez entrando na prática clínica, a droga deve ter seu efeito no mundo real monitorado por este tipo de estudo.

E nem sempre a eficácia se traduz em efetividade. Mas não por culpa da droga, mas sim por culpa do sistema de utilização ou por culpa do médico.

Por exemplo, na década de 90, o estudo RALES demonstrou eficácia e segurança da espironolactona em pacientes com insuficiência cardíaca grave (redução de mortalidade). Cinco anos depois foi publicado no New England Journal of Medicine o estudo Rates of Hyperkalemia after Publication of the Randomized Aldactone Evaluation Study. Este foi um trabalho observacional que mostrou aumento dos casos de morte por hiperpotassemia após a publicação do RALES (figura acima).

Maior incidência de hiperpotassemia também foi observada com o uso de espironolactona para ICC em nosso meio, de acordo com publicação de Constança Cruz e Carlos Marcílio.

Por que? Será que o ensaio clínico RALES estava errado e a droga é deletéria? Não, o fato ocorreu porque os médicos utilizaram a droga de forma indiscriminada, em pacientes com disfunção renal, sem a monitorização adequada. Estes são estudos de efetividade, que não vão de encontro aos achados do RALES, pelo contrário, ratificam que o esquema utilizado no RALES deve ser obedecido estritamente. Percebam assim que estudos de efetividade avaliam mais o médico ou o sistema do que a droga.

Por isso que afirmamos acima que o resultado de um ensaio clínico só pode ser refutado por outro ensaio clínico. Isto porquê estudos de efetividade não avaliam o valor intrínseco do tratamento.

Outro bom exemplo é angioplastia primária versus trombólise no infarto com supra. Angioplastia é um pouco mais eficaz do que a trombólise de acordo com ensaios clínicos randomizados. Porém se o tempo porta-balão (tempo para se iniciar a trombólise) for mais prolongado do que o tempo dos ensaios clínicos (90 minutos), esta superioridade da angioplastia se perde. E é isto que acontece em boa parte dos hospitais. O tempo para se iniciar a angioplastia é prolongado, e na verdade não se sabe se aquela angioplastia fora do tempo ideal não ocorre em detrimento de um tratamento mais efetivo, que seria trombólise em tempo hábil. É uma falha do sistema fazendo que um tratamento intrinsecamente mais eficaz, se torne talvez menos efetivo.

Trazendo estas definições para uma questão bem contemporânea, ultimamente o FDA vem alertando sobre relatos de sangramentos graves com o dabigatran no mundo real, aparentemente mais do que o número de relatos com warfarina. Estranho, pois no ensaio clínico randomizado RELY, seu perfil de segurança foi igual à warfarina e a eficácia um pouquinho superior. O RELY falhou em detectar o verdadeiro risco da droga? Não, o RELY está correto. Estes relatos, os quais no futuro poderão vir na forma de estudos observacionais melhor sistematizados, servem de importante alerta de que no mundo real pode estar havendo um uso inadequado ou indiscriminado da droga.

De fato, o maior risco do dabigatran é a banalização da indicação de anticoagulação. Considerando a complexidade que é anticoagular um paciente com warfarina, o médico antes pensava duas vezes para introduzir o tratamento. Agora com a facilidade do dabigatran, pessoas de alto risco de sangramento podem estar recebendo anticoagulação, que antes não recebiam com warfarina. Estes relatos nos lembram que a indicação de anticoagulação com dabigatran é a mesma da warfarina, os mesmos critérios de ponderação risco-benefício devem ser  usados e não devemos ser mais liberais da indicação só porque agora temos dabigatran. Além disso, à semelhança do caso da espironolactona, pacientes com disfunção renal (CC < 30 ml/Kg/min) não devem usar dabigatran.

Para garantirmos que uma terapia eficaz seja também efetiva, devemos analisar com cuidados que tipo de paciente foi testado no ensaio clínico e como a terapia foi instituída. Principalmente nos momentos de experiência inicial com novas terapias, devemos ser rígidos e utilizar os mesmos critérios na prática clínica. Se fizermos isso, a eficácia provavelmente terá seu correspondente de efetividade.

Em conclusão, estudos de eficácia e segurança falam de coisas diferentes, seus resultados se complementam e não entram em conflito. Devemos defender o tipo de evidência certa (ensaios clínicos ou outcomes research) para a pergunta certa (eficácia ou efetividade, respectivamente).

OBS: Depois falaremos de uma outra palavrinha parecida, porém de significado diferente: eficiência.

domingo, 15 de janeiro de 2012

Dabigratran Causa Infarto - Verdade ou Ilusão Meta-analítica?



Nesta semana que passou foi publicada nos Archives of Internal Medicine a meta-análise intitulada Dabigatran Association With Higher Risk of Acute Coronary Events. O assunto teve grande repercussão nos sites de cardiologia e mereceu um editorial da revista. 

Quando se fala de uma informação proveniente de meta-análise, normalmente se interpreta como um nível de evidência definitivo, quase como a voz de Deus. Porém meta-análises também devem passar pelo crivo da análise crítica metodológica. 

Antes de iniciar esta análise, vamos primeiro fazer uma pequena revisão história sobre o dabigatran, voltada para os não cardiologistas leitores deste Blog.

Um dos maiores sonhos do cardiologista tem sido anticoagular cronicamente um paciente com uma droga de ação estável e previsível, sem necessitar de controle laboratorial (RNI). Parando um pouco para refletir, percebemos que quase todas as drogas funcionam assim, a ação é tão previsível que não precisamos medir laboratorialmente seu resultado. Os anticoagulantes, por outro lado, sofrem interferências biológicas e de fatores ambientais, resultando em uma ação instável. Portanto sua farmacologia precisa ser monitorada constantemente.

Assim sempre funcionaram os dois mais tradicionais anticoagulantes, heparina não fracionada (uso hospitalar) e a warfarina (uso ambulatorial). Na década de 90 foram descobertas as heparinas de baixo peso molecular, cuja administração poderia ocorrer de forma subcutânea e não se fazia necessário monitoramento laboratorial, pois estas pouco se ligavam a proteínas plasmáticas, o que fazia de sua ação estável e previsível. Ensaios clínicos randomizados demonstraram que as heparinas de baixo peso molecular são não inferiores à heparina não fracionada em diversas patologias (em alguns casos até superiores), disseminando o uso destas drogas em detrimento da heparina não fracionada. Agora foi a vez do surgimento de uma alternativa prática de anticoagulantes orais. Os inibidores diretos da trombina de administração oral foram desenvolvidos da década passada e não necessitam de monitoramento laboratorial. Seria a grande esperança. Primeiro veio o ximelagatran, porém estudos iniciais mostraram que esta droga era muito hepatotóxica. Foi uma decepção. Mas aí inventaram o dabigatran, droga que se mostrou segura do ponto de vista hepático. O ensaio clínico randomizado RELY, publicado em 2009, testou o dabigatran na prevenção de eventos embólicos em pacientes com fibrilação atrial, demonstrando não inferioridade do dabigratan em relação ao warfarina e até mesmo uma pequena superioridade na dose de 150 mg (NNT = 345). Não houve aumento de sangramento com dabigatran em relação à warfarina. Desta forma, ficou demonstrado que tínhamos uma droga de uso muito mais prático do que warfarina, de eficácia e segurança comparáveis. Sonho realizado, pelo menos para a indicação de fibrilação atrial. O problema restante seria o preço da droga, muito alto (em torno de 150 reais por mês), o que deve perdurar nos próximos anos.  No entanto, agora estão dizendo que o sonho de anticoagular os pacientes sem precisar medir o TP causa infarto do miocárdio. Estranho, um anticoagulante causando infarto. Os próprios autores da mata-análise afirmam "We do not know the pharmacologic mechanism that may result in dabigatran increasing the risk of MI or ACS." Mas não saber o mecanismo não significa que a informação não é verdadeira, precisamos analisar sem preconceito contra ou a favor. 


Como surgiu esse história? Isso é uma afirmação baseada em evidências com características de veracidade?


O problema é que no estudo RELY a freqüência de infarto do miocárdio foi um pouco maior no grupo dabigatran quando comparado ao grupo warfarina. Isso levantou uma suspeita. Agora vem uma meta-análise que mostra o mesmo resultado. Ora, primeiro um estudo levanta uma suspeita, depois uma meta-análise de vários estudos mostra o mesmo resultado. A impressão que fica é de confirmação na suspeita. Só que isso pode ser verdade ou simplesmente ser uma mera ilusão meta-analítica


Vamos analisar. O gráfico acima é o forrest plot da meta-análise. O pequeno diamante preto na parte inferior do gráfico representa o efeito resultante da combinação dos diversos estudos, o qual está do lado direito da linha da nulidade, ou seja, odds ratio maior do que 1, indicando aumento da chance de infarto com a droga. Agora observem o resultado de cada estudo individualmente. A meta-análise foi feita de 7 estudos, sendo o maior deles o RELY. Enquanto só o RELY possui 18.000 pacientes, o tamanho dos outros 6 estudos varia de apenas 500 a 3500 pacientes. O tamanho amostral do RELY é maior do que a soma das amostras de todos os outros seis estudos. Neste momento entra um conceito importante de meta-análises, o effect size. Este efeito diz que a contribuição de um estudo na análise dos dados deve ser proporcional ao seu tamanho amostral (à sua precisão), naturalmente. Isso quer dizer que o impacto do RELY na metaanálise é maior do que o impacto de todos os outros estudos somados.

Agora observem o resultado de cada estudo. Como já sabemos, o RELY mostra aumento do risco de infarto com dabigatran. Por outro lado, a tendência nítida do conjunto dos 6 estudos pequenos é a ausência de efeito do dabigatran no infarto.  Tanto pela estimativa pontual (4 estudos com o pontinho em cima da linha da nulidade), como pela posição dos intervalos de confiança (dois estudos com o ponto do lado direito, mas o intervalo de confiança invadindo demais o lado esquerdo do gráfico), o conjunto dos estudos pequenos sugere ausência de associação entre infarto e dabigatran.

Agora vejamos, temos um estudo (RELY) de alta influência no resultado da meta-análise sugerindo aumento de risco, somado a um conjunto de estudos pequenos que não mostram associação. Qual o resultado final da meta-análise: prevalecerá o resultado de maior influência, a despeito dos outros estudos sugerirem ausência de malefício. 


Essa meta-análise não confirma o resultado no RELY, e sim praticamente copia o resultado do RELY. Os outros estudos não estão de acordo como RELY, simplesmente não conseguem anular seu resultado. Desta forma, é criada uma ilusão meta-analítica baseada apenas no RELY.


Meta-análises avaliam também a heterogeneidade entre os resultados dos estudos, no intuito de testar se existe discordância entre eles. Um teste estatístico é realizado, cujo o valor de P < 0.05 indica heterogeneidade, e se não for estatisticamente significante indica homogeneidade. Esta meta-análise sugeriu homogeneidade entre os estudos. Baseado nisso, alguém poderia interpretar que os estudos pequenos estão dizendo a mesma coisa que o RELY. Engano, na verdade os 6 estudos pequenos são tão semelhantes entre si ao dizer que não há associação, que esta semelhança prevaleceu sobre a heterogeneidade de apenas um estudo, o RELY. Ou seja, dentre os 7 estudos, 6 se assemelham (na nulidade), por isso que o teste mostrou homogeneidade. 

Mas o RELY não é um estudo grande, randomizado, de boa qualidade metodológica? As conclusões do RELY não devem ser vistas como verdadeiras? Sim, em relação ao seu desfecho primário. Quando falamos de desfechos secundários, como já comentado neste Blog, há uma boa probabilidade do erro tipo I. Ou seja, encontrarmos associação falsas, decorrentes do problemas da múltiplas comparações: quando múltiplos desfechos (secundários) são testados simultaneamente, algum pode aparecer significativo por acaso. Inclusive alguns autores sugerem que o valor de P a ser considerado estatisticamente significante para múltiplas análises secundárias não seja 0.05, seja 0.05 / número de análises = 0.05 / 6 (neste estudo) = 0.008 (correção de Bonferroni). Se fizéssemos isso, veríamos que o limítrofe 0.048 descrito pelo RELY na verdade não representa significância estatística. Pode ser que tudo não passe do bom e velho acaso.


Análises secundários como a do infarto no RELY devem ser vistas como geradoras de hipóteses, a serem descartadas ou confirmadas por outros estudos. O que foi feito aqui foi confirmar a hipótese gerada pelo RELY, analisando o próprio RELY. O mesmo estudo que gerou uma hipótese um tanto implausível é incluído na meta-análise que vai responder a questão, e além disso é o maior de todos os estudos. É o mesmo que utilizar o conhecimento da probabilidade pré-teste de doença para laudar a imagem de um exame diagnóstico. Claro que a interpretação da imagem do teste vai ser influenciada pelo que se sabe previamente. Outra analogia: quando se cria um escore prognóstico a partir de uma amostra, este deve ser validado em outra amostra, diferente da que foi utilizada para a derivação do escore. Para evitar o erro da repetição. Considerando que a hipótese foi criada a partir de um achado inesperado do RELY, seria necessário ter excluído este estudo da meta-análise em questão. Aí sim seria uma validação da hipótese gerada pelo RELY.


Além destas análises estatísticas, há outras justificativas para este resultado. A fim de demonstrar que algo provoca infarto, este algo deve ser comparado ao nada (placebo) e não a uma coisa que previne infarto. Sabemos que warfarina previne infarto tão bem quando aspirina (AAS é preferido pois é mais prático e causa menos sangramento). Então pode ser que para prevenir infarto, warfarina seja melhor do que dabigatran, por isso a incidência de infarto com dabigratran foi maior. Mas isso não quer dizer que dabigatran é pior que placebo, ou seja, que causa infarto. 

Mas vamos considerar que tudo que eu falei está errado e que dabigatran de fato provoca infarto. Aí vem a segunda questão: qual a magnitude do problema? O aumento absoluto do risco de infarto com dabigatran foi de 0.21%. Calculando o NNH (number needed to harm) para infarto, 100 / 0.21 = 476 pacientes. A cada 476 pacientes tratados com dabigatran, um apresenta infarto, sendo que no estudo boa partes desses infartos foram silenciosos, sem nenhuma repercussão clínica. Ou seja, o problema é irrelevante, comparado ao ganho de praticidade da anticoagulação com dabigatran.

Portanto, esse negócio de dabigatran causando infarto é irrelevante e tem alta probabilidade de ser devido ao acaso. Lembram que no início diziam que estatina causava câncer?

Com isso tudo isso, não quero dizer que o dabigatran deve ser adotado de forma indiscriminada, sem o cuidado necessário. Na verdade, acho que devemos ser muito cautelosos. Primeiro, haverá uma tendência (freada pelo preço, é verdade) de maior indicação de anticoagulação, devido à maior praticidade. Hoje em dia, o médico pensa duas vezes (ou 3, 4, 5 vezes) antes de indicar anticoagulação crônica, pela complexidade do tratamento. Com dabigatran, a facilidade pode predispor ao uso indiscriminado. Coincidentemente ou não, paralelo ao advento do dabigatran, inventaram o escore CHADSVASC, cuja utilização indica anticoagulação para 92% dos pacientes com fibrilação atrial. Temos que ter cuidado, dabigatran causa sangramento quase tão frequente como a warfarina. Segundo, temos evidências de eficácia apenas em fibrilação atrial. Já vi gente usando para trombo em VE, embolia pulmonar. Ainda não temos dados para estas indicações. Terceiro, a ausência do controle laboratorial pode fazer falta em algumas situações específicas. Quarto, temos que iniciar o uso devagar, para aprendermos a usar um anticoagulante cuja forma de utilização representa uma mudança de paradigma, algo que não estamos acostumados. Esta é um droga cuja efetividade (mundo real) pode ser diferente da eficácia demonstrada nos ensaios clínicos, por erro ou negligência na sua utilização. Portanto, temos que ser cautelosos e monitorar o uso da droga no mundo real (estudos de efetividade).

Usualmente fazemos postagens críticas em relação a drogas, por motivos didáticos e porque criticar é mais divertido do que apoiar. Mas deve ter dado para perceber que neste artigo fiz a defesa de uma droga recentemente lançada pela indústria. É importante salientar que não tenho vínculo algum com o fabricante desta ou de nenhuma droga. Nosso vínculo é com a verdade científica, devemos ser imparciais, seja contra ou a favor da indústria. Devemos ser parciais a favor do paciente. Dabigatran, apixaban, rivaroxaban representam um avanço médico, que não podemos resistir com base em evidências questionáveis, em detrimento de boas evidências de eficácia. Aliás, lembrando a velha teoria da conspiração, será que o apixaban ou rivaroxaban estão por trás destas críticas ao dabigatran? Estamos no mundo capitalista.


A forma mais fácil de convencer alguém é dizer: uma meta-análise recentemente publicada comprova que ... A mensagem principal desta discussão é a de que meta-análises não garantem bom nível de evidência simplesmente porque são meta-análises. Sabemos que nem sempre é assim.


* O conteúdo desta postagem foi aceito como Letter to the Editor, a ser em breve publicada nos Archives of Internal Medicine.

sábado, 24 de dezembro de 2011

Papai Noel Baseado em Evidências



Papai Noel existe? Essa é uma pergunta comum nesta época do ano. Considerando que este Blog se propõe a discutir a veracidade dos fatos sob o paradigma científico, precisamos abordar esta importante questão, a qual impactará na vida de milhares de famílias nas próximas horas.

Partimos inicialmente do Princípio da Hipótese Nula (Princípio 2), o qual afirma que todo fenômeno é inexistente até que se prove o contrário (prova  científica). Esta é a justificativa para eventualmente nos questionarmos sobre a existência de Papai Noel. Ou seja, duvidar de vez em quando, é natural, humano e faz parte do pensamento científico. Mas não podemos parar por aqui, temos que evoluir nosso pensamento.

Após considerar o Princípio 2, devemos evoluir e nos perguntar se a presente questão se adéqua ao Princípio 3, o da Plausibilidade Extrema. Este princípio se aplica a situações de exceção, onde o fenômeno é tão plausível, que dispensamos comprovação científica. Por exemplo, na prática clínica ter uma boa relação médico-paciente, saber ouvir e conversar com nosso cliente, representa uma habilidade que deve ser utilizada, mesmo sem um ensaio clínico randomizado demonstrando que a boa relação é benéfica. É extremamente plausível que um médico atencioso faz bem ao seu paciente e por isso aplicamos (ou devemos aplicar) essa abordagem mesmo na ausência de evidência científica.

A existência de Papai Noel é extremamente plausível. Isto porque esta existência só se materializa se formos capazes de acreditar. Se acreditarmos, Papai Noel existirá, se não acreditarmos, ele desaparecerá (ou não aparecerá). Desta forma, só nos resta aplicar o Princípio 3, pois acreditando que Papai Noel é extremamente plausível, este se tornará extremamente verdadeiro. É um perfeito exemplo do Princípio da Plausibilidade Extrema, que deve ser aplicado apenas a situações especiais, onde dispensamos o Princípio 2 (da necessidade de demonstração) e ficamos como a verdade, simplesmente porque aquela verdade é indubitável.

Há também o argumento da plausibilidade extrema do benefício em se acreditar em Papai Noel. Óbvio que esta crença faz bem para a alma, portanto devemos nutri-la. E não faz bem apenas para crianças, para adultos também.  Nós todos devemos acreditar em Papai Noel.

É tão plausível que ao imaginarmos um ensaio clínico randomizado para provar esta questão, percebemos que este seria inútil. Imaginem que vamos randomizar famílias, metade para acreditar em Papai Noel e metade para não acreditar. É óbvio que nas famílias que acreditarem, as árvores acordarão repletas de presentes, enquanto nas famílias randomizadas para não acreditar, as árvores estarão vazias, se é que nestas casas haveria árvores de natal. É tão óbvio que seria uma perda de tempo fazer esse estudo.

Poderíamos então fazer um estudo observacional. Observem como o Natal de famílias crentes é mais mágico do que o Natal de famílias descrentes.

Percebam que todo esse pensamento é baseado em uma seqüência lógica que respeita dos princípios da medicina baseada em evidências. Mas para aqueles que ainda permanecem com o Princípio da Hipótese Nula a despeito de meus argumentos, vamos fazer um teste: amanhã, ao acordar, se houver presentes na árvore, estará provado que Papai Noel passou em sua casa.

Na verdade, todo mundo acredita em Papai Noel, mesmo aqueles que fingem não acreditar.

Feliz Natal a todos.

* Esta é a postagem mais embasada em evidência de todas já escritas neste Blog.