sábado, 6 de setembro de 2014

PARADIGM-HF: o entusiasmo é proporcional à evidência?



No início desta semana, foi apresentado no Congresso Europeu de Cardiologia e simultaneamente publicado no New England Journal of Medicine o ensaio clínico PARADIGM-HF. A comunidade cardiológica tem considerado esta a mais importante notícia das últimas duas décadas quando se trata de insuficiência cardíaca. O entusiasmo a respeito deste estudo se deve ao fato de que, pela primeira vez em 20 anos, um tratamento mostra redução adicional de mortalidade em pacientes com insuficiência cardíaca. 

O PARADIGM-HF testa uma droga denominada LCZ696. Este que se parece nome de uma engenhosa molécula, na verdade é a combinação do velho valsartan com uma nova droga denominada sacubritil. Este sacubritil inibe a ação do neprilysin. O neprilysin age degradando boas moléculas, como peptídeo natriurético e bradicinina. Quando inibimos o neprilysin, aumentamos a concentração dessas boas moléculas, que têm ação vasodilatadora e natriurética. 

Antes do nos definirmos entusiasmados com o LCZ696, precisamos analisar o trabalho e determinar o nível de evidência em que este se encaixa. Determinado o nível de evidência, discutiremos a força de recomendação deste tratamento. O entusiasmo deve ser diretamente proporcional ao nível de evidência e força de recomendação. 

Começando pelo nível de evidência, este depende de três fatores: veracidade, relevância e aplicabilidade da informação.

Adianto que o grande diferencial desta postagem estará na análise de aplicabilidade. Mas antes de chegar lá, temos que passar por veracidade e relevância. 

VERACIDADE

Como sabermos, dois fatores podem interferir na veracidade da evidência: erros sistemáticos (vies) e de erros aleatórios (acaso). 

Em análise sistematizada, percebemos que o estudo tem baixo risco de viés: randomizado (evita viés de confusão), duplo-cego (evita viés de desempenho e viés de aferição do desfecho), análise por intenção de tratar (preserva a homogeneidade da randomização), pequena perda de follow-up. 

Quanto ao erro aleatório, este é um estudo com adequado poder estatístico e sem situações que reduziriam confiabilidade do valor de P: as conclusões positivas são baseadas em desfecho primário e em toda a amostra do estudo (em vez de desfechos secundário ou análise de subgrupo). 

Resta uma preocupação, que poderia reduzir a precisão dos achados: este foi um estudo truncado, o que predispõe a superestimava do benefício ou simulação de um falso efeito da droga. Salientamos, no entanto, que neste caso o truncamento não foi crítico. Já mencionamos neste Blog que quando mais de 500 desfechos são alcançados pelo estudo, o truncamento não implica em superestimativa do efeito do tratamento. Quando o PARADIGM-HF foi interrompido, todos os pacientes já tinham sido incluídos, apenas o follow-up teve uma redução de tempo. Assim, o estudo alcançou 2.031 desfechos, o que preserva sua veracidade a deleito do truncamento.

Sendo assim, este estudo tem validade interna, ou seja, o que observamos aqui não é resultado de ilusões causadas por viés ou acaso. É verdadeiro.

RELEVÂNCIA (IMPACTO)

Agora o próximo passo é avaliar o quanto este (verdadeiro) benefício é relevante. Quando ao tipo de desfecho, este foi o combinado de morte cardiovascular e internamento, ou seja, os dois mais importantes desfechos em insuficiência cardíaca. Na próxima postagem, usarei o PARADIGM-HF como exercício para analisar detalhadamente a medida pontual de impacto e sua precisão. Mas nesse momento quero ser mais prático e vou direto ao NNT: 21 pacientes precisam ser tratados para prevenir um desfecho primário (morte ou internamento) e 30 pacientes precisam ser tratados para prevenir uma morte. O que se observa é um tratamento de bom impacto na redução dos desfechos. 

Assim, o estudo é intrinsecamente verdadeiro e de resultado relevante. Vamos então pensar na aplicabilidade.


APLICABILIDADE

Agora, de posse da informação científica, precisamos olhar para nossa realidade e avaliar o quanto aplicável é a conclusão do trabalho. É a transição da validade interna do estudo (veracidade) para a validade externa de suas conclusões. 

Neste tópico, apresento o importante conceito de evidência científica indireta. Uma evidência pode ser indireta em relação a dois principais aspectos: tipo de paciente e forma de aplicar o tratamento. 

O princípio da complacência determina que evidências verdadeiras podem ser extrapoladas para populações ou formas de aplicação diferentes, desde que não haja uma grande razão para se acreditar que a extrapolação não dará certo. Por exemplo, quando usamos inibidor da ECA e beta-bloqueador na criança com insuficiência cardíaca, estamos extrapolando o conhecimento de grandes ensaios clínicos realizados em adultos. Fazemos isso pois não há uma grande razão para acreditar que o resultado será diferente. 

Observem que quando usamos o princípio da complacência, estamos adotando uma evidência indireta, pois esta não foi testada exatamente em quem faremos ou como faremos. Este princípio se baseia no fato de que interação (modificação de efeito de acordo com população ou circunstância) é um fenômeno raro.  O mundo funciona assim. 

No entanto, precisamos salientar que apesar de podermos extrapolar em certas situações, devemos reconhecer que quanto mais indireto é o trabalho em relação à nossa realidade, menor o nível de evidência. Ou seja, indirecteness é um dos critérios na definição do nível de evidência. Na medida em que trabalho vai se tornando mais indireto, mais se distancia da garantia de reprodutibilidade e o nível de evidência vai caindo. 

Por exemplo, parece adequado aplicar beta-bloqueador em um idoso de 80 anos com insuficiência cardíaca, mesmo que os trabalhos clássicos tenham 65 anos como média de idade. Porém, na medida em que a idade vai aumentando, mais indireta fica a evidência e mais dúvida nós temos da aplicabilidade. Será que o paciente de 100 anos com insuficiência cardíaca deve usar beta-bloqueador?

Vamos agora avaliar o quanto a evidência do PARADIGM-HF é indireta em relação à nossa realidade. Como falei, duas são as formas de um dado ser indireto: tipo de paciente e forma de aplicar o tratamento. 

Primeiro, vejamos tipo de paciente. Este é o primeiro grande teste do sacubritil, não só quanto à eficácia, mas também quanto à segurança e tolerabilidade. No entanto, este estudo tem uma peculiaridade, que é uma fase de run-in, ou seja, antes de serem randomizados, os dois tratamentos foram testados e só entraram no estudo os pacientes que toleraram o tratamento. Portanto só vemos aqui o resultado de pacientes selecionados para tolerarem a droga, o que reduz a validade externa do estudo quanto à segurança. E também quanto à eficácia, pois no princípio de intenção de tratar, má tolerância reduz eficácia. Ou seja, não estamos vendo o resultado testado em uma amostra que de fato representa a população. É uma amostra selecionada. Interessante notar que essa fase de run-in não é habitual em ensaios clínicos de fase III.

Desta forma, quando formos aplicar este benefício em nossos pacientes, teremos dúvida se o resultado seria o mesmo. Será que nosso próximo paciente não corresponde a um daqueles que nem entraram no estudo, pois não se dariam bem com a droga? 

Observem que isso não compromete a veracidade do estudo quanto ao tipo de paciente estudado  (baixo risco de viés), mas a superseleção pode ter distanciado o paciente do estudo do nosso paciente. Esta fase de run-in tornou a evidência indireta quanto ao tipo de paciente.

Quando observamos a tabela de características clínicas, vemos que são pacientes predominantemente em classe funcional II, com pressão sistólica de média de 120 mmHg. Ou seja, são pacientes compensados, estáveis, sem tendência a hipotensão, capazes de suportar os 320 mg de valsartan. Mas uma vez, é um amostra selecionada para que a terapia não gere problemas. Temos que ficar cientes disso. 

Mas é no segundo modo de evidência indireta que está o maior problema deste estudo: aplicação da terapia. Quando surge uma nova intervenção candidata a incrementar um tratamento padrão, esta nova terapia deve ser comparada a um grupo controle (sem a terapia), sendo que o grupo intervenção e controle devem fazer o mesmo tratamento padrão otimizado. Ou seja, o correto é comparar intervenção + tratamento padrão ideal versus tratamento padrão ideal. 

O que fez o PARADIGM-HF? Estranhamente, o tratamento padrão do grupo sacubritil foi melhor do que o tratamento padrão do grupo controle. Ou seja, na amostra o estudo, o grupo sacubritil objetivou um bloqueio do sistema angiotensina-aldosterona em dose máxima (valsartan 320 mg/dia), comparado ao grupo controle, que utilizou metade da dose máxima de enalapril (20 mg/dia, de forma fixa). 

Os autores mencionaram que usaram valsartan no grupo sacubritil (ao invés de IECA), pois a associação de inibidores do neprylisin com IECA causaria muito angioedema. Deram duas referência que suportariam esta afirmação: os estudos OCTAVE e OVERTURE, que testaram omapatrilato, um desses inibidores. Tive o cuidado de olhar estes estudos e nenhum deles testou associação do omapatrilato com IECA, apenas compararam os dois. E por falar nisso, a frequência de edema foi inferior a 5%. Portanto, me parece que inventaram uma justificativa para usar tratamento padrão diferente nos dois grupos. Mas mesmo que usassem drogas diferentes, que pelo menos usassem doses equivalentes. Porque usar dose máxima de valsartan do grupo sacubritil versus metade da dose de enalapril no grupo controle? A coisa fica tão confusa que pode passar desapercebida. Se pensarmos com calma, usaram drogas diferentes, pois assim o uso de doses diferentes ficaria menos evidente. 

Não importa que 20 mg/dia é a dose média de enalapril de estudos prévios (como foi mencionado pelos autores), o que importa é na amostra que está testando um a hipótese em questão, o grupo intervenção foi melhor tratado do que o grupo controle. Isso fica confirmado pela pressão sistólica mais baixa no grupo intervenção. 

Portanto, há duas possibilidades para explicar a redução de mortalidade no grupo do sacubritil: (1) a droga de fato reduz mortalidade; (2) a droga não tem efeito e o que estamos vendo é o benefício de um bloqueio mais efetivo do SRAA. Ficará sempre esta dúvida. 

MECANICISTA versus PRAGMÁTICO

Um estudo pode ser mecanicista ou pragmático. No primeiro caso, deseja-se demonstrar um conceito, por exemplo, sacubritil reduz mortalidade? No segundo caso, não importa o conceito, só precisamos saber o resultado prático: LCZ696 é melhor que enalapril 20 mg/dia?

Em um estudo mecanicista, o que acaba de ser discutido deve ser considerado um viés, ou seja, algo que falseia o resultado. Podemos optar por este caminho e invalidar estes trabalho.

Ou podemos interpretar o estudo como pragmático. Neste caso, esse problema não é um viés, é um problema de aplicabilidade. Um estudo pragmático não está analisando o mecanismo, está apenas testando a hipótese de que o LCZ 696 (sacubritil + Valsartan máximo) é superior a enalapril meia boca. E isso ficou demonstrado neste estudo, com baixo risco de vies.  

Acreditando na veracidade deste pragmatismo, precisamos analisar o quanto a comparação aqui realizada é indireta em relação a nossa realidade. Parece-me pelo menos moderadamente indireta, pois meus pacientes de CF II, PAS = 120 mmHg e boa função renal estão usando dose máxima de IECA e não metade da dose. Sendo assim, eu não tenho certeza de que o tal LCZ será melhor que o IECA de meu paciente. 

E se meu paciente estiver com uma dose mais baixa de enalapril, mas está evoluindo muito bem nos últimos anos, devo trocar pelo valsartan dose máxima + sacubritil? E se este paciente meu for um dos que seriam excluídos na fase de run-in, pois não tolerariam a hipotensão do LCZ696?

De acordo com o princípio da complacência, evidência indireta pode ser aplicada, porém quanto mais indireta, menor o nível de evidência. Sem a análise de aplicabilidade, classificaríamos o nível de evidência deste estudo pragmático como alto. Porém, após considerar o caráter indireto deste trabalho, devemos reduzir o nível de evidência para moderado.

Não temos aqui a evidência de melhor qualidade, o que torna menor sua influência em nossa conduta. A partir deste diagnóstico, discutiremos o nível de recomendação do LCZ696.

NÍVEL DE RECOMENDAÇÃO

Como recomendar um moderado nível de evidência? Neste momento, entra a utilidade do que é proposto pelo critério GRADE: definir a recomendação em forte ou fraca. A recomendação forte é a que deve ser feita em todos os paciente possíveis. Por exemplo, uso de IECA na insuficiência cardíaca. A recomendação fraca é a que deve ser ponderada caso a caso. 

Portanto, baseado no moderado nível de evidência, a recomendação para usar o LCZ696 no lugar de IECA deve ser fraca. Ou seja, devemos ponderar as peculiaridades de nosso paciente, se este é um virgem de tratamento, se é um paciente que está se dando muito bem com o esquema tradicional, além de questão logísticas como custo da nova droga. 

E para quem ficou incomodado com minha fraca recomendação, é só pensar probabilisticamente. O que significa um NNT de 21 para redução de morte? Significa que ao trocar o IECA por LCZ696 nosso paciente tem apenas 5% (1/21) de probabilidade de se beneficiar. Nossos bons tratamentos não são panacéias, portanto antes de entrar com tanto entusiasmo, precisamos ponderar os aspectos aqui discutidos. 

O entusiasmo com o PARADIGM-HF está exagerado.

sexta-feira, 29 de agosto de 2014

Café Científico com Péricles Esteves - Medicina Baseada em FÉvidência


Nas primeiras horas da manhã de hoje, recebi o usual email de Dr. Péricles, me corrigindo de erros que normalmente cometo nos posts. Aproveitando a oportunidade, o provoquei como parte da geração que vivenciou a santificação do beta-bloqueador no cenário do infarto do miocárdio.
Compartilho aqui sua resposta, em seu estilo sempre particular.

LC,

Obrigado por me lembrar que eu sou de outra época. Tinha esquecido. Ou não (Gilberto Gil)!

A capacidade de analisar um estudo naquela época era enviesada. Não se falava em Medicina Baseada em Evidências. Valia mais a revista, o autor e a instituição. Pesou mais o ISIS-1 que o MIAMI ! A Indústria, em paralelo e sem a devida vigilância, divulgava intensamente o que era de seu interesse. E a imensa maioria dos cardiologistas considerava um ato de fé seguir o que seria um novo paradigma. 

Os tempos mudaram, embora a Indústria continue mais ativa ainda!

Minha última informação, antes da aposentadoria, era só indicar betabloqueadores se o IAMCSST fosse sem reperfusão, o COMMIT era a última palavra, e disfunção sistólica presente justificava. 
Permanece assim? Sem reperfusão em tempo hábil, ainda é maioria, mesmo hoje? Era de 50% nos grandes centros e 25% no global. Ou mudou?

Para mim sua visão crítica é irretocável e bastante didática. Envereda até para um entendimento filosófico da ciência médica. Me faz continuar meditando sobre "o que foi, o que é e o que será" a cardiologia (e todo o resto). 

Esqueci de dizer que existe uma nova corrente de médicos ativos, que praticam um meio-termo, a Fé e a Evidência. Adotaram a Medicina Baseada em Fevidências !?!?!

quarta-feira, 27 de agosto de 2014

Beta-Bloqueador no Infarto: um santo sem milagre


Paradigmas médicos mudam com frequência? Embora prevalente, esta é uma ideia equivocada, pois não são os verdadeiros paradigmas que normalmente mudam. O que muda são as ideias criadas sem embasamento em alto nível de evidência. Foi isso que aconteceu com o religioso uso de beta-bloqueador em pacientes infartados. 

Essa discussão está em voga nestas últimas semanas devido à recente publicação de uma revisão sistemática e meta-análise pelo American Journal Medicine, sobre o efeito do uso de beta-bloqueador no infarto do miocárdio com supradesnível do ST. Este artigo questiona o benefício desta classe de drogas nesta circunstância, mostrando que não há redução de mortalidade com o uso de beta-bloqueador na era da reperfusão. Por outro lado, na era pré-reperfusão, uma análise de sensibilidade (subgrupos de artigos) mostra redução de mortalidade.

A ausência de benefício na era reperfusão já estava bem demonstrada desde 2005 pelo gigante (45.000 pacientes) ensaio clínico randomizado COMMITT, que não mostrou qualquer redução do desfecho mortalidade com uso de beta-bloqueador. No entanto, o resultado deste estudo não ficou bem sedimentado, pois uma análise de desfecho secundária confundiu a mensagem negativa daquele trabalho: havia redução de mortalidade por arritmia e aumento de mortalidade por choque cardiogênico.  E mais ou menos assim foi concluído (leiam o resumo do artigo). Daí as pessoas passaram a evitar beta-bloqueador precoce em pacientes com disfunção, porém manter em pacientes sem disfunção. Esse é um bom exemplo do uso de desfechos secundários ou análises de subgrupo (em detrimento da análise principal), no intuito de confundir a mensagem negativa de um trabalho. Não precisávamos dessa meta-análise para interromper o uso do tratamento. 

Percebo que o nome meta-análise funciona como mágica, sensibilizando as pessoas como se fosse a voz de Deus (não é). Por isso que agora (só agora) as pessoas de fato acordaram para esta ausência de benefício na era da reperfusão.

Mas onde acho mais educativo focar nossa discussão é na era pré-reperfusão, pois foi lá que surgiu a ideia de beta-bloqueadores como drogas quase obrigatórias no uso de curto e longo prazo (a vida toda) em pacientes que sofreram infarto com supradesnível do ST (na época denominado infarto com Q). Foi naquela época que, por algum motivo, ocorreu o fenômeno de sedimentação intensa de uma ideia. E quando este fenômeno ocorre, a ideia se torna uma verdade absoluta e ninguém se pergunta de onde ela veio exatamente. A frase “está demonstrada redução de mortalidade” vira um mantra inquestionável. 

Isso que ocorreu com o uso de beta-bloqueador, a partir da publicação do grande ensaio clínico ISIS-1 em 1986, ano em que eu ainda estudava para o vestibular de medicina. Desde então, fui treinado ouvindo o mantra, a ponto de nunca ter me dado ao trabalho de ler o ISIS-1. Mas dessa vez tive a curiosidade de fazer o que deveria ter feito no final dos anos 80, quando já cursava medicina.

Nos primeiros minutos de leitura do ISIS-1, fiquei pasmo. Percebi que aquele foi um estudo negativo, e não positivo!! Exatamente, o mantra da diferença de mortalidade não alcançou significância estatística, não rejeitou a hipótese nula (P = 0.07). E isto não tem grande potencial de ter sido erro tipo II (não detectar uma diferença verdadeira por falta de poder estatístico), pois aquele foi um estudo muito grande, de 16.000 pacientes, suficiente para encontrar reduções de risco não muito grandes.

E a surpresa não para por aí. O ISIS-1 é um ensaio clínico aberto, não há placebo, fazendo com que todos, pacientes e equipe médica estivessem cientes do grupo de alocação. O autor do ISIS-1 se defende contra um potencial viés de aferição decorrente do caráter aberto, argumentando que morte é um desfecho muito objetivo. Pouco provável também que efeito placebo reduza mortalidade, de fato. Porém o autor não menciona o potencial viés de desempenho que pode ocorrer em estudos abertos, quando o tratamento experimental traz consigo maior atenção ou entusiasmo da equipe médica. Pacientes randomizados para beta-bloqueador podem ter experimentado melhor qualidade assistencial durante a fase aguda do infarto, visto que eram submetidos a um protocolo original (uso venoso, seguido de uso oral), que requeria melhor atenção de uma entusiasmada equipe médica; diferente dos pacientes do outro grupo, que eram randomizados para fazer o usual e pouco se diferenciavam de um paciente qualquer. 

Esse tipo de viés tem sido relatado neste blog em exemplos de estudos que geraram falsas ideias, tal como os hipotermia na parada cardíaca e beta-bloqueador no pré-operatório de cirurgia não cardíaca. No caso do beta-bloqueador, autores interessados em não cegar o estudo utilizam o argumento de que o isso seria dificultado pelo efeito bradicardizante da droga. De fato, alguém poderia desconfiar que uma pessoa estivesse usando beta-bloqueador, porém desconfiar é diferente de saber. É a certeza coletiva da participação no grupo experimental que promove o viés de desempenho.

No ISIS-1, dois desfechos morte receberam o mesmo grau de importância, não sendo mencionado qual dos dois foi o desfecho primário. Assim, consideramos que tratam-se de desfechos co-primários: mortalidade vascular nos primeiros 7 dias e mortalidade no follow-up prolongado (média de 20 meses). No primeiro caso, foi observado menor mortalidade no grupo do atenolol, com uma valor de P = 0.04. Porém ao longo do seguimento tardio, essa significância estatística se perdeu, gerando o valor de P = 0.07. Como interpretar isso? A redução de mortalidade hospitalar não se mantém, será que o tratamento apenas adia o óbito? Talvez. Por fim, devemos salientar que quando temos dois desfechos primários, a definição de significância estatística deve ser ajustada para o fenômeno estatístico dos múltiplos testes, o qual faz com duas tentativas (dois desfechos) torna-se mais provável que a sorte (acaso) se faça presente na demonstração de um benefício. Sendo assim, o valor de P deveria ter sofrido o denominado ajuste de Bonferroni, ou seja, multiplicado pelo número de comparações. Ou seja, esse P = 0.04, a rigor deveria ser P = 0.08. 

Um ano antes da publicação do ISIS-1, havia sido publicado no European Heart Journal um estudo suíço de nome MIAMI, o qual randomizou 8.600 pacientes para metoprolol e placebo, em um desenho duplo-cego, placebo controlado. Qual foi o resultado? P = 0.29, ou seja, estudo negativo, beta-bloquedor não reduz mortalidade. Desta forma, entra o viés de desempenho do aberto ISIS-1, como explicação para aquele resultado. 

Às vezes um estudo aberto representa um pesadelo, daquele tipo que somos acordados de um sonho no qual estamos nús no meio de uma multidão. Um estudo aberto é como um estudo nú, sem proteção quanto a este tipo de viés. 

Agora percebam o que aconteceu: em seguida ao estudo de boa qualidade  e negativo (MIAMI), publica-se o ISIS-1, estudo de qualidade inferior, cujo resultado positivo apagou o resultado do primeiro. Uma clara demonstração de que a aceitação de uma evidência é mais influenciada pelo entusiasmo gerado por seu resultado do que pela qualidade do trabalho que gerou a evidência.

Fico a me perguntar onde estavam os pensadores da época? Porque essa é uma terapia com indicação classe I nos guidelines? Por que este é um dos itens de performance measures (qualidade assistencial) do tratamento de infarto?

Na meta-análise do American Journal of Medicine observa-se interação entre os estudos da fase pré-reperfusão (redução de mortalidade com beta-bloqueador) e os estudos da fase reperfusão (ausência de redução de mortalidade). Isto tem sido interpretado como beta-bloqueador sendo benéfico em pacientes não reperfundidos. Esse é um equívoco. Esta meta-análise demonstra claramente que na era pré-reperfusão os estudos eram na sua maioria categorizados em alto risco de viés, o que era menos frequente na era pós-reperfusão. E houve interação entre benefício demonstrado e risco de viés. Ou seja, estudos classificados como alto risco de viés sugeriam benefício, enquanto os estudos de baixo risco de viés eram negativos. 

Isso é exatamente o que foi caracterizado na meta-análise do Lancet sobre o efeito clínico da  homeopatia. Estudos de alto risco de viés foram positivos, enquanto estudos de baixo risco de viés foram negativos. O problema é que as pessoas escolhem os estudos a ser citados com base no interesse que têm pelo resultado e não na qualidade do trabalho. 

Enfim, beta-bloqueador nunca reduziu mortalidade no infarto. A mensagem é simples assim.

Mas e se reduzisse? Se o estudo ISIS-1 fosse duplo-cego e o benefício demonstrado fosse estatisticamente significante? Poderíamos dizer "beta-bloqueador reduz mortalidade no infarto”, mas esta informação não seria suficiente. Precisaríamos saber o quanto de mortalidade é reduzida (impacto). Precisamos calcular o NNT. 

O grupo beta-bloqueador teve 3.9% de mortalidade nos primeiros 7 dias, comparado a 4.6% de mortalidade no grupo controle. Assim, a redução absoluta do risco foi 0.7% (4.6 - 3.9). E ao dividir 100 / 0.7, chegamos a um NNT de 143. Isso mesmo, precisaríamos tratar 143 pacientes com beta-bloqueador para prevenir uma morte. Um benefício que (mesmo falando em morte) deve ser caracterizado como modesto. Vejam nosso post sobre NNT.

Puxa, algo muito duvidoso e de benefício potencial modesto. Por que tanta valorização a esse tratamento ao longo das últimas 4 décadas? Precisamos refletir, tem algo de errado em nossas construções de paradigmas. 

A explicação está na mentalidade do médico ativo, aquele fenômeno mental que nos impulsiona a utilizar terapias diversas, mesmo sem evidências, pois essa impressão de que estamos tratando ativamente o paciente nos traz conforto cognitivo. Aliado a isso, nossa heurística de normalização nos induz a pensar que controlando parâmetros (frequência cardíaca), garantimos benefício. Por fim, nossa mente cartesiana nos faz acreditar em demasia na plausibilidade biológica. Quer convencer alguém de que algo funciona? É só descrever o (teórico) mecanismo de funcionamento. Uma boa explicação do mecanismo convence a maioria das pessoas, pois nosso pensamento intuitivo é mecanicista.

Lembro-me da sensação de semi-deus ao administrar beta-bloqueador venoso em pacientes com infarto e ver aquela frequência cardíaca reduzindo. 

Beta-bloqueadores são drogas especialmente atraentes, pois possuem características que se encaixam perfeitamente nestes erros cognitivos. Nós vemos o controle da frequência cardíaca, ativando nossa heurística de normalização. Segundo, tem um racional teórico bastante lógico, a redução do duplo produto. No entanto, não funcionam para reduzir risco de pacientes cirúrgicos, não funcionam para reduzir mortalidade de infartados e são drogas de segunda linha (benefício menor) no tratamento da hipertensão. Sobra seu valor em pacientes com insuficiência cardíaca sistólica, às vezes até supervalorizado quando percebemos introdução precoce da droga em pacientes ainda descompensados, como se fosse uma pílula mágica, de ação imediata. 


E assim, é derrubado mais um mito que nunca deveria ter sido criado, deixando em seu rastro o provável prejuízo clínico que alguns pacientes podem ter experimentado e o prejuízo científico de termos ficado na escuridão da Caverna de Platão por tanto tempo, sem o interesse em procurar saber de onde veio essa ideia: no ISIS-1.

quarta-feira, 16 de julho de 2014

O Programa de Saúde da Família no British Medical Journal



Nestes dias de baixa auto-estima para o brasileiro, nada como olhar para o que realmente importa e se deparar com algo a se orgulhar. Publicado no British Medical Journal um elegante artigo do Instituto de Saúde Coletiva da UFBA, mostrando associação entre o Programa de Saúde da Família e menor mortalidade cardiovascular no Brasil. Os autores assim concluem:

“Comprehensive and community based primary health care programmes, such as the FHP in Brazil, acting through cardiovascular disease prevention, care, and follow-up can contribute to decreased cardiovascular disease morbidity and mortality in a developing country such as Brazil.”

Estudando 30% dos municípios brasileiros, os autores demonstram 33% de redução de mortalidade (taxa de mortalidade padronizada para idade) por doenças cerebrovasculares e 45% de redução por doenças cardíacas entre os anos 2000 e 2009. Em paralelo, houve aumento de 227% da cobertura pelo Programa de Saúde da Família (PSF) nesses municípios.


Associação entre PSF e Mortalidade Cardiovascular

Embora no mesmo período tenha havido queda de mortalidade e aumento de PSF, de antemão, isto não é garantia de que foi o PSF que causou a redução de mortalidade. Duas coisas ocorrerem em paralelo não garante que uma esteja causando a outra. Por exemplo, observou-se também que houve melhoria das condições sociais neste período, com redução de 40% no número de indivíduos vivendo em condições sanitárias inadequadas e aumento de 37% da renda per capita. Será que não foi esta melhoria social que causou a redução de mortalidade?

Para testar a associação entre mortalidade e PSF, os autores compararam a mortalidade entre cidades com cobertura do PSF consolidada, intermediária, incipiente e ausência de PSF, sendo este último o grupo controle. Isto funcionou como um experimento, onde se compara o efeito de diferentes doses de PSF com um grupo controle sem PSF. Foi observado que quanto mais PSF, menor a mortalidade cardiovascular, com um padrão de relação dose-resposta, o que é sugestivo de causalidade.

Mesmo assim, podem existir fatores de confusão intermediando essa relação, pois as cidades com mais PSF poderiam ter melhores condições sociais. Para um ajuste pleno de variáveis de confusão, seria necessário um desenho que randomizasse cidades para diferentes doses de PSF,  o que faria com que as cidades com mais PSF fossem idênticas às cidades com menos PSF pelo efeito da randomização. Este desenho é denominado randomização em cluster, no sentido de que não é o indivíduo a ser randomizado, mas sim um conjunto de pessoas (cidades). No entanto, do ponto de vista político e social, isso se aproxima do impraticável. Desta forma, teremos que ficar com a evidência observacional, que compara cidades diferentes.

Sendo o dado não randomizado sujeito a fatores de confusão, os autores fizeram ajuste estatístico para variáveis relacionas ao aspecto social, como percentual da população abaixo da linha de pobreza, com condições sanitárias inadequadas, renda per capita, analfabetismo. Também ajustaram para a infra-estrutura de saúde oferecida pelo município, representado pelo número de leitos hospitalares na cidade, número de aparelhos de tomografia e ultrassom. Após ajuste para estes potenciais confundidores, permaneceu a significância estatística da associação de PSF com menor mortalidade cardiovascular!!! Agora assim, a evidência começa a sugerir que PSF e menor mortalidade possuem uma associação direta.

Embora a análise multivariada reforce a associação, devemos ter em mente que esta não é suficiente para garantir que não haja interferência de outros fatores confundidores na mortalidade. Mas considerando a plausibilidade da hipótese, me parece um nível de evidência razoável a favor do PSF. Digamos assim que o conceito teórico de que PSF predispõe a menor mortalidade é fortemente sugerido por esta evidência.


O SPF reduziu mortalidade cardiovascular no Brasil?

Observem que esta pergunta não é respondida pela evidência acima descrita. Uma coisa é demonstrar a propriedade do PSF de proteger pessoas contra mortalidade cardiovascular, outra coisa é garantir que o PSF de fato exerceu o efeito de reduzir mortalidade no Brasil. São perguntas diferentes. 

A mortalidade cardiovascular no Brasil tem caído progressivamente nas últimas décadas. Pode ser que o PSF tenha surgido em 2000 e apenas presenciou essa queda que já vinha ocorrendo, não sendo o verdadeiro responsável. 

O teste desta hipótese estaria em avaliar se a associação negativa entre mortalidade cardiovascular e tempo (queda de mortalidade com o tempo) foi modificada pela presença ou ausência do PSF. Seria uma análise de interação, avaliando o efeito modificador do PSF na associação entre mortalidade e tempo. Esta análise demonstraria que cidades com PSF apresentariam uma queda de mortalidade ao longo desses 10 anos mais importante do que cidades sem PSF. Diferente da análises apresentada, o desfecho seria a queda de mortalidade (curva) e não apenas a mortalidade em um dado período, como feito na análise que comparou as cidades com diferentes coberturas do PSF.

Melhor ainda se a análise se estendesse para antes de 2000. Neste caso, cidades seriam observadas antes e depois do PSF. Seria demonstrado um ponto de inflexão, onde a queda que já vinha ocorrendo na mortalidade ficaria mais vertiginosa após o advento do PSF. E isso não ocorreria nas cidades sem PSF. 

Estes tipos de análise não foram descritas no estudo, portanto não podemos considerar que o estudo mostra o efeito do PSF na progressiva queda de mortalidade cardiovascular no Brasil. Pode ser feita essa inferência na forma de discussão, mas não representa uma comprovação.

Por fim, devemos lembrar que apenas 30% das cidades brasileiras foram estudadas. E estas foram as cidades que ofereciam estatística suficiente para a análise. As demais não tinham os registros necessários. Isso pode ser um marcador de organização do sistema público na cidade. Ou seja, as cidades que ficaram de fora (70% do Brasil) podem ter uma realidade bem inferior às estudadas. Portanto o trabalho não é um retrato do Brasil, nem pretendeu ser. 

Este estudo testa e comprova o conceito teórico de que PSF tem propriedade de reduzir mortalidade, mas não traz as análises que comprovariam que a redução de mortalidade observada nestas cidades nos últimas 10 anos decorreu do PSF.


Atenção Primária ou PSF ?

O título do trabalho menciona "atenção primária” e não PSF. Acho que esta foi a melhor escolha, pois conhecendo as condições de assistência primária do serviço público, provavelmente este estudo está comparando ter atenção primária razoável (PSF) versus ter atenção primária precária. Se as cidades usadas como “controle" tivessem uma atenção primária razoável, o estudo estaria testando o PSF como uma forma inovadora e melhor de fazer atenção primária. Embora eu não tenha estes dados a respeito das cidades controle, acredito que não seja o caso. É possível que as cidades sem PSF  apresentem em média um sistema de atenção primária cuja precariedade se aproxima mais de um placebo.

Sendo assim, vejo este estudo como uma comprovação de que fazer atenção primária (o básico) faz grande diferença e não como uma apologia a um programa específico do Brasil.


Conclusões

Acho que a conclusão dos autores do trabalho foi bastante adequada, pois eles dizem que "adotar um programa de atenção primária pode contribuir para reduzir mortalidade cardiovascular”. O trabalho não testa, nem afirma que contribuiu. Não é um retrato fiel do que aconteceu no Brasil, é muito mais um teste da hipótese de que ter atenção primária é melhor do que não ter, do ponto de vista de saúde cardiovascular.

Interpretações que extrapolam estas conclusões devem ser evitadas: primeiro, o Brasil não descobriu a pólvora com um método especial de atenção primária; segundo, a partir desse estudo não podemos afirmar que a redução de mortalidade cardiovascular entre 2000 e 2009 decorreu do PSF.

Nessa época em que médicos falam tão mal do sistema público de saúde de nosso país, é de se orgulhar que nosso programa de atenção primária tenha seu benefício teórico demonstrado por um elegante estudo baiano e publicado na principal revista médica de um país cujo sistema de saúde pública é um padrão mundial.

Mesmo assim, devemos evitar o ufanismo. Na verdade, adotar um programa de atenção primária é o mínimo que um país deve fazer, é o básico, é a obrigação. Não sendo um mérito especial, espero que este trabalho não seja usado politicamente nesta época de eleição. Até porque o PSF foi criado por um governo e ampliado por outro. 

quarta-feira, 9 de julho de 2014

O vexame do Brasil foi estatisticamente significante ?



O estatístico americano Nate Silver criou um modelo preditor que estimou em 65% a probabilidade do Brasil ter ganhado o jogo contra a Alemanha. Foi este resultado que postei no facebook ontem, no intuito de aumentar nosso otimismo horas antes do pontapé inicial. Para criar o modelo, Nate Silver utilizou o banco de dados ELO, que possui informações de confrontos entre seleções desde o século XIX, aliado ao fato de que Brasil estava jogando em casa. Tal como discutimos na última postagem deste blog (pensamento probabilístico), não teria sido muito surpresa o Brasil perder aquele jogo, pois restava 35% de probabilidade da Alemanha sair vitoriosa. A surpresa mesmo veio do vexatório 7 x 1 sofrido pelo Brasil. E por este motivo pergunto se este absurdo resultado foi estatisticamente significante. 

O resultado final do placar sugere que a Seleção Alemã é imensamente superior à Brasileira. Mas a Alemanha é tão melhor assim que o Brasil ou este placar foi por acaso? De acordo com o modelo de Nate Silver, a Alemanha ganharia do Brasil por 6 gols de diferença em apenas 1 de 900 jogos, indicando que a probabilidade deste resultado era de 0.11% (valor de P = 0.0011). 

O que significa valor de P? Significa a probabilidade da diferença observada aparecer, caso a hipótese nula (Brasil = Alemanha) seja verdadeira. Ou seja, se os dois times fossem mais ou menos equivalentes (como mostra o histórico representado pelo modelo preditor), qual a probabilidade aleatória (azar) deste resultado extremo se fazer presente? 

Em sua entrevista ontem, Felipão deu sua versão do ocorrido, falando algo assim: “O time vinha bem, atacando, quando aos 21 minutos [na verdade foi 11 minutos] veio o primeiro gol de escanteio, causando um apagão no Brasil, permitindo que a Alemanha fizesse mais 4 gols em 10 minutos. Depois de 5 gols de diferença, fica difícil reverter o resultado." Observem que sua explicação tem uma conotação de acaso, um azar que durou 10 minutos, causando um desastre impossível de reverter. Parreira, por sua vez, disse que a taça “escapou”, usando mais uma palavra de apologia ao acaso.

Escrevo esta postagem enquanto assisto ao monótono 0 x 0 de Argentina e Holanda. Acaba de entrar um reporter da ESPN dizendo que Felipão e Parreira deram outra entrevista hoje, na qual  disseram que fariam tudo igual se tivessem uma segunda vez. Continuam sugerindo que foi tudo por acaso.

A função primordial da ciência é diferenciar acaso de causa, escolher uma entre estas duas possibilidades: azar do Brazil ou superioridade imensa da Alemanha. Vamos então ao teste de hipótese estatística: se os dois times tivessem qualidade semelhante (hipótese nula), a probabilidade deste resultado ocorrer seria tão baixa (0.11%) que acabamos por concluir que os times são diferentes. Rejeitamos a hipótese nula do acaso e ficamos com a hipótese alternativa da causa: a Alemanha é muito melhor que o Brasil. 

Estatisticamente, perder da Alemanha poderia ser aceito como azar se fosse por 1 ou 2 gols de diferença, pois esta probabilidade seria em torno de 35% (P = 0.35). O P de uma derrota normal não era estatisticamente significante (> 0.05). Neste caso sim, Felipão poderia ter atribuído sua derrota ao azar. Mas com um P = 0.011, é desafiar a inteligência do brasileiro. 

Confirmado que a relação foi causal, precisamos discutir qual foi a causa. Ao escolher sua explicação para o ocorrido, Felipão contou uma história tão inverossímil, que demonstrou sua total ignorância sobre probabilidade. Estou querendo demais de sua inteligência? Nem tanto, segundo a ESPN, os técnicos europeus dos dias atuais trabalham com estatística o tempo inteiro. Por que o técnico da Holanda val Gaal trocou os goleiros para a disputa de pênaltis? Não foi simplesmente pela altura de Krul, havia dados estatísticos de que ele pegava muito mais pênaltis. Vocês observaram que o técnico da Holanda anota tudo durante o jogo? Sem estatística não há salvação.

A ausência de inteligência estatística (ou de qualquer inteligência) por parte do técnico foi a causa do ocorrido. A verdade é que Felipão foi um técnico sem nenhuma capacidade estratégica e que pouco trabalhou. Todos viram, o Brasil não treinava, não havia nenhuma tática adaptada a cada jogo, a escalação era sempre ruim. 

Mas um resultado evidente como este precisa de uma causa mais especifica do que a minha explicação. Com a palavra, o brilhante Tostão:

"A entrada de Bernard foi uma decisão desastrosa, prepotente, porque mesmo se Neymar estivesse presente, o Brasil teria que reforçar o meio-campo, principal qualidade da Alemanha."

Tostão não é só ex-jogador de futebol e comentarista esportivo, Tostão também é médico. Um médico de inteligência diferenciada, de pensamento estatístico. Em contrate, a prática de nossa medicina às vezes se parece mais com Felipão do que Tostão. Médicos, com a "prepotência" citada por Tostão ao descrever Felipão, às vezes acreditam no que querem acreditar. Interpretamos desfechos casuais como causais quando não pensamos cientificamente. Muitas vezes, utilizamos condutas sem eficácia comprovada (ou ineficazes) e usamos exemplos de desfechos favoráveis como argumentos pró-conduta, desprezando os casos de desfecho desfavorável. Ou desprezamos informações científicas que deveriam nos nortear.  É comum violarmos a estatística em prol de uma interpretação enviesada do mundo clínico a nossa volta. 

Os técnicos da Alemanha, Holanda, Chile são técnicos baseados em evidências. Felipão e Parreira são técnicos baseados em crenças. Crenças provenientes de dogmas (Fred) ou de conflitos de interesse. 

domingo, 22 de junho de 2014

O Pensamento Probabilístico em Prognósticos Futebolísticos e Médicos



Prognosticar é prever o futuro. Prever o futuro da Seleção Brasileira na Copa do Mundo, prever o risco (futuro) de um indivíduo se tornar doente ou de um doente evoluir desfavoravelmente. Prognosticar é prever o futuro sem ter uma bola de cristal, o que faz disso um desafio repleto de incertezas. Prognosticar é fazer julgamento com base em incerteza, o que torna essencial a presença do pensamento probabilístico. 

O problema é que intuitivamente nosso pensamento não é probabilístico, temos uma tendência natural a pensar com base em uma falsa certeza. Comumente nos comportamos como se tivéssemos a bola de cristal, assumimos um pensamento simplório e dicotômico. Fazemos isso no futebol, na medicina e em várias áreas da nossa vida.

No início do século passado, William Osler, o pai da medicina interna, afirmou que “medicina é a arte da incerteza”. Quase um século depois, profissionais médicos ainda não incorporaram este conceito e insistem em fazer afirmações e tomar condutas presunçosas. Presunçosas pois presumem certeza em seu comportamento, consciente ou inconscientemente. Osler, na sua genialidade, completou sua frase, dando a solução para a incerteza médica: “medicina é a arte da incerteza e a ciência da probabilidade”. Ou seja, precisamos pensar de forma probabilística, desta forma reconhecemos a incerteza de nossas afirmações. 



O Pensamento Probabilístico

Muitas são as situações cotidianas as quais evidenciam que nosso pensamento não é naturalmente probabilístico. Um exemplo é o que esperamos de previsões meteorológicas. Estas previsões são muitas vezes ridicularizadas, injustamente. Imagine que a previsão foi um dia de chuva, mas fez um belo dia de sol. Errou? Não, pois a leitura correta não é “vai chover” (embora nos telejornais a ideia passada seja essa). Observem nos bons sites ou aplicativos que quando aparece um ícone que indica chuva na previsão, comumente o percentual numérico é de 40%, 50% ou 60%. A leitura correta é que há uma razoável probabilidade de chuva. Esta probabilidade reconhece a incerteza desta que é uma afirmação prognóstica. 

Antes de iniciar esta Copa do Mundo, o Brasil foi tido como favorito para vencer. Ao pensamos em favorito, imaginamos, vai ganhar! Isso é um pensamento dicotômico, simplório e incorreto. Na verdade, ser favorito não significa que vai ganhar. Nate Silver, famoso estatístico americano, criou um modelo multivariado para predizer o risco do Brasil ser campeão. De fato, o Brasil é o país com maior probabilidade de ser campeão, calculada em 47%, seguido da Argentina 13% e Alemanha 11%. Porém observem que, mesmo sendo favorito, é mais provável que o Brasil não seja campeão (53%). Portanto, caros colegas, se perdermos, isso não será nada de anormal. Mesmo sendo favorito e jogando no próprio país. Porém uma derrota geralmente vem com a indignação de algo que não deveria ter acontecido. É a falta do pensamento probabilístico. 

Mais grotesco ainda foi nossa certeza de que venceríamos a final da Copa do Mundo de 1998. Tínhamos tanta certeza de que venceríamos a Seleção Francesa (dentro da França), que ao perder, foi necessário encontrar uma explicação, um nexo causal para a derrota: Ronaldo teve convulsão ou o Brasil vendeu o jogo à FIFA. Algo de estranho aconteceu naquele jogo. Isso é o tipo de pensamento primário, perpetuado até hoje pelos especialistas (brasileiros). Em um jogo entram dois times e um sai derrotado. Este foi o Brasil. Aquela seleção não chegava a ser espetacular, estava jogando dentro da França, com um time que tinha Zidane. Desta forma, na melhor das hipóteses, o Brasil tinha 50% de probabilidade de vencer. Perdeu. Foi uma derrota mais do que normal, não precisa de convulsão como explicação. 

Até aí tudo bem, pois estamos falando de um esporte, cujo folclore é enriquecedor. Porém fico perplexo ao ver o mesmo tipo de pensamento primário na medicina. Aliás, esse pensamento se torna até mais comum, quando lidamos com a típica presunção dos profissionais médicos. O presunçoso não gosta de lidar com probabilidade, com incerteza. Em decisões sobre tratamento, diagnóstico ou prognóstico, violamos o pensamento probabilístico, pois nossa autoridade é desafiada pelo reconhecimento da incerteza.   

Ao fazer um prognóstico “sombrio”, mesmo que temperado por palavras eufemísticas, nossa verdadeira conotação é dicotômica, ao ponto de “milagres” assumirem o papel causal quando o desfecho é favorável. Assim se criam os milagres, aqueles mesmos que andam pendurados nos tetos das igrejas ou são usados como “evidências” para o reconhecimento de santos. Milagres são criados (pelo menos em sua vasta maioria) pela falta de percepção de que, mesmo pouco provável, a recuperação do paciente era possível, tinha uma probabilidade de acontecer. 

Quando falamos em um paciente de alto risco para infarto, isso quer dizer uma probabilidade de 20% de infarto nos próximos 10 anos. A probabilidade não ter o evento é muito maior do que a de ter o evento.  Mas usualmente a palavra alto risco traz uma conotação de inexorável e iminente. Tudo um exagero, como se de fato tivéssemos a tal bola de cristal. Da mesma forma, quando um indivíduo de baixo risco desenvolve um problema, isso não é um erro de predição. Baixo risco de infarto é definido como um risco menor que 10%, não é um risco inexistente. 

No entanto, ficamos (erradamente) inconformados com os “erros” dos modelos prognósticos, assim como ficamos inconformados se chover ao invés de fazer o sol da previsão, ou se o Brasil não for campeão apesar de ter sido o favorito. Por isso que bons modelos preditores passam a ser ridicularizados como se fossem modelos ruins. A partir desta ridicularização, criam-se soluções mágicas (e lucrativas) para melhorar o poder preditor destes modelos.  

Vejam o caso da predição de risco cardiovascular primário. Escores de risco, como o Framingham, apresentam uma área abaixo da curva ROC satisfatória, em torno de 70% ou 80%. Mas nunca serão perfeitos, pois são modelos que tentam prever o futuro sem uma bola de cristal. Mas o inconformismo com a incerteza faz com que muitos rotulem estes escores de risco como inacurados, propondo que exames complexos sejam realizados adicionalmente. A sugestão de que o escore de cálcio seja realizados em todos os pacientes de risco intermediário é um dos maiores exemplos do pensamento dicotômico. A maioria dessas pessoas classificadas como de risco intermediário são de fato de risco intermediário (inclusive a calibração dos escores clínicos é melhor em pacientes de risco intermediário). Mas não aceitamos trabalhar com a definição de intermediário (o que se aproximaria do pensamento probabilístico), ficamos inconformados em classificar alguém assim, como se esta classificação estivesse errada. Precisamos reclassificar estas pessoas. Daí surge a proposta de realizar escore de cálcio em todos os pacientes de risco intermediário. Esse é o maior exemplo da não aceitação da incerteza inerente à realidade prognóstica. A faixa intermediária (realista) é inaceitável. Entra aí o escore de cálcio sendo propagado por reportagens televisivas como os salvadores da pátria, como uma bola de cristal a determinar quem terá um infarto. É assim? Claro que não, o escore de cálcio incrementa a área abaixo da curva ROC em apenas 5 a 10%. Muitos pacientes reclassificados para alto risco não vão ter infarto e alguns reclassificados para baixo risco terão infarto. Ou seja, há também reclassificações erradas. A incerteza permanece!!! Isto foi motivo de postagem prévia neste Blog, publicada também sob a forma de correspondência no Journal of American College of Cardiology, onde procuramos redefinir em que situação o escore de cálcio será útil. 

Este tipo de equívoco de pensamento é inerente a predições prognósticas, em futebol e medicina. A grande evolução prognóstica não será proveniente de novos biomarcadores mágicos, mas sim da incorporação da incerteza ao raciocínio clínico.  

Vejam o uso de estatina em um paciente de “alto risco’' para infarto, com colesterol elevado. Pensamos de forma dicotômica, ou seja, se prescrevermos estatina, o paciente será protegido contra esse desfecho, se não prescrevermos (coitado), ele terminará em um infarto. É assim? Claro que não, lembrem-se do paradigma do número necessário a tratar (NNT). Neste caso, o NNT é de 30 (prevenção primária). Ou seja, precisamos prescrever estatina a 30 pacientes para que 1 tenha um infarto prevenido. Ou seja, a probabilidade do tratamento beneficiar o seu paciente é 3% (1/30). O paciente tem que dar sorte de ser um que teria o infarto (nem todos terão infarto) e que a estatina previna este infarto que estava por vir (nem todos os infartos conseguem ser prevenidos). Esta perspectiva de probabilidade nos permite tomar melhores decisões. Neste caso, a regra é o uso da estatina, eu prescrevo. Porém se houver algum fator contrário ao uso da droga, alguma contra-indicação, efeito colateral importante ou desejo do paciente, não seria um absurdo ponderar e não insistir na prescrição. O pensamento não científico, dicotômico, faz com que tratemos pacientes com "receitas de bolo", enquanto o pensamento científico propõe a individualização com base em conhecimento das probabilidades de benefício e malefício. 

Probabilidade Condicional

A esta altura da Copa, depois de Brasil 0 x 0 México no segundo jogo, a probabilidade inicialmente calculada por Nate Silver (47% do Brasil ser o campeão), já mudou. Antes achávamos que o Brasil  era favorito, mas depois de compararmos seu desempenho com os de outras grandes seleções, como Holanda e Alemanha, talvez ele não seja mais o favorito. Isso vai mudando de acordo como as coisas vão ocorrendo. Esse tipo de estimativa da probabilidade, condicionada aos acontecimentos prévios mais recentes, será de grande utilidade quando incorporada ao pensamento médico. 

Imaginem um paciente internado com infarto. No momento da admissão, podemos usar modelos probabilísticos (Escore TIMI, Escore GRACE) para calcular o risco de morte durante o internamento. Imaginem que no momento da admissão o paciente foi classificado como alto risco de morte. Porém, se o paciente ficar estável, a cada dia que permanece vivo, sua probabilidade de morte vai reduzindo. O conceito é o seguinte: a probabilidade de morte no segundo dia, dentre os pacientes que sobreviveram ao primeiro dia, já é menor. Houve uma seleção natural, sendo que os sobreviventes do primeiro dia já são um grupo menos propício a não morrer. A probabilidade de morte no terceiro dia, dentre os pacientes que sobreviveram ao segundo dia, é menor ainda. E assim por diante. 

Esse é o conceito de hazard, um risco condicionado ao acontecimento anterior. Ao passo que risco  não leva em consideração o que ocorreu antes. Em estudos prospectivos, de coorte, o hazard é calculado assim: o programa de computador divide o tempo em vários pequenos períodos (separados por eventos subsequentes) e vai calculando a probabilidade de morrer em cada um desses períodos. Essas probabilidades são multiplicadas. Ou seja, imaginem um internamento de 3 dias: o hazard de morte = hazard do primeiro dia x hazard do segundo dia em se considerando os sobreviventes ao primeiro dia x hazard do terceiro dia considerando o sobreviventes do primeiro e segundo dia. Percebam que isso é diferente de risco, que é calculado apenas pela probabilidade do paciente morrer ao longo desses 3 dias, sem considerar que os sobreviventes dos primeiros dias são menos vulneráveis.  

Há uma grande utilidade deste tipo de pensamento. Imaginem um paciente que desenvolve fibrilação atrial permanente. No dia 1 da fibrilação atrial, podemos calcular o CHADS e estimar o risco anual de embolia, o que influenciará na decisão por anticoagulação. Agora imaginem um paciente igual a esse, que chega com documentação de fibrilação atrial há 10 anos, sem anticoagulação e nunca teve um AVC. Percebam como o risco de AVC calculado para este paciente será diferente do hazard de ter um AVC. No cálculo do hazard, considermos: passados 10 anos sem AVC, qual a probabilidade deste paciente ter um AVC? Esta é uma situação em que o hazard vai reduzindo com o tempo, na medida em que os pacientes que tiveram AVC são excluídos dessa pergunta. Esse é um paciente menos propício a ter um AVC do que os pacientes em geral. É útil identificar situações como esta, em que o hazard vai reduzindo. Se recebermos um paciente de 85 anos, com fibrilação atrial, que o médico anterior vinha acompanhando sem anticoagulação e nunca teve uma AVC ao longo de 10 anos, devemos agora, só porque somos uma segunda opinião, calcular o CHADS e prescrever anticoagulante? A resposta é não, pois o tempo já selecionou este paciente com alguém menos vulnerável à complicação embólica. Além disso, agora aos 85 anos, o risco do sangramento não é pequeno. Tranquilamente, pensando no hazard, respeitamos o histórico do paciente e podemos manter a conduta sem anticoagulação. 

Há situações em que o harzard vai aumentando com o tempo. Por exemplo, o hazard de morrer por qualquer causa vai crescendo com o tempo, na medida em que envelhecemos, mesmo que não tenhamos morrido até agora. Assim como o hazard de desenvolver um câncer ou um evento coronário, pois estes são fatores muito associados a idade. E há outras situações em que o hazard é constante. Por exemplo, qual o risco de pegar uma meningite no ano 2016. Isso não aumenta, nem diminui com o tempo.  

O Julgamento do Especialista

O especialista tende a não utilizar de probabilidade, pois percebe o reconhecimento da incerteza como um fator antagônico à sua autoridade. Isto ocorre no futebol, onde as mais diversas opiniões são omitidas pela cabeça de cada comentarista esportivo. É como se o conteúdo importasse menos  do que a forma da mensagem. De fato, no campo de entretenimento é muito mais interessante ouvir a opinião de um ex-craque (mesmo que errada), do que utilizar um modelo probabilístico. E não é diferente com médicos, que insistem em utilizar seus julgamentos subjetivos, em detrimento de ferramentas como escore probabilísticos. Em diversas áreas profissionais, o julgamento de especialistas foi comparado com modelos matemáticos de predição e os modelos mecânicos ganham: modelo matemáticos determinam sucesso de uma safra de vinho melhor que o provador especializado, assim como escores de risco predizem melhor mortalidade em síndromes coronarianas agudas do que a opinião de cardiologistas experientes. Por que? Porque (1) nossa mente não funciona estatisticamente, (2) supervalorizamos o efeito de variáveis de pouco poder preditivo, mas que nos impressionarem subjetivamente, (3) pensamos de forma univariada ao invés de multivariada (se é diabético, vai ter estenose do stent; se é o Brasil, vai ganhar; se é árabe tentando entrar nos Estados Unidos, é terrorista - vide postagem 1 e 2 neste blog sobre pensamento univariado versus multivariado), (4) não ajustamos mentalmente nossa experiência para variáveis de confusão que permeiam os fenômenos cotidianos. O bom especialista é o que sabe reconhecer a limitação de sua primeira impressão, recorre ao modelos preditores imunes a estas fatores e reconhecem a incerteza ao trazer a resposta sob a forma de probabilidade. O mal especialista é o que tenta validar sua primeira impressão, procurando seletivamente argumentos, ao que se chama de viés de confirmação.

A Evolução Filosófica

A cada dia, a cada hora, surgem inúmeras publicações sobre novos marcadores de risco nas diversas situações médicas. É uma busca incessante do marcador ideal, aquele que vai predizer com perfeição o desfecho do paciente. Porém a grande evolução na área de marcadores prognósticos estará na evolução do pensamento dicotômico para um pensamento probabilístico, baseado em modelos multivariados. Isto em nada diminui a importância do médico, esse continuará pensando e usando sua intuição em suas decisões. Porém usando uma sequência lógica e hierárquica. Primeiro, para determinar o risco de um paciente, devemos usar de modelos prognósticos validados. Sabendo o risco, podemos estimar a magnitude de uma potencial intervenção na redução daquele risco. Sabendo a magnitude do benefício, agora podemos usar nosso julgamento subjetivo. Quero oferecer este benefício ao paciente, considerando os riscos e custos do tratamento? Ou seja, primeiro houve a inferência matemática, seguida de uma inferência subjetiva que envolve sensibilidade, ponderação e compartilhamento da decisão com o paciente. 

Filosoficamente, devemos aprender a conviver com incerteza, pois grande parte dos desfechos de nossa vida são aleatórios. A foto abaixo foi minha filha que tirou hoje. Vejam como o céu está incerto, isso no mesmo dia, no mesmo momento. De um lado, o céu indica que vai chover, do outro sugere que vai fazer um dia lindo. Estamos incertos do que acontecerá na próxima hora. Por que então queremos certeza na previsão meteorológica dos próximos dias ou na previsão da evolução clínica de um paciente? 




O caminho é voltar atrás e ouvir as palavras sábias de Willian Osler, proferidas há um século. Reconhecendo incertezas e aceitando o uso de probabilidades, teremos mais serenidade com os desfechos de nossos pacientes e tomaremos decisões mais ponderadas. 

Se no início era 47% a probabilidade do Brasil vencer esta Copa, acho que agora está em 30%. Talvez ainda sejamos favoritos, mas a probabilidade de perder é maior do que de ganhar. O pensamento probabilístico nos permitirá reagir melhor ao resultado da Copa. Seja ele qual for. Até uma eventual vitória ficará mais interessante de comemorar, em se considerando o quanto esta era incerta.