quinta-feira, 26 de maio de 2016

O Conceito de Economia Clínica

Neste vídeo, conversamos com o Prof. Franz Porzsolt, criador do conceito de "clinical economics" como parte essencial do raciocínio médico embasado em evidências. Este conceito não se refere à questão monetária, mas utiliza a palavra "economia" em seu significado amplo. Assistam ao vídeo para entender. 

Franz é professor da Universidade de Ulm na Alemanha e criador do Institute of Clinical Economics

Esta entrevista foi gravada durante o nosso Workshop de Pensamento Médico Baseado em Evidências, promovido pela Universidade Federal Fluminense. 




Abaixo do vídeo a transcrição traduzida para o português, feita por Dr. Felipe Ferreira. 

LC: Franz, seu conceito de Economia Clínica referente a valor é muito interessante, acredito que seja muito importante para os Clínicos. Então, nos explique o que é pensamento de Economia Clínica, e talvez o que é a própria Economia.

FP: Na verdade, isso começou na minha antiga profissão quando eu trabalhava como médico e oncologista. Por alguns momentos eu estava muito preocupado se os efeitos colaterais e o fardo do nosso tratamento oncológico estava realmente equilibrando os benefícios que os pacientes recebiam. Então eu estava pensando sobre a necessidade de análises que comparassem o que nós precisamos investir e o que recebemos em retorno. E fazendo essas considerações, eu me deparei dentro de uma análise econômica que é nada além do que uma comparação de custos, e não são custos monetários. É tudo que nós temos que renunciar. E no outro lado as consequências, isso é, tudo o que nós recebemos, e o que é importante numa análise econômica completa é que você compara custos e consequências de formas alternativas de agir.

LC: Então por exemplo para um paciente, como eu acabei de escrever no blog, quando analisamos o STICH trial, no qual o paciente é candidato para uma cirurgia cardíaca, uma cirurgia cardíaca de alto risco, visto que os pacientes têm insuficiência cardíaca grave. Então esse é o custo, o estresse, o estresse físico, a dor, talvez risco de até mesmo morrer nos momentos próximos a cirurgia. E o que os pacientes recebem em troca? Neste caso, o paciente seria recompensado muitos, muitos anos após a cirurgia. Então você investe aqui muita dor para receber algum benefício de sobrevida daqui a 10 anos. Isso deve ser pensado numa forma econômica como você pensa.

FP: Veja bem, nós podemos aprender muito com os economistas. Eles chamam isso de “Discounting”. Quando você tem que ceder, você tem que pagar hoje, mas você somente receberá o valor 10 anos depois, então você tem um valor descontado por um período de 10 anos. Essa é a diferença quando comparado com receber o valor imediatamente, é muito mais recompensador. 

LC: E sobre você como um oncologista, você pode dar um exemplo desta troca econômica?

FP: Eu diria, essa troca é importante em qualquer tratamento oncológico porque muitos desses tratamentos têm efeitos colaterais e riscos, e você deve discutir esses riscos com o seu paciente. Você deve dizer a eles a verdade e você deve saber a dimensão da chance de nós atingirmos o benefício esperado. Você percebe como isso é difícil e como isso está conectado ao outro tema que discutimos anteriormente, se os resultados de um ensaio clínico são realmente verdadeiros. Então como nós podemos comunicar ao paciente os resultados de um ensaio clínico, a menos que você possa ler e detectar os potenciais erros deste Trial. Você percebe? Tudo está conectado a tudo.

LC: Pacientes podem valorizar as coisas de formas diferentes, então você dá o exemplo de um dedo quebrado de um pianista. Você pode discorrer sobre isso?

FP: Sim, você sabe, eu estou usando este exemplo de um dedo quebrado quando é um pianista. Esta é uma situação horrível e ele gastará muito dinheiro para conseguir uma recuperação completa. Quando você tem um advogado com um dedo quebrado isso não é uma catástrofe. Você sabe, ele não será capaz de assinar alguns papéis, mas é somente isso.

LC: Então o pianista poderá assumir um custo de tratamento muito mais elevado porque o que ele está recebendo em troca compensa. Por exemplo, se o tratamento traz muita dor, muitas cirurgias, ele faria isso. Talvez o advogado falaria: “Bem, isso não vale a pena para mim, vamos ficar com o dedo da forma que ele está”.

FP: Exatamente.

LC: Então, é por isso que nós devemos ser guiados por evidências científicas em termos de considerar o que o tratamento nos oferece, mas a nossa decisão final deve ser compartilhada com o paciente, certo?

FP: Sim, os pacientes esperam que nós ajudemos eles a tomar essas decisões. Nós fornecemos a eles que eles esperem ter a liberdade de fazer essas decisões. Mas eles precisam de assistência, e eles precisam de informação para chegar a uma decisão final.

LC: Até drogas ou medicamentos têm um custo. Por exemplo, a terapia de estatina, algumas pessoas dizem “Eu não quero tomar estatina porque posso vir a ter uma dor muscular e eu gosto de correr”. Então é possível haver um custo ou risco nisto. E algumas pessoas podem querer tomar. Não um grande problema, na minha opinião, essa questão muscular, mas algumas pessoas realmente podem não querer, porque elas são corredoras, elas não querem arriscar isto, e para outras pessoas: “Está tudo bem, isso não é um grande problema”. Então até em drogas, você tem custos que devem ser considerados. Existem algumas pessoas que gostariam de evitar drogas, porque são pessoas mais naturais, então para eles é um custo tomar um medicamento.

FP: Claro. E esta é uma dificuldade extrema dos médicos para comunicar os riscos. Imagine, pense no folheto informativo das drogas que vem nas suas caixas, você sabe, do medicamento que você compra numa farmácia. Nele estão todos os tipos de precauções. Quando você informa o paciente de acordo com este folheto, quase nenhum paciente estará apto a tomar essa droga. Você vê, a responsabilidade do médico. Você não pode fornecer qualquer informação que é, você tem que desenvolver um instinto fino, quais são as informações essenciais que você deve fornecer por razões éticas e quais são as informações que induzem mais prejuízo ao paciente do que benefício.

segunda-feira, 18 de abril de 2016

Workshop de Pensamento Médico Baseado em Evidências

Colegas, 

a convite da Universidade Federal Fluminense, na próxima semana promoveremos o curso de Pensamento Médico Baseado em Evidências, ao lado do Prof. Franz Porzsolt. Será um curso de dois dias, com 20 aulas, divididas entre eu e Prof. Porzsolt, abordando análise crítica de artigos científicos e raciocínio médico baseado em incerteza e probabilidade. 

Porzsolt é professor da Universidade de Ulm na Alemanha e vem ao Brasil especialmente para este evento. Ele é uma grande referência na área de Medicina Baseada em Evidências e criador do conceito de Clinical Economics. 

Esta é  portanto uma parceria da Universidade Federal Fluminense, na pessoa de Tânia Thomaz, organizadora do curso, Escola Bahiana de Medicina e Saúde Pública e Universidade de Ulm. 

Todos estão convidados. 

Abaixo cartaz com detalhes de datas, local e inscrição para o curso. 


domingo, 17 de abril de 2016

STICH versus STICHES: estudos discordantes ou concordantes?



Em 2011, no post “STICH: uma mudança de paradigma”, reconheci minha arrogância epistêmica ao ter a assumido durante anos o paradigma de que pacientes com disfunção ventricular grave se beneficiavam da revascularização miocárdica. O primeiro ensaio clínico randomizado de alta qualidade metodológica, o STICH, derrubara este paradigma que havia sido criado sem o devido embasamento científico. Foi uma lição de humildade para a comunidade cardiológica quando o STICH trouxe esta observação aparentemente adequada de que a mortalidade geral foi semelhante entre os grupos randomizados para cirurgia ou controle. 

Cinco anos se passaram e acaba de ser publicado no mesmo New England Journal of Medicine o estudo STICHES, que conclui por uma “mortalidade significantemente menor no grupo cirúrgico, quando comparado ao tratamento clínico”. 

E então, onde fica nossa eloquência do post de 2011?

O primeiro detalhe que me chamou atenção foi a semelhança de nome dos dois estudos. O segundo é apenas o plural do primeiro. Foi quando percebi que na verdade se tratavam do mesmo estudo, sendo que STICHES traz o resultado baseado em um seguimento mais prolongado do que o STICH. Enquanto aquele resultado negativo do STICH foi obtido no seguimento médio de 5 anos, o SITCHES mostra um resultado positivo quando o acompanhamento é extendido para 10 anos. 

É correto estender o seguimento de um estudo?

Em primeiro lugar, em termos de ajustes metodológicos, é melhor estender o seguimento do que encurtar o seguimento de um estudo. Indo além, prolongar pode ser melhor do que não prolongar o seguimento. Ao prolongar um seguimento, aumentamos o número de desfechos, o que aumenta o poder estatístico. Isso pode ser bom pois reduz a probabilidade do erro tipo II (deixar de afirmar algo verdadeiro).

Para ser adequado, o prolongamento precisa ter dois critérios.

Primeiro, o novo tempo de seguimento deve ser definido, impedindo que o autor pare o estudo quando quiser. O problema ocorreria se esse prolongamento fosse feito na conveniência do resultado. Ou seja, vamos prolongar até conseguir significância estatística e quando isso ocorrer, paramos o estudo. Isso seria tendencioso. No STICHES o tempo de prolongamento foi pré-definido. 

Segundo, durante o prolongamento a terapia dever continuar a ser oferecida e a qualidade do acompanhamento deve se manter. No caso, o paciente continua a ter seus enxertos durante o prolongamento, o que resolve a manutenção do tratamento. E no STICHES a qualidade do follow-up foi a mesma no tempo regulamentar e na prorrogação.

Ao validar o prolongamento do seguimento, poderíamos concluir que o resultado positivo do STICHES está correto e o resultado negativo do STICH foi um equívoco.

Essa é a correta interpretação? 

Não exatamente ... Mostrarei porque.


A Magnitude do Efeito


Nos parágrafos anteriores julgamos que o resultado positivo apresentado pelo STICHES é verdadeiro, pois há baixo risco de viés e de acaso. 

Depois de avaliar veracidade, devemos julgar a relevância (impacto, magnitude) do efeito da terapia. Neste particular, os autores nos trazem o NNT = 14, o que em geral é interpretado como indicativo de grande benefício.

Por outro lado, este NNT = 14 é obtido em seguimento médio de 10 anos, um tempo bastante prolongado. O paciente precisa se operar hoje, desfrutar de um certo aumento de mortalidade imediato (como em toda cirurgia, mas principalmente neste caso), assumir o desconforto físico e mental da cirurgia, além das eventuais sequelas cirúrgicas, em troca de uma possibilidade de se beneficiar durante um longo período de espera. 

Enquanto o preço da cirurgia (sofrimento físico e estresse psicológico) é garantido para todos os 14 pacientes operados, o retorno deste investimento ocorre em apenas 1 dos 14 pacientes. Será que este benefício é relevante o suficiente para que o paciente faça a opção cirúrgica?

Isso sem considerar que este resultado cirúrgico obtido no STICH é de alto padrão, com baixa incidência de complicações. Aplicável a qualquer local?

Para aprofundar nossa reflexão, nada como uma boa analogia. Vamos comparar este benefício da cirurgia com um tratamento muito mais simples, que também reduz mortalidade em pacientes com insuficiência cardíaca: espironolactona em baixa dose. De acordo com o ensaio clínico RALES, a redução de mortalidade com esse simples diurético é expressa por um NNT = 9 em apenas 2 anos ! E isso é apenas um comprimido diário, algo muito menos agressivo do que uma cirurgia cardíaca. 

E aí? O benefício obtido com a cirurgia é de fato relevante? Compensa ser operado mesmo? De fato, é uma reflexão caso a caso, mas não parece ser uma grande panacéia.

O STICHES é um bom exemplo de que ao olhar o valor do NNT, devemos pensar no tempo de seguimento para se obter aquele benefício. É o NNT se tornando relativo a depender do tempo. De fato, o tempo relativiza tudo, como já dizia um certo cientista no início do século passado. 

Os autores do STICHES não consideraram esta questão ao espetacularizar o NNT do trabalho. 

Por estas razões, em circunstância de tempo muito prolongado, o calculo do NNT em análises de sobrevida não é feito na maneira usual. Explicarei a seguir como deve ser feito.


O NNT do Hazard Ratio


Neste Blog, já abordamos muitas vezes cálculo de NNT e seus intervalos de confiança, mas nunca discutimos o cálculo do NNT utilizando o hazard ratio. Esta é uma forma mais avançada, que considera tempo de exposição e a probabilidade cumulativa do desfecho. 

Normalmente não precisamos nos preocupar com esse ajuste do NNT, pois os tempos de seguimento em estudos são um tanto padronizados para cada doença (1-2 anos para insuficiência cardíaca, 5 anos para prevenção de eventos coronários, 30 dias para intervenções agudas no infarto). Porém quando o tempo se prolonga em demasia, gerando um trade-off entre o investimento na cirurgia (risco, sofrimento) na expectativa de um retorno em muito longo prazo, precisamos levar em consideração a analise de sobrevida.

Os autores do STICHES não fizeram isso, calcularam o NNT da forma tradicional, ou seja, 100 / redução absoluta do risco. 

RAR = frequência de desfecho no grupo clínico - frequência de desfecho no grupo cirúrgico
RAR = 66.1% - 58.9% = 7.2%. 
Então 100/7.2 = 14 cirurgias para 1 vida salva.

Este foi o cálculo simplório feitos pelos autores do STICHES. 

Vamos agora sofisticar.

Para calcular o NNT considerando a análise de sobrevida (NNTH), devemos obter do artigo a probabilidade cumulativa do desfecho e o hazard ratio. Lembrem que hazard é calculado pelo número de eventos / tempo de exposição (pessoas-tempo). Portanto hazard ratio é como um risco relativo que leva o tempo de exposição em consideração. 

Tendo estes dados, podemos calcular o NNTH utilizando a fórmula de Altman

NNTH = 1 / Prob Desfecho Grupo ControleHazard Ratio - Prob Desfecho Grupo Controle

O estudo não fornece numericamente o hazard (eventos/pessoas-ano), ou seja, a probabilidade cumulativa do desfecho. Mas olhando o gráfico de sobrevida (abaixo) podemos obter a mortalidade cumulativa, traçando uma linha imaginária nos 10 anos de seguimento, que é a mediana do tempo de seguimento. Observem na linha que a probabilidade cumulativa de morte no grupo controle é 0.69 (69%). Além disso, o artigo nos traz o hazard ratio para morte geral = 0.84. 





Portanto,

NNTH = 1 / 0.690.84 - 0.69 = 25

Em se considerando o tempo de seguimento o NNT correto é 25. 

Por que este NNT é diferente do original? A diferença está no uso dos dados da análise de sobrevida. Ao invés do risco de evento, usa-se hazard, que é uma probabilidade condicional. Esta parte da premissa de que a probabilidade de sobrevida muda na medida em que o paciente sobrevive a um primeiro período analisado. Imaginem um grupo de pacientes que são acompanhados durante 10 anos. Vamos dividir esse tempo em 10 períodos de 1 ano. No primeiro ano, alguns morrem. Os que sobram e entram no segundo ano terão uma probabilidade de morte menor do que o grupo inicial do estudo, pois os mais graves já morreram. 

Desta forma, o calculo do hazard é condicional: o programa de computador divide o tempo em mini-períodos, calcula o hazard de cada um deles e multiplica o hazard de todos os períodos, encontrando o hazard final. Observem que 69% de probabilidade de evento no grupo controle (o que vemos no gráfico) é diferente da mortalidade de 66.1% descrita na tabela. O motivo da diferença é que hazard é diferente de risco.

Mas devemos ir além disso e calcular o intervalo de confiança deste NNTH. Isso é importante pois na análise de sobrevida, na medida em que vão morrendo pacientes, vai tendo menos gente nos anos finais, o que reduz a precisão das estimativas. Portanto, devemos calcular os limites do intervalo de confiança do NNT utilizando os limites do intervalo de confiança do hazard ratio. De acordo com o artigo, o intervalo de confiança no nível 95% do hazard ratio é 0.73 - 0.97.

NNTH = 1 / 0.690.73 - 0.69 = 14
NNTH = 1 / 0.690.97 - 0.69 = 129

Desta forma, o NNT = 25 tem uma imprecisão representada por intervalo de confiança que vai de 14 a 129. Pasmem, a imprecisão é tão grande que não podemos descartar a possibilidade do NNT ser 129.


Conclusão


Antes de escrever esse post, reli o texto de 2011 sobre o STICH e para minha surpresa eu havia previsto o resultado do STICHES, sem nem mesmo saber que este estudo viria a ser publicado. Vejam minha colocação naquela época:

“Se o poder estatístico fosse ainda maior ou o seguimento fosse de 10 anos, poderia se encontrar uma pequena redução na frequência de morte no grupo cirúrgico, mas esse raciocínio de temporalidade faz com que esse benefício modesto não compense (se existir).”

Foi exatamente isso que aconteceu. O prolongamento do estudo, aumentou o número de desfechos, que aumentou o poder estatístico, que detectou uma diferença modesta.

O hazard ratio é o mesmo nos dois estudos, 0.86 no STICH e 0.84 no STICHES. Enquanto no STICH o número de desfecho não foi suficiente para dar significância estatística ao resultado, o mesmo hazard ratio consegue significância estatística no STICHES (P = 0.02, intervalo de confiança de 0.73 a 0.97 - por pouco não envolve o 1).

O poder estatístico para o STICH foi calculado para detectar um benefício relevante, enquanto o STICHES tem poder para benefícios menos relevantes. 

Enquanto o STICH não demonstrou um benefício relevante, o STICHES demonstrou um benefício não relevante. Ambos são estudos negativos para um impacto relevante do tratamento. 

STICH e STICHES são estudos concordantes. 



_________________________________________________________________________________

Objetivos Didáticos da Postagem:

- Cálculo do NTT baseado no Hazard Ratio
- Revisão do conceito de Hazard Ratio
Revisão do conceito de NNT
- Análise do prolongamento de seguimentos

quinta-feira, 14 de abril de 2016

O Sofisma Científico no Caso Zika e Microcefalia.





Em dezembro do ano passado, utilizei a suposta causalidade entre Zika e microcefalia com gancho para discutir o paradigma científico (ou ausência dele) no pensamento médico. O texto ganhou grande repercussão, com 57.000 acessos, citações na Folha de São Paulo e Associated Press. A partir daí, resolvi deixar o assunto de lado, pois nosso Blog não objetiva esgotar tópicos específicos, mas visa discutir ciência aplicada à medicina. Além do mais, sou cardiologista e fiquei cansado desse assunto.

Mas o assunto nunca me deixou de lado, pois colegas insistem em me mandar cada artigo publicado sobre o microcefalia. Este é o exemplo de Julival Ribeiro, infectologista e amigo de Brasília, um inconformado com a carência de pensamento científico sobre esta questão. Foi nesse contexto que Julival me mandou ontem uma manchete do CDC: "Zika Virus Definitely Causes Microcephaly", que cita um novo artigo do New England Journal of Medicine. Não li o artigo, deixei para depois, quando chega uma nova mensagem de Julival dizendo “vale a pena ler”. E nas horas subsequentes, mais três colegas me mandaram o artigo em PDF. 

Daí pensei, deve ser uma nova evidência que surge, quem sabe algum estudo epidemiológico grande, mostrando uma decente associação entre Zika e microcefalia. Então resolvi verificar e me surpreendi com o fato de que não havia uma nova evidência, apenas uma análise das poucas evidências existentes até o momento. 

O título do trabalho publicado ontem e que gerou essa posição “definitiva” do CDC é “Zika Virus and Birth Defects: Reviewing the Evidence for Causality”. Lendo a revisão, podemos confirmar que de fato há muito pouca evidência dando suporte à associação causal.  Nenhuma novidade. 

O que me chamou atenção neste artigo foi o espetacular sofisma científico criado pelos autores. Ficou irresistível, tive que voltar usar Zika e microcefalia para falar de ciência. 

Aristóteles, o filósofo, foi o primeiro a dividir argumentos em duas classes: os verdadeiros e outros que não o são, embora pareçam. Estes últimos são os sofismas. Os sofismas parecem verdadeiros, pois são pautados em fatos verdadeiros. Porém estes fatos não levam necessariamente a argumentos verdadeiros. 

O uso dos Critérios de Shepard para teratogênese criou um bom ambiente para sofismar, pois deu veracidade ao texto, uma veracidade baseada na autoridade de um cientista respeitável. Foi nesta ambientação que a aplicação das evidências existentes aos Critérios de Shepard se constituiu em um grande sofisma.

A leitura do artigo é um tanto cansativa, pois passa por vários critérios. Por isso vou resumir aqui a engenhosidade do sofisma. De acordo com os Critérios de Shepherd, a causalidade é sugerida quando os critérios 1, 3 e 2 ou 1, 3 e 4 estão presentes. 

O critério 2 não se faz presente, tal como reconhecido pelos autores. Seria a existência de estudos epidemiológicos de alta qualidade. Sendo assim, sobra a combinação dos critérios 1, 3 e 4 para fechar a causalidade. O critério 3 existe, pois representa a descrição de um fenótipo específico relacionado aos casos. Os fenótipos estão bem descritos nos relatos. 

Vamos então abordar os critérios 1 e 4, que nos apresentam interessantes sofismas.

O critério 4 diz que, em casos de associação exposição-desfecho, a exposição ao agente teratogênico deve ocorrer em momento crítico da gravidez (nos primeiros meses). Sim, há muitos relatos de casos em que a Zika foi diagnosticada nos primeiros meses. 

O problema é que as observações não representam associações: quase todas são relatos de caso, representando co-existência, o que é diferente de associação, como mencionado em nossa postagem anterior. O único trabalho que demonstra associação foi a coorte longitudinal de 88 mulheres publicada recentemente no New England Journal of Medicine: 72 mulheres que tiveram sorologia positiva para Zika versus 16 de sorologia negativa. O primeiro grupo apresentou casos de filhos com defeitos congênitos, enquanto o segundo grupo não. Detalhe é que este estudo não traz o valor de P desta comparação. Por curiosidade eu calculei: P = 0.054, ou seja, esta associação, neste pequeno estudo, não alcançou significância estatística. 

Portanto, este critério 4 (exposição nos primeiros meses de gravidez) é observado em relatos de caso (não são associações) e em um único estudo que "mostra" uma associação não estatisticamente significante. Sofismou, pois descreveu estudos, porém estes não são suficientes para conclusão.

Sofisma Estatístico


É a discussão do critério 1 a mais interessante do ponto de vista estatístico e científico. Este é o critério da combinação entre uma rara exposição associada a um raro desfecho (raro tipo de defeito congênito). A lógica desse critério é que a co-existência de duas coisas raras é aleatoriamente improvável. Tão improvável de ocorrer aleatoriamente, que sugere ser uma relação causal (o que não é acaso, é causa).   

Sim, é aceitável que microcefalia seja considerado um evento raro. Mas Zika é raro? Claro que não, em nosso meio. Mas daí o autor usou raras observações feitas de grávidas que moravam em lugares sem Zika, que transitoriamente passaram por países como o Brasil e terminaram com um filho acometido pela microcefalia. É raro mulheres não brasileiras pegarem Zika e microcefalia é raro. 

Esse método de rara exposição/raro desfecho é também chamado do “método do médico astuto”, pois caracteriza um caso inesperado (não procurado) com que o médico se depara e por ser astuto ele percebe algo importante. No entanto, o médico só seria astuto se tivesse se deparado com um caso raro/desfecho raro antes do modismo atual. 

Hoje em dia, reconhecer essa associação não faz de ninguém astuto. Não ser astuto significa que todo mundo está procurando uma associação dessa, portanto encontrar no mundo duas coisas raras coexistindo, quando o mundo todo está procurando por isso, deixa de ser raro. Este encontro deixa de ser improvável.

É pouco provável que essa rara coexistência seja encontrada aleatoriamente. Porém é muito provável que essa rara coexistência seja encontrada se todos os médicos do mundo estiverem procurando por isso. 

Sendo assim, aqui não estamos diante de uma coisa inusitada. Se procuramos é fácil encontrar coincidências raras. O raro é encontrar isso sem procurar, como faria o médico astuto. 

Portanto, esse é o sofisma mais inteligente de todos. 

Problema das Múltiplas Comparações


Isso nos remonta ao fenômeno que faz com que, no momento inicial de testes de hipóteses, haja uma grande prevalência de pequenos estudos positivos, pois está todo mundo tentando encontrar significância estatística em milhares de observações simultâneas no mundo. Ocorre o problemas das múltiplas comparações. 

Se apenas um estudo está sendo realizado e o alfa do estudo for 0.05, ao obter um valor de P < 0.05 o pesquisador vai rejeitar a hipótese nula e comprovar a hipótese de causalidade. Ele rejeita a hipótese nula pois tem no máximo 5% de probabilidade de errar por acaso. 

No entanto, imaginem que 1.000 pesquisadores estão testando uma mesma hipótese, que é falsa. Se cada pesquisador usar o alfa de 0.05 (como usual), 50 estudos serão positivos (P = 0.05) por acaso (falso-positivos). 1000 x 5% = 50 estudos.

Sabemos que no período inicial do teste de uma dada hipótese, o entusiasmo faz com que cada um desses 50 estudos falso-positivos tenham mais chance de ser publicados do que cada um dos 950 estudos verdadeiro-negativos (viés de publicação).

Os autores da revisão das evidências, publicada na mais importante revista médica do mundo, falam apenas dos Critérios de Shepard, criando um ambiente sofístico. Mas se esquecem que a premissa científica inicial é escrutinar a qualidade da evidência que dá suporte às análises de causalidade. Estas evidências são de qualidade insatisfatória.

Secundariamente, os autores ainda avaliam a causalidade pelos critérios de Hill, mas esta análise deve ter feito Hill levantar do caixão. Nem comentarei. 


O Estado da Arte


Do ponto de vista de experimental, está comprovado (in vitro) que o vírus da Zika tem competência para destruir neurônios. Esta informação traz plausibilidade biológica para a relação causal entre  infeção por Zika e aumento da incidência de microcefalia. Mas este é apenas o primeiro passo, precisamos evoluir para confirmação de associação em estudos de qualidade, seguida de ajustes estatísticos que demonstrem que a associação é independente de confundidores. O vírus mata neurônios, mas isso é diferente de dizer que o vírus é o causador de um suposto aumento substancial de microcefalia.

Neste momento, a discussão de causalidade não pode ser definitiva, como dizem as manchetes. Assim corremos o risco de sofismar. Esta questão será resolvida dentro de uns três anos, quando o entusiasmo baixar e as evidências positivas que estão rapidamente surgindo (viés de publicação é mais prevalente na fase inicial dos testes de hipótese) forem confrontadas com evidências negativas que aparecerão gradativamente. 

Depois de uma análise cuidadosa da totalidade das evidências, dentro de alguns anos, poderemos chegar a uma conclusão a respeito da probabilidade desta hipótese causal ser verdadeira. 

Por enquanto, vale mais a pena discutir o que é ciência: a humildade de reconhecer a incerteza das hipóteses e utilizar a lente do método científico na prevenção das ilusões criadas pelo mundo a nossa volta. 

_________________________________________________________________________________

Objetivos Didáticos da Postagem:

- Pensamento científico (ceticismo versus crença)
- Teste estatístico de hipóteses
- Casualidade versus causalidade
- Problema das múltiplas comparações
- Viés de publicação




segunda-feira, 4 de abril de 2016

Café Científico com Flávio Fuchs: SPRINT, HOPE e a definição de hipertensão



Apenas dois dias após a postagem de meus textos sobre as implicações dos estudos SPRINT e HOPE-3, Flávio Fuchs nos envia sua resposta, que chega 2:07 da madrugada desta segunda-feira, horário típico de nossos debates científicos. Aproveitem o texto, elegante em seu aspecto científico, guardando a peculiaridade de Flávio. 

Chamo a atenção da quantidade de referências próprias que Flávio traz, mostrando que aqui estamos debatendo com alguém que está na vanguarda da produção do conhecimento. 

Em postagem prévia, propus uma diferenciação entre cientistas e pesquisadores. Flávio é um Cientista com C maiúsculo, aquele que defende seus pontos de vista com a segurança de quem reconhece o valor da incerteza (vejam sua conclusão). 

Flávio com a palavra:

Estou sendo vítima de bullying não só pelo Luís Cláudio, mas também por outros amigos próximos, a respeito do SPRINT, HOPE-3 e meta-análises que têm sido publicadas, que aparentemente, questionam o entendimento que tenho sobre riscos de pressão arterial elevada e opções de tratamento. 

Antecipo que esses achados não mudam minha visão sobre a urgente necessidade, para meus queridos amigos e seus filhos, de estabelecer 120/80 mmHg como limite superior, talvez alto demais, da pressão normal. A pressão arterial de meus queridos próximos está resolvida, é de 110/70 mmHg em toda família, incluindo minha mãe, com 85 anos. Vamos todos viver 120 anos, se escaparmos do câncer e do caminhão desgovernado.

Os comentários de Luis, pertinentes e bem embasados, requereriam um tratado para serem refutados ou eventualmente apoiados. Tento extrair um extrato desses comentários, apontando fontes em que abordei os tópicos, os artigos completos podem ser obtidos diretamente comigo, se não disponíveis gratuitamente. Vamos por partes, como diria o amigo Jack, o estripador.

1. Desvio padrão amplo: abordagem matemática correta, mas somente útil para demonstrar que ensaios clínicos de estratégias, com alvos terapêuticos, como o SPRINT, são complexos e têm menor poder para detectar diferenças, pois as estratégias nem sempre se traduzem por efeito biológico paralelo. Dizendo em outras palavras, durante o seguimento do SPRINT pacientes do grupo 140 mmHg estiveram chocados e outros do grupo 120 mmHg em constante “crise hipertensiva”, como mostram os DPs estimados por Luís, diluindo a possibilidade de ocorrer diferenças devidas a real pressão arterial dos pacientes. É impossível, todos sabem, conseguir a pressão arterial alvo em boa parte de nossos clientes, os motivos são variados, mas não interessam aqui. Esse problema não tem importância para a interpretação do estudo, que não testa a ocorrência de desfechos primordiais por exposição a pressões diferentes. Testa, isso sim, a decisão de tentar levar abaixo de 140 ou abaixo de 120, ou seja, a bem conhecida, pelos leitores do blog, intenção de tratar. O trabalho poderia ser publicado e ter plena validade sem apresentar a figura de PA (com qualquer medida de dispersão). E até sem ter conseguido separar as medidas de tendência central, no caso a média de pressão arterial. Consiste em erro grosseiro de centenas de publicações, e dos pesquisadores que as interpretam, analisar os riscos de ocorrência de eventos por PA resultante de intervenções em análises secundárias de ensaios clínicos ou de coortes de pacientes, consideradas como exposição. A curva J não existe como resultado de tratamento. 

Discussão desse assunto pode ser encontrada em Fuchs FD, Blood pressure targets in the treatment of high blood pressure: a reappraisal of the J-shaped phenomenon. J Hum Hypertens. 2014 Feb;28(2):80-4

2. Menos efeito no AVC: os últimos ensaios clínicos norte-americanos, como no ACCORD, que foi quase paralelo ao SPRINT, têm demonstrado a espetacular redução da incidência de AVC que está ocorrendo lá e em outros países (parece que ainda não na querida Bahia, estou certo?). Há, em decorrência, acentuada perda de poder estatístico para análise desse evento. Mas concedo, talvez chance não explique tudo.

3. Insuficiência cardíaca: não é o caso de Luís, que estabelece crítica independente. Infelizmente ela está na linha dos detratores do ALLHAT e outros estudos que mostram particular eficácia de diuréticos. Passo longo tempo junto a meus alunos e residentes salientando que a ocorrência de IC, condição muito mórbida, certamente mais que morte súbita, angina tratável, e até infarto tratado precocemente, é desfecho maior e final da história natural da hipertensão arterial que não leva a cardiopatia isquêmica, AVC ou síndrome aórticas. Decorre não somente de disfunção sistólica, mas também da dita insuficiência cardíaca com função sistólica preservada, que se estuda dessa forma, procurando causas. Digo que essa procura é um exercício de futilidade, pois ela decorre de cardiopatia hipertensiva, ou até de cardiopatia valvar, a estenose aórtica dos veteranos, praticamente causada por PA elevada ao correr da vida. No SHEP e no SPRINT, estudos realmente bem feitos, a prevenção de incidência foi superior a 50%, convenhamos todos, um efeito espetacular.

4. A questão do AVC, da IC e do próprio infarto, perdem relevância no SPRINT ante a diminuição inequívoca de mortalidade, evento que não tem desvio padrão...

5. Sobre a prova de conceito: em parte está discutida acima e não tem qualquer equivalência com o exemplo do desfibrilador. O argumento aqui é muito extenso, mas felizmente também o tenho publicado, essa é de livre acesso: FuchsFD, Fuchs SC, Moreira LB, Gus M. Proof of concept in cardiovascular risk: theparadoxical findings in blood pressure and lipid abnormalities. Vasc HealthRisk Manag. 2012;8:437-42. É obvio que para a demonstração da prova de conceito apresentada no artigo se trabalha com estimativas: tanto os indivíduos sob risco de exposição a 110, 120, etc, classificados por medidas muito casuais de PA por métodos jurássicos (manguito de mercúrio, com ausculta), quanto os classificados como responsivos nos ensaios clínicos, podem ter tido amplas variações de PA, vide desvio-padrão.

6. Sobre graus de incerteza invoco Darwin: provavelmente todos os leitores, se não houver um texano ou religioso estrito, acredita na teoria da evolução. Recomendo a leitura de Popper sobre os aspectos filosóficos da formulação de boas teorias. De lá extraio o maior fundamento para a qualidade da teoria da evolução: coerência e possibilidade teórica de ser testada, ainda impossível. Baseou-se exclusivamente em coerência, pela observação exaustiva da natureza, sem qualquer ensaio clínico!!!! Riscos de PA superiores a 115/75 mmHg estão sobejamente demonstrados por observações e experimentos, de índios Mundurucus e Carajás ao estudo SPRINT, é hora de tratarmos de outros assuntos.

7. Breve nota sobre o HOPE-3, para os três leitores que chegaram até aqui: recomendo a leitura do editorial, já ajuda a entendê-lo, mas falta algo (ver a seguir). O editorialista fala de chance (é ensaio de tamanho médio), ou seja, do erro amostral. Traduzo: associação de um determinado valor de PA, correspondente a suas consequências hemodinâmicas sobre o vaso (pressões de cisalhamento, circunferencial e radial) são razoavelmente constantes e independentes de outros fatores em qualquer cm2 de endotélio. Esse valor existe e corresponde ao que seria teoricamente aferível em toda a humanidade. Como isso não é possível, estima-se o valor em diversas coortes e avalia-se sua reversão em diversos ensaios clínicos. Alguns têm maior chance de capturar o real risco e outros menores, com tendência dos resultados a agrupar-se ao redor do real valor (115/75 é um razoável valor, derivado de 61 estudos, realizados em vários cantos do mundo, com seguimento de 1 milhão de indivíduos/ano). Da mesma forma, os mais de 100 ensaios clínicos considerados para estabelecer as tendências centrais de reversão do risco têm dispersão ao redor da estimativa. Nesses estudos foram considerados ensaios clínicos realizados em pacientes com doença cardiovascular e que (quase) todos imaginam ter benefícios decorrentes de efeitos outros de anti-hipertensivos (HOPE 1, Europa, todos os estudos de IC, e outros), que atribuíram os benefícios a efeitos cardíacos, por exemplo, de inibidores da ECA e BRA. E no coração não tem receptor de angiotensina!! (para revisão desses estudos e ideias posso apontar antiga revisão minha sobre o tema, essa é cara, mas me peçamFuchs FD. Blood pressure-lowering drugs: essential therapy for some patients with normal blood pressure. Expert Rev Cardiovasc Ther. 2004Sep;2(5):771-5. Voltando ao ponto do erro amostral: o HOPE-3 é mais um estudo, e deve ter seus resultados avaliados frente ao conjunto desses estudos: podem contribuir para o aumento da precisão da estimativa existente, mas não podem substituí-la.

8. E ainda sobre o HOPE-3: o pobre, mas bota pobre nisso, efeito preventivo de eventos de BRA, foi desconsiderado pelos autores e pelo editorialista. A pobre da hidroclorotiazida ficou lá meio que sozinha, e ela também é fracota. Para revisão da hidrocloro (já velhinha, tem novos dados comprobatórios) podem me pedir Fuchs FD. Diuretics: still essential drugs for the management of hypertension. Expert Rev Cardiovasc Ther. 2009Jun;7(6):591-8. Sobre a pobreza dos BRA, incluindo ali a revisão da volumosa literatura sobre sua ineficácia, coloco as ordens os resultados do estudo PREVER-2: Fuchs FD e muitos queridos amigos. Effectiveness of chlorthalidone/amiloride versuslosartan in patients with stage I hypertension: results from thePREVER-treatment randomized trial. J Hypertens 2016; 2016 Apr;34(4):798-806.

9. E posso, por fim, cabe informar que o irmão do estudo acima, o PREVER-1, tem resultados muito interessantes, mas esperamos a publicação para julgamento pelos pares, incluindo o Luís Cláudio.

Avisei lá em cima que eu seria breve, imagine se não fosse. Encerro dizendo que não pretendo apropriar-me da verdade, mas buscar somente uma interpretação fundamentada para os fenômenos (não somente esse) que escrutino cientificamente, interpretando a literatura ou a produzindo, se possível. E posso, como bom cientista, estar errado.