Medicina Baseada em Evidências: abril 2016

segunda-feira, 18 de abril de 2016

Workshop de Pensamento Médico Baseado em Evidências

Colegas,

a convite da Universidade Federal Fluminense, na próxima semana promoveremos o curso de Pensamento Médico Baseado em Evidências, ao lado do Prof. Franz Porzsolt. Será um curso de dois dias, com 20 aulas, divididas entre eu e Prof. Porzsolt, abordando análise crítica de artigos científicos e raciocínio médico baseado em incerteza e probabilidade.

Porzsolt é professor da Universidade de Ulm na Alemanha e vem ao Brasil especialmente para este evento. Ele é uma grande referência na área de Medicina Baseada em Evidências e criador do conceito de Clinical Economics.

Esta é portanto uma parceria da Universidade Federal Fluminense, na pessoa de Tânia Thomaz, organizadora do curso, Escola Bahiana de Medicina e Saúde Pública e Universidade de Ulm.

Todos estão convidados.

Abaixo cartaz com detalhes de datas, local e inscrição para o curso.

domingo, 17 de abril de 2016

STICH versus STICHES: estudos discordantes ou concordantes?

Em 2011, no post “STICH: uma mudança de paradigma”, reconheci minha arrogância epistêmica ao ter a assumido durante anos o paradigma de que pacientes com disfunção ventricular grave se beneficiavam da revascularização miocárdica. O primeiro ensaio clínico randomizado de alta qualidade metodológica, o STICH, derrubara este paradigma que havia sido criado sem o devido embasamento científico. Foi uma lição de humildade para a comunidade cardiológica quando o STICH trouxe esta observação aparentemente adequada de que a mortalidade geral foi semelhante entre os grupos randomizados para cirurgia ou controle.

Cinco anos se passaram e acaba de ser publicado no mesmo New England Journal of Medicine o estudo STICHES, que conclui por uma “mortalidade significantemente menor no grupo cirúrgico, quando comparado ao tratamento clínico”.

E então, onde fica nossa eloquência do post de 2011?

O primeiro detalhe que me chamou atenção foi a semelhança de nome dos dois estudos. O segundo é apenas o plural do primeiro. Foi quando percebi que na verdade se tratavam do mesmo estudo, sendo que STICHES traz o resultado baseado em um seguimento mais prolongado do que o STICH. Enquanto aquele resultado negativo do STICH foi obtido no seguimento médio de 5 anos, o SITCHES mostra um resultado positivo quando o acompanhamento é extendido para 10 anos.

É correto estender o seguimento de um estudo?

Em primeiro lugar, em termos de ajustes metodológicos, é melhor estender o seguimento do que encurtar o seguimento de um estudo. Indo além, prolongar pode ser melhor do que não prolongar o seguimento. Ao prolongar um seguimento, aumentamos o número de desfechos, o que aumenta o poder estatístico. Isso pode ser bom pois reduz a probabilidade do erro tipo II (deixar de afirmar algo verdadeiro).

Para ser adequado, o prolongamento precisa ter dois critérios.

Primeiro, o novo tempo de seguimento deve ser definido, impedindo que o autor pare o estudo quando quiser. O problema ocorreria se esse prolongamento fosse feito na conveniência do resultado. Ou seja, vamos prolongar até conseguir significância estatística e quando isso ocorrer, paramos o estudo. Isso seria tendencioso. No STICHES o tempo de prolongamento foi pré-definido.

Segundo, durante o prolongamento a terapia dever continuar a ser oferecida e a qualidade do acompanhamento deve se manter. No caso, o paciente continua a ter seus enxertos durante o prolongamento, o que resolve a manutenção do tratamento. E no STICHES a qualidade do follow-up foi a mesma no tempo regulamentar e na prorrogação.

Ao validar o prolongamento do seguimento, poderíamos concluir que o resultado positivo do STICHES está correto e o resultado negativo do STICH foi um equívoco.

Essa é a correta interpretação?

Não exatamente ... Mostrarei porque.

A Magnitude do Efeito

Nos parágrafos anteriores julgamos que o resultado positivo apresentado pelo STICHES é verdadeiro, pois há baixo risco de viés e de acaso.

Depois de avaliar veracidade, devemos julgar a relevância (impacto, magnitude) do efeito da terapia. Neste particular, os autores nos trazem o NNT = 14, o que em geral é interpretado como indicativo de grande benefício.

Por outro lado, este NNT = 14 é obtido em seguimento médio de 10 anos, um tempo bastante prolongado. O paciente precisa se operar hoje, desfrutar de um certo aumento de mortalidade imediato (como em toda cirurgia, mas principalmente neste caso), assumir o desconforto físico e mental da cirurgia, além das eventuais sequelas cirúrgicas, em troca de uma possibilidade de se beneficiar durante um longo período de espera.

Enquanto o preço da cirurgia (sofrimento físico e estresse psicológico) é garantido para todos os 14 pacientes operados, o retorno deste investimento ocorre em apenas 1 dos 14 pacientes. Será que este benefício é relevante o suficiente para que o paciente faça a opção cirúrgica?

Isso sem considerar que este resultado cirúrgico obtido no STICH é de alto padrão, com baixa incidência de complicações. Aplicável a qualquer local?

Para aprofundar nossa reflexão, nada como uma boa analogia. Vamos comparar este benefício da cirurgia com um tratamento muito mais simples, que também reduz mortalidade em pacientes com insuficiência cardíaca: espironolactona em baixa dose. De acordo com o ensaio clínico RALES, a redução de mortalidade com esse simples diurético é expressa por um NNT = 9 em apenas 2 anos ! E isso é apenas um comprimido diário, algo muito menos agressivo do que uma cirurgia cardíaca.

E aí? O benefício obtido com a cirurgia é de fato relevante? Compensa ser operado mesmo? De fato, é uma reflexão caso a caso, mas não parece ser uma grande panacéia.

O STICHES é um bom exemplo de que ao olhar o valor do NNT, devemos pensar no tempo de seguimento para se obter aquele benefício. É o NNT se tornando relativo a depender do tempo. De fato, o tempo relativiza tudo, como já dizia um certo cientista no início do século passado.

Os autores do STICHES não consideraram esta questão ao espetacularizar o NNT do trabalho.

Por estas razões, em circunstância de tempo muito prolongado, o calculo do NNT em análises de sobrevida não é feito na maneira usual. Explicarei a seguir como deve ser feito.

O NNT do Hazard Ratio

Neste Blog, já abordamos muitas vezes cálculo de NNT e seus intervalos de confiança, mas nunca discutimos o cálculo do NNT utilizando o hazard ratio. Esta é uma forma mais avançada, que considera tempo de exposição e a probabilidade cumulativa do desfecho.

Normalmente não precisamos nos preocupar com esse ajuste do NNT, pois os tempos de seguimento em estudos são um tanto padronizados para cada doença (1-2 anos para insuficiência cardíaca, 5 anos para prevenção de eventos coronários, 30 dias para intervenções agudas no infarto). Porém quando o tempo se prolonga em demasia, gerando um trade-off entre o investimento na cirurgia (risco, sofrimento) na expectativa de um retorno em muito longo prazo, precisamos levar em consideração a analise de sobrevida.

Os autores do STICHES não fizeram isso, calcularam o NNT da forma tradicional, ou seja, 100 / redução absoluta do risco.

RAR = frequência de desfecho no grupo clínico - frequência de desfecho no grupo cirúrgico
RAR = 66.1% - 58.9% = 7.2%.
Então 100/7.2 = 14 cirurgias para 1 vida salva.

Este foi o cálculo simplório feitos pelos autores do STICHES.

Vamos agora sofisticar.

Para calcular o NNT considerando a análise de sobrevida (NNT_H), devemos obter do artigo a probabilidade cumulativa do desfecho e o hazard ratio. Lembrem que hazard é calculado pelo número de eventos / tempo de exposição (pessoas-tempo). Portanto hazard ratio é como um risco relativo que leva o tempo de exposição em consideração.

Tendo estes dados, podemos calcular o NNT_H utilizando a fórmula de Altman:

NNT_H = 1 / Prob Desfecho Grupo Controle^{Hazard Ratio} - Prob Desfecho Grupo Controle

O estudo não fornece numericamente o hazard (eventos/pessoas-ano), ou seja, a probabilidade cumulativa do desfecho. Mas olhando o gráfico de sobrevida (abaixo) podemos obter a mortalidade cumulativa, traçando uma linha imaginária nos 10 anos de seguimento, que é a mediana do tempo de seguimento. Observem na linha que a probabilidade cumulativa de morte no grupo controle é 0.69 (69%). Além disso, o artigo nos traz o hazard ratio para morte geral = 0.84.

Portanto,

NNT_H = 1 / 0.69^0.84- 0.69 = 25

Em se considerando o tempo de seguimento o NNT correto é 25.

Por que este NNT é diferente do original? A diferença está no uso dos dados da análise de sobrevida. Ao invés do risco de evento, usa-se hazard, que é uma probabilidade condicional. Esta parte da premissa de que a probabilidade de sobrevida muda na medida em que o paciente sobrevive a um primeiro período analisado. Imaginem um grupo de pacientes que são acompanhados durante 10 anos. Vamos dividir esse tempo em 10 períodos de 1 ano. No primeiro ano, alguns morrem. Os que sobram e entram no segundo ano terão uma probabilidade de morte menor do que o grupo inicial do estudo, pois os mais graves já morreram.

Desta forma, o calculo do hazard é condicional: o programa de computador divide o tempo em mini-períodos, calcula o hazard de cada um deles e multiplica o hazard de todos os períodos, encontrando o hazard final. Observem que 69% de probabilidade de evento no grupo controle (o que vemos no gráfico) é diferente da mortalidade de 66.1% descrita na tabela. O motivo da diferença é que hazard é diferente de risco.

Mas devemos ir além disso e calcular o intervalo de confiança deste NNT_H. Isso é importante pois na análise de sobrevida, na medida em que vão morrendo pacientes, vai tendo menos gente nos anos finais, o que reduz a precisão das estimativas. Portanto, devemos calcular os limites do intervalo de confiança do NNT utilizando os limites do intervalo de confiança do hazard ratio. De acordo com o artigo, o intervalo de confiança no nível 95% do hazard ratio é 0.73 - 0.97.

NNT_H = 1 / 0.69^0.73- 0.69 = 14
NNT_H = 1 / 0.69^0.97- 0.69 = 129

Desta forma, o NNT = 25 tem uma imprecisão representada por intervalo de confiança que vai de 14 a 129. Pasmem, a imprecisão é tão grande que não podemos descartar a possibilidade do NNT ser 129.

Conclusão

Antes de escrever esse post, reli o texto de 2011 sobre o STICH e para minha surpresa eu havia previsto o resultado do STICHES, sem nem mesmo saber que este estudo viria a ser publicado. Vejam minha colocação naquela época:

“Se o poder estatístico fosse ainda maior ou o seguimento fosse de 10 anos, poderia se encontrar uma pequena redução na frequência de morte no grupo cirúrgico, mas esse raciocínio de temporalidade faz com que esse benefício modesto não compense (se existir).”

Foi exatamente isso que aconteceu. O prolongamento do estudo, aumentou o número de desfechos, que aumentou o poder estatístico, que detectou uma diferença modesta.

O hazard ratio é o mesmo nos dois estudos, 0.86 no STICH e 0.84 no STICHES. Enquanto no STICH o número de desfecho não foi suficiente para dar significância estatística ao resultado, o mesmo hazard ratio consegue significância estatística no STICHES (P = 0.02, intervalo de confiança de 0.73 a 0.97 - por pouco não envolve o 1).

O poder estatístico para o STICH foi calculado para detectar um benefício relevante, enquanto o STICHES tem poder para benefícios menos relevantes.

Enquanto o STICH não demonstrou um benefício relevante, o STICHES demonstrou um benefício não relevante. Ambos são estudos negativos para um impacto relevante do tratamento.

STICH e STICHES são estudos concordantes.

_________________________________________________________________________________

Objetivos Didáticos da Postagem:

- Cálculo do NTT baseado no Hazard Ratio
- Revisão do conceito de Hazard Ratio
- Revisão do conceito de NNT
- Análise do prolongamento de seguimentos

quinta-feira, 14 de abril de 2016

O Sofisma Científico no Caso Zika e Microcefalia.

Em dezembro do ano passado, utilizei a suposta causalidade entre Zika e microcefalia com gancho para discutir o paradigma científico (ou ausência dele) no pensamento médico. O texto ganhou grande repercussão, com 57.000 acessos, citações na Folha de São Paulo e Associated Press. A partir daí, resolvi deixar o assunto de lado, pois nosso Blog não objetiva esgotar tópicos específicos, mas visa discutir ciência aplicada à medicina. Além do mais, sou cardiologista e fiquei cansado desse assunto.

Mas o assunto nunca me deixou de lado, pois colegas insistem em me mandar cada artigo publicado sobre o microcefalia. Este é o exemplo de Julival Ribeiro, infectologista e amigo de Brasília, um inconformado com a carência de pensamento científico sobre esta questão. Foi nesse contexto que Julival me mandou ontem uma manchete do CDC: "Zika Virus Definitely Causes Microcephaly", que cita um novo artigo do New England Journal of Medicine. Não li o artigo, deixei para depois, quando chega uma nova mensagem de Julival dizendo “vale a pena ler”. E nas horas subsequentes, mais três colegas me mandaram o artigo em PDF.

Daí pensei, deve ser uma nova evidência que surge, quem sabe algum estudo epidemiológico grande, mostrando uma decente associação entre Zika e microcefalia. Então resolvi verificar e me surpreendi com o fato de que não havia uma nova evidência, apenas uma análise das poucas evidências existentes até o momento.

O título do trabalho publicado ontem e que gerou essa posição “definitiva” do CDC é “Zika Virus and Birth Defects: Reviewing the Evidence for Causality”. Lendo a revisão, podemos confirmar que de fato há muito pouca evidência dando suporte à associação causal. Nenhuma novidade.

O que me chamou atenção neste artigo foi o espetacular sofisma científico criado pelos autores. Ficou irresistível, tive que voltar usar Zika e microcefalia para falar de ciência.

Aristóteles, o filósofo, foi o primeiro a dividir argumentos em duas classes: os verdadeiros e outros que não o são, embora pareçam. Estes últimos são os sofismas. Os sofismas parecem verdadeiros, pois são pautados em fatos verdadeiros. Porém estes fatos não levam necessariamente a argumentos verdadeiros.

O uso dos Critérios de Shepard para teratogênese criou um bom ambiente para sofismar, pois deu veracidade ao texto, uma veracidade baseada na autoridade de um cientista respeitável. Foi nesta ambientação que a aplicação das evidências existentes aos Critérios de Shepard se constituiu em um grande sofisma.

A leitura do artigo é um tanto cansativa, pois passa por vários critérios. Por isso vou resumir aqui a engenhosidade do sofisma. De acordo com os Critérios de Shepherd, a causalidade é sugerida quando os critérios 1, 3 e 2 ou 1, 3 e 4 estão presentes.

O critério 2 não se faz presente, tal como reconhecido pelos autores. Seria a existência de estudos epidemiológicos de alta qualidade. Sendo assim, sobra a combinação dos critérios 1, 3 e 4 para fechar a causalidade. O critério 3 existe, pois representa a descrição de um fenótipo específico relacionado aos casos. Os fenótipos estão bem descritos nos relatos.

Vamos então abordar os critérios 1 e 4, que nos apresentam interessantes sofismas.

O critério 4 diz que, em casos de associação exposição-desfecho, a exposição ao agente teratogênico deve ocorrer em momento crítico da gravidez (nos primeiros meses). Sim, há muitos relatos de casos em que a Zika foi diagnosticada nos primeiros meses.

O problema é que as observações não representam associações: quase todas são relatos de caso, representando co-existência, o que é diferente de associação, como mencionado em nossa postagem anterior. O único trabalho que demonstra associação foi a coorte longitudinal de 88 mulheres publicada recentemente no New England Journal of Medicine: 72 mulheres que tiveram sorologia positiva para Zika versus 16 de sorologia negativa. O primeiro grupo apresentou casos de filhos com defeitos congênitos, enquanto o segundo grupo não. Detalhe é que este estudo não traz o valor de P desta comparação. Por curiosidade eu calculei: P = 0.054, ou seja, esta associação, neste pequeno estudo, não alcançou significância estatística.

Portanto, este critério 4 (exposição nos primeiros meses de gravidez) é observado em relatos de caso (não são associações) e em um único estudo que "mostra" uma associação não estatisticamente significante. Sofismou, pois descreveu estudos, porém estes não são suficientes para conclusão.

Sofisma Estatístico

É a discussão do critério 1 a mais interessante do ponto de vista estatístico e científico. Este é o critério da combinação entre uma rara exposição associada a um raro desfecho (raro tipo de defeito congênito). A lógica desse critério é que a co-existência de duas coisas raras é aleatoriamente improvável. Tão improvável de ocorrer aleatoriamente, que sugere ser uma relação causal (o que não é acaso, é causa).

Sim, é aceitável que microcefalia seja considerado um evento raro. Mas Zika é raro? Claro que não, em nosso meio. Mas daí o autor usou raras observações feitas de grávidas que moravam em lugares sem Zika, que transitoriamente passaram por países como o Brasil e terminaram com um filho acometido pela microcefalia. É raro mulheres não brasileiras pegarem Zika e microcefalia é raro.

Esse método de rara exposição/raro desfecho é também chamado do “método do médico astuto”, pois caracteriza um caso inesperado (não procurado) com que o médico se depara e por ser astuto ele percebe algo importante. No entanto, o médico só seria astuto se tivesse se deparado com um caso raro/desfecho raro antes do modismo atual.

Hoje em dia, reconhecer essa associação não faz de ninguém astuto. Não ser astuto significa que todo mundo está procurando uma associação dessa, portanto encontrar no mundo duas coisas raras coexistindo, quando o mundo todo está procurando por isso, deixa de ser raro. Este encontro deixa de ser improvável.

É pouco provável que essa rara coexistência seja encontrada aleatoriamente. Porém é muito provável que essa rara coexistência seja encontrada se todos os médicos do mundo estiverem procurando por isso.

Sendo assim, aqui não estamos diante de uma coisa inusitada. Se procuramos é fácil encontrar coincidências raras. O raro é encontrar isso sem procurar, como faria o médico astuto.

Portanto, esse é o sofisma mais inteligente de todos.

Problema das Múltiplas Comparações

Isso nos remonta ao fenômeno que faz com que, no momento inicial de testes de hipóteses, haja uma grande prevalência de pequenos estudos positivos, pois está todo mundo tentando encontrar significância estatística em milhares de observações simultâneas no mundo. Ocorre o problemas das múltiplas comparações.

Se apenas um estudo está sendo realizado e o alfa do estudo for 0.05, ao obter um valor de P < 0.05 o pesquisador vai rejeitar a hipótese nula e comprovar a hipótese de causalidade. Ele rejeita a hipótese nula pois tem no máximo 5% de probabilidade de errar por acaso.

No entanto, imaginem que 1.000 pesquisadores estão testando uma mesma hipótese, que é falsa. Se cada pesquisador usar o alfa de 0.05 (como usual), 50 estudos serão positivos (P = 0.05) por acaso (falso-positivos). 1000 x 5% = 50 estudos.

Sabemos que no período inicial do teste de uma dada hipótese, o entusiasmo faz com que cada um desses 50 estudos falso-positivos tenham mais chance de ser publicados do que cada um dos 950 estudos verdadeiro-negativos (viés de publicação).

Os autores da revisão das evidências, publicada na mais importante revista médica do mundo, falam apenas dos Critérios de Shepard, criando um ambiente sofístico. Mas se esquecem que a premissa científica inicial é escrutinar a qualidade da evidência que dá suporte às análises de causalidade. Estas evidências são de qualidade insatisfatória.

Secundariamente, os autores ainda avaliam a causalidade pelos critérios de Hill, mas esta análise deve ter feito Hill levantar do caixão. Nem comentarei.

O Estado da Arte

Do ponto de vista de experimental, está comprovado (in vitro) que o vírus da Zika tem competência para destruir neurônios. Esta informação traz plausibilidade biológica para a relação causal entre infeção por Zika e aumento da incidência de microcefalia. Mas este é apenas o primeiro passo, precisamos evoluir para confirmação de associação em estudos de qualidade, seguida de ajustes estatísticos que demonstrem que a associação é independente de confundidores. O vírus mata neurônios, mas isso é diferente de dizer que o vírus é o causador de um suposto aumento substancial de microcefalia.

Neste momento, a discussão de causalidade não pode ser definitiva, como dizem as manchetes. Assim corremos o risco de sofismar. Esta questão será resolvida dentro de uns três anos, quando o entusiasmo baixar e as evidências positivas que estão rapidamente surgindo (viés de publicação é mais prevalente na fase inicial dos testes de hipótese) forem confrontadas com evidências negativas que aparecerão gradativamente.

Depois de uma análise cuidadosa da totalidade das evidências, dentro de alguns anos, poderemos chegar a uma conclusão a respeito da probabilidade desta hipótese causal ser verdadeira.

Por enquanto, vale mais a pena discutir o que é ciência: a humildade de reconhecer a incerteza das hipóteses e utilizar a lente do método científico na prevenção das ilusões criadas pelo mundo a nossa volta.

_________________________________________________________________________________

Objetivos Didáticos da Postagem:

- Pensamento científico (ceticismo versus crença)
- Teste estatístico de hipóteses
- Casualidade versus causalidade
- Problema das múltiplas comparações
- Viés de publicação

segunda-feira, 4 de abril de 2016

Café Científico com Flávio Fuchs: SPRINT, HOPE e a definição de hipertensão

Apenas dois dias após a postagem de meus textos sobre as implicações dos estudos SPRINT e HOPE-3, Flávio Fuchs nos envia sua resposta, que chega 2:07 da madrugada desta segunda-feira, horário típico de nossos debates científicos. Aproveitem o texto, elegante em seu aspecto científico, guardando a peculiaridade de Flávio.

Chamo a atenção da quantidade de referências próprias que Flávio traz, mostrando que aqui estamos debatendo com alguém que está na vanguarda da produção do conhecimento.

Em postagem prévia, propus uma diferenciação entre cientistas e pesquisadores. Flávio é um Cientista com C maiúsculo, aquele que defende seus pontos de vista com a segurança de quem reconhece o valor da incerteza (vejam sua conclusão).

Flávio com a palavra:

Estou sendo vítima de bullying não só pelo Luís Cláudio, mas também por outros amigos próximos, a respeito do SPRINT, HOPE-3 e meta-análises que têm sido publicadas, que aparentemente, questionam o entendimento que tenho sobre riscos de pressão arterial elevada e opções de tratamento.

Antecipo que esses achados não mudam minha visão sobre a urgente necessidade, para meus queridos amigos e seus filhos, de estabelecer 120/80 mmHg como limite superior, talvez alto demais, da pressão normal. A pressão arterial de meus queridos próximos está resolvida, é de 110/70 mmHg em toda família, incluindo minha mãe, com 85 anos. Vamos todos viver 120 anos, se escaparmos do câncer e do caminhão desgovernado.

Os comentários de Luis, pertinentes e bem embasados, requereriam um tratado para serem refutados ou eventualmente apoiados. Tento extrair um extrato desses comentários, apontando fontes em que abordei os tópicos, os artigos completos podem ser obtidos diretamente comigo, se não disponíveis gratuitamente. Vamos por partes, como diria o amigo Jack, o estripador.

1. Desvio padrão amplo: abordagem matemática correta, mas somente útil para demonstrar que ensaios clínicos de estratégias, com alvos terapêuticos, como o SPRINT, são complexos e têm menor poder para detectar diferenças, pois as estratégias nem sempre se traduzem por efeito biológico paralelo. Dizendo em outras palavras, durante o seguimento do SPRINT pacientes do grupo 140 mmHg estiveram chocados e outros do grupo 120 mmHg em constante “crise hipertensiva”, como mostram os DPs estimados por Luís, diluindo a possibilidade de ocorrer diferenças devidas a real pressão arterial dos pacientes. É impossível, todos sabem, conseguir a pressão arterial alvo em boa parte de nossos clientes, os motivos são variados, mas não interessam aqui. Esse problema não tem importância para a interpretação do estudo, que não testa a ocorrência de desfechos primordiais por exposição a pressões diferentes. Testa, isso sim, a decisão de tentar levar abaixo de 140 ou abaixo de 120, ou seja, a bem conhecida, pelos leitores do blog, intenção de tratar. O trabalho poderia ser publicado e ter plena validade sem apresentar a figura de PA (com qualquer medida de dispersão). E até sem ter conseguido separar as medidas de tendência central, no caso a média de pressão arterial. Consiste em erro grosseiro de centenas de publicações, e dos pesquisadores que as interpretam, analisar os riscos de ocorrência de eventos por PA resultante de intervenções em análises secundárias de ensaios clínicos ou de coortes de pacientes, consideradas como exposição. A curva J não existe como resultado de tratamento.

Discussão desse assunto pode ser encontrada em Fuchs FD, Blood pressure targets in the treatment of high blood pressure: a reappraisal of the J-shaped phenomenon. 2014 Feb;28(2):80-4

2. Menos efeito no AVC: os últimos ensaios clínicos norte-americanos, como no ACCORD, que foi quase paralelo ao SPRINT, têm demonstrado a espetacular redução da incidência de AVC que está ocorrendo lá e em outros países (parece que ainda não na querida Bahia, estou certo?). Há, em decorrência, acentuada perda de poder estatístico para análise desse evento. Mas concedo, talvez chance não explique tudo.

3. Insuficiência cardíaca: não é o caso de Luís, que estabelece crítica independente. Infelizmente ela está na linha dos detratores do ALLHAT e outros estudos que mostram particular eficácia de diuréticos. Passo longo tempo junto a meus alunos e residentes salientando que a ocorrência de IC, condição muito mórbida, certamente mais que morte súbita, angina tratável, e até infarto tratado precocemente, é desfecho maior e final da história natural da hipertensão arterial que não leva a cardiopatia isquêmica, AVC ou síndrome aórticas. Decorre não somente de disfunção sistólica, mas também da dita insuficiência cardíaca com função sistólica preservada, que se estuda dessa forma, procurando causas. Digo que essa procura é um exercício de futilidade, pois ela decorre de cardiopatia hipertensiva, ou até de cardiopatia valvar, a estenose aórtica dos veteranos, praticamente causada por PA elevada ao correr da vida. No SHEP e no SPRINT, estudos realmente bem feitos, a prevenção de incidência foi superior a 50%, convenhamos todos, um efeito espetacular.

4. A questão do AVC, da IC e do próprio infarto, perdem relevância no SPRINT ante a diminuição inequívoca de mortalidade, evento que não tem desvio padrão...

5. Sobre a prova de conceito: em parte está discutida acima e não tem qualquer equivalência com o exemplo do desfibrilador. O argumento aqui é muito extenso, mas felizmente também o tenho publicado, essa é de livre acesso: FuchsFD, Fuchs SC, Moreira LB, Gus M. Proof of concept in cardiovascular risk: theparadoxical findings in blood pressure and lipid abnormalities. Vasc HealthRisk Manag. 2012;8:437-42. É obvio que para a demonstração da prova de conceito apresentada no artigo se trabalha com estimativas: tanto os indivíduos sob risco de exposição a 110, 120, etc, classificados por medidas muito casuais de PA por métodos jurássicos (manguito de mercúrio, com ausculta), quanto os classificados como responsivos nos ensaios clínicos, podem ter tido amplas variações de PA, vide desvio-padrão.

6. Sobre graus de incerteza invoco Darwin: provavelmente todos os leitores, se não houver um texano ou religioso estrito, acredita na teoria da evolução. Recomendo a leitura de Popper sobre os aspectos filosóficos da formulação de boas teorias. De lá extraio o maior fundamento para a qualidade da teoria da evolução: coerência e possibilidade teórica de ser testada, ainda impossível. Baseou-se exclusivamente em coerência, pela observação exaustiva da natureza, sem qualquer ensaio clínico!!!! Riscos de PA superiores a 115/75 mmHg estão sobejamente demonstrados por observações e experimentos, de índios Mundurucus e Carajás ao estudo SPRINT, é hora de tratarmos de outros assuntos.

7. Breve nota sobre o HOPE-3, para os três leitores que chegaram até aqui: recomendo a leitura do editorial, já ajuda a entendê-lo, mas falta algo (ver a seguir). O editorialista fala de chance (é ensaio de tamanho médio), ou seja, do erro amostral. Traduzo: associação de um determinado valor de PA, correspondente a suas consequências hemodinâmicas sobre o vaso (pressões de cisalhamento, circunferencial e radial) são razoavelmente constantes e independentes de outros fatores em qualquer cm2 de endotélio. Esse valor existe e corresponde ao que seria teoricamente aferível em toda a humanidade. Como isso não é possível, estima-se o valor em diversas coortes e avalia-se sua reversão em diversos ensaios clínicos. Alguns têm maior chance de capturar o real risco e outros menores, com tendência dos resultados a agrupar-se ao redor do real valor (115/75 é um razoável valor, derivado de 61 estudos, realizados em vários cantos do mundo, com seguimento de 1 milhão de indivíduos/ano). Da mesma forma, os mais de 100 ensaios clínicos considerados para estabelecer as tendências centrais de reversão do risco têm dispersão ao redor da estimativa. Nesses estudos foram considerados ensaios clínicos realizados em pacientes com doença cardiovascular e que (quase) todos imaginam ter benefícios decorrentes de efeitos outros de anti-hipertensivos (HOPE 1, Europa, todos os estudos de IC, e outros), que atribuíram os benefícios a efeitos cardíacos, por exemplo, de inibidores da ECA e BRA. E no coração não tem receptor de angiotensina!! (para revisão desses estudos e ideias posso apontar antiga revisão minha sobre o tema, essa é cara, mas me peçam: Fuchs FD. Blood pressure-lowering drugs: essential therapy for some patients with normal blood pressure. Expert Rev Cardiovasc Ther. 2004Sep;2(5):771-5. Voltando ao ponto do erro amostral: o HOPE-3 é mais um estudo, e deve ter seus resultados avaliados frente ao conjunto desses estudos: podem contribuir para o aumento da precisão da estimativa existente, mas não podem substituí-la.

8. E ainda sobre o HOPE-3: o pobre, mas bota pobre nisso, efeito preventivo de eventos de BRA, foi desconsiderado pelos autores e pelo editorialista. A pobre da hidroclorotiazida ficou lá meio que sozinha, e ela também é fracota. Para revisão da hidrocloro (já velhinha, tem novos dados comprobatórios) podem me pedir Fuchs FD. Diuretics: still essential drugs for the management of hypertension. Expert Rev Cardiovasc Ther. 2009Jun;7(6):591-8. Sobre a pobreza dos BRA, incluindo ali a revisão da volumosa literatura sobre sua ineficácia, coloco as ordens os resultados do estudo PREVER-2: Fuchs FD e muitos queridos amigos. Effectiveness of chlorthalidone/amiloride versuslosartan in patients with stage I hypertension: results from thePREVER-treatment randomized trial. J Hypertens 2016; 2016 Apr;34(4):798-806.

9. E posso, por fim, cabe informar que o irmão do estudo acima, o PREVER-1, tem resultados muito interessantes, mas esperamos a publicação para julgamento pelos pares, incluindo o Luís Cláudio.

Avisei lá em cima que eu seria breve, imagine se não fosse. Encerro dizendo que não pretendo apropriar-me da verdade, mas buscar somente uma interpretação fundamentada para os fenômenos (não somente esse) que escrutino cientificamente, interpretando a literatura ou a produzindo, se possível. E posso, como bom cientista, estar errado.

domingo, 3 de abril de 2016

A Verdadeira Mensagem do Estudo HOPE-3 (Braço Hipertensão)

Há dois dias publicamos nossa análise sobre o ensaio clínico SPRINT, na qual propusemos a valorização da incerteza sobre a ideia de que aquele estudo respaldaria valores pressóricos > 120 mmHg como fator de risco cardiovascular.

Ontem foi apresentado no congresso do American College of Cardiology e publicado simultaneamente no New England Journal of Medicine, o ensaio clínico HOPE-3, que traz mais dúvida a respeito da hipótese citada acima.

O HOPE-3 estudou pacientes não hipertensos ou hipertensos com pressão arterial satisfatoriamente controlada. A média de pressão arterial da amostra foi 138 ± 15 mmHg para sistólica e 82 ± 9.4 mmHg para diastólica. Percebam que os valores médios de pressão estão abaixo da faixa que define hipertensão, mas dentro de uma faixa que poderia representar um fator de risco para o sistema cardiovascular. Esta possibilidade é embasada por estudos epidemiológicos (observacionais) que mostram aumento de risco a partir de valores > 115 mmHg. Por este motivo, pensadores científicos como Flávio Fuchs argumentam sobre a necessidade de testar essa hipótese.

Pois bem, o HOPE-3 representa um ótimo teste desta hipótese, pois randomiza 12.700 destes pacientes para tratamento anti-hipertensivo (candezartan/hidroclorotiazida) versus placebo. Se houver redução de risco, confirma-se a relação de causalidade entre pressão arterial nestes níveis intermediários e eventos cardiovasculares. Seria a presença do mais importante dentre os critérios de causalidade propostos por Bradford Hill: o princípio da reversibilidade, quando o tratamento do suposto fator de risco reduz o risco.

Conforme esperado, o grupo tratamento desfrutou de maior redução de pressão arterial quando comparado ao grupo controle. No entanto, não houve redução do desfecho primário (4.1% vs. 4.4%, P = 0.41), definido pelo combinado de morte, infarto, AVC. Reforçando a negatividade do resultado, a análise individual dos componentes do desfecho não mostrou diferença a favor do grupo tratamento.

Em um estudo negativo, devemos nos preocupar principalmente com a possibilidade do erro aleatório tipo II, que pode "negativa" um eventual resultado positivo do ensaio. Lembrando, o erro tipo II é aquele no qual a falta de poder estatístico torna o estudo incapaz de rejeitar a hipótese nula quando esta é falsa. Em outras palavras, incapaz de afirmar uma associação que existe.

Para explorar a possibilidade de erro tipo II, devemos procurar algumas pistas: (1) Há uma diferença numérica entre os grupos? (2) O valor de P é limítrofe, tendendo a significância estatística? (3) O estudo possuía poder estatístico para encontrar diferenças relevantes?

Observem no gráfico abaixo, da sobrevida livre de eventos, que as curvas são bem sobrepostas. Ou seja, não estamos diante de uma diferença que não alcançou significância estatística.
O valor de P é bastante alto, bem fora daquela faixa que por vezes se denomina de tendência a significância estatística.
Este é um estudo grande (12.700 pacientes), com grande número de desfechos (1.179). Nos métodos, vemos que o estudo foi dimensionado para 80% de poder de detectar uma redução relativa do risco de 22%. Para isso, o estudo precisava obter 500 desfechos. E obteve. Portanto, não é um estudo que carece de poder estatístico.

Nesta análise, devemos reconhecer que a leitura mecanicista de um estudo (relevância científica) deve exigir poder estatístico capaz de detectar menores reduções de risco do que a leitura voltada para o conceito pragmático (relevância clínica do efeito - NNT). Reduções menores de desfecho podem sugerir causalidade, embora não impliquem em indicação terapêutica, devido a seu pequeno impacto clínico.

Por isso, quando interpretamos um estudo do ponto de vista mecanicista, devemos ficar mais atentos para o poder estatístico, pois este é normalmente calculado sob o paradigma pragmático.

Esta é um observação que menciono com intuito didático. Mas aplicando este pensamento ao HOPE-3, a grande semelhança na incidência de desfecho entre os dois grupos nos deixa tranquilos em relação à probabilidade do erro tipo II.

Análise de Subgrupo

De acordo com o média e desvio-padrão da pressão sistólica basal (139 ± 20 mmHg), em torno de metade dos pacientes do HOPE-3 possuem pressão sistólica > 140 mmHg. Ou seja, boa parte dos pacientes está acima da faixa intermediária que trago para esta discussão. Isto dá uma maior importância à análise de subgrupo.

A análise de subgrupo mostra interação significativa (P = 0.009) entre esta faixa de pressão > 144 mmHg e benefício do tratamento. Ou seja, pressão > 144 mmHg (tercil superior) se associa a benefício do tratamento, diferente de níveis abaixo disso.

Como interpretar essa análise?

Sabemos do cuidado que devemos ter com análise de subgrupo, no sentido de que nunca a conclusão do estudo deve priorizar o resultado de um subgrupo em detrimento do resultado geral. Quando um estudo é negativo, um subgrupo positivo deve ser interpretado apenas como gerador de hipótese (se houver plausibilidade, se o subgrupo for definido a priori, se houver interação significativa). Portanto, a conclusão do estudo é negativa, como foi colocado pelos autores, e o efeito benéfico em pacientes com pressão sistólica maior seria uma possibilidade.

Mas no presente caso, diferente do que parece, a análise de subgrupo reforça o resultado do estudo, em vez de contradizer. Por que digo isso? Vejam que do ponto de vista pragmático, já tratamos pacientes com pressão > 140 mmHg, e do ponto de vista etiológico, já consideramos hipertensão níveis > 140 mmHg. Portanto, o original deste estudo está nos pacientes com pressão < 140 mmHg. E nesses pacientes a análise de subgrupo não mostra qualquer tendência a benefício.

Estamos aqui na situação em que a análise de subgrupo mostra a consistência do resultado principal do estudo (que foi negativo). Mostrar consistência de algo verdadeiro é a função mais nobre de análises de subgrupo.

Voltando ao Mestre Flávio (Fuchs)

Flávio vai preparar uma réplica a minha postagem de dois dias atrás, sobre o SPRINT. Falei para ele não ter pressa, fazer com calma, quando der na telha. Mas ao longo do dia de ontem, surgiu o resultado do HOPE-3. Isto tornou mais difícil o seu contra-argumento.

Do ponto de vista pragmático, o HOPE-3 sugere que não há benefício em reduzir a pressão arterial para níveis inferiores aos padrões tradicionais. Do ponto de vista mecanicista, seguindo o pensamento bayesiano, o HOPE-3 reduz a probabilidade da hipótese de Flávio estar correta: níveis de pressão arterial intermediários, não definidos como hipertensão, representam fator de risco cardiovascular?

O bom é que pessoas fora de série se superam diante de desafios. Com certeza, o mestre Flávio vai tirar um coelho da cartola.

________________________________________________________________________________

OBS: O HOPE-3 trouxe o apelo supostamente original de ter estudado pacientes de risco intermediário. Explicarei em mensagem futura porque isto é irrelevante, motivo pelo qual não mencionei este aspecto nesta postagem. Será um comentário com interessante aspecto didático. Em breve farei isso, hoje é domingo, tenho afazeres familiares.

_________________________________________________________________________________

Objetivos Didáticos da Postagem:

Estudos pragmáticos versus mecanicistas.
Princípio da reversibilidade
Análise de erro tipo II
Poder estatístico de estudos mecanicistas
Análise de subgrupo