quarta-feira, 30 de maio de 2012

Fama sem Proveito: Estudo FAME-II



Ainda não publicado, o estudo FAME-II já está servindo de argumento para os lobistas anti COURAGE Trial, aqueles de mentalidade do médico ativo, que procuram justificar revascularizações em pacientes sem indicação deste procedimento. O estudo FAME-II tem um desenho semelhante ao COURAGE, no sentido de que randomizou pacientes com doença coronária estável (sintomáticos e assintomáticos) para implante de stent + tratamento clínico otimizado versus tratamento clínico otimizado. A diferença é que a intervenção coronária foi guiada por fractional flow reserve (FFR), ou seja, tinha comprovação hemodinâmica de redução de fluxo. Digamos, uma escolha mais criteriosa de que lesões seriam tratadas.

Apos incluir 1.219 pacientes, o FAME-II foi interrompido pois “mostrou um claro benefício da estratégia intervencionista”. Aí está, mais um estudo truncado por benefício. Mais um resultado com possibilidade de ser decorrente do erro tipo I (acaso),  por de ter sido interrompido antes da hora.

Mas mesmo que não houvesse truncamento, precisaríamos discutir estes resultados mais a fundo. Devemos nos perguntar se este resultado traz algo de novo, se contraria os dados “conservadores” do COURAGE, como alguns estão argumentando.

Claro que não, é exatamente o contrário, pois o FAME-II não mostrou redução de mortalidade, nem redução de infarto – exatamente como o COURAGE. O que reduziu foi apenas incidência de hospitalização por sintomas e necessidade de revascularização. Exatamente como o COURAGE, que mostrou apenas melhora dos sintomas.

Portanto, o FAME-II confirma os dados do COURAGE.

Outro aspecto é que o desfecho revascularização do FAME-II foi definido como necessidade de revascularização urgente, conotando um tipo de desfecho aparentemente mais importante do que simplesmente revascularização. Ou seja, sugerindo que seria um desfecho instável. No entanto, não faz tanto sentido que um desfecho que caracteriza instabilidade seja reduzido, se infarto não apresentou redução. Digo, uma verdadeira necessidade de revascularização urgente significa o extremo de gravidade de pacientes com síndromes coronarianas agudas. Qual a lógica do tratamento prevenir este desfecho, se não previne infartos em geral? Precisaremos ler a definição deste desfecho no artigo a ser publicado futuramente.

Outro aspecto importante é que os dois únicos desfechos que mostraram benefício da estratégia intervencionista são susceptíveis ao viés de aferição, devido à característica aberta do estudo. Isso mesmo, o estudo não é cego, pois é difícil cegar estudos de intervenção versus tratamento clínico. Os dois desfechos (internamento por angina e revascularização) são eventos que decorrem de decisão médica. Ou seja, se internar ou ter uma revascularização indicada depende da vontade do médico. Desta forma, ao saber que seu paciente foi randomizado para não fazer intervenção coronária, o médico fica com a impressão de maior vulnerabilidade do paciente e fica mais propício a indicar internamento ou revascularização a qualquer sintoma. Daí surge uma tendência de que estes desfechos sejam mais frequentes em pacientes randomizados para o tratamento não intervencionista. Aí está uma típica combinação de desfechos moles (softs) com um estudo aberto, o que predispõe a falsos resultados.

Sendo assim, pelo caráter truncado e potencial viés de aferição, é possível que este aparente benefício seja falso. Segundo, mesmo sendo verdadeiro, este resultado está de acordo com o COURAGE: o que a intervenção faz é controlar sintomas, sem impacto sobre eventos de maior gravidade.

Porém desde já tenho ouvido argumentos utilizando este estudo contra o paradigma do estudo COURAGE. É Possível que o FAME-II se alie ao esdrúxulo subestudo nuclear do COURAGE, um dos mais citados pelos que gostam de defender o tratamento intervencionista.

Este subestudo avaliou um subgrupo de pacientes do COURAGE que fez cintilografia miocárdica antes e depois do tratamento. Mostrou que pacientes que apresentavam redução da isquemia com o tratamento (seja clínico, seja intervencionista) tiveram melhor prognóstico.

E com isso, muitos começam a sugerir que se houver isquemia, o paciente deve ser revascularizado. Qual a lógica disso?

Observem que esta análise em momento algum comparou angioplastia versus tratamento clínico, portanto não pode falar em tratamento. Pacientes que melhoram a isquemia (com qualquer tratamento) são de menor risco, menor complexidade da doença coronária, e provavelmente por isso têm melhor prognóstico. De acordo com isso, ao ajustar (análise multivariada) para as características clínicas, a significância estatística desta diferença prognóstica desapareceu totalmente. No entanto, este estudo é citado com muita frequência em encontros médicos, como uma evidência a favor da intervenção coronária. Tenho uma nítida sensação que este estudo não está sendo lido pelas pessoas, que apenas repetem o que ouvem falar ser o significado de seus resultados. Se lessem com o mínimo de atenção, chegariam a mesma conclusão que aqui exponho.

Mas podem esperar: o FAME-II vai se juntar (já está se justando) ao esdrúxulo subestudo nuclear do COURAGE, como mais uma evidência a favor da mentalidade do médico ativo.

Isto predispõe ao fenômeno descrito na língua inglesa como medical reversal. Este fenômeno é caracterizado por criarmos falsos paradigmas que em pouco tempo são revertidos por evidências científicas. E isso não é bom, pois muitas vezes estes falso paradigmas promovem condutas desnecessárias, às vezes até maléficas.

Em fase inicial está o estudo ISCHEMIA, semelhante ao COURAGE, porém limitado a pacientes com isquemia miocárdica moderada a severa. Só espero que daqui a alguns anos o ISCHEMIA não seja truncado por aparente benefício.

segunda-feira, 21 de maio de 2012

Viés de Análise de Dados - Bahia vs. Vitória


Em resposta à nossa última postagem, Paulo Rocha, professor adjunto da Faculdade de Medicina da UFBA e que leciona bioestatística na pós-graduação, nos enviou o gráfico acima, com as estatística dos campeonatos baianos. Baseado nas curvas construídas, Paulo argumenta a favor da superioridade do Vitória, tentando rejeitar a hipótese nula de semelhança entre os times. 

No entanto, uma análise mais cuidadosa demonstra que as curvas que Paulo contruiu acima das barras não representam tendência alguma, pois são fortemente influenciadas pelo valor extremo (outlier) da última década. Valores extremos podem distorcer fortemente a análise dos dados. Percebam que o comportamento do Bahia é uma constante, exceto pela última década. A última década ocorreu por acaso e na década de 2010 veremos o fenômeno de regressão à média normalizar tudo a favor do Bahia. 

Percebam que ao analisar um trabalho científico, devemos estar atentos para o viés de análise dos dados, que compromete a veracidade do resultado. Neste caso, apesar de seu inquestionável conhecimento estatístico, a análise de Paulo foi prejudicada por seu conflito de interesse a favor do Vitória.

Réplica

Meu caro amigo Luís,

É um prazer bater essa bola com você aqui na bioestatística, uma vez que, de futebol mesmo, nós não entendemos nada! Acho que o meu gráfico atingiu em cheio o seu sofrido coração tricolor e turvou a sua mente porque, pela primeira vez desde que leio o seu blog, notei alguns comentários improcedentes! Vamos a eles?

Eu não avaliei uma AMOSTRA ALEATÓRIA de edições do Campeonato Baiano. O gráfico mostra TODOS os campeonatos Baianos desde o início da existência do Bahia (1931). Como a POPULAÇÃO inteira de campeonatos foi avaliada, cabe apenas o uso da estatística descritiva. Por isso, não há hipótese nula a ser rejeitada e não é necessário realizar inferência estatística. Os dados representam a verdade absoluta. Não há erro padrão. 

Neste período, o Bahia ganhou o campeonato 44 vezes e o Vitória apenas 24. Este fato é incontestável. A intenção do gráfico foi de descrever como essas conquistas se distribuíram ao longo das décadas. Esta distribuição também é incontestável! Nas últimas 3 décadas, houve uma queda progressiva no número de títulos do Bahia enquanto, no mesmo período, houve um aumento progressivo no número de títulos do Vitória. Estamos falando de um comportamento progressivo ao longo de 3 décadas. Acho que isto qualifica como uma tendência. E a tendência é de queda para o Bahia e ascensão para o Vitória! No entanto, estatística não é bolinha de cristal e não pode garantir que esta tendência vai continuar na próxima década... Infelizmente. 

Como um apaixonado (e enviesado!) torcedor do Bahia, você está querendo apagar a última década da sua mente, chamando-a de outlier! Pior: está atribuindo uma década inteira ao acaso!! Nesta década, o Bahia passou 7 anos na série B e só ganhou um título! Isto não aconteceu por acaso!! O time era muito ruim mesmo.

Enfim, ao ler o seu post, concordei com apenas uma afirmativa: “valores extremos podem distorcer fortemente a análise dos dados”. Com certeza! Mas não é o caso aqui.

Saudações rubro-negras! 



TRÉPLICA


Boa observação, inclusive de importante teor educativo. De fato, quando trabalhamos com populações, não se aplica estatística, não há hipótese, valores de P, erros-padrão, nem intervalos de confiança. 


Estamos discutindo que time é melhor. Veja que esta discussão já não tem lógica, pois a cada período o time é diferente, assim como os seus gestores. Não é como se fosse uma mesma pessoa ou um jogador de tênis. Mas já que esta discussão existe, me permitirei o seguinte argumento:


Imagine que estes times ainda terão muitas décadas de vida, digamos uns 300 anos. Seu gráfico representa uma amostra de todo tempo de vida deste times. É uma amostral temporal, pois não computa o que está por vir. E estamos discutindo que é melhor, como se Deus tivesse feito um time melhor que o outro. Portando uma década dentro de 40 décadas pode ser visto como um outlier.


Valeu pelo didáctico comentário. 

domingo, 20 de maio de 2012

Curso de Medicina Baseada em Evidências

Este curso é organizado pelo Grupo de Estudos em Epidemiologia e Cardiologia Baseada em Evidências (GEECABE) da Sociedade Brasileira de Cardiologia, em parceria com o FUNCORDIS, fundação de cardiologia em Recife. Ocorrerá como parte do Congresso Brasileiro de Cardiologia, em Recife, no dia reservado para os eventos pré-congresso. 

Xigris: Uma Lucrativa Falácia Provocada por um Estudo Truncado



Como a Eli Lilly and Company conseguiu convencer as agências reguladoras e a comunidade médica de que o placebo denominado alfa-drotrecogina (Xigris) reduzia mortalidade em pacientes com sepse severa?

Em outubro do ano passado, o fabricante deste placebo suspendeu “voluntariamente” sua lucrativa comercialização, devido aos achados negativos do estudo PROWESS-SHOCK (ainda não publicado). A suspensão da venda do Xigris ocorre após vários anos de utilização na prática clínica, sob o custo estimado no Brasil de R$ 56.000 por paciente, tal como estimado pelo Blog Médico Nerd.

Na verdade, a suspensão da droga não foi tão “voluntária” assim, pois o FDA e a EMEA (agência européia) fariam esta recomendação de qualquer forma. É como aquele político que renuncia antes de ser cassado. 

Como o PROWESS-SHOCK ainda não foi publicado, não podemos analisá-lo com detalhe. O que sabemos é que este estudo incluiu o tipo de paciente que mais se beneficiou no estudo PROWESS, ou seja, pacientes mais graves, em choque séptico. Sendo assim, este foi um estudo negativo, a despeito de otimizado para encontrar benefício. Por não estar publicado na íntegra, nossa análise do PROWESS-SHOCK só pode ir até este ponto. Mas o que precisamos realmente analisar é o estudo PROWESS, pois foi este que gerou a lucrativa falácia.

Este estudo foi publicado em 2001 no New England Journal of Medicine, tendo testado o novo invento da proteína C-ativada versus placebo, em pacientes com sepse severa. Este trabalho demonstrou redução de mortalidade com a droga. Sendo assim, o FDA liberou a droga para comercialização e a comunidade médica adotou a terapia de forma entusiasmada. Vale salientar que dentro do FDA a liberação foi bastante controversa, com 10 votos a favor e 10 votos contra.

Hoje sabemos que o estudo PROWESS rejeitou a hipótese nula (ausência de benefício), quando esta era verdadeira. Este é chamado de erro tipo I. Este caso tem sido usado como exemplo do poder da indústria em convencer médicos de falsas verdades.

Mas o que precisamos é discutir qual foi o mecanismo metodológico utilizado para gerar esta falsa verdade. Para descobrir o motivo do engano, devemos utilizar nosso roteiro e analisar criticamente a veracidade da informação que sugere redução de mortalidade.

Observem que este é um estudo de intervenção, randomizado, que compara grupos muito semelhantes, o que elimina fatores de confusão que possam ser responsáveis pelo resultado; não há viés de aferição do desfecho, pois é um estudo duplo-cego e desfecho é morte, bastante objetivo; as diferenças encontradas foram estatisticamente significantes (P = 0.005), mortalidade foi desfecho pré-definido como primário (ausência do problema das múltiplas comparações, que aumentaria a probabilidade do acaso). Então, aonde está o problema? Parece ser um estudo de boa qualidade, de tamanho amostral razoável, classificado como de fase III. Ou seja, daquele tipo de estudo que tem o potencial de mudar conduta clínica. Por esta aparente qualidade metodológica, o estudo foi convincente.

Porém há uma limitação que geralmente passa pelo crivo científico, principalmente há 10 anos atrás, quando pouco se falava nisso: este foi um estudo truncado.

Estudos truncados são aqueles interrompidos precocemente devido a resultados positivos. É quando o autor fica tão entusiasmado com o resultado interino, que resolve terminar o estudo e concluir pelo benefício da droga. Já comentamos neste Blog que este tipo de estudo pode superestimar a diferença entre os grupos ou em alguns casos indicar uma diferença inexistente. A maioria destes estudos possuem critérios estatísticos pré-definidos para o truncamento, mas isso não resolve o problema, pois pré-definir que vai fazer uma coisa errada não elimina o erro. Esse negócio de truncamento com critérios pré-definidos não passa de uma forma mais elegante aplicar um método tendencioso.

O truncamento é ótimo para a indústria, pois garante o resultado e ainda economiza por ter interrompido um estudo de alto custo.

Normalmente os autores justificam o truncamento por motivos éticos, ou seja, uma vez demonstrado o benefício, seria anti-ético insistir em continuar o estudo com metade dos pacientes usando placebo. Isso é uma das coisas mais esdrúxulas, pois ao truncar um estudo, sua veracidade se torna questionável e nada fica demonstrado. Quanto mais um benefício de tal magnitude que proíba a continuidade do estudo. Anti-ético é gerar uma falsa verdade.

Anti-ético é promover a comercialização de um placebo de alto custo, que compromete o tênue equilíbrio financeiro do sistema de saúde, sem trazer benefício clínico.

Truncar um estudo por benefício é errado e injustificável, apesar de que cada vez mais frequente. Ao contrário desta situação, vale salientar duas justificativas aceitáveis para interromper um ensaio clínico precocemente: primeiro, quando o novo tratamento está trazendo prejuízo significativo, ou seja, interromper por efeito colaterais. Vejam que isto é muito diferente de interromper porque parece que o tratamento é bom. Segundo, é aceitável interromper um estudo por futilidade, ou seja, quando os grupos estão tão iguais, que é muito improvável que surja um benefício relevante como decorrer do estudo. Isto é aceitável, pois neste caso se preserva a premissa inicial, que é a hipótese nula. Lembrem-se que pelo Princípio 2 da medicina baseada em evidências, só devemos rejeitar a hipótese nula, quando há evidências muito fortes contra ela.

Mas porque truncar um estudo estatisticamente significante aumenta a probabilidade do erro tipo I (rejeitar a hipótese nula quando esta é verdadeira) ?

Vamos imaginar que queremos fazer um estudo para avaliar qual time é melhor: Bahia ou Vitória. A hipótese nula do estudo é que os times são iguais em qualidade, ninguém é superior (por falar nisso, a tomar pelas finais com campeonato baiano, os times são bastantes semelhantes em qualidade, semelhantes nas suas mediocridades). O melhor modelo de estudo para avaliar a questão é o chamado jogo de futebol, um estudo prospectivo de 90 minutos. Agora imagine que eu sou o investigador principal. Por ser Bahia desde criança, tenho um conflito de interesse intrínseco a favor deste time. Desta forma, vou pré-determinar que se o Bahia fizer 3 x 0 no Vitória, interromperei o jogo a qualquer momento, pois  já estaria provado que o Bahia é melhor.

Tem lógica? Claro que não. Então porque isso tem lógica em ensaios clínicos randomizados? Não deveria.

Voltando ao jogo. O Bahia faz 3 x 0 nos primeiros 20 minutos do primeiro tempo. Isso representa a realidade? Isso prova que o Bahia é melhor? Não prova, pois estes 3 gols podem ter sido por acaso, ou seja, por sorte, por vacilo da zaga do Vitória. Caso estes dois gols tenham sido por acaso, ao longo dos próximos 70 minutos de jogo essa diferença casual vai se diluir e haverá uma tendência a aproximação dos dois times. Mas se eu interrompo o jogo aos 20 minutos do primeiro tempo, não estou dando oportunidade ao meu estudo de se auto-corrigir, de se aproximar da verdade. É exatamente isso que acontece quando estudos são truncados pela observação de benefício de drogas que não tem efeito algum.

Vejam que a final do campeonato baiano teve dois jogos e não apenas um. Ou seja, ao invés de truncar o primeiro jogo, a federação de futebol escolhe fazer  dois jogos (dois estudos), a fim de reduzir ainda mais a probabilidade do acaso. Já nós, cientistas médicos, fazemos o contrário, truncamos estudos, aumentando a incerteza a respeito do resultado encontrado.

Ao longo de um estudo, o acaso ocorre com frequência, fazendo com que o resultado se modifique a todo momento. Na medida em que o tamanho amostral vai aumentando, os fatos casuais vão se diluindo na verdade. Se eu interrompo precocemente, o estudo pode não ter tido amostra suficiente para diluir o acaso. Porém o pior é que a interrupção do estudo é motivada pelo resultado de interesse. Este é o ponto crucial, favorece que o acaso trabalhe em prol do interesse.

O estudo PROWESS foi planejado para incluir 2280 pacientes e foi truncado em 1680 pacientes. Hoje, sabendo do resultado do estudo PROWESS-SHOCK, podemos imaginar que a diferença de mortalidade (31% vs. 25%) poderia se diluir se o estudo tivesse sido concluído conforme planejado. Esse estudo foi interrompido aos 15 minutos do segundo tempo.

Foi por isso que o FDA recomendou a realização de um segundo estudo para confirmar o resultado do PROWESS. Se recomendou, é porque estava em dúvida e não deveria ter liberado a droga para comercialização, principalmente com o placar de 10 x 10 na votação da liberação da droga.

A dúvida decorreu do truncamento do estudo e, secundariamente, do fato do estudo não ter sido por intenção de tratar.

Havia naquele momento o que chamamos de equipose. Equipose é definida por uma dúvida suficiente para justificar a utilização de placebo em um ensaio clínico. Se existia equipose, a hipótese nula não deveria ter sido rejeitada, a droga nunca deveria ter sido liberada ou prescrita.

Há estudos a respeito do impacto do truncamento. Estes mostram que quanto menor o tamanho amostral, maior a probabilidade de equívoco no resultado. Já comentamos neste Blog que o estudo JUPITER (o qual mostrou estatina ser benéfica na prevenção primária de indivíduos com colesterol normal) foi truncado. Pelo fato do JUPITER ter 18.000 pacientes, acredito que o truncamento promoveu uma superestimativa da magnitude do benefício, mas o benefício deve ser verdadeiro. Na medida em que o tamanho amostral vai diminuindo, a informação pode estar não só superestimada, como totalmente falsa.

Um outro estudo truncado que gerou falso resultado foi o de Van de Berghe, que demonstrou redução de mortalidade com controle agressivo da glicemia de pacientes críticos. Anos depois, o estudo NICE-SUGAR (não truncado) demonstrou efeito deletério desta conduta.

O que ocorreu com o Xigris tem muitas implicações e chama a atenção que nós médicos precisamos ser mais responsáveis pelas falsas verdades que aceitamos. Como podemos reclamar que os convênios nos pagam mal, se ao mesmo tempo ajudamos a indústria promover um tratamento de R$ 56.000 por paciente, sem benefício clínico. Se queremos melhorar nossa remuneração, acho que o caminho seja sentar na mesa de negociação, utilizar o paradigma da medicina baseada em evidências e racionalizar a terapia médica. O primeiro passo é eliminar placebos de alto custo. Enfim, precisamos ser responsáveis pelo absurdo custo da medicina contemporânea, principalmente a modelo americano, o qual o Brasil copia direitinho. Seria melhor copiarmos os modelos inglês ou canadense.

Desta forma, este é mais um exemplo de que não podemos negligenciar o problema do truncamento. Analisar se um estudo é truncado deve fazer parte da análise de veracidade, dentro do tópico acaso. Pois ao truncar, aumentamos a probabilidade do acaso.

Não podemos brincar de adivinhar o futuro, rejeitando de forma tendenciosa a hipótese nula. Não podemos negligenciar o Princípio 2 da medicina baseada em evidências.