quarta-feira, 30 de maio de 2012

Fama sem Proveito: Estudo FAME-II



Ainda não publicado, o estudo FAME-II já está servindo de argumento para os lobistas anti COURAGE Trial, aqueles de mentalidade do médico ativo, que procuram justificar revascularizações em pacientes sem indicação deste procedimento. O estudo FAME-II tem um desenho semelhante ao COURAGE, no sentido de que randomizou pacientes com doença coronária estável (sintomáticos e assintomáticos) para implante de stent + tratamento clínico otimizado versus tratamento clínico otimizado. A diferença é que a intervenção coronária foi guiada por fractional flow reserve (FFR), ou seja, tinha comprovação hemodinâmica de redução de fluxo. Digamos, uma escolha mais criteriosa de que lesões seriam tratadas.

Apos incluir 1.219 pacientes, o FAME-II foi interrompido pois “mostrou um claro benefício da estratégia intervencionista”. Aí está, mais um estudo truncado por benefício. Mais um resultado com possibilidade de ser decorrente do erro tipo I (acaso),  por de ter sido interrompido antes da hora.

Mas mesmo que não houvesse truncamento, precisaríamos discutir estes resultados mais a fundo. Devemos nos perguntar se este resultado traz algo de novo, se contraria os dados “conservadores” do COURAGE, como alguns estão argumentando.

Claro que não, é exatamente o contrário, pois o FAME-II não mostrou redução de mortalidade, nem redução de infarto – exatamente como o COURAGE. O que reduziu foi apenas incidência de hospitalização por sintomas e necessidade de revascularização. Exatamente como o COURAGE, que mostrou apenas melhora dos sintomas.

Portanto, o FAME-II confirma os dados do COURAGE.

Outro aspecto é que o desfecho revascularização do FAME-II foi definido como necessidade de revascularização urgente, conotando um tipo de desfecho aparentemente mais importante do que simplesmente revascularização. Ou seja, sugerindo que seria um desfecho instável. No entanto, não faz tanto sentido que um desfecho que caracteriza instabilidade seja reduzido, se infarto não apresentou redução. Digo, uma verdadeira necessidade de revascularização urgente significa o extremo de gravidade de pacientes com síndromes coronarianas agudas. Qual a lógica do tratamento prevenir este desfecho, se não previne infartos em geral? Precisaremos ler a definição deste desfecho no artigo a ser publicado futuramente.

Outro aspecto importante é que os dois únicos desfechos que mostraram benefício da estratégia intervencionista são susceptíveis ao viés de aferição, devido à característica aberta do estudo. Isso mesmo, o estudo não é cego, pois é difícil cegar estudos de intervenção versus tratamento clínico. Os dois desfechos (internamento por angina e revascularização) são eventos que decorrem de decisão médica. Ou seja, se internar ou ter uma revascularização indicada depende da vontade do médico. Desta forma, ao saber que seu paciente foi randomizado para não fazer intervenção coronária, o médico fica com a impressão de maior vulnerabilidade do paciente e fica mais propício a indicar internamento ou revascularização a qualquer sintoma. Daí surge uma tendência de que estes desfechos sejam mais frequentes em pacientes randomizados para o tratamento não intervencionista. Aí está uma típica combinação de desfechos moles (softs) com um estudo aberto, o que predispõe a falsos resultados.

Sendo assim, pelo caráter truncado e potencial viés de aferição, é possível que este aparente benefício seja falso. Segundo, mesmo sendo verdadeiro, este resultado está de acordo com o COURAGE: o que a intervenção faz é controlar sintomas, sem impacto sobre eventos de maior gravidade.

Porém desde já tenho ouvido argumentos utilizando este estudo contra o paradigma do estudo COURAGE. É Possível que o FAME-II se alie ao esdrúxulo subestudo nuclear do COURAGE, um dos mais citados pelos que gostam de defender o tratamento intervencionista.

Este subestudo avaliou um subgrupo de pacientes do COURAGE que fez cintilografia miocárdica antes e depois do tratamento. Mostrou que pacientes que apresentavam redução da isquemia com o tratamento (seja clínico, seja intervencionista) tiveram melhor prognóstico.

E com isso, muitos começam a sugerir que se houver isquemia, o paciente deve ser revascularizado. Qual a lógica disso?

Observem que esta análise em momento algum comparou angioplastia versus tratamento clínico, portanto não pode falar em tratamento. Pacientes que melhoram a isquemia (com qualquer tratamento) são de menor risco, menor complexidade da doença coronária, e provavelmente por isso têm melhor prognóstico. De acordo com isso, ao ajustar (análise multivariada) para as características clínicas, a significância estatística desta diferença prognóstica desapareceu totalmente. No entanto, este estudo é citado com muita frequência em encontros médicos, como uma evidência a favor da intervenção coronária. Tenho uma nítida sensação que este estudo não está sendo lido pelas pessoas, que apenas repetem o que ouvem falar ser o significado de seus resultados. Se lessem com o mínimo de atenção, chegariam a mesma conclusão que aqui exponho.

Mas podem esperar: o FAME-II vai se juntar (já está se justando) ao esdrúxulo subestudo nuclear do COURAGE, como mais uma evidência a favor da mentalidade do médico ativo.

Isto predispõe ao fenômeno descrito na língua inglesa como medical reversal. Este fenômeno é caracterizado por criarmos falsos paradigmas que em pouco tempo são revertidos por evidências científicas. E isso não é bom, pois muitas vezes estes falso paradigmas promovem condutas desnecessárias, às vezes até maléficas.

Em fase inicial está o estudo ISCHEMIA, semelhante ao COURAGE, porém limitado a pacientes com isquemia miocárdica moderada a severa. Só espero que daqui a alguns anos o ISCHEMIA não seja truncado por aparente benefício.

segunda-feira, 21 de maio de 2012

Viés de Análise de Dados - Bahia vs. Vitória


Em resposta à nossa última postagem, Paulo Rocha, professor adjunto da Faculdade de Medicina da UFBA e que leciona bioestatística na pós-graduação, nos enviou o gráfico acima, com as estatística dos campeonatos baianos. Baseado nas curvas construídas, Paulo argumenta a favor da superioridade do Vitória, tentando rejeitar a hipótese nula de semelhança entre os times. 

No entanto, uma análise mais cuidadosa demonstra que as curvas que Paulo contruiu acima das barras não representam tendência alguma, pois são fortemente influenciadas pelo valor extremo (outlier) da última década. Valores extremos podem distorcer fortemente a análise dos dados. Percebam que o comportamento do Bahia é uma constante, exceto pela última década. A última década ocorreu por acaso e na década de 2010 veremos o fenômeno de regressão à média normalizar tudo a favor do Bahia. 

Percebam que ao analisar um trabalho científico, devemos estar atentos para o viés de análise dos dados, que compromete a veracidade do resultado. Neste caso, apesar de seu inquestionável conhecimento estatístico, a análise de Paulo foi prejudicada por seu conflito de interesse a favor do Vitória.

Réplica

Meu caro amigo Luís,

É um prazer bater essa bola com você aqui na bioestatística, uma vez que, de futebol mesmo, nós não entendemos nada! Acho que o meu gráfico atingiu em cheio o seu sofrido coração tricolor e turvou a sua mente porque, pela primeira vez desde que leio o seu blog, notei alguns comentários improcedentes! Vamos a eles?

Eu não avaliei uma AMOSTRA ALEATÓRIA de edições do Campeonato Baiano. O gráfico mostra TODOS os campeonatos Baianos desde o início da existência do Bahia (1931). Como a POPULAÇÃO inteira de campeonatos foi avaliada, cabe apenas o uso da estatística descritiva. Por isso, não há hipótese nula a ser rejeitada e não é necessário realizar inferência estatística. Os dados representam a verdade absoluta. Não há erro padrão. 

Neste período, o Bahia ganhou o campeonato 44 vezes e o Vitória apenas 24. Este fato é incontestável. A intenção do gráfico foi de descrever como essas conquistas se distribuíram ao longo das décadas. Esta distribuição também é incontestável! Nas últimas 3 décadas, houve uma queda progressiva no número de títulos do Bahia enquanto, no mesmo período, houve um aumento progressivo no número de títulos do Vitória. Estamos falando de um comportamento progressivo ao longo de 3 décadas. Acho que isto qualifica como uma tendência. E a tendência é de queda para o Bahia e ascensão para o Vitória! No entanto, estatística não é bolinha de cristal e não pode garantir que esta tendência vai continuar na próxima década... Infelizmente. 

Como um apaixonado (e enviesado!) torcedor do Bahia, você está querendo apagar a última década da sua mente, chamando-a de outlier! Pior: está atribuindo uma década inteira ao acaso!! Nesta década, o Bahia passou 7 anos na série B e só ganhou um título! Isto não aconteceu por acaso!! O time era muito ruim mesmo.

Enfim, ao ler o seu post, concordei com apenas uma afirmativa: “valores extremos podem distorcer fortemente a análise dos dados”. Com certeza! Mas não é o caso aqui.

Saudações rubro-negras! 



TRÉPLICA


Boa observação, inclusive de importante teor educativo. De fato, quando trabalhamos com populações, não se aplica estatística, não há hipótese, valores de P, erros-padrão, nem intervalos de confiança. 


Estamos discutindo que time é melhor. Veja que esta discussão já não tem lógica, pois a cada período o time é diferente, assim como os seus gestores. Não é como se fosse uma mesma pessoa ou um jogador de tênis. Mas já que esta discussão existe, me permitirei o seguinte argumento:


Imagine que estes times ainda terão muitas décadas de vida, digamos uns 300 anos. Seu gráfico representa uma amostra de todo tempo de vida deste times. É uma amostral temporal, pois não computa o que está por vir. E estamos discutindo que é melhor, como se Deus tivesse feito um time melhor que o outro. Portando uma década dentro de 40 décadas pode ser visto como um outlier.


Valeu pelo didáctico comentário. 

domingo, 20 de maio de 2012

Curso de Medicina Baseada em Evidências

Este curso é organizado pelo Grupo de Estudos em Epidemiologia e Cardiologia Baseada em Evidências (GEECABE) da Sociedade Brasileira de Cardiologia, em parceria com o FUNCORDIS, fundação de cardiologia em Recife. Ocorrerá como parte do Congresso Brasileiro de Cardiologia, em Recife, no dia reservado para os eventos pré-congresso. 

Xigris: Uma Lucrativa Falácia Provocada por um Estudo Truncado



Como a Eli Lilly and Company conseguiu convencer as agências reguladoras e a comunidade médica de que o placebo denominado alfa-drotrecogina (Xigris) reduzia mortalidade em pacientes com sepse severa?

Em outubro do ano passado, o fabricante deste placebo suspendeu “voluntariamente” sua lucrativa comercialização, devido aos achados negativos do estudo PROWESS-SHOCK (ainda não publicado). A suspensão da venda do Xigris ocorre após vários anos de utilização na prática clínica, sob o custo estimado no Brasil de R$ 56.000 por paciente, tal como estimado pelo Blog Médico Nerd.

Na verdade, a suspensão da droga não foi tão “voluntária” assim, pois o FDA e a EMEA (agência européia) fariam esta recomendação de qualquer forma. É como aquele político que renuncia antes de ser cassado. 

Como o PROWESS-SHOCK ainda não foi publicado, não podemos analisá-lo com detalhe. O que sabemos é que este estudo incluiu o tipo de paciente que mais se beneficiou no estudo PROWESS, ou seja, pacientes mais graves, em choque séptico. Sendo assim, este foi um estudo negativo, a despeito de otimizado para encontrar benefício. Por não estar publicado na íntegra, nossa análise do PROWESS-SHOCK só pode ir até este ponto. Mas o que precisamos realmente analisar é o estudo PROWESS, pois foi este que gerou a lucrativa falácia.

Este estudo foi publicado em 2001 no New England Journal of Medicine, tendo testado o novo invento da proteína C-ativada versus placebo, em pacientes com sepse severa. Este trabalho demonstrou redução de mortalidade com a droga. Sendo assim, o FDA liberou a droga para comercialização e a comunidade médica adotou a terapia de forma entusiasmada. Vale salientar que dentro do FDA a liberação foi bastante controversa, com 10 votos a favor e 10 votos contra.

Hoje sabemos que o estudo PROWESS rejeitou a hipótese nula (ausência de benefício), quando esta era verdadeira. Este é chamado de erro tipo I. Este caso tem sido usado como exemplo do poder da indústria em convencer médicos de falsas verdades.

Mas o que precisamos é discutir qual foi o mecanismo metodológico utilizado para gerar esta falsa verdade. Para descobrir o motivo do engano, devemos utilizar nosso roteiro e analisar criticamente a veracidade da informação que sugere redução de mortalidade.

Observem que este é um estudo de intervenção, randomizado, que compara grupos muito semelhantes, o que elimina fatores de confusão que possam ser responsáveis pelo resultado; não há viés de aferição do desfecho, pois é um estudo duplo-cego e desfecho é morte, bastante objetivo; as diferenças encontradas foram estatisticamente significantes (P = 0.005), mortalidade foi desfecho pré-definido como primário (ausência do problema das múltiplas comparações, que aumentaria a probabilidade do acaso). Então, aonde está o problema? Parece ser um estudo de boa qualidade, de tamanho amostral razoável, classificado como de fase III. Ou seja, daquele tipo de estudo que tem o potencial de mudar conduta clínica. Por esta aparente qualidade metodológica, o estudo foi convincente.

Porém há uma limitação que geralmente passa pelo crivo científico, principalmente há 10 anos atrás, quando pouco se falava nisso: este foi um estudo truncado.

Estudos truncados são aqueles interrompidos precocemente devido a resultados positivos. É quando o autor fica tão entusiasmado com o resultado interino, que resolve terminar o estudo e concluir pelo benefício da droga. Já comentamos neste Blog que este tipo de estudo pode superestimar a diferença entre os grupos ou em alguns casos indicar uma diferença inexistente. A maioria destes estudos possuem critérios estatísticos pré-definidos para o truncamento, mas isso não resolve o problema, pois pré-definir que vai fazer uma coisa errada não elimina o erro. Esse negócio de truncamento com critérios pré-definidos não passa de uma forma mais elegante aplicar um método tendencioso.

O truncamento é ótimo para a indústria, pois garante o resultado e ainda economiza por ter interrompido um estudo de alto custo.

Normalmente os autores justificam o truncamento por motivos éticos, ou seja, uma vez demonstrado o benefício, seria anti-ético insistir em continuar o estudo com metade dos pacientes usando placebo. Isso é uma das coisas mais esdrúxulas, pois ao truncar um estudo, sua veracidade se torna questionável e nada fica demonstrado. Quanto mais um benefício de tal magnitude que proíba a continuidade do estudo. Anti-ético é gerar uma falsa verdade.

Anti-ético é promover a comercialização de um placebo de alto custo, que compromete o tênue equilíbrio financeiro do sistema de saúde, sem trazer benefício clínico.

Truncar um estudo por benefício é errado e injustificável, apesar de que cada vez mais frequente. Ao contrário desta situação, vale salientar duas justificativas aceitáveis para interromper um ensaio clínico precocemente: primeiro, quando o novo tratamento está trazendo prejuízo significativo, ou seja, interromper por efeito colaterais. Vejam que isto é muito diferente de interromper porque parece que o tratamento é bom. Segundo, é aceitável interromper um estudo por futilidade, ou seja, quando os grupos estão tão iguais, que é muito improvável que surja um benefício relevante como decorrer do estudo. Isto é aceitável, pois neste caso se preserva a premissa inicial, que é a hipótese nula. Lembrem-se que pelo Princípio 2 da medicina baseada em evidências, só devemos rejeitar a hipótese nula, quando há evidências muito fortes contra ela.

Mas porque truncar um estudo estatisticamente significante aumenta a probabilidade do erro tipo I (rejeitar a hipótese nula quando esta é verdadeira) ?

Vamos imaginar que queremos fazer um estudo para avaliar qual time é melhor: Bahia ou Vitória. A hipótese nula do estudo é que os times são iguais em qualidade, ninguém é superior (por falar nisso, a tomar pelas finais com campeonato baiano, os times são bastantes semelhantes em qualidade, semelhantes nas suas mediocridades). O melhor modelo de estudo para avaliar a questão é o chamado jogo de futebol, um estudo prospectivo de 90 minutos. Agora imagine que eu sou o investigador principal. Por ser Bahia desde criança, tenho um conflito de interesse intrínseco a favor deste time. Desta forma, vou pré-determinar que se o Bahia fizer 3 x 0 no Vitória, interromperei o jogo a qualquer momento, pois  já estaria provado que o Bahia é melhor.

Tem lógica? Claro que não. Então porque isso tem lógica em ensaios clínicos randomizados? Não deveria.

Voltando ao jogo. O Bahia faz 3 x 0 nos primeiros 20 minutos do primeiro tempo. Isso representa a realidade? Isso prova que o Bahia é melhor? Não prova, pois estes 3 gols podem ter sido por acaso, ou seja, por sorte, por vacilo da zaga do Vitória. Caso estes dois gols tenham sido por acaso, ao longo dos próximos 70 minutos de jogo essa diferença casual vai se diluir e haverá uma tendência a aproximação dos dois times. Mas se eu interrompo o jogo aos 20 minutos do primeiro tempo, não estou dando oportunidade ao meu estudo de se auto-corrigir, de se aproximar da verdade. É exatamente isso que acontece quando estudos são truncados pela observação de benefício de drogas que não tem efeito algum.

Vejam que a final do campeonato baiano teve dois jogos e não apenas um. Ou seja, ao invés de truncar o primeiro jogo, a federação de futebol escolhe fazer  dois jogos (dois estudos), a fim de reduzir ainda mais a probabilidade do acaso. Já nós, cientistas médicos, fazemos o contrário, truncamos estudos, aumentando a incerteza a respeito do resultado encontrado.

Ao longo de um estudo, o acaso ocorre com frequência, fazendo com que o resultado se modifique a todo momento. Na medida em que o tamanho amostral vai aumentando, os fatos casuais vão se diluindo na verdade. Se eu interrompo precocemente, o estudo pode não ter tido amostra suficiente para diluir o acaso. Porém o pior é que a interrupção do estudo é motivada pelo resultado de interesse. Este é o ponto crucial, favorece que o acaso trabalhe em prol do interesse.

O estudo PROWESS foi planejado para incluir 2280 pacientes e foi truncado em 1680 pacientes. Hoje, sabendo do resultado do estudo PROWESS-SHOCK, podemos imaginar que a diferença de mortalidade (31% vs. 25%) poderia se diluir se o estudo tivesse sido concluído conforme planejado. Esse estudo foi interrompido aos 15 minutos do segundo tempo.

Foi por isso que o FDA recomendou a realização de um segundo estudo para confirmar o resultado do PROWESS. Se recomendou, é porque estava em dúvida e não deveria ter liberado a droga para comercialização, principalmente com o placar de 10 x 10 na votação da liberação da droga.

A dúvida decorreu do truncamento do estudo e, secundariamente, do fato do estudo não ter sido por intenção de tratar.

Havia naquele momento o que chamamos de equipose. Equipose é definida por uma dúvida suficiente para justificar a utilização de placebo em um ensaio clínico. Se existia equipose, a hipótese nula não deveria ter sido rejeitada, a droga nunca deveria ter sido liberada ou prescrita.

Há estudos a respeito do impacto do truncamento. Estes mostram que quanto menor o tamanho amostral, maior a probabilidade de equívoco no resultado. Já comentamos neste Blog que o estudo JUPITER (o qual mostrou estatina ser benéfica na prevenção primária de indivíduos com colesterol normal) foi truncado. Pelo fato do JUPITER ter 18.000 pacientes, acredito que o truncamento promoveu uma superestimativa da magnitude do benefício, mas o benefício deve ser verdadeiro. Na medida em que o tamanho amostral vai diminuindo, a informação pode estar não só superestimada, como totalmente falsa.

Um outro estudo truncado que gerou falso resultado foi o de Van de Berghe, que demonstrou redução de mortalidade com controle agressivo da glicemia de pacientes críticos. Anos depois, o estudo NICE-SUGAR (não truncado) demonstrou efeito deletério desta conduta.

O que ocorreu com o Xigris tem muitas implicações e chama a atenção que nós médicos precisamos ser mais responsáveis pelas falsas verdades que aceitamos. Como podemos reclamar que os convênios nos pagam mal, se ao mesmo tempo ajudamos a indústria promover um tratamento de R$ 56.000 por paciente, sem benefício clínico. Se queremos melhorar nossa remuneração, acho que o caminho seja sentar na mesa de negociação, utilizar o paradigma da medicina baseada em evidências e racionalizar a terapia médica. O primeiro passo é eliminar placebos de alto custo. Enfim, precisamos ser responsáveis pelo absurdo custo da medicina contemporânea, principalmente a modelo americano, o qual o Brasil copia direitinho. Seria melhor copiarmos os modelos inglês ou canadense.

Desta forma, este é mais um exemplo de que não podemos negligenciar o problema do truncamento. Analisar se um estudo é truncado deve fazer parte da análise de veracidade, dentro do tópico acaso. Pois ao truncar, aumentamos a probabilidade do acaso.

Não podemos brincar de adivinhar o futuro, rejeitando de forma tendenciosa a hipótese nula. Não podemos negligenciar o Princípio 2 da medicina baseada em evidências.

domingo, 22 de abril de 2012

A História da Medicina Baseada em Evidências



Esta semana assisti ao filme Um Método Perigoso (A Dangerous Method) que retrata a relação entre Freud, o pai psicanálise, e seu discípulo Jung. Este filme me fez lembrar de quem considero um dos pais da Medicina Baseada em Evidências no Brasil, Dr. Carlos Alfredo Marcílio, e de sua influência em nosso pensamento médico-científico.

O filme de ontem me inspirou a relatar uma recente conversa de fim de tarde com Dr. Marcílio, quando ele me relatou sua experiência nos primórdios da medicina baseada em evidências.

Em dezembro do ano passado, Dr. Marcílio me telefona e fala de forma direta e objetiva: “impressionante como duas pessoas com tanto em comum não conseguem um tempo para sentar e conversar”. Entendi a mensagem e prontamente me agendei para ir à casa dele no dia seguinte, o que vinha prometendo há meses. Naquele final de tarde, na companhia de um vinho do porto, como uma linda vista para o mar de seu apartamento em São Lázaro, conversamos sobre a vida e sobre medicina baseada em evidências.

Esta postagem e suas reflexões refletem o conteúdo desta conversa.

Dr. Marcílio morava em Boston na década de 70, onde era residente de nefrologia em Harvard. Durante sua residência, ele presenciou um período histórico, quando os conceitos epidemiológicos se tornaram mais prevalentes no pensamento do médico clínico.

Epidemiologia é uma ciência que surgiu muito antes disso, no início do século XX, promovendo avanços significativos no campo da saúde pública, como controle de doenças infecciosas e, na segunda metade do século passado, o descobrimento dos fatores de risco cardiovascular. Esta última descoberta (Framingham Heart Study) é responsável pela progressiva queda da mortalidade cardiovascular que experimentam a maioria dos países do mundo, incluindo o Brasil.

No entanto, ao longo das décadas permanecia uma dicotomia entre epidemiologia e raciocínio clínico. O conhecimento de metodologia científica era de domínio dos epidemiologistas ou sanitaristas, enquanto o clínico não se preocupava com isso. Uma lacuna histórica.

Lentamente, os clínicos começaram a perceber que a decisão individual seria melhor embasada no conhecimento obtido por estudos da coletividade, ou seja, de amostras populacionais. Claro, estudando uma amostra de pacientes podemos chegar a uma conclusão mais confiável do que considerar apenas algumas experiências individuais. Isso foi aproximando a clínica da epidemiologia. O termo Epidemiologia Clínica começa a ser usado com mais frequência.

O termo Epidemiologia Clínica foi criado muito tempo antes, na década de 30, por John Paul, que sugeria que conhecimento a nortear nossas decisões deve ser proveniente de evidências epidemiológicas, em detrimento do achismo baseado em plausibilidade e da “minha experiência clínica” restrita aos poucos e enviesados pacientes que vivenciamos. Mas era um termo um tanto esquecido, ou pelo menos sua prática era esquecida. Dr. Marcílio vivenciou de perto este ponto de inflexão, o início da mudança de paradigma. Isto porque Harvard foi um dos principais locais onde a idéia floresceu. 

Apesar da ênfase na Epidemiologia Clínica, percebeu-se que a dicotomia permanecia com o passar dos anos, os clínicos em geral eram resistentes à mudança de paradigma, pois não tinham aprendido medicina desta forma. Conta Dr. Marcílio que foi na década de 80 que os estudiosos no assunto começaram a discutir um termo que tirasse o estigma da epidemiologia e aproximasse a ciência médica da prática clínica. Foi então que David Sackett e seu grupo da Universidade de McMaster no Canadá cunharam o termo medicina baseada em evidências. 

Percebam que medicina baseada em evidências não surgiu neste momento, foi apenas uma mudança de nome, uma estratégia de marketing, no intuito de promover um avanço na prática médica, avanço este que já deveria ter acontecido décadas atrás. Nesta época, já de volta ao Brasil e como diretor do CNPQ, Dr. Marcílio trouxe o grupo da McMaster ao Brasil para promoção de cursos nesta área e se deu o início da difusão deste conhecimento em nosso país.

No entanto, percebemos que a dicotomia ainda existe de forma bastante prevalente. Ainda hoje quem mais entende de metodologia científica são os epidemiologistas, que em sua maioria não praticam clínica. Isso gera uma lacuna entre conhecimento cientifico e prática clínica. Os clínicos, em sua maioria, se julgam distantes deste conhecimento. Esta sequela história é a maior barreira à medicina baseada em evidências.

Mas existem outras barreiras. Em paralelo com o “surgimento” da medicina baseada em evidências, os conflitos de interesse cresceram vertiginosamente nas últimas décadas. Antigamente, eram em menor número as opções de fármacos, os métodos diagnósticos sofisticados, assim como procedimentos de alto custo. Como desejável progresso tecnológico, surge o indesejável conflito de interesse na prática médica. São mais remédios a serem prescritos, mais exames a serem solicitados, mais material a ser usado em procedimentos. Mais propaganda a ser realizada. Mais lucro de procedimentos.

Esta coincidência cronológica entre surgimento do paradigma da medicina baseada em evidências com o ponto de inflexão do progresso tecnológico bloqueou de certa forma a aplicação do paradigma. E isto ocorreu por meio dos conflitos de interesse. Imagino que se o paradigma da epidemiologia clínica tivesse se estabelecido tempos antes, como na década de 50, hoje estaríamos em outra fase.

Dr. Marcílio tem sido uma das vozes mais ativas contra a influência maciça da indústria farmacêutica no pensamento médico. A despeito dele ser nefrologista, testemunhei sua presença eventual em congressos de cardiologia, geralmente “puxando a orelha” da comunidade cardiológica quando esta se deixa seduzir em demasia pela indústria. 

Outro mecanismo de inibição da medicina baseada em evidências é o fato de que todo progresso tecnológico ativa nossa mente cartesiana e a idéia de que a mera aplicação da tecnologia, do tratamento novo, do exame novo, do novo procedimento fará bem ao paciente (mentalidade do médico ativo). Neste caso, as pessoas se esquecem de procurar saber se a nova tecnologia de fato traz benefício clínico.

Mas Dr. Marcílio é otimista e acho que este otimismo vem de vivência de tempos mais remotos, quando menos se falava disso tudo. Começamos a ver nas escolas médicas alguns focos de pensamento baseado em evidências: a Sessão de Medicina Baseada em Evidência, criada e coordenada pelo Prof. Antônio Alberto Lopes (outro pioneiro da epidemiologia clínica em nosso meio) no Hospital das Clínicas; o surgimento da disciplina Raciocínio Clínico Baseado em Evidências no curso médico da Escola Bahiana de Medicina há cinco anos, a qual tenho o prazer de coordenar. Devo a idéia desta disciplina à mente constantemente criativa da Profa. Marta Menezes, coordenadora do curso. Outro aspecto positivo é o atual foco que a Associação Bahiana de Medicina está dando ao tema por meio de seu Diretor Científico Jorge Pereira e do presidente Antônio Carlos Vieira Lopes (ambos entusiastas da medicina baseada em evidências).

Porém ainda estamos engatinhando. Quando o pensamento baseado em evidências estiver de fato presente no curso médico, não será necessária uma disciplina específica para isso, pois todas as disciplinas abordarão seus assuntos sob esta ótica. Assim como todas as sessões clínicas enfatizarão este paradigma.

Este é um mero resumo de uma conversa de fim de tarde, no fim do ano passado, que perpassa questões individuais até chegar na medicina baseada em evidências, o motivo de nossas constantes conversas neste Blog.

O filme Um Método Perigoso mostra um Freud genial, que procura manter um pensamento científico, evitando os devaneios místicos de Jung. Porém o Freud do filme tem uma diferença de Dr. Marcílio. O primeiro prefere seguidores sem criatividade e se incomoda quando Jung propõe novos paradigmas. O segundo é um constante incentivador. Por exemplo, devo a idéia da criação deste Blog a Dr. Marcílio.

O título deste filme também nos remonta a uma reflexão final. Não praticar medicina baseada em evidência é um método perigoso de fazer medicina. 

terça-feira, 17 de abril de 2012

A Evidência Científica e o Julgamento Clínico




* Esta é a terceira postagem da série Os Sete Princípios da Medicina Baseada em Evidências. Na primeira postagem apresentamos os primeiro três princípios; na segunda demonstramos o quarto princípio. Nesta postagem nos antecipamos e descreveremos o sétimo princípio. Em breve completaremos como os princípios 4, 5 e 6.

Estas são as duas principais ferramentas da prática médica, se complementam com perfeição e devem coexistir na tomada de decisão, cada uma com sua função específica. Este é o sétimo princípio da medicina baseada em evidências, o princípio da complementaridade entre a ciência e a decisão clínica. Este é o princípio que dá sentido a tudo que se fala sobre evidências científicas, é o momento em que a ciência se une com a habilidade do médico.

Denominamos propositadamente este como o Princípio da Complementaridade, pois é prevalente o equívoco de que ciência faz oposição ao julgamento clínico. Alguns se opõem à medicina baseada em evidências, pois acreditam que esta prática exclui o julgamento clínico do processo, engessa o médico, o impede de pensar. Pelo contrário, a evidência científica precisa do julgamento clínico para ser empregada. Na verdade, o processo mental de aplicação do conhecimento científico é bem mais intenso do que na medicina baseada em receita de bolo.

Outros consideram que evidência científica é coisa para ser discutida nos porões da academia, enquanto medicina é a prática, o mundo real. Como se teoria e prática fossem coisas antagônicas. Mal percebem que a teoria vem da prática, observada cuidadosamente, por estudos metodologicamente adequados. Lembremos do quarto princípio, aquele que diz que não basta plausibilidade biológica (teoria) para garantir eficácia ou efetividade (prática). Temos que observar a prática, usando uma observação metodológica, científica. Por isso que teoria (evidência científica) é coisa muito mais prática do que o achismo.

Evidência sem julgamento clínico ou julgamento clínico sem evidência torna capenga a prática médica. Este é uma das grandes causas de decisões médicas equivocadas. 

Sendo assim, o primeiro objetivo desta postagem é deixar claro que ciência e julgamento clínico são funções complementarem e não antagônicas. 

Em segundo lugar, precisamos discutir como estas duas funções devem se complementar. Outro erro muito comum de pensamento médico é confundir as funções destas duas ferramentas cognitivas. Digo, achar que o julgamento clínico pode determinar se uma terapia é eficaz ou achar que o médico deve copiar exatamente a conduta aplicada em um ensaio clínico. Equívocos.

Vamos organizar o pensamento: evidência serve para determinar se uma terapia é eficaz, ou qual a melhor terapia ou se um exame é acurado. Ponto. Julgamento clínico serve para analisar se a terapia eficaz (ou a melhor terapia ou o método acurado) deve ser aplicada a um dado paciente.

Vamos aos exemplos.

Exemplo 1. Imaginem que um ensaio clínico determina a eficácia de uma terapia quimioterápica que prolonga de 3 meses para 6 meses a vida de um paciente com câncer. Porém o mesmo ensaio clínico demonstra que a qualidade de vida do paciente piora como consequência dos efeitos colaterais da quimioterapia e ainda quantifica o grau de redução na qualidade de vida. Até aqui temos uma informação científica verdadeira, que não poderia ser obtida com a mesma confiabilidade a partir da experiência clínica. Até aqui utilizamos a ferramenta científica, como deve ser feito. Agora vamos começar a usar o julgamento clínico na decisão final. O que é melhor: 3 meses de vida com razoável qualidade ou 6 meses de vida de ruim qualidade? Essa não é uma pergunta cientifica. Para tomar esta decisão, o médico precisa de experiência com casos anteriores, sensibilidade, intuição, capacidade de captar (ou ouvir) o real desejo do paciente e de sua família. Percebam neste exemplo, que os dois processo cognitivos (conhecimento científico e julgamento clínico) se complementam, porém cada um com sua função.

Exemplo 2. O conhecimento científico indica que, na doença coronária estável, implante de stent coronário não reduz mortalidade, nem infarto. Apenas promove melhor controle dos sintomas do que o tratamento farmacológico isolado. Sendo assim, temos a liberdade de escolher tratamento clínico ou angioplastia para um paciente com angina estável.  A escolha é nossa, e essa liberdade é embasada em evidências. Agora usaremos o julgamento clínico para escolher, utilizando nossa experiência, intuição, sensibilidade. Se tivermos um idoso, limitado funcionalmente pela própria idade, o tratamento medicamentoso pode ser a melhor escolha inicial. Mas se tivermos um paciente de 40 anos, que gosta de jogar tênis e vinha muito limitado pela angina, talvez a angioplastia traga um grande benefício de qualidade de vida. Isto é julgamento clínico. Se tivermos um paciente assintomático com obstrução coronário, é burrice clínica instituir um tratamento que apenas controla sintomas. Controlar sintoma no assintomático? Bem, para quem mora em marte, aviso que esta é uma prática em nosso mundo. E isso não decorre só do distanciamento do médico em relação à evidência, decorre também do distanciamento em relação ao julgamento clínico, preguiça de pensar.

Exemplo 3. Estatina em prevenção secundária reduz mortalidade de pacientes com dislipidemia. Isso é evidência científica proveniente do estudo 4S. Quanto reduz? NNT de 25 para um tratamento de 5 anos. Deparo-me agora com um paciente que há um ano apresentou um problema de rabdomiólise sem causa definida (não usava estatina), com disfunção renal, ficando 40 dias internado na UTI. Uso estatina? Estatina reduz mortalidade, é prevenção secundária! O julgamento clínico utiliza o dado científico de que apenas 1 em 25 pacientes tratados com estatina se beneficiará com a prevenção de morte. Este conhecimento científico quanto à magnitude do benefício nos permite julgar que não devemos indicar estatina para este paciente, que quase morre de rabdomiólise recentemente. Mas se o NNT da estatina fosse de 1, sem dúvida usaríamos a droga. Entre 1 e 25, pensaríamos. Isso é julgamento clínico, é a prática do pensar. 

Exemplo 4. Em prevenção primária, estatina não reduz mortalidade, apenas eventos cardiovasculares, com NNT maior do que prevenção secundária. Se um paciente relata dor muscular com uso da droga, o que faço? Se o julgamento clínico me indica que a qualidade de vida do paciente está muito prejudicada, não seria absurdo suspender a droga (julgamento), visto que é apenas 1 em muitos pacientes que se beneficiam da terapia (evidência), que nem chega a reduzir mortalidade.

Exemplo 5. Temos um método de imagem comprovadamente acurado com base em ciência. Mas é o julgamento clínico quem vai nos dizer qual paciente deverá ter o método utilizado, é o pensamento médico que determinará a probabilidade pré-teste que mostrará a necessidade do exame. Pacientes de baixa probabilidade pré-teste não se beneficiam da pesquisa de isquemia por métodos de imagem ou teste ergométrico, pois as razões de probabilidade não são boas o suficiente para nos fazer mudar de idéia no sentido de que este paciente de baixa probabilidade clínica na verdade tem doença. O conhecimento da acurácia destes testes é científico (não por experiência), enquanto este raciocínio probabilístico é julgamento clínico.

Como diz o Princípio da Hipótese Nula, uma conduta se justifica pela demonstração de sua eficácia. Na ausência desta demonstração, não devemos adotar a conduta. Mas precisamos do julgamento clínico para identificar a exceção ao Princípio da Hipótese Nula. Precisamos do julgamento clínico para identificar quando estamos nas raras situações de Plausibilidade Extrema, onde o tratamento deve ser adotado a despeito da ausência de evidências.

Precisamos também do julgamento baseado em experiência clínica para reconhecer que o paciente em questão é o tipo de paciente que foi representado por um dado ensaio clínico. Sei que um anticoagulante deve ser usado em síndromes coronarianas agudas, por evidências científicas. Porém preciso do julgamento clínico para avaliar se realmente aquele caso se trata de uma síndrome coronariana aguda. Ou é uma elevação de marcador de necrose circunstancial, secundário a aumento de consumo ou redução de oferta por hipotensão, hipoxemia? O edema agudo de pulmão foi conseqüência de um infarto ou foi o edema agudo que causou a elevação de troponina. Isto é julgamento clínico.

Percebam em todos estes exemplos que utilizamos as duas ferramentas cognitivas e em nenhum caso confundimos as suas funções. Não devemos achar que é o julgamento ou experiência clínica que determina a verdade sobre eficácia, nem sobre acurácia. Mas não é apenas a evidência que determinará a conduta médica final.   

Evidência científica precisa de médico para beneficiar o paciente. E o bom médico é aquele que se utiliza do conhecimento científico como premissa básica para seu julgamento clínico. O mau médico é aquele que acha que pode gerar conhecimento baseado no achismo ou em sua anedótica experiência médica. Experiência médica boa é a resultante do treinamento em alinhar o conhecimento científico com o julgamento clínico.

Temos dois cérebros, o esquerdo (racional) e o direito (intuitivo, emocional, criativo). Precisamos utilizar os dois cérebros da decisão médica e não apenas um deles, como se tivéssemos tido um AVC hemisférico. Não podemos ser médicos sequelados, sem o hemisfério esquerdo (sem evidências) ou sem o hemisfério direito (julgamento). Estes dois devem se complementar, como em tudo na vida.

Falamos em postagem recente da Magia no NNT. Mas devo confessar que me precipitei com o termo magia. Magia mesmo ocorre quando nosso processo mental de decisão permite a sinergia da evidência com o julgamento clínico da tomada de decisão médica. Neste momento, a medicina baseada em evidência ganha outra dimensão, a dimensão de beneficiar o paciente. A dimensão médica, que vai além da ciência.

sábado, 7 de abril de 2012

Toninho Cerezo, Falcão e o Fenômeno de Regressão à Média



Toninho Cerezo foi demitido do cargo de técnico do Vitória. Impressionante como este tipo de atitude dos clubes reflete uma completa ignorância a respeito do fenômeno de regressão à média (motivo de postagem prévia neste Blog). Pode parecer pedante achar que os presidentes do Vitória ou Bahia, carentes de inteligência, tenham condição de entender estatística. Mas não é querer demais, pois em países da Europa e nos Estados Unidos, pessoas que trabalham com esporte têm o conhecimento básico da aleatoriedade dos fenômenos para não se deixar levar pela idiota crença de que trocar toda hora um técnico bom por outro técnico bom vai resolver o problema do time.

A esta altura, vocês devem estar se perguntando o que tem a ver Cerezo com o fenômeno de regressão à média. Como já explicado neste Blog, este conceito indica que após uma medida extrema, a medida seguinte provavelmente será menos extrema do que a primeira. Após uma sequência aleatória de derrotas (ou empates), a tendência é que a sequência seguinte seja de menos derrotas, ou mais vitórias.

Nos Estados Unidos há o mito de que dá azar o esportista aparecer na capa da Sports Illustrated. Não é incomum que após a reportagem de capa da Sports Illustrated, o atleta não tenha um desempenho na próxima prova tão bom quanto anteriormente. Mas isso é fácil de explicar pelo fenômeno de regressão à média. O que levou à reportagem de capa foi um desempenho extraordinário na última prova. Pelo fenômeno, este desempenho provavelmente será seguido por outro desempenho menos extraordinário. Não tem nada a ver com a aparição na capa. Simplesmente esta aparição estava associada ao um fenômeno de extremo sucesso.

Estatisticamente, não é difícil de explicar. Todo desempenho é o resultado da qualidade do atleta + uma parcela de aleatoriedade (chance, sorte). Um desempenho extraordinário resulta do atleta ser muito bom e também da sorte naquela dia. Sorte é acaso, se a sorte foi muito grande em um dia, é normal que seja menor no dia seguinte. Da mesma forma, um péssimo desempenho tende a ser seguido por um desempenho melhor.

Além de nossa incompreensão cotidiana quando à presença do fenômeno de regressão, há um segundo processo mental que gera equívoco na interpretação de fatos cotidianos. Temos uma tendência nata de perceber ordem em fenômenos que na verdade são aleatórios. Imaginem que a probabilidade de um time mediano de basquete ganhar é 1/3 (33%). Isto fará com que em 100 jogos, o time ruim ganhe 33 jogos e perca 66 jogos. Nossa mente espera que o time tenha sempre a sequência ganha-perde-perde-ganha-perde-perde. Mas não é exatamente assim, a coisa pode funcionar diferente. Às vezes ocorre ganha-ganha-perde-perde-perde-perde, o que representa 33% também. Mas quando o presidente do clube brasileiro percebe uma sequência de 4 derrotas, se desespera e demite logo o técnico, sem parar para pensar que esta sequência pode ser mero resultado do acaso, não significa piora do time mediano. Já o CEO do time americano de basquete sabe que 4 derrotas consecutivas é simplesmente a forma como os resultados se arrumaram para que desse 66% de derrotas. A sequência era meramente aleatória, porém nossa mente é treinada para perceber ordem em qualquer coisa.

Estes fenômenos que exemplifiquei com fatos do esporte estão também presentes no pensamento científico e médico. Primeiro fenômeno, regressão à média: um paciente em crise de dor lombar tende a melhorar naturalmente, pois crise é um extremo e na semana seguinte a medida da intensidade da dor tenderá regredir à média. Utilizando o fenômeno de regressão à média, tratamentos “alternativos” ganham o rótulo de efetivos baseados apenas na tendência de regressão da intensidade da dor nos dias ou semanas subseqüentes. Segundo fenômeno, o fato de que a aleatoriedade não se apresenta sempre com cara de aleatório: não é porque os primeiros 3 casos submetidos ao tratamento tiveram sucesso, que o tratamento deve ser eficaz. Daí a importância dos estudos possuírem um tamanho amostral suficiente para diluir fenômenos casuais.

Toninho Cerezo saiu, vai ser substituto por não sei quem (não importa) e a próxima sequência de jogos do Vitória vai ser um pouco melhor do que a última. Essa prática esportiva de trocar técnicos na dependência de sequências casuais de jogos é o maior marcador de como os dirigentes do futebol brasileiros são limitados em inteligência. Nos Estados Unidos todo time de basquete, football, baseball, qualquer coisa, tem um serviço de estatística, onde tudo é computado profissionalmente. Não espero que seja assim neste nosso país, mas que pelo menos os responsáveis fossem um pouco menos ignorantes.

Mas qual o problema de ter uma postura ignorante? Isto é apenas futebol, que é feito de folclore, o importante é a resenha no dia seguinte. Talvez não seja bem assim, principalmente neste que se diz o país do futebol e vai sediar a próxima Copa do Mundo. Isso demonstra que futebol não é brincadeira e deveria haver uma postura inteligente em tudo que diz respeito a este esporte. De burrice em burrice, como diz Romário esta Copa do Mundo será o “maior roubo da história”. Mais fácil roubar quando no universo permeia ignorância e falta de senso crítico.

Na medicina, quando não há senso crítico quanto à aleatoriedade dos fenômenos, fica mais fácil da indústria farmacêutica convencer médicos do valor de drogas ineficazes ou de médicos charlatões convencer pacientes da eficácia de falsos tratamentos.

Ainda bem que sou Bahia e meu técnico é Falcão. Aliás, essa frase não tem sentido. O destino de Falcão será o mesmo: em breve, ele será demitido pelo fenômeno de regressão à média; ou receberá uma proposta milionária do Flamengo quando Joel Santana for demitido pelo mesmo fenômeno de regressão à média.

Atualização: Três meses depois desta postagem, na mesma semana de 16 de julho, Falcão foi demitido do Bahia e Joel Santana do Flamengo. 

domingo, 1 de abril de 2012

Refinando a Discussão sobre Análise de Relevância Terapêutica – Tenecteplase versus Alteplase no AVC


Da Série Análise Crítica de Evidências sobre Terapia - Quarta Postagem

Na terceira postagem desta série, discutimos como utilizar o NNT para avaliar a magnitude do benefício de uma terapia ou a superioridade de uma nova terapia sobre a terapia tradicional. Neste texto, refinaremos esta discussão utilizando o artigo A Randomized Trial of Tenecteplase versus Alteplase for Acute Ischemic Stroke, recentemente publicado no New England Journal of Medicine e motivo de intenso debate nas últimas duas semanas. Este ensaio clínico randomizou pacientes para trombólise com tecneteplase versus alteplase na fase aguda de AVC isquêmico, demonstrando superioridade do tecneteplase.

Mas não podemos ficar nesta conclusão genérica, precisamos avaliar a magnitude desta superioridade. O quanto tenecteplase é melhor do que alteplase? De acordo com nossa última postagem, a melhor forma de responder esta pergunta é calculando o NNT em relação ao desfecho primário do estudo. Neste estudo, o desfecho primário foi a melhora na Escala NIHSS após 24 horas da terapia. Esta escala representa uma medida numérica da funcionalidade do paciente após o AVC (varia de 0 a 42), sendo que quanto maior, pior é a sequela do AVC. O artigo mostra que no grupo tenecteplase a melhora da Escala NIHSS após a trombólise foi de 8.0 ± 5.5, comparado a 3.0 ± 6.3 no grupo alteplase (P < 0.001).

Como calcular o NNT desta superioridade? Difícil, não?

O NNT é calculado pela divisão de 100 pela redução absoluta do risco. Como redução absoluta do risco é a subtração da proporção de pacientes que apresentam o desfecho em um grupo pela proporção no outro grupo, fica evidente que para calcular o NNT é necessário que o desfecho seja dicotômico (tipo sim ou não), pois só assim podemos ter a proporção do ocorrido. 

Mas no caso deste artigo, o desfecho principal é numérico, o que impossibilita o cálculo do NNT! Então como fazer?

Parêntese 1: na verdade, escalas ou escores são variáveis ordinais, mas estou as denominando numéricas para simplificar a discussão.

Neste caso, precisamos olhar com calma os números e fazer uma análise de caráter mais subjetivo do que quando temos o NNT. Por ser mais subjetiva, esta análise é algo mais dificultosa. Precisamos nos perguntar se 3 é muito diferente de 8 no que diz respeito à melhora da Escala NIHSS. Nas últimas duas semanas, andei perguntando a colegas neurologistas que encontrava pelos corredores. Todos responderam que esta vantagem pode ser relevante, pode ser a diferença entre falar e não falar, andar e não andar. Muito bem, isso já é alguma coisa, pode fazer diferença. Mas ainda não estou plenamente satisfeito, preciso saber qual a proporção de pacientes em que ocorre este grande benefício. Isso ocorre em raramente ou frequentemente?

Observem com atenção os desvios-padrão das médias de melhora na Escala (8.0 ± 5.5 versus 3.0 ± 6.3). Vejam que estes são grandes em relação às médias. Isso indica grande variabilidade na melhora dos pacientes. Alguns melhoram muito menos do que mostra a média e outros melhoram muito mais do que mostra a média. Isso nos traz mais incerteza quando à magnitude do efeito a partir da comparação dos valores médios. Portanto, neste caso acredito que os dados não são suficientes para fechar a análise de relevância a partir do objetivo primário.

E se comparássemos entre os dois grupos a proporção de pacientes que tiveram uma melhora importante? Assim poderíamos calcular um NNT. De fato, isso foi feito como desfecho secundário: a comparação quanto à proporção de pacientes com recuperação funcional boa ou excelente após 90 dias. No grupo tenecteplase, 72% dos pacientes apresentaram este benefício, comparado a 44% do grupo alteplase (P = 0.02). Vejam 72% - 44% = 28%. Agora, 100 / 28 = 3.6 de NNT, um benefício impressionante. Bingo, tenecteplase é MUITO melhor que alteplase? Calma, não nos precipitemos.

Isto não está muito bom para ser verdade? NNT tão bom assim é raramente visto em trabalhos que comparam tratamento versus controle, quanto mais em trabalhos de eficácia comparativa, os quais comparam tratamento versus tratamento. 

Podemos acreditar neste NNT? Este é um estudo pequeno, apenas 75 pacientes randomizados. Desta forma, há menos precisão nas estimativas pontuais. Mesmo aceitando que a diferença de melhora entre os grupos seja verdadeira, o estudo pode não ser preciso para avaliar a magnitude da diferença. Os valores 72% e 44% podem ser estimativas imprecisas devido ao tamanho amostral do estudo. Por isso mesmo, este desfecho foi pré-definido como secundário.

Desta forma, em um estudo pequeno, o valor do NNT pode não ser preciso. Só para comprovar esta idéia, calculei o intervalo de confiança deste desfecho secundário nos dois grupos. No grupo tenecteplase, 72% dos pacientes melhoraram bastante, mas o intervalo de confiança no nível 95% de certeza variou de 58% a 83%. Ou seja, não podemos garantir que é 72%, pode ser tão baixo como 58% e tão alto como 83%. Já o intervalo de confiança da proporção de melhora do grupo alteplase variou de 25% a 64%.

Sendo assim, não podemos dizer de forma precisa que o NNT é 3.6. O NNT pode ser tão bom quando 1.7, mas tão ruim quando infinito. Este é o intervalo de confiança do NNT: varia de 1.7 a infinito. Desta forma, o NNT é muito impreciso, não dá para usá-lo a fim de avaliar magnitude da terapia. Veja abaixo explicação de como fiz para estimar o intervalo de confiança do NNT.

Parêntese 2: para este cálculo, peguei os extremos do intervalo de confiança da proporção de melhora em cada grupo. O NNT de melhor hipótese é 100 / (subtração do melhor resultado do tecneteplase pelo pior do alteplase, 83% - 25%); o NNT de pior hipótese é 100 / (subtração do pior do tecneteplase pelo melhor da alteplase). Neste caso, o pior da tecneteplase (58%) é pior do que o melhor da alteplase (64%). Nem daria para calcular o NNT, pois este ficaria negativo. Mas dá para interpretar que a imprecisão é tão grande quando o infinito. Isso partindo da premissa de que é tecneteplase é verdadeiramente melhor do que alteplase.

Portanto, este trabalho é insuficiente para concluir a respeito do quanto tenecteplase é melhor do que alteplase. 

Além disso, há a questão da veracidade desta superioridade. Veracidade deve ser analisada antes de relevância, mas nesta postagem fiz o contrário, pois o foco maior é relevância. Mas se formos analisar a veracidade deste estudo, ficaremos ainda mais preocupados. Primeiro, em estudos pequenos a randomização pode não ser suficiente para homogeneizar perfeitamente as amostras. Isto resultou em diferenças entre os dois grupos. Sendo assim, devemos nos perguntar se estas diferenças seriam responsáveis pelo resultado a favor do tenecteplase. O mais crítico seria uma diferença na condição basal do desfecho primário (NIHSS). Felizmente esta é igual. Também a área de penumbra isquêmica (aquela sujeita ao benefício da terapia) é semelhante nos dois grupos. Portanto, não há diferenças que nos façam suspeitar muito que o resultado seja decorrente de fatores de confusão. Ufa, o estudo passou nesta prova. Mas há outro problema: este é um estudo aberto e avalia um desfecho mensurado pelo médico (soft), que pode variar de 0 a 42. Assim, o saber da terapia utilizada pode influenciar a análise da Escala NIHSS. É a velha combinação de um estudo aberto com um desfecho soft. Terceiro, sendo um desfecho secundário, a veracidade da melhora excelente ou boa é menor. O valor de P (0.02) pode estar subestimando a real probabilidade do acaso. Em caso de dúvida na análise de veracidade, revisem a primeira postagem desta série.

Desta forma, o recente artigo nos traz dois importantes aprendizados na análise de relevância: (1) quando o desfecho primário é numérico, não podemos calcular o NNT. Temos que analisar subjetivamente se aqueles números nos garantem relevância e às vezes esta questão fica indefinida; (2) temos também que nos preocupar com a precisão da estimativa do NNT quando estamos com estudos pequenos. Geralmente estudos pequenos não são suficientes para dar precisão a esta análise.

Mas por que os autores escolheram um desfecho numérico como primário, ao invés de um desfecho categórico? Porque este era um estudo pequeno, não teria poder estatístico para avaliar um desfecho categórico. Exatamente por isso que este é um estudo de fase II. Estudos de fase II geram hipóteses que devem ser confirmadas por estudos de fase III.

E os autores reconhecem devidamente esta característica do estudo. Portanto, ainda não está na hora de trocar alteplase por tenecteplase.