sábado, 7 de julho de 2012

Mundo Univariado versus Mundo Multivariado



Nosso mundo é multivariado, no sentido de que vários fatores influenciam simultaneamente a ocorrência de um evento. No entanto, nossa mente é mais condicionada a pensar de forma univariada, o que gera alguns equívocos científicos. Na realidade, não existe uma causalidade cartesiana, aquela na qual um único fator determina um desfecho. Principalmente em se tratando de sistemas biológicos, que são tradicionalmente classificados como sistemas complexos, representados pela figura acima.

Um exemplo destes equívocos é a conclusão da meta-análise publicada esta semana no Journal of the American College of Cardiology, cujo titulo é  Invasive or Conservative Strategy in Patients With Diabetes Mellitus and Non–ST-Segment Elevation Acute Coronary Syndromes: A Collaborative Meta-Analysis of Randomized Trials. Os autores do trabalho concluíram que “These data support the updated guidelines that recommend an invasive strategy for patients with diabetes mellitus and non–ST-segment elevation acute coronary syndromes.”

Ou seja, se for diabético, a estratégia deve ser invasiva. Será?

Esta é uma meta-análise dos 9 principais ensaios clínicos que compararam a conduta invasiva versus conversadora em síndromes coronarianas agudas sem supradesnível do segmento ST. Em uma análise de subgrupo, os autores da meta-análise nos mostram dados sugerindo que a estratégia invasiva é melhor do que a conservadora na prevenção de infarto nos pacientes diabéticos; por outro lado, nos não diabéticos, as estratégias são semelhantes. Portanto, se o paciente é diabético, devemos preferir a estratégia invasiva, segundo os autores. 

Não quero fugir do tema da postagem, entrando em aspectos metodológicos do estudo que reduzem a confiabilidade desta análise. Mas só para registrar, esta é uma conclusão tirada a partir de análise de subgrupo e de apenas um desfecho, o que foi significativo (infarto), pois os demais não mostraram diferença.

Voltando ao tema, o grande problema da conclusão do trabalho é que este raciocínio é puramente univariado. Como se só existisse uma característica a ser avaliada nesta decisão (diabético ou não). Este raciocínio implica que todo diabético é de alto risco e necessita de estratégia invasiva. No mundo real, multivariado, há diabéticos de baixo a alto risco, pois outras variáveis (multi) atuam juntamente com diabetes, determinando o risco final do paciente. Da mesma forma, não diabéticos podem ser de baixo a alto risco. Portanto, é de baixo risco um diabético jovem com angina instável, sem alteração de eletrocardiograma, troponina negativa, sem sinais de congestão pulmonar, estável hemodinamicamente, boa função renal.  Ao passo que um não diabético idoso, com infradesnível do segmento ST, troponina positiva, com congestão pulmonar é de alto risco.

Em nosso mundo multivariado, não podemos considerar apenas uma variável na determinação do risco do paciente. Esta determinação deve ser multivariada, tal como se faz quando usamos um escore de risco validado, que considera todas as variáveis conjuntamente, dando o peso que cada variável merece, calculado a partir de uma análise multivariada (regressão logística ou regressão de Cox, as mais comuns).

O próprio estudo demonstra que a diferença de benefício da estratégia entre diabéticos e não diabéticos depende apenas do risco basal do paciente. Isto porquê a redução relativa do risco de infarto com a estratégia invasiva é igual nos diabéticos e não diabéticos. Ou seja, o tratamento tem o mesmo efeito redutor de risco nos dois grupos. O que difere é a redução absoluta de risco. Quando a redução absoluta do risco com o tratamento difere entre os grupos (diabéticos vs. não diabéticos), mas a redução relativa é constante, não é o tratamento que tem melhor efeito no tipo de paciente, é simplesmente porque sendo o risco absoluto maior, a redução absoluta do risco será maior.

Portanto, o resultado é decorrente do grupo de diabético ser de maior risco na análise univariada. Porém sabemos que no mundo multivariado (mundo real) diabetes não é preditor independente de risco. Querem ver uma coisa? Por que diabetes não faz parte do escore GRACE? Porque naquele grande estudo de coorte, após ajuste para os outros fatores de risco, diabetes perdeu significância.


Sozinha, a informação diabetes não quer dizer nada. A questão é que os diabéticos tem mais troponina positiva, piores alterações eletrocardiográficas, maior idade, pior função renal, etc. Isto já está computado no modelo multivariado (tipo GRACE), portanto neste contexto seria redundante e errado analisar diabetes como um único fator determinante do risco. 


Se a idéia a primeira vista parece estranha, é porque não estamos acostumados a lidar com o pensamento multivariado. Daí a importância dessa discussão.

Portanto, (1) se a interação do tipo de estratégia e diabetes só ocorre com a redução absoluta de risco (não a relativa), (2) a superioridade do tratamento invasivo no diabético depende apenas do fato de que este grupo é de alto risco; (3) porém, no mundo real (multivariado) o simples fato de ser diabético não garante ser o paciente de alto risco; (4) portanto, não é verdadeira a conclusão de que o diabético deve ser sempre (ou quase sempre) submetido à estratégia invasiva.


Quando um ensaio clínico mostra que pacientes com troponina positiva apresentam benefício de estratégia invasiva, não quer dizer que isso ocorrerá em todos os pacientes. Em média, há superioridade desta estratégia, mas análises de subgrupo confirmam que nos pacientes de baixo risco o benefício absoluto é menor ou inexistente. Como mencionei na postagem anterior, critério de inclusão de um trabalho não é exatamente um guia para determinação de que pacientes devem ser submetidos à conduta.

Em síndromes coronarianas agudas sem supradesnível do ST temos duas opções razoáveis: fazer estratégia invasiva de rotina (CAT seguido de procedimento de revascularização em todos) ou individualizar a decisão de acordo com seu risco basal do paciente (estratificação). Se optamos pela segunda forma (minha preferência), devemos considerar simultaneamente os preditores independentes, para estimar de maneira acurada o risco basal do paciente e decidir pela estratégia.

O que tem ocorrido na prática é que as recomendações (guidelines americano e europeu) sugerem fazer estratificação, porém colocam uma série de critérios univariados, que quando isoladamente presentes, devem determinar uma estratégia invasiva. E assim, eles indicam diabetes como critério de invasividade. Na verdade, são tantos os critérios univariados que não sobra quase ninguém para a estratégia conservadora. No fundo, isso é como dizer para ser invasivo de rotina, independente do risco do paciente. Digo independente do risco, pois simplesmente ser diabético não é suficiente para determinar um risco alto. Depende de uma conjunção multivariada de fatores. Seria mais razoável que estes guidelines assumissem a estratégia invasiva como escolha, especificando raras exceções. No fundo, é isso que estão fazendo, porém querem parecer estar estratificando. Isso não é estratificação, pelo contrário.

Uma dos maiores exemplos desse equívoco é o uso isolado da troponina na decisão. Quando consideramos, por exemplo, a análise multivariada realizada na coorte do GRACE, percebemos que (1) troponina é um preditor independente de risco; (2) troponina é apenas um fator na determinação do risco dentre muitos outros, tais como idade, desvio do ST; (3) o peso da troponina positiva não é suficiente para que sozinha esta implique em alto risco. Por exemplo, o peso da troponina é metade do peso do infradesnível de ST.

Sendo assim, temos que pensar em avaliação prognóstica como um processo multivaraiado. O correto é usar troponina, eletrocardiograma, idade, etc, conjuntamente, considerando o peso de cada uma destas variáveis merece após ajuste para as demais. Isto é o que faz um  escore multivariado tipo do GRACE.

Portanto, generalizar que todo paciente diabético deve ser submetido à estratégia invasiva é uma visão reducionista. Limitada a um pensamento univariado, o qual é inadmissível considerando o status atual de conhecimento científico.

Esta discussão exemplifica a necessidade de reconhecermos o mundo como multivariado, evitando assim equívocos científico que podem determinar inadequada utilização dos recursos médicos.

É só olhar ao nosso redor e perceber que o mundo é multivariado. Os exemplos cotidianos, deixo para vocês mencionarem nos comentário do Blog. São muitos ...

segunda-feira, 2 de julho de 2012

Cirurgia Precoce em Endocardite - Analisando um Estudo Pequeno




No último número do New England Journal of Medicine foi publicado o primeiro ensaio clínico randomizado que testou a hipótese de que cirurgia precoce reduz o risco do desfecho combinado de morte ou embolia sistêmica em pacientes com endocardite e grande vegetação em valva nativa. Este trabalho randomizou 76 pacientes para cirurgia em 48 horas da randomização ou tratamento convencional, demonstrando que o grupo cirúrgico reduziu significativamente o risco deste desfecho combinado (3% vs. 23%; P = 0.03), à custa de prevenção de evento embólico (mortalidade foi igual).

Mesmo tendo alcançado significância estatística, ensaios clínicos pequenos como este merecem uma análise crítica mais cuidadosa. Seguindo nosso roteiro de análise critica (1234, 5), vamos avaliar veracidade, relevância e aplicabilidade destes resultados.

Veracidade

O valor de P < 0.05 indica que é pouco provável que este resultado tenha decorrido do acaso. Ou seja, se a hipótese nula fosse verdadeira, a probabilidade de um resultado tão diferente entre os dois grupos (3% vs. 23%) ter aparecido aleatoriamente é de apenas 3%. Isso rejeita a hipótese nula e ficamos com a hipótese alternativa de que a cirurgia é melhor do que o tratamento convencional.

Porém seria simplório parar por aqui. Quando um estudo pequeno assim alcança significância estatística para desfechos duros ficamos a nos questionar se este valor de P representa a realidade. Revisando, o que poderia gerar um valor de P inacurado?

Primeiro, um resultado proveniente de desfecho secundário. Neste caso há o problemas das múltiplas comparações (muitos desfechos testados simultaneamente), fazendo com que haja uma maior probabilidade de significância estatística na ausência de diferença real. Não é o caso deste estudo,  pois a conclusão é baseada no desfecho primário, que foi pré-definido e o tamanho amostral dimensionado para oferecer um poder de 80%.

Segunda preocupação, um estudo truncado pode gerar um valor de P significativo, por acaso. Também não á o caso deste estudo, pois o tamanho amostral planejado de 74 pacientes foi alcançado e o seguimento hospitalar foi completado.

Sendo assim, acreditamos que o valor de P de 0.03 é representativo da realidade.

Mas ainda há um problema capcioso, mas que é real: para um estudo pequeno ter um resultado estatisticamente significante (P < 0.05) em relação a um desfecho categórico (evento ou não evento), é necessário que haja uma diferença absoluta tão grande que esta pode se tornar inverossímil.  A diferença pode ser tão inverossímil que passamos a acreditar mais na possibilidade de que o estudo caiu naqueles 3% de probabilidade desta diferença aparecer na presença da ausência de benefício real (hipótese nula verdadeira). Ou seja, aqui não estamos questionando o valor de P de 3%, este deve está certo. Mas a questão é se o estudo caiu exatamente nestes 3% de probabilidade do resultado ter aparecido aleatoriamente.

Lembram-se do estudo de Poderman, do beta-bloqueador em pré-operatório de cirurgia não cardíaca? Tinha apenas 112 pacientes e mostrou redução de mortalidade (3.4% vs. 17%, P = 0.02). Este enorme benefício é inverossímil, pois nenhuma droga cardiovascular provocou tal redução de mortalidade (nem trombólise no IAM, cuja redução de mortalidade é 1/3 desta), quanto mais beta-bloqueador em cirurgia não cardíaca. Como sabemos, estudos posteriores mostraram que esse benefício não é verdadeiro.

Portanto, devemos nos perguntar se uma diferença absoluta de 20% neste estudo é plausível. Primeiro, 23% de eventos é o que se espera de embolia sem a cirurgia? Parece que sim, de acordo com registros prévios citados pelo próprio autor. Segundo, faz sentido praticamente eliminar o risco de embolia com a cirurgia? Também parece fazer sentido, pois se a vegetação é retirada, não vai embolizar.

Portanto, este resultado não parece ter sido devido ao acaso, devemos acreditar no valor de P e acreditar que um valor de P < 0.05 sugere benefício, pois neste caso a diferença é clinicamente plausível.

Ainda resta a possibilidade dos resultados serem decorrentes de efeito de confusão ou vieses. Efeito de confusão não parece existir, pois a randomização foi suficiente para que as amostras fossem homogêneas. Quanto a vieses, nos preocupamos com o fato do estudo ser aberto poder gerar erro na aferição dos eventos embólicos (tendenciosidade). Porém estes desfechos foram definidos de forma bastante objetiva: embolia teria que ser um evento muito bem caracterizado clinicamente e demonstrado por exame de imagem. Sendo assim, é pouco provável que o resultado seja decorrente deste viés. Quanto ao tratamento, todos os pacientes do grupo cirúrgico foram operados; e apesar de que 70% do grupo convencional foram operados também, estas cirurgias foram bem tardias e todos os eventos registrados nesse grupo ocorreram antes da cirurgia. Portanto, o estudo é adequado para avaliar o benefício da cirurgia precocemente indicada.

Sendo assim, concluímos que o benefício é verdadeiro, de fato a cirurgia previne embolia sistêmica.

Relevância

Se formos calcular, ficaremos impressionados com um NNT de 5. Muito baixo, benefício de magnitude quase nunca observado. É verdade? Tal como mencionamos na postagem do estudo da tenecteplase no AVC, estudos pequenos não possuem precisão na medida do NNT.

Só de olhar o intervalo de confiança do hazard ratio percebemos a imprecisão na magnitude do benefício. Vejam, os autores descrevem um hazard ratio de 0.10, mas com intervalo de confiança que varia de 0.01 a 0.82. Vejam que imprecisão, a redução relativa do risco pode ser tão grande quando 99% a tão pequena quando 16%.  Mas a medida do hazard ratio é relativa, precisamos ir para a redução absoluta e calcular o NNT. O autor não faz isso, porém podemos calcular os intervalos de confiança com um simples software estatístico (WINPEPI, por exemplo):

Risco de embolia/morte no grupo cirúrgico = 3% (95% IC = 0.1% a 13% - que imprecisão!)
Risco de embolia/morte no grupo convencional = 23% (95% IC = 12% a 38% - que imprecisão!)

Sendo assim, a redução absoluta do risco (risco cirúrgico - risco convencional) tem o intervalo de confiança variando de 1% a 38%. Portanto, o NNT (100/RAR) pode variar de 100 (pequeno impacto) a 2.6 (impacto enorme).

Portanto, este estudo não é suficiente para nos garantir que o benefício é de grande magnitude. Isto seria importante, pois se soubéssemos que a magnitude é enorme, insistiríamos em cirurgia mesmo para pacientes de muito alto risco ou instáveis clinicamente. Mas diante da incerteza na magnitude do benefício, a escolha deve ser mais ponderada, caso a caso.

Aplicabilidade

Conhecendo os pacientes pela tabela de características clínicas, 3 aspectos julgo dignos de nota.

Primeiro, o mais óbvio: todos tinham vegetação > 10 mm, tal como definido pelo critério de inclusão. Portanto aqui nos referimos a pacientes com vegetação grande, não qualquer vegetação. Seguindo o raciocínio da postagem anterior (aplicabilidade), há razão para acreditarmos que se a vegetação for pequena, o benefício pode não existir. Como estamos falando de cirurgia cardíaca, um procedimento agressivo, os resultados não devem ser extrapolados para vegetação muito menores que isso.

Segundo, aqui não se tratam de pacientes com infecção descontrolada, sépticos, daqueles que os cirurgiões não gostam de colocar na sala. Digo isso pois os tempo sem febre teve uma mediana de 2 dias, com 75% dos pacientes com mais de um dia sem febre (intervalo interquartil = 1 – 3). Há razão para o resultado cirúrgico ser pior em pacientes sem controle da infecção? Acho que sim. Portanto, não devemos extrapolar estes resultados para pacientes com infecção descontrolada, pois o resultado cirúrgico pode não ser o mesmo.

Corroborando com esta observação, a grande maioria dos casos era por infecção estreptocócica, a mais branda de todas, sendo apenas 10% dos pacientes com infecção por estafilococos.

Conclusão

Embora o resultado seja visualmente impressionante (vide gráfico acima), nossa conclusão deve ser mais ponderada, em se considerando as características deste estudo.

Devemos indicar cirurgia precoce de rotina na endocardite de valva nativa na presença de grandes vegetações e quadro infeccioso parcialmente ou plenamente controlado (em sépticos há incerteza). Mesmo assim, considerando a imprecisão da magnitude do benefício, devemos ponderar a decisão quando nos deparamos com risco cirúrgico muito alto, desconforto do cirurgião quanto às condições do paciente ou desejo do paciente em evitar cirurgia.

Seríamos mais enfáticos na indicação se a mesma magnitude de benefício fosse demonstrada em estudo de grande porte, de maior precisão. Mas este provavelmente nunca existirá ...

domingo, 1 de julho de 2012

Simpósio de Cardiologia Baseada em Evidência no Congresso Brasileiro em Recife

Colegas, nós do Grupo de Estudos em Cardiologia Baseada em Evidências organizamos cuidadosamente este Simpósio de imersão nos conceitos de medicina baseada em evidências. Terá a participação dos grandes nomes da cardiologia baseada em evidências, que transmitirão conceitos importantes de análise crítica da literatura médica. Além de palestras, este simpósio terá um foco reflexivo, priorizando os momentos de discussão aberta sobre os temas. 

Precisamos desenvolver uma análise crítica em relação aos conhecimentos que nos são apresentados. Nada melhor do que iniciar o congresso com esta abordagem. 


Aplicabilidade de Evidências sobre Terapia: Princípio da Complacência



* Quinta postagem da Série Análise Crítica de Evidências sobre Terapia.
* Terceira postagem da série Os Sete Princípios da Medicina Baseada em Evidências. Na primeira postagem apresentamos os primeiro três princípios; na segunda demonstramos o quarto princípio. Na quarta postagem nos antecipamos para o sétimo princípio. Nesta abordaremos o sexto princípio: princípio da complacência. Em postagem futura concluiremos com o quinto princípio e revisaremos todos simultaneamente.


Na série Análise Crítica de Evidências sobre Terapia, abordamos os tópicos veracidade e relevância da eficácia terapêutica em várias postagens prévias (1, 2, 3, 4). Agora chega a hora de abordarmos o último tópico, a aplicabilidade da evidência.

É evidente que nosso pensamento tem sido bastante rígido nas análises de veracidade e relevância, muitas vezes contradizendo opiniões mais entusiasmadas em relação a certas formas de tratamento. Esta rigidez do pensamento baseado em evidências se justifica pela preocupação em não gerar falsas verdades, o que é pode ser bastante prejudicial (princípio da hipótese nula). Por outro lado, na análise de aplicabilidade, vocês perceberão que chega a hora da medicina baseada em evidências assumir uma postura mais complacente. É o princípio da complacência.


Após concluirmos que uma evidência é verdadeira e relevante, devemos pensar em sua aplicabilidade. O ideal é que ela seja aplicada a um maior número de pessoas possível. Isso justifica a maior complacência na análise de aplicabilidade. Por outro lado, não podemos extrapolar demais.

A decisão a respeito da aplicabilidade requer maior maturidade científica e clínica, pois não é uma avaliação tão objetiva como as análises de veracidade e relevância. Isto faz com que muitas vezes indivíduos decidam não aplicar terapia quando deveriam aplicar ou extrapolar demais uma evidência, como se ela fosse verdadeira em qualquer circunstância.

Isto passa pelos conceitos de validade interna e validade externa do trabalho. Observem, validade interna é o mesmo conceito da análise de veracidade, que se faz nas circunstâncias internas do estudo em questão, ou seja, a veracidade de uma eficácia exatamente nos paciente estudados e exatamente  como o tratamento foi aplicado. Já a validade externa descreve até que ponto podemos extrapolar os resultados de um estudo para uma população diferente da avaliada ou para uma forma de aplicação um pouco diferente da realizada no estudo.

Aplicabilidade da terapia se refere a 3 aspectos: em quem esta será aplicada, como será aplicada, onde será aplicada.

Vamos iniciar pelo problema mais comum: em quem será aplicada. Por exemplo, quase todos os conhecimentos básicos sobre eficácia terapêutica em cardiologia foram provenientes de ensaios clínicos realizados em países de primeiro mundo, no final do século passado (benefício da trombólise ou angioplastia primário no IAM, antitrombóticos nas síndromes coronarianas agudas, inibidor da ECA ou beta-bloqueadores em ICC e inúmeros outros exemplos de uma grande lista). Estes estudos não avaliaram o típico paciente brasileiro, de raça miscigenada. Então podemos aplicar estes conhecimentos no brasileiro? Nossa decisão histórica foi que poderíamos aplicar, ou seja, julgamos que a validade externa daqueles estudos envolvia nossa população. Observe que se fôssemos rígidos demais privaríamos nossos pacientes destes benefícios. Desta forma, a maior complacência da medicina baseada em evidências na análise de aplicabilidade permite que um maior número de pessoas se beneficie dos tratamentos. É por isso que utilizamos tratamentos em pacientes octagenários, embora eles não sejam bem representados por ensaios clínicos.

Por outro lado, não podemos ser totalmente complacentes, essa deve ser uma análise caso a caso. Devemos aplicar tudo isso em uma paciente de 104 anos? Tenho minhas dúvidas ... Devemos ponderar melhor nestes casos extremos. 

Então, como fazer esta análise a partir de um ensaio clínico?

Em primeiro lugar, observamos cuidadosamente de quem se trata a amostra estudada, lendo a tabela de características clínicas. Lá teremos acesso à média de idade, sexo, raça, gravidade da doença naquela amostra (fração de ejeção na ICC, escore GRACE na síndrome coronariana aguda) e presença de co-morbidades (função renal, diabetes). Vale salientar que os critérios de inclusão do estudo nem sempre refletem a amostra estudada. Por exemplo, você pode ter como critérios a inclusão de paciente de 18 a 75 anos, mas aquela doença é rara em jovens e praticamente não há ninguém com idade < 30 anos. Sendo assim, temos que nos condicionar a contemplar bastante a tabela de características clínicas, usualmente a tabela 1 em artigos científicos. 

Uma vez conhecendo exatamente quem foi avaliado no ensaio clínico, vamos saber que é neste tipo de paciente que o estudo tem a validade ideal. Vamos agora à validade externa. Quando nos depararmos com um paciente diferente da amostra estudada, devemos nos perguntar: existe alguma forte razão para aquele benefício se perder neste tipo de paciente; ou para surgir um efeito adverso grave. Ou como diz David Sackett, “nosso paciente é tão diferente daqueles do estudo de forma que os resultados não se apliquem a ele?”

Por exemplo, o clássico estudo SOLVD demonstrou que enalapril reduz mortalidade em pacientes com ICC, cuja média de fração de ejeção foi 25% e não tinha ninguém com fração > 35%. Vamos supor um paciente sintomático, com fração de ejeção de 40%. Devemos usar enalapril? Existe alguma forte razão para aquele benefício se perder neste tipo de paciente? A resposta é não. Portanto nós costumamos usar inibidor da ECA em pacientes com disfunção moderada ou até disfunção leve.


Evidências sobre tratamento de hipertensão é outro grande exemplo. Todos os ensaios clínicos que demonstram redução no risco de eventos cardiovasculares com o tratamento são realizados em amostras de hipertensos pelo menos moderados e de alto risco cardiovascular. Isto é feito para que a incidência de desfechos seja grande o suficiente para oferecer o poder estatístico necessário. Mesmo assim, nós extrapolamos estas evidências para pacientes com hipertensão leve e de baixo risco. Ou seja, qualquer paciente que se mantenha hipertenso apesar de medidas não farmacológicas serão colocados em tratamento medicamentoso. É mais um exemplo do princípio da complacência

Ao extrapolar, devemos ter em mente que a magnitude do benefício tente a ser menor (para uma mesma redução relativa do risco, o NNT aumenta na medida em que o risco absoluto diminui). Ou seja, se um hipertenso de baixo risco tiver sintomas de hipotensão postural com a droga, uma eventual suspensão não lhe deixará tão vulnerável quando um paciente de alto risco.

Na verdade, quando extrapolamos para amostras de baixo risco (fração de ejeção maior, pressão arterial menor), devemos recalibrar o NNT, a partir da incidência de eventos esperada na população em questão. É só aplicar a redução relativa do risco (que tende a ser relativamente constante) no risco absoluto esperado daquele tipo de população sem tratamento. Isso nos dará a redução absoluta do risco esperada, que permitirá o cálculo do NNT na amostra de baixo risco (100/RAR).

Este tipo de raciocínio também se baseia no fato de que interação qualitativa entre o efeito da droga e o tipo do paciente é um fenômeno muito raro em medicina. Mais comum é interação quantitativa. O que quer dizer isso? Interação qualitativa é uma droga ser benéfica em um subgrupo de paciente e maléfica em outro subgrupo (a qualidade do efeito da droga muda). Isso quase nunca ocorre, em se considerando o mesmo desfecho nas duas análises. Interação quantitativa é quando a magnitude do efeito da terapia muda com o tipo de paciente, ou seja, o paciente com fração de ejeção maior vai ter menor benefício ou na pior das hipóteses não vai ter benefício. É pouco provável que na presença de benefício em pacientes com fração muito baixa, haja malefício nos de fração mais alta. Esta observação de como as evidências se comportam é a base científica para o princípio da complacência na análise de aplicabilidade.


Este mesmo raciocínio nos induz a utilizar inibidor da ECA em pacientes com miocardiopatia chagásica, nos quais esta terapia não foi suficientemente testada. Já quanto ao uso de beta-bloqueador em chagásicos, acho que esta análise deve ser mais criteriosa e individualizada, pois estes pacientes possuem mais predisposição a bradiarritmia (menor validade externa). No outro extremo, a aplicabilidade das evidências de desfibrilador implantável (CDI) pode ser pequena nos chagásicos. O número de choques nestes pacientes é muito alto, podendo até ser prejudicial, causar lesão miocárdica e agravamento da função ventricular. Este tópico é discutido de forma provocativa por Anis Rassi Jr., em artigo publicado no J Cardiovasc Electrophysiol em 2007. Por este motivo, será realizado no Brasil o ensaio clínico CHAGASIC, idealizado por este autor e financiado pelo Ministério da Saúde.

Enoxaparina foi demonstrada eficaz para o tratamento de SCA, mas pacientes com disfunção renal severa não fizeram parte dos estudos. Neste caso, há razão para que a droga cause problema nestes pacientes, pois a disfunção renal pode provocar aumento da ação anticoagulante, causando sangramento. Portanto não devemos extrapolar para estes pacientes.

E assim vai, são múltiplos os exemplos e nós devemos pensar, refletir caso a caso. Observem que nesta situação, não há uma medida específica (valor de P, NNT, RR, RA). É um pensamento criterioso que deve avaliar o grau de extrapolação da validade interna de um estudo, ou seja, a validade externa. Gosto de denominar isso de limiar de validade externa, o qual varia com cada situação.

Até aqui comentamos da validade de uma evidência para o tipo de paciente. Mas também devemos pensar sobre validade em relação à forma como a terapia é aplicada. Vejamos. Imagine que um estudo mostra benefício da atorvastatina 80 mg versus placebo. Mas isso é uma terapia de alto custo. Podemos então aplicar a evidência utilizando atorvastatina 10 mg se isto for suficiente para trazer o LDL-colesterol para níveis ótimos? Parece-me que sim. Na pior das hipóteses teríamos uma redução da magnitude do benefício, que possivelmente não será grande se 10 mg for suficiente para atingir um LDL-colesterol de 70 mg/dl.

Percebam que muitas vezes precisamos variam um pouco a forma de tratamento para torná-lo factível. Até um certo ponto, isso é aceitável. Usar uma droga mais cara na fase aguda e depois mudar para uma droga de custo mais baixo para o uso crônico pode ser aceitável, se não houver uma grande razão para isso causar problema. Por exemplo, em pacientes com síndromes coronarianas agudas de alto risco, Ticagrelor ao invés de Clopidogrel pode ter um NNT que justifique seu uso da fase aguda, mas esta é uma droga de alto custo e, a depender do paciente, pode ser razoável fazer a transição para Clopidogrel no uso de longo prazo.


Diferentemente do que alguns pensam, medicina baseada em evidências não é copiar com exatidão a conduta de ensaios clínicos na prática. 

Um ensaio clínico é feito para testar uma hipótese. Sendo assim, a especificidade da amostra estudada e outros aspectos de seu desenho existem para evitar vieses ou maximizar o contrate de resultado entre intervenção e controle, aumentando seu poder estatístico. Uma vez provada a hipótese, a tradução disso para a prática clínica pode sofrer certa variação a fim de que se torne realidade. Isso não é infringir a evidência, é valorizá-la a ponto de criar condições para que esta seja aplicada ao maior número de pacientes.


Por fim, onde será aplicada a terapia. Este item diz respeito a terapias que dependem da habilidade da equipe médica. Ou seja, procedimentos invasivos ou cirurgias. Transcatheter Aortic-Valve Implantation (TAVI) é uma forma percutânea de corrigir doença da valva aórtica, em pacientes que queremos evitar cirurgia. Esta forma foi validada pelo ensaio clínico PARTNER, que mostrou redução de mortalidade quando comparado ao tratamento clínico de pacientes com impossibilidade clínica de cirurgia. No entanto, devemos antes analisar se nossa equipe de clínicos, intervencionistas, ecocardiografistas está suficientemente treinada para reproduzir os resultados deste estudo.

Um segundo aspecto que diz respeito ao onde será aplicada é a questão de custo. Uma terapia pode ser eficaz, porém não custo-efetiva, fazendo um país de medicina racional e socializada decidir pela não implementação generalizada daquele tratamento.

Ao falar deste assunto, devemos mencionar os guidelines de aplicabilidade de terapia, os quais classificam o nível de evidências das recomendações em A, B ou C. Nesta classificação, há com frequência violação dos princípios da medicina baseada em evidências. Nível A é aquela situação em que há comprovação da veracidade do tratamento, ou seja, um ensaio clínico randomizado de boa qualidade, demonstrando benefício em desfecho clínico; nível C é ausência de evidência, quando a recomendação ocorre por consenso de especialista. Este só se justifica em situações de plausibilidade extrema (paradigma do para-quedas). Muitos têm feito estas recomendações em outras situações, de forma bastante inadequada. E o nível B, quando se aplica? Exatamente nas situações que estamos discutindo nesta postagem. Ou seja, em situações em que a evidência não diz respeito àquele tipo específico de população, mas há uma evidência de qualidade em outra população que se decide extrapolar. Ou seja, afirmar que devemos utilizar IECA em pacientes com fração de ejeção de 45% não é apenas consenso de especialistas, é uma recomendação baseada evidências de pacientes com fração de ejeção de 25%. Nível B não se aplica a evidências de veracidade questionável, tais como estudos com vieses importantes ou que avaliam desfechos substitutos. Estes devem gerar hipóteses, mas não recomendar terapias.

Sendo assim, após ler o artigo (rígida análise de veracidade e relevância), devemos refletir sobre em quem, quando e onde aplicaremos aquela terapia. Nesta postagem procuramos traçar uma sequência de pensamento, que aborda os aspectos que necessitam ser avaliados neste tipo de pensamento que requer maturidade científica e julgamento clínico.

O princípio da complacência na análise de aplicabilidade de evidências potencializa o impacto positivo de uma evidência que julgamos ser verdadeira e relevante. Esta é a hora de sermos mais contemplativos. 


* Na próxima postagem desta série, discutiremos análise de subgrupo, um importante tópico relacionado a aplicabilidade da terapia.

quarta-feira, 30 de maio de 2012

Fama sem Proveito: Estudo FAME-II



Ainda não publicado, o estudo FAME-II já está servindo de argumento para os lobistas anti COURAGE Trial, aqueles de mentalidade do médico ativo, que procuram justificar revascularizações em pacientes sem indicação deste procedimento. O estudo FAME-II tem um desenho semelhante ao COURAGE, no sentido de que randomizou pacientes com doença coronária estável (sintomáticos e assintomáticos) para implante de stent + tratamento clínico otimizado versus tratamento clínico otimizado. A diferença é que a intervenção coronária foi guiada por fractional flow reserve (FFR), ou seja, tinha comprovação hemodinâmica de redução de fluxo. Digamos, uma escolha mais criteriosa de que lesões seriam tratadas.

Apos incluir 1.219 pacientes, o FAME-II foi interrompido pois “mostrou um claro benefício da estratégia intervencionista”. Aí está, mais um estudo truncado por benefício. Mais um resultado com possibilidade de ser decorrente do erro tipo I (acaso),  por de ter sido interrompido antes da hora.

Mas mesmo que não houvesse truncamento, precisaríamos discutir estes resultados mais a fundo. Devemos nos perguntar se este resultado traz algo de novo, se contraria os dados “conservadores” do COURAGE, como alguns estão argumentando.

Claro que não, é exatamente o contrário, pois o FAME-II não mostrou redução de mortalidade, nem redução de infarto – exatamente como o COURAGE. O que reduziu foi apenas incidência de hospitalização por sintomas e necessidade de revascularização. Exatamente como o COURAGE, que mostrou apenas melhora dos sintomas.

Portanto, o FAME-II confirma os dados do COURAGE.

Outro aspecto é que o desfecho revascularização do FAME-II foi definido como necessidade de revascularização urgente, conotando um tipo de desfecho aparentemente mais importante do que simplesmente revascularização. Ou seja, sugerindo que seria um desfecho instável. No entanto, não faz tanto sentido que um desfecho que caracteriza instabilidade seja reduzido, se infarto não apresentou redução. Digo, uma verdadeira necessidade de revascularização urgente significa o extremo de gravidade de pacientes com síndromes coronarianas agudas. Qual a lógica do tratamento prevenir este desfecho, se não previne infartos em geral? Precisaremos ler a definição deste desfecho no artigo a ser publicado futuramente.

Outro aspecto importante é que os dois únicos desfechos que mostraram benefício da estratégia intervencionista são susceptíveis ao viés de aferição, devido à característica aberta do estudo. Isso mesmo, o estudo não é cego, pois é difícil cegar estudos de intervenção versus tratamento clínico. Os dois desfechos (internamento por angina e revascularização) são eventos que decorrem de decisão médica. Ou seja, se internar ou ter uma revascularização indicada depende da vontade do médico. Desta forma, ao saber que seu paciente foi randomizado para não fazer intervenção coronária, o médico fica com a impressão de maior vulnerabilidade do paciente e fica mais propício a indicar internamento ou revascularização a qualquer sintoma. Daí surge uma tendência de que estes desfechos sejam mais frequentes em pacientes randomizados para o tratamento não intervencionista. Aí está uma típica combinação de desfechos moles (softs) com um estudo aberto, o que predispõe a falsos resultados.

Sendo assim, pelo caráter truncado e potencial viés de aferição, é possível que este aparente benefício seja falso. Segundo, mesmo sendo verdadeiro, este resultado está de acordo com o COURAGE: o que a intervenção faz é controlar sintomas, sem impacto sobre eventos de maior gravidade.

Porém desde já tenho ouvido argumentos utilizando este estudo contra o paradigma do estudo COURAGE. É Possível que o FAME-II se alie ao esdrúxulo subestudo nuclear do COURAGE, um dos mais citados pelos que gostam de defender o tratamento intervencionista.

Este subestudo avaliou um subgrupo de pacientes do COURAGE que fez cintilografia miocárdica antes e depois do tratamento. Mostrou que pacientes que apresentavam redução da isquemia com o tratamento (seja clínico, seja intervencionista) tiveram melhor prognóstico.

E com isso, muitos começam a sugerir que se houver isquemia, o paciente deve ser revascularizado. Qual a lógica disso?

Observem que esta análise em momento algum comparou angioplastia versus tratamento clínico, portanto não pode falar em tratamento. Pacientes que melhoram a isquemia (com qualquer tratamento) são de menor risco, menor complexidade da doença coronária, e provavelmente por isso têm melhor prognóstico. De acordo com isso, ao ajustar (análise multivariada) para as características clínicas, a significância estatística desta diferença prognóstica desapareceu totalmente. No entanto, este estudo é citado com muita frequência em encontros médicos, como uma evidência a favor da intervenção coronária. Tenho uma nítida sensação que este estudo não está sendo lido pelas pessoas, que apenas repetem o que ouvem falar ser o significado de seus resultados. Se lessem com o mínimo de atenção, chegariam a mesma conclusão que aqui exponho.

Mas podem esperar: o FAME-II vai se juntar (já está se justando) ao esdrúxulo subestudo nuclear do COURAGE, como mais uma evidência a favor da mentalidade do médico ativo.

Isto predispõe ao fenômeno descrito na língua inglesa como medical reversal. Este fenômeno é caracterizado por criarmos falsos paradigmas que em pouco tempo são revertidos por evidências científicas. E isso não é bom, pois muitas vezes estes falso paradigmas promovem condutas desnecessárias, às vezes até maléficas.

Em fase inicial está o estudo ISCHEMIA, semelhante ao COURAGE, porém limitado a pacientes com isquemia miocárdica moderada a severa. Só espero que daqui a alguns anos o ISCHEMIA não seja truncado por aparente benefício.

segunda-feira, 21 de maio de 2012

Viés de Análise de Dados - Bahia vs. Vitória


Em resposta à nossa última postagem, Paulo Rocha, professor adjunto da Faculdade de Medicina da UFBA e que leciona bioestatística na pós-graduação, nos enviou o gráfico acima, com as estatística dos campeonatos baianos. Baseado nas curvas construídas, Paulo argumenta a favor da superioridade do Vitória, tentando rejeitar a hipótese nula de semelhança entre os times. 

No entanto, uma análise mais cuidadosa demonstra que as curvas que Paulo contruiu acima das barras não representam tendência alguma, pois são fortemente influenciadas pelo valor extremo (outlier) da última década. Valores extremos podem distorcer fortemente a análise dos dados. Percebam que o comportamento do Bahia é uma constante, exceto pela última década. A última década ocorreu por acaso e na década de 2010 veremos o fenômeno de regressão à média normalizar tudo a favor do Bahia. 

Percebam que ao analisar um trabalho científico, devemos estar atentos para o viés de análise dos dados, que compromete a veracidade do resultado. Neste caso, apesar de seu inquestionável conhecimento estatístico, a análise de Paulo foi prejudicada por seu conflito de interesse a favor do Vitória.

Réplica

Meu caro amigo Luís,

É um prazer bater essa bola com você aqui na bioestatística, uma vez que, de futebol mesmo, nós não entendemos nada! Acho que o meu gráfico atingiu em cheio o seu sofrido coração tricolor e turvou a sua mente porque, pela primeira vez desde que leio o seu blog, notei alguns comentários improcedentes! Vamos a eles?

Eu não avaliei uma AMOSTRA ALEATÓRIA de edições do Campeonato Baiano. O gráfico mostra TODOS os campeonatos Baianos desde o início da existência do Bahia (1931). Como a POPULAÇÃO inteira de campeonatos foi avaliada, cabe apenas o uso da estatística descritiva. Por isso, não há hipótese nula a ser rejeitada e não é necessário realizar inferência estatística. Os dados representam a verdade absoluta. Não há erro padrão. 

Neste período, o Bahia ganhou o campeonato 44 vezes e o Vitória apenas 24. Este fato é incontestável. A intenção do gráfico foi de descrever como essas conquistas se distribuíram ao longo das décadas. Esta distribuição também é incontestável! Nas últimas 3 décadas, houve uma queda progressiva no número de títulos do Bahia enquanto, no mesmo período, houve um aumento progressivo no número de títulos do Vitória. Estamos falando de um comportamento progressivo ao longo de 3 décadas. Acho que isto qualifica como uma tendência. E a tendência é de queda para o Bahia e ascensão para o Vitória! No entanto, estatística não é bolinha de cristal e não pode garantir que esta tendência vai continuar na próxima década... Infelizmente. 

Como um apaixonado (e enviesado!) torcedor do Bahia, você está querendo apagar a última década da sua mente, chamando-a de outlier! Pior: está atribuindo uma década inteira ao acaso!! Nesta década, o Bahia passou 7 anos na série B e só ganhou um título! Isto não aconteceu por acaso!! O time era muito ruim mesmo.

Enfim, ao ler o seu post, concordei com apenas uma afirmativa: “valores extremos podem distorcer fortemente a análise dos dados”. Com certeza! Mas não é o caso aqui.

Saudações rubro-negras! 



TRÉPLICA


Boa observação, inclusive de importante teor educativo. De fato, quando trabalhamos com populações, não se aplica estatística, não há hipótese, valores de P, erros-padrão, nem intervalos de confiança. 


Estamos discutindo que time é melhor. Veja que esta discussão já não tem lógica, pois a cada período o time é diferente, assim como os seus gestores. Não é como se fosse uma mesma pessoa ou um jogador de tênis. Mas já que esta discussão existe, me permitirei o seguinte argumento:


Imagine que estes times ainda terão muitas décadas de vida, digamos uns 300 anos. Seu gráfico representa uma amostra de todo tempo de vida deste times. É uma amostral temporal, pois não computa o que está por vir. E estamos discutindo que é melhor, como se Deus tivesse feito um time melhor que o outro. Portando uma década dentro de 40 décadas pode ser visto como um outlier.


Valeu pelo didáctico comentário. 

domingo, 20 de maio de 2012

Curso de Medicina Baseada em Evidências

Este curso é organizado pelo Grupo de Estudos em Epidemiologia e Cardiologia Baseada em Evidências (GEECABE) da Sociedade Brasileira de Cardiologia, em parceria com o FUNCORDIS, fundação de cardiologia em Recife. Ocorrerá como parte do Congresso Brasileiro de Cardiologia, em Recife, no dia reservado para os eventos pré-congresso. 

Xigris: Uma Lucrativa Falácia Provocada por um Estudo Truncado



Como a Eli Lilly and Company conseguiu convencer as agências reguladoras e a comunidade médica de que o placebo denominado alfa-drotrecogina (Xigris) reduzia mortalidade em pacientes com sepse severa?

Em outubro do ano passado, o fabricante deste placebo suspendeu “voluntariamente” sua lucrativa comercialização, devido aos achados negativos do estudo PROWESS-SHOCK (ainda não publicado). A suspensão da venda do Xigris ocorre após vários anos de utilização na prática clínica, sob o custo estimado no Brasil de R$ 56.000 por paciente, tal como estimado pelo Blog Médico Nerd.

Na verdade, a suspensão da droga não foi tão “voluntária” assim, pois o FDA e a EMEA (agência européia) fariam esta recomendação de qualquer forma. É como aquele político que renuncia antes de ser cassado. 

Como o PROWESS-SHOCK ainda não foi publicado, não podemos analisá-lo com detalhe. O que sabemos é que este estudo incluiu o tipo de paciente que mais se beneficiou no estudo PROWESS, ou seja, pacientes mais graves, em choque séptico. Sendo assim, este foi um estudo negativo, a despeito de otimizado para encontrar benefício. Por não estar publicado na íntegra, nossa análise do PROWESS-SHOCK só pode ir até este ponto. Mas o que precisamos realmente analisar é o estudo PROWESS, pois foi este que gerou a lucrativa falácia.

Este estudo foi publicado em 2001 no New England Journal of Medicine, tendo testado o novo invento da proteína C-ativada versus placebo, em pacientes com sepse severa. Este trabalho demonstrou redução de mortalidade com a droga. Sendo assim, o FDA liberou a droga para comercialização e a comunidade médica adotou a terapia de forma entusiasmada. Vale salientar que dentro do FDA a liberação foi bastante controversa, com 10 votos a favor e 10 votos contra.

Hoje sabemos que o estudo PROWESS rejeitou a hipótese nula (ausência de benefício), quando esta era verdadeira. Este é chamado de erro tipo I. Este caso tem sido usado como exemplo do poder da indústria em convencer médicos de falsas verdades.

Mas o que precisamos é discutir qual foi o mecanismo metodológico utilizado para gerar esta falsa verdade. Para descobrir o motivo do engano, devemos utilizar nosso roteiro e analisar criticamente a veracidade da informação que sugere redução de mortalidade.

Observem que este é um estudo de intervenção, randomizado, que compara grupos muito semelhantes, o que elimina fatores de confusão que possam ser responsáveis pelo resultado; não há viés de aferição do desfecho, pois é um estudo duplo-cego e desfecho é morte, bastante objetivo; as diferenças encontradas foram estatisticamente significantes (P = 0.005), mortalidade foi desfecho pré-definido como primário (ausência do problema das múltiplas comparações, que aumentaria a probabilidade do acaso). Então, aonde está o problema? Parece ser um estudo de boa qualidade, de tamanho amostral razoável, classificado como de fase III. Ou seja, daquele tipo de estudo que tem o potencial de mudar conduta clínica. Por esta aparente qualidade metodológica, o estudo foi convincente.

Porém há uma limitação que geralmente passa pelo crivo científico, principalmente há 10 anos atrás, quando pouco se falava nisso: este foi um estudo truncado.

Estudos truncados são aqueles interrompidos precocemente devido a resultados positivos. É quando o autor fica tão entusiasmado com o resultado interino, que resolve terminar o estudo e concluir pelo benefício da droga. Já comentamos neste Blog que este tipo de estudo pode superestimar a diferença entre os grupos ou em alguns casos indicar uma diferença inexistente. A maioria destes estudos possuem critérios estatísticos pré-definidos para o truncamento, mas isso não resolve o problema, pois pré-definir que vai fazer uma coisa errada não elimina o erro. Esse negócio de truncamento com critérios pré-definidos não passa de uma forma mais elegante aplicar um método tendencioso.

O truncamento é ótimo para a indústria, pois garante o resultado e ainda economiza por ter interrompido um estudo de alto custo.

Normalmente os autores justificam o truncamento por motivos éticos, ou seja, uma vez demonstrado o benefício, seria anti-ético insistir em continuar o estudo com metade dos pacientes usando placebo. Isso é uma das coisas mais esdrúxulas, pois ao truncar um estudo, sua veracidade se torna questionável e nada fica demonstrado. Quanto mais um benefício de tal magnitude que proíba a continuidade do estudo. Anti-ético é gerar uma falsa verdade.

Anti-ético é promover a comercialização de um placebo de alto custo, que compromete o tênue equilíbrio financeiro do sistema de saúde, sem trazer benefício clínico.

Truncar um estudo por benefício é errado e injustificável, apesar de que cada vez mais frequente. Ao contrário desta situação, vale salientar duas justificativas aceitáveis para interromper um ensaio clínico precocemente: primeiro, quando o novo tratamento está trazendo prejuízo significativo, ou seja, interromper por efeito colaterais. Vejam que isto é muito diferente de interromper porque parece que o tratamento é bom. Segundo, é aceitável interromper um estudo por futilidade, ou seja, quando os grupos estão tão iguais, que é muito improvável que surja um benefício relevante como decorrer do estudo. Isto é aceitável, pois neste caso se preserva a premissa inicial, que é a hipótese nula. Lembrem-se que pelo Princípio 2 da medicina baseada em evidências, só devemos rejeitar a hipótese nula, quando há evidências muito fortes contra ela.

Mas porque truncar um estudo estatisticamente significante aumenta a probabilidade do erro tipo I (rejeitar a hipótese nula quando esta é verdadeira) ?

Vamos imaginar que queremos fazer um estudo para avaliar qual time é melhor: Bahia ou Vitória. A hipótese nula do estudo é que os times são iguais em qualidade, ninguém é superior (por falar nisso, a tomar pelas finais com campeonato baiano, os times são bastantes semelhantes em qualidade, semelhantes nas suas mediocridades). O melhor modelo de estudo para avaliar a questão é o chamado jogo de futebol, um estudo prospectivo de 90 minutos. Agora imagine que eu sou o investigador principal. Por ser Bahia desde criança, tenho um conflito de interesse intrínseco a favor deste time. Desta forma, vou pré-determinar que se o Bahia fizer 3 x 0 no Vitória, interromperei o jogo a qualquer momento, pois  já estaria provado que o Bahia é melhor.

Tem lógica? Claro que não. Então porque isso tem lógica em ensaios clínicos randomizados? Não deveria.

Voltando ao jogo. O Bahia faz 3 x 0 nos primeiros 20 minutos do primeiro tempo. Isso representa a realidade? Isso prova que o Bahia é melhor? Não prova, pois estes 3 gols podem ter sido por acaso, ou seja, por sorte, por vacilo da zaga do Vitória. Caso estes dois gols tenham sido por acaso, ao longo dos próximos 70 minutos de jogo essa diferença casual vai se diluir e haverá uma tendência a aproximação dos dois times. Mas se eu interrompo o jogo aos 20 minutos do primeiro tempo, não estou dando oportunidade ao meu estudo de se auto-corrigir, de se aproximar da verdade. É exatamente isso que acontece quando estudos são truncados pela observação de benefício de drogas que não tem efeito algum.

Vejam que a final do campeonato baiano teve dois jogos e não apenas um. Ou seja, ao invés de truncar o primeiro jogo, a federação de futebol escolhe fazer  dois jogos (dois estudos), a fim de reduzir ainda mais a probabilidade do acaso. Já nós, cientistas médicos, fazemos o contrário, truncamos estudos, aumentando a incerteza a respeito do resultado encontrado.

Ao longo de um estudo, o acaso ocorre com frequência, fazendo com que o resultado se modifique a todo momento. Na medida em que o tamanho amostral vai aumentando, os fatos casuais vão se diluindo na verdade. Se eu interrompo precocemente, o estudo pode não ter tido amostra suficiente para diluir o acaso. Porém o pior é que a interrupção do estudo é motivada pelo resultado de interesse. Este é o ponto crucial, favorece que o acaso trabalhe em prol do interesse.

O estudo PROWESS foi planejado para incluir 2280 pacientes e foi truncado em 1680 pacientes. Hoje, sabendo do resultado do estudo PROWESS-SHOCK, podemos imaginar que a diferença de mortalidade (31% vs. 25%) poderia se diluir se o estudo tivesse sido concluído conforme planejado. Esse estudo foi interrompido aos 15 minutos do segundo tempo.

Foi por isso que o FDA recomendou a realização de um segundo estudo para confirmar o resultado do PROWESS. Se recomendou, é porque estava em dúvida e não deveria ter liberado a droga para comercialização, principalmente com o placar de 10 x 10 na votação da liberação da droga.

A dúvida decorreu do truncamento do estudo e, secundariamente, do fato do estudo não ter sido por intenção de tratar.

Havia naquele momento o que chamamos de equipose. Equipose é definida por uma dúvida suficiente para justificar a utilização de placebo em um ensaio clínico. Se existia equipose, a hipótese nula não deveria ter sido rejeitada, a droga nunca deveria ter sido liberada ou prescrita.

Há estudos a respeito do impacto do truncamento. Estes mostram que quanto menor o tamanho amostral, maior a probabilidade de equívoco no resultado. Já comentamos neste Blog que o estudo JUPITER (o qual mostrou estatina ser benéfica na prevenção primária de indivíduos com colesterol normal) foi truncado. Pelo fato do JUPITER ter 18.000 pacientes, acredito que o truncamento promoveu uma superestimativa da magnitude do benefício, mas o benefício deve ser verdadeiro. Na medida em que o tamanho amostral vai diminuindo, a informação pode estar não só superestimada, como totalmente falsa.

Um outro estudo truncado que gerou falso resultado foi o de Van de Berghe, que demonstrou redução de mortalidade com controle agressivo da glicemia de pacientes críticos. Anos depois, o estudo NICE-SUGAR (não truncado) demonstrou efeito deletério desta conduta.

O que ocorreu com o Xigris tem muitas implicações e chama a atenção que nós médicos precisamos ser mais responsáveis pelas falsas verdades que aceitamos. Como podemos reclamar que os convênios nos pagam mal, se ao mesmo tempo ajudamos a indústria promover um tratamento de R$ 56.000 por paciente, sem benefício clínico. Se queremos melhorar nossa remuneração, acho que o caminho seja sentar na mesa de negociação, utilizar o paradigma da medicina baseada em evidências e racionalizar a terapia médica. O primeiro passo é eliminar placebos de alto custo. Enfim, precisamos ser responsáveis pelo absurdo custo da medicina contemporânea, principalmente a modelo americano, o qual o Brasil copia direitinho. Seria melhor copiarmos os modelos inglês ou canadense.

Desta forma, este é mais um exemplo de que não podemos negligenciar o problema do truncamento. Analisar se um estudo é truncado deve fazer parte da análise de veracidade, dentro do tópico acaso. Pois ao truncar, aumentamos a probabilidade do acaso.

Não podemos brincar de adivinhar o futuro, rejeitando de forma tendenciosa a hipótese nula. Não podemos negligenciar o Princípio 2 da medicina baseada em evidências.