sexta-feira, 28 de setembro de 2018

Estudo positivo versus negativo: qual a verdade? (COAPT e MITRA-FR)


É frequente a pergunta do título dessa postagem, pois para todas as questões há estudos com diferentes resultados. Porém esse fenômeno de estudos contraditórios acaba de aparecer de forma inusitada no New England Journal of Medicine: dois ensaios clínicos sobre a mesma intervenção, na mesma população, publicados na mesma revista, separados por 1 mês, ambos de boa qualidade científica, um positivo e outro negativo

Onde está a verdade?

Pelo viés da positividade, tendemos a escolher o estudo positivo. Melhor ainda quando este estudo positivo é o segundo a ser publicado, pois o viés da novidade contribui para a ilusão da descoberta, que nos faz pensar que achamos o que ainda não havia sido encontrado por falta de oportunidade. 

A propósito, estes dois ensaios clínicos testaram a correção percutânea da insuficiência mitral secundária a miocardiopatia dilatada, com um device denominado MitraClip, fabricado pela Abbott. O primeiro (MITRA-HF), negativo, foi um estudo francês apresentado no Congresso Europeu de Cardiologia, uma decepção moderadamente noticiada. O segundo (COAPT), positivo, foi um estudo americano apresentado no congresso americano de intervencionismo (TCT - Transcatheter Cardiovascular Therapeutics), cuja reação foi retratada por John Mandrola, que estava presente no evento: 

“The applause was remarkable, not just for its intensity, or that it brought emotion to the face of the speaker, but that it occurred at a "scientific" meeting. The stage cameras in the massive auditorium panned to a rapturous audience at the TCT 2018 meeting. It was as if the home team had scored, or perhaps a politician at a rally had landed an applause line.”

Na opinião do autor do COAPT, respaldada por comentário do NEJM Journal Watch, tal diferença de resultado entre os trabalhos teria derivado da maior gravidade da insuficiência mitral e da disfunção sistólica no COAPT. No entanto, essa análise é míope, simplista e anti-científica: primeiro porque essas diferenças foram discretas e não justificariam tamanho contraste de resultado entre os dois estudos; segundo, esta justificativa desconsidera um princípio básico da medicina baseada em evidências: a raridade do fenômeno de interação.

Portanto, precisamos cavar mais fundo para entender o porquê da diferença entre os estudos.

Estudo Positivo versus Estudo Negativo

Diante de resultados conflitantes, há duas possibilidades: ambos estudos estão corretos ou um deles está errado. 

A primeira possibilidade (ambos corretos) é sempre pouco provável e nos remete ao princípio da complacência na aplicabilidade de uma evidência. Esse princípio se baseia na raridade do fenômeno de interação e justifica a não necessidade de que os estudos representem cada uma das milhares variações de pacientes existentes. Quando um efeito benéfico existe, este é reprodutível em diferentes tipos de pacientes. E isso é confirmado pela consistência das análises de subgrupos de ensaios clínicos e por estudos meta-científicos da validade externa dos trabalhos. 

A não ser que haja uma grande razão para que o resultado do tratamento mude com alguma característica específica dos pacientes. E neste caso, não há uma grande razão. 

Mitralclip é mitralClip, e não seria uma pequena diferença de uso que promoveria tamanha diferença entre os estudos. Insuficiência mitral grave é insuficiência mitral grave, não seria alguma diferença de gravidade que justificaria resultados contraditórios. O mesmo para a grave disfunção em ambos os grupos. 

Nesta questão específica, estamos falando de um estudo que mostra 30% de redução relativa do risco de internamentos versus um estudo com zero de redução de internamento ou morte. São diferenças extraordinárias entre dois estudos, o que seria necessário razões extraordinárias para justificar as diferenças. Não há tais razões. 

E desconsiderando tudo isso, o autor do COAPT tenta se justificar:

“Most important, COAPT enrolled patients with substantially worse MR, with a mean effective regurgitant orifice area of 41 mm2 vs 31 mm2 in MITRA-FR. Ventricles in that trial, however, were severely dilated, with a mean left ventricular end-diastolic volume of 135 mL/m2 vs 101 mL/m2 in COAPT.”

Temos aqui um exemplo clássico de violação do princípio da complacência. Essa colocação pode parecer lógica, porém é anti-científica e irracional. Desconsidera o princípio da raridade de interação. Em ambos os estudos os pacientes tem miocardiopatia muito grave e refluxo mitral grave.

Fica aqui a primeira lição dessa análise: não podemos nos seduzir facilmente por potenciais influências da população estudada na demonstração de um conceito. Isso é coisa rara. 

Desta forma, devemos julgar mais provável a segunda razão de discordância entre os estudos: um deles deve estar errado. Neste sentido, preciso lembrar que o impacto de vieses no resultado de um estudo tende a ser maior do que o impacto verdadeiro do tratamento. São muitos exemplos de grandes tamanhos de efeitos que no final são justificados apenas por vieses ou erros aleatórios. Lembram da recente “falácia do mediterrâneo”? 40% de redução relativa do risco com uma dieta um pouco diferente? Depois descobrimos que o estudo não era exatamente randomizado.

Precisamos explorar em detalhe métodos e resultados de ambos os estudos e entender a razão dessa diferença. 

Onde está Wally?


Em primeiro lugar, devemos acessar a probabilidade pré-teste dos dois resultados. Julgo bastante plausível que a correção de um refluxo mitral que faz voltar para o átrio 30% do volume sistólico seja benéfica para o paciente com um ventrículo com grave déficit de contratilidade. Do ponto de vista mecanicista, faz sentido, mesmo que o refluxo seja secundário. Afinal, você prefere ter miocardiopatia com ou sem insuficiência mitral severa? 

Por outro lado, plausibilidade mecanicista não é garantida de verdade, pois os sistemas biológicos não são cartesianos. Estamos repletos de exemplos. Sendo assim, ficarei com 50% de probabilidade pré-teste para a hipótese da correção percutânea da insuficiência mitral ser benéfica. 

Tendo um estudo positivo e outro negativo, devemos analisar os tipos de problema metodológicos que promovem falsos positivos ou falsos negativos. 

A primeira diferença que salta aos olhos é que o COAPT, estudo positivo, avaliou número de internamentos por insuficiência cardíaca, um tipo de desfecho que avalia não apenas se o paciente se internou, mas também computa a quantidade de internamentos. Esse tipo de análise é visto como mais completa do que apenas um primeiro internamento. Mas como pode haver mais de um desfecho por paciente e como pacientes que vivem mais acabam por ter mais internamentos, há necessidade de ajuste estatísticos para estas questões. E o COAPT fez estes ajustes devidamente. 

Já o MITRA-FR avaliou como desfecho primário o combinado de morte ou um internamento por insuficiência cardíaca e não houve qualquer diferença entre os grupos. De qualquer forma, esta não parece ser a razão da diferença entre os estudos, pois no COAPT o desfecho secundário de um primeiro internamento mostrou o mesmo resultado positivo. 

Devemos continuar analisando outros aspectos.

No estudo negativo, devemos procurar erros que tendem a um resultado negativo:

  • O tratamento foi executado de forma competente?
  • Houve excessivo cross-over que anulasse o efeito do tratamento?
  • O estudo tinha poder para detectar diferença entre os grupos?

Quanto ao cross-over, esse é o problema da análise de intenção de tratar (sempre preferida): se muitos pacientes do grupo tratamento não fazem o tratamento ou muitos pacientes do grupo controle acabam por fazer o tratamento, isso iguala artificialmente os resultados. 

Respondendo a estas preocupações: a competência do implante da valva não diferiu  muito entre os estudos, pois a taxa de sucesso imediato e a graduação da insuficiência mitral após um ano foi parecida; praticamente não houve cross-over em nenhum dos dois estudos e ambos obedeceram premissas que confirmam poder estatístico para a análise da hipótese primária. 

No estudo positivo, devemos procurar:

  • Estudos pequenos (podem dar qualquer tipo de resultado).
  • Violações na randomização, levando a pacientes menos graves para o grupo intervenção (randomização aberta).
  • Violação no princípio da intenção de tratar.
  • Viés de desempenho, no qual pacientes do grupo intervenção são melhores tratados.
  • Viés de mensuração do desfecho em estudo aberto (desfecho subjetivo ou criado pelo médico). 
Como falamos, ambos os estudos bem dimensionados. Não  parece haver qualquer violação da randomização e ambos usaram o princípio correto de intenção de tratar. 

O Elefante na Sala


Na sequência de avaliação dos vieses, nos deparamos com um “elefante da sala”: estamos diante da famigerada combinação de um estudo aberto e um desfecho primário mediado pelo pensamento médico. 

Há dois tipos de desfechos clínicos: resistentes a vieses ou susceptíveis a vieses. O desfecho “internamento” é um típico desfecho susceptível ao viés do estudo aberto. Principalmente porque é um desfecho que depende de uma decisão médica para se fazer presente.

Ao saberem que seus pacientes receberam um revolucionário device de correção da insuficiência mitral, é plausível que médicos se tornem mais conservadores na indicação de re-internamento. A confiança no device pode fazê-los interpretar algum sintoma como inespecífico e não indicar internamento por insuficiência cardíaca. E o contrário pode acontecer no grupo que não recebeu o revolucionário aparato médico. A isso poderíamos chamar viés de criação do desfecho.

Segundo, o viés de desempenho. Em estudos abertos, há sempre uma tendência de que o paciente randomizado para a conduta-novidade receba mais atenção pós-procedimento do que os pobres mortais que não receberam a novidade. Vejo isso nitidamente na prática. O paciente que recebe a grande novidade como tratamento vira um paciente VIP, que recebe especial atenção da equipe médica e de pesquisadores. O próprio médico que implanta o device passa a ver aquele paciente como seu filho. Quem vive isso na prática, sabe do que estou falando … Daí surge a tendência forte de que os pacientes-novidade recebam um melhor tratamento do que os pacientes comuns. E particularmente em re-internamento por insuficiência cardíaca esse tipo de contraste na qualidade do acompanhamento pode ser crucial. Pode fazer muita diferença. 

E ao ler o suplemento do estudo COAPT, percebemos essa tendência. No baseline  (randomização) tudo era igual, mas após 1 ano e 2 anos o uso de inibidor da ECA e beta-bloqueador foi maior no grupo que tratou a insuficiência mitral. Assim como a taxa aumento das doses dessas drogas, sempre maior do grupo que tratou a insuficiência mitral. 

Isso é um indício (smoking gun) de que houve viés de desempenho. 

Mas porque os mesmos vieses não positivaram o estudo francês, que também era susceptível? Por isto que denominamos "risco de viés". Pois uma brecha no estudo não é uma garantia de que o viés ocorrerá. E nem sempre sabemos explicar o motivo exato pelo qual o viés alterou o resultado ou não alterou. A análise de um ensaio clínico não é microscópica, caso a caso, é uma análise macroscópica, baseada em probabilidade. Quem sabe o médico francês é cognitivamente mais conservador para internamento do que o médico americano (mera especulação de minha parte ... não importa).

Finalmente, o Desempate


Se o “elefante” está na sala de ambos os estudos, qual o estudo verdadeiro? Aí vem o pulo do gato na análise. Esse elefante na sala (desfecho susceptível a viés em estudo aberto) é um tipo de viés que predispõe ao falso-positivo.

O estudo MITRA-HF é negativo a despeito desta predisposição ao falso-positivo. Enquanto o estudo COAPT é um estudo positivo diante de potenciais vieses pró-positividade. 

Embora ambos os estudos tenham em seus métodos o mesmo risco de viés, o resultado  do COAPT tem maior risco de viés do que o resultado do MITRA-HF. Desta forma, concluímos que o nível de evidência para o resultado do MITRA-HF é melhor do que o nível de evidência para o resultado do COAPT. 

Aqui vem a segunda grande lição: a análise da limitação de um trabalho não deve ser feita apenas pela leitura da metodologia. É muito importante que seja avaliado se o resultado do estudo está indo na direção do viés promovido pela limitação metodológica. Erros sistemáticos são chamados de vieses pois eles geram uma preferência de resultado, erram para um lado e o problema é se o resultado do estudo está neste lado. Essa percepção nos permitiu considerar o resultado do MITRA-HF mais confiável do que o COAPT. 

Aqui não estamos querendo dizer que a verdade definitiva está no resultado no MITRA-HF. Mas se tivermos que assumir uma posição, que seja a posição da incerteza de que este device tenha benefício. Permanecemos com a hipótese nula até que se prove o contrário.

A Cereja do Bolo


Por fim, uma cereja no bolo que deixei para o final: o COAPT foi um estudo financiado pela Abbot, fabricante do mitralClip, cujo desenho, análise e preparo do artigo teve participação da empresa; o MITRAL-HF é um estudo financiado pelo governo francês, sem participação da indústria no desenho ou execução do estudo. Uma característica que não resolve a nossa dúvida, mas nos deixa intrigados …

Ao invés de comemorar resultados positivos como um gol que levou nosso time preferido a ser campeão, devemos observar se esse gol é válido cientificamente. Torcida não combina muito com ciência.


---------------------------------------------------------------------------------------------------------------------



Conheça o curso online de medicina baseada em evidências, clicando aqui.

quarta-feira, 19 de setembro de 2018

SCOT-HEART: desfecho secundário travestido de primário


A leitura de um trabalho científico deve envolver um domínio além do artigo científico, abrangendo o ecossistema que envolve a criação da ideia, definição do protocolo e aceitação dos resultados pela comunidade. A leitura do trabalho não começa, nem termina no artigo final.

Em uma recente postagem de grande impacto, provocamos a reflexão a respeito da “fake news científica” contida do ensaio clínico SCOT-HEART, a partir da leitura do artigo científico. Nesta portagem abordaremos o antes e o depois. 

Nas discussões de artigo de nosso Hospital utilizamos uma metodologia peculiar em vários aspectos. Um destes aspectos é a orientação para que nosso residente sistematicamente acesse o clinicaltrial.gov e procure inconsistências entre o protocolo definido a priori e o que está no artigo publicado. Neste momento, estamos avaliando o ecossistema prévio ao artigo.

Foi quando João Menezes, nosso residente que apresentaria o SCOT-HEART, nos veio com mais uma surpresa a respeito deste trabalho: o desfecho primário relatado na publicação do NEJM na verdade era um dos muitos desfechos secundários, exemplificando “a mágica transformação de um desfecho secundário em primário”.


A Transformação


A integridade científica de um estudo depende da definição a priori do plano de análise de dados. Este método serve para evitar a multiplicidade de testes que aumenta a probabilidade do erro tipo I (afirmar algo falso = fake news). Neste contexto, é essencial a definição do desfecho primário do trabalho, que deverá nortear a conclusão, independente do resultado de desfechos secundários que podem sofrer do problema das múltiplas comparações (abordado tecnicamente em postagem deste Blog - 2016). 

Pois bem, a publicação do SCOT-HEART no NEJM claramente define que o desfecho primário do estudo seria o combinado de morte cardiovascular e infarto não fatal em seguimento de 5 anos.

“The primary end point was death from coronary heart disease or nonfatal myocardial infarction at 5 years.”

E na parte de cálculo amostral, os autores reforçam: 

“our pre-especified primary long-term end point was the proportion of patients who died from coronary heart disease or had a nonfatal myocardial infarction at 5 years.”

Vamos agora ao ecossistema prévio ao artigo. Como sabemos, autores devem registrar o protocolo de qualquer ensaio clínico antes de sua realização e isso normalmente se faz no clinicaltrials.gov. 

Ao checar o protocolo do estudo no clinicaltrials.gov, João percebeu que o desfecho primário descrito no NEJM não era o verdadeiro desfecho primário! Como em um passe de mágica, um desfecho antes secundário foi transformado em primário na descrição do artigo final. 

Na verdade, este estudo foi originalmente desenhado para avaliar a proporção de pacientes que receberam diagnóstico de doença coronariana, comparando tomografia versus estratégia controle.  Esta proporção foi o desfecho primário pré-definido pelo estudo. 

Já os desfechos secundários foram divididos em 5 domínios (sintomas, diagnóstico, investigações adicionais, tratamento implementado, desfechos clínicos no longo prazo). No domínio de desfechos  clínicos, foram descritos 9 desfechos secundários, dentre os quais está o desfecho “morte cardiovascular e infarto não fatal”, descrito agora como primário no artigo do NEJM. 

Vejam a descrição dos desfechos clínicos secundários, tal como colocado no clinicaltrials.gov e no artigo do Trials que descreve o desenho do estudo em 2012:

  1. Cardiovascular death or non-fatal Myocardial Infarction (MI) (ii) Cardiovascular death (iii) Non-fatal MI (iv) Cardiovascular death, non-fatal MI or non-fatal stroke (v) Non-fatal stroke (vi) All-cause death (vii) Coronary revascularisation; percutaneous coronary intervention or coronary artery bypass graft surgery (viii) Hospitalisation for chest pain including acute coronary syndromes and non-coronary chest pain (ix) Hospitalisation for cardiovascular disease including coronary artery disease, cerebrovascular disease and peripheral arterial disease.

Para complicar ainda mais, os desfechos clínicos foram pré-definidos para ser avaliados em seguimento de 10 anos e o artigo descreve o seguimento de 5 anos. Assim, a definição de 5 anos não foi a priori. A rigor, estamos diante de um desfecho secundário definido a posteriori (análise post-hoc). E isso não é apenas semântica, pois na ausência de definição de quando o desfecho deve ser avaliado, podemos testá-lo ano a ano, esperando que o acaso nos presenteie com um resultado positivo em algum momento. No momento em que o autor é presenteado pelo acaso, este pode preparar um abstract e submeter a um importante congresso internacional. Não estou dizendo que assim foi feito, estou apenas mostrando como pode ser feito com desfechos post-hoc.

Desta forma, estamos diante de um grave problema das múltiplas comparações, que pode se computado da seguinte forma:

Considerando o alfa de 5%, se a hipótese nula for verdadeira (grupo tomografia = grupo controle), a probabilidade de aparecer um resultado falso-positivo em um desfecho primário único é 5%. No entanto, estamos fazendo 9 tentativas secundárias de obter um resultado positivo. Se cada uma destas tentativas possui 5% de probabilidade de um resultado falso-positivo, a probabilidade de um resultado falso positivo aparecer em alguma das tentativas é  1 – 0.95k, sendo K o número de tentativas. Desta forma, a probabilidade de algum destes desfechos secundários se mostrar falso-positivo é 36%. Muito maior do que os 5% se estivéssemos analisando um único desfecho primário.

Para agravar, o poder estatístico do SCOT-HEART, após correção para a incidência do desfecho é de apenas 27%, como comentamos em postagem anterior. Temos então dois mecanismos de fabricação aleatória de um falso-positivo: os múltiplos desfechos testados e um estudo que carece de poder estatístico. Desta forma, a probabilidade de falso-positivo se torna maior do que 36%. Em terceiro lugar, se consideramos o risco de viés de mensuração do desfecho (averiguados por registros clínicos de prontuário eletrônico, não adjudicados), o SCOT-HEART é uma máquina aleatória e sistemática de gerar resultados falsos. 

Esta é mais uma explicação para a inverossímil redução relativa do hazard de 41% na incidência do desfecho combinado de infarto e morte cardiovascular em 5 anos de seguimento após a realização da angiotomografia de coronárias. Como comentamos no artigo anterior, a prevenção de um desfecho clínico pela realização de um exame depende de três probabilidades condicionais (P de achado anormal x P de mudança de conduta x P de benefício da conduta), diferente da probabilidade de benefício de um tratamento que tem apenas um componente. 

Desta forma, é bom demais para ser verdade que a realização de um exame promova um benefício com a magnitude usual de bons tratamentos, que varia de 20% a 40%. Aqui nos referimos a redução relativa, pois esta descreve o “tamanho de efeito” intrínseco de uma conduta, que não varia com risco absoluto.


Dois Escândalos


É escandaloso os autores descreverem como desfecho primário uma desfecho que foi pré-definido como secundário. Isso mostra a falta de integridade científica nos bastidores deste trabalho. 

Talvez mais escandaloso seja a aceitação deste artigo por parte da comunidade médica, que parecia comemorar o resultado do trabalho, apresentado com destaque no Congresso Europeu de Cardiologia em Munique.

Problemas de integridade científica não pertencem a um indivíduo moralmente defeituoso. Falta de integridade científica decorre de um ecossistema defeituoso, passando pelos produtores da pesquisa, pelos editores e revisores e pelos que lêem o artigo sem a visão crítica necessária. 

Mas como explicar que uma série de pessoas possam cometer erros em sequência sem que haja uma conspiração?


O Viés de Legião


Originalmente, poderíamos julgar muito estranho que milhares de cardiologistas assistindo simultaneamente à apresentação do estudo concordem com um resultado falso. Será que a “legião” de médicos favoráveis ao resultado do artigo não seria uma evidência a favor da veracidade?

Vale a pena remontar às observação do médico e estatístico sueco Hans Rosling, que ficou  famoso por suas palestras no TED, em que usava gráficos estatísticos dinâmicos para demonstrar como a maioria das pessoas se equivoca quanto a fatos importantes da vida. 

Rosling costumava fazer perguntas deste tipo a uma legião de intelectuais: "quantas crianças de países de baixo nível sócio-econômico possuem ensino básico? 20%, 40% ou 60%?". A resposta certa é 60%, mas apenas 7% dos intelectuais respondiam correto. A maioria marcava 20%. Observem que se perguntássemos a um macaco qual a alternativa correta, este acertaria 33% das vezes. Por que os homens acertam apenas 7%? A resposta está em nosso viés de positividade. Nós tentemos a acreditar no resultado mais significativo (mais positivo), seja quando estamos falando de um fator de risco, seja no benefício de uma conduta. Nossa mente tem um tropismo por maior contraste, assim tentemos a acreditar em resultados extremos demais para serem verdade. 

E isso é um fenômeno coletivo, criando uma legião de crentes no resultado mais significativo. O imenso número de pessoas pensando da mesma forma, reforça a crença dos participantes da legião. É o viés de legião.

O problema se agrava quando somos médicos especialistas, entusiasmados com nossas ferramentas tecnológicas. Isso justifica termos acreditado tanto nos estudos pequenos e enviesados da hipotermia pós-parada e beta-bloqueador da cirurgia não cardíaca, que viraram recomendações de guidelines, ou na terapia de reposição hormonal dos estudos observacionais (assuntos antigos do Blog). O mesmo ocorre agora com o SCOT-HEART, que ao ser apresentado com glamour no congresso europeu criou sua própria legião de crentes.


Os Vieses da Novidade, Positivismo e Confirmação


O SCOT-HEART é o estudo mais recente, portanto surge como uma novidade que traz evolução do conhecimento. No entanto, já havia um outro estudo publicado anos antes. Trata-se do estudo PROMISE: estudo maior (10.000 pacientes), desfecho verdadeiramente primário, definido a priori, com follow-up para avaliação de desfechos, adjudicados.  Ou seja, o PROMISE é um estudo de qualidade imensamente superior ao SCOT-HEART. E seu resultado foi negativo.  

Por que então preferimos acreditar na evidência positiva de má qualidade do que na evidência negativa de boa qualidade? Pois nossa mente tem tropismo pelo positivo (viés do positivismo) e pelo novo (viés da novidade). Assim, utilizamos o viés de confirmação (selecionamos evidências positivas e desconsideramos as negativas) para reforçar nossa crença. 

Esta análise demostra que ao considerar os vieses cognitivos da mente biológica, não precisamos da indelicadeza de mencionar conflitos de interesses que também podem mover as legiões de crentes. 


O Rei que Estava Nu


Conta a estória de Hans Christian Andersen (1937) que um rei muito vaidoso encomendou de dois alfaiates uma roupa sem precedentes, tão original que nunca alguém tivesse vestido igual. Na impossibilidade de concretizar o desejo do rei, os alfaiates idealizaram uma roupa imaginária, que diziam ser invisível aos olhos de pessoas estúpidas. O próprio rei, ao experimentar a roupa, não conseguiu visualizá-la no espelho, porém fingiu que estava vendo para não parecer estúpido. Da mesma forma, todas as pessoas percebiam que o rei estava nu, porém ninguém lhe chamava a atenção pelo receio de serem consideradas estúpidas. E assim o rei passou boa parte de seu reinado nu, exposto ao ridículo. O medo de parecer estúpido fazia com que as pessoas aceitassem o inverossímil. De fato, muitos acreditavam que estavam vendo a roupa, pois queriam acreditar não ser estúpidos.

Essa estória retrata o mecanismo pelo qual alguns mitos perduram na medicina.

Um belo dia, durante um importante desfile em praça pública, ao ver o rei passar com a suposta roupa, uma criança gritou: o rei está nu! Essa criança desmascarou a farsa criada pelos alfaiates, constrangeu o rei, e principalmente os súditos que acreditaram na mentira ou ficaram com vergonha de discordar. 

Alguns interpretam que foi a inocência da criança que permitiu sua observação. Na verdade, reza a lenda que essa era uma daquelas crianças meio maliciosas. Neste caso, a diferença entre criança e adulto foi a coragem de reconhecer a verdade e discordar da legião de fanáticos. 

Que o SCOT-HEART nos sirva de alerta para os múltiplos vieses que nos afastam da integridade científica. Alerta para o prevalente fenômeno de “fake-news científica”. 

quarta-feira, 29 de agosto de 2018

Qual o significado de "fake news científica"?


Informações incorretas sempre existiram. Ao se tornar um termo popular, a expressão "fake news" passou a alertar pessoas e promoveu um útil ceticismo, o que não é natural da mente humana.

A mente humana evoluiu de forma crente por 200.000 anos. De fato, a psicologia evolucionista sugere que nossa capacidade única de fantasiar fenômenos abstratos foi responsável pela sobrevivência da espécie sapiens.

Como Francis Bacon declarou certa vez, "a mente humana é mais excitada por afirmativas do que por negativas". E isto foi recentemente demonstrado no tweeter e publicado na Science: "fake news spread faster than true news".

Embora tenhamos evoluído tecnologicamente e a ciência esteja no centro dessa evolução, a mente humana não teve tempo suficiente para evoluir da fantasia para o ceticismo. Os últimos 500 anos não foram suficientes para superar 200.000 anos de evolução. Biologicamente, somos crentes.

A raiz do pensamento científico é o ceticismo. Na ciência, devemos ter um método para superar nossa predisposição a acreditar. Este método é chamado de hipótese nula: começamos por não acreditar e apenas mudamos para a alternativa de acreditar depois que fortes evidências rejeitam o nulo. Como esta não é a forma natural do pensar, ser cético é cansativo e às vezes chato.

Isso está no centro de um problema científico: a falta de reprodutibilidade, bem descrita por Ioannidis em seu popular artigo do PLOS One: "most published research findings are false". E nós acreditamos nelas.

O termo "fake news" tornou-se popular há dois anos e serviu como um alerta para as pessoas, antes de se tornar impopular por razões políticas.

Com um entendimento correto de seu significado, o termo "fake news científica" pode ajudar contra o problema da reprodutibilidade científica. Mas primeiro, devemos diferenciar "fake news científica" de "fake news".

A fake news é criada por uma pessoa ou um pequeno grupo de pessoas com interesse comum. A fake news científica é criada por um sistema que é defeituoso: os criadores não estão sozinhos, os revisores, editores, sociedades e leitores têm que aprová-la e espalhar a mensagem com entusiasmo. E eles podem fazer isso com boa intenção. 

Fake news decorre de comportamento pessoal, fake news científica é sistêmica, decorre do comportamento do universo científico.

Na fake news seu criador sabe que a notícia é falsa. Na fake news científica, o criador acredita na mensagem, uma crença reforçada por seu viés de confirmação.

A fake news tem um criador com problema de integridade pessoal. Na fake news científica, o criador sofre de integridade científica, mediada biologicamente por vieses cognitivos.

Fake news não tem evidências empíricas, fake news científica tem evidências experimentais que sugerem credibilidade.

Fake news são facilmente descartadas. Fake news científicas podem levar anos para serem descartadas. São responsáveis pelo fenômeno de "medical reversal", quando a informação inadequada conduz o comportamento médico por anos, apenas para ser revertida depois que uma evidência mais forte aparece. Foi o caso de terapias médicas que foram incorporadas como Xigris para sepse, hipotermia após parada cardíaca, beta-bloqueadores para cirurgia não cardíaca e assim por diante ...

Em seu artigo seminal sobre reversão médica, Vinay Prasad escreveu que "we must raise the bar and before adopting medical technologies".

E a última diferença: Donald Trump adora o termo "fake news", mas não tem a menor ideia do que "scientific fake news" significa.

Bem, não é que as notícias falsas científicas sejam totalmente ingênuas, há também conflito de interesses mediando o fenômeno. Mas o principal conflito vem do viés do positivismo, ou seja, autores, editores ou leitores preferem estudos positivos do que estudos negativos.

Seguindo a descrição dos vieses cognitivos da mente humana de Kahneman e Tversky, Richard Thaler surgiu com a solução para empurrar (nudge) o comportamento humano na direção certa. Nudge significa intervenções inconscientes para mudar comportamento, que poder ser mais eficazes do que argumentos racionais.

Por exemplo, para evitar que as pessoas soneguem nas declarações de impostos, em vez de explicar como é importante pagar impostos, um nudge diria apenas que "a maioria das pessoas preenche suas declarações de forma correta". Foi o mais eficaz para melhorar esse comportamento no Reino Unido.

No caso da ciência, a expressão "fake news" é tão forte que pode atuar como um estímulo à integridade científica. Sim, pode parecer politicamente incorreto, mas é um nudge disruptivo. Não basta ensinar metodologia científica, isso não tem sido suficiente, tal como recentemente mencionado por Marcia Angell, ex-editora do NEJM: "no longer possible to believe much of clinical research published".

Não penso que estamos em uma crise de integridade científica. Na verdade, acho que esse tipo de discussão nunca foi tão prevalente, o que me deixa otimista.


Mas um nudge pode acelerar o processo: antes de ler qualquer artigo, devemos fazer uma avaliação crítica de nossas crenças internas e nos perguntar: neste assunto específico, estou especialmente vulnerável a acreditar em "fake news científica"?

domingo, 26 de agosto de 2018

SCOT-HEART: como identificar fake-news científica (pré-leitura e leitura)




Ontem foi apresentado no Congresso Europeu de Cardiologia e simultaneamente publicado no NEJM um ótimo exemplo de fake-news científica, o SCOT-HEART Trial.  

Aproveitarei para mostrar que a leitura do artigo começa antes do processo tradicional. A pré-leitura que nos traz o espírito crítico necessário para o processo de leitura. Na pré-leitura começamos a desenvolver uma visão do todo, como se estivéssemos olhando uma cidade ainda da janela do avião.

Depois pousaremos o avião e iniciaremos a leitura, onde veremos os detalhes. 

A pré-leitura de um artigo é composta de duas perguntas: primeiro, a hipótese faz sentido, este estudo deveria ter sido realizado? (probabilidade pré-teste da ideia = plausibilidade + estudos prévios); segundo, o resultado é bom demais para ser verdade  (tamanho de efeito)?

Na pré-leitura devemos evitar inundar a cabeça de detalhe. Precisamos apenas identificar qual a hipótese testada e qual o resultado principal. Lendo apenas a conclusão do artigo, obtemos essas informações que devem ser acompanhada de uma olhada na linha dos resultados que apresenta os números principais para ter noção do tamanho do efeito (coisa de 30 segundos).

No caso do SCOT-HEART trial:

 "CTA in addition to standard care in patients with stable chest pain resulted in a significantly lower rate of death from coronary heart disease or nonfatal myocardial infarction at 5 years than standard care alone.

The 5-year rate of the primary end point was lower in the CTA group than in the standard-care group (2.3% [48 patients] vs. 3.9% [81 patients]; hazard ratio, 0.59; 95% confidence interval [CI], 0.41 to 0.84; P = 0.004)."

A partir dessas duas sentenças, percebemos a hipótese testada: o uso de tomografia em pacientes com dor torácica estável reduz eventos cardiovasculares. Qual a probabilidade pré-teste desta ideia? 

Há alguma plausibilidade mecanicista na medida em que informações anatômicas podem modificar condutas terapêuticas de médicos e estas modificarem desfechos. Quanto a evidências prévias, o estudo PROMISE randomizou 10.000 pacientes para tomografia versus avaliação não invasiva e foi totalmente negativo quanto a desfechos cardiovasculares. O grupo de comparação do PROMISE não é exatamente o mesmo que o SCOT-HEART, mas indiretamente o resultado daquele estudo modela para menos a probabilidade pré-teste da hipótese do SCOT-HEART ser verdadeira. Sendo assim, eu diria que a probabilidade pré-teste é baixa, porém não é nula, mantendo a aceitabilidade da realização do estudo.

Então vem a segunda pergunta: o tamanho do efeito é bom demais para ser verdade? Observem que a tomografia promoveu 41% de redução relativa do hazard. Essa magnitude de efeito é típica de tratamentos que funcionam. Importante salientar que a magnitude de efeito de um exame será sempre muito menor do que a de um tratamento, pois no primeiro há muito mais etapas entre a interveção e o desfecho. 

No caso de ensaio clínico que testa eficácia da realização de um exame, as seguintes etapas se fazem necessárias antes do benefício ocorrer:

O exame é feito em todos os pacientes - uma parcela deles tem um resultado que pode sugerir ao médico aprimorar o tratamento do paciente - em uma sub-parcela destes pacientes o médico de fato aprimora o tratamento - uma sub-sub-parcela dos pacientes que tiveram o tratamento aprimorado se beneficiam. Sendo assim, devemos esperar que a magnitude do efeito clínico de um exame seja muito menor do que a de um tratamento. 

Desta forma, concluímos que o resultado do SCOT-HEART é bom demais para ser verdade. 

Agora vamos fazer a leitura do artigo, a procura de problemas que justifiquem um achado tão inusitado, 41% de redução relativa do hazard pela realização de um exame. 

O primeiro ponto que chama a atenção foi a mínima a diferença de modificação do tratamento promovido pela realização da tomografia versus o grupo controle. Não houve diferença de procedimento de revascularização. No que tange a terapias preventivas do tipo estatina ou aspirina, a diferença entre os dois grupos foi de apenas 4% (19% versus 15%). 

O N de pacientes do grupo tomografia é 2.073 x 4% de aprimoramento da terapia = o grupo tomografia teve um adicional de 83 pacientes de terapia aprimorada em relação controle. 

O número de eventos prevenidos no grupo tomografia (em relação ao controle) foi 33. 

Sendo assim, o aprimoramento medicamentoso de apenas 83 pacientes preveniu 33 desfechos clínicos. Se fôssemos avaliar o tratamento que foi realizado no final da cascata que apresentei acima,  o NNT seria 2.5. Algo sem precedentes, que quase nenhum tratamento é capaz de promover, quando mais um exame. 

Este é um estudo definitivamente falso. 

A continuidade da leitura servirá para entendermos os mecanismos que geraram este falso resultado. 

"There were no trial-specific visits, and all follow-up information was obtained from data collected routinely by the Information and Statistics Division and the electronic Data Research and In- novation Service of the National Health Service (NHS) Scotland. These data include diagnostic codes from discharge records, which were classified according to the International Classification of Dis- eases, 10th Revision. There was no formal event adjudication, and end points were classified primarily on the basis of diagnostic codes."

Os desfechos foram obtidos pela revisão de prontuários eletrônicos, através do CID e sem auditoria pelos autores. Segundo, o estudo é aberto e viés de aferição do desfecho (ascertainment bias) podem acontecer. Por exemplo, o conhecimento de uma tomografia normal pode influenciar o médico que escreve o CID a interpretar um sintoma como inocente, enquanto em outro paciente do qual não se tem conhecimento da anatomia, um sintoma pode promover dosagem de troponina e conclusão por infarto não fatal. Isso é só uma potencial explicação, que serve de exemplo. 

Na realidade, nunca conseguimos abrir a caixa preta do exato mecanismo que prevaleceu na geração de um viés. Porém devemos ter em mente que a combinação de um estudo aberto com um método pouco acurado de mensuração do desfecho representa alto risco de viés. 

Uma das técnicas para explorar a possibilidade de viés de aferição é comparar o resultado da morte específica (sujeito a viés de aferição - subjetividade) com o resultado da morte por qualquer causa (imune a viés). Mesmo não sendo um desfecho primário ou estatisticamente significante, vale a pena como análise exploratória. É interessante observar que o hazard ratio é 0.46 para morte cardiovascular e 1.02 (totalmente nulo)  para morte geral. Na ausência de aumento substancial de morte não cardiovascular, isso sugere que o estudo é especialmente sujeito a viés de aferição em desfechos subjetivos. 

Mas não ficamos por aqui, este estudo apresenta também alto risco de erro aleatório, pois é subdimensionado para o desfecho clínico. Na verdade, o cálculo da amostra partiu da premissa de 13% de incidência do desfecho no grupo controle, porém ocorreu apenas 3.9%. Pelo meu cálculo, isso reduziu um poder estatístico pretendido de 80% para pífios 27%. Como sabemos, estudos pequenos são muitos mais predispostos a resultados falsos positivos, devido a sua imprecisão.  

Essa imprecisão não só aumenta a probabilidade do erro tipo I, como também incapacita o estudo de medir o tamanho do efeito. Ou seja, 41% de redução relativa do hazard apresentou um intervalo de confiança que variou de 16% a 59%).

Por fim, se considerássemos a informação verdadeira, valeria uma análise de aplicabilidade. A hipótese aqui testada é de caráter pragmático. Ou seja, um intervenção é feita no início, se esperando que na prática (pragmatismo) o médico reaja de uma forma que beneficie o paciente. No entanto, o estudo induziu os médicos ao comportamento preventivo.

"When there was evidence of nonobstructive (10 to 70%) cross-sectional luminal stenosis) or obstructive  coronary artery disease on the CTA, or when a patient had an ASSIGN score of 20 or higher, the attending clinician and primary care physician were prompted by the trial coordinating center to prescribe preventive therapies."

Essa metodologia reduz a validade externa do estudo, pois não sabemos se na ausência desta indução provocada pelo protocolo do estudo, os médicos agiriam da mesa forma preventiva. Caso o benefício fosse verdade, na prática seria de menor magnitude.

É comum estudos de qualidade insuficiente para assegurar a veracidade da informação. Mas o SCOT-HEART vai além: esse é estudo cuja informação é certamente falsa. Um ótimo exemplo de fake news científica.


---------------------------------------------------------------------------------------------------------------------


Conheça nosso curso online de medicina baseada em evidências, clicando aqui.