sexta-feira, 2 de novembro de 2018

Estudos Observacionais: quando confiar, desconfiar ou descartar?



A popular utilização de coortes observacionais para testar benefício ou segurança de condutas e hábitos de vida talvez seja a mais importante fonte de falsas notícias médicas, mediadas principalmente por fatores de confusão. Assim cabe a pergunta: quando estes trabalhos poderiam trazer algum tipo de contribuição científica e quando nem deveriam existir? 

Atualmente, um grande número de publicações existe em função da manutenção do ecossistema da pesquisa na era industrial (produção em quantidade), dificultando a evolução para a era do conhecimento. Para conceito de eficácia ou para atribuir efeitos adversos a condutas médicas, muitas publicações observacionais servem mais para impulsionar carreiras acadêmicas do que para gerar valor científico.

Para complicar, vários destes estudos provém de coortes imensas, com alta precisão estatística. Este é o caso no estudo PURE, que utilizou uma amostra maior que 100.000 pacientes para concluir a favor da dieta com baixo teor de carboidrato na prevenção de eventos cardiovasculares. É paradoxal, pois imensas coortes observacionais possuem grande precisão para descrever resultados enviesados. Grande precisão significa baixa aleatoriedade, o que eleva a consistência do achado. No entanto, vieses (neste caso, viés de confusão) são erros que se repetem sistematicamente na amostra. Teremos portanto a consistência de um resultado potencialmente falso, com alto grau de significância estatística. É como uma mentira bem contada, que parece se tornar verdade por ser muito consistente. 

Meses depois, foi publicada a coorte do ARIC, sugerindo o contrário, dieta com baixo teor de carboidrato pode se deletéria. Em qual acreditar? Em nenhum dos dois. Sorte que a preguiça me impede de aprofundar a leitura desses trabalhos e sair com insights pseudo-elegantes. 





Quando confiar em coortes observacionais?


Coortes observacionais representam o desenho de primeira linha para construção de modelos probabilísticos preditores de risco; também são estes os estudos primordiais para avaliar efetividade, ou seja, o comportamento de uma conduta no mundo real, que depende da variabilidade do ambiente, do processo de decisão médica (no mundo real não se sorteia a decisão) e da preferência do paciente. Porém no caso da inferência de causalidade (fatores de proteção ou risco), a discussão quanto à veracidade da evidência precisa ser aprofundada. É o que faremos nesta postagem. 

Sabemos que para explorar benefício promovido por hábitos ou condutas, ensaios clínicos randomizados representam o único desenho de estudo que pode ser considerado confirmatório, o único capaz de eliminar efeitos de confusão. Embora haja muitas afirmações neste sentido, apenas ensaios clínicos randomizados seriam capazes de comprovar que uma taça de vinho ao dia tenha efeito cardiovascular protetor.

Por outro lado, na avaliação de “dano”, coortes observacionais podem ser consideradas evidências confirmatórias em casos especiais, quando três critérios forem preenchidos: grande probabilidade pré-teste (plausibilidade biológica), grande força de associação e impossibilidade ética de randomização. É o caso da associação entre etilismo e cirrose hepática, cujo risco relativo é em torno de 20. Esta associação é tão forte que se torna pouco provável que seja toda mediada por fatores de confusão.

Observem que o efeito do álcool no organismo humano traz os dois lados da moeda. A obrigatoriedade do ensaio clínico para propor vinho como conduta cardiovascular protetora, e suficiência de evidências observacionais para propor etilismo como hábito danoso ao fígado. Por trás dessa maior flexibilidade na aceitação de uma evidência observacional está a constatação de que a eliminação de um fator provavelmente deletério tolera melhor a incerteza do que a implementação de uma estratégia. 

Toda ação (implementação de conduta) tem maior "ônus da prova" do que uma não ação (deixar de fazer algo). 

A relação de tabagismo e câncer de pulmão é outro exemplo de conceito confirmado por estudos observacionais. O risco de quem fuma é 20 vezes maior do que o risco de quem não fuma (risco relativo = 20). Isto é diferente da força de associação entre tabagismo e doença cardiovascular, cujo risco relativo para um tabagista (40 cigarros ao dia) é "apenas" 2.0. A doença cardiovascular é multifatorial e tabagismo representa apenas um fator, com peso semelhante aos demais. Um dado que reforça esta relação causal é o gradiente dose-resposta de tabagismo e eventos cardiovasculares. Além disso, há inúmeros motivos para se recomendar contra o tabagismo. Mas se não fosse por estas questões, algum ceticismo se aplicaria a esta relação cuja força de associação é semelhante à da hipercolesterolemia e hipertensão. Diferente de tabagismo, estes dois fatores de risco possuem a prova do conceito confirmada por ensaios clínicos randomizados com anti-hipertensivos e drogas redutoras de colesterol. 

Ronald Fisher, tabagista e pai da estatística, provocou a comunidade médica ao questionar a associação causal entre tabagismo e câncer de pulmão, devido às conhecidas limitações de estudos observacionais. A intenção deve ter sido chamar a atenção para o conceito de efeito de confusão, originalmente descrito por ele próprio, que também propôs o artifício da randomização como forma de ajuste perfeito para confusão. Do ponto de vista epidemiológico um melhor exemplo seria a associação entre tabagismo e doença cardiovascular, pois a força de associação com câncer de pulmão é grande demais para não ter causalidade implícita. Mas ele queria causar desconforto, surpresa, controvérsia, chamando atenção para o fenômeno da confusão. Neste sentido, câncer de pulmão foi um exemplo mais provocativo. Vale a pena ler sobre esse estória. 




Quando desconfiar de coortes observacionais?


A maioria dos estudos observacionais que propõem fatores causadores de doenças não completam os critérios exemplificados pelo tabagismo ou alcoolismo. Nestes casos, devemos desconfiar.

Boa parte dos cânceres são desprovidos de causa genética ou ambiental. Motivados por um instinto de sobrevivência anticientífico, saímos a procura de pseudocausas. De forma caricatural, quase tudo pode causar câncer e quase tudo tem respaldo por trabalhos de coorte que avaliam múltiplas associações, com alto risco de viés de confusão e aferição, encontrando todos os tipos de resultados. Vivemos em um mundo de fantasia. O mesmo ocorre com fatores protetores de câncer. 

Nesta semana, o JAMA Internal Medicine publicou coorte de 60.000 pacientes sugerindo que comidas orgânicas reduzem incidência de câncer. Dá arrepio em observar a tabela que compara as características clínicas da amostra dividida em quartis do escore de ingesta orgânica. Tudo é diferente, abrindo enorme possibilidade de efeito de confusão, nunca plenamente resolvido por artifícios estatísticos multivariados.

Ao desconfiar, partiremos para uma análise mais aprofundada de quando valorizar o estudo como gerador de hipótese ou quando descartar o estudo pelo seu grande potencial de gerar fake news científica. 

Nesta análise, duas perguntas se tornam relevantes:

  • Em que situações estes desenhos de estudo são menos susceptíveis a vieses, podendo ser usados pelo menos como geradores de hipótese?
  • Estudos observacionais tendem mais a resultados falso positivos ou falso negativos?

A chave destas questões está na análise da potencial “confusão por indicação”. Ou seja, o quanto a indicação de um tratamento pelo médico ou opção de um hábito pelo paciente potencialmente se relaciona com variáveis confundidoras. 

Situações de Baixo Potencial de Confusão


Ocorre quando a “indicação” não foi uma opção de acordo com o paciente, mas sim uma característica do ambiente. Por exemplo, um serviço tem a rotina de cirurgia laparoscópica e outro serviço a rotina de cirurgia aberta. A comparação dos resultados destas duas técnicas não sofre muito de confusão pois não é uma escolha feita com base na característica do paciente. Portanto a escolha não carreia variáveis de implicam em pacientes mais ou menos graves, desde que ambos os serviços tenham a mesma complexidade.

Ao comparamos a taxa de transfusão de sangue ou hemoderivados na cirurgia cardíaca de pacientes operados em uma época em que o tromboelastograma não era disponível em nosso hospital versus a época em que ficou disponível, a indicação desse teste hematológico não foi baseada no paciente. Trata-se do mesmo hospital, da mesma complexidade. Menor probabilidade de efeito de confusão.

Nestes casos, após análise multivariada para ajusta diferenças confundidoras entre duas amostras que podem ter surgido do acaso (não por indicação), podemos considerar estes estudos suficientes para gerar hipóteses

Lembrando que gerar hipóteses é diferente de gerar notícias … apenas estudos confirmatórios devem gerar notícia para o público em geral.

Por outro lado, quando há “indicação” da conduta de acordo com o paciente, coortes observacionais não devem servir nem mesmo para gerar hipóteses. Muito menos para impulsionar carreiras científicas. O que adianta publicar algo de baixo valor preditivo, seja superestimando associações ou subestimando associações. Estes são os casos de estudos a serem descartados, que podem tender ao falso positivo ou falso negativo.

Quando Coortes Observacionais Tendem ao Falso Positivo


Isto ocorre quando a indicação da conduta se associa a pacientes de melhor prognóstico. No caso de hábitos de vida, a escolha por um melhor hábito marca pacientes com outras características que fazem bem à saúde. Assim, hábitos como exercício, alimentação, uso de suplementos (omega-3, vitaminas) e até uma elegante taça de vinho ao dia se associam sistematicamente a menor risco de qualquer coisa. Sim, de qualquer coisa, pois essas pessoas são muito mais saudáveis.

Quanto à indicação do médico, esta se associa a melhor prognóstico quando o médico tem medo (risk aversion) da sua indicação causar dano ao paciente. Desta forma, ele escolhe pacientes menos doentes para adotar o tratamento, e isso carreia um melhor prognóstico para o grupo tratado, o que pode não decorrer da conduta médica per si.

Este fenômeno de risk aversion é o responsável pelo paradoxo risco-tratamento, onde pacientes de maior risco são menos tratados. Um exemplo é a terapia de anticoagulação para prevenção de AVC em pacientes com fibrilação atrial, especialmente na era da warfarina, quando havia mais relutância pela complexidade do tratamento.



Quando uma coorte observacional tende ao falso negativo


Isto ocorre em tratamentos que os médicos julgam efetivos e não temem as consequências negativas. Ou seja, quando a decisão do médico é mais norteada pelo benefício da conduta do que pelo receio de complicações. Nestes casos, quanto mais graves os pacientes, mais os médicos indicam o tratamento. Isto causa um viés negativo, ou seja, a gravidade dos pacientes aumenta o risco do desfecho e atenuará a percepção de um efeito supostamente benéfico do tratamento.

O melhor exemplo é a decisão por internar ou não internar um paciente com pneumonia. O médico internará os mais graves e por serem mais graves estes pacientes têm maior mortalidade, podendo anular a associação de internamento com desfecho favorável. Pode até parecer que o internamento cause morte, pois os mais graves, internados, têm maior mortalidade.

Trabalho publicado por Ioannidis no JAMA 2001 comparou resultados de estudos observacionais com ensaios clínicos randomizados em diferentes situações. Notamos que o mais frequente é a superestimativa do efeito, ou seja, uma tendência a mais estudos falso positivos do que falso negativos. Isto talvez esteja de acordo com a impressão da maioria dos leitores de artigos: estudos falso positivos são mais frequentes do que falso negativos. Provavelmente não, na verdade esta impressão vem do viés de publicação. As evidências positivas tendem a ser mais publicadas do que as negativas. Sendo assim, devemos considerar que em potencial, os dois mecanismos de falso positivo e negativo coexistem em semelhante proporção.


Conclusão


A definição de qual das três categorias acima se aplica a um estudo de coorte não está contida nos algoritmos tradicionais de critical appraisal de evidências observacionais, que focam em vieses de amostragem, observação, qualidade do ajuste estatístico que foi feito para variáveis de confusão (modelos multivariados, escores de propensão). Esta análise tradicional é insuficiente, pois um estudo observacional de metodologia perfeita não deve ser necessariamente considerado como suficiente para gerar notícia médica. Precisamos fazer a avaliação aqui proposta e sugiro que esta venha antes do critical appraisal tradicional. 

Meus alunos muitas vezes me perguntam: “estudos observacionais não deveriam existir?”. Respondo sempre com a valorização destes desenhos de estudo para as indicações de modelos preditores, efetividade ou causalidade como o caso do tabagismo. Porém o insight da pergunta inocente dos alunos está correto: muitos destes estudos não deveriam existir. Estes muitos estudos são representados por aqueles com alto potencial de viés de confusão negativo ou positivo.

O mundo a olho nu é uma fábrica de ilusões e o viés de confusão é o principal fenômeno ilusório. Mesmo assim, em meio a estudos observacionais podemos considerar alguns fenômenos verdadeiros. Desde que a análise seja criteriosa e feita como uma boa dose de ceticismo. Como solução, proponho o algoritmo abaixo.



---------------------------------------------------------------------------------------------------------------------


Conheça o curso online de medicina baseada em evidências, clicando aqui.

sexta-feira, 28 de setembro de 2018

Estudo positivo versus negativo: qual a verdade? (COAPT e MITRA-FR)


É frequente a pergunta do título dessa postagem, pois para todas as questões há estudos com diferentes resultados. Porém esse fenômeno de estudos contraditórios acaba de aparecer de forma inusitada no New England Journal of Medicine: dois ensaios clínicos sobre a mesma intervenção, na mesma população, publicados na mesma revista, separados por 1 mês, ambos de boa qualidade científica, um positivo e outro negativo

Onde está a verdade?

Pelo viés da positividade, tendemos a escolher o estudo positivo. Melhor ainda quando este estudo positivo é o segundo a ser publicado, pois o viés da novidade contribui para a ilusão da descoberta, que nos faz pensar que achamos o que ainda não havia sido encontrado por falta de oportunidade. 

A propósito, estes dois ensaios clínicos testaram a correção percutânea da insuficiência mitral secundária a miocardiopatia dilatada, com um device denominado MitraClip, fabricado pela Abbott. O primeiro (MITRA-HF), negativo, foi um estudo francês apresentado no Congresso Europeu de Cardiologia, uma decepção moderadamente noticiada. O segundo (COAPT), positivo, foi um estudo americano apresentado no congresso americano de intervencionismo (TCT - Transcatheter Cardiovascular Therapeutics), cuja reação foi retratada por John Mandrola, que estava presente no evento: 

“The applause was remarkable, not just for its intensity, or that it brought emotion to the face of the speaker, but that it occurred at a "scientific" meeting. The stage cameras in the massive auditorium panned to a rapturous audience at the TCT 2018 meeting. It was as if the home team had scored, or perhaps a politician at a rally had landed an applause line.”

Na opinião do autor do COAPT, respaldada por comentário do NEJM Journal Watch, tal diferença de resultado entre os trabalhos teria derivado da maior gravidade da insuficiência mitral e da disfunção sistólica no COAPT. No entanto, essa análise é míope, simplista e anti-científica: primeiro porque essas diferenças foram discretas e não justificariam tamanho contraste de resultado entre os dois estudos; segundo, esta justificativa desconsidera um princípio básico da medicina baseada em evidências: a raridade do fenômeno de interação.

Portanto, precisamos cavar mais fundo para entender o porquê da diferença entre os estudos.

Estudo Positivo versus Estudo Negativo

Diante de resultados conflitantes, há duas possibilidades: ambos estudos estão corretos ou um deles está errado. 

A primeira possibilidade (ambos corretos) é sempre pouco provável e nos remete ao princípio da complacência na aplicabilidade de uma evidência. Esse princípio se baseia na raridade do fenômeno de interação e justifica a não necessidade de que os estudos representem cada uma das milhares variações de pacientes existentes. Quando um efeito benéfico existe, este é reprodutível em diferentes tipos de pacientes. E isso é confirmado pela consistência das análises de subgrupos de ensaios clínicos e por estudos meta-científicos da validade externa dos trabalhos. 

A não ser que haja uma grande razão para que o resultado do tratamento mude com alguma característica específica dos pacientes. E neste caso, não há uma grande razão. 

Mitralclip é mitralClip, e não seria uma pequena diferença de uso que promoveria tamanha diferença entre os estudos. Insuficiência mitral grave é insuficiência mitral grave, não seria alguma diferença de gravidade que justificaria resultados contraditórios. O mesmo para a grave disfunção em ambos os grupos. 

Nesta questão específica, estamos falando de um estudo que mostra 30% de redução relativa do risco de internamentos versus um estudo com zero de redução de internamento ou morte. São diferenças extraordinárias entre dois estudos, o que seria necessário razões extraordinárias para justificar as diferenças. Não há tais razões. 

E desconsiderando tudo isso, o autor do COAPT tenta se justificar:

“Most important, COAPT enrolled patients with substantially worse MR, with a mean effective regurgitant orifice area of 41 mm2 vs 31 mm2 in MITRA-FR. Ventricles in that trial, however, were severely dilated, with a mean left ventricular end-diastolic volume of 135 mL/m2 vs 101 mL/m2 in COAPT.”

Temos aqui um exemplo clássico de violação do princípio da complacência. Essa colocação pode parecer lógica, porém é anti-científica e irracional. Desconsidera o princípio da raridade de interação. Em ambos os estudos os pacientes tem miocardiopatia muito grave e refluxo mitral grave.

Fica aqui a primeira lição dessa análise: não podemos nos seduzir facilmente por potenciais influências da população estudada na demonstração de um conceito. Isso é coisa rara. 

Desta forma, devemos julgar mais provável a segunda razão de discordância entre os estudos: um deles deve estar errado. Neste sentido, preciso lembrar que o impacto de vieses no resultado de um estudo tende a ser maior do que o impacto verdadeiro do tratamento. São muitos exemplos de grandes tamanhos de efeitos que no final são justificados apenas por vieses ou erros aleatórios. Lembram da recente “falácia do mediterrâneo”? 40% de redução relativa do risco com uma dieta um pouco diferente? Depois descobrimos que o estudo não era exatamente randomizado.

Precisamos explorar em detalhe métodos e resultados de ambos os estudos e entender a razão dessa diferença. 

Onde está Wally?


Em primeiro lugar, devemos acessar a probabilidade pré-teste dos dois resultados. Julgo bastante plausível que a correção de um refluxo mitral que faz voltar para o átrio 30% do volume sistólico seja benéfica para o paciente com um ventrículo com grave déficit de contratilidade. Do ponto de vista mecanicista, faz sentido, mesmo que o refluxo seja secundário. Afinal, você prefere ter miocardiopatia com ou sem insuficiência mitral severa? 

Por outro lado, plausibilidade mecanicista não é garantida de verdade, pois os sistemas biológicos não são cartesianos. Estamos repletos de exemplos. Sendo assim, ficarei com 50% de probabilidade pré-teste para a hipótese da correção percutânea da insuficiência mitral ser benéfica. 

Tendo um estudo positivo e outro negativo, devemos analisar os tipos de problema metodológicos que promovem falsos positivos ou falsos negativos. 

A primeira diferença que salta aos olhos é que o COAPT, estudo positivo, avaliou número de internamentos por insuficiência cardíaca, um tipo de desfecho que avalia não apenas se o paciente se internou, mas também computa a quantidade de internamentos. Esse tipo de análise é visto como mais completa do que apenas um primeiro internamento. Mas como pode haver mais de um desfecho por paciente e como pacientes que vivem mais acabam por ter mais internamentos, há necessidade de ajuste estatísticos para estas questões. E o COAPT fez estes ajustes devidamente. 

Já o MITRA-FR avaliou como desfecho primário o combinado de morte ou um internamento por insuficiência cardíaca e não houve qualquer diferença entre os grupos. De qualquer forma, esta não parece ser a razão da diferença entre os estudos, pois no COAPT o desfecho secundário de um primeiro internamento mostrou o mesmo resultado positivo. 

Devemos continuar analisando outros aspectos.

No estudo negativo, devemos procurar erros que tendem a um resultado negativo:

  • O tratamento foi executado de forma competente?
  • Houve excessivo cross-over que anulasse o efeito do tratamento?
  • O estudo tinha poder para detectar diferença entre os grupos?

Quanto ao cross-over, esse é o problema da análise de intenção de tratar (sempre preferida): se muitos pacientes do grupo tratamento não fazem o tratamento ou muitos pacientes do grupo controle acabam por fazer o tratamento, isso iguala artificialmente os resultados. 

Respondendo a estas preocupações: a competência do implante da valva não diferiu  muito entre os estudos, pois a taxa de sucesso imediato e a graduação da insuficiência mitral após um ano foi parecida; praticamente não houve cross-over em nenhum dos dois estudos e ambos obedeceram premissas que confirmam poder estatístico para a análise da hipótese primária. 

No estudo positivo, devemos procurar:

  • Estudos pequenos (podem dar qualquer tipo de resultado).
  • Violações na randomização, levando a pacientes menos graves para o grupo intervenção (randomização aberta).
  • Violação no princípio da intenção de tratar.
  • Viés de desempenho, no qual pacientes do grupo intervenção são melhores tratados.
  • Viés de mensuração do desfecho em estudo aberto (desfecho subjetivo ou criado pelo médico). 
Como falamos, ambos os estudos bem dimensionados. Não  parece haver qualquer violação da randomização e ambos usaram o princípio correto de intenção de tratar. 

O Elefante na Sala


Na sequência de avaliação dos vieses, nos deparamos com um “elefante da sala”: estamos diante da famigerada combinação de um estudo aberto e um desfecho primário mediado pelo pensamento médico. 

Há dois tipos de desfechos clínicos: resistentes a vieses ou susceptíveis a vieses. O desfecho “internamento” é um típico desfecho susceptível ao viés do estudo aberto. Principalmente porque é um desfecho que depende de uma decisão médica para se fazer presente.

Ao saberem que seus pacientes receberam um revolucionário device de correção da insuficiência mitral, é plausível que médicos se tornem mais conservadores na indicação de re-internamento. A confiança no device pode fazê-los interpretar algum sintoma como inespecífico e não indicar internamento por insuficiência cardíaca. E o contrário pode acontecer no grupo que não recebeu o revolucionário aparato médico. A isso poderíamos chamar viés de criação do desfecho.

Segundo, o viés de desempenho. Em estudos abertos, há sempre uma tendência de que o paciente randomizado para a conduta-novidade receba mais atenção pós-procedimento do que os pobres mortais que não receberam a novidade. Vejo isso nitidamente na prática. O paciente que recebe a grande novidade como tratamento vira um paciente VIP, que recebe especial atenção da equipe médica e de pesquisadores. O próprio médico que implanta o device passa a ver aquele paciente como seu filho. Quem vive isso na prática, sabe do que estou falando … Daí surge a tendência forte de que os pacientes-novidade recebam um melhor tratamento do que os pacientes comuns. E particularmente em re-internamento por insuficiência cardíaca esse tipo de contraste na qualidade do acompanhamento pode ser crucial. Pode fazer muita diferença. 

E ao ler o suplemento do estudo COAPT, percebemos essa tendência. No baseline  (randomização) tudo era igual, mas após 1 ano e 2 anos o uso de inibidor da ECA e beta-bloqueador foi maior no grupo que tratou a insuficiência mitral. Assim como a taxa aumento das doses dessas drogas, sempre maior do grupo que tratou a insuficiência mitral. 

Isso é um indício (smoking gun) de que houve viés de desempenho. 

Mas porque os mesmos vieses não positivaram o estudo francês, que também era susceptível? Por isto que denominamos "risco de viés". Pois uma brecha no estudo não é uma garantia de que o viés ocorrerá. E nem sempre sabemos explicar o motivo exato pelo qual o viés alterou o resultado ou não alterou. A análise de um ensaio clínico não é microscópica, caso a caso, é uma análise macroscópica, baseada em probabilidade. Quem sabe o médico francês é cognitivamente mais conservador para internamento do que o médico americano (mera especulação de minha parte ... não importa).

Finalmente, o Desempate


Se o “elefante” está na sala de ambos os estudos, qual o estudo verdadeiro? Aí vem o pulo do gato na análise. Esse elefante na sala (desfecho susceptível a viés em estudo aberto) é um tipo de viés que predispõe ao falso-positivo.

O estudo MITRA-HF é negativo a despeito desta predisposição ao falso-positivo. Enquanto o estudo COAPT é um estudo positivo diante de potenciais vieses pró-positividade. 

Embora ambos os estudos tenham em seus métodos o mesmo risco de viés, o resultado  do COAPT tem maior risco de viés do que o resultado do MITRA-HF. Desta forma, concluímos que o nível de evidência para o resultado do MITRA-HF é melhor do que o nível de evidência para o resultado do COAPT. 

Aqui vem a segunda grande lição: a análise da limitação de um trabalho não deve ser feita apenas pela leitura da metodologia. É muito importante que seja avaliado se o resultado do estudo está indo na direção do viés promovido pela limitação metodológica. Erros sistemáticos são chamados de vieses pois eles geram uma preferência de resultado, erram para um lado e o problema é se o resultado do estudo está neste lado. Essa percepção nos permitiu considerar o resultado do MITRA-HF mais confiável do que o COAPT. 

Aqui não estamos querendo dizer que a verdade definitiva está no resultado no MITRA-HF. Mas se tivermos que assumir uma posição, que seja a posição da incerteza de que este device tenha benefício. Permanecemos com a hipótese nula até que se prove o contrário.

A Cereja do Bolo


Por fim, uma cereja no bolo que deixei para o final: o COAPT foi um estudo financiado pela Abbot, fabricante do mitralClip, cujo desenho, análise e preparo do artigo teve participação da empresa; o MITRAL-HF é um estudo financiado pelo governo francês, sem participação da indústria no desenho ou execução do estudo. Uma característica que não resolve a nossa dúvida, mas nos deixa intrigados …

Ao invés de comemorar resultados positivos como um gol que levou nosso time preferido a ser campeão, devemos observar se esse gol é válido cientificamente. Torcida não combina muito com ciência.


---------------------------------------------------------------------------------------------------------------------



Conheça o curso online de medicina baseada em evidências, clicando aqui.

quarta-feira, 19 de setembro de 2018

SCOT-HEART: desfecho secundário travestido de primário


A leitura de um trabalho científico deve envolver um domínio além do artigo científico, abrangendo o ecossistema que envolve a criação da ideia, definição do protocolo e aceitação dos resultados pela comunidade. A leitura do trabalho não começa, nem termina no artigo final.

Em uma recente postagem de grande impacto, provocamos a reflexão a respeito da “fake news científica” contida do ensaio clínico SCOT-HEART, a partir da leitura do artigo científico. Nesta portagem abordaremos o antes e o depois. 

Nas discussões de artigo de nosso Hospital utilizamos uma metodologia peculiar em vários aspectos. Um destes aspectos é a orientação para que nosso residente sistematicamente acesse o clinicaltrial.gov e procure inconsistências entre o protocolo definido a priori e o que está no artigo publicado. Neste momento, estamos avaliando o ecossistema prévio ao artigo.

Foi quando João Menezes, nosso residente que apresentaria o SCOT-HEART, nos veio com mais uma surpresa a respeito deste trabalho: o desfecho primário relatado na publicação do NEJM na verdade era um dos muitos desfechos secundários, exemplificando “a mágica transformação de um desfecho secundário em primário”.


A Transformação


A integridade científica de um estudo depende da definição a priori do plano de análise de dados. Este método serve para evitar a multiplicidade de testes que aumenta a probabilidade do erro tipo I (afirmar algo falso = fake news). Neste contexto, é essencial a definição do desfecho primário do trabalho, que deverá nortear a conclusão, independente do resultado de desfechos secundários que podem sofrer do problema das múltiplas comparações (abordado tecnicamente em postagem deste Blog - 2016). 

Pois bem, a publicação do SCOT-HEART no NEJM claramente define que o desfecho primário do estudo seria o combinado de morte cardiovascular e infarto não fatal em seguimento de 5 anos.

“The primary end point was death from coronary heart disease or nonfatal myocardial infarction at 5 years.”

E na parte de cálculo amostral, os autores reforçam: 

“our pre-especified primary long-term end point was the proportion of patients who died from coronary heart disease or had a nonfatal myocardial infarction at 5 years.”

Vamos agora ao ecossistema prévio ao artigo. Como sabemos, autores devem registrar o protocolo de qualquer ensaio clínico antes de sua realização e isso normalmente se faz no clinicaltrials.gov. 

Ao checar o protocolo do estudo no clinicaltrials.gov, João percebeu que o desfecho primário descrito no NEJM não era o verdadeiro desfecho primário! Como em um passe de mágica, um desfecho antes secundário foi transformado em primário na descrição do artigo final. 

Na verdade, este estudo foi originalmente desenhado para avaliar a proporção de pacientes que receberam diagnóstico de doença coronariana, comparando tomografia versus estratégia controle.  Esta proporção foi o desfecho primário pré-definido pelo estudo. 

Já os desfechos secundários foram divididos em 5 domínios (sintomas, diagnóstico, investigações adicionais, tratamento implementado, desfechos clínicos no longo prazo). No domínio de desfechos  clínicos, foram descritos 9 desfechos secundários, dentre os quais está o desfecho “morte cardiovascular e infarto não fatal”, descrito agora como primário no artigo do NEJM. 

Vejam a descrição dos desfechos clínicos secundários, tal como colocado no clinicaltrials.gov e no artigo do Trials que descreve o desenho do estudo em 2012:

  1. Cardiovascular death or non-fatal Myocardial Infarction (MI) (ii) Cardiovascular death (iii) Non-fatal MI (iv) Cardiovascular death, non-fatal MI or non-fatal stroke (v) Non-fatal stroke (vi) All-cause death (vii) Coronary revascularisation; percutaneous coronary intervention or coronary artery bypass graft surgery (viii) Hospitalisation for chest pain including acute coronary syndromes and non-coronary chest pain (ix) Hospitalisation for cardiovascular disease including coronary artery disease, cerebrovascular disease and peripheral arterial disease.

Para complicar ainda mais, os desfechos clínicos foram pré-definidos para ser avaliados em seguimento de 10 anos e o artigo descreve o seguimento de 5 anos. Assim, a definição de 5 anos não foi a priori. A rigor, estamos diante de um desfecho secundário definido a posteriori (análise post-hoc). E isso não é apenas semântica, pois na ausência de definição de quando o desfecho deve ser avaliado, podemos testá-lo ano a ano, esperando que o acaso nos presenteie com um resultado positivo em algum momento. No momento em que o autor é presenteado pelo acaso, este pode preparar um abstract e submeter a um importante congresso internacional. Não estou dizendo que assim foi feito, estou apenas mostrando como pode ser feito com desfechos post-hoc.

Desta forma, estamos diante de um grave problema das múltiplas comparações, que pode se computado da seguinte forma:

Considerando o alfa de 5%, se a hipótese nula for verdadeira (grupo tomografia = grupo controle), a probabilidade de aparecer um resultado falso-positivo em um desfecho primário único é 5%. No entanto, estamos fazendo 9 tentativas secundárias de obter um resultado positivo. Se cada uma destas tentativas possui 5% de probabilidade de um resultado falso-positivo, a probabilidade de um resultado falso positivo aparecer em alguma das tentativas é  1 – 0.95k, sendo K o número de tentativas. Desta forma, a probabilidade de algum destes desfechos secundários se mostrar falso-positivo é 36%. Muito maior do que os 5% se estivéssemos analisando um único desfecho primário.

Para agravar, o poder estatístico do SCOT-HEART, após correção para a incidência do desfecho é de apenas 27%, como comentamos em postagem anterior. Temos então dois mecanismos de fabricação aleatória de um falso-positivo: os múltiplos desfechos testados e um estudo que carece de poder estatístico. Desta forma, a probabilidade de falso-positivo se torna maior do que 36%. Em terceiro lugar, se consideramos o risco de viés de mensuração do desfecho (averiguados por registros clínicos de prontuário eletrônico, não adjudicados), o SCOT-HEART é uma máquina aleatória e sistemática de gerar resultados falsos. 

Esta é mais uma explicação para a inverossímil redução relativa do hazard de 41% na incidência do desfecho combinado de infarto e morte cardiovascular em 5 anos de seguimento após a realização da angiotomografia de coronárias. Como comentamos no artigo anterior, a prevenção de um desfecho clínico pela realização de um exame depende de três probabilidades condicionais (P de achado anormal x P de mudança de conduta x P de benefício da conduta), diferente da probabilidade de benefício de um tratamento que tem apenas um componente. 

Desta forma, é bom demais para ser verdade que a realização de um exame promova um benefício com a magnitude usual de bons tratamentos, que varia de 20% a 40%. Aqui nos referimos a redução relativa, pois esta descreve o “tamanho de efeito” intrínseco de uma conduta, que não varia com risco absoluto.


Dois Escândalos


É escandaloso os autores descreverem como desfecho primário uma desfecho que foi pré-definido como secundário. Isso mostra a falta de integridade científica nos bastidores deste trabalho. 

Talvez mais escandaloso seja a aceitação deste artigo por parte da comunidade médica, que parecia comemorar o resultado do trabalho, apresentado com destaque no Congresso Europeu de Cardiologia em Munique.

Problemas de integridade científica não pertencem a um indivíduo moralmente defeituoso. Falta de integridade científica decorre de um ecossistema defeituoso, passando pelos produtores da pesquisa, pelos editores e revisores e pelos que lêem o artigo sem a visão crítica necessária. 

Mas como explicar que uma série de pessoas possam cometer erros em sequência sem que haja uma conspiração?


O Viés de Legião


Originalmente, poderíamos julgar muito estranho que milhares de cardiologistas assistindo simultaneamente à apresentação do estudo concordem com um resultado falso. Será que a “legião” de médicos favoráveis ao resultado do artigo não seria uma evidência a favor da veracidade?

Vale a pena remontar às observação do médico e estatístico sueco Hans Rosling, que ficou  famoso por suas palestras no TED, em que usava gráficos estatísticos dinâmicos para demonstrar como a maioria das pessoas se equivoca quanto a fatos importantes da vida. 

Rosling costumava fazer perguntas deste tipo a uma legião de intelectuais: "quantas crianças de países de baixo nível sócio-econômico possuem ensino básico? 20%, 40% ou 60%?". A resposta certa é 60%, mas apenas 7% dos intelectuais respondiam correto. A maioria marcava 20%. Observem que se perguntássemos a um macaco qual a alternativa correta, este acertaria 33% das vezes. Por que os homens acertam apenas 7%? A resposta está em nosso viés de positividade. Nós tentemos a acreditar no resultado mais significativo (mais positivo), seja quando estamos falando de um fator de risco, seja no benefício de uma conduta. Nossa mente tem um tropismo por maior contraste, assim tentemos a acreditar em resultados extremos demais para serem verdade. 

E isso é um fenômeno coletivo, criando uma legião de crentes no resultado mais significativo. O imenso número de pessoas pensando da mesma forma, reforça a crença dos participantes da legião. É o viés de legião.

O problema se agrava quando somos médicos especialistas, entusiasmados com nossas ferramentas tecnológicas. Isso justifica termos acreditado tanto nos estudos pequenos e enviesados da hipotermia pós-parada e beta-bloqueador da cirurgia não cardíaca, que viraram recomendações de guidelines, ou na terapia de reposição hormonal dos estudos observacionais (assuntos antigos do Blog). O mesmo ocorre agora com o SCOT-HEART, que ao ser apresentado com glamour no congresso europeu criou sua própria legião de crentes.


Os Vieses da Novidade, Positivismo e Confirmação


O SCOT-HEART é o estudo mais recente, portanto surge como uma novidade que traz evolução do conhecimento. No entanto, já havia um outro estudo publicado anos antes. Trata-se do estudo PROMISE: estudo maior (10.000 pacientes), desfecho verdadeiramente primário, definido a priori, com follow-up para avaliação de desfechos, adjudicados.  Ou seja, o PROMISE é um estudo de qualidade imensamente superior ao SCOT-HEART. E seu resultado foi negativo.  

Por que então preferimos acreditar na evidência positiva de má qualidade do que na evidência negativa de boa qualidade? Pois nossa mente tem tropismo pelo positivo (viés do positivismo) e pelo novo (viés da novidade). Assim, utilizamos o viés de confirmação (selecionamos evidências positivas e desconsideramos as negativas) para reforçar nossa crença. 

Esta análise demostra que ao considerar os vieses cognitivos da mente biológica, não precisamos da indelicadeza de mencionar conflitos de interesses que também podem mover as legiões de crentes. 


O Rei que Estava Nu


Conta a estória de Hans Christian Andersen (1937) que um rei muito vaidoso encomendou de dois alfaiates uma roupa sem precedentes, tão original que nunca alguém tivesse vestido igual. Na impossibilidade de concretizar o desejo do rei, os alfaiates idealizaram uma roupa imaginária, que diziam ser invisível aos olhos de pessoas estúpidas. O próprio rei, ao experimentar a roupa, não conseguiu visualizá-la no espelho, porém fingiu que estava vendo para não parecer estúpido. Da mesma forma, todas as pessoas percebiam que o rei estava nu, porém ninguém lhe chamava a atenção pelo receio de serem consideradas estúpidas. E assim o rei passou boa parte de seu reinado nu, exposto ao ridículo. O medo de parecer estúpido fazia com que as pessoas aceitassem o inverossímil. De fato, muitos acreditavam que estavam vendo a roupa, pois queriam acreditar não ser estúpidos.

Essa estória retrata o mecanismo pelo qual alguns mitos perduram na medicina.

Um belo dia, durante um importante desfile em praça pública, ao ver o rei passar com a suposta roupa, uma criança gritou: o rei está nu! Essa criança desmascarou a farsa criada pelos alfaiates, constrangeu o rei, e principalmente os súditos que acreditaram na mentira ou ficaram com vergonha de discordar. 

Alguns interpretam que foi a inocência da criança que permitiu sua observação. Na verdade, reza a lenda que essa era uma daquelas crianças meio maliciosas. Neste caso, a diferença entre criança e adulto foi a coragem de reconhecer a verdade e discordar da legião de fanáticos. 

Que o SCOT-HEART nos sirva de alerta para os múltiplos vieses que nos afastam da integridade científica. Alerta para o prevalente fenômeno de “fake-news científica”.