Ontem foi apresentado no Congresso Europeu de Cardiologia e simultaneamente publicado no NEJM um ótimo exemplo de fake-news científica, o SCOT-HEART Trial.
Aproveitarei para mostrar que a leitura do artigo começa antes do processo tradicional. A pré-leitura que nos traz o espírito crítico necessário para o processo de leitura. Na pré-leitura começamos a desenvolver uma visão do todo, como se estivéssemos olhando uma cidade ainda da janela do avião.
Depois pousaremos o avião e iniciaremos a leitura, onde veremos os detalhes.
A pré-leitura de um artigo é composta de duas perguntas: primeiro, a hipótese faz sentido, este estudo deveria ter sido realizado? (probabilidade pré-teste da ideia = plausibilidade + estudos prévios); segundo, o resultado é bom demais para ser verdade (tamanho de efeito)?
Aproveitarei para mostrar que a leitura do artigo começa antes do processo tradicional. A pré-leitura que nos traz o espírito crítico necessário para o processo de leitura. Na pré-leitura começamos a desenvolver uma visão do todo, como se estivéssemos olhando uma cidade ainda da janela do avião.
Depois pousaremos o avião e iniciaremos a leitura, onde veremos os detalhes.
A pré-leitura de um artigo é composta de duas perguntas: primeiro, a hipótese faz sentido, este estudo deveria ter sido realizado? (probabilidade pré-teste da ideia = plausibilidade + estudos prévios); segundo, o resultado é bom demais para ser verdade (tamanho de efeito)?
Na pré-leitura devemos evitar inundar a cabeça de detalhe. Precisamos apenas identificar qual a hipótese testada e qual o resultado principal. Lendo apenas a conclusão do artigo, obtemos essas informações que devem ser acompanhada de uma olhada na linha dos resultados que apresenta os números principais para ter noção do tamanho do efeito (coisa de 30 segundos).
No caso do SCOT-HEART trial:
"CTA in addition to standard care in patients with stable chest pain resulted in a significantly lower rate of death from coronary heart disease or nonfatal myocardial infarction at 5 years than standard care alone.
The 5-year rate of the primary end point was lower in the CTA group than in the standard-care group (2.3% [48 patients] vs. 3.9% [81 patients]; hazard ratio, 0.59; 95% confidence interval [CI], 0.41 to 0.84; P = 0.004)."
A partir dessas duas sentenças, percebemos a hipótese testada: o uso de tomografia em pacientes com dor torácica estável reduz eventos cardiovasculares. Qual a probabilidade pré-teste desta ideia?
Há alguma plausibilidade mecanicista na medida em que informações anatômicas podem modificar condutas terapêuticas de médicos e estas modificarem desfechos. Quanto a evidências prévias, o estudo PROMISE randomizou 10.000 pacientes para tomografia versus avaliação não invasiva e foi totalmente negativo quanto a desfechos cardiovasculares. O grupo de comparação do PROMISE não é exatamente o mesmo que o SCOT-HEART, mas indiretamente o resultado daquele estudo modela para menos a probabilidade pré-teste da hipótese do SCOT-HEART ser verdadeira. Sendo assim, eu diria que a probabilidade pré-teste é baixa, porém não é nula, mantendo a aceitabilidade da realização do estudo.
Então vem a segunda pergunta: o tamanho do efeito é bom demais para ser verdade? Observem que a tomografia promoveu 41% de redução relativa do hazard. Essa magnitude de efeito é típica de tratamentos que funcionam. Importante salientar que a magnitude de efeito de um exame será sempre muito menor do que a de um tratamento, pois no primeiro há muito mais etapas entre a interveção e o desfecho.
No caso de ensaio clínico que testa eficácia da realização de um exame, as seguintes etapas se fazem necessárias antes do benefício ocorrer:
O exame é feito em todos os pacientes - uma parcela deles tem um resultado que pode sugerir ao médico aprimorar o tratamento do paciente - em uma sub-parcela destes pacientes o médico de fato aprimora o tratamento - uma sub-sub-parcela dos pacientes que tiveram o tratamento aprimorado se beneficiam. Sendo assim, devemos esperar que a magnitude do efeito clínico de um exame seja muito menor do que a de um tratamento.
Desta forma, concluímos que o resultado do SCOT-HEART é bom demais para ser verdade.
Agora vamos fazer a leitura do artigo, a procura de problemas que justifiquem um achado tão inusitado, 41% de redução relativa do hazard pela realização de um exame.
O primeiro ponto que chama a atenção foi a mínima a diferença de modificação do tratamento promovido pela realização da tomografia versus o grupo controle. Não houve diferença de procedimento de revascularização. No que tange a terapias preventivas do tipo estatina ou aspirina, a diferença entre os dois grupos foi de apenas 4% (19% versus 15%).
O N de pacientes do grupo tomografia é 2.073 x 4% de aprimoramento da terapia = o grupo tomografia teve um adicional de 83 pacientes de terapia aprimorada em relação controle.
O número de eventos prevenidos no grupo tomografia (em relação ao controle) foi 33.
Sendo assim, o aprimoramento medicamentoso de apenas 83 pacientes preveniu 33 desfechos clínicos. Se fôssemos avaliar o tratamento que foi realizado no final da cascata que apresentei acima, o NNT seria 2.5. Algo sem precedentes, que quase nenhum tratamento é capaz de promover, quando mais um exame.
Este é um estudo definitivamente falso.
A continuidade da leitura servirá para entendermos os mecanismos que geraram este falso resultado.
"There were no trial-specific visits, and all follow-up information was obtained from data collected routinely by the Information and Statistics Division and the electronic Data Research and In- novation Service of the National Health Service (NHS) Scotland. These data include diagnostic codes from discharge records, which were classified according to the International Classification of Dis- eases, 10th Revision. There was no formal event adjudication, and end points were classified primarily on the basis of diagnostic codes."
Os desfechos foram obtidos pela revisão de prontuários eletrônicos, através do CID e sem auditoria pelos autores. Segundo, o estudo é aberto e viés de aferição do desfecho (ascertainment bias) podem acontecer. Por exemplo, o conhecimento de uma tomografia normal pode influenciar o médico que escreve o CID a interpretar um sintoma como inocente, enquanto em outro paciente do qual não se tem conhecimento da anatomia, um sintoma pode promover dosagem de troponina e conclusão por infarto não fatal. Isso é só uma potencial explicação, que serve de exemplo.
Na realidade, nunca conseguimos abrir a caixa preta do exato mecanismo que prevaleceu na geração de um viés. Porém devemos ter em mente que a combinação de um estudo aberto com um método pouco acurado de mensuração do desfecho representa alto risco de viés.
Uma das técnicas para explorar a possibilidade de viés de aferição é comparar o resultado da morte específica (sujeito a viés de aferição - subjetividade) com o resultado da morte por qualquer causa (imune a viés). Mesmo não sendo um desfecho primário ou estatisticamente significante, vale a pena como análise exploratória. É interessante observar que o hazard ratio é 0.46 para morte cardiovascular e 1.02 (totalmente nulo) para morte geral. Na ausência de aumento substancial de morte não cardiovascular, isso sugere que o estudo é especialmente sujeito a viés de aferição em desfechos subjetivos.
Na realidade, nunca conseguimos abrir a caixa preta do exato mecanismo que prevaleceu na geração de um viés. Porém devemos ter em mente que a combinação de um estudo aberto com um método pouco acurado de mensuração do desfecho representa alto risco de viés.
Uma das técnicas para explorar a possibilidade de viés de aferição é comparar o resultado da morte específica (sujeito a viés de aferição - subjetividade) com o resultado da morte por qualquer causa (imune a viés). Mesmo não sendo um desfecho primário ou estatisticamente significante, vale a pena como análise exploratória. É interessante observar que o hazard ratio é 0.46 para morte cardiovascular e 1.02 (totalmente nulo) para morte geral. Na ausência de aumento substancial de morte não cardiovascular, isso sugere que o estudo é especialmente sujeito a viés de aferição em desfechos subjetivos.
Mas não ficamos por aqui, este estudo apresenta também alto risco de erro aleatório, pois é subdimensionado para o desfecho clínico. Na verdade, o cálculo da amostra partiu da premissa de 13% de incidência do desfecho no grupo controle, porém ocorreu apenas 3.9%. Pelo meu cálculo, isso reduziu um poder estatístico pretendido de 80% para pífios 27%. Como sabemos, estudos pequenos são muitos mais predispostos a resultados falsos positivos, devido a sua imprecisão.
Essa imprecisão não só aumenta a probabilidade do erro tipo I, como também incapacita o estudo de medir o tamanho do efeito. Ou seja, 41% de redução relativa do hazard apresentou um intervalo de confiança que variou de 16% a 59%).
Por fim, se considerássemos a informação verdadeira, valeria uma análise de aplicabilidade. A hipótese aqui testada é de caráter pragmático. Ou seja, um intervenção é feita no início, se esperando que na prática (pragmatismo) o médico reaja de uma forma que beneficie o paciente. No entanto, o estudo induziu os médicos ao comportamento preventivo.
"When there was evidence of nonobstructive (10 to 70%) cross-sectional luminal stenosis) or obstructive coronary artery disease on the CTA, or when a patient had an ASSIGN score of 20 or higher, the attending clinician and primary care physician were prompted by the trial coordinating center to prescribe preventive therapies."
Essa metodologia reduz a validade externa do estudo, pois não sabemos se na ausência desta indução provocada pelo protocolo do estudo, os médicos agiriam da mesa forma preventiva. Caso o benefício fosse verdade, na prática seria de menor magnitude.
É comum estudos de qualidade insuficiente para assegurar a veracidade da informação. Mas o SCOT-HEART vai além: esse é estudo cuja informação é certamente falsa. Um ótimo exemplo de fake news científica.
---------------------------------------------------------------------------------------------------------------------
Muito bom! Nunca tinha visto esse raciocínio.
ResponderExcluirEu tinha a impressão de que o poder do estudo só tinha impacto no erro tipo II. Também impacta no erro tipo I?
Caro Luís,
ResponderExcluirNem dá pra comentar pois em sua análise acho que você já comentou todos os determinantes.
Só fica a dúvida é de como este tipo de artigo é publicado (e à vezes muda a opinião dos especialistas) enquanto muita pesquisa de qualidade fica lutando pra aparece em um canto relegado dos Journals.
Victor, talvez parte de sua dúvida seja explicada neste artigo:
ResponderExcluirhttps://ethicalnag.org/2009/11/09/nejm-editor/
Faço minha as suas palavras Victor Lage.
ResponderExcluirMuito mais que uma fake news cientifica, isto é um verdadeiro crime ético
ResponderExcluir