domingo, 7 de julho de 2019

Intenção de Tratar: a incompreendida diferença entre crossover clínico e metodológico


Intenção-de-tratar é considerada a análise apropriada para testar “superioridade” em ensaios clínicos randomizados. Nesta abordagem, os indivíduos são analisados ​​de acordo com o seu grupo de alocação original, independentemente do tratamento real recebido, evitando o viés de confusão causado pela exclusão de pacientes não aderentes (análise por-protocolo). Ou seja, um paciente randomizado para o tratamento será analisado como tratamento mesmo se não tiver realizado o tratamento; assim como um paciente randomizado para controle será analisado como controle mesmo se tiver cruzado para tratamento. Parece contraintuitivo, mas é o melhor método para evitar perda do efeito da randomização.

Por outro lado, o problema da intenção-de-tratar é o viés pró hipótese nula, pois na medida em que pacientes cruzam (crossover) para outro grupo, o efeito perceptível da intervenção se atenua, pois diminui o contraste de tratamento entre os dois grupos. Os grupos tendem a ficar mais semelhantes em desfechos. 

No entanto, esta crítica é inadequada quando se trata de crossover clínico, fenômeno que será descrito nesta postagem, o diferenciando do crossover metodológico.

Esta foi a principal crítica recebida pelo ensaio clínico CABANA, publicado este ano no JAMA, que frustrou cardiologistas que esperavam ver a comprovação do benefício da restauração do ritmo sinusal, agora pela técnica de ablação, mais competente do que drogas antiarrítmicas. Como “solução psicológica” para o inconformismo com o resultado, entusiastas preferiram considerar o estudo inconclusivo, devido ao crossover de 27% dos pacientes do grupo controle, que acabaram sendo submetidos a ablação ao longo do seguimento de 48 meses, o que foi interpretado como um viés gerador do resultado negativo.

Este crossover deve ser um aspecto relevante na interpretação do CABABA? Meu argumento é que não. No entanto, independente dos objetivos didáticos dessa postagem, o estudo CABANA tem outros problemas que o tornam mais exploratório do que confirmatório: estudo "pequeno" (número de eventos), aberto, modificação a posteriori do desfecho primário. O CABANA, mesmo se fosse positivo, não seria um estudo confirmatório.

No entanto, a crítica ao CABANA tem sido concentrada no crossover, uma crítica que não considera a essencial diferença entre crossover clínico e metodológico. O primeiro deve ser considerado um viés, ocorre independentemente da resposta clínica ao tratamento alocado e mais comumente é na direção do grupo ativo para o grupo controle. Por exemplo, um paciente randomizado para um tratamento não o recebe porque ele teve uma piora do estado de saúde ou morreu antes de passar pela terapia. A eliminação desse tipo de paciente da análise torna o grupo ativo de melhor prognóstico e cria um viés em prol da rejeição da  hipótese nula.

Por outro lado, proponho o termo “clínico” para um crossover do controle para o tratamento e que ocorre quando os pacientes não estão indo bem com a abordagem mais conservadora. Nesse caso, depois de tentar ser conservador, os médicos decidem mudar para o tratamento ativo porque a primeira escolha (aleatória no estudo) parece não estar funcionando bem. Este tipo de cruzamento não deve ser visto como uma limitação se o estudo testar a hipótese pragmática de “qual deve ser a primeira escolha”, em vez de “qual deve ser a única escolha”.

A base para considerar o “crossover clínico” como imparcial é a ideia de que é a escolha médica inicial que está sendo testada. É preciso saber se a conduta mais complexa deve ser a escolha inicial de tratamento. Esse teste deve levar em conta a desejada liberdade de um médico em mudar sua ideia de acordo com a evolução clínica. Por exemplo, se o paciente experimentar dificuldades para controlar a frequência cardíaca ou se tornar muito sintomático pela arritmia, o médico deve mudar de ideia e indicar a ablação. Isto não invalida o teste da escolha inicial. Apesar de 27% de crossover, pode valer a pena tentar primeiro uma estratégia mais conservadora, pois esta preveniu necessidade de ablação em 73% dos pacientes, sem aumentar desfechos clínicos.

Esta foi a mesma ideia que “protegeu” o ensaio clínico COURAGE deste tipo de crítica. O COURAGE testou a hipótese de que a intervenção coronária percutânea de rotina é superior ao manejo clínico em termos de prevenção de eventos coronarianos maiores. Foi um estudo negativo que mudou o paradigma da intervenção em pacientes estáveis.

Em COURAGE, apesar de um cruzamento de 30% do grupo controle para intervenção, o estudo não foi considerado inconclusivo. Aqueles eram pacientes que se tornaram refratários ao manejo clínico e necessitaram de terapia invasiva. Ainda assim, a abordagem conservadora valeu a pena porque funcionou em 70% dos pacientes, sem aumento de eventos cardiovasculares maiores.

As questões clínicas têm uma natureza pragmática e servem para orientar a primeira escolha do médico. A hipótese do CABANA tem uma natureza pragmática. Se CABANA fosse criado para avaliar se ritmo sinusal é melhor do que fibrilação atrial (conceito científico), o crossover seria um problema. Mas este conceito científico é óbvio e não é o motivo do estudo. A dúvida é se devemos nos aventurar a indicar de rotina controle do ritmo, ao invés adotar primeiro o mais simples controle de frequência. 

Do ponto de vista da hipótese pragmática (o que devo fazer), a análise por intenção-de-tratar com crossover clínico aproxima o estudo do mundo real. Por outro lado, esta reduz a validade interna de um estudo que testa uma hipótese conceitual (lei da natureza).

Devemos evitar críticas inadequadas a estudos que têm em sua própria natureza a possibilidade de crossover clínico, pois na prática clínica os médicos devem ter a liberdade de mudar sua abordagem para a mais agressiva se a escolha conservadora não estiver funcionando bem. Mas estes médicos precisam saber se vale a pena tentar primeiro o método mais simples. 

Se for um teste da primeira opção, o cruzamento clínico não é um viés, ao contrário, dá sentido pragmático ao estudo. A partir dessa percepção científica, o estudo CABANA deixaria de ser inconclusivo e ganharia valor como sugestivo da postura conservadora. 

O ônus da prova está em condutas mais agressivas, pois a natureza do agressivo guarda mais consequências não intencionais do que o conservador. A lógica do pensamento não pode ser invertida. Não há necessidade da "comprovação" de ausência de benefício para que algo deixe de ser a primeira opção. A necessidade é de comprovação de benefício, sempre. 

-------------------------------------------------------------------------------------------------------------------------


Conheça nosso Curso Online de MBE, clicando aqui.


domingo, 23 de junho de 2019

MR-INFORM Trial: uma profecia autorrealizável


Há estudos enigmáticos, cujo significado não está explícito e custamos a compreender o sentido à primeira vista. Na leitura de um artigo científico, além de nosso conhecimento metodológico, devemos fazer uso de nossas sensações. E quando a sensação inicial for confusão mental, devemos redobrar a atenção: este estudo faz sentido? 

Neste momento, temos o papel de discriminar estudos com sentido implícito (não evidente à primeira vista) de estudos desprovidos de sentido científico. Vale lembrar a lendária frase de Douglas Altman em 1994, “precisamos de menos estudos, estudos melhores e feitos pelas razões certas” que ganha relevância neste contexto. Assim como o ensaio “Why most clinical research is not useful” em que Ioannidis estima que a maioria dos recursos são desperdiçados em estudos inadequados ou sem sentido.

Tenho mais facilidade de pescar exemplos em minha área de interesse clínico, mas a validade didática deste texto é genérica. Comentaremos nesta postagem um dos mecanismo por trás de estudos inúteis: a profecia autorrealizável. Rotulo um estudo de profecia quando seu resultado é a concretização do óbvio. 

O mecanismo da criação de profecias está na escolha do desfecho. Temos dois tipos de profecias, aquela que pretende mostrar diferença (superioridade) ou aquela que almeja quase semelhança (não-inferioridade). Para dissimular superioridade, precisamos escolher um desfecho que seja induzido no grupo controle pelo caráter aberto do estudo: desfechos susceptíveis a interpretação ou criados pelo médico (como indicação de procedimento no grupo controle que não realizou o procedimento) - vide post antigo. Para dissimular semelhança, é só escolher um desfecho que não seja influenciado pela intervenção. Claro que sua incidência será igual nos dois grupos. É o caso que discutiremos. 

É como se comparássemos angioplastia coronária versus tratamento clínico quanto ao desfecho artrose de joelho. Claro que tratamento clínico seria não-inferior (igual) a angioplastia para dor no joelho. 

Vejamos o exemplo de estudo MR-INFORM, publicado nesta semana na revista médica de maior impacto: New England Journal of Medicine. Este é um estudo de não-inferioridade, que pretende demonstrar em pacientes com angina estável que uma estratégia de realizar coronariografia (seguida de angioplastia) apenas se houver isquemia importante na ressonância magnética é não-inferior à estratégia invasiva de realizar coronariografia em todos os pacientes, seguida de FFR (avaliação hemodinâmica da lesão), que se positivo induziria angioplastia. Na primeira estratégia, o gatekeeper  (filtro) da angioplastia está antes do cateterismo, portanto muitos pacientes não precisariam chegar ao exame invasivo. Na segunda estratégia, o gatekeeper está depois do cateterismo, portanto todos recebem esse exame. Essa seria uma vantagem da estratégia da ressonância, pois a torna menos invasiva, justificando o desenho de não-inferioridade: aceitar um certo grau de inferioridade como se fosse algo semelhante, pois existe uma vantagem prática que compensa. 

Agora vamos ao mecanismo da profecia neste estudo. 

Percebam que são duas estratégias que culminam em angioplastia. A potencial diferença de resultado clínico entre as duas reside na possível diferença de angioplastia. Portanto, para garantir o resultado igual entre os grupos, precisamos escolher desfechos que não sejam influenciados pela angioplastia no cenário estável. Como todos sabem, de forma reprodutível em diferentes estudos, morte e infarto não são prevenidos por angioplastia. Estes desfechos são insensíveis à intervenção. 

Outro mecanismo pelo qual desfechos deste tipo poderiam ser influenciados pela estratégia mais invasiva, seria o conhecimento de uma lesão obstrutiva na coronariografia influenciar um melhor tratamento clínico. No entanto, esses benefícios indiretos são muito pouco prováveis de resultar em diferenças clínicas. O racional desta afirmação está nos tipicamente modestos tamanhos de efeito dos tratamentos farmacológicos em doenças crônicas (redução relativa do risco em torno de 25%) vistos em desenhos que promovem quase um contraste total entre os grupos de tratamento: a randomização para tratar ou não tratar. Quando randomizamos para outras coisas que indiretamente podem ou não influenciar em um pouco mais de tratamento em algum grupo, qualquer resultado em desfecho clínico ficaria quase imperceptível. Esse foi o racional que usamos em postagem prévia quando interpretarmos o SCOT-HEART como "bom demais para ser verdade" (vide postagem prévia). 

Portanto, antes do estudo realizado, já poderíamos saber que a estratégia candidata a não-inferior não causaria mais morte ou infarto. 

Para garantir ainda mais a profecia, o desfecho primário composto do estudo teve um terceiro componente: necessidade de repetir revascularização no vaso primariamente revascularizado (target vessel revascularization). A dúvida da não-inferioridade reside no caráter mais conversador do braço ressonância, que poderia gerar menos angioplastia. Ora, se esse grupo tiver menos vaso angioplastado, obviamente terá menos vaso reangioplastado, pois para ser reangioplastado o vaso precisa primeiro ser angioplastado primeiro. A redundância da minha sentença é proposital, pois é da redundância que surge a profecia. Colocado de outra forma, se o grupo invasivo tem mais vaso angioplastado, terá mais vaso reangioplastado, e esse maior número de desfechos falaria contra o grupo coronariografia e a favor do grupo candidato a não-inferioridade. 

De fato, no resultado do estudo, o número de revascularizações do vaso-alvo no grupo do FFR foi maior do que o dobro do grupo ressonância, o que não ocorreu com morte e infarto. No final, a incidência do desfecho composto foi semelhante entre os dois grupos (3.6% versus 3.7%). 

Qual seria o desfecho adequado?

Tenho dúvida sobre a utilidade deste estudo, mesmo que não fosse uma profecia auto-realizável. Mas se tivesse que fazer este estudo, usaria como desfecho primário controle da angina. Ou seja, se um braço do estudo tem a tendência de promover menos angioplastia, este poderia ser inferior no controle da angina, pois angioplastia controla angina (seja por efeito direto, seja por efeito placebo - vide estudo ORBITA). Angina é um desfecho sensível a um procedimento, que poderia vir a ser menos frequente no braço ressonância. 

De fato, este grupo teve 47 angioplastias a menos, 9% em termos absolutos. Observem que não é uma diferença muito grande e ambos os grupos tiveram o mesmo sucesso em controle de angina. Como esse não foi o desfecho primário, não pode ser visto como um dado confirmatório. No entanto, julgo ser uma informação exploratória mais útil do que o óbvio do desfecho primário. 

Este trabalho nos traz outras provocações interessantes a serem comentadas, como impacto do pequeno número de desfechos no desenho de não-inferioridade, a inversão da lógica da não-inferioridade (na verdade, o ônus da prova está na superioridade da conduta mais complexa) e a confusão entre avaliação funcional (clínica) e avaliação de isquemia (ressonância) ou hemodinâmica (FFR). Mas deixarei estas questões para outra oportunidade, a fim de manter o foco da discussão na profecia autorealizável. 


A Utilidade das Profecias e os Sequestros dos Paradigmas

Demonstrar o óbvio não tem valor científico, mas tem valor prático: ao publicar uma conclusão positiva a favor de uma conduta, esta passará a ser mais utilizada. Isso funciona devido ao  sequestro do paradigma da medicina baseada em evidências: criar uma evidência óbvia que “sugestione” (tradução do termo nudge, usado em ciência do comportamento) mudança de comportamento.

Isso funciona devido à infeliz confusão entre medicina baseada em evidências e medicina baseada em regras. Na primeira, tomamos condutas individuais norteados por conceitos científicos. Na segunda, condutas específicas são testadas por trabalhos e copiadas para a prática clínica. Estudos se tornam “recomendações”, quando na verdade estudos devem se tornar princípios norteadores. Medicina baseada em regras pode ser também entendida como medicina copiada de artigos. Ao criar um artigo positivo, a conduta testada tende a ser copiada de forma mais efetiva no mundo que vive o paradigma da regra médica. 

Mas se utilizamos o princípio do conceito científico, perceberemos que já temos conhecimento para utilizar ressonância de perfusão quando julgarmos adequado avaliar isquemia antes de realizar uma coronariografia. Para tal, precisamos saber a acurácia da ressonância para pesquisa de isquemia, já validada cientificamente e com resultados superiores aos demais métodos não invasivos. 

O paradigma de testar “utilidade” de um método diagnóstico ou prognóstico (além de testar acurácia) traz o advento de ensaios clínicos randomizados para diferentes estratégias de investigação, que é uma evolução. No entanto, percebo que este advento vem sendo sequestrado para outros fins (vide exemplos prévios). 

Conflito de interesse é algo intrínseco da mente humana, sendo esperado que especialistas superestimem o valor das suas ferramentas, o que Kahneman chamou de viés da habilidade. Os autores deste trabalho como especialistas em ressonância magnética são naturalmente enviesados em prol da ressonância. Nossos vieses implícitos (implicit bias) nos levam a sequestrar o método científico para demonstrar o que desejamos. Isso não é algo particular da área cardiológica, é universal. Nem sempre representa uma ato de plena consciência. Sem querer parecer inocente, penso que muitos entram nessa tendência sem perceber que o entusiasmo é inimigo da integridade científica. 

A publicação pelo New England Journal of Medicine de tamanha profecia autorrealizável é uma demonstração do poder do lobby médico. O artigo se aproxima mais de um marketing pseudo-científico do uso de um método de grande valor (vide acurácia da ressonância), que se torna banalizado por uma política de imbecilização do leitor

No cerne das profecias e distorções científicas, está a perda de percepção de que o método científico, em sua pureza original, foi criado para refutar ideias, que viriam a ser consideradas verdadeiras se sobrevivessem a este processo. No entanto, o método um dia criado por Ronald Fisher e aprimorado por tantos filósofos da ciência tem sido sequestrado para comprovar ideias falsas ou obviamente verdadeiras. 

Talvez parte do tempo que gastamos discutindo recomendações médicas como receitas deva ser investido na filosofia da ciência.

--------------------------------------------------------------------------------------------------------------------------



Conheça nosso novo Curso Online de MBE, clicando aqui.

quarta-feira, 19 de junho de 2019

A visão anti-científica de Neymar




* Artigo publicado originalmente no Jornal A Tarde


No afã da defesa, o astro Neymar publicou a troca de mensagens com a pessoa que o acusa. Embora inadequado do ponto de vista da lei, aqui me refiro a sua inadequação “científica”: o fato da pessoa ter concordado com o encontro em Paris não representa uma evidência contraditória à alegação do ocorrido dentro do quarto.

Mas a maior inadequação científica de Neymar é seu objetivo de “provar inocência”, pois isto é logicamente impossível, embora seja expressão recorrente entre políticos e advogados. O ônus da prova está na existência de um fenômeno. 

Se Neymar tivesse inteligência científica, a postura correta seria esperar que a sua “ex-parceira” apresentasse a evidência de sua culpa, que deveria passar pelo crivo da análise de veracidade, ao invés de assumir a responsabilidade de provar sua inocência com pseudo-evidências. 

A favor de Neymar, ele é apenas um exemplo do analfabetismo científico de toda a sociedade. Esse analfabetismo fica patente quando a maioria das pessoas se dá o direito de emitir um veredito contra ou a favor, sem base em evidências confirmatórias. Precisamos valorizar a incerteza.

Andei perguntando a amigos o que pensam sobre esse assunto, e todos se posicionaram de forma convicta. Como podemos ter tanta gente convicta na ausência de evidências? Por trás disso está a carência de ceticismo: a predisposição humana em primeiro acreditar, depois procurar evidências a favor de sua crença.

Experimentos psicológicos mostram que quando evidência heterogêneas (contra e a favor) são apresentadas a indivíduos, em vez de ficarem incertos, estes se tornam mais polarizados em suas opiniões, pois sofrem do viés de confirmação: eliminam evidências de encontro e utilizam evidências ao encontro de suas crenças, independente da qualidade das informações. 

Aí está a inteligência do “jogador” Neymar. Ele sabe que pseudo-evidências são suficientes para simpatizantes utilizarem em suas argumentações.

Este fenômeno não ocorre apenas com jogadores de futebol. Dou-me apenas o direito de usar como exemplo a minha própria profissão, embora isso seja comum a todas. Médicos também caem na armadilha cognitiva da crença quando utilizam de evidências de baixo valor em prol de suas convicções clínicas e terapêuticas. Há evidências para todo tipo de convicção.

Não sei se Neymar é culpado do ponto de vista criminal, talvez nem seja. Mas sugiro que o “garoto” seja inocentado do ponto de vista científico, pois seus equívocos são os típicos da mente humana. Precisamos de alfabetização científica no julgamento das questões. 


---------------------------------------------------------------------------------



Conheça nosso novo Curso Online de MBE, clicando aqui.

terça-feira, 11 de junho de 2019

Disparidade de gênero não é um problema científico



Em série especial de artigos publicados em 30 de maio, o Lancet traz extensa discussão sobre disparidade de gênero, abordando o impacto dessa desigualdade social na saúde de indivíduos, no funcionamento do sistema de saúde e no ecossistema científico. De acordo com o UN Educational, Scientific and Cultural Organization’s Women in Science menos de 30% dos cientistas do mundo são mulheres, as quais publicam menos artigos e possuem menos colaborações internacionais do que homens.

Recente artigo original publicado no Journal of American College of Cardiology demonstrou que mulheres correspondem a 36% dos indivíduos de amostras em ensaios clínicos, uma subrepresentação em se considerando que no mundo há igual número de homens e mulheres. 

Se por um lado, disparidade de gênero na população (descrita no Lancet) tem importância social, por outro lado, disparidade em amostras científicas (descrita no JACCnão impacta negativamente a confiabilidade de um teste de conceito biológico.

Disparidade não é um problema científico no que diz respeito a conceitos biológico. 

A percepção da forma equivocada com que especialistas interpretam disparidades em amostras, questionando erroneamente a validade externa de conceitos científicos me provocou a escrever este texto, a fim de reforçar um conceito já abordado previamente nesse Blog: o princípio da raridade da interação. 

Precisamos distinguir quando representatividade de subgrupos em amostras é necessária para a confiabilidade do resultado da pesquisa e quando isto não é um problema. 

Representatividade é importante para estudos descritivos, que retratam o mundo real, o qual é influenciado também por circunstâncias sociais. Por exemplo, a prevalência de doenças, letalidade ou efetividade de condutas (funcionamento do mundo real) pode variar com a realidade local. 

Por outro lado, representatividade não é necessária para testar a “existência” de conceitos científicos (leis da natureza), pois um conceito demonstrado em um subgrupo se reproduzirá em outro subgrupo. É o caso de ensaios clínicos randomizados que testam o conceito de eficácia (propriedade intrínseca). Se a conduta for eficaz, isso será verdade em homens e mulheres, brancos e negros, jovens e idosos, latinos e caucasianos. 

Parece surpreendente essa minha afirmação, até mesmo politicamente incorreta. Se a sensação de surpresa ocorreu, precisamos relembrar um princípio científico universal.


O Princípio da Raridade do Fenômeno de Interação


Antes de falar das evidências a respeito desse princípio, peço que pensem sobre qualquer conduta médica estabelecida. Por exemplo, vacinas, antibióticos, anti-hipertensivos, cirurgias para qualquer coisa, marca-passo, diálise, anticogulantes em diversas situações, tratamento de reperfusão no infarto …  Exceto questões diretamente relacionadas ao sexo biológico (contraceptivos, tratamentos de puberdade, terapia de reposição hormonal, tratamentos na gravidez ou coisas assim), não há coisa alguma que seja indicada para um sexo e não indicada para outro sexo. Se alguém encontrar, me mande pelos comentários do Blog para eu colocar em minha lista de exceções que até agora não tem nenhum item.

Denomino este princípio de “raridade da interação”. Interação deve ser entendida como "modificação de efeito”. Por exemplo, testar interação entre sexo e uso de droga X na prevenção cardiovascular significa testar “modificação de efeito” da droga X de acordo com sexo do paciente: benefício em homem, não benefício em mulher, ou vice-versa. Ou magnitude diferente de benefício. Interação é testada estatisticamente na análise de subgrupo. Se o valor de P da interação for estatisticamente significante, há interação. 

Um equívoco comum ocorre quando um estudo é positivo no tipo de paciente A e negativo no tipo de paciente B. Nestes caso, muitos acham que o conceito é verdadeiro no paciente A e falso no paciente B. Porém, estas diferenças usualmente decorrem de heterogeneidade dos estudos quanto a risco de viés ou acaso. Na verdade, para afirmar que uma coisa acontece no tipo de paciente A e não acontece no tipo de paciente B, ambos os tipos devem estar presentes no mesmo estudo para que se teste interação. É inadequado concluir por diferenças entre populações não comparadas no mesmo estudo.

Diferentes do que muitos clamam, se estudos de amostras diferentes mostram resultados diferentes, a causa da diferença não está na população estudada. Quase invariavelmente a heterogeneidade decorrerá de diferença na metodologia da pesquisa. Conceitos demonstrados por trabalhos de alta qualidade tendem a ser reprodutíveis em diferentes tipos de pessoas. 

Agora vamos às evidências que suportam o princípio da raridade da interação. O gráfico abaixo, tirado do trabalho de disparidade de gênero publicado no JACC, compara o hazard ratio de diferentes tratamentos entre os dois sexos. Observem que em todos os casos, a medida pontual do hazard ratio está do mesmo lado da linha da nulidade. Observem que na maioria dos casos o hazard ratio dos dois grupos está quase na mesma posição. Interessante notar que quando eles diferem um pouco mais para esquerda ou direita, é porque pelo menos um dos grupos tem um N pequeno e um intervalo de confiança menos preciso. Isso reforça duas afirmações que fiz neste postagem: interação é um fenômeno raro e eventuais diferenças resultam mais da falta de confiabilidade dos trabalhos. Lembro que em análise de subgrupo não importa se o intervalo de confiança cruzou a linha da nulidade. O que importa não é significância dentro de um grupo, mas sim a significância da análise de interação. 



A evidência sobre ausência de interação está em qualquer ensaio clínico randomizado de qualidade. Sugiro que escolham aleatoriamente um grande ensaio clínico randomizado que foi positivo. Vejam o forrest plot. Percebam que as medidas de associação em diferentes subgrupos estarão todas no mesmo lado do efeito. Um bom estudo positivo tem resultado consistente em diferentes subgrupos. Vejam também do lado direito do forrest plot o valor de P da interação para cada análise de subgrupo. Percebam que este valor de P quase nunca é significativo. Se algum for significativo, ainda tem a possibilidade do acaso pelo problema da multiplicidade de testes. Nenhum passa pela correção de Bonferroni (P x número de subgrupos).




O que está por trás da raridade da interação? Neste momento, entramos em uma discussão típica de filosofia da ciência. A explicação está no entendimento de que a natureza tem regras de funcionamento. E estas regras são universais. Por que chove? Em qualquer cidade do mundo, em qualquer país, os mecanismos são os mesmos. A explicação mecanicista é a mesma. Uma lei da natureza é universal. 

Embora eu esteja sendo bastante assertivo, devo reconhecer que o processo de generalização de um conceito tem exceções. A física de newton é generalizável, funciona em qualquer local do planeta. No entanto, no nível de partículas subatômicas, prevalece a física quântica. Portanto, havendo uma grande razão para o conceito não se reproduzir, devemos manter o ceticismo. Do contrário, o conceito é generalizável.

Certeza Conceitual versus Incerteza Individual


Não devemos confundir lei da natureza com certeza individual. Uso o exemplo da chuva para lembrar que a universalidade do conceito científico não é o mesmo que previsibilidade. Sabemos o mecanismo das chuvas, mas não podemos prever com perfeita acurácia se vai chover. 

Aplicando isso ao conceito de interação biológica, não existe interação entre sexos, porém isso não quer dizer que garantimos o resultado de uma conduta em mulheres. Mas também não garantimos nos homens, a incerteza é igual. 

O conceito é garantido, mas a probabilidade de um desfecho varia individualmente. O conceito de interação avalia se a variabilidade entre os sexos vai além da variabilidade individual. Não havendo interação, a dúvida se o tratamento funcionará em uma mulher é a mesma dúvida que funcionará em um homem. 

Portanto, quando asseguro que o tratamento funcionará em mulheres assim como em homens  (baixa incerteza conceitual) não quero dizer que funcionará igual em todas as mulheres (incerteza individual). A incerteza individual permanece.

Imprevisibilidade dos Conceitos


Não devemos pensar que conceitos científicos (leis da natureza) são previsíveis. Pelo contrário, um conceito científico (tal droga tem tal efeito?) é imprevisível antes de ser empiricamente demonstrado. Mas depois de demonstrado por estudos de boa qualidade, este conceito se estenderá a diferentes tipos de pacientes. 

Denomino isso de “princípio da rigidez” versus “princípio da complacência”. No primeiro, devemos ser rígidos e céticos, e só afirmar quando houver verdadeira comprovação científica do conceito. Uma vez comprovado, usaremos o “princípio da complacência”, aplicando o conceito a diferentes tipos de pessoas desde que não haja forte razão biológica contrária. Boa parte das boas condutas médicas são embasadas em evidências indiretas utilizando o racional do “princípio da complacência”.

Utilidade desta Discussão


Qual a utilidade em entender o “princípio da complacência” baseado na “raridade da interação”?

Primeiro, perseguir ótima representatividade da amostra (proporção de subgrupos da amostra = proporção na população) paradoxalmente pode eduzir a validade interna do estudo de prova de conceito. Por exemplo, ensaios clínicos usualmente selecionam indivíduos de alto risco para desfechos. Essa proporção de alto risco é diferente do que ocorre no mundo real, mas é importante para aumentar o número de desfechos, aumentar o poder estatístico, reduzindo o risco de erros aleatórios. Se colocamos uma proporção de subgrupos de risco semelhante à população, teremos menos desfechos e menos precisão. Isso é só um dos exemplos pelos quais representatividade por não ser uma boa ideia em estudos que testam hipóteses. 

Conceitos devem ser testados em um ambiente artificial a fim de reduzir vies e acaso. O mundo real não é um bom ambiente para se testar conceitos. 

Segundo, o conhecimento do que discutimos previne a caricatura da medicina baseada em evidências, quando se exige que evidências existam para cada tipo de pessoa. Isto não é necessário, pois conceitos científicos são generalizáveis.  

Terceiro, previne que acreditemos simultaneamente em estudos contraditórios. Muitas vezes se dá crédito a um estudo ruim positivo, apesar de um bom estudo ter nisso negativo, com base no argumento de que as amostras tinham características diferentes, como se isso permitisse acreditar nos dois estudos simultaneamente. Como se isso interferisse nos resultados … não interfere.

Em conclusão, desigualdades populacionais têm implicações sociais. Por outro lado, disparidades em amostras não comprometem validade científica na prova de conceitos. Ciência é apolítica, politicamente incorreta. Não devemos confundir política com ciência.

---------------------------------------------------------------------------------


Conheça nosso novo Curso Online de MBE, clicando aqui.

quarta-feira, 1 de maio de 2019

Devemos prescrever ômega-3 para prevenção cardiovascular?



Em novembro do ano passado foi apresentado no congresso do American Heart Association e publicado no New England Journal of Medicine um trabalho cujo resultado me surpreendeu. A terapia com ácido graxo omega-3, diferente de inúmeros ensaios clínicos prévios, mostrou uma substancial redução relativa de 25% na incidência de eventos cardiovasculares em pacientes com alto risco e hipertrigliceridemia leve.

Meses se passaram enquanto observei a reação da comunidade médica e científica. Percebi um certo atordoamento com um resultado que já não se esperava mais. Não houve grande comemoração como é habitual. Enquanto isso, aqueles de mente científica procuravam encontrar críticas ao trabalho, em um ato desesperado para desfazer a dissonância cognitiva gerada por esta evidência.

Como já propus neste Blog, antes de analisar qualquer evidência externa, precisamos avaliar nossas crenças internas. O caso em questão chama a atenção para esta necessidade. De acordo com minha posição interna, Omega-3 não passa de uma panaceia fantasiosa típica dos suplementos que simulam bons hábitos alimentares, neste caso uma simulação da ingesta de peixe. Precisei colocar de lado minhas crenças para avaliar corretamente o valor preditivo positivo deste trabalho, pois minha tendência era procurar qualquer viés que justificasse o resultado inesperado. 

Alguns especialistas argumentaram que o uso de óleo mineral no grupo placebo atuaria como um viés de invalidaria o resultado do trabalho, pois elevou o LDL-colesterol deste grupo. De acordo com esse raciocínio não teria havido redução de risco com o ômega-3, mas sim um aumento do risco no grupo controle. No entanto, isso é pouco provável pois o LDL-colesterol aumentou em média 5 mg/dl no grupo placebo em comparação ao grupo intervenção. Isso não poderia justificar uma redução relativa do risco de 25%, que seria um tamanho de efeito semelhante ao oferecido pela terapia com estatina. O trabalho não deve ser criticado pelo uso do óleo mineral no placebo.

A análise do valor preditivo do trabalho deve levar em conta a probabilidade pré-teste da hipótese ser verdadeira e a qualidade do trabalho. E essas duas análises devem ser feitas de forma independente. Ou seja, nossa impressão de baixa probabilidade da hipótese ser verdadeira não deve influenciar a análise da qualidade do trabalho; assim como o resultado do trabalho não deve influenciar nossa opinião em relação à plausibilidade da hipótese. 

Fazendo uma análise independente do que pensamos a respeito da probabilidade pré-teste, percebi que o REDUCE-IT é um trabalho surpreendentemente bem feito. Grande estudo, bem dimensionado para testar a hipótese, conclusão baseada no desfecho primário, randomizado, cego, análise por intenção de tratar. Chequei também o protocolo publicado a priori no clinicaltrials.gov e não houve mudanças de protocolo. Enfim, é um estudo de baixo risco de viés e baixo risco de acaso.

Visto isso, voltemos atrás e analisemos a probabilidade pré-teste da hipótese testada. Para tal, temos que evitar o fenômeno de hindsight: “percepção da natureza de um evento depois dele ter ocorrido”. Depois que um evento acontece a mente humana tende a interpretá-lo como provável. Por exemplo, acontece um acidente e a pessoa diz: eu sabia que isso ia ocorrer. É uma falácia narrativa, pois o acontecimento do fato influencia nossa percepção retrospectiva da probabilidade prévia. No caso em questão, já sabendo que o estudo é positivo, temos uma tendência de superestimar a probabilidade pré-teste. Portanto devemos analisar a plausibilidade da hipótese como se não soubéssemos do estudo REDUCE-IT. 

E essa é uma boa oportunidade para exemplificarmos a análise da probabilidade pré-teste.


Probabilidade Pré-teste da Hipótese


Esta deve ser constituída de 4 perguntas:

  1. A hipótese existia antes do estudo? (ou a hipótese foi criada retroativamente depois que o estudo deu um resultado que não era hipótese a priori?).
  1. Do ponto de vista do campo científico, este é um resultado usual ou inusitado demais? (usualmente tratamentos deste tipo apresentam este tamanho de efeito ou isso é bom demais para ser verdade?).
  1. Há mecanismos convincentes de plausibilidade da hipótese? (usei o adjetivo “convincente", pois mecanismos teóricos existem para tudo, portanto precisa ser um mecanismo provável de fazer diferença no desfecho final).
  1. Há estudos prévios de qualidade aceitável para sugerir que a hipótese seja verdadeira? (digo “qualidade aceitável” pois há estudos de má qualidade dando suporte a qualquer fantasia. Sempre “há estudos”, portanto para que a literatura prévia aumente a probabilidade da hipótese ser verdadeira, devem ser trabalhos pelo menos razoáveis).

Vamos analisar cada um desses pontos reconhecendo que isto guarda certa subjetividade. Portanto, é a impressão conjunta das quatro perguntas que nos permitirá concluir se, antes de saber o resultado do estudo, estamos diante de uma hipótese de probabilidade pequena ou moderada. A ideia é que uma hipótese de probabilidade moderada seja elevada para alta probabilidade por um bom estudo (ideia confirmada) ou uma hipótese de baixa probabilidade seja elevada para moderada probabilidade por um bom estudo (ideia promissora). Esta última situação é aquela em que dois bons estudos são necessários para confirmar a hipótese.

Quanto à primeira pergunta, sim, a hipótese existia antes do estudo ser realizado. O teste desta hipótese era o objetivo primário do ensaio clínico REDUCE-IT. Aqui não se trata de múltiplas análises sendo realizadas para que alguma dê positiva por acaso, fazendo parecer que aquilo era uma hipótese provável (hindsight).

A segunda pergunta não aborda a especificidade do ômega-3, mas o tipo de intervenção que isso consiste. O tratamento com ômega-3 faz parte de que tipo de estratégia? Primeiro, este não é um tratamento que surge com intuito de combater um fator causal específico, como acontece com tratamentos anti-hipertensivos, redutores de colesterol, anticoagulantes, antibióticos, vacinas. Vale salientar aqui que triglicérides não é um fator de risco comprovado para doença aterosclerótica. Nem foi esse o motivo original da ideia de usar ômega-3. 

Na verdade, essa ideia surge da percepção epidemiológica (provável efeito de confusão) de que dieta rica em peixes de águas profundas são associadas a menor risco cardiovascular (como a dieta do mediterrâneo) e isto estaria associado aos ácidos graxos do tipo ômega-3 que existem nas algas que estes peixes comem. Estamos diante de uma espécie de suplemento alimentar, que simula (elevado a algumas potências) a dieta rica em peixe. Essa é a ideia original da hipótese, algo que substitui um hábito de vida relacionado a alimentação. Neste sentido, 25% de redução relativa do risco parece um resultado “bom demais para ser verdade”. Segundo avaliação meta-científica de Ioannidis, detalhes dietéticos, quando funcionam, possuem mínimo tamanho de efeito (redução relativa do risco menor que 5%).

Terceiro, vamos analisar a plausibilidade específica do ômega-3.  O argumento mais usado é a propriedade redutora de triglicérides. No entanto, triglicérides não é um fator de risco validado por evidências de reversão, visto que falharam as tentativas (com drogas mais potentes) de demonstrar que redução de triglicérides reduz risco cardiovascular. No caso do REDUCE-IT, em uma amostra com triglicérides basal de 216 mg/dl, houve redução absoluta de 40 mg/dl. Será que este grau de redução justificaria uma redução relativa do risco de mesmo tamanho de efeito das estatinas, drogas anti-hipertensivas ou beta-bloqueador na ICC? Provavelmente, não.

Mas aqui entra uma novidade: diferente dos inúmeros estudos negativos, o REDUCE-IT testou uma forma especial de ômega-3 purificado, vendida nas farmácias americanas sob prescrição médica, pelo valor de 245 dólares com desconto (2 meses de tratamento), comercialmente conhecido como VASCEPA. 

O que justifica a produção desta forma purificada, muito mais cara do que o ômega-3 comum? Os suplementos de ômega-3 contém dois tipos de ácidos graxos, o eicosapentaenoico (EPA) e docosahexaenoico acid (DHA). Já o VASCEPA contém predominantemente o EPA, em uma concentração quase 10 vezes maior do que nos demais estudos. Teoricamente o EPA seria melhor do que o DHA, pois o primeiro não aumenta o LDL-colesterol, enquanto o segundo aumenta. Mas isso poderia justificaria uma redução relativa de risco de 25% não observada nos demais estudos? Quanto o EPA aumenta o LDL-colesterol? Em comparação direta com EPA, o DHA aumenta o LDL-colesterol em 3.3% (Medscape). Ou seja, não há plausibilidade de que esta diferença laboratorial faça diferença clínica.
Quarta pergunta, há um estudo japonês que sugere benefício da formulação purificada, mas não é um estudo cego. Portanto, devido ao alto risco de viés não podemos afirmar que evidências prévias aumentam a probabilidade da hipótese clínica. 

Sendo assim, dos quatro critérios de plausibilidade, apenas o primeiro deles é preenchido (hipótese a priori). No entanto, (2) como suplemento alimentar o resultado é bom demais para ser verdade, (3) não há um mecanismo que o justifique e (4) não havia evidências prévias de qualidade neste sentido. Portanto, a probabilidade pré-teste da hipótese ser verdadeira antes de sabermos do REDUCE-IT era baixa.

O REDUCE-IT, por ser um estudo de boa qualidade,  eleva o status de probabilidade da hipótese. Porém, dentro do raciocínio de probabilidade condicional, partindo de baixa probabilidade, ficamos com um moderado valor preditivo positivo do estudo. Estamos agora com uma hipótese promissora, que necessita do paradigma da reprodutibilidade para se tornar uma hipótese comprovada. 

Precisamos de mais um bom estudo reproduzindo estes achados. Este estudo não precisa ser idêntico ao primeiro, pode haver variações de população alvo ou aplicabilidade do tratamento. Sendo o segundo estudo positivo, a probabilidade pré-teste que agora está em moderada, será elevada a alta. E assim adotaremos a conduta preventiva. 

Aqui estamos diante da situação em que um estudo de boa qualidade requer um segundo confirmatório: quando a probabilidade pré-teste é muito baixa. 

Por que esperar?


É natural termos o desejo de implementar os resultados do REDUCE-IT de forma imediata e suspeito que assim será feito pelos guidelines. Esse desejo é mediado pela mentalidade do médico ativo, que traz uma sensação de omissão em não prescrever um VASCEPA no nosso próximo paciente de alto risco para eventos cardiovasculares. O que, portanto, justificaria permanecermos com o princípio da hipótese nula até que os dados do REDUCE-IT sejam reproduzidos?

Esse incômodo vem em grande parte da nossa percepção intuitiva de que os tratamentos comprovados oferecem um benefício determinístico.  Denomino isto de “viés cognitivo do NNT = 1”.  É assim que nos sentimos quando prescrevemos uma terapia benéfica a um paciente. Enquanto a sensação é de que estamos promovendo um benefício, na realidade estamos oferecendo uma pequena probabilidade de benefício, representada pela redução absoluta do risco. É a minoria que de fato receberá o benefício de uma prescrição adequada, no caso do REDUCE-IT apenas 5% dos pacientes. Ou apenas um paciente dentre 20 prescrições (NNT = 20). Se incluirmos a incerteza de um valor preditivo positivo moderado da hipótese ser verdadeira, estaríamos em um território ainda mais incerto. 

Mas o problema não é apenas a incerteza. Existem as consequências não intencionais: custo monetário, seja individual ou a um sistema de saúde (O SUS deve pagar VASCEPA?), efeitos adversos. Por exemplo, 33% dos pacientes exibiram efeitos gastro-intestinais relacionados à administração do óleo, tal como o grupo placebo que também recebeu uma quantidade pouco usual de óleo mineral. As consequências não intencionais são múltiplas, imprevisíveis, comparadas a uma única consequência benéfica, duvidosa conceitualmente e que se verdadeira ocorrerá em apenas 5% dos pacientes. Assim, fica questionável se a probabilidade de benefício supera o "custo".  Tudo isso justifica o "conservadorismo" na adoção de condutas médicas. 

Por fim, existe uma consequência não intencional relacionado ao ecossistema científico: a cultura do medical reversal. Medical reversal é definido como uma conduta médica tradicionalmente utilizada que acaba sendo provada como não benéfica a posteriori. Vinay Prasad publicou em 2013 uma revisão dos trabalhos originais durante 10 anos consecutivos no NEJM. Dos trabalhos que testaram condutas médicas já praticadas, 40% mostraram resultados negativos e 22% resultados inconclusivos, sendo confirmadas a eficácia das condutas em apenas 38% dos casos. Ou seja, uma taxa de medical reversal de pelo menos 40%. Isso indiretamente sugere que boa parte do que fazemos será demonstrado como ineficaz. Essa é a cultura do medical reversal. 

Medical reversal é prejudicial para os pacientes que receberam condutas inadequadas, para o sistema de saúde de desperdiçou recursos, mas principalmente para o ambiente científico que vive aceitando conceitos, alguns tão enraizados que se sustentam como conduta mesmo depois do surgimento de trabalhos negativos de boa qualidade. 

Considerando portanto o potencial benefício da aplicação de uma conduta de valor preditivo positivo moderado versus as consequências não intencionais individuais, coletivas e culturais, devemos elevar nosso limite de tolerância para aceitação de condutas médicas.

O REDUCE-IT deve ser valorizado como uma evidência de qualidade. Neste contexto, a leitura de uma evidência deve ser mais ampla do que o critical appraisal do artigo, levando em conta a qualidade da ideia dentro de um processo bayesiano de pensamento. Por fim, um processo de decisão baseado em evidências deve considerar o paradigma probabilístico dentro do pensamento econômico da probabilidade de benefício versus consequências não intencionais do medical reversal. 

O REDUCE-IT representa a ressureição da hipótese o ômega-3, que evolui de falsa para possível. Mas ainda precisamos da replicação deste resultado para considerar o ômega-3 uma verdade confirmada. 

---------------------------------------------------------------------------------


Conheça nosso novo Curso Online de MBE, clicando aqui.