Medicina Baseada em Evidências: junho 2019

domingo, 23 de junho de 2019

MR-INFORM Trial: uma profecia autorrealizável

Há estudos enigmáticos, cujo significado não está explícito e custamos a compreender o sentido à primeira vista. Na leitura de um artigo científico, além de nosso conhecimento metodológico, devemos fazer uso de nossas sensações. E quando a sensação inicial for confusão mental, devemos redobrar a atenção: este estudo faz sentido?

Neste momento, temos o papel de discriminar estudos com sentido implícito (não evidente à primeira vista) de estudos desprovidos de sentido científico. Vale lembrar a lendária frase de Douglas Altman em 1994, “precisamos de menos estudos, estudos melhores e feitos pelas razões certas” que ganha relevância neste contexto. Assim como o ensaio “Why most clinical research is not useful” em que Ioannidis estima que a maioria dos recursos são desperdiçados em estudos inadequados ou sem sentido.

Tenho mais facilidade de pescar exemplos em minha área de interesse clínico, mas a validade didática deste texto é genérica. Comentaremos nesta postagem um dos mecanismo por trás de estudos inúteis: a profecia autorrealizável. Rotulo um estudo de profecia quando seu resultado é a concretização do óbvio.

O mecanismo da criação de profecias está na escolha do desfecho. Temos dois tipos de profecias, aquela que pretende mostrar diferença (superioridade) ou aquela que almeja quase semelhança (não-inferioridade). Para dissimular superioridade, precisamos escolher um desfecho que seja induzido no grupo controle pelo caráter aberto do estudo: desfechos susceptíveis a interpretação ou criados pelo médico (como indicação de procedimento no grupo controle que não realizou o procedimento) - vide post antigo. Para dissimular semelhança, é só escolher um desfecho que não seja influenciado pela intervenção. Claro que sua incidência será igual nos dois grupos. É o caso que discutiremos.

É como se comparássemos angioplastia coronária versus tratamento clínico quanto ao desfecho artrose de joelho. Claro que tratamento clínico seria não-inferior (igual) a angioplastia para dor no joelho.

Vejamos o exemplo de estudo MR-INFORM, publicado nesta semana na revista médica de maior impacto: New England Journal of Medicine. Este é um estudo de não-inferioridade, que pretende demonstrar em pacientes com angina estável que uma estratégia de realizar coronariografia (seguida de angioplastia) apenas se houver isquemia importante na ressonância magnética é não-inferior à estratégia invasiva de realizar coronariografia em todos os pacientes, seguida de FFR (avaliação hemodinâmica da lesão), que se positivo induziria angioplastia. Na primeira estratégia, o gatekeeper (filtro) da angioplastia está antes do cateterismo, portanto muitos pacientes não precisariam chegar ao exame invasivo. Na segunda estratégia, o gatekeeper está depois do cateterismo, portanto todos recebem esse exame. Essa seria uma vantagem da estratégia da ressonância, pois a torna menos invasiva, justificando o desenho de não-inferioridade: aceitar um certo grau de inferioridade como se fosse algo semelhante, pois existe uma vantagem prática que compensa.

Agora vamos ao mecanismo da profecia neste estudo.

Percebam que são duas estratégias que culminam em angioplastia. A potencial diferença de resultado clínico entre as duas reside na possível diferença de angioplastia. Portanto, para garantir o resultado igual entre os grupos, precisamos escolher desfechos que não sejam influenciados pela angioplastia no cenário estável. Como todos sabem, de forma reprodutível em diferentes estudos, morte e infarto não são prevenidos por angioplastia. Estes desfechos são insensíveis à intervenção.

Outro mecanismo pelo qual desfechos deste tipo poderiam ser influenciados pela estratégia mais invasiva, seria o conhecimento de uma lesão obstrutiva na coronariografia influenciar um melhor tratamento clínico. No entanto, esses benefícios indiretos são muito pouco prováveis de resultar em diferenças clínicas. O racional desta afirmação está nos tipicamente modestos tamanhos de efeito dos tratamentos farmacológicos em doenças crônicas (redução relativa do risco em torno de 25%) vistos em desenhos que promovem quase um contraste total entre os grupos de tratamento: a randomização para tratar ou não tratar. Quando randomizamos para outras coisas que indiretamente podem ou não influenciar em um pouco mais de tratamento em algum grupo, qualquer resultado em desfecho clínico ficaria quase imperceptível. Esse foi o racional que usamos em postagem prévia quando interpretarmos o SCOT-HEART como "bom demais para ser verdade" (vide postagem prévia).

Portanto, antes do estudo realizado, já poderíamos saber que a estratégia candidata a não-inferior não causaria mais morte ou infarto.

Para garantir ainda mais a profecia, o desfecho primário composto do estudo teve um terceiro componente: necessidade de repetir revascularização no vaso primariamente revascularizado (target vessel revascularization). A dúvida da não-inferioridade reside no caráter mais conversador do braço ressonância, que poderia gerar menos angioplastia. Ora, se esse grupo tiver menos vaso angioplastado, obviamente terá menos vaso reangioplastado, pois para ser reangioplastado o vaso precisa primeiro ser angioplastado primeiro. A redundância da minha sentença é proposital, pois é da redundância que surge a profecia. Colocado de outra forma, se o grupo invasivo tem mais vaso angioplastado, terá mais vaso reangioplastado, e esse maior número de desfechos falaria contra o grupo coronariografia e a favor do grupo candidato a não-inferioridade.

De fato, no resultado do estudo, o número de revascularizações do vaso-alvo no grupo do FFR foi maior do que o dobro do grupo ressonância, o que não ocorreu com morte e infarto. No final, a incidência do desfecho composto foi semelhante entre os dois grupos (3.6% versus 3.7%).

Qual seria o desfecho adequado?

Tenho dúvida sobre a utilidade deste estudo, mesmo que não fosse uma profecia auto-realizável. Mas se tivesse que fazer este estudo, usaria como desfecho primário controle da angina. Ou seja, se um braço do estudo tem a tendência de promover menos angioplastia, este poderia ser inferior no controle da angina, pois angioplastia controla angina (seja por efeito direto, seja por efeito placebo - vide estudo ORBITA). Angina é um desfecho sensível a um procedimento, que poderia vir a ser menos frequente no braço ressonância.

De fato, este grupo teve 47 angioplastias a menos, 9% em termos absolutos. Observem que não é uma diferença muito grande e ambos os grupos tiveram o mesmo sucesso em controle de angina. Como esse não foi o desfecho primário, não pode ser visto como um dado confirmatório. No entanto, julgo ser uma informação exploratória mais útil do que o óbvio do desfecho primário.

Este trabalho nos traz outras provocações interessantes a serem comentadas, como impacto do pequeno número de desfechos no desenho de não-inferioridade, a inversão da lógica da não-inferioridade (na verdade, o ônus da prova está na superioridade da conduta mais complexa) e a confusão entre avaliação funcional (clínica) e avaliação de isquemia (ressonância) ou hemodinâmica (FFR). Mas deixarei estas questões para outra oportunidade, a fim de manter o foco da discussão na profecia autorealizável.

A Utilidade das Profecias e os Sequestros dos Paradigmas

Demonstrar o óbvio não tem valor científico, mas tem valor prático: ao publicar uma conclusão positiva a favor de uma conduta, esta passará a ser mais utilizada. Isso funciona devido ao sequestro do paradigma da medicina baseada em evidências: criar uma evidência óbvia que “sugestione” (tradução do termo nudge, usado em ciência do comportamento) mudança de comportamento.

Isso funciona devido à infeliz confusão entre medicina baseada em evidências e medicina baseada em regras. Na primeira, tomamos condutas individuais norteados por conceitos científicos. Na segunda, condutas específicas são testadas por trabalhos e copiadas para a prática clínica. Estudos se tornam “recomendações”, quando na verdade estudos devem se tornar princípios norteadores. Medicina baseada em regras pode ser também entendida como medicina copiada de artigos. Ao criar um artigo positivo, a conduta testada tende a ser copiada de forma mais efetiva no mundo que vive o paradigma da regra médica.

Mas se utilizamos o princípio do conceito científico, perceberemos que já temos conhecimento para utilizar ressonância de perfusão quando julgarmos adequado avaliar isquemia antes de realizar uma coronariografia. Para tal, precisamos saber a acurácia da ressonância para pesquisa de isquemia, já validada cientificamente e com resultados superiores aos demais métodos não invasivos.

O paradigma de testar “utilidade” de um método diagnóstico ou prognóstico (além de testar acurácia) traz o advento de ensaios clínicos randomizados para diferentes estratégias de investigação, que é uma evolução. No entanto, percebo que este advento vem sendo sequestrado para outros fins (vide exemplos prévios).

Conflito de interesse é algo intrínseco da mente humana, sendo esperado que especialistas superestimem o valor das suas ferramentas, o que Kahneman chamou de viés da habilidade. Os autores deste trabalho como especialistas em ressonância magnética são naturalmente enviesados em prol da ressonância. Nossos vieses implícitos (implicit bias) nos levam a sequestrar o método científico para demonstrar o que desejamos. Isso não é algo particular da área cardiológica, é universal. Nem sempre representa uma ato de plena consciência. Sem querer parecer inocente, penso que muitos entram nessa tendência sem perceber que o entusiasmo é inimigo da integridade científica.

A publicação pelo New England Journal of Medicine de tamanha profecia autorrealizável é uma demonstração do poder do lobby médico. O artigo se aproxima mais de um marketing pseudo-científico do uso de um método de grande valor (vide acurácia da ressonância), que se torna banalizado por uma política de imbecilização do leitor.

No cerne das profecias e distorções científicas, está a perda de percepção de que o método científico, em sua pureza original, foi criado para refutar ideias, que viriam a ser consideradas verdadeiras se sobrevivessem a este processo. No entanto, o método um dia criado por Ronald Fisher e aprimorado por tantos filósofos da ciência tem sido sequestrado para comprovar ideias falsas ou obviamente verdadeiras.

Talvez parte do tempo que gastamos discutindo recomendações médicas como receitas deva ser investido na filosofia da ciência.

--------------------------------------------------------------------------------------------------------------------------

Conheça nosso novo Curso Online de MBE, clicando aqui.

quarta-feira, 19 de junho de 2019

A visão anti-científica de Neymar

* Artigo publicado originalmente no Jornal A Tarde

No afã da defesa, o astro Neymar publicou a troca de mensagens com a pessoa que o acusa. Embora inadequado do ponto de vista da lei, aqui me refiro a sua inadequação “científica”: o fato da pessoa ter concordado com o encontro em Paris não representa uma evidência contraditória à alegação do ocorrido dentro do quarto.

Mas a maior inadequação científica de Neymar é seu objetivo de “provar inocência”, pois isto é logicamente impossível, embora seja expressão recorrente entre políticos e advogados. O ônus da prova está na existência de um fenômeno.

Se Neymar tivesse inteligência científica, a postura correta seria esperar que a sua “ex-parceira” apresentasse a evidência de sua culpa, que deveria passar pelo crivo da análise de veracidade, ao invés de assumir a responsabilidade de provar sua inocência com pseudo-evidências.

A favor de Neymar, ele é apenas um exemplo do analfabetismo científico de toda a sociedade. Esse analfabetismo fica patente quando a maioria das pessoas se dá o direito de emitir um veredito contra ou a favor, sem base em evidências confirmatórias. Precisamos valorizar a incerteza.

Andei perguntando a amigos o que pensam sobre esse assunto, e todos se posicionaram de forma convicta. Como podemos ter tanta gente convicta na ausência de evidências? Por trás disso está a carência de ceticismo: a predisposição humana em primeiro acreditar, depois procurar evidências a favor de sua crença.

Experimentos psicológicos mostram que quando evidência heterogêneas (contra e a favor) são apresentadas a indivíduos, em vez de ficarem incertos, estes se tornam mais polarizados em suas opiniões, pois sofrem do viés de confirmação: eliminam evidências de encontro e utilizam evidências ao encontro de suas crenças, independente da qualidade das informações.

Aí está a inteligência do “jogador” Neymar. Ele sabe que pseudo-evidências são suficientes para simpatizantes utilizarem em suas argumentações.

Este fenômeno não ocorre apenas com jogadores de futebol. Dou-me apenas o direito de usar como exemplo a minha própria profissão, embora isso seja comum a todas. Médicos também caem na armadilha cognitiva da crença quando utilizam de evidências de baixo valor em prol de suas convicções clínicas e terapêuticas. Há evidências para todo tipo de convicção.

Não sei se Neymar é culpado do ponto de vista criminal, talvez nem seja. Mas sugiro que o “garoto” seja inocentado do ponto de vista científico, pois seus equívocos são os típicos da mente humana. Precisamos de alfabetização científica no julgamento das questões.

---------------------------------------------------------------------------------

Conheça nosso novo Curso Online de MBE, clicando aqui.

terça-feira, 11 de junho de 2019

Disparidade de gênero não é um problema científico

Em série especial de artigos publicados em 30 de maio, o Lancet traz extensa discussão sobre disparidade de gênero, abordando o impacto dessa desigualdade social na saúde de indivíduos, no funcionamento do sistema de saúde e no ecossistema científico. De acordo com o UN Educational, Scientific and Cultural Organization’s Women in Science menos de 30% dos cientistas do mundo são mulheres, as quais publicam menos artigos e possuem menos colaborações internacionais do que homens.

Recente artigo original publicado no Journal of American College of Cardiology demonstrou que mulheres correspondem a 36% dos indivíduos de amostras em ensaios clínicos, uma subrepresentação em se considerando que no mundo há igual número de homens e mulheres.

Se por um lado, disparidade de gênero na população (descrita no Lancet) tem importância social, por outro lado, disparidade em amostras científicas (descrita no JACC) não impacta negativamente a confiabilidade de um teste de conceito biológico.

Disparidade não é um problema científico no que diz respeito a conceitos biológico.

A percepção da forma equivocada com que especialistas interpretam disparidades em amostras, questionando erroneamente a validade externa de conceitos científicos me provocou a escrever este texto, a fim de reforçar um conceito já abordado previamente nesse Blog: o princípio da raridade da interação.

Precisamos distinguir quando representatividade de subgrupos em amostras é necessária para a confiabilidade do resultado da pesquisa e quando isto não é um problema.

Representatividade é importante para estudos descritivos, que retratam o mundo real, o qual é influenciado também por circunstâncias sociais. Por exemplo, a prevalência de doenças, letalidade ou efetividade de condutas (funcionamento do mundo real) pode variar com a realidade local.

Por outro lado, representatividade não é necessária para testar a “existência” de conceitos científicos (leis da natureza), pois um conceito demonstrado em um subgrupo se reproduzirá em outro subgrupo. É o caso de ensaios clínicos randomizados que testam o conceito de eficácia (propriedade intrínseca). Se a conduta for eficaz, isso será verdade em homens e mulheres, brancos e negros, jovens e idosos, latinos e caucasianos.

Parece surpreendente essa minha afirmação, até mesmo politicamente incorreta. Se a sensação de surpresa ocorreu, precisamos relembrar um princípio científico universal.

O Princípio da Raridade do Fenômeno de Interação

Antes de falar das evidências a respeito desse princípio, peço que pensem sobre qualquer conduta médica estabelecida. Por exemplo, vacinas, antibióticos, anti-hipertensivos, cirurgias para qualquer coisa, marca-passo, diálise, anticogulantes em diversas situações, tratamento de reperfusão no infarto … Exceto questões diretamente relacionadas ao sexo biológico (contraceptivos, tratamentos de puberdade, terapia de reposição hormonal, tratamentos na gravidez ou coisas assim), não há coisa alguma que seja indicada para um sexo e não indicada para outro sexo. Se alguém encontrar, me mande pelos comentários do Blog para eu colocar em minha lista de exceções que até agora não tem nenhum item.

Denomino este princípio de “raridade da interação”. Interação deve ser entendida como "modificação de efeito”. Por exemplo, testar interação entre sexo e uso de droga X na prevenção cardiovascular significa testar “modificação de efeito” da droga X de acordo com sexo do paciente: benefício em homem, não benefício em mulher, ou vice-versa. Ou magnitude diferente de benefício. Interação é testada estatisticamente na análise de subgrupo. Se o valor de P da interação for estatisticamente significante, há interação.

Um equívoco comum ocorre quando um estudo é positivo no tipo de paciente A e negativo no tipo de paciente B. Nestes caso, muitos acham que o conceito é verdadeiro no paciente A e falso no paciente B. Porém, estas diferenças usualmente decorrem de heterogeneidade dos estudos quanto a risco de viés ou acaso. Na verdade, para afirmar que uma coisa acontece no tipo de paciente A e não acontece no tipo de paciente B, ambos os tipos devem estar presentes no mesmo estudo para que se teste interação. É inadequado concluir por diferenças entre populações não comparadas no mesmo estudo.

Diferentes do que muitos clamam, se estudos de amostras diferentes mostram resultados diferentes, a causa da diferença não está na população estudada. Quase invariavelmente a heterogeneidade decorrerá de diferença na metodologia da pesquisa. Conceitos demonstrados por trabalhos de alta qualidade tendem a ser reprodutíveis em diferentes tipos de pessoas.

Agora vamos às evidências que suportam o princípio da raridade da interação. O gráfico abaixo, tirado do trabalho de disparidade de gênero publicado no JACC, compara o hazard ratio de diferentes tratamentos entre os dois sexos. Observem que em todos os casos, a medida pontual do hazard ratio está do mesmo lado da linha da nulidade. Observem que na maioria dos casos o hazard ratio dos dois grupos está quase na mesma posição. Interessante notar que quando eles diferem um pouco mais para esquerda ou direita, é porque pelo menos um dos grupos tem um N pequeno e um intervalo de confiança menos preciso. Isso reforça duas afirmações que fiz neste postagem: interação é um fenômeno raro e eventuais diferenças resultam mais da falta de confiabilidade dos trabalhos. Lembro que em análise de subgrupo não importa se o intervalo de confiança cruzou a linha da nulidade. O que importa não é significância dentro de um grupo, mas sim a significância da análise de interação.

A evidência sobre ausência de interação está em qualquer ensaio clínico randomizado de qualidade. Sugiro que escolham aleatoriamente um grande ensaio clínico randomizado que foi positivo. Vejam o forrest plot. Percebam que as medidas de associação em diferentes subgrupos estarão todas no mesmo lado do efeito. Um bom estudo positivo tem resultado consistente em diferentes subgrupos. Vejam também do lado direito do forrest plot o valor de P da interação para cada análise de subgrupo. Percebam que este valor de P quase nunca é significativo. Se algum for significativo, ainda tem a possibilidade do acaso pelo problema da multiplicidade de testes. Nenhum passa pela correção de Bonferroni (P x número de subgrupos).

O que está por trás da raridade da interação? Neste momento, entramos em uma discussão típica de filosofia da ciência. A explicação está no entendimento de que a natureza tem regras de funcionamento. E estas regras são universais. Por que chove? Em qualquer cidade do mundo, em qualquer país, os mecanismos são os mesmos. A explicação mecanicista é a mesma. Uma lei da natureza é universal.

Embora eu esteja sendo bastante assertivo, devo reconhecer que o processo de generalização de um conceito tem exceções. A física de newton é generalizável, funciona em qualquer local do planeta. No entanto, no nível de partículas subatômicas, prevalece a física quântica. Portanto, havendo uma grande razão para o conceito não se reproduzir, devemos manter o ceticismo. Do contrário, o conceito é generalizável.

Certeza Conceitual versus Incerteza Individual

Não devemos confundir lei da natureza com certeza individual. Uso o exemplo da chuva para lembrar que a universalidade do conceito científico não é o mesmo que previsibilidade. Sabemos o mecanismo das chuvas, mas não podemos prever com perfeita acurácia se vai chover.

Aplicando isso ao conceito de interação biológica, não existe interação entre sexos, porém isso não quer dizer que garantimos o resultado de uma conduta em mulheres. Mas também não garantimos nos homens, a incerteza é igual.

O conceito é garantido, mas a probabilidade de um desfecho varia individualmente. O conceito de interação avalia se a variabilidade entre os sexos vai além da variabilidade individual. Não havendo interação, a dúvida se o tratamento funcionará em uma mulher é a mesma dúvida que funcionará em um homem.

Portanto, quando asseguro que o tratamento funcionará em mulheres assim como em homens (baixa incerteza conceitual) não quero dizer que funcionará igual em todas as mulheres (incerteza individual). A incerteza individual permanece.

Imprevisibilidade dos Conceitos

Não devemos pensar que conceitos científicos (leis da natureza) são previsíveis. Pelo contrário, um conceito científico (tal droga tem tal efeito?) é imprevisível antes de ser empiricamente demonstrado. Mas depois de demonstrado por estudos de boa qualidade, este conceito se estenderá a diferentes tipos de pacientes.

Denomino isso de “princípio da rigidez” versus “princípio da complacência”. No primeiro, devemos ser rígidos e céticos, e só afirmar quando houver verdadeira comprovação científica do conceito. Uma vez comprovado, usaremos o “princípio da complacência”, aplicando o conceito a diferentes tipos de pessoas desde que não haja forte razão biológica contrária. Boa parte das boas condutas médicas são embasadas em evidências indiretas utilizando o racional do “princípio da complacência”.

Utilidade desta Discussão

Qual a utilidade em entender o “princípio da complacência” baseado na “raridade da interação”?

Primeiro, perseguir ótima representatividade da amostra (proporção de subgrupos da amostra = proporção na população) paradoxalmente pode eduzir a validade interna do estudo de prova de conceito. Por exemplo, ensaios clínicos usualmente selecionam indivíduos de alto risco para desfechos. Essa proporção de alto risco é diferente do que ocorre no mundo real, mas é importante para aumentar o número de desfechos, aumentar o poder estatístico, reduzindo o risco de erros aleatórios. Se colocamos uma proporção de subgrupos de risco semelhante à população, teremos menos desfechos e menos precisão. Isso é só um dos exemplos pelos quais representatividade por não ser uma boa ideia em estudos que testam hipóteses.

Conceitos devem ser testados em um ambiente artificial a fim de reduzir vies e acaso. O mundo real não é um bom ambiente para se testar conceitos.

Segundo, o conhecimento do que discutimos previne a caricatura da medicina baseada em evidências, quando se exige que evidências existam para cada tipo de pessoa. Isto não é necessário, pois conceitos científicos são generalizáveis.

Terceiro, previne que acreditemos simultaneamente em estudos contraditórios. Muitas vezes se dá crédito a um estudo ruim positivo, apesar de um bom estudo ter nisso negativo, com base no argumento de que as amostras tinham características diferentes, como se isso permitisse acreditar nos dois estudos simultaneamente. Como se isso interferisse nos resultados … não interfere.

Em conclusão, desigualdades populacionais têm implicações sociais. Por outro lado, disparidades em amostras não comprometem validade científica na prova de conceitos. Ciência é apolítica, politicamente incorreta. Não devemos confundir política com ciência.

---------------------------------------------------------------------------------

Conheça nosso novo Curso Online de MBE, clicando aqui.

Canais de Luis Correia

domingo, 23 de junho de 2019

MR-INFORM Trial: uma profecia autorrealizável

quarta-feira, 19 de junho de 2019

A visão anti-científica de Neymar

terça-feira, 11 de junho de 2019

Disparidade de gênero não é um problema científico

O Princípio da Raridade do Fenômeno de Interação

Certeza Conceitual versus Incerteza Individual

Imprevisibilidade dos Conceitos

Utilidade desta Discussão