domingo, 23 de junho de 2019

MR-INFORM Trial: uma profecia autorrealizável


Há estudos enigmáticos, cujo significado não está explícito e custamos a compreender o sentido à primeira vista. Na leitura de um artigo científico, além de nosso conhecimento metodológico, devemos fazer uso de nossas sensações. E quando a sensação inicial for confusão mental, devemos redobrar a atenção: este estudo faz sentido? 

Neste momento, temos o papel de discriminar estudos com sentido implícito (não evidente à primeira vista) de estudos desprovidos de sentido científico. Vale lembrar a lendária frase de Douglas Altman em 1994, “precisamos de menos estudos, estudos melhores e feitos pelas razões certas” que ganha relevância neste contexto. Assim como o ensaio “Why most clinical research is not useful” em que Ioannidis estima que a maioria dos recursos são desperdiçados em estudos inadequados ou sem sentido.

Tenho mais facilidade de pescar exemplos em minha área de interesse clínico, mas a validade didática deste texto é genérica. Comentaremos nesta postagem um dos mecanismo por trás de estudos inúteis: a profecia autorrealizável. Rotulo um estudo de profecia quando seu resultado é a concretização do óbvio. 

O mecanismo da criação de profecias está na escolha do desfecho. Temos dois tipos de profecias, aquela que pretende mostrar diferença (superioridade) ou aquela que almeja quase semelhança (não-inferioridade). Para dissimular superioridade, precisamos escolher um desfecho que seja induzido no grupo controle pelo caráter aberto do estudo: desfechos susceptíveis a interpretação ou criados pelo médico (como indicação de procedimento no grupo controle que não realizou o procedimento) - vide post antigo. Para dissimular semelhança, é só escolher um desfecho que não seja influenciado pela intervenção. Claro que sua incidência será igual nos dois grupos. É o caso que discutiremos. 

É como se comparássemos angioplastia coronária versus tratamento clínico quanto ao desfecho artrose de joelho. Claro que tratamento clínico seria não-inferior (igual) a angioplastia para dor no joelho. 

Vejamos o exemplo de estudo MR-INFORM, publicado nesta semana na revista médica de maior impacto: New England Journal of Medicine. Este é um estudo de não-inferioridade, que pretende demonstrar em pacientes com angina estável que uma estratégia de realizar coronariografia (seguida de angioplastia) apenas se houver isquemia importante na ressonância magnética é não-inferior à estratégia invasiva de realizar coronariografia em todos os pacientes, seguida de FFR (avaliação hemodinâmica da lesão), que se positivo induziria angioplastia. Na primeira estratégia, o gatekeeper  (filtro) da angioplastia está antes do cateterismo, portanto muitos pacientes não precisariam chegar ao exame invasivo. Na segunda estratégia, o gatekeeper está depois do cateterismo, portanto todos recebem esse exame. Essa seria uma vantagem da estratégia da ressonância, pois a torna menos invasiva, justificando o desenho de não-inferioridade: aceitar um certo grau de inferioridade como se fosse algo semelhante, pois existe uma vantagem prática que compensa. 

Agora vamos ao mecanismo da profecia neste estudo. 

Percebam que são duas estratégias que culminam em angioplastia. A potencial diferença de resultado clínico entre as duas reside na possível diferença de angioplastia. Portanto, para garantir o resultado igual entre os grupos, precisamos escolher desfechos que não sejam influenciados pela angioplastia no cenário estável. Como todos sabem, de forma reprodutível em diferentes estudos, morte e infarto não são prevenidos por angioplastia. Estes desfechos são insensíveis à intervenção. 

Outro mecanismo pelo qual desfechos deste tipo poderiam ser influenciados pela estratégia mais invasiva, seria o conhecimento de uma lesão obstrutiva na coronariografia influenciar um melhor tratamento clínico. No entanto, esses benefícios indiretos são muito pouco prováveis de resultar em diferenças clínicas. O racional desta afirmação está nos tipicamente modestos tamanhos de efeito dos tratamentos farmacológicos em doenças crônicas (redução relativa do risco em torno de 25%) vistos em desenhos que promovem quase um contraste total entre os grupos de tratamento: a randomização para tratar ou não tratar. Quando randomizamos para outras coisas que indiretamente podem ou não influenciar em um pouco mais de tratamento em algum grupo, qualquer resultado em desfecho clínico ficaria quase imperceptível. Esse foi o racional que usamos em postagem prévia quando interpretarmos o SCOT-HEART como "bom demais para ser verdade" (vide postagem prévia). 

Portanto, antes do estudo realizado, já poderíamos saber que a estratégia candidata a não-inferior não causaria mais morte ou infarto. 

Para garantir ainda mais a profecia, o desfecho primário composto do estudo teve um terceiro componente: necessidade de repetir revascularização no vaso primariamente revascularizado (target vessel revascularization). A dúvida da não-inferioridade reside no caráter mais conversador do braço ressonância, que poderia gerar menos angioplastia. Ora, se esse grupo tiver menos vaso angioplastado, obviamente terá menos vaso reangioplastado, pois para ser reangioplastado o vaso precisa primeiro ser angioplastado primeiro. A redundância da minha sentença é proposital, pois é da redundância que surge a profecia. Colocado de outra forma, se o grupo invasivo tem mais vaso angioplastado, terá mais vaso reangioplastado, e esse maior número de desfechos falaria contra o grupo coronariografia e a favor do grupo candidato a não-inferioridade. 

De fato, no resultado do estudo, o número de revascularizações do vaso-alvo no grupo do FFR foi maior do que o dobro do grupo ressonância, o que não ocorreu com morte e infarto. No final, a incidência do desfecho composto foi semelhante entre os dois grupos (3.6% versus 3.7%). 

Qual seria o desfecho adequado?

Tenho dúvida sobre a utilidade deste estudo, mesmo que não fosse uma profecia auto-realizável. Mas se tivesse que fazer este estudo, usaria como desfecho primário controle da angina. Ou seja, se um braço do estudo tem a tendência de promover menos angioplastia, este poderia ser inferior no controle da angina, pois angioplastia controla angina (seja por efeito direto, seja por efeito placebo - vide estudo ORBITA). Angina é um desfecho sensível a um procedimento, que poderia vir a ser menos frequente no braço ressonância. 

De fato, este grupo teve 47 angioplastias a menos, 9% em termos absolutos. Observem que não é uma diferença muito grande e ambos os grupos tiveram o mesmo sucesso em controle de angina. Como esse não foi o desfecho primário, não pode ser visto como um dado confirmatório. No entanto, julgo ser uma informação exploratória mais útil do que o óbvio do desfecho primário. 

Este trabalho nos traz outras provocações interessantes a serem comentadas, como impacto do pequeno número de desfechos no desenho de não-inferioridade, a inversão da lógica da não-inferioridade (na verdade, o ônus da prova está na superioridade da conduta mais complexa) e a confusão entre avaliação funcional (clínica) e avaliação de isquemia (ressonância) ou hemodinâmica (FFR). Mas deixarei estas questões para outra oportunidade, a fim de manter o foco da discussão na profecia autorealizável. 


A Utilidade das Profecias e os Sequestros dos Paradigmas

Demonstrar o óbvio não tem valor científico, mas tem valor prático: ao publicar uma conclusão positiva a favor de uma conduta, esta passará a ser mais utilizada. Isso funciona devido ao  sequestro do paradigma da medicina baseada em evidências: criar uma evidência óbvia que “sugestione” (tradução do termo nudge, usado em ciência do comportamento) mudança de comportamento.

Isso funciona devido à infeliz confusão entre medicina baseada em evidências e medicina baseada em regras. Na primeira, tomamos condutas individuais norteados por conceitos científicos. Na segunda, condutas específicas são testadas por trabalhos e copiadas para a prática clínica. Estudos se tornam “recomendações”, quando na verdade estudos devem se tornar princípios norteadores. Medicina baseada em regras pode ser também entendida como medicina copiada de artigos. Ao criar um artigo positivo, a conduta testada tende a ser copiada de forma mais efetiva no mundo que vive o paradigma da regra médica. 

Mas se utilizamos o princípio do conceito científico, perceberemos que já temos conhecimento para utilizar ressonância de perfusão quando julgarmos adequado avaliar isquemia antes de realizar uma coronariografia. Para tal, precisamos saber a acurácia da ressonância para pesquisa de isquemia, já validada cientificamente e com resultados superiores aos demais métodos não invasivos. 

O paradigma de testar “utilidade” de um método diagnóstico ou prognóstico (além de testar acurácia) traz o advento de ensaios clínicos randomizados para diferentes estratégias de investigação, que é uma evolução. No entanto, percebo que este advento vem sendo sequestrado para outros fins (vide exemplos prévios). 

Conflito de interesse é algo intrínseco da mente humana, sendo esperado que especialistas superestimem o valor das suas ferramentas, o que Kahneman chamou de viés da habilidade. Os autores deste trabalho como especialistas em ressonância magnética são naturalmente enviesados em prol da ressonância. Nossos vieses implícitos (implicit bias) nos levam a sequestrar o método científico para demonstrar o que desejamos. Isso não é algo particular da área cardiológica, é universal. Nem sempre representa uma ato de plena consciência. Sem querer parecer inocente, penso que muitos entram nessa tendência sem perceber que o entusiasmo é inimigo da integridade científica. 

A publicação pelo New England Journal of Medicine de tamanha profecia autorrealizável é uma demonstração do poder do lobby médico. O artigo se aproxima mais de um marketing pseudo-científico do uso de um método de grande valor (vide acurácia da ressonância), que se torna banalizado por uma política de imbecilização do leitor

No cerne das profecias e distorções científicas, está a perda de percepção de que o método científico, em sua pureza original, foi criado para refutar ideias, que viriam a ser consideradas verdadeiras se sobrevivessem a este processo. No entanto, o método um dia criado por Ronald Fisher e aprimorado por tantos filósofos da ciência tem sido sequestrado para comprovar ideias falsas ou obviamente verdadeiras. 

Talvez parte do tempo que gastamos discutindo recomendações médicas como receitas deva ser investido na filosofia da ciência.

--------------------------------------------------------------------------------------------------------------------------



Conheça nosso novo Curso Online de MBE, clicando aqui.

quarta-feira, 19 de junho de 2019

A visão anti-científica de Neymar




* Artigo publicado originalmente no Jornal A Tarde


No afã da defesa, o astro Neymar publicou a troca de mensagens com a pessoa que o acusa. Embora inadequado do ponto de vista da lei, aqui me refiro a sua inadequação “científica”: o fato da pessoa ter concordado com o encontro em Paris não representa uma evidência contraditória à alegação do ocorrido dentro do quarto.

Mas a maior inadequação científica de Neymar é seu objetivo de “provar inocência”, pois isto é logicamente impossível, embora seja expressão recorrente entre políticos e advogados. O ônus da prova está na existência de um fenômeno. 

Se Neymar tivesse inteligência científica, a postura correta seria esperar que a sua “ex-parceira” apresentasse a evidência de sua culpa, que deveria passar pelo crivo da análise de veracidade, ao invés de assumir a responsabilidade de provar sua inocência com pseudo-evidências. 

A favor de Neymar, ele é apenas um exemplo do analfabetismo científico de toda a sociedade. Esse analfabetismo fica patente quando a maioria das pessoas se dá o direito de emitir um veredito contra ou a favor, sem base em evidências confirmatórias. Precisamos valorizar a incerteza.

Andei perguntando a amigos o que pensam sobre esse assunto, e todos se posicionaram de forma convicta. Como podemos ter tanta gente convicta na ausência de evidências? Por trás disso está a carência de ceticismo: a predisposição humana em primeiro acreditar, depois procurar evidências a favor de sua crença.

Experimentos psicológicos mostram que quando evidência heterogêneas (contra e a favor) são apresentadas a indivíduos, em vez de ficarem incertos, estes se tornam mais polarizados em suas opiniões, pois sofrem do viés de confirmação: eliminam evidências de encontro e utilizam evidências ao encontro de suas crenças, independente da qualidade das informações. 

Aí está a inteligência do “jogador” Neymar. Ele sabe que pseudo-evidências são suficientes para simpatizantes utilizarem em suas argumentações.

Este fenômeno não ocorre apenas com jogadores de futebol. Dou-me apenas o direito de usar como exemplo a minha própria profissão, embora isso seja comum a todas. Médicos também caem na armadilha cognitiva da crença quando utilizam de evidências de baixo valor em prol de suas convicções clínicas e terapêuticas. Há evidências para todo tipo de convicção.

Não sei se Neymar é culpado do ponto de vista criminal, talvez nem seja. Mas sugiro que o “garoto” seja inocentado do ponto de vista científico, pois seus equívocos são os típicos da mente humana. Precisamos de alfabetização científica no julgamento das questões. 


---------------------------------------------------------------------------------



Conheça nosso novo Curso Online de MBE, clicando aqui.

terça-feira, 11 de junho de 2019

Disparidade de gênero não é um problema científico



Em série especial de artigos publicados em 30 de maio, o Lancet traz extensa discussão sobre disparidade de gênero, abordando o impacto dessa desigualdade social na saúde de indivíduos, no funcionamento do sistema de saúde e no ecossistema científico. De acordo com o UN Educational, Scientific and Cultural Organization’s Women in Science menos de 30% dos cientistas do mundo são mulheres, as quais publicam menos artigos e possuem menos colaborações internacionais do que homens.

Recente artigo original publicado no Journal of American College of Cardiology demonstrou que mulheres correspondem a 36% dos indivíduos de amostras em ensaios clínicos, uma subrepresentação em se considerando que no mundo há igual número de homens e mulheres. 

Se por um lado, disparidade de gênero na população (descrita no Lancet) tem importância social, por outro lado, disparidade em amostras científicas (descrita no JACCnão impacta negativamente a confiabilidade de um teste de conceito biológico.

Disparidade não é um problema científico no que diz respeito a conceitos biológico. 

A percepção da forma equivocada com que especialistas interpretam disparidades em amostras, questionando erroneamente a validade externa de conceitos científicos me provocou a escrever este texto, a fim de reforçar um conceito já abordado previamente nesse Blog: o princípio da raridade da interação. 

Precisamos distinguir quando representatividade de subgrupos em amostras é necessária para a confiabilidade do resultado da pesquisa e quando isto não é um problema. 

Representatividade é importante para estudos descritivos, que retratam o mundo real, o qual é influenciado também por circunstâncias sociais. Por exemplo, a prevalência de doenças, letalidade ou efetividade de condutas (funcionamento do mundo real) pode variar com a realidade local. 

Por outro lado, representatividade não é necessária para testar a “existência” de conceitos científicos (leis da natureza), pois um conceito demonstrado em um subgrupo se reproduzirá em outro subgrupo. É o caso de ensaios clínicos randomizados que testam o conceito de eficácia (propriedade intrínseca). Se a conduta for eficaz, isso será verdade em homens e mulheres, brancos e negros, jovens e idosos, latinos e caucasianos. 

Parece surpreendente essa minha afirmação, até mesmo politicamente incorreta. Se a sensação de surpresa ocorreu, precisamos relembrar um princípio científico universal.


O Princípio da Raridade do Fenômeno de Interação


Antes de falar das evidências a respeito desse princípio, peço que pensem sobre qualquer conduta médica estabelecida. Por exemplo, vacinas, antibióticos, anti-hipertensivos, cirurgias para qualquer coisa, marca-passo, diálise, anticogulantes em diversas situações, tratamento de reperfusão no infarto …  Exceto questões diretamente relacionadas ao sexo biológico (contraceptivos, tratamentos de puberdade, terapia de reposição hormonal, tratamentos na gravidez ou coisas assim), não há coisa alguma que seja indicada para um sexo e não indicada para outro sexo. Se alguém encontrar, me mande pelos comentários do Blog para eu colocar em minha lista de exceções que até agora não tem nenhum item.

Denomino este princípio de “raridade da interação”. Interação deve ser entendida como "modificação de efeito”. Por exemplo, testar interação entre sexo e uso de droga X na prevenção cardiovascular significa testar “modificação de efeito” da droga X de acordo com sexo do paciente: benefício em homem, não benefício em mulher, ou vice-versa. Ou magnitude diferente de benefício. Interação é testada estatisticamente na análise de subgrupo. Se o valor de P da interação for estatisticamente significante, há interação. 

Um equívoco comum ocorre quando um estudo é positivo no tipo de paciente A e negativo no tipo de paciente B. Nestes caso, muitos acham que o conceito é verdadeiro no paciente A e falso no paciente B. Porém, estas diferenças usualmente decorrem de heterogeneidade dos estudos quanto a risco de viés ou acaso. Na verdade, para afirmar que uma coisa acontece no tipo de paciente A e não acontece no tipo de paciente B, ambos os tipos devem estar presentes no mesmo estudo para que se teste interação. É inadequado concluir por diferenças entre populações não comparadas no mesmo estudo.

Diferentes do que muitos clamam, se estudos de amostras diferentes mostram resultados diferentes, a causa da diferença não está na população estudada. Quase invariavelmente a heterogeneidade decorrerá de diferença na metodologia da pesquisa. Conceitos demonstrados por trabalhos de alta qualidade tendem a ser reprodutíveis em diferentes tipos de pessoas. 

Agora vamos às evidências que suportam o princípio da raridade da interação. O gráfico abaixo, tirado do trabalho de disparidade de gênero publicado no JACC, compara o hazard ratio de diferentes tratamentos entre os dois sexos. Observem que em todos os casos, a medida pontual do hazard ratio está do mesmo lado da linha da nulidade. Observem que na maioria dos casos o hazard ratio dos dois grupos está quase na mesma posição. Interessante notar que quando eles diferem um pouco mais para esquerda ou direita, é porque pelo menos um dos grupos tem um N pequeno e um intervalo de confiança menos preciso. Isso reforça duas afirmações que fiz neste postagem: interação é um fenômeno raro e eventuais diferenças resultam mais da falta de confiabilidade dos trabalhos. Lembro que em análise de subgrupo não importa se o intervalo de confiança cruzou a linha da nulidade. O que importa não é significância dentro de um grupo, mas sim a significância da análise de interação. 



A evidência sobre ausência de interação está em qualquer ensaio clínico randomizado de qualidade. Sugiro que escolham aleatoriamente um grande ensaio clínico randomizado que foi positivo. Vejam o forrest plot. Percebam que as medidas de associação em diferentes subgrupos estarão todas no mesmo lado do efeito. Um bom estudo positivo tem resultado consistente em diferentes subgrupos. Vejam também do lado direito do forrest plot o valor de P da interação para cada análise de subgrupo. Percebam que este valor de P quase nunca é significativo. Se algum for significativo, ainda tem a possibilidade do acaso pelo problema da multiplicidade de testes. Nenhum passa pela correção de Bonferroni (P x número de subgrupos).




O que está por trás da raridade da interação? Neste momento, entramos em uma discussão típica de filosofia da ciência. A explicação está no entendimento de que a natureza tem regras de funcionamento. E estas regras são universais. Por que chove? Em qualquer cidade do mundo, em qualquer país, os mecanismos são os mesmos. A explicação mecanicista é a mesma. Uma lei da natureza é universal. 

Embora eu esteja sendo bastante assertivo, devo reconhecer que o processo de generalização de um conceito tem exceções. A física de newton é generalizável, funciona em qualquer local do planeta. No entanto, no nível de partículas subatômicas, prevalece a física quântica. Portanto, havendo uma grande razão para o conceito não se reproduzir, devemos manter o ceticismo. Do contrário, o conceito é generalizável.

Certeza Conceitual versus Incerteza Individual


Não devemos confundir lei da natureza com certeza individual. Uso o exemplo da chuva para lembrar que a universalidade do conceito científico não é o mesmo que previsibilidade. Sabemos o mecanismo das chuvas, mas não podemos prever com perfeita acurácia se vai chover. 

Aplicando isso ao conceito de interação biológica, não existe interação entre sexos, porém isso não quer dizer que garantimos o resultado de uma conduta em mulheres. Mas também não garantimos nos homens, a incerteza é igual. 

O conceito é garantido, mas a probabilidade de um desfecho varia individualmente. O conceito de interação avalia se a variabilidade entre os sexos vai além da variabilidade individual. Não havendo interação, a dúvida se o tratamento funcionará em uma mulher é a mesma dúvida que funcionará em um homem. 

Portanto, quando asseguro que o tratamento funcionará em mulheres assim como em homens  (baixa incerteza conceitual) não quero dizer que funcionará igual em todas as mulheres (incerteza individual). A incerteza individual permanece.

Imprevisibilidade dos Conceitos


Não devemos pensar que conceitos científicos (leis da natureza) são previsíveis. Pelo contrário, um conceito científico (tal droga tem tal efeito?) é imprevisível antes de ser empiricamente demonstrado. Mas depois de demonstrado por estudos de boa qualidade, este conceito se estenderá a diferentes tipos de pacientes. 

Denomino isso de “princípio da rigidez” versus “princípio da complacência”. No primeiro, devemos ser rígidos e céticos, e só afirmar quando houver verdadeira comprovação científica do conceito. Uma vez comprovado, usaremos o “princípio da complacência”, aplicando o conceito a diferentes tipos de pessoas desde que não haja forte razão biológica contrária. Boa parte das boas condutas médicas são embasadas em evidências indiretas utilizando o racional do “princípio da complacência”.

Utilidade desta Discussão


Qual a utilidade em entender o “princípio da complacência” baseado na “raridade da interação”?

Primeiro, perseguir ótima representatividade da amostra (proporção de subgrupos da amostra = proporção na população) paradoxalmente pode eduzir a validade interna do estudo de prova de conceito. Por exemplo, ensaios clínicos usualmente selecionam indivíduos de alto risco para desfechos. Essa proporção de alto risco é diferente do que ocorre no mundo real, mas é importante para aumentar o número de desfechos, aumentar o poder estatístico, reduzindo o risco de erros aleatórios. Se colocamos uma proporção de subgrupos de risco semelhante à população, teremos menos desfechos e menos precisão. Isso é só um dos exemplos pelos quais representatividade por não ser uma boa ideia em estudos que testam hipóteses. 

Conceitos devem ser testados em um ambiente artificial a fim de reduzir vies e acaso. O mundo real não é um bom ambiente para se testar conceitos. 

Segundo, o conhecimento do que discutimos previne a caricatura da medicina baseada em evidências, quando se exige que evidências existam para cada tipo de pessoa. Isto não é necessário, pois conceitos científicos são generalizáveis.  

Terceiro, previne que acreditemos simultaneamente em estudos contraditórios. Muitas vezes se dá crédito a um estudo ruim positivo, apesar de um bom estudo ter nisso negativo, com base no argumento de que as amostras tinham características diferentes, como se isso permitisse acreditar nos dois estudos simultaneamente. Como se isso interferisse nos resultados … não interfere.

Em conclusão, desigualdades populacionais têm implicações sociais. Por outro lado, disparidades em amostras não comprometem validade científica na prova de conceitos. Ciência é apolítica, politicamente incorreta. Não devemos confundir política com ciência.

---------------------------------------------------------------------------------


Conheça nosso novo Curso Online de MBE, clicando aqui.

quarta-feira, 1 de maio de 2019

Devemos prescrever ômega-3 para prevenção cardiovascular?



Em novembro do ano passado foi apresentado no congresso do American Heart Association e publicado no New England Journal of Medicine um trabalho cujo resultado me surpreendeu. A terapia com ácido graxo omega-3, diferente de inúmeros ensaios clínicos prévios, mostrou uma substancial redução relativa de 25% na incidência de eventos cardiovasculares em pacientes com alto risco e hipertrigliceridemia leve.

Meses se passaram enquanto observei a reação da comunidade médica e científica. Percebi um certo atordoamento com um resultado que já não se esperava mais. Não houve grande comemoração como é habitual. Enquanto isso, aqueles de mente científica procuravam encontrar críticas ao trabalho, em um ato desesperado para desfazer a dissonância cognitiva gerada por esta evidência.

Como já propus neste Blog, antes de analisar qualquer evidência externa, precisamos avaliar nossas crenças internas. O caso em questão chama a atenção para esta necessidade. De acordo com minha posição interna, Omega-3 não passa de uma panaceia fantasiosa típica dos suplementos que simulam bons hábitos alimentares, neste caso uma simulação da ingesta de peixe. Precisei colocar de lado minhas crenças para avaliar corretamente o valor preditivo positivo deste trabalho, pois minha tendência era procurar qualquer viés que justificasse o resultado inesperado. 

Alguns especialistas argumentaram que o uso de óleo mineral no grupo placebo atuaria como um viés de invalidaria o resultado do trabalho, pois elevou o LDL-colesterol deste grupo. De acordo com esse raciocínio não teria havido redução de risco com o ômega-3, mas sim um aumento do risco no grupo controle. No entanto, isso é pouco provável pois o LDL-colesterol aumentou em média 5 mg/dl no grupo placebo em comparação ao grupo intervenção. Isso não poderia justificar uma redução relativa do risco de 25%, que seria um tamanho de efeito semelhante ao oferecido pela terapia com estatina. O trabalho não deve ser criticado pelo uso do óleo mineral no placebo.

A análise do valor preditivo do trabalho deve levar em conta a probabilidade pré-teste da hipótese ser verdadeira e a qualidade do trabalho. E essas duas análises devem ser feitas de forma independente. Ou seja, nossa impressão de baixa probabilidade da hipótese ser verdadeira não deve influenciar a análise da qualidade do trabalho; assim como o resultado do trabalho não deve influenciar nossa opinião em relação à plausibilidade da hipótese. 

Fazendo uma análise independente do que pensamos a respeito da probabilidade pré-teste, percebi que o REDUCE-IT é um trabalho surpreendentemente bem feito. Grande estudo, bem dimensionado para testar a hipótese, conclusão baseada no desfecho primário, randomizado, cego, análise por intenção de tratar. Chequei também o protocolo publicado a priori no clinicaltrials.gov e não houve mudanças de protocolo. Enfim, é um estudo de baixo risco de viés e baixo risco de acaso.

Visto isso, voltemos atrás e analisemos a probabilidade pré-teste da hipótese testada. Para tal, temos que evitar o fenômeno de hindsight: “percepção da natureza de um evento depois dele ter ocorrido”. Depois que um evento acontece a mente humana tende a interpretá-lo como provável. Por exemplo, acontece um acidente e a pessoa diz: eu sabia que isso ia ocorrer. É uma falácia narrativa, pois o acontecimento do fato influencia nossa percepção retrospectiva da probabilidade prévia. No caso em questão, já sabendo que o estudo é positivo, temos uma tendência de superestimar a probabilidade pré-teste. Portanto devemos analisar a plausibilidade da hipótese como se não soubéssemos do estudo REDUCE-IT. 

E essa é uma boa oportunidade para exemplificarmos a análise da probabilidade pré-teste.


Probabilidade Pré-teste da Hipótese


Esta deve ser constituída de 4 perguntas:

  1. A hipótese existia antes do estudo? (ou a hipótese foi criada retroativamente depois que o estudo deu um resultado que não era hipótese a priori?).
  1. Do ponto de vista do campo científico, este é um resultado usual ou inusitado demais? (usualmente tratamentos deste tipo apresentam este tamanho de efeito ou isso é bom demais para ser verdade?).
  1. Há mecanismos convincentes de plausibilidade da hipótese? (usei o adjetivo “convincente", pois mecanismos teóricos existem para tudo, portanto precisa ser um mecanismo provável de fazer diferença no desfecho final).
  1. Há estudos prévios de qualidade aceitável para sugerir que a hipótese seja verdadeira? (digo “qualidade aceitável” pois há estudos de má qualidade dando suporte a qualquer fantasia. Sempre “há estudos”, portanto para que a literatura prévia aumente a probabilidade da hipótese ser verdadeira, devem ser trabalhos pelo menos razoáveis).

Vamos analisar cada um desses pontos reconhecendo que isto guarda certa subjetividade. Portanto, é a impressão conjunta das quatro perguntas que nos permitirá concluir se, antes de saber o resultado do estudo, estamos diante de uma hipótese de probabilidade pequena ou moderada. A ideia é que uma hipótese de probabilidade moderada seja elevada para alta probabilidade por um bom estudo (ideia confirmada) ou uma hipótese de baixa probabilidade seja elevada para moderada probabilidade por um bom estudo (ideia promissora). Esta última situação é aquela em que dois bons estudos são necessários para confirmar a hipótese.

Quanto à primeira pergunta, sim, a hipótese existia antes do estudo ser realizado. O teste desta hipótese era o objetivo primário do ensaio clínico REDUCE-IT. Aqui não se trata de múltiplas análises sendo realizadas para que alguma dê positiva por acaso, fazendo parecer que aquilo era uma hipótese provável (hindsight).

A segunda pergunta não aborda a especificidade do ômega-3, mas o tipo de intervenção que isso consiste. O tratamento com ômega-3 faz parte de que tipo de estratégia? Primeiro, este não é um tratamento que surge com intuito de combater um fator causal específico, como acontece com tratamentos anti-hipertensivos, redutores de colesterol, anticoagulantes, antibióticos, vacinas. Vale salientar aqui que triglicérides não é um fator de risco comprovado para doença aterosclerótica. Nem foi esse o motivo original da ideia de usar ômega-3. 

Na verdade, essa ideia surge da percepção epidemiológica (provável efeito de confusão) de que dieta rica em peixes de águas profundas são associadas a menor risco cardiovascular (como a dieta do mediterrâneo) e isto estaria associado aos ácidos graxos do tipo ômega-3 que existem nas algas que estes peixes comem. Estamos diante de uma espécie de suplemento alimentar, que simula (elevado a algumas potências) a dieta rica em peixe. Essa é a ideia original da hipótese, algo que substitui um hábito de vida relacionado a alimentação. Neste sentido, 25% de redução relativa do risco parece um resultado “bom demais para ser verdade”. Segundo avaliação meta-científica de Ioannidis, detalhes dietéticos, quando funcionam, possuem mínimo tamanho de efeito (redução relativa do risco menor que 5%).

Terceiro, vamos analisar a plausibilidade específica do ômega-3.  O argumento mais usado é a propriedade redutora de triglicérides. No entanto, triglicérides não é um fator de risco validado por evidências de reversão, visto que falharam as tentativas (com drogas mais potentes) de demonstrar que redução de triglicérides reduz risco cardiovascular. No caso do REDUCE-IT, em uma amostra com triglicérides basal de 216 mg/dl, houve redução absoluta de 40 mg/dl. Será que este grau de redução justificaria uma redução relativa do risco de mesmo tamanho de efeito das estatinas, drogas anti-hipertensivas ou beta-bloqueador na ICC? Provavelmente, não.

Mas aqui entra uma novidade: diferente dos inúmeros estudos negativos, o REDUCE-IT testou uma forma especial de ômega-3 purificado, vendida nas farmácias americanas sob prescrição médica, pelo valor de 245 dólares com desconto (2 meses de tratamento), comercialmente conhecido como VASCEPA. 

O que justifica a produção desta forma purificada, muito mais cara do que o ômega-3 comum? Os suplementos de ômega-3 contém dois tipos de ácidos graxos, o eicosapentaenoico (EPA) e docosahexaenoico acid (DHA). Já o VASCEPA contém predominantemente o EPA, em uma concentração quase 10 vezes maior do que nos demais estudos. Teoricamente o EPA seria melhor do que o DHA, pois o primeiro não aumenta o LDL-colesterol, enquanto o segundo aumenta. Mas isso poderia justificaria uma redução relativa de risco de 25% não observada nos demais estudos? Quanto o EPA aumenta o LDL-colesterol? Em comparação direta com EPA, o DHA aumenta o LDL-colesterol em 3.3% (Medscape). Ou seja, não há plausibilidade de que esta diferença laboratorial faça diferença clínica.
Quarta pergunta, há um estudo japonês que sugere benefício da formulação purificada, mas não é um estudo cego. Portanto, devido ao alto risco de viés não podemos afirmar que evidências prévias aumentam a probabilidade da hipótese clínica. 

Sendo assim, dos quatro critérios de plausibilidade, apenas o primeiro deles é preenchido (hipótese a priori). No entanto, (2) como suplemento alimentar o resultado é bom demais para ser verdade, (3) não há um mecanismo que o justifique e (4) não havia evidências prévias de qualidade neste sentido. Portanto, a probabilidade pré-teste da hipótese ser verdadeira antes de sabermos do REDUCE-IT era baixa.

O REDUCE-IT, por ser um estudo de boa qualidade,  eleva o status de probabilidade da hipótese. Porém, dentro do raciocínio de probabilidade condicional, partindo de baixa probabilidade, ficamos com um moderado valor preditivo positivo do estudo. Estamos agora com uma hipótese promissora, que necessita do paradigma da reprodutibilidade para se tornar uma hipótese comprovada. 

Precisamos de mais um bom estudo reproduzindo estes achados. Este estudo não precisa ser idêntico ao primeiro, pode haver variações de população alvo ou aplicabilidade do tratamento. Sendo o segundo estudo positivo, a probabilidade pré-teste que agora está em moderada, será elevada a alta. E assim adotaremos a conduta preventiva. 

Aqui estamos diante da situação em que um estudo de boa qualidade requer um segundo confirmatório: quando a probabilidade pré-teste é muito baixa. 

Por que esperar?


É natural termos o desejo de implementar os resultados do REDUCE-IT de forma imediata e suspeito que assim será feito pelos guidelines. Esse desejo é mediado pela mentalidade do médico ativo, que traz uma sensação de omissão em não prescrever um VASCEPA no nosso próximo paciente de alto risco para eventos cardiovasculares. O que, portanto, justificaria permanecermos com o princípio da hipótese nula até que os dados do REDUCE-IT sejam reproduzidos?

Esse incômodo vem em grande parte da nossa percepção intuitiva de que os tratamentos comprovados oferecem um benefício determinístico.  Denomino isto de “viés cognitivo do NNT = 1”.  É assim que nos sentimos quando prescrevemos uma terapia benéfica a um paciente. Enquanto a sensação é de que estamos promovendo um benefício, na realidade estamos oferecendo uma pequena probabilidade de benefício, representada pela redução absoluta do risco. É a minoria que de fato receberá o benefício de uma prescrição adequada, no caso do REDUCE-IT apenas 5% dos pacientes. Ou apenas um paciente dentre 20 prescrições (NNT = 20). Se incluirmos a incerteza de um valor preditivo positivo moderado da hipótese ser verdadeira, estaríamos em um território ainda mais incerto. 

Mas o problema não é apenas a incerteza. Existem as consequências não intencionais: custo monetário, seja individual ou a um sistema de saúde (O SUS deve pagar VASCEPA?), efeitos adversos. Por exemplo, 33% dos pacientes exibiram efeitos gastro-intestinais relacionados à administração do óleo, tal como o grupo placebo que também recebeu uma quantidade pouco usual de óleo mineral. As consequências não intencionais são múltiplas, imprevisíveis, comparadas a uma única consequência benéfica, duvidosa conceitualmente e que se verdadeira ocorrerá em apenas 5% dos pacientes. Assim, fica questionável se a probabilidade de benefício supera o "custo".  Tudo isso justifica o "conservadorismo" na adoção de condutas médicas. 

Por fim, existe uma consequência não intencional relacionado ao ecossistema científico: a cultura do medical reversal. Medical reversal é definido como uma conduta médica tradicionalmente utilizada que acaba sendo provada como não benéfica a posteriori. Vinay Prasad publicou em 2013 uma revisão dos trabalhos originais durante 10 anos consecutivos no NEJM. Dos trabalhos que testaram condutas médicas já praticadas, 40% mostraram resultados negativos e 22% resultados inconclusivos, sendo confirmadas a eficácia das condutas em apenas 38% dos casos. Ou seja, uma taxa de medical reversal de pelo menos 40%. Isso indiretamente sugere que boa parte do que fazemos será demonstrado como ineficaz. Essa é a cultura do medical reversal. 

Medical reversal é prejudicial para os pacientes que receberam condutas inadequadas, para o sistema de saúde de desperdiçou recursos, mas principalmente para o ambiente científico que vive aceitando conceitos, alguns tão enraizados que se sustentam como conduta mesmo depois do surgimento de trabalhos negativos de boa qualidade. 

Considerando portanto o potencial benefício da aplicação de uma conduta de valor preditivo positivo moderado versus as consequências não intencionais individuais, coletivas e culturais, devemos elevar nosso limite de tolerância para aceitação de condutas médicas.

O REDUCE-IT deve ser valorizado como uma evidência de qualidade. Neste contexto, a leitura de uma evidência deve ser mais ampla do que o critical appraisal do artigo, levando em conta a qualidade da ideia dentro de um processo bayesiano de pensamento. Por fim, um processo de decisão baseado em evidências deve considerar o paradigma probabilístico dentro do pensamento econômico da probabilidade de benefício versus consequências não intencionais do medical reversal. 

O REDUCE-IT representa a ressureição da hipótese o ômega-3, que evolui de falsa para possível. Mas ainda precisamos da replicação deste resultado para considerar o ômega-3 uma verdade confirmada. 

---------------------------------------------------------------------------------


Conheça nosso novo Curso Online de MBE, clicando aqui.

O Valor Científico da “Balbúrdia”


O governo federal cortou 30% do orçamento de três universidades federais (UnB, UFBA, UFF), posicionadas nas nona, décima-quarta e décima-sexta posições no ranking das melhores universidades do país. O argumento para o corte de verbas foi a “balbúrdia” promovida por estas universidades em seus campi. Paradoxalmente, estas três apresentam aumento respectivo de 109%, 102% e 84% de produção científica nos últimos dez anos, comparadas a uma média nacional de 65%. 

Com isto, nossos governantes geram um curiosa hipótese científica: balbúrdia aumenta produção científica. Neste texto, defenderei a plausibilidade científica desta hipótese, baseado na ciência da psicologia cognitiva, que demonstra uma positiva associação entre não-conformismo e criatividade. Criatividade por sua vez é uma característica marcante de grandes cientistas. 

Embora predomine a discussão e o ensino de metodologia científica no ambiente acadêmico de pós-graduações, a utilização adequada da técnica científica é uma mera obrigação do pesquisador. Não é um diferencial. O diferencial está na ideia da pesquisa, que deve ser  promissora, original e impactante, seja do ponto de vista pragmático ou epistemológico.  

Na verdade, temos um problema de criatividade, boa parte das pesquisas feitas no mundo são inúteis, servindo mais para incrementar carreira de pesquisadores ou acadêmicos. A falta de criatividade decorre em grande parte do conformismo acadêmico. Temos uma tendência biológica a nos enquadrar em uma forma de pensamento, para que sejamos aceitos como parte de uma comunidade, uma tribo. Esse enquadramento reduz criatividade.

O academicismo tradicional é anti-criativo em sua rigidez de forma (as vírgulas que faltam nas teses, as referências que falharam em ordem), na exigência de métodos previsíveis, na hierarquia universitária, na postura “engravatada”. As universidades do futuro abandonarão as gravatas e adotarão um ambiente que fomente inovação, a exemplo das atuais empresas de tecnologia, como o Google. 

Como proposto por Don Norman, cientista da cognição que está por trás de muitas inovações da Apple, uma parte essencial do processo de inovação é o prazer do inovador. Sendo o processo prazeroso, há liberação de dopamina, que amplia nossa visão e interpretação. Quem sabe não é o prazer intrínseco da liberdade de ação e expressão presente em uma boa balbúrdia. 

Por outro lado, a rigidez e “estresse acadêmico” produz adrenalina, que promove foco excessivo em um problema, nos fazendo perder a visão do todo. Reduz criatividade. 

Por estes motivos, minha hipótese é que as “balbúrdias” das UFBA (a universidade em que me formei médico, doutor e livre-docente), UnB e UFF decorrem do não conformismo criativo,  expresso pela liberdade de expressão em seus campi, criando uma espécie de ambiente fomentador de inovação. 

Em seu marcante discurso para os formandos da Universidade de Stanford, Steve Jobs conclui: “stay hungry, stay fool”. O ser "inocente" (fool) de Jobs é aquele que não tem medo de ter ideias diferentes. É  aquele menino que apontou que o rei estava nu, a mais forte expressão de nossa orgulhosa balbúrdia. 


sexta-feira, 19 de abril de 2019

Metailusão: o paradoxo das meta-análises



Metailusão conota uso inapropriado do desenho de meta-análise para criar a ilusão de que uma ideia é verdadeira ou mais promissora do que evidências suportam. Metailusão gera o paradoxo da meta-análise, quando a análise conjunta de estudos traz uma visão mais enviesada do que a análise separada de cada estudo.

Cunhamos este termo há alguns anos em "carta ao editor" do JAMA Internal Medicine, que resumia o conteúdo de uma postagem prévia deste Blog. 

Nesta discussão, pretendo diferenciar o (grande) valor das revisões sistemáticas do (modesto) valor de meta-análises. Como sabemos, meta-análise é a análise estatística que pode estar contida em revisões sistemáticas. Esta abordagem tem certa utilidade (vide  outra postagem) se estiver no contexto adequado. No entanto há também potencial de enviesar nossas mentes para o lado da crença não embasada em evidências (metailusão). 

O grande valor de uma revisão sistemática reside na descrição do estado atual do conhecimento a respeito de um determinado assunto. Descrevendo o conhecimento, a revisão sistemática pode (1) evidenciar que um conceito está comprovado por evidências de alto nível, (2) indicar que no presente não há evidências suficientes a respeito do conceito ou (3) indicar que há evidências suficientes (qualidade) para reduzir a probabilidade de um conceito ser verdadeiro a um nível tão baixo que nem vale a pena continuar insistindo cientificamente na ideia.

Resumindo, o valor de revisões sistemáticas está em demonstrar se um conceito está ou não comprovado. Não devemos confundir isso com o papel de criar uma evidência a favor de um conceito. Se o conceito não está comprovado, não deve caber à revisão sistemática “criar” esta comprovação. 

No entanto, muitas delas se utilizam de meta-análises para criar novas medidas de associação como se estas representassem um novo dado a respeito do assunto. Não é um novo dado, é apenas um compilado de dados antigos. 

Se dados antigos não comprovaram o conceito, não será o compilado deles que comprovará o conceito. 

Mas então, para que servem as meta-análises, que estatisticamente compilam resultados de estudos prévios?

Este compilado de estudos resulta em uma medida denominada “efeito sumário”. O verdadeiro valor desta métrica está em aumentar a precisão de algo que já sabemos ser verdadeiro. Se bons estudos comprovam uma hipótese, o compilado destes bons estudos aumentará a precisão do tamanho do efeito desta hipótese. 

Por exemplo, eu sei por bons estudos que um tratamento é benéfico, representado por um risco relativo cujo intervalo de confiança é estatisticamente menor do que a nulidade. O compilado meta-analítico dos riscos relativos resultará em um intervalo de confiança mais estreito, permitindo uma percepção mais precisa do tamanho do efeito. 

Esta é a utilidade do efeito sumário: aumentar a precisão do que já sabemos. Não o de gerar um conhecimento antes inexistente. 

Nesta postagem, usarei dois exemplos de meta-ilusão ocorridos em uma mesma semana recente, cada um representando um mecanismo ilusório diferente. No primeiro exemplo, um estudo é pseudo confirmado ao ser combinado com vários estudos neutros e de menor peso. No segundo exemplo, a meta-análise tenta contradizer um bom estudo negativo ao combiná-lo com outros estudos positivos de pior qualidade. 


Dieta muito baixa em carboidrato e perda de peso


Imaginem 13 estudos testando uma mesma hipótese: 12 são neutros, com intervalos de confiança orbitando em torno da nulidade, enquanto apenas um único estudo é positivo. 
O estudo positivo é o maior e melhor, publicado na revista de maior impacto em medicina.

Surge então uma revisão sistemática que combina meta-analiticamente estes 13 estudos e conclui positivamente: “indivíduos assigned to a very-low-carbohydrate diet achieved a greater weight loss than those assigned to low fat diet”


twitter da organização australiana Public Health Collaboration, promotora de estilo de vida, entusiasticamente anuncia: “Meta-analysis of controlled trials - Ketogenic Diets (very low carbs) achieved greater weight loss than Low Fat diets in the long term. Keto diets should be a tool for reducing obesity.”

Os 13 estudos eram ensaios clínicos que randomizaram indivíduos para dois tipos de dieta visando redução de peso: muito baixa em carboidrato (very low carbversus baixa em gordura (low fat).

Qual deve ser o impacto desta meta-análise na nossa percepção da realidade? Seu resultado positivo deve nos enviesar em prol da crença ou o conjunto dos dados deve nos tornar mais céticos?

Este é um perfeito exemplo do que denomino de metailusão, a utilização do sumário estatístico (meta-análise) de vários estudos para “confirmar” o resultado de um estudo positivo, basicamente pela influência (repetição) deste mesmo estudo positivo. 

Dos 13 estudos, o único positivo foi o de melhor qualidade (maior, mais preciso, menor erro-padrão, maior influência na meta-análise). Este foi o ensaio clínico DIRECT publicado no New England Journal of Medicine. Embora seja o estudo de melhor qualidade, este ainda não é uma evidência confirmatória. 

Ao compilar seu resultado com outros 12 pequenos estudos, a medida sumária da perda de peso reduz de - 2 Kg para - 0.9 Kg, no entanto ainda permanece estatisticamente significante, pois o estudo positivo é o de maior peso no cálculo. Quando este é somado aos estudos neutros, permanece positivo. Observem a analogia numérica:

1 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 = 1. 

O que seria mais verdadeiro, 0 ou 1? Se por um lado isso não prova que zero é a verdade, isso muito menos prova que 1 é a verdade. 

Não vale como uma evidência incremental, nem confirmatória do estudo positivo. Pois o resultado se deve ao mesmo estudo que sugere positividade. É uma mera repetição, fantasiada de um novo resultado.

Se olharmos apenas o efeito sumário, concluiremos que a hipótese é verdadeira. Mas se utilizamos a visão do todo, perceberemos que a revisão sistemática (a propósito muito bem feita, por grupo brasileiro) na verdade reduz a probabilidade da hipótese ser verdadeira. 

A depender do olhar, a revisão sistemática pode ter mensagens opostas. 


Forest Plot


Muitos pensam que o gráfico principal de meta-análises se chama “floresta” pois a figura se parece com uma floresta. Nada a ver, olhem bem, isso não se parece com floresta alguma. Floresta é uma analogia: a meta-análise serve para promover a visão do todo (floresta), desfocando nossa visão de apenas uma árvore. 

Mas nossa mania mental de categorização faz com que foquemos apenas do efeito sumário, no pequeno diamante na base do gráfico que não toca a nulidade, indicando significância estatística. Assim voltamos ao paradoxo da categorização, comentado na postagem passada. Algo que é feito para reconhecer incerteza, para promover a visão do todo, é sequestrado para gerar uma categorização positiva. Neste momento, uma floresta é transformada em uma mera árvore. 

Vejam abaixo o forest plot tirado da publicação low carbo. Observem os intervalos de confiança dos estudos.  Deletem mentalmente a imagem da linha vertical que indica a nulidade. Isso permite que olhemos os dados sem a platônica categorização. Permite a visão do todo. Podemos observar que os intervalos de confiança são superponíveis. Doze estudos possuem o mesmo significado. 

Agora recoloquem a linha da nulidade. Do ponto de vista categórico, os doze estudos estão longe da rejeitar a hipótese nula, apenas orbitam em torno na nulidade. Não encontramos evidências suficientes contra a hipótese nula. 




Em particular, esta boa revisão sistemática sobre very low carb versus low fat me trouxe a ideia de que todos os estudos são negativos, exceto um deles. Embora esse único positivo seja o melhor dos estudos, a meta-análise me trouxe o valor de reforçar minha incerteza a respeito da prova do conceito do valor intrínseco de um tipo de dieta na perda de peso. 

Para entusiastas da dieta low carb (pessoalmente eu sou, mas profissionalmente devo conter minha preferência dentro de uma caixa científica), nada como a ciência reforçando a incerteza. A elegância científica está no reconhecimento da incerteza e não na confirmação forçada de uma crença pré-estabelecida. 

Fugindo da incerteza, a interpretação do Public Health Collaboration foi "cientificamente deselegante" ao utilizar essa meta-análise para pseudo confirmar uma hipótese não confirmada. 


Metailusão da Denervação Renal


O fenômeno de metailusão está em toda parte. Na mesma semana foi publicado no Journal of American College of Cardiology uma meta-ilusão que tentou ressuscitar a hipótese de que denervação renal serve para controlar hipertensão arterial. 

Este caso possui um mecanismo ilusório diferente do exemplo anterior: temos um grande e preciso estudo negativo, dois pequenos e imprecisos estudos negativos e três pequenos e imprecisos estudos positivos. 

0 + 0 + 0 + 1 + 1 + 1 = 3. 

O que é mais verdadeiro, zero ou 3? 

Esta me parece ser uma pergunta mais capciosa do que a matemática do exemplo low carb, onde minha argumentação meta-ilusória é mais óbvia. 

Mais uma vez, essa revisão sistemática serve para nos mostrar a incerteza a respeito da questão. Mas os autores preferem utilizar o efeito sumário que alcançou significância estatística (quase na trave) para concluir: “RSD significantly reduced blood pressure compared with sham control.”

Para que esta postagem não fuja do foco e não fique extensa demais, deixarei o que escrevi sobre o contexto científico da denervação renal para uma postagem a seguir. Aqui o que importa saber é que o primeiro estudo (negativo) possui método e tamanho amostral para ser considerado alto nível de evidência, enquanto todos os estudos subsequentes são subdimensionados, o que aumenta o risco tanto do erro tipo II (falso-negativo) como do erro tipo I (falso-positivo).

Um conceito importante a ser lembrado aqui: o resultado de um estudo é mais influenciado por aspectos metodológicos do que variações populacionais e metodológicas (interação é fenômeno raro). 

Portanto, mesmo que autores aprimorem um pouco a técnica de ablação (eles argumentam isso),  um método científico piorado terá maior impacto no resultado.  Assim, o novo resultado (positivo) vem de falha no método científico ou aprimoramento do método de tratamento? Em geral a verdade está na primeira opção. 

Portanto, esta meta-ilusão não deve servir para considerar a ablação como um método eficaz na redução da pressão arterial, tal como sugerido pelos autores e leitores desta revisão sistemática. 

Essa meta-análise não deveria ter sido “notícia” como foi nos sites médicos. 


O Mito das Meta-análises


Na ausência de evidências empíricas, há duas formas efetivas de parecer convincente em relação à existência de um fenômeno: primeiro, explique o porquê que o fenômeno existe,  pois a ideia de um mecanismo racional nos faz “acreditar” no fenômeno. Observem que os gurus da saúde explicam “profundamente” o mecanismo de fantasias, apelando inclusive para física quântica. 

Porém esta primeira forma não acaba com a discussão, visto que interlocutores céticos tenderão a questionar seus mecanismos com outros mecanismos. Então surge a segunda forma, esta imbatível. Simplesmente comece a frase com “há uma meta-análise demonstrando que …”, pois contra essa frase não há argumentos. 

“Há uma meta-análise que demonstra a superioridade do time do Bahia quando comparado ao Vitória” finalizaria qualquer debate polarizado. Meta-análise é a voz de Deus. Pena que não há meta-análise para terminar com essa boba (porém divertida) discussão: ambos são péssimos, Paulinho Rocha. 

No entanto, boa parte das meta-análises possuem conclusões metailusórias.

Diferente do que muitos pensam, meta-análise não deve modificar nosso pensamento categórico de “não sei” para “agora sei”.

Quando não há estudo de caráter confirmatório, a “média” de estudos exploratórios não fabrica um estudo confirmatório. Portanto, meta-análise não tem a capacidade de rejeitar uma hipótese nula não rejeitada por estudos individuais. Por outro lado, quando há estudo (s) confirmatório (s) positivo (s), já sabemos a resposta e a meta-análise não modifica categoricamente uma percepção que já existe. 

Portanto, meta-análise não serve para comprovar ou negar. Para que serve então? 

Já falei lá em cima, mas vou repetir agora: revisões sistemáticas e suas análises estatísticas (meta-análises) servem para descrever o universo de conhecimento a respeito de um assunto, podendo ter duas mensagens: (1) evidenciar a incerteza, dizer o que ainda não sabemos; (2) ou aumentar a precisão (estreitar o intervalo de confiança) do que já sabemos.

Revisões sistemáticas se prestam muito mais a descrever o conjunto de evidência a respeito de uma pergunta, e muito menos para responder a pergunta. Equivocada portanto é a clássica pirâmide que coloca meta-análise no topo, acima de estudos individuais. 

Na pirâmide devem estar apenas os estudos primários. Revisão sistemática e meta-análise não são para ocupar lugar na pirâmide. Servem na verdade para descrever e analisar a pirâmide. 



Reflexões Finais


O universo científico é repleto de informações falsas, que mais comumente são positivas do que negativas. O método científico, criado para reduzir conclusões equivocadas, tornando mais rígido nosso critério de teste de hipótese, é frequentemente sequestrado para provar o que não é verdadeiro. Revisões sistemáticas, criadas originalmente para descrever criticamente o grau de conhecimento a respeito de um assunto, vêm sendo sequestradas para comprovar o que não está provado ou fazer uma ideia parecer mais promissora do que a realidade. 

Esta postagem remete ao viés cognitivo denominado bounded awareness (consciência limitada), que ocorre quando o foco em algo muito específico prejudica a visão do que seja mais importante. Esse viés é retratado neste vídeo do YouTube quando uma tarefa que requer atenção específica (contar no número de passes em um jogo de basquete) impede que as pessoas percebam que um gorila que entrou na quadra.  Esse tipo de viés está por trás de muitos exemplos em que a expressão “o elefante na sala” é usada, como já fizemos em postagem recente neste Blog. 

No caso da meta-ilusão, nossa atenção fica tão focada do diamante da medida sumária, que perdemos a visão do óbvio contido no todo. 
Psicólogos sugerem algumas estratégias para superar este viés: trazer sempre uma pessoa de mente mais inocente ou menos enviesada para a discussão, evitando o “viés da tribo” (como aquele menino que percebeu que “o rei estava nu”); procurar ampliar nossa visão, sendo advogados do diabo de nossas próprias ideias; por fim, utilizar do tempo, olhar as coisas mais de uma vez, com calma, de forma reflexiva.

Acho isso importante, pois grande parte das vezes aceitamos metailusões sem ler o trabalho. Tenho insistido nisso ultimamente: gastar 20 minutos lendo o método e resultados de um artigo é essencial antes de aceitar a conclusão e principalmente antes de “retwittar” informações. 

Leonardo da Vinci nos presenteou com a renascentista frase “simplicidade é a mais elegante forma de sofisticação”.  Eu diria que a simplicidade da incerteza é a mais elegante expressão da ciência.

Revisões sistemáticas servem para mensurar o grau de incerteza presente em um campo de ideias, indicando o grau de confiabilidade a respeito de conceitos. Revisões sistemáticas não servem para fabricar comprovações inexistentes no campo científico anterior à meta-análise.

---------------------------------------------------------------------------------

Conheça nosso novo Curso Online de MBE, clicando aqui.