quarta-feira, 1 de maio de 2019

Devemos prescrever ômega-3 para prevenção cardiovascular?



Em novembro do ano passado foi apresentado no congresso do American Heart Association e publicado no New England Journal of Medicine um trabalho cujo resultado me surpreendeu. A terapia com ácido graxo omega-3, diferente de inúmeros ensaios clínicos prévios, mostrou uma substancial redução relativa de 25% na incidência de eventos cardiovasculares em pacientes com alto risco e hipertrigliceridemia leve.

Meses se passaram enquanto observei a reação da comunidade médica e científica. Percebi um certo atordoamento com um resultado que já não se esperava mais. Não houve grande comemoração como é habitual. Enquanto isso, aqueles de mente científica procuravam encontrar críticas ao trabalho, em um ato desesperado para desfazer a dissonância cognitiva gerada por esta evidência.

Como já propus neste Blog, antes de analisar qualquer evidência externa, precisamos avaliar nossas crenças internas. O caso em questão chama a atenção para esta necessidade. De acordo com minha posição interna, Omega-3 não passa de uma panaceia fantasiosa típica dos suplementos que simulam bons hábitos alimentares, neste caso uma simulação da ingesta de peixe. Precisei colocar de lado minhas crenças para avaliar corretamente o valor preditivo positivo deste trabalho, pois minha tendência era procurar qualquer viés que justificasse o resultado inesperado. 

Alguns especialistas argumentaram que o uso de óleo mineral no grupo placebo atuaria como um viés de invalidaria o resultado do trabalho, pois elevou o LDL-colesterol deste grupo. De acordo com esse raciocínio não teria havido redução de risco com o ômega-3, mas sim um aumento do risco no grupo controle. No entanto, isso é pouco provável pois o LDL-colesterol aumentou em média 5 mg/dl no grupo placebo em comparação ao grupo intervenção. Isso não poderia justificar uma redução relativa do risco de 25%, que seria um tamanho de efeito semelhante ao oferecido pela terapia com estatina. O trabalho não deve ser criticado pelo uso do óleo mineral no placebo.

A análise do valor preditivo do trabalho deve levar em conta a probabilidade pré-teste da hipótese ser verdadeira e a qualidade do trabalho. E essas duas análises devem ser feitas de forma independente. Ou seja, nossa impressão de baixa probabilidade da hipótese ser verdadeira não deve influenciar a análise da qualidade do trabalho; assim como o resultado do trabalho não deve influenciar nossa opinião em relação à plausibilidade da hipótese. 

Fazendo uma análise independente do que pensamos a respeito da probabilidade pré-teste, percebi que o REDUCE-IT é um trabalho surpreendentemente bem feito. Grande estudo, bem dimensionado para testar a hipótese, conclusão baseada no desfecho primário, randomizado, cego, análise por intenção de tratar. Chequei também o protocolo publicado a priori no clinicaltrials.gov e não houve mudanças de protocolo. Enfim, é um estudo de baixo risco de viés e baixo risco de acaso.

Visto isso, voltemos atrás e analisemos a probabilidade pré-teste da hipótese testada. Para tal, temos que evitar o fenômeno de hindsight: “percepção da natureza de um evento depois dele ter ocorrido”. Depois que um evento acontece a mente humana tende a interpretá-lo como provável. Por exemplo, acontece um acidente e a pessoa diz: eu sabia que isso ia ocorrer. É uma falácia narrativa, pois o acontecimento do fato influencia nossa percepção retrospectiva da probabilidade prévia. No caso em questão, já sabendo que o estudo é positivo, temos uma tendência de superestimar a probabilidade pré-teste. Portanto devemos analisar a plausibilidade da hipótese como se não soubéssemos do estudo REDUCE-IT. 

E essa é uma boa oportunidade para exemplificarmos a análise da probabilidade pré-teste.


Probabilidade Pré-teste da Hipótese


Esta deve ser constituída de 4 perguntas:

  1. A hipótese existia antes do estudo? (ou a hipótese foi criada retroativamente depois que o estudo deu um resultado que não era hipótese a priori?).
  1. Do ponto de vista do campo científico, este é um resultado usual ou inusitado demais? (usualmente tratamentos deste tipo apresentam este tamanho de efeito ou isso é bom demais para ser verdade?).
  1. Há mecanismos convincentes de plausibilidade da hipótese? (usei o adjetivo “convincente", pois mecanismos teóricos existem para tudo, portanto precisa ser um mecanismo provável de fazer diferença no desfecho final).
  1. Há estudos prévios de qualidade aceitável para sugerir que a hipótese seja verdadeira? (digo “qualidade aceitável” pois há estudos de má qualidade dando suporte a qualquer fantasia. Sempre “há estudos”, portanto para que a literatura prévia aumente a probabilidade da hipótese ser verdadeira, devem ser trabalhos pelo menos razoáveis).

Vamos analisar cada um desses pontos reconhecendo que isto guarda certa subjetividade. Portanto, é a impressão conjunta das quatro perguntas que nos permitirá concluir se, antes de saber o resultado do estudo, estamos diante de uma hipótese de probabilidade pequena ou moderada. A ideia é que uma hipótese de probabilidade moderada seja elevada para alta probabilidade por um bom estudo (ideia confirmada) ou uma hipótese de baixa probabilidade seja elevada para moderada probabilidade por um bom estudo (ideia promissora). Esta última situação é aquela em que dois bons estudos são necessários para confirmar a hipótese.

Quanto à primeira pergunta, sim, a hipótese existia antes do estudo ser realizado. O teste desta hipótese era o objetivo primário do ensaio clínico REDUCE-IT. Aqui não se trata de múltiplas análises sendo realizadas para que alguma dê positiva por acaso, fazendo parecer que aquilo era uma hipótese provável (hindsight).

A segunda pergunta não aborda a especificidade do ômega-3, mas o tipo de intervenção que isso consiste. O tratamento com ômega-3 faz parte de que tipo de estratégia? Primeiro, este não é um tratamento que surge com intuito de combater um fator causal específico, como acontece com tratamentos anti-hipertensivos, redutores de colesterol, anticoagulantes, antibióticos, vacinas. Vale salientar aqui que triglicérides não é um fator de risco comprovado para doença aterosclerótica. Nem foi esse o motivo original da ideia de usar ômega-3. 

Na verdade, essa ideia surge da percepção epidemiológica (provável efeito de confusão) de que dieta rica em peixes de águas profundas são associadas a menor risco cardiovascular (como a dieta do mediterrâneo) e isto estaria associado aos ácidos graxos do tipo ômega-3 que existem nas algas que estes peixes comem. Estamos diante de uma espécie de suplemento alimentar, que simula (elevado a algumas potências) a dieta rica em peixe. Essa é a ideia original da hipótese, algo que substitui um hábito de vida relacionado a alimentação. Neste sentido, 25% de redução relativa do risco parece um resultado “bom demais para ser verdade”. Segundo avaliação meta-científica de Ioannidis, detalhes dietéticos, quando funcionam, possuem mínimo tamanho de efeito (redução relativa do risco menor que 5%).

Terceiro, vamos analisar a plausibilidade específica do ômega-3.  O argumento mais usado é a propriedade redutora de triglicérides. No entanto, triglicérides não é um fator de risco validado por evidências de reversão, visto que falharam as tentativas (com drogas mais potentes) de demonstrar que redução de triglicérides reduz risco cardiovascular. No caso do REDUCE-IT, em uma amostra com triglicérides basal de 216 mg/dl, houve redução absoluta de 40 mg/dl. Será que este grau de redução justificaria uma redução relativa do risco de mesmo tamanho de efeito das estatinas, drogas anti-hipertensivas ou beta-bloqueador na ICC? Provavelmente, não.

Mas aqui entra uma novidade: diferente dos inúmeros estudos negativos, o REDUCE-IT testou uma forma especial de ômega-3 purificado, vendida nas farmácias americanas sob prescrição médica, pelo valor de 245 dólares com desconto (2 meses de tratamento), comercialmente conhecido como VASCEPA. 

O que justifica a produção desta forma purificada, muito mais cara do que o ômega-3 comum? Os suplementos de ômega-3 contém dois tipos de ácidos graxos, o eicosapentaenoico (EPA) e docosahexaenoico acid (DHA). Já o VASCEPA contém predominantemente o EPA, em uma concentração quase 10 vezes maior do que nos demais estudos. Teoricamente o EPA seria melhor do que o DHA, pois o primeiro não aumenta o LDL-colesterol, enquanto o segundo aumenta. Mas isso poderia justificaria uma redução relativa de risco de 25% não observada nos demais estudos? Quanto o EPA aumenta o LDL-colesterol? Em comparação direta com EPA, o DHA aumenta o LDL-colesterol em 3.3% (Medscape). Ou seja, não há plausibilidade de que esta diferença laboratorial faça diferença clínica.
Quarta pergunta, há um estudo japonês que sugere benefício da formulação purificada, mas não é um estudo cego. Portanto, devido ao alto risco de viés não podemos afirmar que evidências prévias aumentam a probabilidade da hipótese clínica. 

Sendo assim, dos quatro critérios de plausibilidade, apenas o primeiro deles é preenchido (hipótese a priori). No entanto, (2) como suplemento alimentar o resultado é bom demais para ser verdade, (3) não há um mecanismo que o justifique e (4) não havia evidências prévias de qualidade neste sentido. Portanto, a probabilidade pré-teste da hipótese ser verdadeira antes de sabermos do REDUCE-IT era baixa.

O REDUCE-IT, por ser um estudo de boa qualidade,  eleva o status de probabilidade da hipótese. Porém, dentro do raciocínio de probabilidade condicional, partindo de baixa probabilidade, ficamos com um moderado valor preditivo positivo do estudo. Estamos agora com uma hipótese promissora, que necessita do paradigma da reprodutibilidade para se tornar uma hipótese comprovada. 

Precisamos de mais um bom estudo reproduzindo estes achados. Este estudo não precisa ser idêntico ao primeiro, pode haver variações de população alvo ou aplicabilidade do tratamento. Sendo o segundo estudo positivo, a probabilidade pré-teste que agora está em moderada, será elevada a alta. E assim adotaremos a conduta preventiva. 

Aqui estamos diante da situação em que um estudo de boa qualidade requer um segundo confirmatório: quando a probabilidade pré-teste é muito baixa. 

Por que esperar?


É natural termos o desejo de implementar os resultados do REDUCE-IT de forma imediata e suspeito que assim será feito pelos guidelines. Esse desejo é mediado pela mentalidade do médico ativo, que traz uma sensação de omissão em não prescrever um VASCEPA no nosso próximo paciente de alto risco para eventos cardiovasculares. O que, portanto, justificaria permanecermos com o princípio da hipótese nula até que os dados do REDUCE-IT sejam reproduzidos?

Esse incômodo vem em grande parte da nossa percepção intuitiva de que os tratamentos comprovados oferecem um benefício determinístico.  Denomino isto de “viés cognitivo do NNT = 1”.  É assim que nos sentimos quando prescrevemos uma terapia benéfica a um paciente. Enquanto a sensação é de que estamos promovendo um benefício, na realidade estamos oferecendo uma pequena probabilidade de benefício, representada pela redução absoluta do risco. É a minoria que de fato receberá o benefício de uma prescrição adequada, no caso do REDUCE-IT apenas 5% dos pacientes. Ou apenas um paciente dentre 20 prescrições (NNT = 20). Se incluirmos a incerteza de um valor preditivo positivo moderado da hipótese ser verdadeira, estaríamos em um território ainda mais incerto. 

Mas o problema não é apenas a incerteza. Existem as consequências não intencionais: custo monetário, seja individual ou a um sistema de saúde (O SUS deve pagar VASCEPA?), efeitos adversos. Por exemplo, 33% dos pacientes exibiram efeitos gastro-intestinais relacionados à administração do óleo, tal como o grupo placebo que também recebeu uma quantidade pouco usual de óleo mineral. As consequências não intencionais são múltiplas, imprevisíveis, comparadas a uma única consequência benéfica, duvidosa conceitualmente e que se verdadeira ocorrerá em apenas 5% dos pacientes. Assim, fica questionável se a probabilidade de benefício supera o "custo".  Tudo isso justifica o "conservadorismo" na adoção de condutas médicas. 

Por fim, existe uma consequência não intencional relacionado ao ecossistema científico: a cultura do medical reversal. Medical reversal é definido como uma conduta médica tradicionalmente utilizada que acaba sendo provada como não benéfica a posteriori. Vinay Prasad publicou em 2013 uma revisão dos trabalhos originais durante 10 anos consecutivos no NEJM. Dos trabalhos que testaram condutas médicas já praticadas, 40% mostraram resultados negativos e 22% resultados inconclusivos, sendo confirmadas a eficácia das condutas em apenas 38% dos casos. Ou seja, uma taxa de medical reversal de pelo menos 40%. Isso indiretamente sugere que boa parte do que fazemos será demonstrado como ineficaz. Essa é a cultura do medical reversal. 

Medical reversal é prejudicial para os pacientes que receberam condutas inadequadas, para o sistema de saúde de desperdiçou recursos, mas principalmente para o ambiente científico que vive aceitando conceitos, alguns tão enraizados que se sustentam como conduta mesmo depois do surgimento de trabalhos negativos de boa qualidade. 

Considerando portanto o potencial benefício da aplicação de uma conduta de valor preditivo positivo moderado versus as consequências não intencionais individuais, coletivas e culturais, devemos elevar nosso limite de tolerância para aceitação de condutas médicas.

O REDUCE-IT deve ser valorizado como uma evidência de qualidade. Neste contexto, a leitura de uma evidência deve ser mais ampla do que o critical appraisal do artigo, levando em conta a qualidade da ideia dentro de um processo bayesiano de pensamento. Por fim, um processo de decisão baseado em evidências deve considerar o paradigma probabilístico dentro do pensamento econômico da probabilidade de benefício versus consequências não intencionais do medical reversal. 

O REDUCE-IT representa a ressureição da hipótese o ômega-3, que evolui de falsa para possível. Mas ainda precisamos da replicação deste resultado para considerar o ômega-3 uma verdade confirmada. 

---------------------------------------------------------------------------------


Conheça nosso novo Curso Online de MBE, clicando aqui.

O Valor Científico da “Balbúrdia”


O governo federal cortou 30% do orçamento de três universidades federais (UnB, UFBA, UFF), posicionadas nas nona, décima-quarta e décima-sexta posições no ranking das melhores universidades do país. O argumento para o corte de verbas foi a “balbúrdia” promovida por estas universidades em seus campi. Paradoxalmente, estas três apresentam aumento respectivo de 109%, 102% e 84% de produção científica nos últimos dez anos, comparadas a uma média nacional de 65%. 

Com isto, nossos governantes geram um curiosa hipótese científica: balbúrdia aumenta produção científica. Neste texto, defenderei a plausibilidade científica desta hipótese, baseado na ciência da psicologia cognitiva, que demonstra uma positiva associação entre não-conformismo e criatividade. Criatividade por sua vez é uma característica marcante de grandes cientistas. 

Embora predomine a discussão e o ensino de metodologia científica no ambiente acadêmico de pós-graduações, a utilização adequada da técnica científica é uma mera obrigação do pesquisador. Não é um diferencial. O diferencial está na ideia da pesquisa, que deve ser  promissora, original e impactante, seja do ponto de vista pragmático ou epistemológico.  

Na verdade, temos um problema de criatividade, boa parte das pesquisas feitas no mundo são inúteis, servindo mais para incrementar carreira de pesquisadores ou acadêmicos. A falta de criatividade decorre em grande parte do conformismo acadêmico. Temos uma tendência biológica a nos enquadrar em uma forma de pensamento, para que sejamos aceitos como parte de uma comunidade, uma tribo. Esse enquadramento reduz criatividade.

O academicismo tradicional é anti-criativo em sua rigidez de forma (as vírgulas que faltam nas teses, as referências que falharam em ordem), na exigência de métodos previsíveis, na hierarquia universitária, na postura “engravatada”. As universidades do futuro abandonarão as gravatas e adotarão um ambiente que fomente inovação, a exemplo das atuais empresas de tecnologia, como o Google. 

Como proposto por Don Norman, cientista da cognição que está por trás de muitas inovações da Apple, uma parte essencial do processo de inovação é o prazer do inovador. Sendo o processo prazeroso, há liberação de dopamina, que amplia nossa visão e interpretação. Quem sabe não é o prazer intrínseco da liberdade de ação e expressão presente em uma boa balbúrdia. 

Por outro lado, a rigidez e “estresse acadêmico” produz adrenalina, que promove foco excessivo em um problema, nos fazendo perder a visão do todo. Reduz criatividade. 

Por estes motivos, minha hipótese é que as “balbúrdias” das UFBA (a universidade em que me formei médico, doutor e livre-docente), UnB e UFF decorrem do não conformismo criativo,  expresso pela liberdade de expressão em seus campi, criando uma espécie de ambiente fomentador de inovação. 

Em seu marcante discurso para os formandos da Universidade de Stanford, Steve Jobs conclui: “stay hungry, stay fool”. O ser "inocente" (fool) de Jobs é aquele que não tem medo de ter ideias diferentes. É  aquele menino que apontou que o rei estava nu, a mais forte expressão de nossa orgulhosa balbúrdia. 


sexta-feira, 19 de abril de 2019

Metailusão: o paradoxo das meta-análises



Metailusão conota uso inapropriado do desenho de meta-análise para criar a ilusão de que uma ideia é verdadeira ou mais promissora do que evidências suportam. Metailusão gera o paradoxo da meta-análise, quando a análise conjunta de estudos traz uma visão mais enviesada do que a análise separada de cada estudo.

Cunhamos este termo há alguns anos em "carta ao editor" do JAMA Internal Medicine, que resumia o conteúdo de uma postagem prévia deste Blog. 

Nesta discussão, pretendo diferenciar o (grande) valor das revisões sistemáticas do (modesto) valor de meta-análises. Como sabemos, meta-análise é a análise estatística que pode estar contida em revisões sistemáticas. Esta abordagem tem certa utilidade (vide  outra postagem) se estiver no contexto adequado. No entanto há também potencial de enviesar nossas mentes para o lado da crença não embasada em evidências (metailusão). 

O grande valor de uma revisão sistemática reside na descrição do estado atual do conhecimento a respeito de um determinado assunto. Descrevendo o conhecimento, a revisão sistemática pode (1) evidenciar que um conceito está comprovado por evidências de alto nível, (2) indicar que no presente não há evidências suficientes a respeito do conceito ou (3) indicar que há evidências suficientes (qualidade) para reduzir a probabilidade de um conceito ser verdadeiro a um nível tão baixo que nem vale a pena continuar insistindo cientificamente na ideia.

Resumindo, o valor de revisões sistemáticas está em demonstrar se um conceito está ou não comprovado. Não devemos confundir isso com o papel de criar uma evidência a favor de um conceito. Se o conceito não está comprovado, não deve caber à revisão sistemática “criar” esta comprovação. 

No entanto, muitas delas se utilizam de meta-análises para criar novas medidas de associação como se estas representassem um novo dado a respeito do assunto. Não é um novo dado, é apenas um compilado de dados antigos. 

Se dados antigos não comprovaram o conceito, não será o compilado deles que comprovará o conceito. 

Mas então, para que servem as meta-análises, que estatisticamente compilam resultados de estudos prévios?

Este compilado de estudos resulta em uma medida denominada “efeito sumário”. O verdadeiro valor desta métrica está em aumentar a precisão de algo que já sabemos ser verdadeiro. Se bons estudos comprovam uma hipótese, o compilado destes bons estudos aumentará a precisão do tamanho do efeito desta hipótese. 

Por exemplo, eu sei por bons estudos que um tratamento é benéfico, representado por um risco relativo cujo intervalo de confiança é estatisticamente menor do que a nulidade. O compilado meta-analítico dos riscos relativos resultará em um intervalo de confiança mais estreito, permitindo uma percepção mais precisa do tamanho do efeito. 

Esta é a utilidade do efeito sumário: aumentar a precisão do que já sabemos. Não o de gerar um conhecimento antes inexistente. 

Nesta postagem, usarei dois exemplos de meta-ilusão ocorridos em uma mesma semana recente, cada um representando um mecanismo ilusório diferente. No primeiro exemplo, um estudo é pseudo confirmado ao ser combinado com vários estudos neutros e de menor peso. No segundo exemplo, a meta-análise tenta contradizer um bom estudo negativo ao combiná-lo com outros estudos positivos de pior qualidade. 


Dieta muito baixa em carboidrato e perda de peso


Imaginem 13 estudos testando uma mesma hipótese: 12 são neutros, com intervalos de confiança orbitando em torno da nulidade, enquanto apenas um único estudo é positivo. 
O estudo positivo é o maior e melhor, publicado na revista de maior impacto em medicina.

Surge então uma revisão sistemática que combina meta-analiticamente estes 13 estudos e conclui positivamente: “indivíduos assigned to a very-low-carbohydrate diet achieved a greater weight loss than those assigned to low fat diet”


twitter da organização australiana Public Health Collaboration, promotora de estilo de vida, entusiasticamente anuncia: “Meta-analysis of controlled trials - Ketogenic Diets (very low carbs) achieved greater weight loss than Low Fat diets in the long term. Keto diets should be a tool for reducing obesity.”

Os 13 estudos eram ensaios clínicos que randomizaram indivíduos para dois tipos de dieta visando redução de peso: muito baixa em carboidrato (very low carbversus baixa em gordura (low fat).

Qual deve ser o impacto desta meta-análise na nossa percepção da realidade? Seu resultado positivo deve nos enviesar em prol da crença ou o conjunto dos dados deve nos tornar mais céticos?

Este é um perfeito exemplo do que denomino de metailusão, a utilização do sumário estatístico (meta-análise) de vários estudos para “confirmar” o resultado de um estudo positivo, basicamente pela influência (repetição) deste mesmo estudo positivo. 

Dos 13 estudos, o único positivo foi o de melhor qualidade (maior, mais preciso, menor erro-padrão, maior influência na meta-análise). Este foi o ensaio clínico DIRECT publicado no New England Journal of Medicine. Embora seja o estudo de melhor qualidade, este ainda não é uma evidência confirmatória. 

Ao compilar seu resultado com outros 12 pequenos estudos, a medida sumária da perda de peso reduz de - 2 Kg para - 0.9 Kg, no entanto ainda permanece estatisticamente significante, pois o estudo positivo é o de maior peso no cálculo. Quando este é somado aos estudos neutros, permanece positivo. Observem a analogia numérica:

1 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 = 1. 

O que seria mais verdadeiro, 0 ou 1? Se por um lado isso não prova que zero é a verdade, isso muito menos prova que 1 é a verdade. 

Não vale como uma evidência incremental, nem confirmatória do estudo positivo. Pois o resultado se deve ao mesmo estudo que sugere positividade. É uma mera repetição, fantasiada de um novo resultado.

Se olharmos apenas o efeito sumário, concluiremos que a hipótese é verdadeira. Mas se utilizamos a visão do todo, perceberemos que a revisão sistemática (a propósito muito bem feita, por grupo brasileiro) na verdade reduz a probabilidade da hipótese ser verdadeira. 

A depender do olhar, a revisão sistemática pode ter mensagens opostas. 


Forest Plot


Muitos pensam que o gráfico principal de meta-análises se chama “floresta” pois a figura se parece com uma floresta. Nada a ver, olhem bem, isso não se parece com floresta alguma. Floresta é uma analogia: a meta-análise serve para promover a visão do todo (floresta), desfocando nossa visão de apenas uma árvore. 

Mas nossa mania mental de categorização faz com que foquemos apenas do efeito sumário, no pequeno diamante na base do gráfico que não toca a nulidade, indicando significância estatística. Assim voltamos ao paradoxo da categorização, comentado na postagem passada. Algo que é feito para reconhecer incerteza, para promover a visão do todo, é sequestrado para gerar uma categorização positiva. Neste momento, uma floresta é transformada em uma mera árvore. 

Vejam abaixo o forest plot tirado da publicação low carbo. Observem os intervalos de confiança dos estudos.  Deletem mentalmente a imagem da linha vertical que indica a nulidade. Isso permite que olhemos os dados sem a platônica categorização. Permite a visão do todo. Podemos observar que os intervalos de confiança são superponíveis. Doze estudos possuem o mesmo significado. 

Agora recoloquem a linha da nulidade. Do ponto de vista categórico, os doze estudos estão longe da rejeitar a hipótese nula, apenas orbitam em torno na nulidade. Não encontramos evidências suficientes contra a hipótese nula. 




Em particular, esta boa revisão sistemática sobre very low carb versus low fat me trouxe a ideia de que todos os estudos são negativos, exceto um deles. Embora esse único positivo seja o melhor dos estudos, a meta-análise me trouxe o valor de reforçar minha incerteza a respeito da prova do conceito do valor intrínseco de um tipo de dieta na perda de peso. 

Para entusiastas da dieta low carb (pessoalmente eu sou, mas profissionalmente devo conter minha preferência dentro de uma caixa científica), nada como a ciência reforçando a incerteza. A elegância científica está no reconhecimento da incerteza e não na confirmação forçada de uma crença pré-estabelecida. 

Fugindo da incerteza, a interpretação do Public Health Collaboration foi "cientificamente deselegante" ao utilizar essa meta-análise para pseudo confirmar uma hipótese não confirmada. 


Metailusão da Denervação Renal


O fenômeno de metailusão está em toda parte. Na mesma semana foi publicado no Journal of American College of Cardiology uma meta-ilusão que tentou ressuscitar a hipótese de que denervação renal serve para controlar hipertensão arterial. 

Este caso possui um mecanismo ilusório diferente do exemplo anterior: temos um grande e preciso estudo negativo, dois pequenos e imprecisos estudos negativos e três pequenos e imprecisos estudos positivos. 

0 + 0 + 0 + 1 + 1 + 1 = 3. 

O que é mais verdadeiro, zero ou 3? 

Esta me parece ser uma pergunta mais capciosa do que a matemática do exemplo low carb, onde minha argumentação meta-ilusória é mais óbvia. 

Mais uma vez, essa revisão sistemática serve para nos mostrar a incerteza a respeito da questão. Mas os autores preferem utilizar o efeito sumário que alcançou significância estatística (quase na trave) para concluir: “RSD significantly reduced blood pressure compared with sham control.”

Para que esta postagem não fuja do foco e não fique extensa demais, deixarei o que escrevi sobre o contexto científico da denervação renal para uma postagem a seguir. Aqui o que importa saber é que o primeiro estudo (negativo) possui método e tamanho amostral para ser considerado alto nível de evidência, enquanto todos os estudos subsequentes são subdimensionados, o que aumenta o risco tanto do erro tipo II (falso-negativo) como do erro tipo I (falso-positivo).

Um conceito importante a ser lembrado aqui: o resultado de um estudo é mais influenciado por aspectos metodológicos do que variações populacionais e metodológicas (interação é fenômeno raro). 

Portanto, mesmo que autores aprimorem um pouco a técnica de ablação (eles argumentam isso),  um método científico piorado terá maior impacto no resultado.  Assim, o novo resultado (positivo) vem de falha no método científico ou aprimoramento do método de tratamento? Em geral a verdade está na primeira opção. 

Portanto, esta meta-ilusão não deve servir para considerar a ablação como um método eficaz na redução da pressão arterial, tal como sugerido pelos autores e leitores desta revisão sistemática. 

Essa meta-análise não deveria ter sido “notícia” como foi nos sites médicos. 


O Mito das Meta-análises


Na ausência de evidências empíricas, há duas formas efetivas de parecer convincente em relação à existência de um fenômeno: primeiro, explique o porquê que o fenômeno existe,  pois a ideia de um mecanismo racional nos faz “acreditar” no fenômeno. Observem que os gurus da saúde explicam “profundamente” o mecanismo de fantasias, apelando inclusive para física quântica. 

Porém esta primeira forma não acaba com a discussão, visto que interlocutores céticos tenderão a questionar seus mecanismos com outros mecanismos. Então surge a segunda forma, esta imbatível. Simplesmente comece a frase com “há uma meta-análise demonstrando que …”, pois contra essa frase não há argumentos. 

“Há uma meta-análise que demonstra a superioridade do time do Bahia quando comparado ao Vitória” finalizaria qualquer debate polarizado. Meta-análise é a voz de Deus. Pena que não há meta-análise para terminar com essa boba (porém divertida) discussão: ambos são péssimos, Paulinho Rocha. 

No entanto, boa parte das meta-análises possuem conclusões metailusórias.

Diferente do que muitos pensam, meta-análise não deve modificar nosso pensamento categórico de “não sei” para “agora sei”.

Quando não há estudo de caráter confirmatório, a “média” de estudos exploratórios não fabrica um estudo confirmatório. Portanto, meta-análise não tem a capacidade de rejeitar uma hipótese nula não rejeitada por estudos individuais. Por outro lado, quando há estudo (s) confirmatório (s) positivo (s), já sabemos a resposta e a meta-análise não modifica categoricamente uma percepção que já existe. 

Portanto, meta-análise não serve para comprovar ou negar. Para que serve então? 

Já falei lá em cima, mas vou repetir agora: revisões sistemáticas e suas análises estatísticas (meta-análises) servem para descrever o universo de conhecimento a respeito de um assunto, podendo ter duas mensagens: (1) evidenciar a incerteza, dizer o que ainda não sabemos; (2) ou aumentar a precisão (estreitar o intervalo de confiança) do que já sabemos.

Revisões sistemáticas se prestam muito mais a descrever o conjunto de evidência a respeito de uma pergunta, e muito menos para responder a pergunta. Equivocada portanto é a clássica pirâmide que coloca meta-análise no topo, acima de estudos individuais. 

Na pirâmide devem estar apenas os estudos primários. Revisão sistemática e meta-análise não são para ocupar lugar na pirâmide. Servem na verdade para descrever e analisar a pirâmide. 



Reflexões Finais


O universo científico é repleto de informações falsas, que mais comumente são positivas do que negativas. O método científico, criado para reduzir conclusões equivocadas, tornando mais rígido nosso critério de teste de hipótese, é frequentemente sequestrado para provar o que não é verdadeiro. Revisões sistemáticas, criadas originalmente para descrever criticamente o grau de conhecimento a respeito de um assunto, vêm sendo sequestradas para comprovar o que não está provado ou fazer uma ideia parecer mais promissora do que a realidade. 

Esta postagem remete ao viés cognitivo denominado bounded awareness (consciência limitada), que ocorre quando o foco em algo muito específico prejudica a visão do que seja mais importante. Esse viés é retratado neste vídeo do YouTube quando uma tarefa que requer atenção específica (contar no número de passes em um jogo de basquete) impede que as pessoas percebam que um gorila que entrou na quadra.  Esse tipo de viés está por trás de muitos exemplos em que a expressão “o elefante na sala” é usada, como já fizemos em postagem recente neste Blog. 

No caso da meta-ilusão, nossa atenção fica tão focada do diamante da medida sumária, que perdemos a visão do óbvio contido no todo. 
Psicólogos sugerem algumas estratégias para superar este viés: trazer sempre uma pessoa de mente mais inocente ou menos enviesada para a discussão, evitando o “viés da tribo” (como aquele menino que percebeu que “o rei estava nu”); procurar ampliar nossa visão, sendo advogados do diabo de nossas próprias ideias; por fim, utilizar do tempo, olhar as coisas mais de uma vez, com calma, de forma reflexiva.

Acho isso importante, pois grande parte das vezes aceitamos metailusões sem ler o trabalho. Tenho insistido nisso ultimamente: gastar 20 minutos lendo o método e resultados de um artigo é essencial antes de aceitar a conclusão e principalmente antes de “retwittar” informações. 

Leonardo da Vinci nos presenteou com a renascentista frase “simplicidade é a mais elegante forma de sofisticação”.  Eu diria que a simplicidade da incerteza é a mais elegante expressão da ciência.

Revisões sistemáticas servem para mensurar o grau de incerteza presente em um campo de ideias, indicando o grau de confiabilidade a respeito de conceitos. Revisões sistemáticas não servem para fabricar comprovações inexistentes no campo científico anterior à meta-análise.

---------------------------------------------------------------------------------

Conheça nosso novo Curso Online de MBE, clicando aqui.

terça-feira, 16 de abril de 2019

sábado, 30 de março de 2019

Devemos aposentar a significância estatística?


Na semana passada viralizou artigo da Nature com o título “Retire Statistical Significance”, o qual traz reflexão crítica a respeito do dogmatismo estatístico. Neste texto, apresentarei dois lados da mesma moeda. De um lado, o valor da reflexão trazida pelos autores, do outro lado, consequências não intencionais da aposentadoria do conceito de significância estatística. O primeiro ponto de vista tem relação com o viés da superestimativa do valor, o segundo ponto guarda relação com o viés do positivismo. 

O conceito de significância estatística é dicotômico, ou seja, categoriza a análise em positiva ou negativa. Categorizar traz utilidade pragmática, porém toda categorização é um reducionismo arbitrário. Ao categorizar por questões pragmáticas, deveríamos entender categorias como algo de menor valor do que a visão do todo. O paradoxo da categorização ocorre quando passamos a valorizar mais a informação por esta ser categórica do que uma informação contínua. A informação contínua aceita os tons de cinza, o intermediário, a dúvida, enquanto a categórica traz um tom (pseudo) definitivo à afirmação. 

Estatística é o exercício de reconhecer a incerteza, a dúvida, o acaso. A definição de significância estatística foi originalmente criada para dificultar afirmações decorrentes do acaso. O intervalo de confiança foi criado para descrever a imprecisão de nossas afirmações. Estatística é o exercício de integridade e humildade do cientista. 

No entanto, o paradoxo da categorização traz um certo dogmatismo. Primeiro, os autores do artigo da Nature apontam a supervalorização de resultados negativos. Na recente postagem “o sentido de estudos negativos” abordei exatamente isso: estudo negativo não é o que comprova inexistência, o que seria impossível; simplesmente, é um estudo que não comprovou existência. Portanto, a rigor “ausência de evidência não é evidência de ausência” como disse Carl Sagan (frase muito boa, porém sequestrada por crentes). Ou seja, “o estudo comprovou que não existe diferença” não é a melhor forma de colocar, melhor é “o estudo não comprovou diferença”.

Não devemos confundir esta colocação com a ideia de que um estudo negativo não quer dizer nada. Tem valor e tem impacto. O impacto de um estudo negativo (P > 0.05) está na redução da probabilidade de o fenômeno existir. Na medida em que bons estudos não conseguiram comprovar, a probabilidade do fenômeno vai caindo a ponto de ficar tão baixa que não vale mais a pensa continuar tentando provar, ficaremos com a hipótese nula como o caminho de pensamento mais provável. 

Um estudo negativo não é necessariamente contraditório com um estudo positivo. Pode ser que o resultado dos dois seja o mesmo, apenas um não conseguiu rejeitar a hipótese nula e outro estudo conseguiu rejeitar. Um não conseguiu ver e outro conseguiu ver. Na verdade, como discuti na postagem "estudo positivo versus negativo", na maioria das vezes apenas um dos dois estudos está correto. 

Por fim, o paradoxo da categorização faz com que acreditemos em qualquer significância estatística, embora a maioria seja falso positivo (Ioannidis). P < 0.05 não é comprovação irrefutável. Estudos subdimencionados, multiplicidade de análises secundárias, vieses podem fabricar falsa significância estatística.

Na verdade, o valor preditivo (negativo ou positivo) de estudos não reside apenas na significância estatística. Depende da qualidade do estudo e da análise, do ecossistema científico e da probabilidade pré-teste da ideia. 

Portanto, os autores do artigo da Nature estão corretos criticar a visão determinística da significância estatística. 

Mas será que devemos mesmo aposentar significância estatística? 

Seria aposentar um advento que historicamente foi responsável por uma grande evolução de integridade científica. No entanto, tudo que é bom tende a ser sequestrado. E artistas da falsa positivação de estudos sequestraram o advento do valor de P (feito para dificultar o erro tipo I) para provar coisas falsas. 

Se por um lado a aposentadoria da significância estatística evitaria o paradoxo da categorização, por outro lado abriria espaço para o viés da positividade, nosso tropismo por criar ou absorver informações positivas. 

A crítica à significância estatística, neste e em outros artigos da moda, não trazem uma alternativa melhor. Por exemplo, o próprio autor do trabalho do Nature reconhece que outras abordagens estatísticas mais recentes (bayesiana, por exemplo) não abandona o paradigma da categorização. Inclusive, em certas passagens os autores mencionam que não propõem um total abandono da noção de significância estatística. Na minha visão, o título não está de acordo com o verdadeiro teor do artigo. Acho que faltou uma interrogação no título: "Retire Statistical Significance?"

Hoje se fala muito mais em integridade científica do que há duas décadas. Mas ao abordar esse assunto com mais ênfase do que no passado, parece que este é um problema pior nos dias de hoje. Não é o caso. Experimentamos clara evolução de integridade científica: conceitos de multiplicidade são mais discutidos do que no passado, ensaios clínicos têm obrigatoriamente seus desenhos publicados a priori, normas CONSORT de publicação são exigidas por revistas, fala-se muito mais em transparência científica, open science, slow science. Estamos evoluindo. E o primeiro passo da integridade foi a criação da noção de significância estatística na primeira metade do século passado por Ronald Fisher. 

Trabalho publicado na PLOS One (Bob Kaplan) analisou durante um longo período de anos os resultados de ensaios clínicos financiados pelo NIH. Antes do ano 2000, quando não havia a necessidade de publicar previamente o protocolo, a frequência de estudos positivos era 57%, caindo para apenas 7% de estudos positivos após a regra de publicação a priori. Antes os autores positivavam seus estudos por análises múltiplas a posteriori. Hoje isso está muito melhorado pela obrigatoriedade de publicação a priori.

Parece que virou elegante criticar o valor de P, o que parece traição com um advento de grande importância histórica e que até agora não encontrou um substituto melhor. Não é culpa do P ter sido sequestrado por pesquisadores mal intencionados. É culpa dos pesquisadores. 

Portanto, proponho manter o valor de P e adotar as seguintes medidas:

  • Descrever o valor de P apenas quando o estudo tiver uma dimensão adequada para o teste de hipótese. Do contrário, este ganharia um caráter mais descritivo, sem utilizar associações para testes de conceitos. Isso evitaria falso positivos decorrentes de “estudos pequenos”, a maioria dos artigos publicados. Para se ter uma ideia, a mediana do poder estatístico de estudos em biomedicina é 20%.
  • Não descrever o valor de P em análises de desfechos secundários. 
  • Em análises de subgrupo (exploratórias), utilizar apenas o P da interação (mais conservador e difícil de dar significativo), evitando o valor de P obtido pela comparação dentro de um subgrupo (estudos pequenos). 
  • Incluir no CONSORT a obrigatoriedade de autores explicitarem no título de subestudos que aquela é uma análise exploratória e secundária de um estudo previamente publicado. 
  • Abandonar o termo significância estatística, substituindo-o por veracidade estatística. Estatística é utilizada para diferenciar associações causais verdadeiras de pseudocausalidades mediadas pelo acaso. Portanto um valor de P < 0.05 conota veracidade. Se a associação é significante (relevante), depende da descrição da diferença numérica ou das medidas de associação de desfechos categóricos. Utilizemos, portanto, veracidade estatística, isso evitará a confusão entre significância estatística e significância clínica. 

Finalmente proponho o advento do índice de integridade do pesquisador.

Este índice será calculado pela razão entre o número de estudos negativos / número de estudos positivos. Um índice de integridade < 1 indica um pesquisador de integridade questionável. Este índice se baseia na premissa de que a probabilidade de uma boa hipótese ser verdadeira é menor do que 50%. Portanto, deveria haver mais estudos negativos do que estudos positivos. Isto não ocorre devidos às técnicas de positivação de estudos (pequenos trabalhos, multiplicidades, vieses, spin de conclusões) e pelo viés de publicação que esconde os estudos negativos. Um autor íntegro seria aquele não utiliza destas práticas, portanto teria vários estudos negativos e poucos positivos, resultando em índice de integridade bem superior a 1.

O artigo da Nature foi útil para promover reflexão sobre pros e cons da significância estatística. Mas não chega a propor aposentadoria. Seria como aposentar um daquelas pessoas ainda muito produtivas. Pelo contrário, que a significância estatística continue atuante e evoluindo progressivamente na forma de utilização. A tese de doutorado do meta-cientista Diego Rabelo, orientado por mim, tem como objetivo a criação e validação deste índice. Teremos resultados em breve. 

Que aprendamos a valorizar também um P > 0.05. Afinal, a imprevisibilidade da vida é representada por esta simbologia, boa parte do nosso destino é mediado pelo acaso. 

Ou nada é por acaso?


--------------------------------------------------------------------------------------------------------------------------


Acesse nosso Curso Online de MBE, clicando aqui