domingo, 1 de novembro de 2020

O Mito da Geração de Hipótese em Análise de Subgrupo

 


É muito comum análises de subgrupos positivas em estudos primariamente negativos serem elegantemente validadas pela expressão “geração de hipótese”. Neste texto, explicarei porque esse é um equívoco que erroneamente causa um spin de positividade na mente do consumidor de ciência. Ao final, demonstrarei como devemos gerar hipóteses científicas a partir de estudos negativos, que começa por não negar o conceito da negatividade proveniente do próprio estudo. 


[Neste post, irei direto ao assunto e não comentarei em profundidade das limitações e como interpretar análises de subgrupo. Faremos em outra oportunidade, mas caso se interessem, isso está presente em 4 aulas sequenciais de nosso Curso online de MBE, no módulo tratamento]


Em primeiro lugar, não se gera hipóteses a partir de evidências empíricas hipotético-dedutivas, pois nesse processo contemporâneo de fazer ciência, proposto por Karl Popper, a hipótese é gerada antes da análise dos dados. Desta forma, a análise de dados empíricos não pode gerar uma hipótese que já existia como própria justificativa para a análise. 


Hipóteses são geradas (nascem) a partir de dois processos: primeiro, o pensamento de cientista  que reflete sobre o porquê das coisas ou tenta imaginar uma solução pragmática. Essas hipóteses podem nascer do inconsciente do cientista (serendipity), da lógica de seu pensamento ou de observações do mundo externo no processo de indução científica. Indução é quando a observação vem antes da hipótese, aqui sim devemos denominar de geração de hipótese.


função de uma evidência empírica hipotético-dedutiva, seja por análise primária ou secundária, é modular a probabilidade de uma hipótese que foi gerada antes do experimento/análise. Modular probabilidade é diferente de gerar hipótese. 


Assim, surge a segunda questão: como uma análise de subgrupo positiva dentro de um estudo negativo modula a hipótese?


Precisamos pensar no impacto do estudo. O quanto um estudo negativo em sua análise geral, mas positivo no subgrupo de olhos verdes, aumenta a probabilidade da hipótese ser verdadeira neste subgrupo?


Para isso, precisamos entender o princípio da raridade da interação. Interação é modificação de efeito. Seria como se ter olhos verdes modificasse o efeito de um tratamento. Assim, haveria interação entre cor dos olhos e eficácia do tratamento, no sentido de que em pessoas de olhos verdes o tratamento seria benéfico, diferente das outras pessoas. No entanto, esta não é a tendência da natureza, interação é um fenômeno raro. Se interações quantitativas (mudança da magnitude de efeito) são raras, as qualitativas (mudar de ausência de efeito para presença de efeito) são menos prováveis ainda. 


Assim, quando um estudo “falseia” uma hipótese, reduz a probabilidade desta hipótese ser verdadeira não só na população geral, mas em cada tipo de pessoa, incluindo as pessoas de olhos verdes. Um conceito científico negativo tende a ser generalizável


Agora imaginem que a análise de subgrupo nas pessoas de olhos verdes foi positiva. Sabemos que análises de subgrupo positivas em estudos negativos tendem a ser obra do acaso, mesmo que sejam planejadas a priori. Isso ocorre pelo problemas das múltiplas comparações, reduzido poder estatístico (insufla o erro tipo I) e porque o próprio estudo já reduziu a probabilidade da hipótese. 
Portanto, a força dessa análise de subgrupo positiva em aumentar a probabilidade é menor do que a força da análise primária em reduzir a probabilidade em todos os subgrupos, de uma forma geral. Ao final, saímos do estudo com um probabilidade menor de algo funcionar em pessoas de olhos verdes, independente da análise de subgrupo positiva. 


É incoerência querer que um mesmo estudo tenha duas mensagens antagônicas, como se isso fosse comum. O estudo rejeita o conceito e sugere o mesmo conceito em um subgrupo. Pensar assim é contraproducente e apenas atrasa nossa percepção da realidade. 


Isso também pode ser explicado pelo raciocínio bayesiano, levando em conta a sequência da análise. A primeira análise é aquela realizada na amostra geral. Esta é negativa e reduz a probabilidade de algo funcionar no subgrupo de olhos verdes. Depois vem uma análise de subgrupo positiva nos olhos verdes, que supostamente aumenta essa probabilidade que acabou de ser reduzida. Mas, pelo que expliquei, aumenta menos a probabilidade do que a análise primária reduziu. Assim, no final das contas o estudo sugere que a coisa não funciona nos olhos verdes. 


Burke et al fez estas simulações e publicou interessante artigo no BMJ 2015. Considerando que usualmente o poder estatístico de análises de subgrupo é baixo para o teste de interação, e que a probabilidade a priori é baixa, a chance da análise positiva ser falsa é muito maior do que ser verdadeira. Se essa probabilidade a priori for 10% (depois do resultado geral negativo fica assim mesmo), o poder estatístico for 20% e forem feitos 10 análises de subgrupo pré-especificadas, um resultado positivo tem apenas 20% de valor preditivo positivo. Ou seja, o estudo como um todo, mesmo com essa análise de subgrupo positiva sugere que não funciona mesmo neste subgrupo. 


No mundo pós estudo negativo, a probabilidade de algo ser verdade em um subgrupo positivo, é menor do que antes da existência daquele estudo. 


Portanto, análise de subgrupo nem gera hipótese, nem modula positivamente uma hipótese falseada pelo estudo geral. 


Análise de subgrupo são bem aplicadas quando representam o teste de hipótese principal. Por exemplo, o objetivo primário é demonstrar que um marcador genético identifica que tipo de paciente se beneficiará de uma terapia genética, confirmando a causalidade da mutação da gênese da doença. Em um ensaio clínico terapêutico, a análise de subgrupo baseada nessa alteração genética é a análise primária.


Por fim, como gerar hipóteses a partir de um resultado negativo? Isso se faz com o redirecionamento do pensamento e não pela insistência no mesmo pensamento. Usarei um exemplo contado pelo astrofísico Neil DeGrassi, de maneira bem simplificada. 


Ao analisar a órbita de planeta Mercúrio, os cientistas perceberam que esta não estava de acordo com as leis de Newton (dado negativo). Assim, redirecionaram o pensamento e geraram uma hipótese: deve existir um outro planeta que está mudando o curso de Mercúrio pela força da gravidade. Testaram essa hipótese, que de novo foi negativa. Assim, redirecionaram de novo, e surge assim outra hipótese: a teoria da relatividade geral de Einstein. Que posteriormente foi comprovada de forma empírica. 


Percebam que a geração de hipóteses a partir de dados negativos deve ser a procura de novas explicações ou soluções, o que é diferente de  ficar batendo na mesma tecla pela repetição de análises menos confiáveis ou uso de telescópios menos acurados. 


Há certas formas de pensamento equivocadas que viram tradições ou quase jargões, divergindo nosso pensamento para um sentido contrário à racionalidade científica. Falar em gerar hipóteses em contextos inadequados é banalizar esse primeiro passo do método científico hipotético-dedutivo, que deve ser feito de forma mental e não baseado em análises estatísticas. 


Usar análise de subgrupo para sugerir o contrário de um resultado primário negativo é violar princípios de probabilidade das hipóteses. 


-------------------------------------------------------------------------------------------------------------


Vejam discussão correlata em nosso MBE PodcastCanal do YouTube e tweeter


Conheçam nosso curso online de MBE, que traz o conhecimento que suporta nossas reflexões. 




sábado, 24 de outubro de 2020

Nitazoxanida (Annita) em COVID: um estudo que não merece existir

 


A pauta científica dos últimos dois dias no Brasil está centrada em um assunto que não merece existir (uso de vermicida para tratamento de COVID-19), estimulada pelo anúncio de um estudo que não merece ter sido realizado/financiado, ainda não publicado em revista científica, e que, dentre tantos materiais científicos interessantes que temos em nossa fila de leitura, não é um que merece ser lido, nem comentado efusivamente. 


O Brasil merece pautas melhores, principalmente em uma era que precisamos concentrar nossas energias cognitivas de forma eficiente. E cabe a nós, cientistas, definirmos a pauta científica de uma sociedade que, como todas, precisa evoluir em letramento científico.

 

Não gastarei minhas linhas com metodologismo a respeito desse estudo, descrevendo problemas que meus inteligentes alunos do terceiro ano do curso de medicina são capazes de perceber de relance. Proponho aqui uma discussão maior, até porque prefiro guardar minha análise crítica para estudos que merecem existir. 

 

Não gastarei palavras com minha opinião política pessoal, dizendo que estamos diante de um sequestro do paradigma científico para fins de irracionalidade política. Prefiro guardar essas minhas opiniões para uma roda de amigos, na qual me divirto contradizendo a mim mesmo, e deixando a maioria dos de direita pensando que sou de esquerda, e alguns de esquerda achando que sou de direita. 

 

Ao contrário, o que proponho aqui é uma reflexão da sociedade sobre do que se trata ciência. 

 

Essencial entender que ciência não é o mesmo que pesquisa. Pesquisa é experimentação, enquanto ciência é uma experimentação que faz sentido racional. Popper já nos alertava no século passado sobre o “problema da indução”, quando nos induzimos por um empirismo desprovido da inteligência na criação da hipótese. Presença de hipótese desprovida de probabilidade equivale, em termos práticos, a ausência de hipótese. 

 

Na verdade, minha crítica não pode ser a este estudo que foi anunciado ontem. Eu estaria falando de uma árvore irrelevante. Ao preferir olhar a floresta do ecossistema científico, percebo que há várias árvores semelhantes, que ferem a integridade científica, dentro ou fora da linha do COVID-19. 

 

Minha crítica também não se refere aos autores deste trabalho, pois não os conheço e imagino que sejam pessoas de boas intenções. Não há indivíduos culpados, prefiro pensar em um ecossistema científico defeituoso como culpado. Este sistema nos atrai cotidianamente ao pecado da falta de integridade científica, e por vezes nos seduzirmos pelo glamour de projetos pseudoglamorosos. Somos vulneráveis, pois a natureza não selecionou uma espécie rigorosa cientificamente, pelo contrário, a seleção natural ocorreu na direção da crença. 

 

Integridade científica não é o mesmo que integridade moral, não se refere a algo de cunho pessoal. Integridade científica é um conjunto de atributos, que se presentes, contribuem para a evolução cognitiva da sociedade pela boa prática científica. Volto a dizer, boa prática científica não se limita a prática de pesquisa. 

 

No sentido maior, a prática começa pelo nascimento da pergunta científica. O cientista é o que tem boas perguntas, não é um fabricador de qualquer resposta. A integridade da hipótese está em sua probabilidade. Ao escolher hipóteses de probabilidade ínfima para serem testadas, nos tornamos fúteis. A futilidade é explicada pelo pensamento científico bayesiano: se o estudo for negativo, já sabíamos disso, não há valor em reduzir uma probabilidade que já era quase nula. Se o estudo for positivo, será um falso positivo, ou melhor, seu valor preditivo positivo será baixo. 

 

Neste ponto do texto, preciso esclarecer porque essas hipóteses de antiparasitários ou antimaláricos têm probabilidade a priori próxima da nulidade no tratamento de COVID. São três razões que nos permitem fazer esta estimativa. 

 

Primeiro, probabilidade não é o mesmo que plausibilidade. Demonstrações de efeito antiviral in vitro gera plausibilidade, mas não probabilidade. Depois da comprovação de efeito anti-viral in vitro, é altamente provável (quase certeza) que a droga não tenha efeito clínico benéfico. Isso mesmo, não errei no texto: observem quantas coisas já se demonstrou efeito antiviral in vitro contra COVID. E nenhuma delas ainda demonstrou benefício clínico. 

 

Segundo, drogas de repropósito tem probabilidade menor do que drogas desenvolvidas com propósito. O estudo SOLIDARITY, que também foi disponibilizado essa semana em formato preprint (este merece ser publicado, lido e comentado), testou quatro drogas de repropósito e nenhuma deles demonstrou benefício. Repropósito é algo sem propósito. O que não tem propósito tem ínfima probabilidade de funcionar. 

 

Fica a questão: qual o verdadeiro propósito do teste de anti-helmínticos e antimáricos para para tratar o vírus mais devastador do ponto de vista populacional nos últimos 100 anos. 

 

Terceiro, ao nascer, qualquer hipótese é muito pouco provável. Vivemos rodeados pela seleção natural das poucas ganhadoras e não temos a percepção de que a maoiria das boas hipóteses não vingaram. É o que Nassim Taleb chama de falácia narrativa. Na era COVID-19, hipóteses que acabam de nascer estão sendo submetidas a testes de eficácia clínica antes de que sua probabilidade tenha sido incrementada por um conjunto de estudos preliminares que sugerem ser este um caminho promissor. Na fastscience do COVID-19, o valor preditivo dos ensaios clínico é menor, pois as probabilidades a priori estão pouco desenvolvidas. 

 

Nossa predisposição biológica é acreditar e testar, pois evoluímos ao longo de 200.000 anos, antes de existir ciência, com o método de tentativa e erro. Ou melhor, qualquer tentativa e erro, de uma forma aleatória. E isso parece ganhar força quando pensamos que muitas descobertas científicas são surpresas. Mas aqui vai um contraponto a este pensamento que propõe o teste de qualquer coisa: 

 

Para que o inusitado apareça como verdade, precisamos de uma máquina muito mais potente de testes do que alguns milhares de ensaios clínicos. Essa máquina é o acaso. Descobertas inusitadas se dão por acaso, não porque foram pensadas. Pois quando pensamos em algo quase impossível e testamos, a probabilidade de dar certo é quase impossível. O quase impossível aparece por acaso, pois não são apenas 1000 ensaios clínicos testando 1000 ideias exdrúxulas. O mundo é uma máquina de tentativa e erro que testa infinitas possibilidades, e as inusitadas, se verdadeiras, aparecerão para nós em algum momento, como de vez em quando um cisne negro aparece. Cisnes negros não são previsíveis, não são fabricados.

 

As questões acima abordadas representam a origem básica da integridade cientifica, mas não são o único componente. A integridade também depende da metodologia do trabalho, da sua análise de dados e da interpretação. 

 

Precisamos entender que não basta randomização e controle com placebo para que um estudo seja rigoroso. Todo estudo contém limitações. Mas limitação não é o mesmo que inadequação. Limitação é uma barreira que não temos como resolver no desenho do estudo. Inadequação é algo que pode ser feito melhor, e de forma voluntária se escolhe o pior. Nesse estudo, a escolha do método de análise por protocolo, análise de carga viral final ao invés do delta da carga viral, e valorização de desfechos secundários positivos em detrimento do desfecho primário durante apresentações presenciais ferem a integridade científica. 

 

Repito, não estou aqui falando de integridade moral. Estas inadequações não são particularidades deste estudo. Na verdade , são fragilidades comumente observadas em bons pesquisadores, incluindo estudos que testas hipóteses que fazem sentido. Na minha área, cardiologia, há muito exemplos. 

 

Mas nada disso importa, pois este é um estudo negativo! Uma evidência serve para moldar a probabilidade de um fenômeno ser verdadeiro. Neste caso, este estudo reduz a probabilidade do remédio de verme funcionar para COVID-19, pois a evolução dos pacientes que usaram ou não usaram a droga foi igual, de acordo com o desfecho escolhido pelos autores para esta avaliação (primário). Simples assim. Ponto final!

 

Epílogo

 

Não estamos em crise científica. Nas diferentes sociedades, predomina uma visão de valorização da ciência, embora as pessoas precisam entender melhor o que é ciência. Ao longo do tempo, a evolução do ecossistema científico em prol de maior integridade tem sido notada. Apenas não chegamos no ponto ideal de evolução e o fenômeno social da pandemia nos mostra que precisamos continuar evoluindo. 

 

Para evoluirmos de forma mais eficiente, precisamos discutir menos evidências e mais ciência. Pensar menos nas árvores e mais na floresta. Falar menos de pessoas e mais de ideias. Na vida, damos contribuições positivas e negativas, todos nós erramos. 


Que nós, cientistas, não nos percamos na dogmatização da ciência. Evitemos uma visão maniqueísta, não sejamos Dom Quixotes lutando contra inimigos imaginários. 

 

Não há inimigos. Precisamos evoluir juntos, em prol de uma sociedade contemporânea baseada em ciência. Chegaremos lá, que digam meus alunos do terceiro ano …


-------------------------------------------------------------------------------------------------------------


Vejam discussão correlata em nosso MBE Podcast, Canal do YouTubetweeter


Conheçam nosso curso online de MBE, que traz o conhecimento que suporta nossas reflexões. 

sexta-feira, 9 de outubro de 2020

Congresso Europeu de Cardiologia: “the good, the bad and the ugly”



Um grande congresso médico, de uma grande especialidade, tem o valor de apresentar um mosaico de highlights científicos, que serve de amostra de conveniência para descrever a (ir) racionalidade de um ecossistema que se propõe a trabalhar na interface entre ciência e medicina. Com esse objetivo, analisarei em uma só postagem os cinco ensaios clínicos randomizados apresentados há 1 mês no Congresso Europeu de Cardiologia e que foram publicados simultaneamente no NEJM.

No texto, mostrarei a diferença entre “novidade” e “inovação”, parafraseando um de meus preferidos  Western ao utilizar os adjetivos “the good, the bad and the ugly” para caracterizar estes trabalhos. 


O conteúdo deste texto foi tema de recente Podcast, que intitulei o Circo Europeu da Cardiologia. Decidi trazer a discussão para formato de texto, pois as análises contém uma certa densidade, que faz necessário reflexão entre os parágrafos. Ao aguçar os ouvidos na escuta das entrelinhas dos estudos, passamos a ouvir a música como se fosse clássica, diferente do rock’n’roll de aspecto circense que grandes congressos assumem nos dias atuais. Para aquecer a mente antes da leitura, ouçam o vídeo da música composta pelo genial Ennio Morricone para o filme de Sérgio Leone, tocada pela Orquestra Sinfônica Dinamarquesa


Esta abordagem não tem o intuito de crítica pessoal a pesquisadores, nem ao meio cardiológico. Representa uma tentativa de retratar bom e o ruim do que hoje generalizamos como “ciência”.



“The Good”: Uma Elegante Prova de Conceito (LoDoCo2 Trial)



Um trial com nome de brinquedo, LoDoCo. Mas não é brincadeira, pois a elegância deste estudo está na prova do conceito de causalidade: o benefício da terapia anti-inflamatória na redução de eventos cardiovasculares nos proporciona a via final da comprovação da causalidade, pelo princípio da reversão. Se não podíamos randomizar pacientes para se inflamar ou não inflamar, foi possível randomizar para desinflamar ou não, demonstrando-se a associação entre desinflamação e redução de consequências da doença aterosclerótica.


Essa teoria inflamatória nasceu de forma deselegante, pois sem reconhecer a incerteza das evidências à época, tornou-se protagonista de aulas, livros textos, artigos de revisão. Virou moda falar em teoria inflamatória. Inicialmente se pensou que a inflamação poderia decorrer de infecção da placa aterosclerótica, porém ensaios clínico com antibióticos foram negativos, falhando em demonstrar reversão. Mas a teoria renasceu pela percepção de que estatinas promoviam redução de marcadores inflamatórios, embora fosse impossível separar este efeito da redução do colesterol. Explorou-se este efeito das estatinas como se fosse uma comprovação da teoria inflamatória. 


Até que começaram a surgir ensaios clínicos de tratamentos anti-inflamatórios que não possuem efeito redutor de colesterol. O primeiro foi o CANTOS trial, ensaio clínico publicado em 2017, que estudou 10.000 pacientes pós infarto, mostrando redução relativa do risco de eventos cardiovasculares de 15% com canakinumab comparado a placebo. Era apenas um estudo e eu pensava se a probabilidade pré-teste dessa hipótese (probabilidade ≠ plausibilidade) era suficiente para considerar apenas este como confirmatório da hipótese inflamatória. Fiquei inquieto naquela época, pensei em escrever no Blog, mas acabei por deixar para depois, visto que eu não sentia um valor preditivo positivo suficiente. Para minha surpresa, foi publicado no ano passado o COLCOT trial, estudo de 4700 pacientes pós-infarto, que usou um antigo e fora da moda anti-inflamatório, colchicina, promovendo 23% de redução relativa do hazard de eventos cardiovasculares. Parecia bom demais para ser verdade. 


Neste congresso europeu, apresenta-se e publica-se o que na minha opinião é um trabalho digno de reconhecimento. Para mim, o mais impactante trabalho apresentado nesse congresso, LoDoCo II, a confirmação final da hipótese inflamatória: 5.500 pacientes com doença coronária crônica, reproduzindo o resultado positivo do primeiro estudo e demonstrando 31% de redução relativa do risco, uma magnitude de efeito semelhante ao uso de estatinas. 


Duas mensagens. A primeira, ciência é a construção cumulativa de um conjunto de evidências, até consideramos o conhecimento comprovado. Um evidência confirmatória nem sempre é um descoberta inédita. Já vinha uma tendência. Boa ciência não é feita de “novidades”, mas sim de confirmações. 


Segundo, para consideramos que um ensaio clínico é uma prova conceitual, a intervenção deve representar um efeito único, que não se confunde com outras ações do tratamento. Estatinas reduzem colesterol, por isso não provam o conceito anti-inflamatório. No presente caso, colchicina é basicamente um anti-inflamatório. 


Temos uma prova de conceito, reprodutível, que promove uma fácil e barata solução pragmática: colchicina, se tolerada (15% dos pacientes não toleram), agrega valor preventivo em doença cardiovascular. Provado isso, a tecnologia vai tratar de fabricar anti-inflamatórios mais toleráveis.


Um exemplo de pragmatismo baseado em conceito científico. 



“The Bad”: Deselegante Pragmatismo sem Conceito (EMPEROR-Reduced Trial)




Highlight espetacular do congresso, estudo com nome de emperador, mas sem a grandeza de um império. 

EMPEROR-REDUCED Trial foi tema de postagem recente neste Blog. Trata-se do segundo estudo a demonstrar glifozinas como uma classe de droga eficaz no tratamento da insuficiência cardíaca, independente do paciente ser diabético. Proposta de uso de um anti-diabético para tratar insuficiência cardíaca, independente de diabetes. 


O primeiro estudo a demonstrar este resultado fora o DAPA-HF. São estudos similares em métodos, populações e resultados. 


Não quero entrar em detalhes de pequenas diferenças. O que importa é que, em ambos os estudos, a hipótese nula foi rejeitada: a terapia foi positiva no desfecho primário, que conota “benefício cardiovascular”. Defendo portanto a conclusão pragmática deste estudo. 


No entanto, este pragmatismo é insuficiente para gerar recomendação sólida. Falta o conceito científico. 


É um exemplo de “falácia conceitual”, quando um resultado pragmático não têm um conceito  por trás. O motivo: essas são drogas diuréticas. E estímulo a diurese é um tratamento usado universalmente para insuficiência cardíaca aguda ou crônica, com base em plausibilidade extrema (sem evidências empíricas, que nunca poderão existir). Estas drogas tem significativo efeito diurético. Portanto, qual o conceito demonstrado:


Pacientes aparentemente compensados da IC merecem um pouco mais de diurético? Ou estas drogas oferecem um efeito independente do diurético? São perguntas importantes, precisamos aguçar nossa curiosidade, pois ambas as hipóteses podem ter reflexos práticos bem interessantes. 


Observem a diferença com o exemplo acima citado, do anti-inflamatório, cujo tratamento testado não tem um efeito colateral confundidor. 


A curiosidade em relação a esta pergunta é ofuscada pelo entusiasmo da novidade. A falta de curiosidade é digna de nota, quando esta é substituída por argumentos mecanicistas ou baseados em análises secundárias, contrariando o que o primeiro médico baseado em evidências, Sextus Empiricus, propôs no século II DC, ou seja, o teste empírico das ideias. 


Para responder essa pergunta haveria necessidade de um segundo grupo controle, caracterizado um aprimoramento diurético. Se glifozina reduzisse desfecho além do diurético, estaria, aí sim, demonstrado um conceito intrínseco desta classe de drogas. 


Se não, ficaria comprovada uma simples, relevante e interessante hipótese: diurese é um tratamento tão bom que há benefício de uma dose extra para pacientes aparentemente compensados com mediana de NT-proBNP = 1800 pg/ml. 


Não desejo negar a importância destes estudos. Mas ciência se faz pelo conjunto das partes. Ainda falta uma parte complementar essencial para a compreensão do valor deste tratamento específico.  


E por enquanto, qual a conduta pragmática. Podemos pensar em algumas alternativas, mais liberais ou restritivas. Minha proposta é apenas que o pensamento contenha a base da racionalidade conceitual. 




“The Ugly”: Falácia da Novidade (EAST-AFNET 4 Trial)



Um trial com cara de novidade. Uma pseudonovidade. A positivação de uma ideia antes negativa de acordo com estudos prévios de superior nível de evidência. O novo seduz, mesmo que de pior qualidade do que o antigo.


Embora o conceito da restauração do ritmo sinusal seja um dos mais plausíveis que existem em cardiologia, sucessivos ensaios clínicos falharam em comprovar este conceito. Os estudos prévios foram razoáveis tentativas que falharam em provar o conceito. Primeiro, o AFFIRM testou manutenção do sinusal pelo uso de drogas. Falhou em rejeitar a hipótese nula em suas análise primárias. Surgiu depois a tentativa de testar o conceito por uma maneira mais efetiva de manter o ritmo sinusal, a ablação. Expectativa frustrada: o estudo CABANA foi negativo. 


Embora provar inexistência seja impossível, a cada estudo negativo a existência fica menos provável. Nunca poderemos dizer que a restauração do ritmo sinusal foi provada ineficaz. Mas devemos reconhecer que criticar as tentativas frustradas não valida a hipótese que não foi comprovada.


Surge então um novo ensaio clínico randomizado, que demonstra hazard de 3.9/pessoas-ano do grupo controle do ritmo versus 5.0/100 pessoas-ano no grupo controle da frequência (P = 0.005).


“Conseguimos finalmente provar, descobrir a verdade”. Mas que verdade?


A perspectiva de ganho cumulativo de conhecimento se perde na falácia da novidade, quando esquecemos evidências prévias e abraçamos a novidade positiva. 


Este é um excelente exemplo de viés de confirmação: cegueira às limitações do pior estudo EAST-AFNET 4 Trial (positivo) e crítica ao melhor estudo CABANA (negativo).


Enquanto os estudos prévios utilizaram componentes objetivos no desfecho primário (morte ou AVC), o presente estudo utilizou um combinado de desfechos que incluiu internamento por insuficiência cardíaca ou por síndrome coronariana aguda. Estes são desfechos subjetivos e “criados pelo pensamento médico” (internamento), que quando colocados em um estudo aberto gera um devastador viés de aferição do desfecho. Em estudos abertos é essencial que os desfechos sejam invulneráveis à interpretação ou indução médica. A percepção que um pacientes em controle de ritmo está melhor cuidado gera alto risco de viés. 


Além da análise do desenho do estudo (métodos), a avaliação dos números absolutos (resultado) pode nos dar boas pistas de que a aparente eficácia é mediada por vieses. Para isso servem desfechos secundários, para avaliar se os primários fazem sentido. 


Há um desfecho secundário que é a manutenção de ritmo sinusal ao longo do estudo. Esta diferença foi de apenas 21% entre os grupos, ou 234 pacientes a mais em ritmo sinusal no grupo controle de ritmo. Como isso poderia ser suficiente para promover um benefício clínico demonstrado no estudo? Isso teria prevenido 67 desfechos, que foi o número excedente de eventos no grupo controle. Apenas 3 pacientes com sucesso na reversão para ritmo sinusal promoveria uma redução de 1 desfecho. Seria um NNT = 3 para o sucesso do ritmo sinusal.


Vale salientar que nos estudos prévios, essa diferença de ritmo sinusal foi maior entre os grupos. Como o estudo em que o gradiente de sinusal foi menor é o único positivo? Provavelmente o resultado é decorrente de viés de aferição. 


Por fim, o estudo testa segurança com base em um desfecho que mistura eficácia e segurança. Esta é uma forma de diluir o desfecho composto com componentes que vão favorecer o tratamento. Tendo componentes de eficácia, o desfecho composto de segurança tende a ser iguais entre os grupos, diluindo uma eventual diferença em segurança com desfechos que não são de segurança. E isso ocorreu, pois o desfecho primário de segurança foi igual entre os grupos, mas quando se olha o componente efeitos adversos do uso de antiarrítmicos este é mais frequentes no grupo de controle do ritmo. 


Duro de tolerar um estudo de tão má qualidade querendo modificar um paradigma. Seria mais digno abandonar ciência e assumir o paradigma da fé. 



“The Bad”: Tripla Inversão do Ônus da Prova (Pop TAVI Trial)


O Pop TAVI Trial compara duas terapias antiplaquetárias durante três meses após implante de TAVI (troca de valva aórtica percutânea): aspirina + clopidogrel (mais) versus apenas aspirina (menos). 


No texto, os autores explicitam a hipótese primária como “aspirina sozinha é superior a aspirina + clopidogrel na incidência do desfecho sangramento”. Na conclusão, “sangramento foi menos frequente no grupo aspirina do que no grupo aspirina e clopidogrel” (15% versus 27%, RR = 0.57; P = 0.001)”.






Observem atentamente a peculiaridade da frase: o autor de refere à aspirina isolada, em relação à associação de drogas; não se refere à associação, em relação a aspirina isolada. 


No entanto, este trabalho não testa aspirina, pois esta droga está alocada para ambos os grupos. Este é um trabalho sobre clopidogrel versus não clopidogrel, em pacientes que usam aspirina. A pergunta científica é se devemos utilizar clopidogrel em pacientes que já usam aspirina. A conclusão deveria ser que o uso de clopidogrel aumenta sangramento.


Esta é a primeira inversão do ônus da prova. Na realidade, o ônus da prova deve estar no tratamento mais complexo (a associação), e não no mais simples (apenas aspirina). 


Isso não é apenas uma brincadeira lógica. É que quando jogamos o ônus da prova no simples, ficaremos com o complexo até que se prove o contrário. É um grande exemplo da “mentalidade do médico ativo”. É o fazer sem evidências, e só para parar de fazer quando surgir evidências contrárias a fazer. Inverte-se a hipótese nula. É irracionalidade científica. 


Segunda inversão do ônus é a do desfecho primário e secundário. O estudo testa primariamente o óbvio e o deixa a dúvida válida como pergunta secundária. O desfecho primário é sangramento: óbvio que um antiagregante plaquetário sangra menos do que dois. Isso já sabemos, está demonstrado incontáveis vezes.


O desfecho secundário de eficácia é o composto de eventos tromboembólicos (morte cardiovascular, acidente vascular cerebral e infarto do miocárdio), que é o objetivo da terapia antiplaquetária. Este desfecho mostraria se valeria a pena associar clopidogrel à aspirina.


Em medicina, a justificativa de um tratamento está em seu benefício e não na ausência de malefício. Portanto, o objetivo primário dos estudos deve ser eficácia, e depois surge a questão da segurança (escrevi recentemente que o pensamento clínico-científico é diferente da filosofia ética, que coloca a não maleficência em primeiro lugar).


Além da importância do alinhamento dos sentidos clínico e científico das hipóteses, o tamanho amostral não é desenhado para o desfecho de eficácia. Isso aumenta possibilidade de erros aleatórios quanto a este que deveria ser o motivo do estudo. 


A terceira inversão do ônus da prova esteve em definir a análise de eficácia como primariamente de não inferioridade. Ou seja, a aspirina isolada deveria se provar não inferior à associação quanto à prevenção de evento tromboembólico. Porém a associação nunca havia se provado eficaz em pacientes pós TAVI, era um tratamento padrão por “modismo”. Assim, a análise de eficácia deveria ser de superioridade, sendo o ônus colocado na terapia mais complexa. 

 

Portanto, temos três inversões de ônus da prova: o simples precisando se provar melhor do que o complexo; segurança como argumento mais importante do que eficácia; e proposta de testar não inferioridade em relação a algo que não se demonstrou primariamente eficaz.


Pensamento científico não se resume a desenho de estudo adequado, mas principalmente na construção das hipóteses, aspecto essencial para utilidade epistemológica dos estudos. Este estudo é uma demonstração da carência de racionalidade científica no mainstream do circo cardiológico. O pesquisador pensa no desenho do estudo (vamos fazer um ensaio clínico), o verdadeiro cientista pensa na pergunta do estudo (o que preciso saber).



“The Good”: Princípio da Complacência (ELDERCARE-AF Trial)



Este foi um estudo que usou dose baixa de anticoagulante em idosos que tinham contraindicação de anticoagulação, no intuito de prevenir eventos tromboembólicos decorrentes de fibrilação atrial.  


Pacientes randomizados para edoxabana 15 mg apresentaram 2.3% de eventos embólicos versus 6.7% no grupo placebo (P < 0.001). Sangramento foi respectivamente 3.3% versus 1.8% (P = 0.09). Parece vantajoso. 


O princípio da complacência diz que quando um conceito é demonstrado em um ambiente, este tende a se reproduzir em outros ambientes. Refiro-me a ambiente como um tipo de população ou um tipo de estratégia. 


Por exemplo, tudo que funciona em jovem, funciona em idoso. O problema da aplicabilidade no idoso é a dúvida se o risco absoluto do efeito adverso supera o benefício. Por exemplo, uma cirurgia de revascularização miocárdica funciona em sua eficácia anti-isquêmica em um paciente de 100 anos. Funciona se o paciente não morrer na cirugia ou se não sofrer uma sequela devastadora. Essa é a dúvida. 


Anticoagulante reduz risco de evento antitrombótico. Reduz esse risco também no idoso. A dúvida é se no muito idoso o risco de sangramento supera o benefício. 


Anticoagulante reduz risco qualquer que seja a dose. Quanto menor a dose, menor a redução de risco. Quanto menor a dose, menor a incidência de sangramento. A dúvida está se uma baixa dose não perde muito a eficácia a ponto de não valer a pena correr um risco, mesmo que menor. 


Este estudo testa uma dose mais baixa de anticoagulante em muito idosos com risco de sangramento. Na construção da hipótese, o estudo se baseia em dois critérios de complacência: (1) anticoagulante tem eficácia na prevenção de eventos embólicos no muito idoso e (2) qualquer dose de anticoagulante vai ter algum benefício (o que varia é a magnitude).


Mas neste caso, o princípio da complacência serve para criar uma hipótese de eficácia, mas resta uma dúvida que precisa ser testada: a magnitude do benefício da dose baixa supera o risco da dose baixa. A dúvida é de magnitude e não de conceito. 


E funcionou! Os conceitos já existiam, mas agora estes ganham um valor pragmático para tratamento de idosos de alto risco de sangramento, trazendo benefício com um risco aceitável.


Conclusão


Precisamos pensar menos em "pesquisa" e mais em "ciência". Pesquisa é o ato de executar protocolos,  analisar dados, escrever e publicar artigos em revistas de impacto. Ciência é quando essas ações possuem um sentido maior, seja epistemológico, seja prático. A ciência eleva à era do conhecimento, a simples pesquisa nos prende à era industrial. Mais uma vez, Douglas Altman: "we need less research, better research and research done for the right reasons".


____________________________________________________________________________________


* Conheça nosso Curso Online de MBE, clicando aqui.