É muito comum análises de subgrupos positivas em estudos primariamente negativos serem elegantemente validadas pela expressão “geração de hipótese”. Neste texto, explicarei porque esse é um equívoco que erroneamente causa um spin de positividade na mente do consumidor de ciência. Ao final, demonstrarei como devemos gerar hipóteses científicas a partir de estudos negativos, que começa por não negar o conceito da negatividade proveniente do próprio estudo.
[Neste post, irei direto ao assunto e não comentarei em profundidade das limitações e como interpretar análises de subgrupo. Faremos em outra oportunidade, mas caso se interessem, isso está presente em 4 aulas sequenciais de nosso Curso online de MBE, no módulo tratamento]
Em primeiro lugar, não se gera hipóteses a partir de evidências empíricas hipotético-dedutivas, pois nesse processo contemporâneo de fazer ciência, proposto por Karl Popper, a hipótese é gerada antes da análise dos dados. Desta forma, a análise de dados empíricos não pode gerar uma hipótese que já existia como própria justificativa para a análise.
Hipóteses são geradas (nascem) a partir de dois processos: primeiro, o pensamento de cientista que reflete sobre o porquê das coisas ou tenta imaginar uma solução pragmática. Essas hipóteses podem nascer do inconsciente do cientista (serendipity), da lógica de seu pensamento ou de observações do mundo externo no processo de indução científica. Indução é quando a observação vem antes da hipótese, aqui sim devemos denominar de geração de hipótese.
A função de uma evidência empírica hipotético-dedutiva, seja por análise primária ou secundária, é modular a probabilidade de uma hipótese que foi gerada antes do experimento/análise. Modular probabilidade é diferente de gerar hipótese.
Assim, surge a segunda questão: como uma análise de subgrupo positiva dentro de um estudo negativo modula a hipótese?
Precisamos pensar no impacto do estudo. O quanto um estudo negativo em sua análise geral, mas positivo no subgrupo de olhos verdes, aumenta a probabilidade da hipótese ser verdadeira neste subgrupo?
Para isso, precisamos entender o princípio da raridade da interação. Interação é modificação de efeito. Seria como se ter olhos verdes modificasse o efeito de um tratamento. Assim, haveria interação entre cor dos olhos e eficácia do tratamento, no sentido de que em pessoas de olhos verdes o tratamento seria benéfico, diferente das outras pessoas. No entanto, esta não é a tendência da natureza, interação é um fenômeno raro. Se interações quantitativas (mudança da magnitude de efeito) são raras, as qualitativas (mudar de ausência de efeito para presença de efeito) são menos prováveis ainda.
Assim, quando um estudo “falseia” uma hipótese, reduz a probabilidade desta hipótese ser verdadeira não só na população geral, mas em cada tipo de pessoa, incluindo as pessoas de olhos verdes. Um conceito científico negativo tende a ser generalizável.
Agora imaginem que a análise de subgrupo nas pessoas de olhos verdes foi positiva. Sabemos que análises de subgrupo positivas em estudos negativos tendem a ser obra do acaso, mesmo que sejam planejadas a priori. Isso ocorre pelo problemas das múltiplas comparações, reduzido poder estatístico (insufla o erro tipo I) e porque o próprio estudo já reduziu a probabilidade da hipótese. Portanto, a força dessa análise de subgrupo positiva em aumentar a probabilidade é menor do que a força da análise primária em reduzir a probabilidade em todos os subgrupos, de uma forma geral. Ao final, saímos do estudo com um probabilidade menor de algo funcionar em pessoas de olhos verdes, independente da análise de subgrupo positiva.
É incoerência querer que um mesmo estudo tenha duas mensagens antagônicas, como se isso fosse comum. O estudo rejeita o conceito e sugere o mesmo conceito em um subgrupo. Pensar assim é contraproducente e apenas atrasa nossa percepção da realidade.
Isso também pode ser explicado pelo raciocínio bayesiano, levando em conta a sequência da análise. A primeira análise é aquela realizada na amostra geral. Esta é negativa e reduz a probabilidade de algo funcionar no subgrupo de olhos verdes. Depois vem uma análise de subgrupo positiva nos olhos verdes, que supostamente aumenta essa probabilidade que acabou de ser reduzida. Mas, pelo que expliquei, aumenta menos a probabilidade do que a análise primária reduziu. Assim, no final das contas o estudo sugere que a coisa não funciona nos olhos verdes.
Burke et al fez estas simulações e publicou interessante artigo no BMJ 2015. Considerando que usualmente o poder estatístico de análises de subgrupo é baixo para o teste de interação, e que a probabilidade a priori é baixa, a chance da análise positiva ser falsa é muito maior do que ser verdadeira. Se essa probabilidade a priori for 10% (depois do resultado geral negativo fica assim mesmo), o poder estatístico for 20% e forem feitos 10 análises de subgrupo pré-especificadas, um resultado positivo tem apenas 20% de valor preditivo positivo. Ou seja, o estudo como um todo, mesmo com essa análise de subgrupo positiva sugere que não funciona mesmo neste subgrupo.
No mundo pós estudo negativo, a probabilidade de algo ser verdade em um subgrupo positivo, é menor do que antes da existência daquele estudo.
Portanto, análise de subgrupo nem gera hipótese, nem modula positivamente uma hipótese falseada pelo estudo geral.
Análise de subgrupo são bem aplicadas quando representam o teste de hipótese principal. Por exemplo, o objetivo primário é demonstrar que um marcador genético identifica que tipo de paciente se beneficiará de uma terapia genética, confirmando a causalidade da mutação da gênese da doença. Em um ensaio clínico terapêutico, a análise de subgrupo baseada nessa alteração genética é a análise primária.
Por fim, como gerar hipóteses a partir de um resultado negativo? Isso se faz com o redirecionamento do pensamento e não pela insistência no mesmo pensamento. Usarei um exemplo contado pelo astrofísico Neil DeGrassi, de maneira bem simplificada.
Ao analisar a órbita de planeta Mercúrio, os cientistas perceberam que esta não estava de acordo com as leis de Newton (dado negativo). Assim, redirecionaram o pensamento e geraram uma hipótese: deve existir um outro planeta que está mudando o curso de Mercúrio pela força da gravidade. Testaram essa hipótese, que de novo foi negativa. Assim, redirecionaram de novo, e surge assim outra hipótese: a teoria da relatividade geral de Einstein. Que posteriormente foi comprovada de forma empírica.
Percebam que a geração de hipóteses a partir de dados negativos deve ser a procura de novas explicações ou soluções, o que é diferente de ficar batendo na mesma tecla pela repetição de análises menos confiáveis ou uso de telescópios menos acurados.
Há certas formas de pensamento equivocadas que viram tradições ou quase jargões, divergindo nosso pensamento para um sentido contrário à racionalidade científica. Falar em gerar hipóteses em contextos inadequados é banalizar esse primeiro passo do método científico hipotético-dedutivo, que deve ser feito de forma mental e não baseado em análises estatísticas.
Usar análise de subgrupo para sugerir o contrário de um resultado primário negativo é violar princípios de probabilidade das hipóteses.
-------------------------------------------------------------------------------------------------------------
Vejam discussão correlata em nosso MBE Podcast, Canal do YouTube e tweeter.
Conheçam nosso curso online de MBE, que traz o conhecimento que suporta nossas reflexões.
O contrário é válido? Estudo geral positivo com subgrupo negativo? Ou o menor poder estatístico pode nos levar ao erro tipo 2, mesmo a interação sendo rara? Obrigado. Abs
ResponderExcluirSim, análise de subgrupo sofre de erro tipo II também (e tipo I), pois a análise de interação tem poder estatístico sempre menor à análise primária. Portanto, cuidado para não rejeitar uma hipótese, desconsiderando o princípio da complacência. Mas se houver alguma razão real para duvidar daquele efeito do subgrupo, em um estudo positivo com esse subgrupo negativo (interação significativa), podemos ficar com Ho para esse subgrupo. Isso é mais confortável, pois o erro tipo II é menos grave do que o erro tipo I.
ResponderExcluirEntendi. Obrigado. Podemos, a priori, criarmos um subgrupo testando a interação da preferência ou não a alguma terapia/conduta, como o exercício físico? Como podemos avaliar esse efeito modificador?
ExcluirMuito bom, continue com o blog
ResponderExcluir