Predizer ou inferir sobre causalidade são as duas grandes razões científicas de testarmos associação estatística entre variáveis. Devemos iniciar nosso pensamento definindo em qual desses dois se encaixa o nosso objetivo científico.
O funcionário da imigração americana procura identificar indivíduos que tentam entrar no país para realizar atos terroristas. Este funcionário se utiliza da regra de que todo muçulmano deve ser tratado como tal até que se prove o contrário. Este é um exemplo de predição.
Um dentista observa no cotidiano profissional que pessoas disciplinadas no uso de fio dental possuem menor carga de placa bacteriana. Isto faz com que a cada dia ele acredite mais na eficácia do fio dental em causar uma melhor condição dentária. Este é um exemplo de causa.
Estes são pensamentos univariados, que demonstram a tendência natural de funcionamento de nossa mente. No entanto, essa forma de pensamento não é bem adaptada à realidade do universo, o qual se apresenta de maneira mais complexa e interessante: o mundo é multivariado.
Na análise univariada, a força associação de uma variável com o desfecho representa seu efeito total. No entanto, esse efeito total resulta do efeito direto e do efeito indireto da variável. O efeito indireto decorre de outras variáveis que estão associadas simultaneamente à variável preditora de interesse e ao desfecho, causando um link entre esses dois.
Na análise multivariada, as variáveis preditoras são analisadas simultaneamente, de forma que o efeito de cada variável é ajustado para o efeito das demais. Assim, identificamos o efeito direto de cada variável na predição do desfecho, um efeito que independe de outras variáveis. A isso chamamos de associação independente.
Idealmente, o funcionário da imigração deveria utilizar um modelo multivariado, o qual considera várias características do indivíduo (sexo, país, nível educacional, aspecto físico, se é casado, se tem filhos, etc) para calcular a probabilidade de ser terrorista. Caso haja uma probabilidade acima de um ponto de corte, o indivíduo deve ser retido para investigação. Melhor do que prender todo muçulmano. Seria uma conduta baseada em uma estimativa de risco por um modelo multivariado.
Neste modelo preditor, entrariam apenas variáveis que possuam associação independente (direta) com o desfecho. Além disso, o peso da presença de cada característica na probabilidade do desfecho é dado com base neste efeito direto da variável. Daí a importância de se utilizar análise multivariada na construção de modelos preditores.
Idealmente, o dentista deveria entender que o mundo a nossa volta é repleto de fatores de confusão, que geram ilusão de causalidade, quando na verdade estamos diante de associações indiretas. Fatores de confusão são aquelas variáveis associadas simultaneamente ao preditor e ao desfecho. Assim, elas conectam o preditor e o desfecho, porém esta conecção não representa um link de causalidade.
Neste caso, um modelo científico adequado precisaria avaliar se menor carga de placa bacteriana em pessoas que usam fio dental decorreria de uma melhor escovação (pessoas mais disciplinadas) ou diretamente do uso de fio dental. Um modelo que ajustasse para o efeito de confusão da escovação, que provavelmente é de melhor qualidade nas pessoas que usam fio dental. Percebam que escovação não é uma forma através da qual o fio dental funcionaria. Portanto, a ligação que escovação promove entre fio dental e desfecho não faz parte de um link de causalidade, é apenas um efeito de confusão.
Observem que tanto na criação de um modelo preditor quanto na avaliação da causalidade, é importante a identificação de associação independente entre variável preditora e desfecho. No caso do modelo preditor, essa associação direta deve ser independente de qualquer variável que possa estar intermediando a relação preditor-desfecho, pois queremos apenas colocar na fórmula preditora o efeito direto de cada variável. No caso da avaliação de causalidade, devemos ajustar apenas para variáveis de confusão, que são variáveis que intermediam a relação preditor-desfecho, porém sem um link de causalidade.
Predição versus Causa
Um modelo preditor deve ser criado pelo princípio da parcimônia, onde devemos alinhar acurácia e simplicidade. Ou seja, uma variável que pouco contribui não deve ficar no modelo final. Ela torna o modelo mais complexo, sem trazer muito valor. Por outro lado, todas as variáveis que incrementam o valor preditor, devem fazer parte deste modelo final. No caso de predição, os preditores no modelo final podem, mas não precisam ser a causa do problema (fator de risco), precisam apenas identificar o problema (marcador de risco). Assim se constrói um modelo com intuito preditor.
O modelo construído para avaliar causalidade tem um princípio diferente. Como não é predição, este modelo deve ser construído com base na lógica da causalidade. Há fatores que são fortes preditores, mas não devem estar neste modelo. Por exemplo, calcificação coronária (escore de cálcio) é um preditor independente de infarto. Porém não é o cálcio que causa o infarto, este apenas marca uma doença mais grave. Desta forma, quando queremos saber se colesterol causa infarto, não devemos ajustar para o escore de cálcio, pois este modelo deve ter apenas aqueles fatores que possuem plausibilidade etiológica.
Percebem que o estatístico não conseguiria fazer isso sem o pensamento do pesquisador? Ou seja, a construção de um modelo estatístico deve ser guiada pela pergunta científica.
Devo salientar que não basta associação independente para garantir causalidade. A associação independente é um critério necessário, mas não suficiente. É apenas o início de um processo de inferência a respeito de causalidade.
Confusão versus Interação
Sem querer evitar o trocadilho, há muita confusão entre os conceitos de confusão e interação. Mas são coisas bem diferentes.
Revisando mais uma vez, confusão é quanto uma variável (ou mais) intermedia uma falsa associação entre duas outras variáveis. Ajustando para esta variável de confusão, saberemos se a relação é direta entre variável preditora e desfecho. Este conceito de necessidade de ajuste para confusão por análise multivariada se aplica à construção de um modelo preditor (para evitar redundância) e também se aplica à identificação de uma variável causal (um dos critérios de causalidade é predição independente).
Interação é diferente, bem diferente. Interação pode ser entendida como modificação de efeito.
Um jogador de futebol que parece até bonzinho no time do Bahia, mas quando vai para um time europeu, torna-se um jogador de seleção. Podemos interpretar que o ambiente europeu modifica para melhor efetividade do jogador em fazer seu time ganhar. Este é um exemplo de interação entre time e efetividade do jogador.
Interação é avaliada por análise multivariada, pois há pelo menos três variáveis preditoras: (1) efeito do jogador no resultado do jogo, (2) efeito do time (bahiano ou europeu) e a (3) interação entre eles.
No pensamento clínico, análise de interação é importante, pois posso querer saber se uma variável prediz o desfecho de forma similar entre homens e mulheres. Ou se um fator de risco causa uma doença de forma similar entre jovens e idosos. Ou se uma droga funciona com a mesma eficácia entre pacientes de diferentes tipos.
Resumindo
Sendo assim, análise multivariada serve para (1) criar modelos preditores; (2) avaliar a possibilidade de uma variável ser causadora do desfecho; e (3) analisar de interação.
Há diferentes testes para análise multivariada, que variam de acordo com o tipo de variável preditora ou tipo de variável desfecho.
- Regressão logística: desfecho categórico e preditores categóricos/numéricos.
- ANOVA multivariada: desfecho numérico e preditores categóricos.
- Regressão linear múltipla: desfecho e preditores numéricos.
- ANCOVA: desfecho numérico e preditores categóricos/numéricos.
Espero que esta postagem tenha dado um ideia geral de análise multivariada. Resumo abaixo, os principais conceitos que devem ficar em nossas mentes ….
- Análise multivariada serve para construir um modelo preditor ou participar da avaliação de causalidade de um determinado fator. E a forma de construção do modelo depende dessa definição.
- Análise multivariada faz ajuste para co-variáveis, determinando associação independente, condição necessária para que a variável faça parte de um modelo preditor ou que seja considerada uma das causas do desfecho.
- No modelo preditor, a associação deve ser independente de qualquer variável que esteja intermediando, enquanto no modelo causal, a associação deve ser independente de variáveis de confusão (link não causal).
- Interação não é a mesma coisa que confusão. Enquanto confusão significa uma variável X mediando a relação indireta entre duas variáveis Y e Z, interação significa uma variável X modificando uma relação entre duas variáveis Y e Z.
Caso a mente esteja confusa, fiquem pensando no assunto e depois de dois dias releiam essa postagem. O entendimento deve vir de dentro pra fora.