domingo, 23 de novembro de 2014

O que é análise multivariada?


Predizer ou inferir sobre causalidade são as duas grandes razões científicas de testarmos associação estatística entre variáveis. Devemos iniciar nosso pensamento definindo em qual desses dois se encaixa o nosso objetivo científico.

O funcionário da imigração americana procura identificar indivíduos que tentam entrar no país para realizar atos terroristas. Este funcionário se utiliza da regra de que todo muçulmano deve ser tratado como tal até que se prove o contrário. Este é um exemplo de predição

Um dentista observa no cotidiano profissional que pessoas disciplinadas no uso de fio dental possuem menor carga de placa bacteriana. Isto faz com que a cada dia ele acredite mais na eficácia do fio dental em causar uma melhor condição dentária. Este é um exemplo de causa.

Estes são pensamentos univariados, que demonstram a tendência natural de funcionamento de nossa mente. No entanto, essa forma de pensamento não é bem adaptada à realidade do universo, o qual se apresenta de maneira mais complexa e interessante: o mundo é multivariado.

Na análise univariada, a força associação de uma variável com o desfecho representa seu efeito total. No entanto, esse efeito total resulta do efeito  direto e do efeito indireto da variável. O efeito indireto decorre de outras variáveis que estão associadas simultaneamente à variável preditora de interesse e ao desfecho, causando um link entre esses dois. 

Na análise multivariada, as variáveis preditoras são analisadas simultaneamente, de forma que o efeito de cada variável é ajustado para o efeito das demais. Assim, identificamos o efeito direto de cada variável na predição do desfecho, um efeito que independe de outras variáveis. A isso chamamos de associação independente.

Idealmente, o funcionário da imigração deveria utilizar um modelo multivariado, o qual considera várias características do indivíduo (sexo, país, nível educacional, aspecto físico, se é casado, se tem filhos, etc) para calcular a probabilidade de ser terrorista. Caso haja uma probabilidade acima de um ponto de corte, o indivíduo deve ser retido para investigação. Melhor do que prender todo muçulmano. Seria uma conduta baseada em uma estimativa de risco por um modelo multivariado. 

Neste modelo preditor, entrariam apenas variáveis que possuam associação independente (direta) com o desfecho. Além disso, o peso da presença de cada característica na probabilidade do desfecho é dado com base neste efeito direto da variável. Daí a importância de se utilizar análise multivariada na construção de modelos preditores.

Idealmente, o dentista deveria entender que o mundo a nossa volta é repleto de fatores de confusão, que geram ilusão de causalidade, quando na verdade estamos diante de associações indiretas. Fatores de confusão são aquelas variáveis associadas simultaneamente ao preditor e ao desfecho. Assim, elas conectam o preditor e o desfecho, porém esta conecção não representa um link de causalidade.

Neste caso, um modelo científico adequado precisaria avaliar se menor carga de placa bacteriana em pessoas que usam fio dental decorreria de uma melhor escovação (pessoas mais disciplinadas) ou diretamente do uso de fio dental. Um modelo que ajustasse para o efeito de confusão da escovação, que provavelmente é de melhor qualidade nas pessoas que usam fio dental. Percebam que escovação não é uma forma através da qual o fio dental funcionaria. Portanto, a ligação que escovação promove entre fio dental e desfecho não faz parte de um link de causalidade, é apenas um efeito de confusão.

Observem que tanto na criação de um modelo preditor quanto na avaliação da causalidade, é importante a identificação de associação independente entre variável preditora e desfecho. No caso do modelo preditor, essa associação direta deve ser independente de qualquer variável que possa estar intermediando a relação preditor-desfecho, pois queremos apenas colocar na fórmula preditora o efeito direto de cada variável. No caso da avaliação de causalidade, devemos ajustar apenas para variáveis de confusão, que são variáveis que intermediam a relação preditor-desfecho, porém sem um link de causalidade. 


Predição versus Causa 


Um modelo preditor deve ser criado pelo princípio da parcimônia, onde devemos alinhar acurácia e simplicidade. Ou seja, uma variável que pouco contribui não deve ficar no modelo final. Ela torna o modelo mais complexo, sem trazer muito valor. Por outro lado, todas as variáveis que incrementam o valor preditor, devem fazer parte deste modelo final. No caso de predição, os preditores no modelo final podem, mas não precisam ser a causa do problema (fator de risco), precisam apenas identificar o problema (marcador de risco). Assim se constrói um modelo com intuito preditor. 

O modelo construído para avaliar causalidade tem um princípio diferente. Como não é predição, este modelo deve ser construído com base na lógica da causalidade. Há fatores que são fortes preditores, mas não devem estar neste modelo. Por exemplo, calcificação coronária (escore de cálcio) é um preditor independente de infarto. Porém não é o cálcio que causa o infarto, este apenas marca uma doença mais grave. Desta forma, quando queremos saber se colesterol causa infarto, não devemos ajustar para o escore de cálcio, pois este modelo deve ter apenas aqueles fatores que possuem plausibilidade etiológica.

Percebem que o estatístico não conseguiria fazer isso sem o pensamento do pesquisador? Ou seja, a construção de um modelo estatístico deve ser guiada pela pergunta científica. 

Devo salientar que não basta associação independente para garantir causalidade. A associação independente é um critério necessário, mas não suficiente. É apenas o início de um processo de inferência a respeito de causalidade.

Confusão versus Interação


Sem querer evitar o trocadilho, há muita confusão entre os conceitos de confusão e interação. Mas são coisas bem diferentes. 

Revisando mais uma vez, confusão é quanto uma variável (ou mais) intermedia uma falsa associação entre duas outras variáveis. Ajustando para esta variável de confusão, saberemos se a relação é direta entre variável preditora e desfecho. Este conceito de necessidade de ajuste para confusão por análise multivariada se aplica à construção de um modelo preditor (para evitar redundância) e também se aplica à identificação de uma variável causal (um dos critérios de causalidade é predição independente). 

Interação é diferente, bem diferente. Interação pode ser entendida como modificação de efeito

Um jogador de futebol que parece até bonzinho no time do Bahia, mas quando vai para um time europeu, torna-se um jogador de seleção. Podemos interpretar que o ambiente europeu modifica para melhor efetividade do jogador em fazer seu time ganhar. Este é um exemplo de interação entre time e efetividade do jogador. 

Interação é avaliada por análise multivariada, pois há pelo menos três variáveis preditoras: (1) efeito do jogador no resultado do jogo, (2) efeito do time (bahiano ou europeu) e a (3) interação entre eles. 

No pensamento clínico, análise de interação é importante, pois posso querer saber se uma variável prediz o desfecho de forma similar entre homens e mulheres. Ou se um fator de risco causa uma doença de forma similar entre jovens e idosos. Ou se uma droga funciona com a mesma eficácia entre pacientes de diferentes tipos. 

Resumindo



Sendo assim, análise multivariada serve para (1) criar modelos preditores; (2) avaliar a possibilidade de uma variável ser causadora do desfecho; e (3) analisar de interação. 

Há diferentes testes para análise multivariada, que variam de acordo com o tipo de variável preditora ou tipo de variável desfecho. 

  1. Regressão logística: desfecho categórico e preditores categóricos/numéricos. 
  2. ANOVA multivariada: desfecho numérico e preditores categóricos.
  3. Regressão linear múltipla: desfecho e preditores numéricos.
  4. ANCOVA: desfecho numérico e preditores categóricos/numéricos.

Espero que esta postagem tenha dado um ideia geral de análise multivariada. Resumo abaixo, os principais conceitos que devem ficar em nossas mentes ….

  1. Análise multivariada serve para construir um modelo preditor ou participar da avaliação de causalidade de um determinado fator. E a forma de construção do modelo depende dessa definição.
  2. Análise multivariada faz ajuste para co-variáveis, determinando associação independente, condição necessária para que a variável faça parte de um modelo preditor ou que seja considerada uma das causas do desfecho. 
  3. No modelo preditor, a associação deve ser independente de qualquer variável que esteja intermediando, enquanto no modelo causal, a associação deve ser independente de variáveis de confusão (link não causal).
  4. Interação não é a mesma coisa que confusão. Enquanto confusão significa uma variável X mediando a relação indireta entre duas variáveis Y e Z, interação significa uma variável X modificando uma relação entre duas variáveis Y e Z. 
Caso a mente esteja confusa, fiquem pensando no assunto e depois de dois dias releiam essa postagem. O entendimento deve vir de dentro pra fora. 

11 comentários:

  1. Professor, seus textos são interessantes, bem elaborados e até às vezes bem humorados. Entretanto fica cada vez mais evidente que o senhor se contradiz....
    O senhor enfatiza que a "síndrome do complexo de Deus" é uma doença que acomete a maioria dos profissionais de saúde, no entanto o senhor quer de todas as maneiras tentar provar o "improvável": que o uso das teorias da MBE se aplicam para todos os aspectos da vida e podem provar tudo.
    Não seria isso também "complexo de Deus" ? Há coisas que jamais você, nem eu nem ninguém no mundo irá explicar ! A aceitação de um ser superior é uma dessas coisas que geralmente os pesquisadores, por não conseguir, (nem nunca conseguirão) provar, fazem a maioria deles afirmar simplesmente porque não conseguem provar a não existência desse "ser",

    Leonardo Barros

    ResponderExcluir
    Respostas
    1. "A aceitação de um ser superior é uma dessas coisas que geralmente os pesquisadores, por não conseguir, (nem nunca conseguirão) provar, fazem a maioria deles afirmar simplesmente porque não conseguem provar a não existência desse "ser","

      Um dos períodos mais confusos que já li! A pontuação errada e os erros de conjugação dificultaram o entendimento. Você quis dizer que os pesquisadores negam a existência de Deus?

      Att,

      Felipe

      Excluir
  2. A beleza do pensamento científico está no reconhecimento da incerteza. A incerteza expressa pelos intervalos de confiança das medidas pontuais, pelas razões de probabilidade das informações diagnósticas e pela necessidade de modelos multivariados que nos permitem estimar probabilidade de um evento futuro, abandonando um pensamento dicotômico.

    O pensamento científico considera que não podemos demonstrar a ausência de um fenômeno, apenas demonstramos sua presença. Por este motivo, a hipótese nula é a premissa inicial. O pensamento científico refuta a crença, o dogma. Assume a incerteza enquanto o fenômeno não é provado.

    De fato, o pensamento baseado em incerteza promove o progresso científico e tem ampla utilidade clínica.

    Essa é a forma de pensar cientificamente, o que não é intuitivo, por isso precisa ser aprendido por quem se presta a utilizar ciência. Como este blog tem o objetivo didático voltado para a ciência, assim nos posicionamos, fazendo-o da forma mais clara e enfática. Não poderia ser diferente.

    Há inúmeros pontos de vista e formas de interpretar o mundo, a critério do cliente. Estas formas não fazem parte de nosso escopo. Imagino existirem outros blogs voltados para tal.

    ResponderExcluir
  3. Bommmm D+++, corrigi o meu artigo em tempo. obrigada

    ResponderExcluir
  4. Obrigada, me ajudou bastante agora pra defesa da tese.

    ResponderExcluir
  5. hahahahaha ótimo texto para dar um curto nos meus neurônios! Certeza que voltarei em dois dias e, após, mais dois dias para ler novamente!
    Não sei onde foi que o colega acima viu que "o senhor quer de todas as maneiras tentar provar o "improvável": que o uso das teorias da MBE se aplicam para todos os aspectos da vida e podem provar tudo"... Isso foi o entendimento dele e provavelmente pode estar cheio de variáveis de confusão! rsrs just kidding! =)

    ResponderExcluir
  6. Muito bem escrito, super inteligente e bem humorado. Por certo que és feliz : )

    ResponderExcluir
  7. Professor, uma dúvida.
    Quando o artigo cita que o hazard ratio na analise univariada para subgrupo sexo feminino é 0.6 (0.4-0.7) e na analise multivariada é 0.5(0.4-0.6).
    Como vou saber quais são as outras variáveis que o estudo ponderou para fazer o calculo?
    O estudo habitualmente só considera as outras variáveis dos subgrupos analisados?
    Obrigado

    ResponderExcluir
  8. Ótima explicaçao! Obrigada!

    ResponderExcluir