quarta-feira, 9 de julho de 2014

O vexame do Brasil foi estatisticamente significante ?



O estatístico americano Nate Silver criou um modelo preditor que estimou em 65% a probabilidade do Brasil ter ganhado o jogo contra a Alemanha. Foi este resultado que postei no facebook ontem, no intuito de aumentar nosso otimismo horas antes do pontapé inicial. Para criar o modelo, Nate Silver utilizou o banco de dados ELO, que possui informações de confrontos entre seleções desde o século XIX, aliado ao fato de que Brasil estava jogando em casa. Tal como discutimos na última postagem deste blog (pensamento probabilístico), não teria sido muito surpresa o Brasil perder aquele jogo, pois restava 35% de probabilidade da Alemanha sair vitoriosa. A surpresa mesmo veio do vexatório 7 x 1 sofrido pelo Brasil. E por este motivo pergunto se este absurdo resultado foi estatisticamente significante. 

O resultado final do placar sugere que a Seleção Alemã é imensamente superior à Brasileira. Mas a Alemanha é tão melhor assim que o Brasil ou este placar foi por acaso? De acordo com o modelo de Nate Silver, a Alemanha ganharia do Brasil por 6 gols de diferença em apenas 1 de 900 jogos, indicando que a probabilidade deste resultado era de 0.11% (valor de P = 0.0011). 

O que significa valor de P? Significa a probabilidade da diferença observada aparecer, caso a hipótese nula (Brasil = Alemanha) seja verdadeira. Ou seja, se os dois times fossem mais ou menos equivalentes (como mostra o histórico representado pelo modelo preditor), qual a probabilidade aleatória (azar) deste resultado extremo se fazer presente? 

Em sua entrevista ontem, Felipão deu sua versão do ocorrido, falando algo assim: “O time vinha bem, atacando, quando aos 21 minutos [na verdade foi 11 minutos] veio o primeiro gol de escanteio, causando um apagão no Brasil, permitindo que a Alemanha fizesse mais 4 gols em 10 minutos. Depois de 5 gols de diferença, fica difícil reverter o resultado." Observem que sua explicação tem uma conotação de acaso, um azar que durou 10 minutos, causando um desastre impossível de reverter. Parreira, por sua vez, disse que a taça “escapou”, usando mais uma palavra de apologia ao acaso.

Escrevo esta postagem enquanto assisto ao monótono 0 x 0 de Argentina e Holanda. Acaba de entrar um reporter da ESPN dizendo que Felipão e Parreira deram outra entrevista hoje, na qual  disseram que fariam tudo igual se tivessem uma segunda vez. Continuam sugerindo que foi tudo por acaso.

A função primordial da ciência é diferenciar acaso de causa, escolher uma entre estas duas possibilidades: azar do Brazil ou superioridade imensa da Alemanha. Vamos então ao teste de hipótese estatística: se os dois times tivessem qualidade semelhante (hipótese nula), a probabilidade deste resultado ocorrer seria tão baixa (0.11%) que acabamos por concluir que os times são diferentes. Rejeitamos a hipótese nula do acaso e ficamos com a hipótese alternativa da causa: a Alemanha é muito melhor que o Brasil. 

Estatisticamente, perder da Alemanha poderia ser aceito como azar se fosse por 1 ou 2 gols de diferença, pois esta probabilidade seria em torno de 35% (P = 0.35). O P de uma derrota normal não era estatisticamente significante (> 0.05). Neste caso sim, Felipão poderia ter atribuído sua derrota ao azar. Mas com um P = 0.011, é desafiar a inteligência do brasileiro. 

Confirmado que a relação foi causal, precisamos discutir qual foi a causa. Ao escolher sua explicação para o ocorrido, Felipão contou uma história tão inverossímil, que demonstrou sua total ignorância sobre probabilidade. Estou querendo demais de sua inteligência? Nem tanto, segundo a ESPN, os técnicos europeus dos dias atuais trabalham com estatística o tempo inteiro. Por que o técnico da Holanda val Gaal trocou os goleiros para a disputa de pênaltis? Não foi simplesmente pela altura de Krul, havia dados estatísticos de que ele pegava muito mais pênaltis. Vocês observaram que o técnico da Holanda anota tudo durante o jogo? Sem estatística não há salvação.

A ausência de inteligência estatística (ou de qualquer inteligência) por parte do técnico foi a causa do ocorrido. A verdade é que Felipão foi um técnico sem nenhuma capacidade estratégica e que pouco trabalhou. Todos viram, o Brasil não treinava, não havia nenhuma tática adaptada a cada jogo, a escalação era sempre ruim. 

Mas um resultado evidente como este precisa de uma causa mais especifica do que a minha explicação. Com a palavra, o brilhante Tostão:

"A entrada de Bernard foi uma decisão desastrosa, prepotente, porque mesmo se Neymar estivesse presente, o Brasil teria que reforçar o meio-campo, principal qualidade da Alemanha."

Tostão não é só ex-jogador de futebol e comentarista esportivo, Tostão também é médico. Um médico de inteligência diferenciada, de pensamento estatístico. Em contrate, a prática de nossa medicina às vezes se parece mais com Felipão do que Tostão. Médicos, com a "prepotência" citada por Tostão ao descrever Felipão, às vezes acreditam no que querem acreditar. Interpretamos desfechos casuais como causais quando não pensamos cientificamente. Muitas vezes, utilizamos condutas sem eficácia comprovada (ou ineficazes) e usamos exemplos de desfechos favoráveis como argumentos pró-conduta, desprezando os casos de desfecho desfavorável. Ou desprezamos informações científicas que deveriam nos nortear.  É comum violarmos a estatística em prol de uma interpretação enviesada do mundo clínico a nossa volta. 

Os técnicos da Alemanha, Holanda, Chile são técnicos baseados em evidências. Felipão e Parreira são técnicos baseados em crenças. Crenças provenientes de dogmas (Fred) ou de conflitos de interesse. 

21 comentários:

  1. Mais um excelente texto, professor Luís Cláudio!

    A título de curiosidade, a seleção alemã também usa bases de dados e análises mais sofisticadas para suas estratégias (http://copadomundo.uol.com.br/noticias/redacao/2014/07/07/alemanha-usa-pesquisa-academica-em-plano-de-jogo-contra-brasil.htm). Infelizmente, pelo que conhecemos do Brasil e dos "futebolistas", o preconceito com a estatística ainda é grande e não vejo isso mudar tão cedo para nós.

    Não sei se eu interpretaria da mesma forma essas probabilidades. O modelo fez uma previsão de chances de 1 para 4,000 ou 1 para 900, se ajustássemos os times sem favoritos, dando probabilidades de 0.025% e 0.11% .

    Poderíamos considerar como hipótese nula a afirmação de que o SPI é eficaz para prever partidas assim atípicas. Enfim, achar possíveis razões agora é uma tarefa interessante, porém é algo que deve ser feito com cautela. “Post hoc, ergo propter hoc” está sempre nos assombrando.

    Dando uma colher de chá ao Felipão, temos uma semi-final, com desfalque de jogador principal, a responsabilidade de ser uma seleção pentacampeã de sede da Copa e diversas outras variáveis. Isso somado a um possível gol ao acaso aos 11 min. do 1º tempo tem uma impacto psicológico sobre a equipe que não podemos mensurar nem produzir.

    Trata-se de um evento complicado (raro, não-reprodutível e multivariado). Escolher um fator principal entre tantos é algo perigoso.

    Nate Silver toma emprestado os termos do Isaiah Berlin, para separar pensamentos:
    "The fox knows many things, but the hedgehog knows one big thing"

    É uma unanimidade que a estratégia foi um fator contribuinte para a derrota, mas, ao falar sobre essa semi-final, sejamos menos porcos-espinho e mais raposas.

    Que pena que não temos textos com mais frequência. Sinto falta de discussões assim. Especialmente, quando tudo o que se fala é sobre Dilma comprando a Copa e outras maluquices.

    Abraços,

    Felipe

    ResponderExcluir
    Respostas
    1. Vi, inúmeras vezes, um gol inesperado afetar psicologicamente os jogadores de algum time. No entanto, nunca vi esse efeito gerar esse tipo de resultado. Nunca vi o efeito psicológico de um gol inesperado gerar um placar de 5 a 0 antes de completar 30 minutos de partida. Muito menos um placar final de 7 a 1.

      Excluir
  2. Os russo fizeram análises matemáticas (avançadas para a época) para parar o Garrincha em 1962. Não deu certo, ele (e o futebol) não seguem a lógica.

    ResponderExcluir
    Respostas
    1. Um caso isolado não faz pesquisa. Mesmo a chance podendo estar a favor, ainda há uma chance de perder.

      Excluir
  3. Nate é Bayesiano. Ele deve execrar o p-value...o que vc apresenta me parece mais uma probabiidade a posterióri, mas ótimo tetxo e interpretação! Parabéns pelo blog.

    ResponderExcluir
  4. Excelente, Luis. Permita-me compartilhar.
    Abs
    R.Dultra

    ResponderExcluir
  5. Tem um paper de 2009 no ArXiv que argumenta que qualquer resultrado por mais de 3 gols de diferença é estatisticamente significativo para determinar qual o melhor time: http://arxiv.org/PS_cache/arxiv/pdf/0909/0909.4555v1.pdf

    ResponderExcluir
  6. Há uma falha lógica em sua argumentação quando refere: "a Alemanha é muito melhor que o Brasil. " Não estou defendendo que não seja, no entanto, o p apresentado é em relação à hipótese nula. Para embasar sua afirmação deveria primeiro definir o que é ser muito melhor (vencer em média por 3 gols de diferença, por exemplo) e depois ver se o resultado oferece significância estatística a esta hipótese.

    ResponderExcluir
  7. Temos que deixar claro três pontos:
    . A distribuição usada para o cálculo de probabilidades é a do modelo de Nate, que NÂO considera que a média de gols das duas seleções são iguais. Portanto, tais resultados não podem ser utilizados para testar se a Alemanha tem a mesma média de gols que o Brasil (em uma partida típica das duas seleções, no momento). PS: não entendo o que significa Alemanha = Brasil.
    . O valor p é a probabilidade de se obter um valor tão ou mais extremo que o observado, dada a hipótese nula. Logo, deveríamos calcular a probabilidade da Alemanha ganhar por seis OU MAIS gols para executarmos o teste unilateral da maneira adequada.
    . Por fim, a conclusão do teste seria: a média de gols da Alemanha é significativamente maior (ao nível de 5%) que a do Brasil em um confronto de semi-final. Claro, teríamos que ter repetições da partida! Não entendo como foi concluído que o time da Alemanha é "muito melhor" que o do Brasil.
    Parei de ler nessa parte...

    ResponderExcluir
  8. Só falta demonstrar que Tostão é um grande comentarista esportivo porque é médico.
    Com um n maior de comentaristas médicos você pode avaliar se a sensibilidade e a especificidade do acerto nos comentários é diferente entre médicos x não-médicos.

    ResponderExcluir
  9. A análise do autor está equivocada. O tamanho da amostra (1 jogo) é insignificante para se realizar um teste de hipótese. É impossível para qualquer pessoa determinar que este resultado não é um outlier sem pelo menos mais trinta repetições do mesmo jogo.

    Além, está sendo ignorado o fato de o modelo não está incorporando uma certa complexidade inerente, que no caso seria a probabilidade de se fazer mais gols caso a equipe adversária seja desestabilizada por um gol anterior. Eu até achei que o autor iria confirmar a hipótese do acaso baseado nisso.

    Se este texto tem um caráter um pouco mais do que cômico, peço pela retificação do erro científico.

    ResponderExcluir
  10. Tem mais um erro também.. o ELO está mal calculado. Esse índice precisa ser constantemente "resetado", ou no mínimo "corrigido", de modo que apenas as partidas mais recentes deveriam ter entrado em seu cálculo, ou no mínimo ganhado um peso maior.
    Achei uma fonte com uma metodologia, http://footballdatabase.com/methodology.php, que não inclui a "atualização periódica" do ELO. Esse procedimento é necessário em esportes que passam por "temporadas" diferentes, como o futebol.

    ResponderExcluir
  11. Aplicar modelo estatistico para times de épocas diferentes, só por estarem utilizando a camisa da mesma seleção é um grande equívoco. Por isso não se encontram técnicos estatísticos.

    ResponderExcluir
  12. O uso de estatísticas ajudam sim, mas a falta de um esquema tático eficiênte, esse sim, desestrutura uma equipe, e abre espaço para o outro ser superior. Não acredito em probabilidades.....

    ResponderExcluir
  13. Mesmo os amantes da saúde baseada em evidências podem ser traídos pelo fenômeno da regressão à média.

    Há um erro (ou mais) nas interpretações neste post e talvez no Nate (deste eu não posso afirmar, pois não li o que ele escreveu...). O dos leitores, Felipe Argolo, escreveu "Trata-se de um evento complicado (raro, não-reprodutível e multivariado). Escolher um fator principal entre tantos é algo perigoso." Além disso, a base de dados ELO, que ele mencionou e, que possuí informações de confrontos entre seleções desde o século XIX, são dados ecológicos multifatoriais e com o agravante de serem irreprodutíveis. Apesar de um único evento ( uma partida de futebol) poder ser dicotômica (ganha-perde), há 22 fatores interagindo em campo (jogadores de futebol), os quais são influenciados por muitos outros fatores de confusão (bicho, família, torcida, comissão técnica, técnico, juiz...). Em cada evento haverá incontáveis fatores de confusão para compor o banco de dados que permite estimar as probabilidades de um time vencer. Então, tentar acertar algumas previsões com esses dados ecológicos é apenas uma tentativa de levantar alguma hipótese ousada.

    Para exemplificar, suponhamos que um pesquisador resolva estudar a associação entre o conhecimento de matemática e o tamanho do pé de crianças e adolescentes. O resultado óbvio é que há associação entre entre o conhecimento de matemática e o tamanho do pé das crianças e adolescentes. O aumento do tamanho do pé causa o aumento do conhecimento de matemática? Obviamente, não! Sem sem considerar variáveis de confusão, crescimento e desenvolvimento nesse caso, as interpretações dos resultados só podem ser espúrias, turvando a nossa mente com crenças e emoções daquilo que é acaso.

    É claro que o professor Luis sabe disso. Apenas foi traído por sua mente turvada pela paixão no futebol.
    Parabéns por mais um post interessante e reflexivo!

    ResponderExcluir
    Respostas
    1. Valter,

      Apesar dos fatores elencados serem altamente plausíveis, rejeitar a validade do modelo SPI (Soccer Power Index) com base neles é cair numa falácia lógica. A única coisa que pode bater o martelo na validade é o desempenho obtido em novas observações para as quais ele foi desenvolvido.

      Se bem me recordo, num artigo de junho, baseado no SPI, Nate Silver colocava Brasil, Alemanha e Argentina como os três favoritos. Dois desses disputaram a final e o outro a semi-final.

      Essa previsão não é igual aos dados de calibração jogo a jogo, mas é uma evidência de que o modelo não é tão ruim assim. Só fuçando o website da ESPN para saber se esses dados estão disponíveis (previsões vs. dados reais).

      Abç

      Excluir
  14. Fico satisfeito em ver tantos comentários estatísticos de qualidade, o mundo precisa de reflexões estatísticas como estas. Após um acúmulo razoável de comentários, chega o momento de explicar um pouco melhor o raciocínio, visto que na postagem original utilizei um estilo pouco teórico, para que a leveza do texto aproximasse o raciocínio científico do pensamento cotidiano.

    Utilizamos aqui a estratégia de considerar um modelo preditor como o representante da hipótese nula. Todo modelo preditor é representado por dados do passado (dados históricos). São formas de prever um futuro, tendo conhecido como as coisas aconteceram no passado. Querendo provar que naquele dia as coisas não estavam normais (hipótese alternativa), usamos o modelo preditor histórico como o representando do normal, do usual. E esse modelo previa qu,e no mundo normal, a probabilidade uma coisa daquela acontecer era 0.011%. Tão baixa, seria tanto azar, que preferimos passar a acreditar que o mundo não estava normal (hipótese nula rejeitada).

    Ou o modelo de Nate estava bem calibrado para aquele dia e o Brasil teve um azar de cair no 0.011%, ou o modelo de Nate não estava bem calibrado, devido aos múltiplos fatores comentados acima. Fico com a segunda opção, pois um modelo desse não poderia prever tamanha desorientação de uma comissão técnica.

    Modelos preditores são os legítimos representantes da hipótese nula, do que se espera de um mundo normal. Esse é o conceito intrínseco nesta postagem.

    ResponderExcluir