Recentemente, em disputa de pênalti contra a seleção do Paraguai, os jogadores da seleção brasileira de futebol foram capazes de perder quatro pênaltis sucessivos. Um desastre. Já comentamos em postagem prévia que boa parte dos acontecimentos na vida decorre do acaso, apesar de que nossas mentes não estejam condicionadas a pensar desta forma. Do ponto de vista preventivo, precisamos esclarecer se este inusitado fenômeno decorreu de alguma causa específica ou simplesmente por acaso (azar). Para isso devemos calcular a probabilidade dos resultado encontrado ter ocorrido por obra do acaso, ou seja, verificar se o fenômeno foi estatisticamente significante. Fiz uma enquete entre amigos e conclui que a probabilidade de um jogador de seleção perder um pênalti é de 30%. Desta forma, a probabilidade de quatro jogadores sucessivos perderem é de 30% x 30% x 30% x 30% = 0.81% (P = 0.0081). Isto significa que a probabilidade do resultado pelo acaso é tão pequena que podemos considerar que não foi simplesmente azar. Sendo estatisticamente significante, devemos procurar relações causais para o acontecimento: desequilíbrio psicológico, jogar de salto alto, falta de liderança do técnico (que já deve ser trocado), falta de treinamento de cobrança de pênaltis, etc. Ou seja, quando a probabilidade do acaso é muito pequena, ficamos com a hipótese de que o observado retrata algo mais significativo que esteja por trás.
Migrando para um exemplo na ciência médica, se uma droga é superior ao placebo de forma estatisticamente significante, consideramos que a observação decorreu de uma verdadeira relação causal entre o efeito da droga e o benefício desfrutado pelo paciente.
A comunidade medica está bem acostumada com a idéia de procurar significância estatística em observações descritas por artigos científicos. A redução de mortalidade obtida com a droga foi estatisticamente significante? Esta pergunta faz parte automática do nosso inconsciente coletivo, nunca nos esquecemos de avaliar se o valor de P é menor que 0.05. Em contraste, o motivo pelo qual precisamos do valor de P e a interpretação de seu significado são conceitos pouco compreendidos.
No início do século passado, o paradigma científico era individualista. Ou seja, se acreditava que a observação “científica” de um único caso poderia ser generalizada. Em torno da década de 1920, os cientistas começaram a perceber que a observação de um primeiro caso poderia ser diferente da observação do segundo caso, que não seria exatamente a mesma do terceiro caso, sendo o quarto caso talvez bem semelhante ao primeiro, e assim por diante. Com isso o paradigma científico evoluiu do individual para o coletivo. Ou seja, a verdade científica estaria mais bem representada pela média dos casos, do que por um único caso, por mais marcante que este possa ter sido.
Na prática, uma droga não é necessariamente benéfica porque foi administrada a um paciente que sobreviveu. O segundo paciente pode ter um efeito colateral e morrer devido ao tratamento. O terceiro pode não apresentar nada. É a média dos pacientes que se aproxima mais da verdade. Ou seja, o percentual de pacientes que sobreviveram indica a probabilidade de sobrevida. Nada é garantido baseado em um único caso, temos que avaliar o coletivo. Esse pensamento que hoje nos parece óbvio não fazia parte do senso científico na época. Foi Ronald Aylmer Fisher (aquele do teste exato de Fisher) um dos primeiros a perceber isso. Como estatístico, ele trabalhava na fábrica agrícola de Rothamsted. Ao perceber que o sucesso de um fertilizante obtido ao plantar uma muda de planta poderia não ser o mesmo na segunda muda, ele decidiu que a verdade estaria na média de várias mudas, que deveriam ser plantadas em ambientes controlados. A partir dessa simples constatação, Fisher publicou The Design of Experiments em 1935, obra que serviu de base para construção do método científico.
Esta mudança de paradigma representou uma evolução científica, principalmente na área de saúde. Mas aí surge um segundo problema. O ideal é que toda a população com uma determinada condição clínica seja estudada para termos noção de todos os possíveis desfechos. No entanto, isso é obviamente impossível. Daí surge o conceito de amostras: o que precisamos é estudar amostras que sejam representativas da população-alvo do problema científico.
Mas aí surge um terceiro problema. E se o que acontecer na amostra não for exatamente o que aconteceria se todo o universo de pacientes fosse estudado. Mesmo que a amostra tenha sido aleatoriamente selecionada, mesmo que a amostra seja representativa do tipo de pacientes da população-alvo, mesmo que o experimento tenha sido isento de vieses... ainda resta um fator inevitável que atormenta a vida do cientista: o acaso. Por mera obra do acaso, o observado em uma amostra pode não representar a verdade universal. Em outras palavras, o investigador por dar o azar de seu estudo estar errado. A solução encontrada para isso é estimar a probabilidade do resultado encontrado ser decorrente do acaso e sempre relatar ao lado das observações provenientes de amostras.
Quando o estudo é descritivo (descrever a letalidade de uma doença, descrever a média de colesterol da população), o que precisamos é relatar o grau de precisão da observação. Para isso se utiliza intervalo de confiança no nível 95%, que representa o grau de certeza a respeito do que está se falando. Se afirmamos que o nível de colesterol na população brasileira é 240 mg/dl (dado hipotético, inventei agora), com intervalo de confiança no nível 95% variando de 200 a 260 mg/dl, entendemos que 240 mg/dl pode ter sido por acaso, a certeza mesmo é que o valor seja dentro deste intervalo mencionado. Quanto mais estreito o intervalo, maior a precisão da informação. E um dos principais determinantes dessa precisão é o tamanho amostral.
Quando o estudo é analítico (comparativo), utiliza-se o valor de P. Este representa a probabilidade de que uma diferença (sempre há uma diferença, mesmo que mínima) observada entre grupos seja decorrente do acaso. Então, se a mortalidade do grupo droga foi 11.5% e a mortalidade do grupo placebo foi 12.3%, podemos dizer que houve redução de mortalidade com o uso da droga? Precisamos olhar o valor de P. Imaginem que este foi descrito como P = 0.04. O que isso significa? Isso indica que a probabilidade dessa diferença ter sido obra do acaso é 4%. Como interpretar?
Considera-se que deve haver uma probabilidade do acaso pequena o suficiente para que nos despreocupemos com esta questão. E pequena o suficiente é definida cientificamente como algo menor do que 5%. Desta forma, uma probabilidade menor que 5% (P < 0.05) é suficientemente desprezível para descartar o acaso. Assim, interpretamos que de fato nossa amostra está indicando o que ocorre no universo, ou seja, a droga reduz mortalidade.
Neste contexto, define-se como erro tipo I o ato de afirmar que existe uma diferença e esta diferença ter sido decorrente do acaso, não ser verdadeira. A probabilidade do erro tipo I é descrita pelo valor de P. Existe um teste estatístico diferente (teste t, qui-quadrado, correlação, etc) para cada caso. Todos estes testes levam em consideração a magnitude da diferença encontrada, o tamanho amostral (quanto maior, menor a probabilidade do acaso) e o grau de variabilidade do parâmetro avaliado.
Desta forma a ciência evoluiu para o estágio no qual se exige dos cientistas a preocupação com o acaso (estatística é um campo novo, tem menos de 100 anos), sempre reportandio o famoso valor de P.
Por outro lado, devemos lembrar que significância estatística é uma condição necessária, mas não suficiente para que um fenômeno seja verdadeiro. Um dado estatisticamente significante pode não ser verdadeiro, pois restam outros problemas: potenciais vieses no desenho do estudo e uma amostra não representativa do universo podem provocar resultados falsos. Por fim, devemos sempre lembrar que significância estatística não é exatamente relevância clínica. Podemos ter uma grande certeza (P < 0.0001) de que há benefício clínico com uso da droga, porém este benefício pode ser pequeno. Para avaliar magnitude do benefício o número necessário a tratar deve ser calculado (NNT).
Em conclusão, talvez a CBF deva considerar que o insucesso do Brasil na Copa América foi estatisticamente significante e que algo precisa ser modificado. Considerar que foi apenas o acaso e esperar que o fenômeno de regressão à média nos retorne ao status de melhores do mundo pode ser um equívoco que pagaremos em 2014, no Brasil.