sábado, 24 de agosto de 2013

O Estranho Mundo do Overdiagnosis



Neste mês, o ex-presidente americano George W. Bush fez um teste de esforço, recebeu o diagnóstico de doença coronariana, e foi submetido a implante de stent em uma das artérias de seu coração. Na alta hospitalar, saiu acreditando que se beneficiou, porém mal sabe ele que sofreu do que a literatura médica internacional denomina overdiagnosis.

Overdiagnosis é um diagnóstico verdadeiro, porém desnecessário, com maior potencial de causar danos do que benefícios. Este fenômeno decorre da cultura do check-up, propagada pelo lobby em prol do excesso de exames em pessoas saudáveis. Em contraposição, o pensamento médico-científico propõe que a realização de exames se justifique pela existência de um benefício clínico advindo do diagnóstico. E não pela falsa perspectiva de proteção gerada pelo exame. Em pessoas saudáveis, assintomáticas, há exames que devem e outros que não devem ser realizados.

O senso comum sugere que o “desentupimento” da artéria de Bush foi benéfico. No entanto, isto vai de encontro à totalidade das evidências científicas de qualidade (COURAGE, BARI 2D, FAME-II): no paciente estável, “desentupimentos” não previnem morte cardiovascular, nem infarto. Isto ocorre porque a intervenção é feita na placa de gordura que mais impressiona visualmente, sendo que o infarto por decorrer de qualquer das inúmeras placas invisíveis que residem em todo leito coronário. O que previne infarto é o controle dos fatores de risco. Principalmente controle do colesterol elevado, da hipertensão arterial e tabagismo. Este deve ser o verdadeiro enfoque preventivo.

O benefício do procedimento que Bush recebeu é útil para controlas dos sintomas de angina. Porém Bush não pode desfrutar deste benefício, pois não sente nada, tendo recentemente pedalado 30 milhas em um evento que homenageou veteranos da guerra do Iraque. Desfrutou, isto sim, do estresse psicológico do internamento, do desconforto de uma intervenção invasiva, da necessidade de uso prolongado de drogas antiplaquetárias, além do alto custo de seu procedimento.

Outra exemplo de overdiagnosis é o rastreamento indiscriminado de alguns cânceres em pessoas assintomáticas. Por exemplo, a realização anual do exame de PSA para pesquisa de câncer de próstata em homens assintomáticos. Embora câncer de próstata em alguns casos possa ser fatal, está provado cientificamente que fazer PSA de rotina não reduz probabilidade de morte por esta doença. Isto porque na prática, a detecção de cânceres precoces e localizados não necessariamente previne cânceres avançados, como sugere o senso comum. Em contrapartida, a cada 1000 homens que realizam PSA, 200 sofrem biópsias desnecessárias, 29 terminam impotentes e 18 com incontinência urinária devido a previsíveis efeitos advindos do tratamento resultante do overdiagnosis. Por este motivo, no ano passado US Prevention Task Force (órgão americano que recomenda exames preventivos) contraindicou o uso de PSA em homens assintomáticos. Paradoxalmente, PSA continua sendo um dos mais populares exames em nossa prática médica. Isto não quer dizer que a pesquisa do câncer de próstata e seu tratamento cirúrgico não esteja indicada em certos casos, principalmente em pacientes com sintomas. O overdiagnosis se refere ao uso do exame em qualquer pessoa, independente de seus fatores de risco ou quadro clínico.

Esta discussão não propõe que passemos a negligenciar a medicina preventiva. Propõe que os exames certos sejam realizados nas pessoas certas. Ao solicitar um exame, tenhamos em mente que em última instância o objetivo é beneficiar o sujeito clinicamente. Há casos em que o rastreamento para câncer e a pesquisa da doença coronária devem ser realizados. Segundo, devemos lembrar que prevenir não é necessariamente fazer exames, há situações em que a prevenção vem de outras condutas. 

Quando presidente, George W. Bush diagnosticou que o Iraque representava uma ameaça ao mundo ocidental e promoveu uma guerra de benefícios questionáveis e eventos adversos evidentes. Dez anos se passaram e agora seus médicos fizeram o mesmo: diagnóstico desnecessário e tratamento fútil. Tudo não passa do estranho mundo do overdiagnosis.

* Artigo publicado ontem no Jornal A Tarde por Luis Correia.

domingo, 4 de agosto de 2013

O sucesso do Bahia é estatisticamente significante?



Sou Bahia e vibro com a terceira posição do tricolor no Brasileirão. Poderia deixar meu cérebro direito (emoção, paixão) prevalecer, argumentar que nosso time atualmente é um dos melhores e que corremos o risco de sermos campeões mais uma vez. Esse argumento não estaria errado, pois futebol é paixão. Por outro lado, este Blog é científico e serve para exercitarmos o cérebro esquerdo, racional, matemático, realista. Portanto, farei uma abordagem de torcedor estatístico.

Neste contexto, surge a seguinte questão. O Bahia está bem mesmo? Observem que o que temos neste momento não é o campeonato brasileiro inteiro, é apenas uma amostra (uma parte) do campeonato, representado pelas primeiras 10 de um total de 38 rodadas. Isso se assemelha às evidências científicas, que em geral são observação obtidas em amostras populacionais e depois extrapoladas para a população. Quando utilizamos amostras para obter informações a cerca da população, devemos fazer uso da estatística, que serve para quantificar a incerteza a respeito de nossas conclusões amostrais. 

Formulando esse problema sob a forma científica, precisamos testar a hipótese de que o Bahia de 2013 é melhor do que o Bahia de 2012. Ao comparar a posição do Bahia após a décima rodada do campeonato, percebemos que hoje estamos na 3o posição, muito melhor do que no ano passado, que nesta altura estávamos na (pasmem) 19o posição. Que diferença gritante!


No entanto, o que percebemos nessa amostra pode ou não ser representativa da realidade do campeonato por inteiro. Quando estamos com uma amostra, existe a possibilidade da diferença entre os campeonatos ter sido obra do acaso e não uma concreta melhora de qualidade do time. Foi apenas sorte do Bahia?


Teste de Hipótese

Vou aproveitar este exemplo futebolístico para explicar como funciona teste de hipótese em estatística. Primeiro, começamos a premissa da hipótese nula, que prima pela inexistência do fenômeno (Bahia está melhor). Daí nos perguntamos: se a hipótese nula for verdadeira (Bahia não está melhor), qual a probabilidade desta diferença entre os dois campeonatos se fazer presente?

Se na presença da hipótese nula, for alta a probabilidade da diferença observada, pode ser que tudo não passe do acaso. Daí não vamos acreditar no fenômeno, vamos ficar com a hipótese nula. Estatisticamente falando, não podemos rejeitar a hipótese nula.

O que a estatística faz é calcular a probabilidade do resultado observado aparecer na vigência da hipótese nula. Essa probabilidade é o valor de P.

Sendo assim, calculei o valor de P da diferença da proporção de vitórias do Bahia nas primeiras 10 rodadas de 2013 versus 2012. Sendo uma diferença de proporção, usei o teste de Fisher, que se adéqua melhor a pequenas amostras (N = 10 jogos). Encontramos o seguinte: o Bahia ganhou 40% dos primeiros 10 jogos em 2013, comparado a 10% de vitórias em 2012, sendo o valor de P = 0.30. Isso significa que há 30% de probabilidade dessa diferença aparecer, mesmo na vigência da hipótese nula. Se o time for tão ruim quanto 2012, há ainda 30% de probabilidade da campanha destas primeiras rodadas se fazer presente. Ou seja, essa campanha não é suficientemente diferente de 2012 para rejeitar mos a hipótese nula.

Como todos sabem, para rejeitar a hipótese nula, é necessário valor de P < 0.05. O que significa isso? Se aparecer um resultado que seja muito improvável na vigência da hipótese nula, a gente começa a duvidar da hipótese nula, que era nossa premissa inicial. Se essa probabilidade ficar abaixo do limite de 5%, a gente para de insistir na hipótese nula, rejeita esta hipótese e fica com a hipótese alternativa de que o fenômeno é verdadeiro. Neste caso, seria a hipótese alternativa de que o Bahia está de fato melhor.

Assim funciona teste de hipótese. Partindo do ceticismo científico, nossa tendência é proteger a hipótese nula. Porém só até um certo ponto. Na presença de um resultado muito improvável (uma diferença muito grande, com P < 0.05), faz mais sentido achar que a hipótese nula é falsa, achar que de fato o Bahia está melhor.

O porquê de 5% ser o limite para rejeição da hipótese nula será tema de futura postagem. Mas adianto que este valor específico é uma convenção do que se considera matematicamente muito improvável.

Podemos também fazer uma comparação dos pontos obtidos pelo Bahia a cada rodada. Em 2012, o Bahia obtinha uma média de 0.90 pontos por jogo, com desvio-padrão de 0.88. Em 2013, a média de pontos por jogo subiu para 1.6, com desvio-padrão de 1.27. A diferença de 0.90 ± 0.88 versus 1.6 ± 1.27 resulta em valor de P = 0.28. Ou seja, 28% de probabilidade dessa diferença aparecer mesmo a hipótese nula sendo verdadeira.

O Fenômeno de Regressão à Média

Sendo assim, o que vimos até então pode ser mera obra do acaso e não garante que o Bahia esteja melhor. Se isso for por acaso, a tendência será o desempenho do Bahia regredir à média. Ou seja, com o passar das rodadas o Bahia vai caindo de posição, terminando em uma posição abaixo do que a atual. Este é o fenômeno estatístico de regressão à média, já comentado em detalhes nesse Blog (vale a pena rever esta e esta postagens). Em resumo, este fenômeno indica que na presença de resultados extremos (Bahia muito bom ou muito ruim), na medida em que se aumenta o tamanho amostral, a observação vai tomando uma forma mais próxima do usual. Vai regredindo à média.

Observem o progredir do campeonato. Pode ser um grande exemplo de regressão à média.


Poder Estatístico

Quando diante de um estudo negativo (ausência de diferença estatística entre os grupos), devemos considerar duas possíveis explicações: (1) de fato não há diferença ou (2) o estudo sofreu o erro tipo II, aquele no qual uma diferença verdadeira não foi encontrada por falta de poder estatístico (estudo pequeno).

De fato, este é um estudo pequeno e para a diferença observada no percentual de vitórias, o poder estatístico é de apenas 15%. Como comentado na última postagem, um estudo deve ter pelo menos 80% de poder estatístico.

Desta forma, é possível que o Bahia esteja melhor e o estudo não foi capaz de encontrar significância pois ainda tem muito pouco jogo. Mas percebam que esta análise não nos permite concluir que quando aumentar os jogos, vai se comprovar que o Bahia está melhor. O baixo poder estatístico nos permite apenas concluir que o resultado negativo não é definitivo e que estudos maiores podem (ou não) mostrar um resultado positivo. Mas por enquanto devemos ficar com a hipótese nula, a qual não foi rejeitada neste estudo.

O que ocorre muitas vezes em medicina é a utilização inadequada do argumento de que um estudo não tem poder estatístico para rejeitar a hipótese nula. Por exemplo, alguém é a favor de um tratamento. Este tratamento foi semelhante ao placebo em um estudo pequeno, que não tinha poder estatístico ideal. Daí a pessoa diz que foi erro tipo II e com isso considera que o tratamento deva ser utilizado. Isso é errado! A interpretação certa é que este estudo não demonstrou benefício, portanto o tratamento não deve ser utilizado. Em segundo lugar, por este estudo ser pequeno, a questão ainda não está fechada. Estudos maiores podem (ou não) mostram resultados favoráveis. Devemos esperar estes estudos.

Portanto, devemos analisar o progredir do campeonato para avaliar se a diferença regride à média ou se torna estatisticamente significante com o aumento do tamanho amostral.

Viés de Comparação

Falamos até então da possibilidade de que tudo seja decorrente do acaso, de erro aleatório. Porém, estudos podem também sofrer de outro tipo de erro, o sistemático, denominado vieses. Estes vieses representam erros no métodos dos trabalho. Na questão desta postagem, podemos estar sofrendo do viés do grupo de comparação. Ou seja, o melhor resultado do Bahia em 2013 pode decorrer dos times que lhe servem de comparação (adversários em campo) estarem piores do que em 2012, e não do Bahia estar melhor. Que diga o Fluminense, campeão no ano passado que acaba de demitir o técnico devido a  5 derrotas consecutivas; ou o São Paulo, atualmente na zona de rebaixamento. 


Plausibilidade versus Realidade

Como já vimos, plausibilidade é um dos critérios de causalidade propostos por Bradford Hill. Devo reconhecer que existe certa plausibilidade do Bahia estar melhor. Uma delas é o aspecto motivacional. Observem que esta melhora coincide com o afastamento de um presidente acusado de "irregularidades". Imagine a situação (hipotética) de uma empresa cujo suposto líder é corrupto. Isso torna o grupo de trabalho desmotivado, sendo motivação algo essencial para ganhar competições. Agora imaginem que esse líder é afastado. Isso pode ter um impacto enorme sobre a motivação dos funcionários. Uma esperança de melhora no ambiente de trabalho.

Sendo assim, me parece plausível que o Bahia esteja de fato melhor. Porém devemos lembrar que, cientificamente, plausibilidade não garante realidade. Não basta que um tratamento tenha plausibilidade de benefício, para que seja adotado. Sua eficácia deve ser demonstrada. Portanto, não é porque faz sentido que já podemos ir achando que o Bahia está ótimo. Vamos esperar...

Ainda dentro da plausibilidade, podemos ouvir muitos comentários de especialistas em futebol (os comentaristas), mostrando os porquês do Bahia estar tão bom. Caímos na mesma situação, onde plausibilidade não representa realidade. Até porque estas explicações vem depois dos resultados. Observem (que diga Milton Neves) como os comentaristas erram as previsões dos resultados dos jogos. Aliás se fossem bons preditores, estariam todos ricos com a loteria esportiva. Isso é muito bem retratado no filme Moneyball, em que o personagem de Brad Pitt, manager de um time de baseball, dispensa os velhos especialistas na contratação de jogadores e traz um jovem estatístico, capaz de indicar contratações muito mais efetivas do que as escolhidas pelos entendidos no assunto. A mente do especialista não funciona estatisticamente, funciona de acordo com suas crenças e emoções, ficando sujeitas a vieses de pensamento e fatores de confusão. Isso ocorre muito com especialistas médicos, tema de postagem futura.

Considerações Finais

A vida baseada em evidências (assim como a medicina baseada em evidências) evita de toda forma o dogmatismo. Dogma é quando a gente acredita em uma coisa porque quer acreditar e pronto. Se embasar em evidência é estar de mente aberta e olhar para os dados de maneira fria, estatística, a procura da melhor conclusão. Dizer que o Bahia tem chance de ser campeão é algo que se aproxima mais de fé ou fantasia. É o cérebro direito funcionando mais do que o esquerdo. No esporte, não tem nada de errado nisso, pois esporte é paixão, emoção, sangue, suor e lágrimas. Mas em medicina, tem que ser diferente. Não podemos ser dogmáticos e (por exemplo) propor congelar cérebros de pacientes pós-parada (hipotermia) antes de que surjam evidências melhores do que as primeiras 10 rodadas do brasileirão.

A foto abaixo retrata a última vez que meu cérebro direito me guiou no caso do Bahia. Estava eu ali, entusiasmado com meus sobrinhos, entrando na nova Arena. Para que? Para ver o Bahia perder de 7 x 3 do Vitória. Depois dessa, ficarei com a hipótese nula, até que se prove o contrário (P < 0.05).

Agora, fazendo uma previsão realista. Vai haver uma regressão à média, o Bahia vai cair da 3o posição. Talvez não termine na 15o como no ano passado, terminará algo como na 10o posição. Veremos ...

OBS: Percebam que não sou do tipo de torcedor do Bahia que fico pensando no Vitória. Desta forma, nem mencionei este time em minha postagem. Prefiro convidar o professor de estatística da pós-graduação de medicina da UFBA, meu amigo Paulo Rocha, a escrever sobre seu Vitória. Espero que ele utilize o cérebro esquerdo em sua análise.

* Agradeço ao acadêmico de medicina Marcos Correia, pela assessoria esportiva neste postagem.