Medicina Baseada em Evidências: agosto 2011

sábado, 13 de agosto de 2011

Por que Precisamos de Estatística?

Recentemente, em disputa de pênalti contra a seleção do Paraguai, os jogadores da seleção brasileira de futebol foram capazes de perder quatro pênaltis sucessivos. Um desastre. Já comentamos em postagem prévia que boa parte dos acontecimentos na vida decorre do acaso, apesar de que nossas mentes não estejam condicionadas a pensar desta forma. Do ponto de vista preventivo, precisamos esclarecer se este inusitado fenômeno decorreu de alguma causa específica ou simplesmente por acaso (azar). Para isso devemos calcular a probabilidade dos resultado encontrado ter ocorrido por obra do acaso, ou seja, verificar se o fenômeno foi estatisticamente significante. Fiz uma enquete entre amigos e conclui que a probabilidade de um jogador de seleção perder um pênalti é de 30%. Desta forma, a probabilidade de quatro jogadores sucessivos perderem é de 30% x 30% x 30% x 30% = 0.81% (P = 0.0081). Isto significa que a probabilidade do resultado pelo acaso é tão pequena que podemos considerar que não foi simplesmente azar. Sendo estatisticamente significante, devemos procurar relações causais para o acontecimento: desequilíbrio psicológico, jogar de salto alto, falta de liderança do técnico (que já deve ser trocado), falta de treinamento de cobrança de pênaltis, etc. Ou seja, quando a probabilidade do acaso é muito pequena, ficamos com a hipótese de que o observado retrata algo mais significativo que esteja por trás.

Migrando para um exemplo na ciência médica, se uma droga é superior ao placebo de forma estatisticamente significante, consideramos que a observação decorreu de uma verdadeira relação causal entre o efeito da droga e o benefício desfrutado pelo paciente.

A comunidade medica está bem acostumada com a idéia de procurar significância estatística em observações descritas por artigos científicos. A redução de mortalidade obtida com a droga foi estatisticamente significante? Esta pergunta faz parte automática do nosso inconsciente coletivo, nunca nos esquecemos de avaliar se o valor de P é menor que 0.05. Em contraste, o motivo pelo qual precisamos do valor de P e a interpretação de seu significado são conceitos pouco compreendidos.

No início do século passado, o paradigma científico era individualista. Ou seja, se acreditava que a observação “científica” de um único caso poderia ser generalizada. Em torno da década de 1920, os cientistas começaram a perceber que a observação de um primeiro caso poderia ser diferente da observação do segundo caso, que não seria exatamente a mesma do terceiro caso, sendo o quarto caso talvez bem semelhante ao primeiro, e assim por diante. Com isso o paradigma científico evoluiu do individual para o coletivo. Ou seja, a verdade científica estaria mais bem representada pela média dos casos, do que por um único caso, por mais marcante que este possa ter sido.

Na prática, uma droga não é necessariamente benéfica porque foi administrada a um paciente que sobreviveu. O segundo paciente pode ter um efeito colateral e morrer devido ao tratamento. O terceiro pode não apresentar nada. É a média dos pacientes que se aproxima mais da verdade. Ou seja, o percentual de pacientes que sobreviveram indica a probabilidade de sobrevida. Nada é garantido baseado em um único caso, temos que avaliar o coletivo. Esse pensamento que hoje nos parece óbvio não fazia parte do senso científico na época. Foi Ronald Aylmer Fisher (aquele do teste exato de Fisher) um dos primeiros a perceber isso. Como estatístico, ele trabalhava na fábrica agrícola de Rothamsted. Ao perceber que o sucesso de um fertilizante obtido ao plantar uma muda de planta poderia não ser o mesmo na segunda muda, ele decidiu que a verdade estaria na média de várias mudas, que deveriam ser plantadas em ambientes controlados. A partir dessa simples constatação, Fisher publicou The Design of Experiments em 1935, obra que serviu de base para construção do método científico.

Esta mudança de paradigma representou uma evolução científica, principalmente na área de saúde. Mas aí surge um segundo problema. O ideal é que toda a população com uma determinada condição clínica seja estudada para termos noção de todos os possíveis desfechos. No entanto, isso é obviamente impossível. Daí surge o conceito de amostras: o que precisamos é estudar amostras que sejam representativas da população-alvo do problema científico.

Mas aí surge um terceiro problema. E se o que acontecer na amostra não for exatamente o que aconteceria se todo o universo de pacientes fosse estudado. Mesmo que a amostra tenha sido aleatoriamente selecionada, mesmo que a amostra seja representativa do tipo de pacientes da população-alvo, mesmo que o experimento tenha sido isento de vieses... ainda resta um fator inevitável que atormenta a vida do cientista: o acaso. Por mera obra do acaso, o observado em uma amostra pode não representar a verdade universal. Em outras palavras, o investigador por dar o azar de seu estudo estar errado. A solução encontrada para isso é estimar a probabilidade do resultado encontrado ser decorrente do acaso e sempre relatar ao lado das observações provenientes de amostras.

Quando o estudo é descritivo (descrever a letalidade de uma doença, descrever a média de colesterol da população), o que precisamos é relatar o grau de precisão da observação. Para isso se utiliza intervalo de confiança no nível 95%, que representa o grau de certeza a respeito do que está se falando. Se afirmamos que o nível de colesterol na população brasileira é 240 mg/dl (dado hipotético, inventei agora), com intervalo de confiança no nível 95% variando de 200 a 260 mg/dl, entendemos que 240 mg/dl pode ter sido por acaso, a certeza mesmo é que o valor seja dentro deste intervalo mencionado. Quanto mais estreito o intervalo, maior a precisão da informação. E um dos principais determinantes dessa precisão é o tamanho amostral.

Quando o estudo é analítico (comparativo), utiliza-se o valor de P. Este representa a probabilidade de que uma diferença (sempre há uma diferença, mesmo que mínima) observada entre grupos seja decorrente do acaso. Então, se a mortalidade do grupo droga foi 11.5% e a mortalidade do grupo placebo foi 12.3%, podemos dizer que houve redução de mortalidade com o uso da droga? Precisamos olhar o valor de P. Imaginem que este foi descrito como P = 0.04. O que isso significa? Isso indica que a probabilidade dessa diferença ter sido obra do acaso é 4%. Como interpretar?

Considera-se que deve haver uma probabilidade do acaso pequena o suficiente para que nos despreocupemos com esta questão. E pequena o suficiente é definida cientificamente como algo menor do que 5%. Desta forma, uma probabilidade menor que 5% (P < 0.05) é suficientemente desprezível para descartar o acaso. Assim, interpretamos que de fato nossa amostra está indicando o que ocorre no universo, ou seja, a droga reduz mortalidade.

Neste contexto, define-se como erro tipo I o ato de afirmar que existe uma diferença e esta diferença ter sido decorrente do acaso, não ser verdadeira. A probabilidade do erro tipo I é descrita pelo valor de P. Existe um teste estatístico diferente (teste t, qui-quadrado, correlação, etc) para cada caso. Todos estes testes levam em consideração a magnitude da diferença encontrada, o tamanho amostral (quanto maior, menor a probabilidade do acaso) e o grau de variabilidade do parâmetro avaliado.

Desta forma a ciência evoluiu para o estágio no qual se exige dos cientistas a preocupação com o acaso (estatística é um campo novo, tem menos de 100 anos), sempre reportandio o famoso valor de P.

Por outro lado, devemos lembrar que significância estatística é uma condição necessária, mas não suficiente para que um fenômeno seja verdadeiro. Um dado estatisticamente significante pode não ser verdadeiro, pois restam outros problemas: potenciais vieses no desenho do estudo e uma amostra não representativa do universo podem provocar resultados falsos. Por fim, devemos sempre lembrar que significância estatística não é exatamente relevância clínica. Podemos ter uma grande certeza (P < 0.0001) de que há benefício clínico com uso da droga, porém este benefício pode ser pequeno. Para avaliar magnitude do benefício o número necessário a tratar deve ser calculado (NNT).

Em conclusão, talvez a CBF deva considerar que o insucesso do Brasil na Copa América foi estatisticamente significante e que algo precisa ser modificado. Considerar que foi apenas o acaso e esperar que o fenômeno de regressão à média nos retorne ao status de melhores do mundo pode ser um equívoco que pagaremos em 2014, no Brasil.

quarta-feira, 3 de agosto de 2011

O Paradigma do Benefício de Métodos Diagnósticos

Na última postagem da série Análise Crítica de Métodos Diagnósticos discutimos sobre o primeiro critério de avaliação da utilidade de um método diagnóstico, que corresponde à capacidade do resultado do exame em influenciar a probabilidade de doença. Como pontuamos, este critério é necessário para que um método seja útil, porém não suficiente. Nesta postagem discutiremos o segundo critério: o benefício proveniente da realização do método diagnóstico.

Quando falamos de conduta terapêutica, refletimos sobre benefício e malefício. No entanto, para métodos diagnóstico são fomos treinados a pensar desta forma. Porém é essencial que o médico tenha a noção básica que a informação fornecida por um exame, em primeiro lugar, não deve ser maléfica; em segundo lugar, a informação indiretamente deve trazer benefício para o paciente. Ou seja, a cascata de ações decorrente do resultado do exame devem reduzir o risco do paciente.

Vamos voltar a utilizar como exemplo o exame do screening da doença coronária em indivíduos assintomáticos. Saliento que esse raciocínio não se restringe à doença coronária ou à cardiologia. Esse pensamento deve ser universal.

Imaginem um paciente de 60 anos, hipertenso, assintomático, sem limitação funcional. Vai ao consultório de uma cardiologista, que solicita um teste ergométrico, seguindo a habitual receita de bolo que norteia nossa comunidade médica. Resultado, teste ergométrico positivo. Na postagem passada, discutimos que o valor preditivo positivo do teste nesta situação não é dos melhores, o que já coloca um grande ponto de interrogação na utilidade do mesmo. Mas hoje nossa discussão vai além desta questão. Imaginem que o teste está correto, ou seja, o paciente é portador de doença coronária silenciosa diagnosticada pelo teste ergométrico. Para que serviu o diagnóstico? Foi benéfico para o paciente? Sabemos que pacientes deste tipo não necessitam de procedimento de revascularização, portanto não há sentido maior em prosseguir com cateterismo cardíaco. Uma eventual angioplastia neste paciente não reduz risco de morte ou infarto, tal como demonstrado por vários estudos, liderados pelo Courage Trial.

O que este paciente precisa é prevenção de eventos cardiovasculares através do controle dos fatores de risco. Controle de hipertensão arterial, controle do colesterol. Até a intensidade do controle do colesterol não depende mais de um diagnóstico de isquemia silenciosa, pois já foi demonstrado que a redução agressiva é benéfica mesmo em pacientes sem doença cardiovascular, desde que seu risco seja intermediário.

Portanto, de acordo com um raciocínio lógico, a realização do teste não tem benefício, pois o resultado não deve modificar conduta. Mas a lógica não basta para chegarmos a conclusões definitivas em medicina. Daí surge o paradigma dos ensaios clínicos para testar eficácia de métodos diagnósticos. Estamos acostumados a falar em acurácia de métodos diagnósticos. Mas o que seria eficácia? Seria exatamente a comprovação de que a realização do método é benéfica para reduzir eventos indesejados, no presente caso, eventos cardiovasculares. Esta comprovação vem da randomização de pacientes para duas estratégias: fazer ou não fazer o método diagnóstico. A comunidade científica tem demandado este tipo de evidência para validação definitiva de um teste diante de uma dada circunstância clínica.

No caso do screening da doença coronariana, em 2009 foi publicado no JAMA um artigo onde investigadores randomizaram pacientes assintomáticos para realizar ou não realizar cintilografia miocárdica. Para não deixar dúvidas, eles selecionaram um tipo de paciente considerado de risco elevado para doença coronariana: diabéticos. Após anos de seguimento, não houve redução de eventos cardiovasculares com a realização da cintilografia miocárdica (foto acima). Portanto, é desnecessário realizar este exame.

Sempre que fazemos coisas desnecessárias, que não trazem benefício, corremos o risco de causarmos malefício. Recentemente, foi publicado no Archives of Internal Medicine um caso clínico, anedótico, porém que provoca nossa reflexão a respeito do assunto. Uma mulher jovem, obesa, vai ao consultório do cardiologista com uma dor precordial totalmente atípica. O mesmo percebe que a probabilidade de doença obstrutiva é baixa, porém decide solicitar uma pesquisa não invasiva de doença coronária obstrutiva. A justificativa usado pelo médico foi just in case, o que podemos traduzir para nossa linguagem médica coloquial como desencargo de consciência (alguém sabe de onde veio esse termo ridículo?). Muito bem, o exame realizado foi a angiotomografia de coronária, cujo resultado foi positivo para uma lesão na descendente anterior. Como todo exame não invasivo, há possibilidade de falso positivo. E isso ocorreu, pois o cateterismo solicitado na seqüência não mostrou obstrução coronária. Até aí tudo bem, pois no máximo a paciente sofreu o estresse emocional do exame e da possibilidade de doença coronária, um pequeno/moderado hematoma femural que vai se resolver em 30 dias, aliado ao custo para o sistema de saúde. Mas o problema é que neste caso, o cateter dissecou o tronco da coronária esquerda, provocando um infarto anterior extenso, levando a paciente para cirurgia cardíaca de urgência. Trinta dias depois a coitada teve alta do hospital, onde tinha se internado apenas por desencargo de consciência.

Dias depois a paciente se internou novamente por insuficiência cardíaca refratária, recebendo (pasmem) um transplante cardíaco, única solução encontrada para resolver seus sintomas. O desencargo de consciência terminou em um transplante cardíaco.

Recentemente, estudo observacional publicado nos Archives of Internal Medicine demonstrou que não houve diferença de eventos cardiovasculares entre 1000 pacientes assintomáticos de baixo risco que foram submetidos a screening de doença coronária, comparados a 1.000 pacientes que não realizaram o screening. Embora não seja informação definitiva (dado observacional), nada mudou no desfecho do paciente. No mesmo número da revista, Michael Lauer, cardiologista do NIH, escreveu o Editorial intitulado Pseudodisease, the Next Great Epidemic in Coronary Atherosclerosis, onde afirma:

Overdiagnosis is a serious problem because it leads to a number of harms, while by its very nature it cannot offer benefit. Overdiagnosis is threatening to become an increasingly important public health problem because of the enthusiasm for and proliferation of unproven screening tests.

Quando discutimos este assunto, médicos de boa fé geralmente mencionam alguns casos onde o paciente parece ter se beneficiado com o procedimento. Por exemplo, “eu tinha um paciente assintomático, que a cintilografia mostrou isquemia, o cateterismo mostrou doença triarterial e terminou em cirurgia cardíaca.” Bem, onde está mesmo a evidência de que cirurgia está indicada nesse caso? OK, mesmo que bem indicada e esse paciente tenha se beneficiado, isso não quer dizer que a decisão do exame tenha sido correta. Sabe por quê? Porque outro paciente desta mesma conduta pode ter se prejudicado: por exemplo, pode ter morrido na cirurgia ou recebido um stent que depois trombosou causando infarto anterior extenso - já vi isso. De forma que em média (tal como mostrou o estudo do JAMA) não há benefício – ou os casos de benefício foram anulados pelos casos de malefício.

Cuidado com a memória de nossa experiência clínica, ela pode nos enganar. Tendemos a memorizar os casos de sucesso, mais do que os insucessos. É nosso Complexo de Deus atuando inconscientemente.

Mas devemos também lembrar que há várias situações em que o exame diagnóstico é útil. Por exemplo, um paciente com dor torácica e moderada probabilidade de doença coronária obstrutiva. Um teste positivo vai elevar sua probabilidade para alta e nos fazer iniciar tratamento para melhora da angina do paciente. Seja medicamentoso ou invasivo. Haveria assim benefício de melhora na qualidade de vida.

Já comentamos neste Blog sobre a indicação de mamografia abaixo dos 50 anos para toda mulher, independente de seus fatores de risco. Estatísticas demonstram que para cada 2.000 mulheres que realizam o exame, 1 vida é salva e 10 tratamentos desnecessários (mastectomia, quimioterapia, radioterapia) são realizados. Mamografia anual realmente é benéfica em todas as mulheres com 40 anos?

Vários colegas justificam o excesso de solicitação de exames a partir do suposto desejo do paciente. “É o paciente que exige.” Para mim, isso não é uma verdade universal. Alguns poucos pacientes exigem, a maioria ouve sua recomendação. E mesmo os que exigem, exigem porque nós médicos que criamos a cultura do excesso de exames. Nós temos a responsabilidade de modelar o pensamento da comunidade leiga a respeito de questão médicas. E devemos fazer da maneira correta.

Na minha experiência, boa parte dos pacientes se incomodam em realizar muitos exames e gostam de uma conduta econômica. Não sinto uma demanda muito grande por parte dos pacientes. Por exemplo, outro dia me ligou uma amiga promotora, muito ocupada, mãe de dois filhos. Ela me perguntou: preciso mesmo perder uma tarde para realizar esse ecocardiograma que me foi solicitado durante uma visita pré-anestésica para um procedimento de pequeno porte? Claro que não.

Mais uma vez, lembro do paradigma do Less is More. Às vezes fazer menos exames é melhor para o paciente. Ainda com o benefício de dar mais espaço para o velho raciocínio clínico, este de utilidade indubitável.

Desta forma, concluímos a série Análise Crítica de Métodos Diagnósticos, onde demonstramos que antes de solicitarmos um método, devemos pensar em sua acurácia (o quanto um teste de fato contribui para o diagnóstico da doença - postagem 1 e 2) e em sua verdadeira utilidade clínica (influência na probabilidade e beneficio para o paciente) - postagem 3 e 4. Isso é raciocínio clínico embasado em evidências.