terça-feira, 20 de setembro de 2011

Menopausa e Doença Cardiovascular: a queda de um paradigma?



Um pensamento coletivo bem consolidado é o da menopausa como fator de risco para doenças cardiovasculares. Teoricamente, as mulheres passam a apresentar maior risco cardiovascular após a menopausa, pois perdem o efeito protetor do estrógeno. Seria neste momento que o risco das mulheres se aproxima do risco dos homens.


Na semama passada, foi publicado no British Medical Journal um sofisticado estudo, que traz forte questionamento à idéia corrente a respeito do assunto. Mas antes de discutir esta nova evidência, vamos revisar quais evidências prévias sugerem que o status pós-menopáusico representa um fator de risco cardiovascular.


A idéia faz sentido e todos nós aprendemos desta forma. No entanto, devemos reconhecer que este conceito é embasado em um raciocínio fisiopatológico, sem comprovação epidemiológica. Pelo contrário: desde a década de 60, estudos compararam mortalidade por doença cardiovascular entre diferentes populações separadas por faixa etária e demonstraram que quanto maior a idade da população, maior o risco cardiovascular. Porém, na idade típica da menopausa (50 anos), não se observou um aumento adicional no risco além da influência do "envelhecimento". Ou seja, os estudos não demonstravam um ponto de inflexão que indicasse algo mudar no momento da menopausa.



No entanto, estes estudos eram limitados por seu desenho. Eram estudos transversais, realizados em diferentes amostras de pacientes, de faixas etárias diferentes. Estas amostras de faixas etárias diferentes eram comparadas, mostrando maior mortalidade por doença cardiovascular nas amostras de idade mais avançada. Porém o ideal seria acompanhar prospectivamente os mesmos pacientes, demonstrando o efeito do tempo na ocorrências dos desfechos. Isto ainda não havia sido publicado, até a semana passada.


Desta forma, no último número do British Medical Journal, foi publicado o trabalho Ageing, menopause, and ischaemic heart disease mortality in England, Wales, and the United States, pelo grupo da Universidade de Johns Hopkins. Estas análises foram realizadas em bases de dados censitárias destes países, as quais acompanham a mesma população ao longo do tempo.  Utilizando estes dados, a mortalidade por doença isquêmica do coração foi registrada ao longo do tempo, na mesma população. De fato, esta mortalidade vai aumentando com o progredir do tempo, ou seja, com o envelhecimento da população. Porém não houve nenhum incremento desta mortalidade na faixa etária típica da menopausa. Ou seja, o aumento de risco ao longo do tempo é constante, aparentemente o efeito é apenas da idade. Não há ponto de inflexão.


Isto é importante, pois a principal diferença entre mulheres menopausadas e não menopausadas é exatamente a idade. Desta forma, as primeiras podem ter risco cardiovascular aumentado somente (ou principalmente) por isso, sem grande influência dos hormônios propriamente ditos. Neste caso, idade seria uma variável de confusão na associação entre menopausa e risco.


Faz sentido, não?

Em contraste, quando mortalidade por câncer de mama foi analisada, observou-se uma queda específica do risco após a menopausa. Ou seja, no caso do câncer de mama, o estudo detectou o efeito de fatores além da idade, provavelmente fatores hormonais. 

Mas se não há associação entre menopausa e risco, por que o risco da mulher tende a se igualar ao do homem em torno deste momento? O estudo também responde isto. Enquanto a mulher cresce de forma uniforme o risco de infarto com o passar da idade, o homem tem uma aceleração inicial e na quinta década há uma certa desaceleração no crescimento de seu risco, o que os aproxima das mulheres.

Esta evidência vai ao encontro dos ensaios clínicos que mostram que terapia de reposição hormonal não reduz risco cardiovascular. Dentre os critérios de causalidade, este seria um dos principais: reversibilidade. Ou seja, ao retirar (ou tratar) o fator,  a consequência desaparece. Por exemplo, ao tratar colesterol, infarto reduz sua incidência. Ao tratar  hipertensão, AVC reduz. Por outro lado, ao tratar a queda de hormônio típica da menopausa, o risco não diminui. Por que? Provavelmente porque não é a menopausa que aumenta o risco da paciente. É a sua idade e os fatores de risco clássicos que acompanham o envelhecimento. Agora fica melhor explicado porque terapia de reposição hormonal não tem benefício cardiovascular.

A idéia aqui discutida parece nova, mas na verdade não é. Em 1997, em artigo de revisão publicado no Circulation (Sex Differences in Coronary Heart Disease), Elizabeth Barrett-Connor afirmava “the universal excess risk of CHD in men noted above, coupled with the apparent loss of the female advantage in women who had an early menopause, led to the hypothesis that endogenous estrogen is cardioprotective. Proof of this hypothesis has been surprisingly elusive.”
Dizem que paradigmas ou verdades científicas mudam a toda hora. Penso diferente. Mudam aquelas idéias que na realidade nunca foram paradigmas, pois eram só idéias sem comprovação científica.

Quando vejo estas idéias sendo derrubadas, lembro-me da história dos Três Porquinhos. O porquinho que construía rapidamente sua casa, de forma precipitada, sem muita base (casa de palha), sempre se dava mal. Nossos argumentos, nossas idéias, nossas verdades devem se construir com base em fortes alicerces, ou seja, evidências de alta qualidade. Senão, algum dia, mais cedo ou mais tarde, o sopro do lobo será capaz de derrubar o idéia, que nunca foi um paradigma verdadeiro.

domingo, 11 de setembro de 2011

Estudos de Não Inferioridade II (por Adriana Latado)

Existem dois aspectos críticos na hipótese na não inferioridade. O primeiro é a definição da margem de não inferioridade. A idéia é que se defina qual o limite máximo de diferença entre o tratamento novo e o controle ativo considerado clinicamente irrelevante, quando o efeito for a favor do controle ativo. Ou melhor, o tratamento teste pode ter resultado melhor, aparentemente igual ou até “um pouco” pior do que o controle ativo para ser considerado não inferior. Para isso, esse “pouco pior” deve cair dentro da margem de não inferioridade. A definição desse limite pode levar em consideração critérios clínicos e estatísticos, sendo muito interessante a união de ambos os conhecimentos. Do ponto de vista estatístico, comumente utilizá-se o intervalo de confiança para se definir a margem de não inferioridade. A estratégia é usar o limite inferior do intervalo de confiança da medida de associação obtida em ensaio clínico que testou o controle ativo versus placebo, cujo resultado demonstrou efeito benéfico estatisticamente significante a favor do controle ativo. Ou seja, admite-se que o limite inferior desse intervalo de confiança é o mínimo efeito clinicamente relevante que se espera ter de um tratamento específico de modo reduzir o risco de um desfecho (quando comparado a não fazer intervenção). Se, no estudo de não inferioridade, o efeito do tratamento novo ou teste, comparado ao controle ativo, é menor do que esse limite (significa que está dentro da margem de não inferioridade), conclui-se que a nova intervenção é não inferior ao tratamento habitual com o que foi comparada. Na verdade, é comum o uso de uma fração de correção (f) sobre o limite inferior do intervalo de confiança, com objetivo de corrigir inconsistências entre a comparação atual e aquela entre controle ativo e placebo.

Outro aspecto crucial é o planejamento do estudo de não inferioridade, especialmente no que diz respeito à seleção da amostra, definição de desfechos e estratégia de análise estatística. Os indivíduos selecionados para o estudo de não inferioridade entre tratamento teste e controle ativo devem ter características demográficas, clínicas) muito semelhantes às pessoas estudadas no ensaio clínico de qualidade que serviu de base para a definição da margem de não inferioridade. Deve-se ter em mente que ‘tratamento novo não inferior ao controle ativo’ significa admitir que o tratamento novo tem efeito em relação ao placebo não inferior ao que o controle ativo apresentou sobre placebo em estudo prévio. 

Sobre a definição de desfechos de interesse, a mesma questão se impõe. O estudo de não inferioridade deve medir evento similar ao que foi avaliado no ensaio clínico entre controle ativo e placebo que lhe serviu de base. Caso contrário, a extensão do conceito de não inferioridade fica prejudicada. 

Finalmente, a escolha da estratégia de análise de dados tem se mostrado um ponto importante de discussão, e, recentemente, tem-se sugerido que a análise por intenção de tratamento seja complementada pela análise por protocolo nos estudos de não inferioridade. Aspectos que envolvem a análise por intenção de tratamento (intention to treat analysis) tendem a favorecer a não inferioridade, na medida em que caminham em direção à ausência da diferença entre os grupos, o que, no estudo de não inferioridade, está contemplada pela hipótese alternativa do investigador. Apesar dos vieses conhecidos e implícitos da análise por protocolo (ou seja, avaliam-se apenas os integrantes dos grupos que efetivamente utilizaram a intervenção), tem-se defendido que a premissa da não inferioridade deverá ser aceita apenas se o tratamento teste demonstrar-se não inferior ao controle ativo nas análises por intenção de tratamento e por protocolo.

domingo, 4 de setembro de 2011

O que são Ensaios Clínicos de Não Inferioridade?


Este tipo de estudo tem se tornado frequente entre importantes trabalhos publicados em revistas de alto impacto. No entanto, a razão da escolha por este desenho de estudo e a metodologia por trás dele é pouco compreendida.

Esta pouca compreensão leva alguns a pensarem que este desenho de estudo é um subterfúgio da indústria farmacêutica para demonstrar o valor de coisas que não têm tanto valor. Apesar de minha usual visão crítica em relação à indústria, devo afirmar que não é bem assim. Estudos de não inferioridade representam uma metodologia adequada e útil, quando corretamente aplicada.

Então, quando se usa e para que servem estes estudos?

Estes estudos fazem parte de um grupo classificado como estudos de eficácia comparativa, os quais são usados quando um tratamento novo é comparado a um tratamento tradicional. Neste caso, os estudos podem ser de superioridade ou de não inferioridade.

Os estudos de superioridade representam o modelo tradicional, com o qual estamos acostumados a lidar. Se aplicam tanto para eficácia comparativa (tratamento novo vs. tratamento tradicional), como para eficácia (tratamento vs. placebo/controle). No caso da eficácia comparativa, este tipo de desenho parte da premissa de que o tratamento novo tem motivos para ser superior ao tratamento tradicional. A possível superioridade justifica a troca do tradicional pelo novo. Por exemplo, stent farmacológico (novo) tem motivos para ser melhor do que stent convencional na prevenção de reestenose (um pouco). Desta forma, os estudos que comparam estes dois tipos de stent são de superioridade, pois a hipótese é de que o farmacológico é melhor do que o convencional.

A segunda situação é quando o tratamento novo não tem vantagem teórica que suporte uma hipótese de maior eficácia. Porém mesmo que não seja mais eficaz, o novo pode ser preferido devido a outras vantagens: ter maior praticidade na administração do tratamento, ser menos agressivo (traumático), ter menos efeitos adversos.

Alguns exemplos: heparina de baixo peso molecular (novo na década de 90) no tratamento de embolia pulmonar, comparada a heparina não fracionada (tradicional) . Ambos vão anticoagular o paciente, portanto não há grandes motivos para se acreditar que o novo será melhor.  Porém a HPBM tem administração subcutânea, não precisa de acesso venoso, não necessita de controle do nível de anticoagulação, eliminando a necessidade de exames laboratoriais frequentes e permitindo alta da UTI mais precoce. É grande a vantagem prática.

Dabigatran é um anticoagulante oral que não necessita de controle do tempo de protrombina. Mesmo que não fosse superior aos cumarínicos, possuiria uma enorme vantagem prática. 

Trombolítico de administração em bolus (TNK-tPA) são mais práticos do que rt-PA cuja administração requer infusão de 90 minutos. Mesmo que não sejam superiores, podem ser preferidos.

Angioplastia coronária é um tratamento menos agressivo e mais confortável para o paciente, quando comparado a cirurgia de revascularização. Angioplastia pode ser menos eficaz que cirurgia no controle de angina, porém a vantagem da menor agressividade pode justificar a opção por este tratamento.

Nestas situações, o tratamento novo pode ser justificado se ele não for muito pior do que o tratamento tradicional. Digo muito pior, pois nos estudos de não inferioridade se tolera uma certa margem de inferioridade, uma margem que pode ser compensada por outras vantagens. Isto que dizer que não inferioridade não é sinônimo de equivalência. Não inferioridade significa que não é suficientemente inferior para anular a vantagem prática no novo tratamento.

A margem aceitável de inferioridade nunca deve ultrapassar o razoável, nunca deve haver perda de mais de 50% de eficácia do tradicional em relação ao controle (preferencialmente bem menos que isso). Os autores determinam previamente a margem que definirá não inferioridade. Por exemplo, se vamos tolerar apenas uma perda de 20% da eficácia, o limite superior do intervalo de confiança do risco relativo não deve ultrapassar 1.2. Imaginem, RR = 1.1 (95% IC = 1.03 – 1.19) não ultrapassou o 1.2, então consideramos isto não inferior. Isto pode ser feito tanto com risco relativo, como com risco absoluto.

Com base nisso, calcula-se o valor de P, cuja interpretação é o contrário de estudos de superioridade. Ou seja, P < 0.05 indica não inferioridade, mostrando que significância estatística neste caso mostra uma ausência de diferença grande (nos estudos de superioridade P < 0.05 indicam diferença).

Parece confuso, mas é só entender que o estudo de não inferioridade testa a hipótese nula de que o tratamento novo é inferior. Caso P < 0.05 rejeita-se a hipótese nula e ficamos com a hipótese alternativa de que o tratamento novo é não inferior. Estatisticamente, hipótese nula e alternativas estão trocadas em relação aos estudos de superioridade.

Em suma, se o intervalo de confiança não ultrapassar o limite de pouco pior, consideramos não inferior. Ou, se o valor de P estiver abaixo de 0.05, consideramos não inferior.

Vamos agora à situação prática que nos motivou a escrever esta postagem, o estudo PRECOMBAT, recentemente publicado no NEJM.

Tradicionalmente, lesões de tronco de coronária esquerda possuem indicação cirúrgica quase inquestionável. Porém, o tratamento de angioplastia com stent tem evoluído, se tornando factível o procedimento em tronco. Não podemos partir de premissa de que angioplastia é superior a cirurgia, mas poderíamos imaginar que se não fosse muito pior, a vantagem de evitar uma cirurgia de risco poderia compensar. Desta forma, o estudo PRECOMBAT é um estudo de não inferioridade da angioplastia versus cirurgia de tronco. Faz sentido, não?

Assim, os autores definiram que 7% seria a margem de não inferioridade, ou seja, o limite superior do intervalo de confiança do aumento absoluto de risco de morte, infarto, AVC ou necessidade de revascularização. Sem dúvida, esta margem está ampla demais, 7% aumento de risco absoluto representaria um NNT de 19 (100/7) para provocar um evento indesejado se angioplastia fosse realizada ao invés de cirurgia. Mas mesmo assim, poderíamos considerar isso aceitável em pacientes de altíssimo risco cirúrgico ou que se recusem a fazer cirurgia.

Bem, no seguimento de um ano, o aumento absoluto de risco não ultrapassou essa margem (absolute risk difference, 2.0 percentage points; 95% confidence interval −1.6 to 5.6; P=0.01 for non- inferiority), porém a incidência de eventos foi menor do que o esperado, fazendo com que esta análise tivesse baixo poder estatístico. Assim os autores prolongaram a análise para o seguimento de 2 anos. Só que neste momento (espertamente), eles modificaram a regra do jogo e fizeram uma análise de superioridade (ilógica), na qual não mostraram diferença significante. Caso tivessem mantido a estratégia, o estudo não teria comprovado não inferioridade da angioplastia.

Desta forma, terminamos esta  postagem com duas mensagens principais: (1) estudos de não inferioridade representam uma metodologia útil e necessária para muitos casos; (2) devemos estar atentos para a esperteza de autores que burlam regras metodológicas no intuito de comprovar suas hipóteses.

Esta esperteza foi tão evidente que nos motivou enviar uma carta ao editor, aceita para publicação no NEJM no dia seguinte à sua submissão. Terminamos esta postagem com o teor de nosso texto:

To the Editor: In their report on a noninferiority trial involving patients with left main coronary artery disease, Park et al. (May 5 issue) conclude that percutaneous coronary intervention (PCI) was noninferior to coronary-artery bypass grafting (CABG). However, the authors recognize that a lower-than-expected incidence of the primary end point at 1 year provided insufficient statistical power. Therefore, a 2-year analysis was reported, with a cumulative incidence of the primary end point of 12.2% for PCI and 8.1% for CABG. At this point, the authors shifted the statistical approach to a superiority analysis and reported a P value of 0.12, indicating no significant difference between the two groups.

Taking the number of events listed in Table 2 of the article, we calculated the 95% confidence interval for the 2-year incidence of events as 9 to 16% for PCI and 5 to 12% for CABG. Considering these limits, we estimated the 95% confidence interval for the difference between the treatments as −3 to 11%, which encompasses the predefined noninferiority margin of 7%. Therefore, if the authors had used the initial approach of nonineriority analysis in analyzing the 2-year data, the conclusion would be that PCI did not meet the noninferiority criterion, as compared with CABG.

sábado, 13 de agosto de 2011

Por que Precisamos de Estatística?


Recentemente, em disputa de pênalti contra a seleção do Paraguai, os jogadores da seleção brasileira de futebol foram capazes de perder quatro pênaltis sucessivos. Um desastre. Já comentamos em postagem prévia que boa parte dos acontecimentos na vida decorre do acaso, apesar de que nossas mentes não estejam condicionadas a pensar desta forma. Do ponto de vista preventivo, precisamos esclarecer se este inusitado fenômeno decorreu de alguma causa específica ou simplesmente por acaso (azar). Para isso devemos calcular a probabilidade dos resultado encontrado ter ocorrido por obra do acaso, ou seja, verificar se o fenômeno foi estatisticamente significante. Fiz uma enquete entre amigos e conclui que a probabilidade de um jogador de seleção perder um pênalti é de 30%. Desta forma, a probabilidade de quatro jogadores sucessivos perderem é de 30% x 30% x 30% x 30% = 0.81% (P = 0.0081). Isto significa que a probabilidade do resultado pelo acaso é tão pequena que podemos considerar que não foi simplesmente azar. Sendo estatisticamente significante, devemos procurar relações causais para o acontecimento: desequilíbrio psicológico, jogar de salto alto, falta de liderança do técnico (que já deve ser trocado), falta de treinamento de cobrança de pênaltis, etc. Ou seja, quando a probabilidade do acaso é muito pequena, ficamos com a hipótese de que o observado retrata algo mais significativo que esteja por trás.

Migrando para um exemplo na ciência médica, se uma droga é superior ao placebo de forma estatisticamente significante, consideramos que a observação decorreu de uma verdadeira relação causal entre o efeito da droga e o benefício desfrutado pelo paciente.

A comunidade medica está bem acostumada com a idéia de procurar significância estatística em observações descritas por artigos científicos. A redução de mortalidade obtida com a droga foi estatisticamente significante? Esta pergunta faz parte automática do nosso inconsciente coletivo, nunca nos esquecemos de avaliar se o valor de P é menor que 0.05. Em contraste, o motivo pelo qual precisamos do valor de P e a interpretação de seu significado são conceitos pouco compreendidos.

No início do século passado, o paradigma científico era individualista. Ou seja, se acreditava que a observação “científica” de um único caso poderia ser generalizada. Em torno da década de 1920, os cientistas começaram a perceber que a observação de um primeiro caso poderia ser diferente da observação do segundo caso, que não seria exatamente a mesma do terceiro caso, sendo o quarto caso talvez bem semelhante ao primeiro, e assim por diante. Com isso o paradigma científico evoluiu do individual para o coletivo. Ou seja, a verdade científica estaria mais bem representada pela média dos casos, do que por um único caso, por mais marcante que este possa ter sido.

Na prática, uma droga não é necessariamente benéfica porque foi administrada a um paciente que sobreviveu. O segundo paciente pode ter um efeito colateral e morrer devido ao tratamento. O terceiro pode não apresentar nada. É a média dos pacientes que se aproxima mais da verdade. Ou seja, o percentual de pacientes que sobreviveram indica a probabilidade de sobrevida. Nada é garantido baseado em um único caso, temos que avaliar o coletivo. Esse pensamento que hoje nos parece óbvio não fazia parte do senso científico na época. Foi Ronald Aylmer Fisher (aquele do teste exato de Fisher) um dos primeiros a perceber isso. Como estatístico, ele trabalhava na fábrica agrícola de Rothamsted. Ao perceber que o sucesso de um fertilizante obtido ao plantar uma muda de planta poderia não ser o mesmo na segunda muda, ele decidiu que a verdade estaria na média de várias mudas, que deveriam ser plantadas em ambientes controlados. A partir dessa simples constatação, Fisher publicou The Design of Experiments em 1935, obra que serviu de base para construção do método científico.

Esta mudança de paradigma representou uma evolução científica, principalmente na área de saúde. Mas aí surge um segundo problema. O ideal é que toda a população com uma determinada condição clínica seja estudada para termos noção de todos os possíveis desfechos. No entanto, isso é obviamente impossível. Daí surge o conceito de amostras: o que precisamos é estudar amostras que sejam representativas da população-alvo do problema científico.

Mas aí surge um terceiro problema. E se o que acontecer na amostra não for exatamente o que aconteceria se todo o universo de pacientes fosse estudado. Mesmo que a amostra tenha sido aleatoriamente selecionada, mesmo que a amostra seja representativa do tipo de pacientes da população-alvo, mesmo que o experimento tenha sido isento de vieses... ainda resta um fator inevitável que atormenta a vida do cientista: o acaso. Por mera obra do acaso, o observado em uma amostra pode não representar a verdade universal. Em outras palavras, o investigador por dar o azar de seu estudo estar errado. A solução encontrada para isso é estimar a probabilidade do resultado encontrado ser decorrente do acaso e sempre relatar ao lado das observações provenientes de amostras.

Quando o estudo é descritivo (descrever a letalidade de uma doença, descrever a média de colesterol da população), o que precisamos é relatar o grau de precisão da observação. Para isso se utiliza intervalo de confiança no nível 95%, que representa o grau de certeza a respeito do que está se falando. Se afirmamos que o nível de colesterol na população brasileira é 240 mg/dl (dado hipotético, inventei agora), com intervalo de confiança no nível 95% variando de 200 a 260 mg/dl, entendemos que 240 mg/dl pode ter sido por acaso, a certeza mesmo é que o valor seja dentro deste intervalo mencionado. Quanto mais estreito o intervalo, maior a precisão da informação. E um dos principais determinantes dessa precisão é o tamanho amostral.

Quando o estudo é analítico (comparativo), utiliza-se o valor de P. Este representa a probabilidade de que uma diferença (sempre há uma diferença, mesmo que mínima) observada entre grupos seja decorrente do acaso. Então, se a mortalidade do grupo droga foi 11.5% e a mortalidade do grupo placebo foi 12.3%, podemos dizer que houve redução de mortalidade com o uso da droga? Precisamos olhar o valor de P. Imaginem que este foi descrito como P = 0.04. O que isso significa? Isso indica que a probabilidade dessa diferença ter sido obra do acaso é 4%. Como interpretar?

Considera-se que deve haver uma probabilidade do acaso pequena o suficiente para que nos despreocupemos com esta questão. E pequena o suficiente é definida cientificamente como algo menor do que 5%. Desta forma, uma probabilidade menor que 5% (P < 0.05) é suficientemente desprezível para descartar o acaso. Assim, interpretamos que de fato nossa amostra está indicando o que ocorre no universo, ou seja, a droga reduz mortalidade.

Neste contexto, define-se como erro tipo I o ato de afirmar que existe uma diferença e esta diferença ter sido decorrente do acaso, não ser verdadeira. A probabilidade do erro tipo I é descrita pelo valor de P. Existe um teste estatístico diferente (teste t, qui-quadrado, correlação, etc) para cada caso. Todos estes testes levam em consideração a magnitude da diferença encontrada, o tamanho amostral (quanto maior, menor a probabilidade do acaso) e o grau de variabilidade do parâmetro avaliado.

Desta forma a ciência evoluiu para o estágio no qual se exige dos cientistas a preocupação com o acaso (estatística é um campo novo, tem menos de 100 anos), sempre reportandio o famoso valor de P.

Por outro lado, devemos lembrar que significância estatística é uma condição necessária, mas não suficiente para que um fenômeno seja verdadeiro. Um dado estatisticamente significante pode não ser verdadeiro, pois restam outros problemas: potenciais vieses no desenho do estudo e uma amostra não representativa do universo podem provocar resultados falsos. Por fim, devemos sempre lembrar que significância estatística não é exatamente relevância clínica. Podemos ter uma grande certeza (P < 0.0001) de que há benefício clínico com uso da droga, porém este benefício pode ser pequeno. Para avaliar magnitude do benefício o número necessário a tratar deve ser calculado (NNT).

Em conclusão, talvez a CBF deva considerar que o insucesso do Brasil na Copa América foi estatisticamente significante e que algo precisa ser modificado. Considerar que foi apenas o acaso e esperar que o fenômeno de regressão à média nos retorne ao status de melhores do mundo pode ser um equívoco que pagaremos em 2014, no Brasil.

quarta-feira, 3 de agosto de 2011

O Paradigma do Benefício de Métodos Diagnósticos


Na última postagem da série Análise Crítica de Métodos Diagnósticos discutimos sobre o primeiro critério de avaliação da utilidade de um método diagnóstico, que corresponde à capacidade do resultado do exame em influenciar a probabilidade de doença. Como pontuamos, este critério é necessário para que um método seja útil, porém não suficiente. Nesta postagem discutiremos o segundo critério: o benefício proveniente da realização do método diagnóstico.

Quando falamos de conduta terapêutica, refletimos sobre benefício e malefício. No entanto, para métodos diagnóstico são fomos treinados a pensar desta forma. Porém é essencial que o médico tenha a noção básica que a informação fornecida por um exame, em primeiro lugar, não deve ser maléfica; em segundo lugar, a informação indiretamente deve trazer benefício para o paciente. Ou seja, a cascata de ações decorrente do resultado do exame devem reduzir o risco do paciente.

Vamos voltar a utilizar como exemplo o exame do screening da doença coronária em indivíduos assintomáticos. Saliento que esse raciocínio não se restringe à doença coronária ou à cardiologia. Esse pensamento deve ser universal.

Imaginem um paciente de 60 anos, hipertenso, assintomático, sem limitação funcional. Vai ao consultório de uma cardiologista, que solicita um teste ergométrico, seguindo a habitual receita de bolo que norteia nossa comunidade médica. Resultado, teste ergométrico positivo. Na postagem passada, discutimos que o valor preditivo positivo do teste nesta situação não é dos melhores, o que já coloca um grande ponto de interrogação na utilidade do mesmo. Mas hoje nossa discussão vai além desta questão. Imaginem que o teste está correto, ou seja, o paciente é portador de doença coronária silenciosa diagnosticada pelo teste ergométrico. Para que serviu o diagnóstico? Foi benéfico para o paciente? Sabemos que pacientes deste tipo não necessitam de procedimento de revascularização, portanto não há sentido maior em prosseguir com cateterismo cardíaco. Uma eventual angioplastia neste paciente não reduz risco de morte ou infarto, tal como demonstrado por vários estudos, liderados pelo Courage Trial.

O que este paciente precisa é prevenção de eventos cardiovasculares através do controle dos fatores de risco. Controle de hipertensão arterial, controle do colesterol. Até a intensidade do controle do colesterol não depende mais de um diagnóstico de isquemia silenciosa, pois já foi demonstrado que a redução agressiva é benéfica mesmo em pacientes sem doença cardiovascular, desde que seu risco seja intermediário.

Portanto, de acordo com um raciocínio lógico, a realização do teste não tem benefício, pois o resultado não deve modificar conduta. Mas a lógica não basta para chegarmos a conclusões definitivas em medicina. Daí surge o paradigma dos ensaios clínicos para testar eficácia de métodos diagnósticos. Estamos acostumados a falar em acurácia de métodos diagnósticos. Mas o que seria eficácia? Seria exatamente a comprovação de que a realização do método é benéfica para reduzir eventos indesejados, no presente caso, eventos cardiovasculares. Esta comprovação vem da randomização de pacientes para duas estratégias: fazer ou não fazer o método diagnóstico. A comunidade científica tem demandado este tipo de evidência para validação definitiva de um teste diante de uma dada circunstância clínica.

No caso do screening da doença coronariana, em 2009 foi publicado no JAMA um artigo onde investigadores randomizaram pacientes assintomáticos para realizar ou não realizar cintilografia miocárdica. Para não deixar dúvidas, eles selecionaram um tipo de paciente considerado de risco elevado para doença coronariana: diabéticos. Após anos de seguimento, não houve redução de eventos cardiovasculares com a realização da cintilografia miocárdica (foto acima). Portanto, é desnecessário realizar este exame.

Sempre que fazemos coisas desnecessárias, que não trazem benefício, corremos o risco de causarmos malefício. Recentemente, foi publicado no Archives of Internal Medicine um caso clínico, anedótico, porém que provoca nossa reflexão a respeito do assunto. Uma mulher jovem, obesa, vai ao consultório do cardiologista com uma dor precordial totalmente atípica. O mesmo percebe que a probabilidade de doença obstrutiva é baixa, porém decide solicitar uma pesquisa não invasiva de doença coronária obstrutiva. A justificativa usado pelo médico foi just in case, o que podemos traduzir para nossa linguagem médica coloquial como desencargo de consciência (alguém sabe de onde veio esse termo ridículo?). Muito bem, o exame realizado foi a angiotomografia de coronária, cujo resultado foi positivo para uma lesão na descendente anterior. Como todo exame não invasivo, há possibilidade de falso positivo. E isso ocorreu, pois o cateterismo solicitado na seqüência não mostrou obstrução coronária. Até aí tudo bem, pois no máximo a paciente sofreu o estresse emocional do exame e da possibilidade de doença coronária, um pequeno/moderado hematoma femural que vai se resolver em 30 dias, aliado ao custo para o sistema de saúde. Mas o problema é que neste caso, o cateter dissecou o tronco da coronária esquerda, provocando um infarto anterior extenso, levando a paciente para cirurgia cardíaca de urgência. Trinta dias depois a coitada teve alta do hospital, onde tinha se internado apenas por desencargo de consciência.

Dias depois a paciente se internou novamente por insuficiência cardíaca refratária, recebendo (pasmem) um transplante cardíaco, única solução encontrada para resolver seus sintomas. O desencargo de consciência terminou em um transplante cardíaco.

Recentemente, estudo observacional publicado nos Archives of Internal Medicine demonstrou que não houve diferença de eventos cardiovasculares entre 1000 pacientes assintomáticos de baixo risco que foram submetidos a screening de doença coronária, comparados a 1.000 pacientes que não realizaram o screening. Embora não seja informação definitiva (dado observacional), nada mudou no desfecho do paciente. No mesmo número da revista, Michael Lauer, cardiologista do NIH, escreveu o Editorial intitulado Pseudodisease, the Next Great Epidemic in Coronary Atherosclerosis, onde afirma:

Overdiagnosis is a serious problem because it leads to a number of harms, while by its very nature it cannot offer benefit. Overdiagnosis is threatening to become an increasingly important public health problem because of the enthusiasm for and proliferation of unproven screening tests.

Quando discutimos este assunto, médicos de boa fé geralmente mencionam alguns casos onde o paciente parece ter se beneficiado com o procedimento. Por exemplo, “eu tinha um paciente assintomático, que a cintilografia mostrou isquemia, o cateterismo mostrou doença triarterial e terminou em cirurgia cardíaca.” Bem, onde está mesmo a evidência de que cirurgia está indicada nesse caso? OK, mesmo que bem indicada e esse paciente tenha se beneficiado, isso não quer dizer que a decisão do exame tenha sido correta. Sabe por quê? Porque outro paciente desta mesma conduta pode ter se prejudicado: por exemplo, pode ter morrido na cirurgia ou recebido um stent que depois trombosou causando infarto anterior extenso - já vi isso. De forma que em média (tal como mostrou o estudo do JAMA) não há benefício – ou os casos de benefício foram anulados pelos casos de malefício.

Cuidado com a memória de nossa experiência clínica, ela pode nos enganar. Tendemos a memorizar os casos de sucesso, mais do que os insucessos. É nosso Complexo de Deus atuando inconscientemente.

Mas devemos também lembrar que há várias situações em que o exame diagnóstico é útil. Por exemplo, um paciente com dor torácica e moderada probabilidade de doença coronária obstrutiva. Um teste positivo vai elevar sua probabilidade para alta e nos fazer iniciar tratamento para melhora da angina do paciente. Seja medicamentoso ou invasivo. Haveria assim benefício de melhora na qualidade de vida.

Já comentamos neste Blog sobre a indicação de mamografia abaixo dos 50 anos para toda mulher, independente de seus fatores de risco. Estatísticas demonstram que para cada 2.000 mulheres que realizam o exame, 1 vida é salva e 10 tratamentos desnecessários (mastectomia, quimioterapia, radioterapia) são realizados. Mamografia anual realmente é benéfica em todas as mulheres com 40 anos?

Vários colegas justificam o excesso de solicitação de exames a partir do suposto desejo do paciente. “É o paciente que exige.” Para mim, isso não é uma verdade universal. Alguns poucos pacientes exigem, a maioria ouve sua recomendação. E mesmo os que exigem, exigem porque nós médicos que criamos a cultura do excesso de exames. Nós temos a responsabilidade de modelar o pensamento da comunidade leiga a respeito de questão médicas. E devemos fazer da maneira correta.

Na minha experiência, boa parte dos pacientes se incomodam em realizar muitos exames e gostam de uma conduta econômica. Não sinto uma demanda muito grande por parte dos pacientes. Por exemplo, outro dia me ligou uma amiga promotora, muito ocupada, mãe de dois filhos. Ela me perguntou: preciso mesmo perder uma tarde para realizar esse ecocardiograma que me foi solicitado durante uma visita pré-anestésica para um procedimento de pequeno porte? Claro que não.

Mais uma vez, lembro do paradigma do Less is More. Às vezes fazer menos exames é melhor para o paciente. Ainda com o benefício de dar mais espaço para o velho raciocínio clínico, este de utilidade indubitável.

Desta forma, concluímos a série Análise Crítica de Métodos Diagnósticos, onde demonstramos que antes de solicitarmos um método, devemos pensar em sua acurácia (o quanto um teste de fato contribui para o diagnóstico da doença - postagem 1 e 2) e em sua verdadeira utilidade clínica (influência na probabilidade e beneficio para o paciente) - postagem 3 e 4. Isso é raciocínio clínico embasado em evidências.

quinta-feira, 14 de julho de 2011

A Retórica de Artigos Científicos

Com relativa freqüência, alunos da graduação me perguntam como podemos saber se os dados de um artigo são verídicos. Na verdade, a medicina baseada em evidências não possui ferramentas investigativas a fim de detectar o crime de fraude. Portanto, isto não cabe aos leitores do artigo. A premissa básica é a da honestidade, este é um pressuposto do código de honra científico. Ainda bem que é assim, pois seria caótico se a cada artigo publicado, ficássemos nos questionando se o autor é honesto ou fraudulento. E de fato acredito que a grande maioria das evidências publicadas não contém fraudes grandes, das que modificam substancialmente a interpretação científica. Seria um risco muito grande para o cientista, risco de terminar sua carreira se for descoberto.

Por outro lado, vivo falando que precisamos ser céticos, pois os o mundo está repleto de conflitos de interesse. Desde que declarados, ter conflitos não é uma desonestidade (não obstante, a linha é tênue), mas cabe aos que interpretam as evidências serem capazes de perceber tendenciosidades. Estas tendenciosidades podem estar presentes desde o planejamento do estudo, cujo desenho pode favorecer ao resultado de interesse. Por exemplo, a dosagem utilizada de um novo antibiótico em um ensaio clínico pode ser comparativamente superior à dosagem administrada do antibiótico usual. Outra opção de desenho de estudo tendencioso é escolher uma definição do desfecho primário voltada para uma maior probabilidade de benefício da terapia de interesse, mesmo que esse desfecho não seja o mais importante. E assim por diante.

Uma vez o estudo realizado, a forma de tendenciosidade mais freqüente é a retórica. No dicionário Wikipédia, retórica é a arte de usar a linguagem para comunicar de forma persuasiva. Neste contexto, foi recentemente publicado no Archives of Internal Medicine um interessante e reflexivo artigo, intitulado Rhetorical Techniques Used in the Reporting of Cardiac Resynchronization Trials. Sabemos que a ressincronização cardíaca é comprovadamente benéfica em pacientes com disfunção sistólica do ventrículo esquerdo de grau severo e bloqueio de ramo esquerdo com duração do QRS ≥ 150 ms. Mesmo assim, o estudo nos mostra que os artigos são escritos de forma a supervalorizar a terapia ou induzir o benefício em subgrupos em que este não existe. Os autores revisaram 10 ensaios clínicos randomizados e sinais de retórica foram observados em todos os trabalhos, tais como:

1) Em 80% dos estudos, o resumo não mencionava avaliação do malefício (complicações), apenas o benefício.

2) Em 90% dos estudos, o objetivo não mencionava avaliação de segurança da terapia, como se fosse garantido que não haveria complicações.

3) Em 70% dos estudos, a fundamentação escrita na introdução só trazia racional para o benefício, não demonstrando nenhum dado de plausibilidade para malefício, como se não houvesse dúvida do resultado que viria a ser demonstrado pelo artigo.

4) Em 20% dos estudos, foram utilizadas apenas medidas relativas de associação, ao invés de medida absoluta (risco absoluto), a qual fornece verdadeira magnitude do benefício.

5) Em 80% dos estudos, as complicações provenientes dos implantes não foram relatadas.

6) Na discussão, limitações dos trabalhos não foram mencionadas em 40% dos trabalhos.

7) Nenhum estudo continha análise de risco/benefício.

8) Nenhum estudo discutiu a validade externa dos dados apresentados.

9) Em 40% dos trabalhos, o resultado referente ao desfecho primário foi negativo, mesmo assim concluíram que a terapia deveria ser utilizada na prática clínica.

Esta análise serve para nos mostrar que mesmo na ausência de fraude, um estudo pode ser escrito de forma que os leitores sejam convencidos de uma idéia algo distorcida em relação à realidade.

Isto ocorre em artigos, mas também em situações menos formais, tais como palestras. É assim que funciona, o conflito de interesse não faz com que palestrante minta durante sua apresentação, mas faz com que ele utilize da retórica de uma forma mais tendenciosa do que se não houvesse conflito de interesse. Seja um processo consciente ou inconsciente. Portanto, cuidado com o que lêem ou ouvem.

Então, onde está a solução? A solução está nos médicos desenvolverem a habilidade para analisar criticamente a literatura, possuindo opinião própria em relação aos assuntos, ficando assim isentos da influência velada dos formadores de opinião com conflitos de interesse. Quando isto acontecer, estes formadores de opinião perderão a utilidade.

sábado, 9 de julho de 2011

Análise de Aplicabilidade: Ticagrelor


Vejam só que coisa. A gente fica esperando 10 anos para baratear o preço do Clopidogrel. Quanto isso acontece com o genérico, aparece uma melhor opção, cujo preço está no patamar do Clopidogrel antes da queda de sua patente.

No final da última postagem, escrevi que “uma equação envolvendo magnitude de benefício, risco de sangramento e custo da nova terapia permitirá uma decisão individualizada a respeito de qual das duas drogas deverá ser usada.”

Vamos exercitar este pensamento, que corresponde à análise de aplicabilidade de uma evidência científica. Este tipo de análise deve ocorrer após a análise de veracidade da evidência. Ou seja, partiremos do pressuposto de que a veracidade do artigo já foi analisada.

Primeiro, do ponto de vista de saúde pública esta droga não se aplica. Considerando o modesto benefício do Ticagrelor e seu alto preço, uma boa relação de custo-efetividade precisaria ser muito bem demonstrada, principalmente em nosso meio. Ainda não temos esta definição e é provável que não seja uma droga custo-efetiva.

Então fica a decisão para o paciente que vai pagar pela droga, cuja duração do tratamento é de pelo menos um ano após a síndrome coronariana aguda. Normalmente estamos dispostos a pagar um alto preço quando o retorno é muito bom. Mas ninguém vai querer pagar o preço de uma Mercedes e levar um fusquinha modelo antigo. Considerando o NNT de 52, o Ticagrelor não é nenhuma Mercedes, como comentado na postagem anterior. Então precisamos escolher a população que vai se beneficiar mais da droga, transformando um fusquinha em um carro de nível pelo menos médio. Digamos, numa Brasília (essa analogia é para aqueles com mais de 30 anos).

Foi exatamente isso que o estudo PLATO fez, corretamente. Ou seja, selecionou uma população de alto risco. A amostra do estudo PLATO é de risco mais alto do que a amostra do lendário estudo CURE, aquele que validou o uso de Clopidogrel: a incidência do desfecho combinado (morte CV, infarto e AVC) no grupo Clopidogrel do estudo PLATO é 11.7%, comparados a apenas 9.3% no estudo CURE. Isso ocorreu porque no PLATO eram necessários dois de três critérios para o paciente fosse incluído no estudo (dentre eletrocardiograma, marcadores de necrose, idade, DAC prévia, diabetes) e no CURE apenas um de três critérios de inclusão.

Devemos observar que este NNT está otimizado pela correta seleção de uma população de alto risco. Digo correta seleção, pois quando temos uma droga de benefício modesto, devemos identificar uma população de maior risco, cuja redução absoluta de risco será também maior. O PLATO fez isso e obteve o NNT de 52. Caso o PLATO houvesse selecionado uma amostra semelhante à do CURE, o NNT seria 100.

Como calculei isso? De acordo com o PLATO, Ticagrelor (comparado a Clopidogrel) promove uma redução relativa de 19% na incidência de desfechos combinados. Aplicando 19% aos 9.3% do grupo Clopidogrel na população do CURE, haveria uma redução para 8.5%, ou seja, redução absoluta de risco de 1%. Isto dá um NNT de 100.

Isto nos indica que o Ticagrelor deve ser uma droga limitada aos pacientes de alto risco cardiovascular. Primeiro, porque estes são os que vão experimentar uma redução absoluta de risco aceitável. Segundo, porque estes são os que se prejudicariam em esperar cinco dias de suspensão do Clopidogrel caso fosse indicada cirurgia cardíaca. Lembrem-se que o Ticagrelor só precisa ser suspenso por 24 horas antes da cirurgia, pois seu efeito é de curta duração.

Desta forma, no cenário de síndromes coronarianas sem supradesnível do ST, o Ticagrelor teria indicação para os pacientes de alto risco (Escore GRACE > 140 ou sintomas recorrentes durante internamento). Nestes pacientes, o impacto absoluto da terapia provavelmente justifica a troca do tradicional Clopidogrel pelo Ticagrelor. Nos demais, eu ficaria com Clopidogrel.

Quanto ao infarto com supradesnível, o subgrupo de pacientes submetidos a angioplastia primária mostrou resultados consistentes com a amostra geral do PLATO. Considerando que angioplastia primária é um procedimento não planejado, o início de ação mais precoce do Ticagrelor pode ser uma vantagem.

Os pacientes tratados com trombólise não entraram no PLATO, portanto para estes o Clopidogrel continua a droga de eleição, adjunta à Aspirina.
Percebe-se assim que na análise da aplicabilidade de uma evidência, precisamos avaliar criteriosamente qual a amostra estudada e o quanto devemos extrapolar a indicação para além desta amostra. Neste caso, não há sentido em se extrapolar para pacientes de risco baixo. Para conhecer a amostra estudada, devemos prestar atenção aos critérios de inclusão, tabela de características da população e na incidência dos desfechos de interesse. Em segundo lugar, o NNT deve ser contextualizado para a gravidade do paciente, aplicando a redução relativa de risco nos diferentes tipos de população, obtendo as reduções absolutas específicas. Por fim, análises de subgrupo são úteis para mostrar se há consistência do resultado positivo nos diferentes subgrupos, como fizemos agora com o infarto com supradesnível.

Imagino assim que Clopidogrel continue a primeira opção para pacientes com síndromes coronarianas agudas, ficando o Ticagrelor para os subgrupos aqui especificados.