O primeiro
princípio da medicina baseada em evidências nos lembra que precisamos analisar
o nível de evidência antes de incorporar a informação de um estudo na conduta
médica. Várias foram as postagens deste Blog nas quais abordamos estudos
terapêuticos, utilizando-os como gancho para discussão de análise crítica de
evidências referentes a eficácia. Pretendemos agora apresentar a técnica de
análise crítica de forma sistematizada, passo a passo, o que pode servir de
guia para quando nos deparamos com um estudo que sugere ou nega benefício de
uma conduta terapêutica.
A leitura de um
artigo deve ser um processo sistematizado, devemos saber o que procurar. A
atividade mental deve ser ativa, um processo investigativo. Devemos começar
lendo a conclusão do artigo, e depois iniciamos a avaliação do quanto
fundamentada é a conclusão. Aí cabe uma leitura dos resultados e métodos,
dirigida por um check-list mental. A
leitura de um artigo não deve ser como a leitura de um romance, do início ao
fim, de forma relaxada. Na verdade, nem precisamos ler todas as palavras dos
artigos, não recomendo isso.
Na análise de
evidência sobre terapia, precisamos considerar três aspectos: (1) a veracidade,
(2) a relevância e (3) a aplicabilidade da informação oferecida pelo trabalho.
Devemos sempre começar a análise pela veracidade, pois quando mudamos a ordem
de avaliação destes três tópicos, podemos nos confundir na conclusão final.
Afinal, não haveria sentido em discutir a relevância ou aplicabilidade de uma
informação falsa.
Inicialmente
abordaremos veracidade. São os cinco passos para análise de veracidade:
Passo 1: Há efeito de confusão influenciando o
resultado?
Passo 2: O resultado decorre do acaso (significância
estatística)?
Passo 3: A conclusão foi baseada no resultado do
desfecho primário ou secundário?
Passo 4: Há viés de mensuração? (estudo aberto? desfecho subjetivo?)
Passo 5: Há viés de tratamento ? (intenção de tratar?
cross-over acentuado?)
Passo 1: Há efeito de confusão influenciando o
resultado? – Ensaio clínico randomizado versus
estudo observacional.
A possibilidade
de efeito de confusão representa o mais
importante “fator de risco” para gerar resultados incorretos sobre eficácia
terapêutica. Foi devido a fatores de confusão que se afirmou que vitaminas
previnem câncer/doença cardiovascular e que terapia de reposição hormonal (TRH)
previne infarto. Nestes casos, a afirmação se embasou em estudos
observacionais, que foram contraditos por ensaios clínicos subseqüentes. No
estudo observacional, o tratamento (vitamina, TRH) é determinado pelo escolha
do paciente ou permissão do seu médico. Isso gera um imenso problema, pois a
escolha faz com que os pacientes tratados sejam muito diferentes dos não
tratados. Por exemplo, evita-se TRH em mulheres hipertensas e tabagistas,
devido ao risco de associação do hormônio com estes fatores. Por isso, quem usa
TRH geralmente não é hipertensa, nem tabagista, sendo de menor risco (não pela
TRH). Embora sem comprovação de benefício, o ato de usar vitamina diariamente
marca indivíduos com estilo de vida mais saudável do que as pessoas que não
usam vitamina.
Já comentamos
neste Blog sobre a associação de chocolate e de vinho com menor risco
cardiovascular. Embora pareça sedutor relacionar estas coisas a saúde (muitos falam
do vinho como se fosse um fato), é muito possível que estas associações tenham
influência de fatores de confusão. Tudo é baseado em estudos observacionais e é
fácil de entender o mecanismo dos fatores de confusão nestes casos. Por
exemplo, quem come chocolate não é diabético, tornando-o de menor risco (não
por causa do chocolate); quem bebe vinho com frequência geralmente não é
doente, nem muito idoso. Estes fatores inibem o uso de bebida alcoólica, seja
por proibição, seja por motivação do paciente. A solução para essa confusão são os ensaios clínicos
randomizados para chocolate versus
controle, ou vinho versus controle.
Mas porque o
ensaio clínico não é vulnerável a fatores de confusão?
O ensaio clínico
determina o tratamento por sorteio, de forma aleatória, fazendo com que o grupo
tratado e o grupo não tratado sejam idênticos. É só olhar as tabelas de
características clínicas de grandes ensaios clínicos (> 300 pacientes,
idealmente > 1000 pacientes), os dois grupos são iguais em tudo! É a magia
da randomização.
Por isso que um
ensaio clínico randomizado é sempre um nível de evidência muito superior a
estudos observacionais, pois o principal “fator de risco” para resultados
espúrios é evitado neste primeiro modelo. Já os estudos observacionais, mesmo
que se faça análise estatística ajustando para fatores de confusão, não ficam
isentos do problema. Todos estes estudos fizeram análise multivariada, mas isso
não bastou para prevenir o erro.
Há ainda aqueles
que tentam priorizar resultados de estudos observacionais por estes
representarem melhor o “mundo real”. Este é um grande equívoco, pois coloca a
análise de aplicabilidade antes da análise de veracidade e sugere acreditar nos observacionais por
uma vantagem (“mundo real”) muito inferior à desvantagem que se recebe em troca
(o pior “fator de risco” para resultados espúrios – efeito de confusão).
Uma vez
verificando que a evidência é proveniente de um ensaio clínico (bem) randomizado,
ficamos mais tranqüilos. Porém devemos saber que isto é uma condição necessária
para a veracidade, porém não suficiente.
A informação
proveniente de um ensaio clínico pode decorrer de três fenômenos: acaso, viés ou causa. Causa significa
uma associação verdadeira entre o uso da terapia e a melhora do paciente,
quando a terapia de fato causa um
benefício. Mas antes de chegar a esta conclusão, precisamos nos preocupar com
os dois tipos de erros que se observa em ciência: erro aleatório (acaso) e erro sistemático (viés). O erro aleatório decorre do
acaso, não ocorre por falha do pesquisador ou porque o protocolo do estudo foi
feito de maneira incorreta. É simplesmente o azar do resultado na sua amostra
ter desviado do que ocorre da população. Já o erro sistemático decorre de falha
no protocolo do estudo, pode ser previsível até mesmo antes do estudo ser
realizado.
Vamos começar
pelo erro aleatório.
Passo 2: O resultado decorre do acaso (significância
estatística)?
Como já
mencionado neste Blog (regressão à média, pênalti), o acaso permeia nossas
vidas de forma mais prevalente do que o senso comum sugere. Um ensaio clínico
randomizado é realizado em uma amostra da população-alvo do estudo. Quando
avaliamos a eficácia da aspirina no infarto do miocárdio, não a testamos em
todos os pacientes com infarto. Utilizamos uma amostra (uma parte pequena) de
todos os pacientes infartados no mundo. Quando trabalhamos com amostra, devemos
nos preocupar com o papel do acaso. Ou seja, por acaso (por azar) o observado
em nossa amostra pode ser diferente do resultado se tivéssemos estudado a
eficácia da droga em toda a população de infartados do mundo (o que seria
impraticável).
Por este motivo,
ao observamos um resultado, devemos ter a consciência de que este pode ter sido
decorrente do acaso. Para resolver esta preocupação, em meados no século XX os
testes estatísticos foram inventados, através dos quais estimamos a
probabilidade de um resultado ser decorrente do acaso. Esta probabilidade é
comumente expressa nos ensaios clínicos pelo valor de P. Como trabalhamos com
amostras, nunca podemos garantir que o resultado não decorreu do acaso, no
máximo o que fazemos é tolerar certa probabilidade do acaso como desprezível.
E, por convenção, a probabilidade tolerável é 5%. Se em ensaio clínico
hipotético, a mortalidade no grupo droga for 10%, comparada a 13% no grupo
placebo, os dados sugerem que a droga reduz mortalidade. Mas isso pode ter
decorrido do acaso. Então se o valor de P for menor do que 5% (digamos 3% =
0.03), consideramos esta probabilidade desprezível e diremos que a diferença
não decorreu do acaso. Todo este raciocínio pode ser resumido na expressão estatisticamente
significante, que nada mais é do que probabilidade desprezível do acaso. O ato
de afirmar que existe uma diferença que decorreu do acaso é denominado Erro
Tipo I. Evitamos o erro tipo I quando exigimos significância estatística.
Até agora está
simples e fácil, pois o conceito de que precisamos de um valor de P < 0.05
está muito bem sedimentado no meio médico. Porém precisamos saber que há
situações onde a probabilidade do acaso não é desprezível mesmo com um valor de
P < 0.05.
Passo 3: A conclusão foi baseada no resultado do
desfecho primário ou secundário ?
Como dissemos,
há situações onde a probabilidade do acaso não é desprezível mesmo com um valor
de P < 0.05. E a principal situação ocorre quando são analisamos desfechos
secundários. Diferente do desfecho primário, são muitos os desfechos
secundários analisados simultaneamente. Quando muitas comparações são feitas
simultaneamente, a probabilidade do acaso é amplificada além do que o valor de
P está representando. Este fenômeno é chamado de problema das múltiplas
comparações.
Por exemplo, qual a probabilidade de que ao jogar uma moeda 10
vezes, o resultado seja cara todas as 10 vezes? Esta probabilidade é ínfima.
Mas se fizemos esse experimento (jogar 10 vezes a moeda) 50 vezes, a
probabilidade de que em algum dos 50
experimentos cara seja o resultado todas as 10 vezes é maior do que se fizermos
o experimento apenas 1 vez. Claro, é só pensar um pouco. Isso faz com que
quando analisamos desfechos secundários, a probabilidade do acaso fica
amplificada, pois são muitos os desfechos analisados simultaneamente. Algum pode aparecer significativo por
acaso. Este foi o raciocínio que fizemos em recente postagem, quando
contestamos que Dabigatran causa infarto, pois infarto foi um desfecho
secundário.
Desta forma, devido à maior probabilidade do Erro Tipo I, resultados
de desfechos secundários podem gerar hipóteses, mas não devem ser vistos como
definitivamente verdadeiros.
Outro problema dos desfechos secundários é o fato de que o estudo
não foi dimensionado para tal, ou seja, muitas vezes não há poder estatístico
para se testar aquele desfecho. Quando encontramos uma diferença em um estudo
sem poder estatístico, esta tem maior “risco” de ser decorrente do acaso.
Porque? Imaginemos um caso extremo, onde o estudo é muito pequeno e para que se
consiga um P < 0.05 em um estudo tão pequeno, seria necessário uma diferença
muito grande entre os grupos (tipo mortalidade 10 vs. 50%). Uma diferença tão
grande que se torna implausível, sendo o acaso a única possibilidade de
explicação. Lembram-se da enorme diferença de mortalidade obtida em um estudo
pequeno com beta-bloqueador em pré-operatório de cirurgia não cardíaca?
Lembram-se do estudo LIDO que mostrou levosimedan reduzindo mortalidade
(desfecho secundário) quando comparado a dobutamina em pacientes com
insuficiência cardíaca agudamente descompensada. Isto fez com que entusiastas e
interessados propusessem o uso do levosimedan. No entanto, mortalidade era
desfecho secundário naquele estudo de apenas 200 pacientes. Anos mais tarde, o
estudo SURVIVE (1200 pacientes, morte como desfecho primário) demonstrou
mortalidade idêntica nos dois grupos.
Pior quando o desfecho nem é definido a priori, ou seja, os autores nem dizem antes do estudo o que vão
testar, testam uns 300 desfechos e apresentam os de resultados positivos
(embora positivos por acaso).
Desta forma, uma evidência ideal sobre eficácia deve ser proveniente da análise de um desfecho primário e deve ter um
valor de P < 0.05. Se for proveniente de desfecho secundário, é apenas
um resultado parcial, que precisa ser testado em estudos desenhados para ter
aquele desfecho como primário.
Passo 4: Há viés de
mensuração? (estudo aberto?
desfecho subjetivo?)
Afastada a probabilidade do acaso, devemos nos preocupar com
potenciais vieses como mediadores de um falso resultado. O viés
é um erro sistemático, ou seja, decorre de falha na metodologia do estudo. Se é
um estudo de uma droga anti-hipertensiva e o medidor de pressão está
descalibrado, podemos incorrer em um erro sistemático, um erro que se repete em
diferentes pacientes, por falha da ferramenta de medida. Este é um exemplo
básico de um viés de mensuração. Tão básico que não vai ocorrer em estudos
minimamente organizados.
Na realidade, o principal “risco” de viés de mensuração ocorre
quando temos um estudo aberto (ao invés de cego), onde o pesquisador sabe quem
está usando a terapia. Este viés fica acentuado quando o pesquisador está
avaliando um desfecho subjetivo, denominado de soft. Ao sabermos o que o paciente está usando e este se queixa de
um sintoma subjetivo de dispnéia, temos mais tendência a interpretar a dispnéia
como verdadeira se o paciente está usando placebo, e mais tendência a não
valorizar a dispnéia se a droga ativa estiver sendo usada. Lembram-se da
análise do estudo do BNP em insuficiência cardíaca?
O valor do placebo (vide postagem) não se limita a simular o efeito psicológico do tratamento. É muito
útil também para cegar o médico na interpretação dos desfechos.
Há outros tipo de vieses. Viés de seleção, quando os critérios de
inclusão não foram suficientes para selecionar a amostra de interesse. Por exemplo, queremos avaliar pacientes
com síndromes coronarianas agudas, mas incluímos qualquer dor torácica, muitas
delas que podem ser decorrentes de outras causas. Viés de seguimento, quando há
muitas perdas de pacientes durante o seguimento (será que os pacientes que
sumiram do mapa foram os que morreram?). Viés de análise de dados, desde erros
estatísticos até tendência na escolha da forma de análise.
Passo 5: Há viés de
tratamento ? (intenção de tratar? cross-over acentuado?)
O viés do tratamento é algo que precisamos nos preocupar também.
Este é muito presente em estudos observacionais, pois a forma de tratamento não
é padronizada (dose, tipo de droga, duração), nem monitorada. Porém mesmo em
ensaios clínicos, pode ocorrer o viés de tratamento. Sempre que randomizamos um
grupo para tratamento, nem todos deste grupo de fato completam o tratamento,
assim como alguns do grupo controle acabam usando o tratamento. Isso se
denomina de cross-over, que é
inerente de qualquer tipo de tratamento e idealmente não deve ultrapassar 30%.
Mas porque toleramos um certo nível de cross-over
? Toleramos porque no mundo real,
de fato, nem todos os pacientes que prescrevemos um tratamento são submetidos
ao tratamento. Precisamos entender que o ensaio clínico está na verdade
testando a intenção de tratar, ou
seja, a eficácia do ato médico de prescrever o tratamento. Esta eficácia é
também determinada pela aceitação do paciente ao tratamento, que deve ser
computada no estudo. Se excluirmos estes pacientes, estaríamos tornando mais
artificiais nosso resultado, seria um viés
de tratamento. Portanto, a análise
primária dos estudos deve ser baseada na intenção de tratar, onde alguém
alocado para o grupo droga será sempre droga, mesmo que não tenha recebido a
droga. O mesmo com o grupo placebo ou controle. Trocar os pacientes de grupo de
acordo com o verdadeiro uso do tratamento (análise per protocol) deve ser visto como uma análise secundária. Além do
problema mencionado, esta conduta viola o processo de randomização e faz voltar
o risco de efeito de confusão. A exceção onde a análise per protocol deve ser valorizada são estudos de não-inferioridade
(vide postagem de Adriana Latado).
Outro aspecto importante: quando estamos avaliando um tratamento
conservador versus tratamento
agressivo, é natural e desejado que parte dos pacientes do grupo conservador ao
longo do segmento migrem para o grupo agressivo, a depender do julgamento
médico. Isso faz parte da estratégia conservadora, e estes pacientes devem
continuar rotulados como tendo sido submetidos ao grupo conservador. Por
exemplo, no estudo COURAGE, ao longo do seguimento parte dos pacientes do tratamento clínico realizaram
angioplastia. Isso não é um problema, pois tratamento clínico significa a
primeira estratégia e não implica em proibir o médico de optar pelo tratamento
intervencionista se o conservador não funcionar plenamente.
Em conclusão, na
primeira etapa de avaliação (veracidade), devemos nos preocupar com as
seguintes questões:
Passo 1: Há efeito de confusão influenciando o
resultado?
Passo 2: O resultado decorre do acaso (significância
estatística)?
Passo 3: A conclusão foi baseada no resultado do
desfecho primário ou secundário?
Passo 4: Há viés de mensuração? (estudo aberto? desfecho subjetivo?)
Passo 5: Há viés de tratamento ? (intenção de tratar?
cross-over acentuado?)
Caso a conclusão
passe pelo crivo de todas estas análises, a consideramos verdadeira e partimos
sem medo para a análise de relevância. Caso haja dúvida em relação à
veracidade, devemos considerar o estudo apenas como gerador de hipótese,
insuficiente para modificar nossa conduta. Em alguns casos, nem gerador de
hipótese podemos considerar o estudo.