domingo, 25 de junho de 2023

Não-inferioridade é Deslocamento da Hipótese Nula

 

O ensaio clínico TRASVERSE, recentemente publicado no NEJM, foi um estudo de “não inferioridade a placebo”, com objetivo de “explorar os efeitos da reposição de testosterona em eventos cardiovasculares”. 

Aproveitei esse estudo para gerar a discussão da semana passada no Fórum de nosso Curso Online de MBE, no intuito de elaborar sobre (1) o deslocamento da hipótese nula, (2) porque esta é a análise mais adequada para explorar segurança, (3) e como exercitar generalização e transportabilidade de evidências sobre segurança. As seguintes perguntas foram feitas aos participantes do Curso, o que gerou uma ótima discussão, dando origem a este texto. Agradeço aos colegas a participação nestas reflexões. 

NEJM: Cardiovascular Safety of Testosterone-Replacement Therapy

Hipótese: não inferioridade a placebo (limite superior do IC do HR < 1.5)

Resultado: A primary cardiovascular end-point event occurred in 7.0% in the testosterone group and in 7.3% in the placebo group (hazard ratio, 0.96; 95% confidence interval, 0.78 to 1.17; P<0.001 for noninferiority).

Conclusão: In men with hypogonadism and preexisting or a high risk of cardiovascular disease, testosterone-replacement therapy was noninferior to placebo with respect to the incidence of major adverse cardiac events.





1. Como você interpreta o planejamento do estudo de demonstrar não inferioridade da testosterona em relação ao placebo?

Na análise tradicional (eficácia de tratamento ou fator causador de doença), a hipótese nula é ZERO, e a rejeição da hipótese nula nega ausência de efeito. O resultado é que ficamos com a hipótese alternativa de que há influência da exposição no desfecho. A direção da influência mostra se o efeito é benéfico ou maléfico. 

Mas como fazemos para testar segurança? Neste caso, a hipótese nula não pode ser zero, pois insegurança não é zero de diferença entre exposto e não exposto. Pelo contrário, insegurança é uma diferença maior que zero na incidência de complicação nos expostos versus incidência nos não expostos: IE - Inão E. Portanto, usamos a análise de não inferioridade, onde simplesmente deslocamos a hipótese nula para um valor maior que zero. Por exemplo, uma hipótese nula de 2% de aumento de complicações. Neste caso, ao rejeitar 2% na análise unicaudal, estamos dizendo que a exposição não provoca 2% ou mais de complicações se comparado a não exposição. 

A análise é unicaudal, pois o construto de insegurança diz respeito ao resultado à esquerda dessa hipótese nula. Além disso, às vezes, a própria definição de insegurança é inerente à intervenção, sendo impossível um resultado em outro sentido: sangramento por anticoagulação (impossível que a droga reduza sangramento), complicação típica de cirurgia (impossível que complicação cirúrgica seja mais frequente em tratamento clínico).

OBS: Embora eficácia também seja um construto apenas à esquerda da hipótese zero, faz-se análise bicaudal, pois a omissão de um efeito contrário ao desejado é grave e não pode ser perdida. 

OBS: nesta explicação utilizei medida de associação aditiva (diferença absoluta de risco), pois fica mais intuitivo explicar a hipótese nula de zero. Mas podemos fazer o mesmo com medidas de associação multiplicativas (risco relativo, hazard ratio, odds ratio), sendo que a hipótese nula tradicional é 1, e o deslocamento de não inferioridade é para valores maiores que 1. 


2. Esta estratégia PROVA segurança da droga na população do estudo?

Inferência Causal Tradicional: Quando rejeitamos a hipótese nula zero, não estamos comprovando um valor específico diferente de zero, estamos apenas dizendo que não é zero. Não zero é causalidade.  

Inferência Causal por Não Inferioridade: Quando rejeitamos de forma unicaudal a hipótese nula 2%, não estamos comprovando zero, estamos apenas dizendo que não é tão ruim quando 2%. Isto permite concluir que não há causalidade de 2% ou mais.  

PROVA de segurança não existe, pois segurança é ausência, e ausência é invisível. No máximo, podemos afirmar que o estudo rejeita a hipótese de que o aumento de risco supere o valor pré-determinado. 

Por isso que o framework do descolamento da hipótese nula é o mais adequado para avaliar segurança, pois de uma forma conservadora estamos tendo o cuidado de apenas dizer que não causa um prejuízo maior que o valor da hipótese nula. Esse cuidado não acontece quando concluímos que algo é seguro baseado na não rejeição da hipótese nula de zero. Pois não rejeitar o zero não quer dizer que comprovamos o zero. E essa não rejeição pode ter ocorrido por falta de poder estatístico. Assim, o mais adequado para testar segurança é a análise de não inferioridade comparada a placebo. Ou seja, uma análise de não insegurança acima de um certo limite. 

3. Sendo um estudo de não-inferioridade, a análise primária deveria ter sido por protocolo, ao invés de intenção de tratar?

A análise por protocolo tem a vantagem de prevenir a subestimava de efeito que ocorre na análise por intenção de tratar, na qual o contraste entre os grupos quanto à exposição é menor, pois oz tratamentos se misturam pela falta de aderência. Por outro lado, a análise por protocolo equivale à de um estudo não experimental (observacional), pois perde-se o efeito da randomização. Por este motivo, não podemos afirmar que a análise por protocolo é superior à análise por intenção de tratar. Estas passam a ser análises complementares, na medida em que uma cobre a deficiência da outra. 

Há um outro complicador na análise por protocolo neste caso. Como definir não aderência em um tratamento contínuo? Quem usou a droga por 1/3 do período do estudo, e depois parou, será analisado em que grupo? É uma decisão arbitrária também. 

Por isso, a meu ver, os autores optaram por descrever uma análise de sensibilidade, ajustando para não compliance. Partindo-se da incidência observado do desfecho (compliance < 100%), faz-se uma estimativa do quanto seria a incidência se houvesse 100% de compliance. 

Julgo que o melhor caminho para estudos de não inferioridade seja manter a randomização (ITT), e complementar com análises por protocolo ou ajuste de compliance. Embora menos usados, estes ajustes me parecem fazer mais sentido, pois não desfazem a randomização.

4. Que outro viés típico de ensaios clínicos randomizados pode ter ocorrido?

Viés de seleção emigratório. 

Data were available for 82.7% of the possible follow-up time (observed person-time divided by
total person-time, on the assumption of no withdrawals) in the testosterone group and 81.7% of the possible follow-up time in the placebo group.”

A perda de seguimento reduz a validade interna, na medida em que pode causar viés de seleção emigratório. Viés de seleção ocorre quando a seleção (de quem entra ou sai) é motivada simultaneamente pela exposição e por mais predisposição ao desfecho. Mesmo que o número de pacientes perdidos seja igual nos dois grupos, não sabemos se quem saiu no grupo exposto teria mais desfecho do que quem saiu no grupo não exposto. 

Por outro lado, observe que isso é diferente de ausência de seguimento. Em estudos de incidência de eventos clínicos (diferente de medida antes e depois), quando um seguimento é interrompido, a análise de sobrevida computa o valor do paciente proporcional ao tempo em que este foi seguido. Isso não elimina viés de seleção, mas ameniza diferenças entre tempo de seguimento. 

5. Se considerarmos que a conclusão do estudo possui validade interna, partiremos para a validade externa: podemos generalizar este resultado? E podemos transportar este achado para pessoas de baixo risco cardiovascular, sem hipogonadismo, que desejam utilizar o tratamento para fins de qualidade de vida.  

Generalização é um construto de pensamento que se refere à população-alvo (paciente com hipogonadismo e sintomas). O que foi observado na amostra do estudo é generalizável para a população-alvo (hipogonadismo, sintomas e alto risco cardiovascular)? Esta pergunta é necessária pois, em estudos de seleção não probabilística, há sempre diferença entre a população do estudo (observada) e a população alvo (pretendida). Julgo que nas doses testadas, o estudo é generalizável. Não vejo variável com alto potencial de modificação de efeito. Sigo o princípio da complacência.

6. Por que usei o termo transportar?

Transportabilidade se refere a aplicação do resultado para fora da população-alvo: pacientes sem hipogonadismo ou pacientes de baixo risco. Para os de baixo risco cardiovascular com hipogonadismo, julgo transportável. Para os que tem testosterona mais alta, e o nível plasmático pode ficar supra fisiológico, não arriscarei transportabilidade. Observem que o princípio da complacência é mais variável quando falamos em transportabilidade. 

Após essa discussão, pedirei aos participantes de nosso programa online para responder a seguinte pergunta: após essa discussão, você julga que a evidência apresentada a respeito da segurança da testosterona tem suficiente validade interna, aplicabilidade e utilidade para o raciocínio clínico?

Na próxima semana, publicarei a votação e um breve comentário a respeito do processo de decisão clínica a este respeito. 

-----------------------------------------------------------------------------------------------------------------------------

Clique aqui para acessar a página do Curso Online de MBE













terça-feira, 20 de junho de 2023

A Omissão da Inferência Científica



Este post resume o recente debate no Fórum do Curso Online de MBE.

NEJM, 24 de maio, 2023: Link


Conclusão: "The incidence of the composite of stroke, systemic embolism, hemorrhage, or death at 30 days was estimated to range from 2.8 percentage points lower to 0.5 percentage points higher (based on the 95% confidence interval) with early use of DOACs than with later use."


REFLEXÕES

1. A conclusão do autor contém um inferência científica?

Não, é uma mera repetição do resultado. O autor cai na armadilha do realismo ingênuo ao achar que um intervalo de confiança informa sobre a incerteza presente na realidade (incerteza clínica), o que justificaria esta ser a mensagem do estudo. 

No entanto, o intervalo de confiança informa a incerteza DESTE estudo em relação à estimativa da realidade (eficácia), mas não informa sobre a incerteza contida na decisão clínica de anticoagular. Não há utilidade em usar o intervalo de confiança de um estudo como ferramenta clínica, este portanto não é a conclusão, mas sim um método estatístico que serve de subsídio para uma conclusão.  



2. Qual a validade de construto do desfecho primário para eficácia? E para segurança?

Segundo o autor, o objetivo é inferir eficácia e segurança. Mas o seu desfecho primário não tem validade de construto para estes desfechos. Ao combinar desfechos de eficácia e segurança como parte do desfecho primário, este confunde prova de conceito com raciocínio clínico. 

Precisamos obter a prova de dois conceitos separadamente: eficácia (previne AVC embólico) e segurança (causa AVC hemorrágico). Depois disso, no raciocínio clínico, usamos ambos os conceitos combinados, para saber, caso a caso, quando anticoagular. 

Ademais, quando combinamos desfechos que vão em sentido diferente, o resultado tende a sofrer de um viés da direção da hipótese nula, pois se a droga reduzir AVC isquêmico e aumentar sangramento, um anula o outro, não me permitindo saber separadamente a essência do efeito da droga. 




4. Qual o risco de viés de mensuração do desfecho neste estudo?

O estudo é aberto. Embora a adjudicação seja cega, o trigger inicial para a observação do desfecho é realizado pelo investigador proximal ao paciente. Neste momento, um erro que poderia ser aleatório, torna-se sistemático, pois passa a ser diferencial em relação ao tipo de tratamento alocado. Erros aleatórios de medida sempre existem, quando não diferenciais (estudos cegos) estes diluem o resultado, mas quando diferenciais, estes tendem para algum lado, criando viés. 

5. Na análise primária, 38 pacientes não tinham informação do desfecho primário, por perda de seguimento ou morte por outra causa. Ao invés de desconsiderar essas pacientes na análise, eles permaneceram na análise e seu desfecho (desconhecido) foi imputado por técnicas estatísticas. Você julga isso adequado?

Sim, isto é adequado. Na ausência de imputação, surge o viés de seleção emigratório, pois pacientes sem a informação podem ser diferentes de paciente com informações. Ao fazer imputação múltipla, eliminamos esse viés, pois o dado inserido contém apenas a incerteza aleatória típica da amostra, sem viés. Muitos acham que imputação é algo enviesado. Mas é o contrário, não imputar e analisar apenas os pacientes de dados disponíveis causa viés de seleção. É o mesmo que ocorre com análise por protocolo. 




6. O que acham do autor ter apresentado o resultado principal em diferença de risco (redução absoluta), ao invés de redução relativa do risco.

O autor deseja estimar eficácia, mas ao usar redução absoluta de risco sua estimativa perde validade externa. Ou seja, a redução absoluta de risco depende do risco basal, e serve apenas para a população do estudo. Para populações externas ao estudo haverá outro risco absoluto. Diferentemente, o risco relativo não depende do basal, sendo uma propriedade mais generalizável. RAR e NNT de um trabalho não são generalizáveis. 

7. Se um ensaio clínico randomizado torna  as características basais entre os grupos homogênea, porque o autor ajustou para age, NIHSS score at admission, and infarct size usando regressão logística?  

O ajuste para variáveis prognósticas simula análise estratificada, em que há menor variabilidade em cada estrato, portanto aumenta a precisão da estimativa da medida de associação. 

Serve para melhorar precisão, estreitar o intervalo de confiança. 

Em caso de dúvida residual, escrevam comentários ....

Conheça o programa online de MBE

Inversão do Ônus da Prova: "certeza de ineficácia"

 


Este post resume o recente debate no Fórum do Curso Online de MBE.

Em recente revisão sistemática publicada pela Cochrane, intitulada "Cannabis‐based medicines and medical cannabis for adults with cancer pain", os autores concluíram: "There is moderate‐certainty evidence that oromucosal nabiximols and THC are ineffective in relieving moderate‐to‐severe opioid‐refractory cancer pain."

O que lhe parece invertido? 

A rigor, é inapropriado inferir explicitamente a respeito de ineficácia. Na realidade, pode ser dito apenas que um trabalho falhou em provar eficácia. Na medida em que muitos trabalhos falham, a probabilidade de eficácia vai reduzindo progressivamente. Portanto, uma conclusão mais adequada de um estudo que não rejeitou a hipótese nula é que o tratamento não se mostrou eficaz. Isto é diferente de dizer que o estudo demonstrou ineficácia. 

Observem que isso não é apenas semântica, pois quando colocamos o ônus da prova na ineficácia, favorecemos uma crença na eficácia, que não teria sido devidamente negada pelo estudo. Isso fica mais grave quando a revisão sistemática indica que a evidência de ineficácia é apenas moderada. Ou seja, os autores não só invertem o ônus da prova, como reconhecem que a evidência de ineficácia não é ideal. Há, portanto, um problema de inferência. 

Certeza (certainty) é algo que não faz parte do espectro científico, pois evidências são sempre observações limitadas da realidade. Não vemos a verdade, nós inferimos a verdade. Portanto, o linguajar científico deve evitar a palavra certeza. Menos adequado ainda é tentar quantificar a certeza, pois certeza não tem gradiente, é uma só. Certeza não pode ser moderada, pois já é certeza. 

Mais adequado é caracterizar a incerteza, como baixa, moderada ou alta. 

Mas incerteza de quem? 

Não é a evidência que tem incerteza, o que evidência tem é qualidade (validade). Portanto, a abordagem é caracterizar a qualidade da evidência e depois inferir. Quem tem a incerteza é o cientista que está inferindo a partir da evidência.


Em conclusão:

1) A evidência é de eficácia (ou ausência de evidência de eficácia), não de ineficácia.
2) Não temos certeza científica, mas sim incerteza.
3) A evidência não tem graus de incerteza, mas sim níveis de qualidade.
4) Quem fez inferência é quem pode ter incerteza. 

Eu concluiria de que "evidências de moderada qualidade não demonstram eficácia do tratamento".