segunda-feira, 11 de julho de 2016

O Estranho Caso da Não-inferioridade ao Placebo


Você compraria um produto por este não ser muito pior do que placebo? Parece estranha minha pergunta, mas isso foi o que os autores do LEADER trial, estudo publicado mês passado no New England Journal of Medicine, se propuseram a testar em relação ao efeito do novo hipoglicemiante Liraglutida. Sim, por incrível que pareça a hipótese primária do estudo é de não-inferioridade desta nova droga em relação ao placebo. 

Há algumas semanas, a colega de reflexões baseadas em evidências, Adriana Latado, me chamou atenção desse estudo. Debatemos e acabamos por escrever uma Correspondência ao editor do  NEJM, com a contribuição de Franz Porzsolt. Não sabemos se a carta será aceita para publicação, mas desde já compartilho nesse post parte das reflexões trocadas entre nós três. 

O princípio do nível de evidência indica que o resultado de todo estudo deve passar por uma rigorosa análise crítica a respeito da sua validade (riscos de erros aleatórios e sistemáticos). Temos enfatizado isso neste Blog, como o primeiro passo na análise de evidências. Mas na verdade, existe um passo que deve anteceder a análise de validade de um estudo. Denomino este de passo ZERO, que corresponde à seguinte pergunta: qual o sentido da hipótese do estudo?

Para avaliar se a pergunta do LEADER trial tem sentido, vamos primeiro revisar (conteúdo presente em postagens prévias: 1, 2, 3) o que significa uma hipótese de não inferioridade e quando esta se aplica. A análise de não inferioridade é uma metodologia originalmente legítima, desenvolvida para testar se uma nova conduta não é muito pior do que a conduta tradicional. Esta se aplica a quando o novo traz uma vantagem prática tamanha que vale a pena abdicar de uma parte (pequena) do benefício obtido com a conduta tradicional. O grande exemplo contemporâneo é representado pelos estudos que compararam os novos anticoagulantes com warfarina. Considerando que nos novos anticoagulantes não requerem controle laboratorial, tendo estabilidade e previsibilidade em relação a seus efeitos, estes representam um tipo de tratamento bem mais conveniente do que o tradicional. Sendo assim, mesmo que estes anticoagulantes fossem um pouco inferiores do que warfarina, poderia valer a pena dar preferência aos novos. Por este motivo, todos os grandes trials que compararam estas drogas com warfarina são estudos de não inferioridade. Neste caso, o teste de hipótese é legítimo. Observem portanto que não-inferioridade não significa exatamente semelhança. É algo como quase semelhança ou uma diferença (inferioridade) aceitável ou tolerável.

Estes tipos de estudo pré-determinam uma margem de não inferioridade, que representa o quanto toleramos de inferioridade para preferir o tratamento mais prático. É como se dissermos, se este tratamento for um pouco pior, ainda preferirei este, pois é muito mais conveniente. É uma análise econômica, o que pagamos com perda de benefício versus o que recebemos em praticidade. Vale salientar que esta margem tolerável de inferioridade guarda uma certa subjetividade, e o leitor do artigo deve analisar criticamente se a margem aceitável para ainda justificar o tratamento. 

A margem de não-inferioridade é definida pelo limite superior do intervalo de confiança da medida de associação. Por exemplo, no estudo LEADER, definiu-se não-inferioridade por uma margem superior do intervalo de confiança do risco relativo de 1.3. Por exemplo, se esse intervalo de confiança fosse até 1.3, diríamos que na pior das hipóteses (margem superior) a perda de benefício seria 30% e esse é o limite do aceitável para preferir o novo tratamento. O leitor deve sempre avaliar se o autor não foi tolerante demais com essa margem. 

Observem que tudo que falei acima se refere a uma comparação entre uma conduta alternativa versus uma conduta tradicional. Ou seja, não faz sentido utilizar esse conceito em uma comparação  de uma conduta contra placebo. Quando comparamos algo com placebo, a hipótese natural é de superioridade, nunca de não-inferioridade, pois não ser muito pior do que placebo não justifica a utilização de um tratamento. Estranhamente, o LEADER trial foi um estudo que pretendeu demonstrar não-inferioridade da novidade (Liraglutide) em relação ao placebo. Quando nos deparamos com essa anomalia, Adriana questionou: será que há alguma razão que não percebemos? Pesquisamos e percebemos que essa tem sido uma tendência de desenho de estudo a respeito de novos hipoglicemiantes, com aval do FDA. Ou seja, por incrível que parece, o FDA aceita não inferioridade de hipoglicemiantes orais como critério para aprovação da droga. Mas como? 

A justificativa disso é que essas novas drogas reduzem glicemia e no caso do Liraglutide ainda reduz um pouco o peso. Portanto, o argumento seria que se precisa apenas demonstrar que estas não pioram o paciente do ponto de vista cardiovascular para que sejam adotadas como prática clínica. Isso é o que eles usam como justificativa. Inicialmente, esse é mais um exemplo de culto a desfechos substitutos (redução de glicemia), que como sabemos não garantem benefício clínico. Mas meu enfoque será outro aqui nesta postagem. Independente do culto a desfechos substituto a hipótese de não-inferioridade ao placebo não faz sentido.

Abaixo apontarei cinco argumentos contra a lógica dessa operação pseudo-científica.

Observem que aí há uma sequestro do conceito de não inferioridade: este está sendo usado para algo que não foi criado, ou seja, testar segurança de uma droga. O placebo aqui é o grupo controle para avaliar se a droga causa prejuízo. Isso não faz sentido, pois não causar prejuízo não é justificativa para adotar um tratamento. Repito que estudos contra placebo devem ser de superioridade, pois a justificativa para adotar um tratamento é o benefício demonstrado a partir da comparação com placebo. E esses mesmos estudos devem trazer análise de segurança em relação a desfechos não intencionais. 

A demonstração de segurança contra placebo em um desenho de não inferioridade pode representar uma informação verdadeira (sem erros aleatórios ou sistemático), porém é inútil. Pois não ser pior do que placebo não justifica que se prefira o tratamento.  

Em segundo lugar, perda de benefício não deve ser confundida com evento adverso. Evento adverso é algo que não deve acontecer (por exemplo, uma droga causar infarto do paciente), enquanto na não-inferioridade há perda parcial e aceitável de benefício. No conceito de não-inferioridade não há um dano não intencional causado pelo tratamento, apenas um benefício seria um pouco menor do que o tradicional. 

Em terceiro lugar, a história fica ainda mais tendenciosa quando se considera a margem de não inferioridade. Principalmente quando esse evento adverso é representado pelo combinado de desfechos cardiovasculares maiores. E principalmente quando a margem de não inferioridade aceitável é definida como 30%. Ou seja, aceita-se que a droga aumente em 30% (relativo) a incidência de eventos cardiovasculares para adotar esse tratamento. Isso é muito alto, pois é exatamente a redução de risco relativo obtida com bons tratamentos em prevenção primária, como estatinas, por exemplo. Na verdade, se fosse (não é) para comparar contra placebo, seria menos pior um desenho de equivalência, pois nesse tipo de estudo deseja-se demonstrar semelhança e o intervalo de confiança pré-determinado é bem estreito, não havendo margem aceitável de inferioridade. Suspeito que este desenho não tenha sido o escolhido para esta situação, pois soaria mais estranho ainda falar em “equivalência a placebo” como justificativa para adotar um tratamento. Falar em “não-inferioridade” confunde o leitor e essa confusão é útil para evitar a rejeição imediata da esdrúxula hipótese. 

Em quarto lugar, o cálculo do tamanho amostral para um estudo de não inferioridade é diferente do estudo de superioridade. A depender da margem aceitável de não inferioridade (quanto maior a margem, menor o tamanho amostral necessário), o tamanho amostral de um estudo de não-inferioridade pode ser menor do que o estudo de superioridade. Esta quarta observação se refere ao resultado final do estudo. Embora a intenção inicial tenha sido demonstrar não-inferioridade, o estudo mostrou menor risco cardiovascular com o Liraglutide, ou seja, a droga teria benefício cardiovascular. E essa foi a novidade apresentada pelo entusiástico artigo. Descreveu-se que a incidência de eventos no grupo Liraglutide foi 13%, comparada a 14.9% no grupo placebo (P = 0.01 para superioridade). 

Fiz um cálculo a posteriori do poder estatístico deste estudo para detectar a diferença observada, e este estudo tem apenas 76% de poder para demonstrar o tamanho de efeito encontrado. Lembrem-se que o aceitável é um poder mínimo de 80%. Portanto, quando um estudo detecta uma diferença para a qual não estava bem dimensionado, a probabilidade de erro tipo I (encontrar algo falso) é maior do que a impressão trazida pelo valor de P. Sendo assim, a veracidade da conclusão do estudo quanto à superioridade do Liraglutide pode ser criticada. 

Finalmente, há o conceito de validade com base na hipótese pré-determinada, que independe da análise de poder estatístico que acabei de fazer. A validade de um achado não pré-determinado como hipótese primária é menor, pois há muitas hipóteses não pré-determinadas concorrendo para acontecer. O acaso se faz mais presente. A superioridade foi um achado secundário e como tal, mais sujeito ao acaso. 

Tudo isso nos faz refletir a respeito do porquê que autores desenham hipóteses inadequadas. Às vezes a forma como se desenha a hipótese não é voltada para sua real utilidade, mas sim para a probabilidade de se demonstrar um resultado que favoreça o estabelecimento do novo tratamento. Ao objetivar não-inferioridade a placebo, fica mais fácil de se conseguir um resultado positivo. E ainda de quebra os autores jogam com o acaso de encontrar um resultado ainda mais favorável, o de superioridade. O ônus da prova não está na superioridade, portanto o que vier nesse sentido é lucro. Os autores não pagam o preço pelo teste de uma hipótese mais robusta, mas colhem o lucro proporcionado pelo acaso. Devemos avaliar a quem mais interessa a hipótese testada: ao paciente, ao médico ou à indústria ?

O principal desafio de uma verdadeiro cientista é definir a pergunta correta e saber a dose de dúvida que deve atribuir a suas próprias respostas. Falamos em sequestro do conceito de não-inferioridade. Mas aqui há um fenômeno ainda mais grave: o sequestro do conceito de medicina baseada em evidências. Este conceito vem sendo inadequadamente aplicado para vender condutas aparentemente embasadas em evidências, mas que na realidade não passam pelo crivo da análise crítica da pergunta da pesquisa. A análise crítica da pergunta da pesquisa deve ser o passo zero da verdadeira medicina baseada em evidências: a hipótese testada faz sentido? 

_________________________________________________________________________________

Objetivos Didáticos desta Postagem:

- Desenho de Não-inferioridade
- Margem de não inferioridade definida por intervalo de confiança
- Hipótese de não inferioridade versus superioridade
- Passo Zero na avaliação de evidências: o sentido da hipótese.

15 comentários:

  1. Seus questionamentos são pertinentes mas o desenho do estudo é exigido pelo FDA e não simplesmente feito como o pesquisador ou a indústria quer.
    A eficácia da liraglutida já foi estabelecida em outros estudos e isso não está em questão.
    A priori foi determinado um limiar de benefício que se poderia considerar a liraglutida superior ao placebo, esse limite foi alcançado.
    Se não fosse essa indústria "gananciosa" e de "má fé" os milhões de diabéticos teriam o que para tratar seu diabetes?

    ResponderExcluir
    Respostas
    1. Qual foi o estudo que demonstrou que liraglutida demonstrou evitar algum desfecho clínico relevante no tratamento do diabete? Até hoje, que eu saiba, os dois únicos tratamentos que previnem morte e eventos clinicamente relevantes são a metformina e a insulina, o resto só melhora hemoglobina glicada, mas não previne nada!

      Excluir
    2. correto. E como sabemos, desfechos substitutos não tem relevância clínica.

      Excluir
  2. Professor, inicialmente excelentes abordagens como sempre.

    No caso do DM2, até então é sabido da falta de evidência em relação a redução de desfechos duros das terapias até então empregadas no seu tratamento. Isso já traz uma coerência com o postulado de De Fronzo (concorrente com a plasubilidade biológica), que a elenca como uma doença de fisiopatologia multifatorial, e que por isso abordar um "braço" fisiopatológico tornaria-se insuficiente.
    No que tange o FDA, além do já citado, o documento que orienta estudos de desfecho cardiovasculares, recomenda como end point primario um composto de morte por causa cardiovascular (e não por todas as causas), AVC não fatal e IAM...

    Nesse caso, entretanto, tendo em vista que o grupo placebo em verdade é um grupo que já vinha tratado no esquema standard, como visto pelo uso de 75% de biguanida e 50% de sulfa, por exemplo (tabela S4 do conteúdo suplementar), não se poderia admitir aceitar que coubesse um estudo de não inferiordade? de maneira extrapolativa, por exemplo, seria um comparativo entre um grupo em uso de liraglutide + esquema padrao vs esquema padrao.

    Um abraço.

    ResponderExcluir
    Respostas
    1. Sim, perfeito, esse seria o desenho. Porém com hipótese de superioridade.

      Excluir
  3. Uau! Excelente exemplo de estudo questionável que é publicado em revista Qalys A! Só digo isso porque tem profissional usando a revista como critério de avaliação de qualidade do estudo. Já ouvi a seguinte frase: "mas o estudo foi publicado no New England!"
    Ja é difícil engolir estudo de não inferioridade comparado a terapia estabelecida. Não ser pior que placebo é realmente louvável! (Ironia)

    ResponderExcluir
  4. Caro Luis .... Que bom ter começado essa discussão sobre estudos de não inferioridade ( NI ) , onde percebo ultimamente que tem virado " moda ".
    Qual o sentido científico filosófico de se ter uma hipótese nula onde uma nova droga é muito pior que o nada ? Não faz sentido algum ! E o pior é causar toda essa inversão da essência da medicina baseada em evidências , digo evidência correta e sem tendenciosidade .
    Vou além ....
    Fazendo uma ancoragem com o LEADER trial , vi recentemente a mesma indústria tentar mostrar uma " superioridade " com " segurança " num estudo de NI entre linagliptina contra ( de novo ) o pobre do placebo .... E com esse mesma justificativa de que seria uma exigência do FDA . Isso em nada muda o pensamento científico que deve ser LIVRE ! . Essa medicação bastou mostrar que reduz a hemoglobina glicada ( desfecho substituto ) que virou um blockbuster ! ... E os resultados desse ensaio clínico ainda não foi divulgado , ou seja , não devem ter encontrado um resultado positivo " comprovando cientificamente " ( sofismando ) que a linagliptina é melhor que o nada ! Ou talvez seja muito pior que o nada ! Mas deu ótimos frutos ...... Muitos eventos de sensibilização de prescrição promovidos pela indústria . Mas parecem que deixaram essa nova droga de lado e partiram para outra : a empaglifozina . Que agora sim !
    Acharam os resultados !....... A análise do Empa Reg trial , outro estudo de NI , faz um link na sua postagem Luís , no que se refere na intenção de um resultado esperado .
    E nesse trial testaram a empaglifozina " em bando " ( pooled 10 mg + 25 mg ) contra o pobre do placebo em um desenho de NI .
    Só que não existe dose de 35 mg .
    Mostraram que reduziram " mortalidade cardiovascular " sem redução de IAM ou AVC . Também com uma margem de NI de 1.3 ( tá virando " moda ") . Ou seja , seria como um jogador de futebol que só faz gol do meio de campo mas perde todos os pênaltis !

    ..... Parece que essa nova moda de estudos de NI tem o objetivo de conseguir os resultados " favoráveis " a qualquer custo , até mesmo violando alguns princípios da MBE como ceticismo , veracidade e incertezas .

    Ótima e inspiradora postagem Luís !
    Grande abc

    ResponderExcluir
    Respostas
    1. Pooled 10 mg + 25 mg não era a soma das doses, 35 mg, mas a mistura, soma, dos grupos 10 e 25 mg, que não tiveram diferença estatística.

      Excluir
  5. Rafael Selbach Scheffel13 de julho de 2016 17:34

    Prezado Luis Cláudio,

    Excelente comentário, como de costume. Temos um "Clube de Revista" aqui no Hospital de Clínicas de Porto Alegre (http://clubederevistaendo.blogspot.com.br/) e discutimos este artigo recentemente.

    Também nos deparamos com dúvidas em relação ao seu desenho de não inferioridade. Em relação ao FDA, este desenho é uma exigência regulatória que surgiu após a polêmica relação da rosiglitazona com IAM. Desde então, os tratamentos para DM devem não só baixar a glicose (como era o padrão anteriormente), mas também não aumentar o risco de doença cardiovascular. Concordamos que isso não é o suficiente, porém este é o padrão das agências reguladoras.

    A minha principal dúvida em relação ao teu post foi a questão do poder do estudo, que calculaste a posteriori. Concordo que um poder de 76% é mais baixo que o habitual e que um estudo deve ser desenhado para estudar uma hipótese válida, mas me pergunto que se o estudo demonstrou essa diferença com um valor e IC 95% significativos (0,01 e 0,78-0,97; respectivamente) o quanto isso pode ser ao acaso.

    Até onde sei, o poder (erro beta) é importante quando não são demonstradas diferenças entre os grupos. Pode ser ignorância estatística minha, mas uma vez que o estudo encontrou essa diferença (e o valor P foi calculado para superioridade) não acho que possamos dizer que "a veracidade da conclusão do estudo quanto à superioridade do Liraglutide pode ser criticada".

    Um abraço,
    Rafael Scheffel

    ResponderExcluir
    Respostas
    1. Prezado Rafael, sua pergunta é importante. Observe: a falta de poder estatístico não predispõe apenas ao erro tipo II. Predispõe também ao erro tipo I. Ou seja, um valor de P < 0.05 em um estudo mal dimensionado tem menor validade do que no estudo bem dimensionado. Portanto, um poder estatístico adequado é necessário para dar credibilidade tanto a estudos negativos quanto a estudo positivos. Dizemos sempre que uma das formas de conseguir demonstrar algo falso é fazer um estudo pequeno. Estudos pequenos, por sua imprecisão, mentem mais que estudos grandes. Este estudo não é exatamente pequeno, mas ele não tem a dimensão ideal.

      Quanto à regulação do FDA, sabemos disso. Inclusive há um artigo afirmando que essa é a exigência. A crítica que fazemos é direcionada exatamente a este tipo de regulação. Ou melhor, não é porque o FDA respalda isso que devemos aceitar como algo válido.

      Obrigado pelos comentários.

      Excluir
  6. Nos preocupamos muito com o desenho do estudo quando avaliamos uma tecnologia que pretende ser incorporada no SUS. Se é de NI ou de Superioridade.
    O que resultará da compilação de estudos NI numa metanalise?

    ResponderExcluir
  7. Caro professor, existe alguma bibliografia básica que o senhor sugere sobre Medicina Baseada em Evidência que possa indicar?

    ResponderExcluir
  8. Adorei! Recentemente li este artigo, fiquei muito incomodada e até pensei que minha incompetência não havia me permitido entender bem o texto, já que uma publicação no NEJM está "quase" acima de qualquer suspeita. O delineamento do estudo incorreu em uma fragilidade e tendencia nos resultados. Dentre todos os tópicos que você citou, ainda incluíram o "patrocinador" considerando-o como cego. Muitas informações importantíssimas foram colocadas apenas nas páginas dos textos suplementares (45 pag). Obrigada! Sempre muito pertinentes e rigorosas as suas discussões!

    ResponderExcluir
  9. Caro Luís, sua análise é interessante ao trazer a discussão sobre o quanto essa margem de 30% para se determinar não inferioridade de um fármaco em relação ao placebo é, de fato, adequada. Embora as agências regulatórias a aceitem, concordo que 30% é uma margem excessivamente permissiva. Entretanto. não vejo a hipótese do estudo LEADER como "sem sentido". A eficácia da liraglutida como agente antidiabético foi largamente demonstrada nos estudos do programa LEAD e, portanto, "eficácia" não era a questão. O LEADER foi um estudo para atestar a "segurança" do fármaco e, uma vez que o placebo é inóquo, essa característica também o torna um comparador ideal para tal finalidade. Portanto, a hipótese testada é válida e faz todo sentido! Quanto à confiabilidade da análise de superioridade frente ao poder estatístico do estudo, concordo que temos que ser mais cautelosos. Mas, do ponto de vista de "segurança", os achados do LEADER nos deixam bem tranquilos!

    ResponderExcluir
    Respostas
    1. Prezado Wellington, obrigado pelo comentário.

      Om conceito científico importante em pesquisa clínica é que resultados de desfechos substitutos não garantem benefício clínico. Os estudos que você cita (LEAD trials) foram todos desenhados para provar o conceito de eficácia da redução de glicemia, nenhum deles com poder suficiente para mostrar eficácia clínica. Portanto, a eficácia desta droga não está comprovada do ponto de vista clínico. Até mesmo porque se assim o fosse, estes mesmos estudos mostrariam segurança.

      Respondo aqui seu comentário, pois este Blog tem objetivo primordialmente didático e este é um conceito importante da medicina baseada em evidência: desfechos substitutos são uma condição necessária, porém longe de serem suficientes para confirmar eficácia.

      Excluir