sexta-feira, 9 de outubro de 2015

Como calcular o tamanho amostral ?


Se tivesse que apontar a dificuldade que mais aflige um jovem pesquisador durante um desenho de estudo, lembraria o cálculo do tamanho amostral. É engraçado perceber que durante apresentações de projetos, este é o slide de mais rápida projeção, tornando impossível a compreensão do público quanto às premissas que estavam na mente do pesquisador durante a determinação do tamanho de sua amostra. Na verdade, muitas das vezes, a rapidez do slide demonstra que o pesquisador não quer falar no assunto, limitando-se a passar a impressão de que fez algum cálculo. Frequentemente, peço para voltar o slide e deixar a projeção em silêncio por um minuto. Neste casos, é comum perceber que por trás daquele cálculo existe muita confusão mental. 

Não vejo motivo para tamanha dificuldade, a qual acredito que ocorre mais por falta do ensino simplificado, do que pela complexidade do assunto. Desta forma, esta postagem tem o intuito de clarear nossas ideias a respeito do processo mental do cálculo amostral, apontando os caminhos que nosso pensamento deve percorrer e quais premissas devem ser utilizadas neste processo. 

Para começar, precisamos discutir o porquê da necessidade do dimensionamento da amostra. 

Por que calcular?


Se nossos estudos fossem populacionais, não precisaríamos nos preocupar com número de indivíduos, pois a observação seria de todo o universo de pessoas. Assim ocorre no dia de uma eleição, quando a coleta de dados diz respeito a toda a população adulta, teoricamente. Não existe amostra, nem valor de P, nem intervalo de confiança. Estamos observando a população.

Porém a vasta maioria dos estudos são amostrais, ou seja, avaliam uma pequena parte do universo e extrapolam estes achados para a população. Neste momento, surge o conceito estatístico de imprecisão. É inerente de amostras serem imprecisas, simplesmente pelo fato de que não são a população. Daí vem a simples e óbvia ideia do cálculo amostral: quanto maior a amostra, menos imprecisa, mais próxima do universo. 

Amostras pequenas são mais imprecisas, pois são mais vulneráveis ao acaso. Em amostras pequenas, observações inusitadas e falsas aparecem com mais frequência. O grande problema é que o inusitado chama mais a atenção e, paradoxalmente, este inusitado prevalece sobre a confiabilidade da notícia. Por vezes vemos estudos muito pequenos (hipotermia, beta-bloqueador no pré-operatório) demonstrando grandes efeitos terapêuticos. Estes estudos são aqueles publicados em grandes jornais médicos e que depois são refutados por grandes amostras de estudos subsequentes.

É um erro cognitivo comum valorizarmos a evidência com base em sua importância, sem antes pensar em sua veracidade. 

A imprecisão das amostras é estatisticamente caracterizada pela seguinte simulação mental: se eu repetisse o estudo em várias amostras diferentes, qual seria a variabilidade do resultado? Quando menor forem estas amostras, maior será a variabilidade. Várias amostras pequenas discordam muito mais do que várias amostras grandes. Simplesmente porque o resultado de amostras pequenas sofre muito mais o efeito do aleatório.

Assim as meta-análises avaliam se há viés de publicação. Se estudos pequenos tiverem resultados consistentes (por exemplo, se todos os estudos pequenos apontarem para resultados positivos), há viés de publicação (estudos negativos não estão sendo publicados). Isto porque se espera todos os tipos de resultados, positivos e negativos. Estudos pequenos registram muito mais o acaso do que a verdade. 

Sendo assim, não queremos que nosso estudo seja pequeno. 

Mas o que é pequeno? Para responder a esta pergunta, calculamos o tamanho amostral necessário para que nosso estudo tenha uma precisão razoável em relação ao seu objetivo primordial. Pequeno é um tamanho que não oferece uma precisão razoável. E cada estudo, cada situação, tem sua própria definição de pequeno, que virá do cálculo amostral.

Quanto maior o estudo, mas a observação estará próxima do universo. Quanto menor, mais longe do universo. O ideal portanto, seria a maior amostra possível. Porém a maior amostra possível é o universo, inexequível. Sendo assim, precisamos equilibrar a precisão do estudo com a factibilidade da amostra. Devemos escolher um tamanho amostral que tenha os dois Ps: Possível e ao mesmo tempo razoavelmente Preciso. 


A Ambição de Pesquisador


O gatilho mental inicial para o sintonizar o pensamento no cálculo amostral é se fazer a seguinte pergunta: o objetivo principal do estudo é descritivo ou analítico?

No caso do objetivo descritivo, precisamos de uma amostra que forneça precisão na descrição da variável de interesse. 

No caso do objetivo analítico (aquele que este testa associação entre variáveis), precisamos de uma amostra que forneça poder estatístico para detecção de uma dada associação, se esta existir. 

São dois Ps também:

Descritivo → Precisão
Analítico → Poder

Vamos abordar inicialmente a situação descritiva. Quando descrevemos qualquer parâmetro, devemos reconhecer humildemente a imprecisão de nossa estimativa. Este reconhecimento é definido pelo intervalo de confiança. Calcular o intervalo de confiança é um exercício de humildade.

Se um pesquisador nos disser que a prevalência de uma dada doença é 20% de acordo com sua amostra, devemos sempre lançar a pergunta: o quanto você garante este valor de 20%. A resposta estará no intervalo de confiança. Por exemplo, prevalência de 20%, com intervalo de confiança entre 10% e 30%. Isto quer dizer que a amostra não nos assegura o resultado preciso de 20%, a segurança maior está na afirmação de que o resultado está entre 10% e 30%. É o reconhecimento da incerteza.  

Antes do início do estudo, o pesquisador deve refletir a respeito do nível de incerteza que a questão científica tolera. O nível de incerteza é a amplitude do intervalo de confiança. O exemplo acima representa um intervalo com amplitude de 20% (± 10%), que implica em um determinado tamanho amostral, digamos 70 pacientes. Mas se julgamos esta imprecisão seria intolerável, podemos planejar um maior tamanho amostral. Por exemplo, para uma amplitude de intervalo de confiança de 10%, precisaremos 265 pacientes. 

Desta forma, no estudo descritivo, a amplitude desejada do intervalo de confiança é um dos fatores que determina o tamanho amostral necessário. Percebem que este parâmetro é dependente do pesquisador, que pode moldar sua imprecisão tolerável de acordo com um tamanho amostral factível. Muitas vezes o pesquisador exercita um equilíbrio entre o preciso e o factível.

Este precisão necessária não é definida estatisticamente. É definida pela mente do pesquisador que conhece o problema científico. 

Agora vamos pensar a respeito do objetivo analítico, que pretende testar associações. Em boa parte dos estudos, associação é representada por diferença entre grupos. Portanto, o pesquisador deve  planejar um tamanho amostral que forneça poder para detecção de uma diferença relevante. 

Pequenas coisas necessitam de uma grande lente de aumento para serem percebidas. Associações fracas ou pequenas diferenças entre grupos necessitam de grandes estudos para serem detectadas. Se desejarmos encontrar qualquer associação, precisaríamos de um tamanho amostral infinito, ou na verdade, precisaríamos estudar toda a população. Felizmente, não nos interessa encontrar pequenas associações, pois estas não são relevantes. Desta forma, o pesquisador deve pensar qual o tamanho da diferença que não podemos deixar de detectar. Qual a diferença relevante o suficiente para ter que ser detectada? 

Mais uma vez, este é um parâmetro que depende do pesquisador, ou seja, procura-se um equilíbrio entre uma amostra factível e o tamanho do efeito que fazemos questão de detectar. 

Por exemplo, considerando que a mortalidade no grupo placebo seja 10%, para encontrar uma redução relativa de 20% na mortalidade com uso da droga, precisamos de 6.426 pacientes. Estes pacientes nos darão poder estatístico para detectar a diferença de 10% versus 8% entre os dois grupos (20% de redução). Mas posso julgar que, em se tratando do desfecho morte, não posso deixar passar diferenças menores do que essa. Sendo assim, se a intenção for identificar uma redução relativa de risco de 10%, seriam necessários 26.990 pacientes no total. 

Se nada disso for factível, como faremos? Podemos reduzir nossa ambição para detectar uma redução relativa de 40%, ou seja, de 10% para 6%. Assim, precisaremos de 1.442 pacientes no total. Neste caso, se o estudo for negativo, a ausência de efeito se aplica a reduções de 40% ou mais, não rejeitando a possibilidade de menores reduções. 

Fica claro que o tamanho amostral de um estudo analítico depende do equilíbrio entre a capacidade em detectar associações e o factível. Mais uma vez, é a escolha do pesquisador, em relação ao grau de associação que se faz questão de detectar. 

Vale aqui salientar que “ser capaz de detectar” significa ter um poder de pelo menos 80% em detectar certo grau de associação. Ou seja, se uma dada associação for verdadeira, o estudo teria 80% de probabilidade em detectar. Sim, pois se aceita até 20% de possibilidade do erro tipo II, que seria não detectar uma associação verdadeira. Portanto, um estudo deve ser dimensionado para ter pelo menos 80% de poder na detecção de um certo grau de associação que julgamos ser relevante.

O Comportamento das Variáveis


Além do planejamento do pesquisador, descrito acima, o segundo fator que influencia no tamanho amostral é o comportamento das variáveis no universo.

Desfechos de alta frequência precisam de amostras pequenas para serem precisamente descritos, enquanto desfechos raros necessitam de grandes amostras. Imaginem que eu queira descrever a incidência de um desfecho raro, digamos 0.5%. Em uma amostra de 100 pacientes, poderia não detectar ninguém com viria ter esse desfecho. Já para um desfecho de 30% de incidência, uma amostra de 100 pacientes pode detectar vários casos. 

E se a variável for numérica? Neste caso, o que deve ser considerado é o desvio-padrão que se espera desta variável, pois quanto maior sua variabilidade, mais difícil obter uma descrição precisa. Um parâmetro muito variável, que mudam muito de indivíduo para indivíduo, mudará muito de amostra para amostra, ou seja, terá menor precisão.

O mesmo ocorrerá com objetivos analíticos, ou seja, quanto mais frequente for o desfecho ou quanto menor for o desvio-padrão de uma variável numérica, mais fácil será de detectar uma associação. 

Desta forma, no processo do cálculo amostral, o pesquisador deve ser questionar como a variável se comporta no universo: a frequência de desfechos categóricos ou o desvio-padrão de desfechos numéricos. Pode-se usar sua própria experiência pessoal, estudos pilotos ou estudos da literatura. Claro que pode haver erros nestas premissas. Mas premissas são premissas. Assim, depois do estudo realizado, devemos avaliar se o observado foi muito diferente das premissas. 

Calculando na Prática

Este é um guia básico de como calcular seu tamanho amostral, utilizando uma das melhores calculadoras online, da Universidade da Califórnia em San Francisco.

Estudo Descritivo e Variável Dicotômica

Qual a amplitude do intervalo de confiança desejado (precisão)?
Qual a frequência esperada deste desfecho?

Observem no link que estes número podem ser digitados e a resposta do tamanho amostral virá. Por exemplo, se digitarmos 10% de amplitude (width: W = 0.1) e 20% de frequência (expected proportion: P = 0.2), precisaremos de 265 pacientes. 

Estudo Descritivo e Variável Numérica

Qual a amplitude do intervalo de confiança desejado (precisão)?
Qual o desvio-padrão da variável de interesse?

Por exemplo, se formos descrever o valor do colesterol, para ter 20 mg/dl de amplitude do intervalo de confiança, sabendo que o desvio-padrão do colesterol é 32 mg/dl (olhei isso em algum artigo de estatina na população geral), precisaremos de quantos pacientes?

Se neste link digitarmos 20 (unidades da variável numérica) de amplitude (W = 20) e um desvio-padrão de 32 (S = 32), precisaremos de 39 pacientes. 

Observem que quando trabalhamos com variáveis numéricas, se o desvio-padrão não for muito alto, precisamos de menores tamanhos de amostra do que ocorre habitualmente com variáveis categóricas.


Estudo Analítico e Variável Dicotômica

Qual a diferença relativa que desejamos detectar entre os grupos?
Qual a frequência esperada no grupo controle?

Se queremos encontrar uma redução relativa de 20% no grupo droga, considerando que o esperado no grupo controle é 10%, devemos digitar 10% versus 8%. 

Neste link, digitamos Po = 0.10 e P1 = 0.08. Mantenham os outros parâmetros no default (alfa = 0.05, beta = 0.20). Alfa é o valor de P que consideramos estatisticamente significante (sempre será 0.05) e beta é o erro tipo II aceitável, que não deve passar de 20% (você pode até colocar um número menor, mas o tamanho amostral ficará maior).

Vejam que isto dará 6.426 pacientes (metade em cada grupo) para oferecer um poder de 80% na detecção desta diferença.  

Estudo Analítico e Variável Numérica

Qual a diferença que desejamos detectar entre os grupos?
Qual o desvio-padrão esperado em cada grupo?

Imaginem que desejo encontrar uma diferença de creatinina entre dois grupos, algo que julgue relevante. Penso que 0.5 mg/dl é relevante. E eu tenho uma amostra piloto em que o desvio-padrão da creatinina é 1 mg/dl.

Digitem no link. Para encontrar uma diferença de 0.5 unidades entre os grupos (effect size: E = 0.5), sob a premissa de desvio-padrão de 1 (S = 1), necessitaremos de 126 pacientes. 

Observem que nestes exemplos analíticos, estou apenas comparando variáveis entre dois grupos. Há outros tipos de análise, que compara variáveis entre mais de 2 grupos ou que testam correlação entre variáveis numéricas, que poderão ser abordados em outra oportunidade. 


Em Conclusão


Percebam nem precisamos falar em fórmulas estatísticas, pois o cálculo amostral depende muito mais do pensamento científico do que de uma habilidade estatística complexa. 

Depende do entendimento do pesquisador quanto ao objetivo de sua pesquisa, da distinção entre o descritivo ou analítico, da nossa "ambição" de precisão ou poder, e finalmente da estimativa de como a variável se comporta no universo. 

O cálculo amostral é o maior exemplo de interação entre duas personalidades: a do pesquisador ("ambição") e a de sua variável de interesse (comportamento no universo).

11 comentários:

  1. Achei a postagem bastante esclarecedero e didática como nunca me haviam explicado antes . Considero também esse assunto bastante evitado durante as aulas de epidêmiologia clínica. Entretanto, ainda possuo certas dificuldades com o tema.
    Nos estudos truncados- Júpiter , afcaps/texcaps, há como recalcular as reduções de risco relativo , já que eles tendem a superestimar resultados , se sim , como fazer ??? Em estudos pequenos , mas com adequado poder estatístico , até que ponto posso considerar aqueles resultados verdadeiros ?

    ResponderExcluir
    Respostas
    1. Lucas, se de fato o estudo tem "adequado poder estatístico", ele não é pequeno. Mas devemos ver se o poder é adequado mesmo, pois muitas vezes esses estudos pequenos colocam uma premissa de poder para uma diferença grande demais, deixando de lado diferenças também relevantes.

      Quando aos truncados, podemos observar a amplitude do IC do RR, que aumenta na medida que o truncamento é muito precoce, com poucos desfechos.

      Excluir
  2. Professor,
    Em poucas palavras, achei essa postagem...
    Clara, coesa e concisa!
    Parabéns e muito obrigado!!!

    E se me permite gostaria de fazer uma consideração.
    Acho que houve um equivoco no uso do termo "preciso" (usado no texto)

    Precisão é o grau de variação de resultados de uma medição.
    Não é o mesmo que exatidão que se refere à conformidade com o valor real.

    Acho que nesse contexto o mais apropriado seria exato, o que o senhor acha?

    Atenciosamente,

    Igor Garcia,
    Tecnologias em Saúde 2015


    ResponderExcluir
    Respostas
    1. Prezado Igor,

      o termo estatístico adequado para esta discussão é precisão (ou imprecisão). Estatisticamente, imprecisão é medida pela variabilidade do resultado em várias amostras hipotéticas. Essa medida é o erro padrão, que nada mais é do que o desvio-padrão dos resultados destas amostras.

      É exatamente "variação dos resultados", como você falou. Só que em diferentes amostras. Por isso, o termo correto em inferência estatística é precisão.

      Excluir
  3. Professor, obrigado pelo esclarecimento da dúvida. Abraços

    ResponderExcluir
  4. Mestre. Embora não esteja ligado a academia e especificamente a metodologia de estudos clínicos,como cardiologista clinico que sou, sempre tive interesse em entender,mesmo que superficialmente, os meandros dos respectivos estudos. Embora com nível de conhecimento rudimentar nesta área seus esclarecimentos veem contribuindo em muito para que consiga analisar os "Clinical Trials" com um olhar mais critico e sensato,evitando os chamados vieses.
    Mais uma vez parabéns e obrigado.

    ResponderExcluir
  5. Olá Luís,

    como faço para calcular o desvio padrão a partir do intervalo de confiança?

    Meu objetivo é estabelecer o tamanho amostral adequado para uma análise de um estudo analítico com variável numérica. No caso, a variável numérica é dor (medida pela escala visual analógica).

    Consigo encontrar estudos nos quais verifico a diminuição da dor obtida através da conduta que pretendo analisar, juntamente com o intervalo de confiança observado. Iria usar essas informações como base para cálculo do desvio padrão e então colocar na fórmula do site. É possível isso?

    Um abraço,

    Claudio

    ResponderExcluir
    Respostas
    1. Cláudio, se você dividir a amplitude do IC por 4, obterá o erro padrão. Multiplique o erro padrão pela raiz quadrada do tamanho amostral do estudo, e obterá o desvio padrão.

      Excluir
  6. Estimado professor... me chamou a atenção que para a realização do cálculo amostral em nenhum momento se torna necessário o fator tempo.

    Não seria indispensável a variável tempo em qualquer cálculo de apreciação do risco, visto que qualquer evento sempre ocorrerá ao longo de determinada unidade de tempo?

    Tentei simular o cálculo amostral do recem publicado estudo ARTESIA: com um risco estimado de evento de 2,75% por paciente-ano, o estudo encontrou o N de 4000 pacientes para um poder de 0,8 em detectar uma redução relativa de 35% para o grupo que utilizou apixabana. Porém, na calculadora da faculdade da California, encontrei um N de 8000.

    Se puder, gostaria bastante desses dois esclarecimentos.

    Cordial abraço !!!

    ResponderExcluir
    Respostas
    1. Arthur, o tempo importa. E pode ser feito de duas formas. Se vc vai acompanhar por 5 anos ao invés de 1 ano, sua estimativa de eventos no grupo controle vai ser maior, aumentando a precisão estatística (se for pensar apenas no n de eventos). Outra forma melhor é calcular tamanho amostral para a estimativa do hazard ratio (ao invés da diferença de risco), onde você computa o tempo de acompanhamento. Essa forma considera mais uma probabilidade cumulativa de evento ao longo do tempo, do que uma simples probabilidade. Tem muitas nuances, minha resposta não fecha esse assunto, sua pergunta é bem mais profunda.

      Excluir