# Sample size calculation function
<- function(N = Inf, confidence = 0.95, margin = 0.05) {
sample_size # Z-score for the given confidence level
<- qnorm(1 - (1 - confidence) / 2) # e.g. 1.96 for 95% confidence
Z <- 0.5 # assumed proportion (worst-case)
p # Cochran's formula for infinite population
<- (Z^2 * p * (1 - p)) / (margin^2)
n0 # Apply finite population correction if N is finite
if (is.finite(N)) {
<- n0 / (1 + (n0 - 1) / N)
n_adj else {
} <- n0 # if N is infinite or not given, use n0
n_adj
}return(ceiling(n_adj)) # round up to next whole number
}
Estudos sobre tamanho de amostra
1 Cálculo do tamanho da amostra para questionários
O cálculo do tamanho da amostra é baseado na precisão desejada (margem de erro), no nível de confiança e no tamanho da população. Assumindo uma distribuição normal para o estimador (pelo Teorema do Limite Central) e usando um nível de confiança de 95% (um padrão comum), podemos derivar fórmulas para o tamanho da amostra necessário sob amostragem aleatória simples (sem estratificação ou design complexo).
1.1 Teoria Estatística por Trás da Determinação do Tamanho da Amostra
Na pesquisa de questionários, frequentemente estimamos uma proporção populacional (por exemplo, porcentagem de pessoas com uma certa opinião) ou uma média. Queremos que nossa estimativa esteja dentro de uma certa margem de erro (denotada E, ou ± algum valor) do valor real da população em um determinado nível de confiança. Os principais conceitos incluem:
Nível de Confiança e Z-Score: O nível de confiança (por exemplo, 95%) indica a probabilidade de que o intervalo de confiança contenha o valor real da população. Um nível de confiança de 95% corresponde a um Z-score de aproximadamente 1.96 para uma distribuição normal bicaudal (significa que ~95% da área sob a curva normal está dentro de ±1.96 desvios padrão da média). Níveis de confiança mais altos (99%, 90%, etc.) têm diferentes Z-scores (por exemplo, 2.575 para 99%, 1.645 para 90%).
Margem de Erro (E): A margem de erro é a diferença máxima aceitável entre a estimativa da amostra e o valor real da população. Por exemplo, E = 0.05 (5%) significa que queremos que a estimativa da proporção da pesquisa esteja dentro de ±5 pontos percentuais do valor real da proporção no nível de confiança dado. Uma margem de erro menor exige um tamanho de amostra maior (tudo o mais sendo igual), pois exigimos maior precisão.
Proporção populacional (p): Ao calcular o tamanho da amostra para estimar uma proporção, usamos uma estimativa da proporção populacional \(p\) (ou \(\pi\)). Isso afeta a variabilidade: a variância de uma proporção é \(p(1−p)\). Se não tivermos uma estimativa anterior para \(p\), usar \(p = 0,5\) é conservador porque \(p(1−p)\) é maximizado em 0,5, produzindo o maior tamanho de amostra necessário (justificamos isso abaixo com cálculo). Se pesquisas anteriores sugerirem uma proporção aproximada diferente (digamos 0,1 ou 0,37), esse valor pode ser usado para reduzir ligeiramente o tamanho de amostra necessário.
Tamanho da população (N): O tamanho total da população é considerado quando a população não é efetivamente infinita. Se a população é muito grande (ou desconhecida/“infinita”), o tamanho da amostra necessário é calculado assumindo população infinita. Se a população é relativamente pequena ou a amostra incluirá uma fração significativa dela, aplicamos uma correção populacional finita (abordada posteriormente) para ajustar o tamanho da amostra para baixo. Na prática, se a população é de dezenas de milhares ou mais, o tamanho da amostra necessário se estabiliza para o resultado da fórmula de população infinita.
Amostragem estratificada: Aqui assumimos uma amostra aleatória simples. Isso significa que cada indivíduo na população tem a mesma chance de ser selecionado e não estamos usando estratificação ou agrupamento. Com nenhum efeito de design a ser considerado, as fórmulas padrão para margem de erro e tamanho da amostra se aplicam diretamente. (Em designs estratificados ou clusterizados, o tamanho efetivo da amostra pode diferir, mas isso está além do nosso escopo.)
Usando esses conceitos, a margem de erro para estimar uma proporção populacional \(p\) com uma amostra aleatória simples de tamanho \(n\) (sem considerar a correção populacional finita ainda) é dada pela fórmula da metade da largura do intervalo de confiança:
\[ E = Z \sqrt{\frac{p(1-p)}{n}} \tag{1} \]
Isso vem do erro padrão aproximado da proporção da amostra: \(\sqrt{p(1-p)/n}\), e do fato de que um intervalo de confiança de 95% é aproximadamente \(\hat p \pm 1.96 \sqrt{p(1-p)/n}\). Definir essa meia largura de intervalo igual à nossa margem desejada \(E\) nos permite resolver para \(n\).
1.2 Derivação da Fórmula do Tamanho da Amostra (com Insights de Cálculo)
Partindo da fórmula da margem de erro (1), podemos resolver algebricamente para o tamanho da amostra \(n\). Para uma margem de erro desejada \(E\), nível de confiança (Z), e uma proporção assumida \(p\), temos:
\[ E = Z \sqrt{\frac{p(1-p)}{n}}. \]
Resolvendo para \(n\) envolve elevar ambos os lados ao quadrado e rearranjar:
\[ E^2 = Z^2 \frac{p(1-p)}{n} \;\;\Rightarrow\;\; n = \frac{Z^2 \, p(1-p)}{E^2}. \]
Esta é a fórmula de tamanho de amostra padrão para uma população (efetivamente) infinita. Ela é frequentemente chamada de fórmula de Cochran para tamanho de amostra. Por exemplo, inserindo um nível de confiança de 95% (Z = 1,96), \(p = 0,5\) (pior caso) e \(E = 0,05\), obtemos:
\[ n = \frac{(1.96)^2 \cdot 0.5 \cdot 0.5}{0.05^2} \approx 384.16. \]
Na prática, arredondaríamos para cima para 385 para garantir a precisão desejada. De fato, cerca de 384 entrevistados são necessários para uma pesquisa de 95% de confiança ±5% quando a população é muito grande. Se uma margem de erro maior for aceitável (digamos 7%), o \(n\) necessário diminui (cerca de 196 para 5% a 95% pela fórmula).
Por que \(p = 0.5\) é conservador (insight de cálculo): Se a proporção verdadeira \(p\) é desconhecida, usar 0.5 na fórmula é a escolha mais conservadora porque maximiza o termo \(p(1-p)\) (que representa a variância de um resultado Bernoulli). Para ver isso, considere \(f(p) = p(1-p)\). Tomando a derivada: \(f'(p) = 1 - 2p\). Definindo \(f'(p)=0\) dá \(p = 0.5\). A segunda derivada \(f''(p) = -2 < 0\) indica um máximo em 0.5. Assim, \(p(1-p)\) atinge seu valor máximo 0.25 em \(p=0.5\). Usar \(p=0.5\) na fórmula de tamanho de amostra dá \(n = Z^2 * 0.25 / E^2\), que é o maior \(n\) para qualquer \(p\). Isso é por que 50% é frequentemente usado se nenhuma proporção anterior for conhecida – dá um “seguro” (provavelmente superestimado) tamanho de amostra. Se você tem uma estimativa melhor de \(p\), você pode inseri-la para obter um \(n\) menor; caso contrário, \(p=0.5\) garante que sua amostra será grande o suficiente para atingir a margem de erro, independentemente da proporção real.
Exemplo (Usando conhecimento prévio): Suponha que queremos um intervalo de confiança de 98% (Z ≈ 2,326) com margem de 0,05. Se não temos ideia sobre \(p\), usamos 0,5, dando \(n = (2,326)^2 * 0,25 / 0,05^2 ≈ 541,0\), então arredonde para 542. Mas se estudos anteriores sugerem \(p \approx 0,1\), usar \(p=0,1\) produz \(n ≈ 195\) para a mesma precisão, uma amostra muito menor. Isso ilustra como uma estimativa razoável de \(p\) pode reduzir o tamanho da amostra necessária.
Para estimar uma média populacional, uma derivação semelhante se aplica. Se \(\sigma\) for o desvio padrão populacional (ou uma estimativa dele), a margem de erro para uma média é \(E = Z \frac{\sigma}{\sqrt{n}}\). Resolver para \(n\) resulta em \(n = \frac{Z^2 \sigma^2}{E^2}\). Em pesquisas, se \(\sigma\) for desconhecido, pode-se fazer um teste piloto ou usar \(\sigma \approx range/4\) ou outra heurística. O mesmo conceito de usar uma grande suposição populacional (população infinita) se aplica inicialmente. O foco nesta resposta, no entanto, está nas proporções, pois é o cenário típico para o cálculo do tamanho da amostra da pesquisa.
1.3 Correção de População Finita (FPC) – Quando e Por que Aplicar
As fórmulas acima assumem uma população infinitamente grande (ou efetivamente que a população é grande o suficiente para que a amostragem sem reposição não altere significativamente as probabilidades). Na prática, se o tamanho da população \(N\) não for enorme e a amostra \(n\) for uma fração perceptível de \(N\), você deve aplicar a correção de população finita (FPC) para ajustar o tamanho da amostra necessário.
Quando usar FPC: Uma regra prática comum é usar FPC se a amostra exceder cerca de 5% da população. Ao amostrar sem reposição (como a maioria das pesquisas faz — cada pessoa é pesquisada apenas uma vez), extrair mais de ~5% da população viola a suposição por trás da fórmula de população infinita (que assume reposição ou uma população efetivamente infinita). Nesses casos, o erro padrão é superestimado pela fórmula de população infinita, e a FPC o ajusta para baixo para refletir a variabilidade reduzida ao amostrar uma parte considerável da população. Se a amostra for uma fração muito pequena de uma população grande (por exemplo, amostrando algumas centenas de milhões), o efeito FPC é desprezível (o fator de correção será próximo de 1.000 e pode ser ignorado).
Fator FPC: O fator de correção da população finita para o erro padrão é:
\[ \sqrt{\frac{N - n}{N - 1}}, \]
Ao amostrar \(n\) da população \(N\) sem reposição. Este fator (sempre ≤ 1) multiplica o erro padrão. Assim, o erro padrão de uma proporção com FPC se torna \(\sqrt{\frac{p(1-p)}{n} \cdot \frac{N-n}{N-1}}\). A margem de erro do intervalo de confiança com FPC é:
\[ E = Z \sqrt{\frac{p(1-p)}{n} \cdot \frac{N - n}{N - 1}}. \tag{2} \]
Para encontrar o \(n\) necessário com FPC para uma margem desejada \(E\), resolvemos a equação (2) para \(n\). Isso envolve um pouco de manipulação algébrica: multiplique ambos os lados por \(\sqrt{n}\) e reorganize os termos. Isso produz uma quadrática em \(\sqrt{n}\) ou diretamente em \(n\). Uma maneira mais direta é primeiro calcular o tamanho da amostra ignorando a população (\(n_0\) da fórmula da população infinita) e, em seguida, ajustá-lo usando uma fórmula. Na verdade, há uma fórmula simplificada bem conhecida para o tamanho da amostra de população finita:
\[ n = \frac{n_0}{1 + \frac{n_0 - 1}{N}}, \]
onde \(n_0 = \frac{Z^2 p(1-p)}{E^2}\) é o tamanho da amostra da fórmula da população infinita. Esta fórmula considera o tamanho da população \(N\) e sempre produzirá um tamanho de amostra ≤ \(n_0\). Ela pode ser derivada resolvendo (2) para \(n\), e é frequentemente referida como fórmula de correção de população finita de Cochran (ou algumas vezes atribuída à fórmula de Yamane em forma simplificada). Também podemos expressá-la em uma única fórmula equivalente à acima:
\[ n = \frac{Z^2 \, p(1-p)\, N}{E^2 (N - 1) + Z^2\, p(1-p)}. \]
Usar qualquer uma das formas é bom; elas são algebricamente o mesmo resultado. O efeito dessa correção é que se \(N\) for pequeno, o \(n\) necessário é consideravelmente reduzido (porque amostrar uma grande fração de uma população pequena produz mais informações do que o mesmo n de uma população infinita). Se \(N\) for grande, a fórmula produzirá \(n\) muito próximo de \(n_0\).
Quando \(N\) for muito grande: Se \(N\) for, digamos, acima de 40.000–50.000, a diferença feita pelo FPC é mínima. Nesses casos, usar o tamanho de amostra de população infinita \(n_0\) geralmente é suficiente. Por exemplo, se \(N = 1.000.000\) e precisamos de 95% de confiança ±5%, \(n_0 ≈ 384\). O \(n\) ajustado também sai por volta de 384 (tecnicamente ~383, que arredonda para 384 ou 385 dependendo de como arredondamos). Assim, para populações muito grandes, normalmente não se preocupa com FPC, já que \(n_0/N\) é desprezível.
Exemplo (FPC aplicado): Suponha que nossa população seja \(N\) = 600 (uma população pequena, por exemplo, todos os alunos de uma faculdade pequena) e queremos 95% de confiança ±5%. Se ignorássemos o tamanho da população, usaríamos \(n_0 ≈ 385\) como antes. Mas aplicando a fórmula FPC:
\[ n = \frac{385}{1 + \frac{385 - 1}{600}} ≈ 234.76, \]
que arredonda para 235. Em outras palavras, pesquisar 235 alunos de 600 dá a mesma precisão que pesquisar ~385 de uma população muito grande. A correção reconhece que a amostragem de 235 de 600 cobre uma grande parte da população, então podemos estar confiantes com uma amostra menor. Geralmente, conforme o tamanho da população diminui ou a precisão desejada é muito alta, a amostra como uma fração da população aumenta, e o FPC reduz significativamente o \(n\) necessário. Se tivéssemos \(N\) = 10.000 para os mesmos critérios, o \(n\) ajustado seria em torno de 370 (apenas um pouco abaixo de 384). Se \(N\) = 1000, \(n\) ajustado ≈ 278. Esses exemplos mostram que o FPC pode reduzir substancialmente o tamanho da amostra para populações menores.
Importante: Sempre arredonde para cima o tamanho da amostra final calculada para a próxima pessoa inteira. Como o tamanho da amostra deve ser um inteiro, e as fórmulas dão um requisito mínimo, o arredondamento para cima garante que a margem de erro estará no alvo ou abaixo dele. Se você obtiver um resultado fracionário como 234,76, você amostraria 235 pessoas.
1.4 Implementação de código R para cálculo de tamanho de amostra
Abaixo está uma função R que calcula o tamanho de amostra necessário dado o tamanho da população, nível de confiança e margem de erro. Esta implementação assume que estamos estimando uma proporção e usa a aproximação normal (pontuação Z) para o nível de confiança. Por padrão, ela usa \(p = 0,5\) para uma estimativa conservadora; você pode modificar o código para usar uma proporção assumida diferente, se tiver uma. A função aplica a correção de população finita quando um \(N\) finito é fornecido. Se \(N\) for muito grande ou efetivamente infinito, a fórmula produzirá um valor muito próximo ao caso de população infinita.
Esta função primeiro calcula o tamanho inicial da amostra n0
como se a população fosse infinita (usando \(Z^2 p(1-p) / E^2\)), então o ajusta se uma população finita N
for fornecida. Usamos ceiling()
para arredondar para o inteiro mais próximo. A função qnorm
é usada para obter o Z-score apropriado para o nível de confiança (para 95%, qnorm(0.975)
fornece ~1.96).
Exemplos de cálculos em R: Vamos testar esta função com alguns cenários:
# Example 1: Very large population (effectively infinite)
sample_size(N = 1000000, confidence = 0.95, margin = 0.05)
[1] 384
# Example 2: Finite population of 600 (small population)
sample_size(N = 600, confidence = 0.95, margin = 0.05)
[1] 235
# Example 3: Same population of 600, but tighter margin of error 2%
sample_size(N = 600, confidence = 0.95, margin = 0.02)
[1] 481
No Exemplo 1, com uma população de 1.000.000 e 95% de confiança ±5%, o tamanho da amostra necessária sai para 385, que é essencialmente o clássico 384 (vemos 385 devido ao arredondamento). Isso ocorre porque um milhão é tão grande que é basicamente o caso de população infinita.
No Exemplo 2, com uma pequena população de N = 600 e os mesmos 95% ±5%, a função retorna 235, refletindo a correção da população finita (consistente com nosso cálculo manual anterior). Precisamos de muito menos do que 385 amostras para atingir ±5% de precisão quando a população é de apenas 600.
No Exemplo 3, mantemos N = 600, mas estreitamos a margem de erro para 2% (0,02). A amostra necessária salta para 913. Na verdade, como a população é de apenas 600, para obter ±2% com 95% de confiança, você precisa de mais amostras do que o tamanho da população! A fórmula limitada pela população sugeriria que um censo (todos os 600) ainda não atingiria uma margem de 2% a 95% (o que faz sentido, porque com 600 de 600 você não tem erro de amostragem, mas com menos você não pode atingir um erro tão pequeno). Nossa função fornece 913 devido à fórmula, mas na realidade você não pode amostrar mais pessoas do que as existentes - isso indica que para uma precisão extremamente alta em uma população pequena, um censo completo é necessário. Geralmente, para populações pequenas e precisão muito alta, as fórmulas devem ser interpretadas com esse limite prático em mente.
1.5 Conclusão
Em resumo, o tamanho da amostra para um questionário é determinado definindo a margem de erro desejada igual ao escore Z do nível de confiança vezes o erro padrão da estimativa. Assumindo uma distribuição normal para o estimador (justificada pela teoria de grandes amostras) e nenhum projeto de amostragem especial, derivamos a fórmula clássica \(n = \frac{Z^2 p(1-p)}{E^2}\). Discutimos como o cálculo mostra que \(p=0,5\) maximiza o tamanho da amostra necessário, levando a uma escolha conservadora quando p é desconhecido. Também explicamos a correção da população finita: quando sua amostra for maior que uma fração trivial da população, ajuste a fórmula para \(n = \frac{n_0}{1 + (n_0 - 1)/N}\) para obter um n menor necessário. O código R fornecido permite que você conecte o tamanho da população, o nível de confiança e a margem de erro para calcular o tamanho da amostra necessário, que você pode usar para planejar sua pesquisa. Lembre-se sempre de arredondar para cima e considerar limites práticos (você não pode amostrar mais pessoas do que as existentes, e uma precisão extremamente alta pode efetivamente exigir a amostragem da maioria da população). Com esses cálculos, você pode criar pesquisas que equilibrem a viabilidade com a confiança estatística.