Inferência estatística

Amostragem

Prof. Letícia Raposo

UNIRIO

Inferência estatística

Amostragem

A amostragem é naturalmente usada em nossa vida diária. Exemplo: verificar o tempero de um alimento.

Amostragem

Alguns conceitos

  • População: conjunto de elementos para os quais desejamos que as conclusões da pesquisa sejam válidas, esses elementos podem ser observados ou mensurados sobre as mesmas condições.

    • Podem ser finitas ou infinitas (pode ser contado, porém é muito grande).
  • Parâmetro: medida que descreve certa característica dos elementos da população.

    • Exemplo: numa pesquisa epidemiológica, a população pode ser definida como todas as pessoas da região em estudo, no momento da pesquisa. O principal parâmetro a ser avaliado deve ser a porcentagem de pessoas contaminadas.
  • Quando é difícil pesquisar toda a população, recomenda-se usar a amostragem.

Alguns conceitos

  • Inferência estatística: refere-se ao uso apropriado dos dados de uma amostra para se ter conhecimento sobre parâmetros da população de onde foi extraída a amostra.
  • Amostra: parte dos elementos de uma população.
  • Amostragem: processo de seleção da amostra.
  • Estimativa: valor calculado com base na amostra e usado com a finalidade de avaliar aproximadamente um parâmetro.

Plano de amostragem

  • Para elaborar um plano de amostragem, devemos ter bem definidos:
    • Os objetivos da pesquisa;
    • A população a ser amostrada;
    • Os parâmetros a ser estimados.
  • Precisamos também definir:
    • A unidade de amostragem;
    • A forma de seleção dos elementos da população;
    • O tamanho da amostra.

Tipos de amostragem

  • Probabilística ou aleatória
  • Não probabilística ou não aleatória

Amostragem aleatória

Amostras obtidas aleatoriamente – probabilidade de cada elemento da população fazer parte da amostra é igual.

  • Vantagens:
    • Critério de seleção dos elementos rigorosamente definido (sem subjetividade dos investigadores/entrevistadores);
    • Determinação matemática da dimensão da amostra.
  • Desvantagens:
    • Dificuldade em obter listagens ou regiões atuais e completas da população;
    • Pode originar uma amostra muito dispersa geograficamente, aumentando os custos, o tempo envolvido no estudo e a dificuldade de coleta de dados.

Amostragem não aleatória

Probabilidade de alguns ou de todos os elementos da população pertencer à amostra é desconhecida.

  • Vantagens:
    • Menor custo, menor tempo de estudo, e menor necessidade de mão-de-obra.
  • Desvantagens:
    • Pode ocorrer um viés de opinião pessoal;
    • Não se sabe com que grau de confiança as conclusões obtidas podem ser inferidas para a população - não há garantia de que a amostra selecionada seja representativa da população.

Tipos de amostragem

Amostragens probabilísticas

Amostragem aleatória simples

  • Consiste em selecionar 𝑛 elementos da população (𝑁) por meio de um sorteio.
  • Pode ser com ou sem reposição.
  • Qualquer subconjunto da população com o mesmo número de elementos têm a mesma probabilidade de fazer parte da amostra.
    • Temos que cada elemento da população tem a mesma probabilidade (dada por 𝑛/𝑁) de pertencer à amostra.
  • Vantagem: garante que a amostra seja representativa da população, evitando vieses sistemáticos, já que todos os elementos têm a mesma chance de serem selecionados.
  • Desvantagem: pode ser de difícil aplicação em populações grandes ou dispersas, pois requer uma lista completa de todos os elementos da população para o sorteio.

Amostragem aleatória simples

Amostragem sistemática

  • Os elementos da população estão ordenados e são retirados periodicamente. Ex: em determinada linha de produção de medicamentos, podemos retirar um elemento a cada 50 itens produzidos.
  • Vantagem: executada com maior rapidez e menor custo comparada à AAS.
  • Desvantagem: possibilidade de existirem ciclos de variação.

Amostragem sistemática

Amostragem estratificada

  • Consiste em dividir a população em subgrupos (estratos) e selecionar aleatoriamente amostras de cada estrato.
  • Deve-se escolher um critério de estratificação que forneça estratos bem homogêneos com respeito ao que se está estudando.
    • Ex: estratificação de uma cidade em bairros, de uma população por sexo ou faixa etária, de alunos por escola.
  • Vantagem: permite maior precisão nas estimativas, uma vez que as variações dentro de cada estrato são reduzidas, garantindo uma amostra mais representativa das diferentes subpopulações.
  • Desvantagem: requer informações detalhadas da população para formar os estratos e, em alguns casos, pode ser mais complexo e custoso do que a AAS.

Amostragem estratificada

Amostragem estratificada

  • Uniforme:
    • Sorteia-se um nº igual de elementos em cada estrato \((𝑛_𝑖=𝑛/𝑘)\);
    • Recomendada quandos os estratos são aproximadamente do mesmo tamanho;
    • Mais usada para obter estimativas separadas para cada estrato, ou quando se deseja comparar os diversos estratos.


  • Proporcional:
    • O nº de elementos em cada estrato \((𝑛_𝑖=𝑁_𝑖/𝑁) ×𝑛\) é proporcional ao nº de elementos existentes no estrato.

Amostragem por conglomerados

  • Conglomerados: agrupamento de elementos da população.
    • Ex: numa população de domicílios residenciais de uma cidade, os quarteirões formam conglomerados de domicílios.
  • AC em um estágio: seleciona-se aleatoriamente alguns conglomerados e depois se observa todos os elementos dos conglomerados selecionados.
  • AC em dois estágios: (mais comum) faz-se nova seleção aleatória, tomando amostras de elementos dos conglomerados extraídos no primeiro estágio.
  • Em pesquisas de grande escala, a amostragem pode ser feita em mais estágios.

Amostragem por conglomerados

  • Vantagem: reduz custos e facilita a coleta de dados em grandes populações, especialmente quando os elementos estão geograficamente dispersos.
  • Desvantagem: os conglomerados raramente são do mesmo tamanho, dificultando o controle da amplitude da amostra. Além disso, pode introduzir maior variabilidade nos resultados, já que os elementos dentro de cada conglomerado tendem a ser mais semelhantes entre si, aumentando o erro amostral.

Amostragem por conglomerados

Amostragens não probabilísticas

Amostragem por conveniência

  • É empregada quando há participação voluntária ou os elementos da amostra são escolhidos por uma questão de conveniência ou simplicidade, por exemplo, amigos, vizinhos ou estudantes.
  • Vantagem: obter informações de maneira rápida e barata.
  • Desvantagem: o processo amostral não garante que a amostra seja representativa da população, devendo ser empregada apenas em situações extremas e em casos especiais que justifiquem a sua utilização.

Amostragem por conveniência

Amostragem por cotas

  • A população é vista de forma segregada, dividida em diversos subgrupos. Seleciona-se uma cota de cada subgrupo proporcional ao seu tamanho.
  • Para compensar a falta de aleatoriedade na seleção, costuma-se dividir a população num grande número de subgrupos.
    • Ex: em uma pesquisa socioeconômica, a população pode ser dividida por localidade, por nível de instrução, por faixas de renda etc.
  • Um dos mais utilizados em pesquisa de mercado e de opinião eleitoral.
  • Vantagem: baixo custo, rapidez, conveniência ou facilidade para o entrevistador selecionar elementos.
  • Desvantagem: como a seleção não é aleatória, não há garantia de que a amostra seja representativa da população.

Amostragem por cotas

Amostragem por julgamento

  • Os elementos escolhidos são aqueles julgados como típicos da população que se deseja estudar.
    • Exemplo: no estudo sobre a produção científica dos departamentos de ensino de uma universidade, um estudioso sobre o assunto pode escolher os departamentos que ele considera serem aqueles que melhor representam a universidade em estudo.
  • Requer conhecimento da população e dos elementos selecionados.
  • Vantagem: permite uma seleção mais direcionada quando há conhecimento especializado sobre os elementos mais relevantes ou representativos da população.
  • Desvantagem: pode introduzir viés, pois a escolha dos elementos é subjetiva e depende do julgamento do pesquisador, o que pode comprometer a representatividade da amostra.

Amostragem por julgamento

Amostragem por bola de neve

  • Muito utilizada quando os elementos da população são raros, de difícil acesso ou desconhecidos.
  • Identificamos um ou mais indivíduos da população-alvo e eles identificarão outros indivíduos pertencentes à mesma população. O processo é repetido até que seja alcançado o objetivo proposto.
    • Exemplo: acessar imigrantes ilegais nos EUA.
  • Vantagem: facilidade de aplicação, baixo custo e especialmente útil para penetrar em populações de difícil acesso, nas quais métodos tradicionais de amostragem seriam inviáveis.
  • Desvantagem: a amostra pode não ser representativa da população total, pois a dependência de redes sociais pode gerar vieses, já que os indivíduos indicam pessoas semelhantes a eles.

Amostragem por bola de neve

Conceito de erro amostral

  • Para a determinação do tamanho da amostra, o pesquisador precisa especificar o erro amostral tolerável, ou seja, o quanto ele admite errar na avaliação dos parâmetros de interesse.
    • Por exemplo, na divulgação de pesquisas eleitorais, é comum encontrarmos: a presente pesquisa tolera um erro de 2%.
    • Quando a pesquisa aponta determinado candidato com 20% de preferência do eleitorado, temos: 18% a 22%, ou seja, 20% ± 2%.

Conceito de erro amostral

Consideraremos sempre o erro amostral sob 95% de probabilidade. Assim, se fixarmos o erro amostral tolerável em 2%, estaremos afirmando que uma estatística, calculada com base na amostra a ser selecionada, não deve diferir do parâmetro em mais que 2%, com 95% de probabilidade.

Vejamos uma exemplo de pesquisa eleitoral

Vejamos uma exemplo de pesquisa eleitoral

Vejamos uma exemplo de pesquisa eleitoral

Fórmula para o tamanho mínimo da amostra

Um primeiro cálculo do tamanho da amostra pode ser feito, mesmo sem se conhecer o tamanho da população, por meio da seguinte expressão:

\[n_0=\frac{1}{E_0^2}\]

\(𝑁\): tamanho (número de elementos) da população;

\(𝑛\): tamanho (número de elementos) da amostra;

\(𝑛_0\): uma primeira aproximação para o tamanho da amostra;

\(𝐸_0\): erro amostral tolerável.

Fórmula para o tamanho mínimo da amostra

Se a população for muito grande, digamos mais que 20 vezes o valor calculado em \(𝑛_0\), então \(𝑛_0\) já pode ser adotado como o tamanho da amostra \(𝑛=n_0\). Caso contrário é sugerido a seguinte correção:

\[n=\frac{N\times n_0}{N+n_0}\]

Exemplo

Planeja-se um levantamento por amostragem para avaliar diversas características da população das 𝑁 = 200 famílias moradoras de um certo bairro. Qual deve ser o tamanho mínimo de uma amostra aleatória simples para que possamos admitir, com 95% de probabilidade, que os erros amostrais não ultrapassem 4%?

\[n_0=\frac{1}{(0,04)^2}=625\] Como 625 é maior que 200 (famílias), usamos a correção.

\[n=\frac{200\times 625}{200+625}=152\]

Exemplo

E se fossem 20.000 famílias? Esse tamanho é 20 vezes maior que 625, logo poderíamos usar o tamanho amostral de 625 famílias.

Veja que: \[n=\frac{20000\times 625}{20000+625}=623\] que é muito próximo de 625.

Importante

Para garantir um erro amostral não superior a 4%, foi necessário uma amostra abrangendo 76% (152/200) da população quando o N era de 200, e quando o N era de 200.000, foi suficiente apenas uma amostra de 0,3% (623/200000) da população.

📌 Para fixar!


Assista!


Clique aqui!

📚 Referências bibliográficas

  • BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.

  • DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.

  • HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.