Atividade Tópicos de Amostragem probabilística

## This version of Shiny is designed to work with 'htmlwidgets' >= 1.5.
##     Please upgrade via install.packages('htmlwidgets').

Amostragem aleatória Estratificada(AE):

A Amostragem Aleatória Estratificada é a técnica de obtenção de amostras em que a população de N elementos ou unidades amostrais é previamente dividida em grupos mutuamente exclusivos (chamados estratos) e sobre estes estratos são sorteadas amostras casuais de tamanho \(n_k\).

Razões para Estratificar

  1. Deseja-se aumentar a precisão da estimativa global, partindo-se do conhecimento de que a variabilidade da característica estuda- da é grande.

  2. Necessidade de obter estimativas para diversos segmentos da população: Nesse caso, a precisão é fixada para cada estrato que passa a se chamar domínio.

  3. Deseja-se que a amostra mantenha a composição da população segundo algumas características básicas. Por exemplo, em estudos sociais ou epidemiológicos, é usual a obtenção de amostras que apresentam composição segundo o sexo e a idade semelhante à da população estudada.

  4. Conveniência administrativa ou operacional. Por exemplo, um levantamento para o município de São Paulo seria mais fácil de Executar se o trabalho de campo fosse implementado pelas diver. sas regiões administrativas separadamente.

  5. Deseja-se controlar o efeito de alguma característica na distribuição da característica que está sendo avaliada. O efeito da escolaridade sobre o estado nutricional de crianças menores de cinco anos pode ser controlado pela composição de uma amostra que contenha os diversos níveis de escolaridade dos chefes de família da População estudada.

Visando a melhor compreensão do conteúdo e de alguns conceitos vamos considerar a seguinte situação hipotética:

Buscando analisar a média das notas dos alunos do 9º ano do ensino municipal da cidade de Montes Claros, foram coletadas as notas de 30 alunos dentre 3 escolas da rede municipal de ensino.

aluno escola notas
1 Escola A 4
2 Escola A 5
3 Escola A 7
4 Escola A 10
5 Escola A 3
6 Escola A 10
7 Escola A 10
8 Escola A 7
9 Escola A 7
10 Escola A 2
11 Escola A 3
12 Escola A 3
13 Escola A 8
14 Escola A 5
15 Escola B 9
16 Escola B 8
17 Escola B 9
18 Escola B 10
19 Escola B 7
20 Escola B 9
21 Escola B 10
22 Escola B 7
23 Escola B 9
24 Escola B 6
25 Escola C 8
26 Escola C 8
27 Escola C 7
28 Escola C 8
29 Escola C 10
30 Escola C 8
 Numero de pessoas: 30 
 Média: 7.233333 
 Variancia: 5.702299 
 Desvio Padrão: 2.387949

A média populacional \(\bar{x}\) e a variância \(S^2_{x}\) são,agora, calculadas por expressões em que os componentes parciais,calculados em cada estrato, sendo ponderados pela corresspondente fração de elementos \(W_{h}\) existentes na população em relação ao total N.

\(\bar{x}_{est}=\sum\limits_{h=1}^{k} (W_{h}\cdot\bar{x}_{h})\)

\(S_{x}^2=\sum\limits_{h=1}^{k} (W_{h}^2\cdot S_{x,h}^2)\)

h Med_Pond Var_Pond
1 3.375556 1.2418340
2 2.411111 0.6335888
3 1.446667 0.2280920
Soma 7.233333 2.1035147
aluno escola EscolaA
1 Escola A 4
2 Escola A 5
3 Escola A 7
4 Escola A 10
5 Escola A 3
6 Escola A 10
7 Escola A 10
8 Escola A 7
9 Escola A 7
10 Escola A 2
11 Escola A 3
12 Escola A 3
13 Escola A 8
14 Escola A 5
aluno escola EscolaB
15 Escola B 9
16 Escola B 8
17 Escola B 9
18 Escola B 10
19 Escola B 7
20 Escola B 9
21 Escola B 10
22 Escola B 7
23 Escola B 9
24 Escola B 6
aluno escola EscolaC
25 Escola C 8
26 Escola C 8
27 Escola C 7
28 Escola C 8
29 Escola C 10
30 Escola C 8
h Estratos Tam_Estr Med_Estr Var_Estr Propor
1 Escola 1 14 6.000000 8.0000000 0.4666667
2 Escola2 10 8.400000 0.9666667 0.3333333
3 Escola 3 6 8.166667 0.9666667 0.2000000

Sorteio das amostras e obtenção das estimativas

Teoricamente, a estimativa global \(\tilde{x}\) e o seu erro-padrão são obtidos por estimadores que combinam as estimativas parciais calculadas em cada estrato pelo processo de estimação em amostragem casual simples. Os estimadores não-viciados para a média populacional e a variância da média amostral pelas seguintes expressões:

Média Populacional (do estrato): \(\bar{x}_{est}= \sum\limits_{h=1}^{n}W_h\cdot\bar{x}_h\), com \(\bar{x}_h = \frac{\sum\limits_{i}^{n_h}x_{i,h}}{n_h}\);

Variãncia da média amostral(no estrato): \(v(\bar{x}_{est})= \sum\limits_{h=1}^{h}W_h^2\cdot v (\bar{x}_h)\),

com \(v(\bar{x}_h)=(1 - f_h)\frac{s_{x,h}^2}{n_h}\); \(S^2_{x,h}=\frac {\sum\limits_{i=1}^{n} (x_{i,h}-\bar{x}_{h})^2}{n_{h}-1}\) ; \(f_{n}=\frac{n_{h}}{N_{h}}\)

O procedimento de estimação dependerá do critério adotado para definir o tamanho \(n_h\) de cada estrato, a partir do tamanho global da amostra da amostra \(n\) fixado sob os princípios da amostragem casual simples. Os critérios mais utilizados são:

- Estratos com tamanhos iguais

- Partilha propocional

- Partilha Ótima

Estratos de tamanhos iguais

O tamanho global da amostra é dividido pelo número k de estratos. Retomando o exemplo, suponha que um intervalo de confiança para a média das notas dos alunos será estimado por meio de uma amostra de 18 notas. A amostra estratificada das notas por escola será dividida em tamanhos iguais, conforme segue:

Calculando a variancia da media amostral

h nh3 FreqAmo Var_Estrato var_med_estr var_Prop
1 6 0.4285714 3.8666667 0.368254 0.08019753
2 6 0.6000000 1.5000000 0.100000 0.01111111
3 6 1.0000000 0.9666667 0.000000 0.00000000

Partilha proporcional

A partilha proporcional é o critério pelo qual se mantém a fração de amostragem em cada estrato \(h(f_h)\) igual à fração global de amostragem \((f)\). A amostra sorteada será, portanto, considerada autoponderada, e o procedimento de estimação poderá sofrer simplificações. No exemplo anterior, uma amostra estratificada simples auto-ponderada poderá ser obtida fazendo:

\(f = \frac{n}{N} = \frac{18}{30} = f_1 = f_2 = 0,6\).

Então,

\(\frac{n}{N} = \frac{n_h}{N_h} \rightarrow n_h = \frac{n}{N}\cdot N_h=f\cdot N_{h}\), ou seja: \(n_1 = 0,6 \cdot 14 = 8,4\approx 8\) $n_2 = 0,6 10 = 6 $ \(n_3= 0,6 \cdot 6 = 3,6\approx4\) O estimador ponderado para a média pode, então, ser simplicado para a média simples: \begin{center} \((\bar{x})_{est}= \sum\limits_{n}^{3} W_h\cdot \bar{x}_h = \left[\left(\frac{14}{30}\cdot \frac{\sum\limits_{i}^{6}x_{i,1}}{18/30 \cdot {14}}\right)+\left(\frac{10}{30}\cdot\frac{\sum\limits_{i}^{4}x_{i,2}}{18/30 \cdot {10}}\right)+\left(\frac{6}{30}\cdot \frac{\sum\limits_{i}^{2}x_{i,3}}{18/30 \cdot {6}}\right)\right]=\bar {x}\) \(variância=v(\bar{x}_{est})= \sum\limits_{h=1}^{h}W_h^2\cdot v (\bar{x}_h)\)

[1] "Agora buscando uma amostra proporcional de n=18 pessoas das N=30 temos primeiramente determinar a partilha proporcional, f=n/N, apos isso o numero de pessoas em cada estrato(n{i}) será dado por:\nn1= f*14 (em que 14 é o número total de alunos no primeiro estrato);\nn2= f*10 (em que 10 é o número total de alunos no  segundo estrato);\nn3= f*6  (em que 6 é o número total de alunos no terceiro estrato). Sendo assim o numero de elementos a serem sorteados em cada amostra é de  "
Amostra 1: 10 7 10 7 7 5 2 4 
 Amostra 2: 7 10 10 7 6 9 
 Amostra 3: 8 8 8 8
h Tamanho_da_Amostra Estratos Var Var_Pond
1 8 (10,7,10,7,7,5,2,4) 2.777460 3.6000000
2 6 (7,10,10,7,6,9) 1.722401 0.9888889
3 4 (8,8,8,8) 0.000000 0.0000000

 Media das notas: 7.388889 
 Variância da media das notas do estrato: 0.1019753 
 Desvio padrão das medias no estrato: 0.3193357
 
 O intervalo de confiança (95%) da media das notas será dado por( 6.762991 até 8.014787 )

Partilha ótima

Os tamanhos \(n_h\) serão proporcionais aos \(N_h\) da população e também aos devios-padrão \(S_h\) da característica X em cada estrato h:

\(n_h = n \cdot \frac{N_h\cdot S_{X,h}}{\sum\limits_h^n N_h\cdot S_{X,h}}\)

Assim, reconsiderando o exemplo em que \(n = 18, h = 3\), tem-se:

h Tam_estrat Var_med_estrat NxS nk n
1 14 2.82842712474619 39.597980 12.0815375011969 12
2 10 1.34989711542111 13.498971 4.11860219312857 4
3 6 0.983192080250175 5.899152 1.79986030567454 2
Soma 217
58.996103
18
Amostra 1: 10 7 10 7 7 5 2 4 3 3 10 5 
 Amostra 2: 7 7 9 9 
 Amostra 3: 8 7
h Tam_estrat n Estrato x var_estrato Var_med
1 14 12 (10,7,10,7,7,5,2,4,3,3,10,5) 6.083333 8.265152 0.02933589
2 10 4 (7,7,9,9) 8.000000 1.333333 0.06928203
3 6 2 (8,7) 7.500000 0.500000 0.07856742

Efeito da Estratificação

A estratificação é realizada objetivando aumentar a precisão das estimativas, porém esse efeito dependerá da da variável tomada como fator da estratificação, pois em linguagem estatística espera-se grande diferença entre as médias dos estratos na população \((X_{h})\) e a pequena variabilidade da característica dentro de cada estrato.

Na prática , o efeito delineamento é mensurado pelo que é expresso pela razão entre as variâncias das estimativas calculadas sobre o mesmo tamanho \(n\) de amostras, sorteadas pela amostragem estratificada \(V(\tilde{x}_{est})\) e pela casual simples \(V(\bar{x}_{acs})\), isto é,

\(deff = \frac{V(\bar{x}_{est})}{V(\bar{x}_{acs})}\)

Partilha n VacsW Vmest deff
T.iguais 4 0.08019753
4 0.01111111
4 0.00000000 0.0913086426666667 0.72056709542431
Proporcional 6 0.03240370
4 0.01275853
2 0.00000000 0.0451622259259259 0.356400150171336
Ótima 8 0.03214226
3 0.02222222
1 0.00000000 0.0543644744444445 0.429020192400726

Na tabela acima são calculadas as variâncias para os diversos tipos de partilha e os perspectivos efeitos do processo de amostra estratificada, considerando o mesmo exemplo.

A última coluna revela medidas de \(deff\) menores que 1 , indicando eficácia para a estratificação em todos os critérios. Observa-se que estratificar reduz a variabilidade dos resultados amostrais, ampliando a precisão das estimativas obtidas. Além disso, analisa-se a relação existente entre os tipos de partilha e a amostragem casual simples. \begin{center}  \([ V(\bar{x})_{ótima} < V(\bar{x})_{prop}< V(\bar{x})_{t.iguais}< (\bar{x})_{acs}]\)

Amostragem Sistemática

Aamostragem sistemática consiste em considerar os \(N\) elementos da população reunidos em grupos definidos por um intervalo de amplitude \(N/n\) e sortear um elemento de cada grupo para compor a amostra.

Ordenando as 30 notas dos alunos de exemplo segundo a escola, define-se o intervalo \((INT= 30/10 = 3)\). Nesta listagem, de cada notas uma será tomada para a amostra. Assim, os números sorteados serão obtidos pela expressão:

\([INC + (i - 1)INT]\),

onde, INC (início casual) será um npumeri sorteado entre 1 e o intervalo \(INT\). No exemplo, pode se iniciar pelos números 1,2 ou 3. Considere $INC = 3 $

Aplicando esse sorteio na listagm ordenada, a amostra pode ser melhor visualizada na tabela abaixo:

[1] "Nesse caso escolheríamos os alunos 3,6,9,12,15,18,21,24,27,30"
aluno escola notas
3 escola A 7
6 escola A 10
9 escola A 7
12 escola A 3
15 escola B 9
18 escola B 10
21 escola B 10
24 escola B 6
27 escola C 7
30 escola C 8

Referências

SILVA,Nilza Nunes da. Amostragem Probabilística: Um curso Introdutório/ Nilza Nunes da Silva. - São Paulo: Editora da Universidade de São Paulo, 1998. - (Acadêmica;18)

Matheus Couto de Oliveira Oliva - 8°Período

13/04/2020