Atividade Tópicos de Amostragem probabilística
## This version of Shiny is designed to work with 'htmlwidgets' >= 1.5.
## Please upgrade via install.packages('htmlwidgets').
Amostragem aleatória Estratificada(AE):
A Amostragem Aleatória Estratificada é a técnica de obtenção de amostras em que a população de N elementos ou unidades amostrais é previamente dividida em grupos mutuamente exclusivos (chamados estratos) e sobre estes estratos são sorteadas amostras casuais de tamanho \(n_k\).
Razões para Estratificar
Deseja-se aumentar a precisão da estimativa global, partindo-se do conhecimento de que a variabilidade da característica estuda- da é grande.
Necessidade de obter estimativas para diversos segmentos da população: Nesse caso, a precisão é fixada para cada estrato que passa a se chamar domínio.
Deseja-se que a amostra mantenha a composição da população segundo algumas características básicas. Por exemplo, em estudos sociais ou epidemiológicos, é usual a obtenção de amostras que apresentam composição segundo o sexo e a idade semelhante à da população estudada.
Conveniência administrativa ou operacional. Por exemplo, um levantamento para o município de São Paulo seria mais fácil de Executar se o trabalho de campo fosse implementado pelas diver. sas regiões administrativas separadamente.
Deseja-se controlar o efeito de alguma característica na distribuição da característica que está sendo avaliada. O efeito da escolaridade sobre o estado nutricional de crianças menores de cinco anos pode ser controlado pela composição de uma amostra que contenha os diversos níveis de escolaridade dos chefes de família da População estudada.
Visando a melhor compreensão do conteúdo e de alguns conceitos vamos considerar a seguinte situação hipotética:
Buscando analisar a média das notas dos alunos do 9º ano do ensino municipal da cidade de Montes Claros, foram coletadas as notas de 30 alunos dentre 3 escolas da rede municipal de ensino.
#tabela de notas do exemplo
set.seed(1)#salva o sorteio, função utilizada para testar e comparar exercícios
library(formattable)
EscolaA<-sample(2:10,14,replace = TRUE)
EscolaB<-sample(6:10,10,replace = TRUE)
EscolaC<-sample(7:10,6,replace = TRUE)
notas<-c(EscolaA,EscolaB,EscolaC)
aluno = 1:30
escola<-c(rep(c("Escola A"),length(EscolaA)),rep(c("Escola B"),length(EscolaB)),rep(c("Escola C"),length(EscolaC)))
data <- data.frame(aluno , escola, notas )
formattable(data)| aluno | escola | notas |
|---|---|---|
| 1 | Escola A | 4 |
| 2 | Escola A | 5 |
| 3 | Escola A | 7 |
| 4 | Escola A | 10 |
| 5 | Escola A | 3 |
| 6 | Escola A | 10 |
| 7 | Escola A | 10 |
| 8 | Escola A | 7 |
| 9 | Escola A | 7 |
| 10 | Escola A | 2 |
| 11 | Escola A | 3 |
| 12 | Escola A | 3 |
| 13 | Escola A | 8 |
| 14 | Escola A | 5 |
| 15 | Escola B | 9 |
| 16 | Escola B | 8 |
| 17 | Escola B | 9 |
| 18 | Escola B | 10 |
| 19 | Escola B | 7 |
| 20 | Escola B | 9 |
| 21 | Escola B | 10 |
| 22 | Escola B | 7 |
| 23 | Escola B | 9 |
| 24 | Escola B | 6 |
| 25 | Escola C | 8 |
| 26 | Escola C | 8 |
| 27 | Escola C | 7 |
| 28 | Escola C | 8 |
| 29 | Escola C | 10 |
| 30 | Escola C | 8 |
desvpad<- sd(notas)
var<-(sd(notas))^2
cat(" Numero de pessoas:",length(notas),"\n Média:",mean(notas),"\n Variancia:",var,"\n Desvio Padrão:",desvpad) Numero de pessoas: 30
Média: 7.233333
Variancia: 5.702299
Desvio Padrão: 2.387949
A média populacional \(\bar{x}\) e a variância \(S^2_{x}\) são,agora, calculadas por expressões em que os componentes parciais,calculados em cada estrato, sendo ponderados pela corresspondente fração de elementos \(W_{h}\) existentes na população em relação ao total N.
\(\bar{x}_{est}=\sum\limits_{h=1}^{k} (W_{h}\cdot\bar{x}_{h})\)
\(S_{x}^2=\sum\limits_{h=1}^{k} (W_{h}^2\cdot S_{x,h}^2)\)
#tabela as proporcoes
set.seed(1)#salva o sorteio, função utilizada para testar e comparar exercícios
library(formattable)
EscolaA<-sample(2:10,14,replace = TRUE)
EscolaB<-sample(6:10,10,replace = TRUE)
EscolaC<-sample(7:10,6,replace = TRUE)
h<-1:3
notas<-c(EscolaA,EscolaB,EscolaC)
w1<-14/30
w2<-10/30
w3<-6/30
xp1<-mean(notas)*w1
xp2<-mean(notas)*w2
xp3<-mean(notas)*w3
MPond=c(xp1,xp2,xp3)
sp1<-(sd(notas)^2)*(w1)^2
sp2<-(sd(notas)^2)*(w2)^2
sp3<-(sd(notas)^2)*(w3)^2
VPond=c(sp1,sp2,sp3)
data <- data.frame(h=c(1,2,3,"Soma"), Med_Pond=c(xp1,xp2,xp3,sum(MPond)),Var_Pond=c(sp1,sp2,sp3,sum(VPond)))
formattable(data)| h | Med_Pond | Var_Pond |
|---|---|---|
| 1 | 3.375556 | 1.2418340 |
| 2 | 2.411111 | 0.6335888 |
| 3 | 1.446667 | 0.2280920 |
| Soma | 7.233333 | 2.1035147 |
#tabela de notas do exemplo
set.seed(1)#salva o sorteio, função utilizada para testar e comparar exercícios
library(formattable)
EscolaA<-sample(2:10,14,replace = TRUE)
EscolaB<-sample(6:10,10,replace = TRUE)
EscolaC<-sample(7:10,6,replace = TRUE)
aluno1<- 1:14
aluno2<- 15:24
aluno3<- 25:30
data1 <- data.frame(aluno=aluno1 , escola =rep(c("Escola A"),length(EscolaA)), EscolaA )
data2 <- data.frame(aluno=aluno2 , escola =rep(c("Escola B"),length(EscolaB)), EscolaB )
data3 <- data.frame(aluno=aluno3 , escola =rep(c("Escola C"),length(EscolaC)), EscolaC )
formattable(data1)| aluno | escola | EscolaA |
|---|---|---|
| 1 | Escola A | 4 |
| 2 | Escola A | 5 |
| 3 | Escola A | 7 |
| 4 | Escola A | 10 |
| 5 | Escola A | 3 |
| 6 | Escola A | 10 |
| 7 | Escola A | 10 |
| 8 | Escola A | 7 |
| 9 | Escola A | 7 |
| 10 | Escola A | 2 |
| 11 | Escola A | 3 |
| 12 | Escola A | 3 |
| 13 | Escola A | 8 |
| 14 | Escola A | 5 |
| aluno | escola | EscolaB |
|---|---|---|
| 15 | Escola B | 9 |
| 16 | Escola B | 8 |
| 17 | Escola B | 9 |
| 18 | Escola B | 10 |
| 19 | Escola B | 7 |
| 20 | Escola B | 9 |
| 21 | Escola B | 10 |
| 22 | Escola B | 7 |
| 23 | Escola B | 9 |
| 24 | Escola B | 6 |
| aluno | escola | EscolaC |
|---|---|---|
| 25 | Escola C | 8 |
| 26 | Escola C | 8 |
| 27 | Escola C | 7 |
| 28 | Escola C | 8 |
| 29 | Escola C | 10 |
| 30 | Escola C | 8 |
#Valores populacionais segundo os extratos
set.seed(1)#salva o sorteio, função utilizada para testar e comparar exercícios
library(formattable)
EscolaA<-sample(2:10,14,replace = TRUE)
EscolaB<-sample(6:10,10,replace = TRUE)
EscolaC<-sample(7:10,6,replace = TRUE)
h<-c(1:3)
notas<-c(EscolaA,EscolaB,EscolaC)
w1<-14/30
w2<-10/30
w3<-6/30
xp1<-mean(notas)*w1
xp2<-mean(notas)*w2
xp3<-mean(notas)*w3
MPond=c(xp1,xp2,xp3)
sp1<-(sd(notas)^2)*(w1)^2
sp2<-(sd(notas)^2)*(w2)^2
sp3<-(sd(notas)^2)*(w3)^2
VPond=c(sp1,sp2,sp3)
data <- data.frame(h=c(1,2,3),Estratos= c("Escola 1","Escola2","Escola 3"),Tam_Estr=c(14,10,6), Med_Estr=c(mean(EscolaA),mean(EscolaB),mean(EscolaC)),Var_Estr=c(sd(EscolaA)^2,sd(EscolaC)^2,sd(EscolaC)^2),Propor=c(w1,w2,w3))
formattable(data)| h | Estratos | Tam_Estr | Med_Estr | Var_Estr | Propor |
|---|---|---|---|---|---|
| 1 | Escola 1 | 14 | 6.000000 | 8.0000000 | 0.4666667 |
| 2 | Escola2 | 10 | 8.400000 | 0.9666667 | 0.3333333 |
| 3 | Escola 3 | 6 | 8.166667 | 0.9666667 | 0.2000000 |
Sorteio das amostras e obtenção das estimativas
Teoricamente, a estimativa global \(\tilde{x}\) e o seu erro-padrão são obtidos por estimadores que combinam as estimativas parciais calculadas em cada estrato pelo processo de estimação em amostragem casual simples. Os estimadores não-viciados para a média populacional e a variância da média amostral pelas seguintes expressões:
Média Populacional (do estrato): \(\bar{x}_{est}= \sum\limits_{h=1}^{n}W_h\cdot\bar{x}_h\), com \(\bar{x}_h = \frac{\sum\limits_{i}^{n_h}x_{i,h}}{n_h}\);
Variãncia da média amostral(no estrato): \(v(\bar{x}_{est})= \sum\limits_{h=1}^{h}W_h^2\cdot v (\bar{x}_h)\),
com \(v(\bar{x}_h)=(1 - f_h)\frac{s_{x,h}^2}{n_h}\); \(S^2_{x,h}=\frac {\sum\limits_{i=1}^{n} (x_{i,h}-\bar{x}_{h})^2}{n_{h}-1}\) ; \(f_{n}=\frac{n_{h}}{N_{h}}\)
O procedimento de estimação dependerá do critério adotado para definir o tamanho \(n_h\) de cada estrato, a partir do tamanho global da amostra da amostra \(n\) fixado sob os princípios da amostragem casual simples. Os critérios mais utilizados são:
- Estratos com tamanhos iguais
- Partilha propocional
- Partilha Ótima
Estratos de tamanhos iguais
O tamanho global da amostra é dividido pelo número k de estratos. Retomando o exemplo, suponha que um intervalo de confiança para a média das notas dos alunos será estimado por meio de uma amostra de 18 notas. A amostra estratificada das notas por escola será dividida em tamanhos iguais, conforme segue:
Procedimento para calcular a media amostral
# Estimativa para Amostras de mesmo tamanho
set.seed(1)#salva o sorteio, função utilizada para testar e comparar exercícios
library(formattable)
EscolaA<-sample(2:10,14,replace = TRUE)
EscolaB<-sample(6:10,10,replace = TRUE)
EscolaC<-sample(7:10,6,replace = TRUE)
"Buscando uma amostra de 18 pessoas teríamos n=18 dividido por k=3 estratos ficando; N{k}= 18/3 = 6"[1] "Buscando uma amostra de 18 pessoas teríamos n=18 dividido por k=3 estratos ficando; N{k}= 18/3 = 6"
A1<-sample(EscolaA,6)
A2<-sample(EscolaB,6)
A3<-sample(EscolaC,6)
w1<-14/30
w2<-10/30
w3<-6/30
data <- data.frame(h=c(1,2,3),"n_{3}"= c(6,6,6),Amostra = c("(10,7,10,7,7,5)","(7,9,9,9,7,10)","(10,7,8,8,8,8)"), Med=c(mean(A1),mean(A2),mean(A3)),Propor=c(w1,w2,w3),Media_Prop=c(mean(A1)*w1,mean(A2)*w2,mean(A3)*w3))
formattable(data)| h | n_.3. | Amostra | Med | Propor | Media_Prop |
|---|---|---|---|---|---|
| 1 | 6 | (10,7,10,7,7,5) | 7.666667 | 0.4666667 | 3.577778 |
| 2 | 6 | (7,9,9,9,7,10) | 8.500000 | 0.3333333 | 2.833333 |
| 3 | 6 | (10,7,8,8,8,8) | 8.166667 | 0.2000000 | 1.633333 |
Calculando a variancia da media amostral
# Estimativa para Amostras de mesmo tamanho
set.seed(1)#salva o sorteio, função utilizada para testar e comparar exercícios
library(formattable)
EscolaA<-sample(2:10,14,replace = TRUE)
EscolaB<-sample(6:10,10,replace = TRUE)
EscolaC<-sample(7:10,6,replace = TRUE)
A1<-sample(EscolaA,6)
A2<-sample(EscolaB,6)
A3<-sample(EscolaC,6)
f1<-6/14
f2<-6/10
f3<-6/6
w1<-14/30
w2<-10/30
w3<-6/30
v1<-(1-f1)*(sd(A1)^2)/6
v2<-(1-f2)*(sd(A2)^2)/6
v3<-(1-f3)*(sd(A3)^2)/6
data <- data.frame(h=c(1,2,3),"nh3"= c(6,6,6),FreqAmo=c(f1,f2,f3), Var_Estrato=c(sd(A1)^2,sd(A2)^2,sd(A3)^2),var_med_estr= c(v1,v2,v3),var_Prop=c(v1*w1^2,v2*w2^2,v3*w3^2))
formattable(data)| h | nh3 | FreqAmo | Var_Estrato | var_med_estr | var_Prop |
|---|---|---|---|---|---|
| 1 | 6 | 0.4285714 | 3.8666667 | 0.368254 | 0.08019753 |
| 2 | 6 | 0.6000000 | 1.5000000 | 0.100000 | 0.01111111 |
| 3 | 6 | 1.0000000 | 0.9666667 | 0.000000 | 0.00000000 |
Comparação entre a Amostra estratificada e ACs
Note que a média amostral calculada pelo estimador ponderado é diferente daquela calculada pelo estimador usado na amostragem casual simples:
\(\bar{x}=\frac {\sum\limits_{i=1}^{n} x_{i}}{n}=\frac{146}{18}=8.111111\)
set.seed(1)#salva o sorteio, função utilizada para testar e comparar exercícios
library(formattable)
EscolaA<-sample(2:10,14,replace = TRUE)
EscolaB<-sample(6:10,10,replace = TRUE)
EscolaC<-sample(7:10,6,replace = TRUE)
A1<-sample(EscolaA,6)
A2<-sample(EscolaB,6)
A3<-sample(EscolaC,6)
notas<-c(A1,A2,A3)
h<-1:3
n<-18
f1<-6/14
f2<-6/10
f3<-6/6
f<-18/30
w1<-14/30
w2<-10/30
w3<-6/30
V1<- sum(w1^2*v1)
V2<- sum(w2^2*v2)
V3<- sum(w3^2*v3)
v1<-(1-f)*sd(EscolaA)^2/n
v2<-(1-f)*sd(EscolaB)^2/n
v3<-(1-f)*sd(EscolaC)^2/n
s1<-(sum(EscolaA-mean(EscolaA))^2)/n-1
s2<-(sum(EscolaB-mean(EscolaB))^2)/n-1
s3<-(sum(EscolaC-mean(EscolaC))^2)/n-1
x<- sum(notas)/n #media da casual simples
SV<-V1+V2+V3 #variancia da casual simples
dp<-sqrt(SV) #desvio padrao da casual simples
cat("O intervalo de confiança (95%) da media das notas será dado por:(", (x-1.96*dp) , "até", x+1.96*dp,")")O intervalo de confiança (95%) da media das notas será dado por:( 7.518852 até 8.703371 )
Partilha proporcional
A partilha proporcional é o critério pelo qual se mantém a fração de amostragem em cada estrato \(h(f_h)\) igual à fração global de amostragem \((f)\). A amostra sorteada será, portanto, considerada autoponderada, e o procedimento de estimação poderá sofrer simplificações. No exemplo anterior, uma amostra estratificada simples auto-ponderada poderá ser obtida fazendo:
\(f = \frac{n}{N} = \frac{18}{30} = f_1 = f_2 = 0,6\).
Então,
\(\frac{n}{N} = \frac{n_h}{N_h} \rightarrow n_h = \frac{n}{N}\cdot N_h=f\cdot N_{h}\), ou seja: \(n_1 = 0,6 \cdot 14 = 8,4\approx 8\) $n_2 = 0,6 10 = 6 $ \(n_3= 0,6 \cdot 6 = 3,6\approx4\) O estimador ponderado para a média pode, então, ser simplicado para a média simples: \begin{center} \((\bar{x})_{est}= \sum\limits_{n}^{3} W_h\cdot \bar{x}_h = \left[\left(\frac{14}{30}\cdot \frac{\sum\limits_{i}^{6}x_{i,1}}{18/30 \cdot {14}}\right)+\left(\frac{10}{30}\cdot\frac{\sum\limits_{i}^{4}x_{i,2}}{18/30 \cdot {10}}\right)+\left(\frac{6}{30}\cdot \frac{\sum\limits_{i}^{2}x_{i,3}}{18/30 \cdot {6}}\right)\right]=\bar {x}\) \(variância=v(\bar{x}_{est})= \sum\limits_{h=1}^{h}W_h^2\cdot v (\bar{x}_h)\)
"Agora buscando uma amostra proporcional de n=18 pessoas das N=30 temos primeiramente determinar a partilha proporcional, f=n/N, apos isso o numero de pessoas em cada estrato(n{i}) será dado por:
n1= f*14 (em que 14 é o número total de alunos no primeiro estrato);
n2= f*10 (em que 10 é o número total de alunos no segundo estrato);
n3= f*6 (em que 6 é o número total de alunos no terceiro estrato). Sendo assim o numero de elementos a serem sorteados em cada amostra é de "[1] "Agora buscando uma amostra proporcional de n=18 pessoas das N=30 temos primeiramente determinar a partilha proporcional, f=n/N, apos isso o numero de pessoas em cada estrato(n{i}) será dado por:\nn1= f*14 (em que 14 é o número total de alunos no primeiro estrato);\nn2= f*10 (em que 10 é o número total de alunos no segundo estrato);\nn3= f*6 (em que 6 é o número total de alunos no terceiro estrato). Sendo assim o numero de elementos a serem sorteados em cada amostra é de "
n<-18
N<-30
f<-n/N
n1<-round(f*14) # round arredonda o numero f*n
n2<-round(f*10) # round arredonda o numero f*n
n3<-round(f*6) # round arredonda o numero f*n
#tabela partilha proporcional
library(formattable)
set.seed(1)
EscolaA<-sample(2:10,14,replace = TRUE)
EscolaB<-sample(6:10,10,replace = TRUE)
EscolaC<-sample(7:10,6,replace = TRUE)
A1<-sample(EscolaA,n1)
A2<-sample(EscolaB,n2)
A3<-sample(EscolaC,n3)
cat("Amostra 1:",A1,"\n Amostra 2:",A2,"\n Amostra 3:",A3)Amostra 1: 10 7 10 7 7 5 2 4
Amostra 2: 7 10 10 7 6 9
Amostra 3: 8 8 8 8
w1<-14/30
w2<-10/30
w3<-6/30
data <- data.frame(h=c(1,2,3),Tamanho_da_Amostra=c(n1,n2,n3),Estratos= c("(10,7,10,7,7,5,2,4)","(7,10,10,7,6,9)","(8,8,8,8)"),Var=c(sd(A1),sd(A2),sd(A3)),Var_Pond=c(w1*sd(A1)^2,w2*sd(A2)^2,w3*sd(A3)^2))
formattable(data)| h | Tamanho_da_Amostra | Estratos | Var | Var_Pond |
|---|---|---|---|---|
| 1 | 8 | (10,7,10,7,7,5,2,4) | 2.777460 | 3.6000000 |
| 2 | 6 | (7,10,10,7,6,9) | 1.722401 | 0.9888889 |
| 3 | 4 | (8,8,8,8) | 0.000000 | 0.0000000 |
x<-sum(c(A1,A2,A3))/n
var<-((1-f)/n)*(3.6000000+0.9888889+0)
dp<-sqrt(var)
cat("\n Media das notas:",x, "\n Variância da media das notas do estrato:",var,"\n Desvio padrão das medias no estrato:",dp)
Media das notas: 7.388889
Variância da media das notas do estrato: 0.1019753
Desvio padrão das medias no estrato: 0.3193357
O intervalo de confiança (95%) da media das notas será dado por( 6.762991 até 8.014787 )
Partilha ótima
Os tamanhos \(n_h\) serão proporcionais aos \(N_h\) da população e também aos devios-padrão \(S_h\) da característica X em cada estrato h:
\(n_h = n \cdot \frac{N_h\cdot S_{X,h}}{\sum\limits_h^n N_h\cdot S_{X,h}}\)
Assim, reconsiderando o exemplo em que \(n = 18, h = 3\), tem-se:
set.seed(1)
EscolaA<-sample(2:10,14,replace = TRUE)
EscolaB<-sample(6:10,10,replace = TRUE)
EscolaC<-sample(7:10,6,replace = TRUE)
notas<-c(EscolaA,EscolaB,EscolaC)
library(formattable)
n<-18
N<-30
p1<-length(EscolaA)*sd(EscolaA)
p2<-length(EscolaB)*sd(EscolaB)
p3<-length(EscolaC)*sd(EscolaC)
nk1<-n*(p1)/(p1+p2+p3)
nk2<-n*(p2)/(p1+p2+p3)
nk3<-n*(p3)/(p1+p2+p3)
n1<-round(nk1)
n2<-round(nk2)
n3<-round(nk3)
data<-data.frame(h=c(1,2,3,"Soma"),Tam_estrat=c(length(EscolaA),length(EscolaB),length(EscolaC),sum(notas)),Var_med_estrat=c(sd(EscolaA),sd(EscolaB),sd(EscolaC),"-"), "NxS"=c(p1,p2,p3,(p1+p2+p3)),nk=c(nk1,nk2,nk3,"-"),n=c(n1,n2,n3,(n1+n2+n3)))
formattable(data)| h | Tam_estrat | Var_med_estrat | NxS | nk | n |
|---|---|---|---|---|---|
| 1 | 14 | 2.82842712474619 | 39.597980 | 12.0815375011969 | 12 |
| 2 | 10 | 1.34989711542111 | 13.498971 | 4.11860219312857 | 4 |
| 3 | 6 | 0.983192080250175 | 5.899152 | 1.79986030567454 | 2 |
| Soma | 217 |
|
58.996103 |
|
18 |
A1<-sample(EscolaA,n1)
A2<-sample(EscolaB,n2)
A3<-sample(EscolaC,n3)
cat("Amostra 1:",A1,"\n Amostra 2:",A2,"\n Amostra 3:",A3)Amostra 1: 10 7 10 7 7 5 2 4 3 3 10 5
Amostra 2: 7 7 9 9
Amostra 3: 8 7
x1<-mean(A1)
x2<-mean(A2)
x3<-mean(A3)
v1<-(1-(n1/length(EscolaA))) * sd(A1)/length(EscolaA)
v2<-(1-(n2/length(EscolaB))) * sd(A2)/length(EscolaB)
v3<-(1-(n3/length(EscolaC))) * sd(A3)/length(EscolaC)
data2<-data.frame(h=c(1,2,3),Tam_estrat=c(length(EscolaA),length(EscolaB),length(EscolaC)), n=c(n1,n2,n3),Estrato=c("(10,7,10,7,7,5,2,4,3,3,10,5)","(7,7,9,9)","(8,7)"),x=c(x1,x2,x3),var_estrato=c(sd(A1)^2,sd(A2)^2,sd(A3)^2),Var_med=c(v1,v2,v3))
formattable(data2)| h | Tam_estrat | n | Estrato | x | var_estrato | Var_med |
|---|---|---|---|---|---|---|
| 1 | 14 | 12 | (10,7,10,7,7,5,2,4,3,3,10,5) | 6.083333 | 8.265152 | 0.02933589 |
| 2 | 10 | 4 | (7,7,9,9) | 8.000000 | 1.333333 | 0.06928203 |
| 3 | 6 | 2 | (8,7) | 7.500000 | 0.500000 | 0.07856742 |
Efeito da Estratificação
A estratificação é realizada objetivando aumentar a precisão das estimativas, porém esse efeito dependerá da da variável tomada como fator da estratificação, pois em linguagem estatística espera-se grande diferença entre as médias dos estratos na população \((X_{h})\) e a pequena variabilidade da característica dentro de cada estrato.
Na prática , o efeito delineamento é mensurado pelo que é expresso pela razão entre as variâncias das estimativas calculadas sobre o mesmo tamanho \(n\) de amostras, sorteadas pela amostragem estratificada \(V(\tilde{x}_{est})\) e pela casual simples \(V(\bar{x}_{acs})\), isto é,
\(deff = \frac{V(\bar{x}_{est})}{V(\bar{x}_{acs})}\)
set.seed(1)#salva o sorteio, função utilizada para testar e comparar exercícios
library(formattable)
EscolaA<-sample(2:10,14,replace = TRUE)
EscolaB<-sample(6:10,10,replace = TRUE)
EscolaC<-sample(7:10,6,replace = TRUE)
notas<-c(EscolaA,EscolaB,EscolaC)
n<-18
N<-30
vmacs<- (1-n/N)*(sd(notas)^2)/n
va11<-(1-6/14)*(3.8666667/6)*(14/30)^2
va12<-(1-6/10)*(1.5000000/6)*(10/30)^2
va13<-(1-6/6)* (0.9666667/6)*(6/30)^2
va1<- va11+va12+va13
va21<-(1-8/14)*(2.777460 /8)*(14/30)^2
va22<-(1-6/10)*(1.722401/6)*(10/30)^2
va23<-(1-4/6)*(0/4)*(6/30)^2
va2<- va21+va22+va23
va31<-(1-12/14)*(8.265152/8)*(14/30)^2
va32<-(1-4/10)*(1.333333/4)*(10/30)^2
va33<-(1-2/6)*(0/2)*(6/30)^2
va3<- va31+va32+va33
data<- data.frame( Partilha= c("T.iguais", "-","-", "Proporcional", "-","-", "Ótima","-","-"), n=c(4,4,4,6,4,2,8,3,1), VacsW=c(va11,va12,va13,va21,va22,va23,va31,va32,va33), Vmest=c("-","-",va1,"-","-",va2,"-","-",va3), deff=c("-","-",va1/vmacs,"-","-",va2/vmacs,"-","-",va3/vmacs) )
formattable(data)| Partilha | n | VacsW | Vmest | deff |
|---|---|---|---|---|
| T.iguais | 4 | 0.08019753 |
|
|
|
|
4 | 0.01111111 |
|
|
|
|
4 | 0.00000000 | 0.0913086426666667 | 0.72056709542431 |
| Proporcional | 6 | 0.03240370 |
|
|
|
|
4 | 0.01275853 |
|
|
|
|
2 | 0.00000000 | 0.0451622259259259 | 0.356400150171336 |
| Ótima | 8 | 0.03214226 |
|
|
|
|
3 | 0.02222222 |
|
|
|
|
1 | 0.00000000 | 0.0543644744444445 | 0.429020192400726 |
Na tabela acima são calculadas as variâncias para os diversos tipos de partilha e os perspectivos efeitos do processo de amostra estratificada, considerando o mesmo exemplo.
A última coluna revela medidas de \(deff\) menores que 1 , indicando eficácia para a estratificação em todos os critérios. Observa-se que estratificar reduz a variabilidade dos resultados amostrais, ampliando a precisão das estimativas obtidas. Além disso, analisa-se a relação existente entre os tipos de partilha e a amostragem casual simples. \begin{center} \([ V(\bar{x})_{ótima} < V(\bar{x})_{prop}< V(\bar{x})_{t.iguais}< (\bar{x})_{acs}]\)
Amostragem Sistemática
Aamostragem sistemática consiste em considerar os \(N\) elementos da população reunidos em grupos definidos por um intervalo de amplitude \(N/n\) e sortear um elemento de cada grupo para compor a amostra.
Ordenando as 30 notas dos alunos de exemplo segundo a escola, define-se o intervalo \((INT= 30/10 = 3)\). Nesta listagem, de cada notas uma será tomada para a amostra. Assim, os números sorteados serão obtidos pela expressão:
\([INC + (i - 1)INT]\),
onde, INC (início casual) será um npumeri sorteado entre 1 e o intervalo \(INT\). No exemplo, pode se iniciar pelos números 1,2 ou 3. Considere $INC = 3 $
Aplicando esse sorteio na listagm ordenada, a amostra pode ser melhor visualizada na tabela abaixo:
#tabela de notas do exemplo
set.seed(1)#salva o sorteio, função utilizada para testar e comparar exercícios
library(formattable)
EscolaA<-sample(2:10,14,replace = TRUE)
EscolaB<-sample(6:10,10,replace = TRUE)
EscolaC<-sample(7:10,6,replace = TRUE)
notas<-c(EscolaA,EscolaB,EscolaC)
aluno = 1:30
escola<-c(rep(c("Escola A"),length(EscolaA)),rep(c("Escola B"),length(EscolaB)),rep(c("Escola C"),length(EscolaC)))
data <- data.frame(aluno , escola, notas )
#formattable(data)
"Nesse caso escolheríamos os alunos 3,6,9,12,15,18,21,24,27,30"[1] "Nesse caso escolheríamos os alunos 3,6,9,12,15,18,21,24,27,30"
s_sis <- function(x, p=33, r=NULL) #função q seleciona os termos
# x= população de estudo, p= INT/(tamanho da amostra),r= INC, nesse caso usamos s_(notas,p=33, r=3 )
{
k <- round(1/p * 100)
if (is.null(r))
r <- sample(1:k, 1) # Elemento de aleatoriedade!
n <- 0:round((p / 100 * length(x)) - 1)
idx <- (n * k) + r
res <- x[idx]
return(res)
}
notas2<-s_sis(notas,r=3)
data2<-data.frame(aluno=c(seq(3,30,3)),escola= c(rep("escola A",4),rep("escola B",4),rep("escola C",2)), notas=c(notas2))
formattable(data2)| aluno | escola | notas |
|---|---|---|
| 3 | escola A | 7 |
| 6 | escola A | 10 |
| 9 | escola A | 7 |
| 12 | escola A | 3 |
| 15 | escola B | 9 |
| 18 | escola B | 10 |
| 21 | escola B | 10 |
| 24 | escola B | 6 |
| 27 | escola C | 7 |
| 30 | escola C | 8 |
Referências
SILVA,Nilza Nunes da. Amostragem Probabilística: Um curso Introdutório/ Nilza Nunes da Silva. - São Paulo: Editora da Universidade de São Paulo, 1998. - (Acadêmica;18)