Suponha que uma população de tamanho \(N\) seja constituída pelos elementos \(y_1,y_2,\cdots,y_N\), de modo que a média populacional é representada como \[ \mu=\frac{1}{N}\sum_{i=1}^{N}y_i \] e a variância populacional é definida como
\[ V^2=\frac{1}{N-1}\sum_{i=1}^{N}(y_i-\mu)^2 \]
tal que \(V>0\). Denotando-se uma amostra aleatória simples de tamanho \(n\) retirada dessa população como \(Y_1,Y_2,\cdots,Y_n\) e considerando que a média amostral possa ser escrita como
\[ \overline{Y}=\frac{1}{n}\sum_{k=1}^{n}Y_k=\frac{1}{n}\sum_{i=1}^{N}\pi_i y_i, \]
em que \(\pi_i\sim Binomial\big(n,\frac{1}{N}\big)\) e \(\sum_{i=1}^{N}\pi_i=n\), julgue os itens:
Se \(i\neq j\), a covariância entre \(\pi_i\) e \(\pi_j\) é negativa.
Defina-se \[ \pi_{i}:=\sum\limits_{k=1}^{n}I_{k}^{(i)}, \quad i=1,2,\cdots,N, \] em que \(I_{k}^{(i)}\sim Ber(1,\frac{1}{N}), \forall (i,k)\in\{1,2,\cdots,N\}\times\{1,2,\cdots,n\}\). Assim, temos \[ \begin{align} I_{k}^{(i)}= \begin{cases} 1, &\text{se ocorreu sucesso no k-ésimo ensaio de Bernoulli,}\\\\ 0, &\text{se não ocorreu sucesso no k-ésimo ensaio de Bernoulli.} \end{cases} \end{align} \]
Como \(p_i=\frac{1}{N}\) (probabilidade de sucesso), para todo \(i\in\{1,2,\cdots,N\}\), então \[ \begin{align} E[\pi_i\pi_j]&=E\bigg[\sum\limits_{k=1}^{n}I_{k}^{(i)}\sum\limits_{l=1}^{n}I_{l}^{(j)}\bigg]\\ &=\sum\limits_{k=l}E\big[I_{k}^{(i)}I_{l}^{(j)}\big] + \sum\limits_{k\neq l} E\big[I_{k}^{(i)}I_{l}^{(j)}\big]\\ &=np_i\delta_{j}^{i} + (n^2-n)p_ip_j\\ &=\frac{n}{N}\delta_{j}^{i}+(n^2-n)\frac{1}{N^2}, \end{align} \]
em que \[ \begin{align} \delta_{j}^{i}= \begin{cases} 1, & i=j,\\\\ 0, & i\neq j. \end{cases} \end{align} \]
Logo, \[ \begin{align} Cov(\pi_i,\pi_j)&=E[\pi_i\pi_j]-E[\pi_i]E[\pi_j]\\ &=n\frac{1}{N}\delta_{j}^{i}+(n^2-n)\frac{1}{N^2}\;-\;n^2\frac{1}{N^2}\\ &=n\frac{1}{N}\bigg(\delta_{i}^{j}-\frac{1}{N}\bigg). \end{align} \]
Portanto, \[ \begin{align} Cov(\pi_i,\pi_j)=\begin{cases} -n\frac{1}{N^2}<0, & \text{se}\;\; i\neq j,\\ n\frac{1}{N}\bigg(1-\frac{1}{N}\bigg)>0, & \text{se}\;\; i=j. \end{cases} \end{align} \]
Como \(\pi_i\sim Binomial\big(n,\frac{1}{N}\big)\) e \(\sum_{i=1}^{N}\pi_i=n\), então \[ (\pi_1,\pi_2,\cdots,\pi_N)\sim Mult_{N}(n,p), \]
onde \(p=(p_1,p_2,\cdots,p_N)=\big(\frac{1}{N},\frac{1}{N},\cdots, \frac{1}{N})\).
Com isso, se \(i=j\), tem-se \(Cov(\pi_i,\pi_j)=np_i(1-p_i)=n\frac{1}{N}\big(1-\frac{1}{N}\big)>0\).
Agora, para todo \(i,j\in\{1,2,\cdots,N\}\), com \(i\neq j\), usaremos o seguinte fato (propriedade do lumping):
\[ \pi_i+\pi_j \sim Binomial\big(n, p_i+p_j\big). \]
Seja \(C_{i,j}=Cov(\pi_i,\pi_j)\). Logo,
\[ \begin{align} Var(\pi_i+\pi_j)&=Var(\pi_i)+Var(\pi_j)+2Cov(\pi_i,\pi_j)\\ \implies n(p_i+p_j)[1-(p_i+p_j)]&=np_i(1-p_i) + np_j(1-p_j) + 2C_{i,j}. \end{align} \]
E, por manipulação algébrica, concluímos que \[ C_{i,j}=-np_ip_j. \]
Finalmente, uma vez que \(p_i=p_j=1/N\) e \(C_{i,j}=Cov(\pi_i,\pi_j)\), obtemos \[ Cov(\pi_i,\pi_j)=-n\frac{1}{N^2}<0, \;\;\forall\;i,j\in\{1,2,\cdots,N\}. \]
O valor esperado de \(\bar{Y}\) é igual a \(\mu\).
A variância de \(\bar{Y}\) é igual a \(\frac{V^2}{n}\big(1-\frac{n}{N}\big)\).
\[ \begin{align} Var(\overline{Y})&=Var\bigg(\frac{1}{n}\sum\limits_{i=1}^{N}\pi_iy_i\bigg)\\ &=\frac{1}{n^2}\bigg[\sum\limits_{i=1}^{N}y_i^2Var(\pi_i)+ \sum\sum\limits_{i\neq j\;\;\;\;}y_iy_jCov(\pi_iy_i,\pi_jy_j)\bigg]\\ &=\frac{1}{n}\bigg(1-\frac{1}{N}\bigg)\frac{\sum_{i=1}^{N}y_i^2}{N} - \frac{1}{nN^2}\sum\sum\limits_{i\neq j \;\;\;}y_iy_j. \end{align} \]
Mas, (mostre as duas identidades abaixo!) \[ \begin{align} \frac{\sum_{i=1}^{N}y_i^2}{N}&=\frac{(N-1)V^2}{N}+\frac{N\mu^2}{N}=\bigg(1-\frac{1}{N}\bigg)V^2+\mu^2, \quad \text{e}\\\\ \frac{1}{nN^2}\sum\sum\limits_{i\neq j \;\;\;}y_iy_j&=\frac{\mu^2}{n}-\frac{1}{nN^2}\sum_{i=1}^{N}y_i^2\\ &=\frac{\mu^2}{n}\bigg(1-\frac{1}{N}\bigg)- \frac{V^2}{nN}\bigg(1-\frac{1}{N}\bigg), \end{align} \]
de modo que \[ \begin{align} Var(\overline{Y})&=\frac{V^2}{n}\bigg(1-\frac{1}{N}\bigg)^2 +\frac{\mu^2}{n}\bigg(1-\frac{1}{N}\bigg) - \bigg\{\frac{\mu^2}{n}\bigg(1-\frac{1}{N}\bigg) - \frac{V^2}{nN}\bigg(1-\frac{1}{N}\bigg)\bigg\}\\ &=\frac{V^2}{n}\bigg(1-\frac{1}{N}\bigg)^2+\frac{V^2}{nN}\bigg(1-\frac{1}{N}\bigg)\\ &=\frac{V^2}{n}\bigg(1-\frac{1}{N}\bigg)\bigg[\bigg(1-\frac{1}{N}\bigg)+\frac{1}{N}\bigg]\\ &=\frac{V^2}{n} \bigg(1-\frac{1}{N}\bigg). \end{align} \]
set.seed(030224)
## Populacao
N <- 10000
y <- runif(N,0,2)
mu <- mean(y)
V2 <- var(y)
## Amostra
m <- 1e4 ; n <- 10
amostras <- replicate(m, rbinom(N,n,1/N) )
soma <- apply(amostras,2,sum)
amostras.ok <- amostras[,soma==n]
f <- function(x){ (1/n)*sum(x*y) }
Ybar <- apply(amostras.ok,2,f)
## Resultado
var_Ybar.sim <- ( (m-1)/m ) * var(Ybar)
var_Ybar.teo <- (V2/n) * (1 - 1/N)
list( c("Var Teorica"=var_Ybar.teo, "Var Simulada"=var_Ybar.sim ) )
## [[1]]
## Var Teorica Var Simulada
## 0.03296274 0.03377602
Se o estimador da variância populacional for \(S^2=\frac{1}{n-1}\sum\limits_{k=1}^{n}(Y_k-\bar{Y})^2\), então o valor esperado de \(S\) é igual a \(V\).
Seja \[ \sigma^2= \frac{1}{N}\sum\limits_{i=1}^{N}(y_i-\mu)^2. \] Visto que \(V^2=\frac{1}{N-1}\sum\limits_{i=1}^{N}(y_i-\mu)^2\), temos \[ \sigma^2=\frac{N-1}{N}V^2. \] Um estimador não viesado para \(\sigma^2\), baseado numa AAS de tamanho \(n\) extraída dessa população, é \[ S^2=\frac{1}{n-1}\sum\limits_{k=1}^{n}(Y_k-\overline{Y})^2, \] ou seja, \(E[S^2]=\sigma^2\). Dado que \(V>0\), pela desigualdade de Jensen, temos
\[ \begin{align} E[S]&=E\big[\sqrt{S^2}\big]\\ &\leq \sqrt{E\big[S^2\big]}\\ &=\sqrt{\sigma^2}\\ &=\sqrt{\frac{N-1}{N}V^2}\\ &=V\sqrt{\frac{N-1}{N}} <V \hspace{1cm} \because \quad \frac{N-1}{N} <1. \end{align} \]
## Populacao
N<-1000
y<- runif(N)
mu <- mean(y)
V2 <- ( 1/(N-1) ) * sum( (y-mu)^2 )
V <- sqrt(V2)
## Amostra
n <- 10
m <- 1e3
amostras <- replicate(m, sample(y,n))
## Resultado
S2 <- apply(amostras,2,var)
ES <- mean(sqrt(S2))
list(c("E[S] = V" = ES==V, " E[S] < V" = ES<V) )
## [[1]]
## E[S] = V E[S] < V
## FALSE TRUE
\(Var(\pi_i)=\frac{n}{N}\times \big(1-\frac{1}{N}\big).\)