\(~\)

Considere la base de datos “Datos.Muestra.Est”, la cual es un archivo en Excel con extensión .xlsx. Asuma que esta base de datos corresponde a una muestra seleccionada bajo un MAS de una población de 400 estudiantes del curso de Probabilidad y estadística fundamental en el semestre 2022-1 de la Universidad Nacional de Colombia, Sede Bogotá.

La base de datos consiste de 4 variables: género, peso, estatura, si va a votar en las elecciones presidenciales de Colombia en el año 2022.

Punto 1

Estime el peso promedio de los estudiantes del curso planteado, varianza estimada y coeficiente de variación muestral del correspondiente estimador.

Solución

Cargamos la base de datos:

data <- read.xlsx("C:/Users/USER/Downloads/Datos.Muestra.Est.xlsx", sheetIndex = 1, header = TRUE)
attach(data)
head(data)
##   Genero Peso Estatura Vota
## 1      F   65      168   Si
## 2      F   64      165   Si
## 3      M   52      168   Si
## 4      F   51      160   Si
## 5      M   70      177   Si
## 6      M   70      175   Si
dim(data)
## [1] 27  4

Según el enunciado, \(N=400\). Y usando la información de dim(data) , vemos que \(n=27\).

Sea \(W\colon\mbox{‘Peso de los estudiantes’}\). Estimamos la media de \(W\) como

\[ \widehat{\mu}_W=\frac{\widehat{t}_{\pi_{\mathrm{MAS}}}}{N}, \]

donde

\[ \widehat{t}_{\pi_{\mathrm{MAS}}}=\frac{N}{n}\sum_{k\in M}w_k. \]

# Cálculo del pi-estimador para W:
N = 400
n = 27
pi_est_W = (N/n)*sum(Peso)

# Cálculo de la media estimada de W:
mu_est_W = pi_est_W/N; mu_est_W
## [1] 67.74074

La varianza estimada de \(\widehat{\mu}_W\) se calcula como

\[ \widehat{\mathrm{Var}}(\widehat{\mu}_W)=\frac{1}{n}\left(1-\frac{n}{N}\right)S^2_{W_M}, \]

con \(S^2_{W_M}=1/(n-1)\sum_{k\in M}(w_k-\bar{w}_M)^2\) y \(\bar{w}_M=1/n\sum_{k\in M}w_k\).

# Cálculo de la media muestral de W:
mean_W = (1/n)*sum(Peso)

# Cálculo de la varianza muestral de W:
S2_W = (1/(n-1))*sum((Peso-mean_W)^2)

# Cálculo de la varianza estimada de la media estimada de W:
Var_est_mu_est_W = (1/n)*(1-(n/N))*S2_W; Var_est_mu_est_W
## [1] 7.541275

El coeficiente de variación muestral de este estimador está dado por

\[ \mathrm{CVM}(\widehat{\mu}_W)=\frac{\widehat{\mathrm{SE}}(\widehat{\mu}_W)}{\widehat{\mu}_W}\cdot100\%, \]

donde

\[ \widehat{\mathrm{SE}}(\widehat{\mu}_W)=\sqrt{\widehat{\mathrm{Var}}(\widehat{\mu}_W)}. \]

# Cálculo del error estándar estimado de la media estimada de W:
SE_est_mu_est_W = sqrt(Var_est_mu_est_W)

# Cálculo del CVM de la media estimada de W:
CVM_mu_est_W = (SE_est_mu_est_W/mu_est_W)*100
cat(CVM_mu_est_W, "%")
## 4.053895 %

Punto 2

Estime la proporción de estudiantes que son de género femenino y masculino en el curso planteado, varianza estimada y coeficiente de variación muestral del correspondiente estimador.

Solución

Definimos \(Y\colon\mbox{‘Género de los estudiantes’}\) y \(U_M\) y \(U_F\) como los dominios de estudiantes hombres y estudiantes mujeres respectivamente. Estimamos la proporción de estudiantes hombres y de estudiantes mujeres como

\[ p_{Y_{M_M}}:=\widehat{p}_{Y_{M_U}}=\bar{y}_{M_M}=\frac{1}{n}\sum_{k\in M}y_{M_k}\quad\mbox{y}\quad p_{Y_{F_M}}:=\widehat{p}_{Y_{F_U}}=\bar{y}_{F_M}=\frac{1}{n}\sum_{k\in M}y_{F_k} \]

respectivamente, donde definimos

\[ y_{M_k}:=\begin{cases}1 & \mbox{si $k\in U_M$}\\ 0 & \mbox{si $k\notin U_M$}\end{cases}\quad\mbox{y}\quad y_{F_k}:=\begin{cases}1 & \mbox{si $k\in U_F$}\\ 0 & \mbox{si $k\notin U_F$}\end{cases}. \]

# Definición de las variables indicadoras:
y_M <- ifelse(Genero == "M", 1, 0)
y_F <- ifelse(Genero == "F", 1, 0)

# Cálculo de las proporciones estimadas:
p_Y_M = (1/n)*sum(y_M)
p_Y_F = (1/n)*sum(y_F)
cbind(p_Y_M, p_Y_F)
##          p_Y_M     p_Y_F
## [1,] 0.8148148 0.1851852

Las varianzas estimadas de estos estimadores las calculamos como

\[ \widehat{\mathrm{Var}}(p_{Y_{M_M}})=\frac{1}{n-1}\left(1-\frac{n}{N}\right)p_{Y_{M_M}}(1-p_{Y_{M_M}}) \]

y

\[ \widehat{\mathrm{Var}}(p_{Y_{F_M}})=\frac{1}{n-1}\left(1-\frac{n}{N}\right)p_{Y_{F_M}}(1-p_{Y_{F_M}}). \]

# Cálculo de las varianzas estimadas de las proporciones estimadas:
Var_est_p_Y_M = (1/(n-1))*(1-n/N)*p_Y_M*(1-p_Y_M)
Var_est_p_Y_F = (1/(n-1))*(1-n/N)*p_Y_F*(1-p_Y_F)
cbind(Var_est_p_Y_M, Var_est_p_Y_F)
##      Var_est_p_Y_M Var_est_p_Y_F
## [1,]   0.005411786   0.005411786

Los coeficientes de variación muestrales de estos estimadores están dados por

\[ \mathrm{CVM}(p_{Y_{M_M}})=\frac{\widehat{\mathrm{SE}}(p_{Y_{M_M}})}{p_{Y_{M_M}}}\cdot 100\%\quad\mbox{y}\quad\mathrm{CVM}(p_{Y_{F_M}})=\frac{\widehat{\mathrm{SE}}(p_{Y_{F_M}})}{p_{Y_{F_M}}}\cdot 100\%. \]

# Cálculo de los errores estándar estimados de las proporciones estimadas:
SE_est_p_Y_M = sqrt(Var_est_p_Y_M)
SE_est_p_Y_F = sqrt(Var_est_p_Y_F)

# Cálculo de los CVM de las proporciones estimadas:
CVM_p_Y_M = (SE_est_p_Y_M/p_Y_M)*100
CVM_p_Y_F = (SE_est_p_Y_F/p_Y_F)*100
cat(CVM_p_Y_M, "%,", CVM_p_Y_F, "%")
## 9.028413 %, 39.72502 %

Punto 3

Estime el peso promedio de los estudiantes del curso planteado por género, varianza estimada y coeficiente de variación muestral del correspondiente estimador. Asuma que \(N_M=326\) y \(N_F=74\).

Solución

Estimamos el peso promedio de los estudiantes por género como

\[ \widehat{\bar{w}}_{U_{M_\pi}}=\frac{N}{nN_M}\sum_{k\in M}w_{M_k}\quad\mbox{y}\quad\widehat{\bar{w}}_{U_{F_\pi}}=\frac{N}{nN_F}\sum_{k\in M}w_{F_k}, \]

donde

\[ w_{M_k}=\begin{cases}w_k & \mbox{si $k\in U_M$}\\ 0 & \mbox{si $k\notin U_M$}\end{cases}\quad\mbox{y}\quad w_{F_k}=\begin{cases}w_k & \mbox{si $k\in U_F$}\\ 0 & \mbox{si $k\notin U_F$}\end{cases}. \]

# Definición de las variables indicadoras:
w_M <- ifelse(Genero == "M", Peso, 0)
w_F <- ifelse(Genero == "F", Peso, 0)

# Cálculo de la media estimada de W por género:
N_M = 326
N_F = 74
w_barra_M = (N/(n*N_M))*sum(w_M)
w_barra_F = (N/(n*N_F))*sum(w_F)
cbind(w_barra_M, w_barra_F)
##      w_barra_M w_barra_F
## [1,]  70.02954  57.65766

Las varianzas estimadas de estos estimadores las calculamos como

\[ \widehat{\mathrm{Var}}(\widehat{\bar{w}}_{U_{M_\pi}})=\frac{1}{N_M^2}\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{W_{M_M}}\quad\mbox{y}\quad\widehat{\mathrm{Var}}(\widehat{\bar{w}}_{U_{F_\pi}})=\frac{1}{N_F^2}\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{W_{F_M}}, \]

donde

\[ S^2_{W_{M_M}}=\frac{1}{n-1}\sum_{k\in M}(w_{M_k}-\bar{w}_{M_M})^2,\quad\quad S^2_{W_{F_M}}=\frac{1}{n-1}\sum_{k\in M}(w_{F_k}-\bar{w}_{F_M})^2, \]

\[ \bar{w}_{M_M}=\frac{1}{n}\sum_{k\in M}w_{M_k}\quad\mbox{y}\quad \bar{w}_{F_M}=\frac{1}{n}\sum_{k\in M}w_{F_k}. \]

# Cálculo de las medias muestrales de W por género:
w_barra_M_M = (1/n)*sum(w_M)
w_barra_F_M = (1/n)*sum(w_F)

# Cálculo de las varianzas muestrales de W por género:
S2_W_M = (1/(n-1))*sum((w_M-w_barra_M_M)^2)
S2_W_F = (1/(n-1))*sum((w_F-w_barra_F_M)^2)

# Cálculo de las varianzas estimadas de las medias estimadas:
Var_est_mu_est_W_M = (1/N_M^2)*(N^2/n)*(1-n/N)*S2_W_M
Var_est_mu_est_W_F = (1/N_F^2)*(N^2/n)*(1-n/N)*S2_W_F
cbind(Var_est_mu_est_W_M, Var_est_mu_est_W_F)
##      Var_est_mu_est_W_M Var_est_mu_est_W_F
## [1,]           49.71987            531.339

Los coeficientes de variación muestrales de estos estimadores están dados por

\[ \mathrm{CVM}(\widehat{\bar{w}}_{U_{M_\pi}})=\frac{\widehat{\mathrm{SE}}(\widehat{\bar{w}}_{U_{M_\pi}})}{\widehat{\bar{w}}_{U_{M_\pi}}}\cdot100\%\quad\mbox{y}\quad\mathrm{CVM}(\widehat{\bar{w}}_{U_{F_\pi}})=\frac{\widehat{\mathrm{SE}}(\widehat{\bar{w}}_{U_{F_\pi}})}{\widehat{\bar{w}}_{U_{F_\pi}}}\cdot100\%. \]

# Cálculo de los errores estándar estimados de las medias estimadas por género:
SE_est_mu_est_W_M = sqrt(Var_est_mu_est_W_M)
SE_est_mu_est_W_F = sqrt(Var_est_mu_est_W_F)

# Cálculo de los CVM de las medias estimadas por género:
CVM_mu_est_W_M = (SE_est_mu_est_W_M/w_barra_M)*100
CVM_mu_est_W_F = (SE_est_mu_est_W_F/w_barra_F)*100
cat(CVM_mu_est_W_M, "%,", CVM_mu_est_W_F, "%")
## 10.06894 %, 39.97872 %

Punto 4

Estime la estatura promedio de los estudiantes del curso planteado por género, varianza estimada y coeficiente de variación muestral del correspondiente estimador. Asuma que \(N_M=326\) y \(N_F=74\).

Solución

Definimos \(H\colon\mbox{‘Estatura de los estudiantes’}\). Estimamos la estatura promedio de los estudiantes por género como

\[ \widehat{\bar{h}}_{U_{M_\pi}}=\frac{N}{nN_M}\sum_{k\in M}h_{M_k}\quad\mbox{y}\quad\widehat{\bar{h}}_{U_{F_\pi}}=\frac{N}{nN_F}\sum_{k\in M}h_{F_k}, \]

donde

\[ h_{M_k}=\begin{cases}h_k & \mbox{si $k\in U_M$}\\ 0 & \mbox{si $k\notin U_M$}\end{cases}\quad\mbox{y}\quad h_{F_k}=\begin{cases}h_k & \mbox{si $k\in U_F$}\\ 0 & \mbox{si $k\notin U_F$}\end{cases}. \]

# Definición de las variables indicadoras:
h_M <- ifelse(Genero == "M", Estatura, 0)
h_F <- ifelse(Genero == "F", Estatura, 0)

# Cálculo de la media estimada de H por género:
h_barra_M = (N/(n*N_M))*sum(h_M)
h_barra_F = (N/(n*N_F))*sum(h_F)
cbind(h_barra_M, h_barra_F)
##      h_barra_M h_barra_F
## [1,]  173.0061  162.7628

Las varianzas estimadas de estos estimadores las calculamos como

\[ \widehat{\mathrm{Var}}(\widehat{\bar{h}}_{U_{M_\pi}})=\frac{1}{N_M^2}\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{H_{M_M}}\quad\mbox{y}\quad\widehat{\mathrm{Var}}(\widehat{\bar{h}}_{U_{F_\pi}})=\frac{1}{N_F^2}\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{H_{F_M}}, \]

donde

\[ S^2_{H_{M_M}}=\frac{1}{n-1}\sum_{k\in M}(h_{M_k}-\bar{h}_{M_M})^2,\quad\quad S^2_{H_{F_M}}=\frac{1}{n-1}\sum_{k\in M}(h_{F_k}-\bar{h}_{F_M})^2, \]

\[ \bar{h}_{M_M}=\frac{1}{n}\sum_{k\in M}h_{M_k}\quad\mbox{y}\quad \bar{h}_{F_M}=\frac{1}{n}\sum_{k\in M}h_{F_k}. \]

# Cálculo de las medias muestrales de H por género:
h_barra_M_M = (1/n)*sum(h_M)
h_barra_F_M = (1/n)*sum(h_F)

# Cálculo de las varianzas muestrales de H por género:
S2_H_M = (1/(n-1))*sum((h_M-h_barra_M_M)^2)
S2_H_F = (1/(n-1))*sum((h_F-h_barra_F_M)^2)

# Cálculo de las varianzas estimadas de las medias estimadas:
Var_est_mu_est_H_M = (1/N_M^2)*(N^2/n)*(1-n/N)*S2_H_M
Var_est_mu_est_H_F = (1/N_F^2)*(N^2/n)*(1-n/N)*S2_H_F
cbind(Var_est_mu_est_H_M, Var_est_mu_est_H_F)
##      Var_est_mu_est_H_M Var_est_mu_est_H_F
## [1,]           245.4771            4183.05

Los coeficientes de variación muestrales de estos estimadores están dados por

\[ \mathrm{CVM}(\widehat{\bar{h}}_{U_{M_\pi}})=\frac{\widehat{\mathrm{SE}}(\widehat{\bar{h}}_{U_{M_\pi}})}{\widehat{\bar{h}}_{U_{M_\pi}}}\cdot100\%\quad\mbox{y}\quad\mathrm{CVM}(\widehat{\bar{h}}_{U_{F_\pi}})=\frac{\widehat{\mathrm{SE}}(\widehat{\bar{h}}_{U_{F_\pi}})}{\widehat{\bar{h}}_{U_{F_\pi}}}\cdot100\%. \]

# Cálculo de los errores estándar estimados de las medias estimadas por género:
SE_est_mu_est_H_M = sqrt(Var_est_mu_est_H_M)
SE_est_mu_est_H_F = sqrt(Var_est_mu_est_H_F)

# Cálculo de los CVM de las medias estimadas por género:
CVM_mu_est_H_M = (SE_est_mu_est_H_M/h_barra_M)*100
CVM_mu_est_H_F = (SE_est_mu_est_H_F/h_barra_F)*100
cat(CVM_mu_est_H_M, "%,", CVM_mu_est_H_F, "%")
## 9.056157 %, 39.73667 %

\(~\)