\(~\)
Considere la base de datos “Datos.Muestra.Est”, la cual es un archivo
en Excel con extensión .xlsx
. Asuma que esta base de datos
corresponde a una muestra seleccionada bajo un MAS de una población de
400 estudiantes del curso de Probabilidad y estadística fundamental en
el semestre 2022-1 de la Universidad Nacional de Colombia, Sede
Bogotá.
La base de datos consiste de 4 variables: género, peso, estatura, si va a votar en las elecciones presidenciales de Colombia en el año 2022.
Estime el peso promedio de los estudiantes del curso planteado, varianza estimada y coeficiente de variación muestral del correspondiente estimador.
Solución
Cargamos la base de datos:
data <- read.xlsx("C:/Users/USER/Downloads/Datos.Muestra.Est.xlsx", sheetIndex = 1, header = TRUE)
attach(data)
head(data)
## Genero Peso Estatura Vota
## 1 F 65 168 Si
## 2 F 64 165 Si
## 3 M 52 168 Si
## 4 F 51 160 Si
## 5 M 70 177 Si
## 6 M 70 175 Si
## [1] 27 4
Según el enunciado, \(N=400\). Y
usando la información de dim(data)
, vemos que \(n=27\).
Sea \(W\colon\mbox{‘Peso de los estudiantes’}\). Estimamos la media de \(W\) como
\[ \widehat{\mu}_W=\frac{\widehat{t}_{\pi_{\mathrm{MAS}}}}{N}, \]
donde
\[ \widehat{t}_{\pi_{\mathrm{MAS}}}=\frac{N}{n}\sum_{k\in M}w_k. \]
# Cálculo del pi-estimador para W:
N = 400
n = 27
pi_est_W = (N/n)*sum(Peso)
# Cálculo de la media estimada de W:
mu_est_W = pi_est_W/N; mu_est_W
## [1] 67.74074
La varianza estimada de \(\widehat{\mu}_W\) se calcula como
\[ \widehat{\mathrm{Var}}(\widehat{\mu}_W)=\frac{1}{n}\left(1-\frac{n}{N}\right)S^2_{W_M}, \]
con \(S^2_{W_M}=1/(n-1)\sum_{k\in M}(w_k-\bar{w}_M)^2\) y \(\bar{w}_M=1/n\sum_{k\in M}w_k\).
# Cálculo de la media muestral de W:
mean_W = (1/n)*sum(Peso)
# Cálculo de la varianza muestral de W:
S2_W = (1/(n-1))*sum((Peso-mean_W)^2)
# Cálculo de la varianza estimada de la media estimada de W:
Var_est_mu_est_W = (1/n)*(1-(n/N))*S2_W; Var_est_mu_est_W
## [1] 7.541275
El coeficiente de variación muestral de este estimador está dado por
\[ \mathrm{CVM}(\widehat{\mu}_W)=\frac{\widehat{\mathrm{SE}}(\widehat{\mu}_W)}{\widehat{\mu}_W}\cdot100\%, \]
donde
\[ \widehat{\mathrm{SE}}(\widehat{\mu}_W)=\sqrt{\widehat{\mathrm{Var}}(\widehat{\mu}_W)}. \]
# Cálculo del error estándar estimado de la media estimada de W:
SE_est_mu_est_W = sqrt(Var_est_mu_est_W)
# Cálculo del CVM de la media estimada de W:
CVM_mu_est_W = (SE_est_mu_est_W/mu_est_W)*100
cat(CVM_mu_est_W, "%")
## 4.053895 %
Estime la proporción de estudiantes que son de género femenino y masculino en el curso planteado, varianza estimada y coeficiente de variación muestral del correspondiente estimador.
Solución
Definimos \(Y\colon\mbox{‘Género de los estudiantes’}\) y \(U_M\) y \(U_F\) como los dominios de estudiantes hombres y estudiantes mujeres respectivamente. Estimamos la proporción de estudiantes hombres y de estudiantes mujeres como
\[ p_{Y_{M_M}}:=\widehat{p}_{Y_{M_U}}=\bar{y}_{M_M}=\frac{1}{n}\sum_{k\in M}y_{M_k}\quad\mbox{y}\quad p_{Y_{F_M}}:=\widehat{p}_{Y_{F_U}}=\bar{y}_{F_M}=\frac{1}{n}\sum_{k\in M}y_{F_k} \]
respectivamente, donde definimos
\[ y_{M_k}:=\begin{cases}1 & \mbox{si $k\in U_M$}\\ 0 & \mbox{si $k\notin U_M$}\end{cases}\quad\mbox{y}\quad y_{F_k}:=\begin{cases}1 & \mbox{si $k\in U_F$}\\ 0 & \mbox{si $k\notin U_F$}\end{cases}. \]
# Definición de las variables indicadoras:
y_M <- ifelse(Genero == "M", 1, 0)
y_F <- ifelse(Genero == "F", 1, 0)
# Cálculo de las proporciones estimadas:
p_Y_M = (1/n)*sum(y_M)
p_Y_F = (1/n)*sum(y_F)
cbind(p_Y_M, p_Y_F)
## p_Y_M p_Y_F
## [1,] 0.8148148 0.1851852
Las varianzas estimadas de estos estimadores las calculamos como
\[ \widehat{\mathrm{Var}}(p_{Y_{M_M}})=\frac{1}{n-1}\left(1-\frac{n}{N}\right)p_{Y_{M_M}}(1-p_{Y_{M_M}}) \]
y
\[ \widehat{\mathrm{Var}}(p_{Y_{F_M}})=\frac{1}{n-1}\left(1-\frac{n}{N}\right)p_{Y_{F_M}}(1-p_{Y_{F_M}}). \]
# Cálculo de las varianzas estimadas de las proporciones estimadas:
Var_est_p_Y_M = (1/(n-1))*(1-n/N)*p_Y_M*(1-p_Y_M)
Var_est_p_Y_F = (1/(n-1))*(1-n/N)*p_Y_F*(1-p_Y_F)
cbind(Var_est_p_Y_M, Var_est_p_Y_F)
## Var_est_p_Y_M Var_est_p_Y_F
## [1,] 0.005411786 0.005411786
Los coeficientes de variación muestrales de estos estimadores están dados por
\[ \mathrm{CVM}(p_{Y_{M_M}})=\frac{\widehat{\mathrm{SE}}(p_{Y_{M_M}})}{p_{Y_{M_M}}}\cdot 100\%\quad\mbox{y}\quad\mathrm{CVM}(p_{Y_{F_M}})=\frac{\widehat{\mathrm{SE}}(p_{Y_{F_M}})}{p_{Y_{F_M}}}\cdot 100\%. \]
# Cálculo de los errores estándar estimados de las proporciones estimadas:
SE_est_p_Y_M = sqrt(Var_est_p_Y_M)
SE_est_p_Y_F = sqrt(Var_est_p_Y_F)
# Cálculo de los CVM de las proporciones estimadas:
CVM_p_Y_M = (SE_est_p_Y_M/p_Y_M)*100
CVM_p_Y_F = (SE_est_p_Y_F/p_Y_F)*100
cat(CVM_p_Y_M, "%,", CVM_p_Y_F, "%")
## 9.028413 %, 39.72502 %
Estime el peso promedio de los estudiantes del curso planteado por género, varianza estimada y coeficiente de variación muestral del correspondiente estimador. Asuma que \(N_M=326\) y \(N_F=74\).
Solución
Estimamos el peso promedio de los estudiantes por género como
\[ \widehat{\bar{w}}_{U_{M_\pi}}=\frac{N}{nN_M}\sum_{k\in M}w_{M_k}\quad\mbox{y}\quad\widehat{\bar{w}}_{U_{F_\pi}}=\frac{N}{nN_F}\sum_{k\in M}w_{F_k}, \]
donde
\[ w_{M_k}=\begin{cases}w_k & \mbox{si $k\in U_M$}\\ 0 & \mbox{si $k\notin U_M$}\end{cases}\quad\mbox{y}\quad w_{F_k}=\begin{cases}w_k & \mbox{si $k\in U_F$}\\ 0 & \mbox{si $k\notin U_F$}\end{cases}. \]
# Definición de las variables indicadoras:
w_M <- ifelse(Genero == "M", Peso, 0)
w_F <- ifelse(Genero == "F", Peso, 0)
# Cálculo de la media estimada de W por género:
N_M = 326
N_F = 74
w_barra_M = (N/(n*N_M))*sum(w_M)
w_barra_F = (N/(n*N_F))*sum(w_F)
cbind(w_barra_M, w_barra_F)
## w_barra_M w_barra_F
## [1,] 70.02954 57.65766
Las varianzas estimadas de estos estimadores las calculamos como
\[ \widehat{\mathrm{Var}}(\widehat{\bar{w}}_{U_{M_\pi}})=\frac{1}{N_M^2}\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{W_{M_M}}\quad\mbox{y}\quad\widehat{\mathrm{Var}}(\widehat{\bar{w}}_{U_{F_\pi}})=\frac{1}{N_F^2}\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{W_{F_M}}, \]
donde
\[ S^2_{W_{M_M}}=\frac{1}{n-1}\sum_{k\in M}(w_{M_k}-\bar{w}_{M_M})^2,\quad\quad S^2_{W_{F_M}}=\frac{1}{n-1}\sum_{k\in M}(w_{F_k}-\bar{w}_{F_M})^2, \]
\[ \bar{w}_{M_M}=\frac{1}{n}\sum_{k\in M}w_{M_k}\quad\mbox{y}\quad \bar{w}_{F_M}=\frac{1}{n}\sum_{k\in M}w_{F_k}. \]
# Cálculo de las medias muestrales de W por género:
w_barra_M_M = (1/n)*sum(w_M)
w_barra_F_M = (1/n)*sum(w_F)
# Cálculo de las varianzas muestrales de W por género:
S2_W_M = (1/(n-1))*sum((w_M-w_barra_M_M)^2)
S2_W_F = (1/(n-1))*sum((w_F-w_barra_F_M)^2)
# Cálculo de las varianzas estimadas de las medias estimadas:
Var_est_mu_est_W_M = (1/N_M^2)*(N^2/n)*(1-n/N)*S2_W_M
Var_est_mu_est_W_F = (1/N_F^2)*(N^2/n)*(1-n/N)*S2_W_F
cbind(Var_est_mu_est_W_M, Var_est_mu_est_W_F)
## Var_est_mu_est_W_M Var_est_mu_est_W_F
## [1,] 49.71987 531.339
Los coeficientes de variación muestrales de estos estimadores están dados por
\[ \mathrm{CVM}(\widehat{\bar{w}}_{U_{M_\pi}})=\frac{\widehat{\mathrm{SE}}(\widehat{\bar{w}}_{U_{M_\pi}})}{\widehat{\bar{w}}_{U_{M_\pi}}}\cdot100\%\quad\mbox{y}\quad\mathrm{CVM}(\widehat{\bar{w}}_{U_{F_\pi}})=\frac{\widehat{\mathrm{SE}}(\widehat{\bar{w}}_{U_{F_\pi}})}{\widehat{\bar{w}}_{U_{F_\pi}}}\cdot100\%. \]
# Cálculo de los errores estándar estimados de las medias estimadas por género:
SE_est_mu_est_W_M = sqrt(Var_est_mu_est_W_M)
SE_est_mu_est_W_F = sqrt(Var_est_mu_est_W_F)
# Cálculo de los CVM de las medias estimadas por género:
CVM_mu_est_W_M = (SE_est_mu_est_W_M/w_barra_M)*100
CVM_mu_est_W_F = (SE_est_mu_est_W_F/w_barra_F)*100
cat(CVM_mu_est_W_M, "%,", CVM_mu_est_W_F, "%")
## 10.06894 %, 39.97872 %
Estime la estatura promedio de los estudiantes del curso planteado por género, varianza estimada y coeficiente de variación muestral del correspondiente estimador. Asuma que \(N_M=326\) y \(N_F=74\).
Solución
Definimos \(H\colon\mbox{‘Estatura de los estudiantes’}\). Estimamos la estatura promedio de los estudiantes por género como
\[ \widehat{\bar{h}}_{U_{M_\pi}}=\frac{N}{nN_M}\sum_{k\in M}h_{M_k}\quad\mbox{y}\quad\widehat{\bar{h}}_{U_{F_\pi}}=\frac{N}{nN_F}\sum_{k\in M}h_{F_k}, \]
donde
\[ h_{M_k}=\begin{cases}h_k & \mbox{si $k\in U_M$}\\ 0 & \mbox{si $k\notin U_M$}\end{cases}\quad\mbox{y}\quad h_{F_k}=\begin{cases}h_k & \mbox{si $k\in U_F$}\\ 0 & \mbox{si $k\notin U_F$}\end{cases}. \]
# Definición de las variables indicadoras:
h_M <- ifelse(Genero == "M", Estatura, 0)
h_F <- ifelse(Genero == "F", Estatura, 0)
# Cálculo de la media estimada de H por género:
h_barra_M = (N/(n*N_M))*sum(h_M)
h_barra_F = (N/(n*N_F))*sum(h_F)
cbind(h_barra_M, h_barra_F)
## h_barra_M h_barra_F
## [1,] 173.0061 162.7628
Las varianzas estimadas de estos estimadores las calculamos como
\[ \widehat{\mathrm{Var}}(\widehat{\bar{h}}_{U_{M_\pi}})=\frac{1}{N_M^2}\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{H_{M_M}}\quad\mbox{y}\quad\widehat{\mathrm{Var}}(\widehat{\bar{h}}_{U_{F_\pi}})=\frac{1}{N_F^2}\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{H_{F_M}}, \]
donde
\[ S^2_{H_{M_M}}=\frac{1}{n-1}\sum_{k\in M}(h_{M_k}-\bar{h}_{M_M})^2,\quad\quad S^2_{H_{F_M}}=\frac{1}{n-1}\sum_{k\in M}(h_{F_k}-\bar{h}_{F_M})^2, \]
\[ \bar{h}_{M_M}=\frac{1}{n}\sum_{k\in M}h_{M_k}\quad\mbox{y}\quad \bar{h}_{F_M}=\frac{1}{n}\sum_{k\in M}h_{F_k}. \]
# Cálculo de las medias muestrales de H por género:
h_barra_M_M = (1/n)*sum(h_M)
h_barra_F_M = (1/n)*sum(h_F)
# Cálculo de las varianzas muestrales de H por género:
S2_H_M = (1/(n-1))*sum((h_M-h_barra_M_M)^2)
S2_H_F = (1/(n-1))*sum((h_F-h_barra_F_M)^2)
# Cálculo de las varianzas estimadas de las medias estimadas:
Var_est_mu_est_H_M = (1/N_M^2)*(N^2/n)*(1-n/N)*S2_H_M
Var_est_mu_est_H_F = (1/N_F^2)*(N^2/n)*(1-n/N)*S2_H_F
cbind(Var_est_mu_est_H_M, Var_est_mu_est_H_F)
## Var_est_mu_est_H_M Var_est_mu_est_H_F
## [1,] 245.4771 4183.05
Los coeficientes de variación muestrales de estos estimadores están dados por
\[ \mathrm{CVM}(\widehat{\bar{h}}_{U_{M_\pi}})=\frac{\widehat{\mathrm{SE}}(\widehat{\bar{h}}_{U_{M_\pi}})}{\widehat{\bar{h}}_{U_{M_\pi}}}\cdot100\%\quad\mbox{y}\quad\mathrm{CVM}(\widehat{\bar{h}}_{U_{F_\pi}})=\frac{\widehat{\mathrm{SE}}(\widehat{\bar{h}}_{U_{F_\pi}})}{\widehat{\bar{h}}_{U_{F_\pi}}}\cdot100\%. \]
# Cálculo de los errores estándar estimados de las medias estimadas por género:
SE_est_mu_est_H_M = sqrt(Var_est_mu_est_H_M)
SE_est_mu_est_H_F = sqrt(Var_est_mu_est_H_F)
# Cálculo de los CVM de las medias estimadas por género:
CVM_mu_est_H_M = (SE_est_mu_est_H_M/h_barra_M)*100
CVM_mu_est_H_F = (SE_est_mu_est_H_F/h_barra_F)*100
cat(CVM_mu_est_H_M, "%,", CVM_mu_est_H_F, "%")
## 9.056157 %, 39.73667 %
\(~\)