Se tiene una población pequeña que consiste en \( N=8 \) estudiantes con los siguientes puntajes en el examen final del curso:
Alumno <- c(1, 2, 3, 4, 5, 6, 7, 8)
Puntaje <- c(72, 74, 76, 77, 81, 84, 85, 91)
curso <- data.frame(Alumno, Puntaje)
curso
## Alumno Puntaje
## 1 1 72
## 2 2 74
## 3 3 76
## 4 4 77
## 5 5 81
## 6 6 84
## 7 7 85
## 8 8 91
mean(curso$Puntaje)
## [1] 80
\( \mu \) = 80 es el puntaje promedio de los 8 alumnos de la población.
Para el cálculo de la varianza poblacional \( V(\mu) \), se utiliza la siguiente fórmula: \\[ v(\mu)=\frac{1}{N}\sum_{i=1}^n (Y_i - \mu)^2 \ \]
var <- sum((curso$Puntaje - mean(curso$Puntaje))^2)/(nrow(curso))
var
## [1] 36
La varianza poblacional es 36 puntos.
La cantidad de grupos posibles de tamaño \( n=2 \) para una población de \( N=8 \) se calcula con la fórmula:
\\[ Combinaciones = \begin{pmatrix} 8 \\ 2 \end{pmatrix} = \frac{N}{n!(N-n)!} = \frac{8!}{2!(8-2)!} \ \]
factorial(8)/(factorial(2) * factorial(8 - 2))
## [1] 28
El total hay 28 combinaciones posibles de 8 elementos en grupos de 2 (sin importar el orden).
A continuación generaremos las 21 muestras posibles de la población de 8 alumnos.
muestras <- combn(curso$Puntaje, 2)
mediasm <- combn(curso$Puntaje, 2, mean)
Los 28 promedios calculados para cada una de las combinaciones se pueden ver a continuación:
mediasm
## [1] 73.0 74.0 74.5 76.5 78.0 78.5 81.5 75.0 75.5 77.5 79.0 79.5 82.5 76.5
## [15] 78.5 80.0 80.5 83.5 79.0 80.5 81.0 84.0 82.5 83.0 86.0 84.5 87.5 88.0
Ahora graficamos esos promedios en un histograma.
hist(mediasm, freq = TRUE, xlab = "Promedio de puntajes", ylab = "Frecuencia",
main = paste("Distribución de promedio de puntajes para muestras de 2 casos.\n",
dim(mediasm), "datos en total para población de 8"), breaks = dim(mediasm)/4,
lwd = 1, labels = TRUE)
lines(x = c(mean(curso$Puntaje), mean(curso$Puntaje)), y = c(-0, dim(mediasm)),
lwd = 2, col = "red", lty = 2)
# Media de las medias muestrales
mean(mediasm)
## [1] 80
El promedio de las medias muestrales coincide con el promedio de la población. Es un estimador insesgado ya que la distribución muestral de las medias está centrada en la media poblacional.
Use la fórmula en la página 99 de Groves et al. (2004) para estimar la varianza de la media muestral para una muestra de tamaño n=2. ¿Es igual a la varianza de la distribución calculada en (1.b)?
Compare los resultados y explique por qué son iguales o distintas.
La varianza de la media \( \bar{y} \) de una realización muestral de tamaño \( n \) es la siguiente:
\\[ v(\bar{y})=\frac{1 - f}{n}\sum_{i=1}^n (y_i - \bar{y})^2 \\ \textrm{donde}, f=\frac{n}{N} \textrm{ es la fracción de muestreo} \ \]
En este caso, las varianzas muestrales \( v(\bar{y}) \) para cada combinación son las siguientes:
# Fracción de muestreo
f <- 2/8
varm <- c(1:ncol(muestras))
# calculo de varianza muestral
for (i in 1:ncol(muestras)) {
varm[i] <- var(muestras[, i])
}
round(varm, 1)
## [1] 2.0 8.0 12.5 40.5 72.0 84.5 180.5 2.0 4.5 24.5 50.0
## [12] 60.5 144.5 0.5 12.5 32.0 40.5 112.5 8.0 24.5 32.0 98.0
## [23] 4.5 8.0 50.0 0.5 24.5 18.0
# Ajuste por muestra pequeña
varm <- (1 - f)/nrow(muestras) * varm
round(varm, 1)
## [1] 0.8 3.0 4.7 15.2 27.0 31.7 67.7 0.8 1.7 9.2 18.8 22.7 54.2 0.2
## [15] 4.7 12.0 15.2 42.2 3.0 9.2 12.0 36.8 1.7 3.0 18.8 0.2 9.2 6.8
Por último, la varianza de distribución de las medias de las muestras es la siguiente:
# Varianza de la distribución de medias
varmedias <- (1 - f)/length(mediasm) * var(mediasm)
round(varmedias, 1)
## [1] 0.4
Ahora graficamos la distribución de las varianzas de cada una de las 28 muestras obtenidas, la varianza poblacional y la varianza de la media en un histograma.
hist(varm, freq = TRUE, xlab = "Varianzas muestrales (puntos^2)", ylab = "Frecuencia",
main = paste("Distribución de varianzas para muestras de 2 casos.\n", length(varm),
"datos en total para población de 8"), breaks = length(varm)/4, lwd = 1,
labels = TRUE)
lines(x = c(var, var), y = c(0, length(varm)), lwd = 2, col = "red", lty = 1)
lines(x = c(varmedias, varmedias), y = c(0, length(varm)), lwd = 2, col = "blue",
lty = 1)
legend(40, 15, c("Varianza poblacional", "Varianza de la media"), lty = c(1,
1), lwd = c(2.5, 2.5), col = c("red", "blue"))
Como se puede observar, la varianza de la media, \( 0,4 \) es mucho más pequeña que la varianza poblacional de los puntajes (\( 30 \)). Esto se debe a que la varianza poblacional está relacionada con la distribución de los puntajes, mientras que la varianza de medias se relaciona a la distribución normal de las medias de cada una de las realizaciones obtenidas a partir de la población en estudio y debe ser más pequeña por el teorema central del límite que establece que la varianza de la distribución muestral de las medias se relaciona a través del inverso del número de la muestra. Por tanto, su distribución tendrá una mayor curtosis que la de los datos.
¿Cuál(es) son las característica(s) de una muestra probabilística?
Las características de una muestra probabilística son las siguientes:
Ambas características permiten tener una muestra sobre la que realizar inferencias estadísticas respecto de su población de origen. Así tenemos sustento teórico para pensar que estadísticos de la muestra son insesgados y que podemos estimar el error estándar a partir de sólo una muestra, es decir, calcular el error muestral. Además, permite la replicabilidad de la medición.
Es un trabajo previo asegurar que el marco muestral refleje al grupo objetivo del estudio. Se puede tener una muestra probabilística pero que, gracias a sesgos de cobertura, no respuesta o de medición.
¿Cuál(es) son las desventaja(s) de una muestra no probabilística?
Las desventajas de una muestra no probabilística son las siguientes:
¿Qué es el error estándar de un estadístico muestral? ¿De qué factor(es) depende el valor del error estándar?
El error estándar mide la dispersión de un estadístico muestral. Esa variación se explica por fluctuaciones en del muestreo. Como vimos antes, una muestra de la población es solo una alternativa de selección de unidades de todas las posibles dentro de una población. Así, un estadístico como la media es una variable aleatoria que puede cambiar su valor según los elementos seleccionados de la población de estudio. Esto genera una distribución de probabilidades para el estadístico.
El valor del error estandar de una población infinita para la media es:
\\[ \sigma_{\bar{X}}=\sqrt{\frac{\sigma^2}{n}} \ \]
donde n es el número de casos de la muestra. Podemos ver que a medida que el número de casos de la muestra aumenta, el error estándar se hará más pequeño, implicando mayor precisión en los indicadores obtenidos a partir de ella. A su vez, mientras menor sea el \( \sigma^2 \) de la población, es decir, los elementos medidos sean más homogéneos entre si en el atributo medido, menor será el error.