La inferencia estadística es una rama de la estadística que se encarga de hacer generalizaciones sobre una población basándose en una muestra representativa de esa población.
Algunos estudios indican que la población de Puerto Rico tiene entre un 12% a 61% de ADN taíno. Voy a asumir una proporción intermedia de 33%. A partir de este dato les presento una serie de ejercicios para que practiquen conceptos fundamentales de la inferencia estadística, incluyendo estimación puntual, intervalos de confianza, el Teorema del Límite Central y pruebas de hipótesis. También hay Extensiones para que exploren más a fondo los conceptos.
Objetivo: Entender que una estimación puntual (la proporción de una muestra) varía cada vez que tomamos una muestra diferente.
Procedimiento:.
Crear una población simulada de 3000000 de personas de Puerto Rico con un 33% de ADN taíno.
Toma una muestra aleatoria de 200 personas y calcula la proporción que posee ADN taíno. Esta es tu primera estimación puntual.
Toma una segunda muestra aleatoria de 200 personas y calcula la proporción nuevamente.
Compara las dos proporciones. ¿Son idénticas?
Código R:
# 1. Crear la población
tamano_poblacion <- 3000000
proporcion_real <- 0.33
poblacion <- c(rep("Posee ADN taíno", tamano_poblacion * proporcion_real),
rep("No posee ADN taíno", tamano_poblacion * (1 - proporcion_real)))
# 2. Tomar la primera muestra y calcular la proporción
set.seed(111) # Para que los resultados sean reproducibles
muestra_1 <- sample(poblacion, 200)
prop_muestra_1 <- sum(muestra_1 == "Posee ADN taíno") / length(muestra_1)
# 3. Tomar la segunda muestra y calcular la proporción
set.seed(113) # Usamos otra semilla para obtener una muestra diferente
muestra_2 <- sample(poblacion, 200)
prop_muestra_2 <- sum(muestra_2 == "Posee ADN taíno") / length(muestra_2)
# 4. Imprimir y comparar los resultados
cat("Proporción en la Muestra 1:", prop_muestra_1, "\n")
## Proporción en la Muestra 1: 0.36
cat("Proporción en la Muestra 2:", prop_muestra_2, "\n")
## Proporción en la Muestra 2: 0.285
Interpretación del Resultado: Al ejecutar el código,
verás que las dos proporciones muestrales (por ejemplo,
0.36 y 0.285) son diferentes entre sí y
también diferentes de la proporción real (0.33). Esto
demuestra efectivamente la variabilidad del muestreo:
cada muestra nos da una estimación ligeramente distinta.
Extensión 1: Repite el proceso de tomar muestras dos
veces más (usa otras semillas (set.seed(): 222 y 333).
Objetivo: Visualizar cómo se distribuyen las proporciones muestrales y entender el Teorema del Límite Central (TLC).
Procedimiento:
Usando la misma población, toma 10,000 muestras de 200 personas cada una.
Calcula la proporción muestral para cada una de las 10,000 muestras.
Crea un histograma para visualizar la distribución de estas 10,000 proporciones. ¿Qué forma tiene? ¿Dónde está centrada?
Código R:
# Cargar el paquete para graficar
library(ggplot2)
# Parámetros de la simulación
num_simulaciones <- 10000
tamano_muestra <- 200
proporciones_muestrales <- numeric(num_simulaciones) # Vector para guardar los resultados
# 1. Bucle para tomar 10,000 muestras
set.seed(222)
for (i in 1:num_simulaciones) {
muestra <- sample(poblacion, tamano_muestra)
proporciones_muestrales[i] <- sum(muestra == "Posee ADN taíno") / length(muestra)
}
# 2. Crear un dataframe con los resultados
resultados_df <- data.frame(Proporciones = proporciones_muestrales)
# 3. Graficar el histograma
ggplot(resultados_df, aes(x = Proporciones)) +
geom_histogram(aes(y = after_stat(density)), binwidth = 0.01, fill = "dodgerblue", color = "black", alpha = 0.7) +
geom_vline(xintercept = proporcion_real, color = "orange", linetype = "dashed", linewidth = 1.0) +
stat_function(fun = dnorm, args = list(mean = mean(proporciones_muestrales), sd = sd(proporciones_muestrales)), color = "darkred", linewidth = 1) +
labs(
x = "Proporción Muestral",
y = "Densidad"
) +
theme_minimal()
Figura 1: Histograma de las proporciones muestrales (n=200) con curva normal superpuesta. La línea naranja entrecortada indica la proporción real de la población (0.33).
Interpretación del Resultado: El histograma muestra una distribución en forma de campana, muy parecida a una distribución normal. Está centrada muy cerca de la proporción real de la población (0.33). Esto es exactamente lo que predice el Teorema del Límite Central.
Extensión 2: Cambia el tamaño de la muestra a 10. ¿Cómo afecta esto la forma de la distribución de las proporciones muestrales? ¿A cuál distribución ya estudiada se parece?
Extensión 3: Cambia el números de simulaciones a 100 (tamaño de muestra = 200). Indica cómo cambia la distribución de proporciones.
Objetivo: Calcular un rango de valores plausibles para el parámetro poblacional y entender su significado.
Procedimiento:
Usa la primera muestra que tomaste en el Ejercicio 1
(prop_muestra_1) para calcular e interpretar un
intervalo de confianza del 95% para la proporción de
puertorriqueños que poseen ADN taíno. Asumimos una distribución normal
de las proporciones.
La fórmula para el intervalo de confianza del 95% para una proporción
es:
\[
\hat{p} \pm Z_{\alpha/2} \times \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}
\] donde:
Código R:
# Datos de nuestra primera muestra
p_hat <- prop_muestra_1 # 0.16
n <- 200
nivel_confianza <- 0.95
# Calcular el valor Z para un 95% de confianza
# (1 - 0.95) / 2 = 0.025. Buscamos el cuantil 1 - 0.025 = 0.975
z_score <- qnorm(1 - (1 - nivel_confianza) / 2)
# Calcular el error estándar de la proporción
error_estandar <- sqrt((p_hat * (1 - p_hat)) / n)
# Calcular el margen de error
margen_de_error <- z_score * error_estandar
# Calcular el intervalo de confianza
limite_inferior <- p_hat - margen_de_error
limite_superior <- p_hat + margen_de_error
# Imprimir el resultado
cat("Estimación Puntual (p̂):", p_hat, "\n")
## Estimación Puntual (p̂): 0.36
cat("Intervalo de Confianza del 95%: [", limite_inferior, ",", limite_superior, "]\n")
## Intervalo de Confianza del 95%: [ 0.2934766 , 0.4265234 ]
Interpretación del Resultado: El resultado será algo
como: Intervalo de Confianza del 95%: [ 0.293, 0.427 ]. La
interpretación correcta es: “Tenemos un 95% de confianza en que
la verdadera proporción de todos los puertorriqueños que poseen
ADN taíno se encuentra entre 29% y 43%.” Nota que el valor real
(0.33) está dentro de este intervalo.
Extensión 4: Cambia el nivel de confianza a 90% y 99%. ¿Cómo afecta esto el ancho del intervalo de confianza?
Objetivo: Utilizar el marco de la prueba de hipótesis para tomar una decisión sobre una afirmación.
Procedimiento:
Un investigador piensa que la proporción de ADN taíno es menor en
Culebra. Quiere probar si la proporción es menor que el 33% del estudio
a nivel de todo Puerto Rico. Su muestra (muestra_2 del
Ejercicio 1) arrojó una proporción de 0.30. ¿Es esta evidencia
suficiente para apoyar la afirmación del investigador?
p = 0.33).p < 0.33).Usa la función prop.test() para realizar la prueba.
Código R:
# Datos de la muestra 2
exitos <- sum(muestra_2 == "Posee ADN taíno") # Número de personas con ADN taíno
n <- length(muestra_2) # Tamaño total de la muestra
# Realizar la prueba de hipótesis de una cola
# H₀: p = 0.33
# Hₐ: p < 0.33
resultado_test <- prop.test(
x = exitos, # número de éxitos en la muestra o p*n
n = n, # tamaño de la muestra = 200
p = 0.33,
# para dos colas
alternative = "less",
correct = FALSE # Usamos FALSE para comparar con la fórmula del Z-test
)
# Imprimir los resultados
print(resultado_test)
##
## 1-sample proportions test without continuity correction
##
## data: exitos out of n, null probability 0.33
## X-squared = 1.8318, df = 1, p-value = 0.08796
## alternative hypothesis: true p is less than 0.33
## 95 percent confidence interval:
## 0.0000000 0.3401004
## sample estimates:
## p
## 0.285
# Graficar el histograma y la distribución normal bajo H0 y líneas verticales de 0.27 y 0.40
ggplot(resultados_df, aes(x = Proporciones)) +
geom_histogram(aes(y = after_stat(density)), binwidth = 0.01,
fill = "lightblue", color = "black") +
geom_vline(xintercept = 0.33, color = "red", linetype = "dashed", linewidth = 1) + # Línea en 0.33
geom_vline(xintercept = 0.285, color = "blue", linetype = "dashed", linewidth = 1) + # Línea en 0.30
stat_function(fun = dnorm, args = list(mean = 0.33, sd = sqrt((0.33 * (1 - 0.33)) / n)), color = "darkgreen", linewidth = 1) +
# Shaded area for the left 0.05 region
stat_function(fun = dnorm,
args = list(mean = 0.33, sd = sqrt((0.33 * (1 - 0.33)) / n)),
xlim = c(0.15, qnorm(0.05, mean = 0.33, sd = sqrt((0.33 * (1 - 0.33)) / n))),
geom = "area",
fill = "red",
alpha = 0.3) +
labs(
x = "Proporción Muestral",
y = "Densidad"
) +
theme_minimal()
Figura 2: Histograma de las proporciones muestrales (n=200) con curva normal bajo H₀. La línea roja entrecortada indica la proporción bajo H₀ (0.33) y la línea azul entrecortada indica la proporción muestral observada (0.285). El área sombreada en rojo representa el 5% izquierdo de la distribución bajo H₀.
Interpretación del Resultado: La salida de
prop.test te dará un valor p (p-value). Si
el valor p es, por ejemplo, 0.1462, es mayor que el nivel
de significancia común (α = 0.05).
Extensión 5: En ocasiones no se tiene un valor
estimado de la muestra antes de hacer una investigación. Supongamos que
el investigador no sabe de antemano cuál es la proporción de su muestra
y en su propuesta de investigación solo indica que la proporción en
Culebra es diferente (mayor o menor) al 33%. ¿Cómo cambiarías las
hipótesis nula y alternativa? Usa alternative = two.sided.
Realiza la prueba y comenta los resultados.