Ejercicios de Inferencia

La inferencia estadística es una rama de la estadística que se encarga de hacer generalizaciones sobre una población basándose en una muestra representativa de esa población.

Contexto General para los Ejercicios

Algunos estudios indican que la población de Puerto Rico tiene entre un 12% a 61% de ADN taíno. Voy a asumir una proporción intermedia de 33%. A partir de este dato les presento una serie de ejercicios para que practiquen conceptos fundamentales de la inferencia estadística, incluyendo estimación puntual, intervalos de confianza, el Teorema del Límite Central y pruebas de hipótesis. También hay Extensiones para que exploren más a fondo los conceptos.

Ejercicio 1: Estimación Puntual y Variabilidad Muestral

Objetivo: Entender que una estimación puntual (la proporción de una muestra) varía cada vez que tomamos una muestra diferente.

Procedimiento:.

  1. Crear una población simulada de 3000000 de personas de Puerto Rico con un 33% de ADN taíno.

  2. Toma una muestra aleatoria de 200 personas y calcula la proporción que posee ADN taíno. Esta es tu primera estimación puntual.

  3. Toma una segunda muestra aleatoria de 200 personas y calcula la proporción nuevamente.

  4. Compara las dos proporciones. ¿Son idénticas?

Código R:

# 1. Crear la población
tamano_poblacion <- 3000000
proporcion_real <- 0.33
poblacion <- c(rep("Posee ADN taíno", tamano_poblacion * proporcion_real),
               rep("No posee ADN taíno", tamano_poblacion * (1 - proporcion_real)))

# 2. Tomar la primera muestra y calcular la proporción
set.seed(111) # Para que los resultados sean reproducibles
muestra_1 <- sample(poblacion, 200)
prop_muestra_1 <- sum(muestra_1 == "Posee ADN taíno") / length(muestra_1)

# 3. Tomar la segunda muestra y calcular la proporción
set.seed(113) # Usamos otra semilla para obtener una muestra diferente
muestra_2 <- sample(poblacion, 200)
prop_muestra_2 <- sum(muestra_2 == "Posee ADN taíno") / length(muestra_2)

# 4. Imprimir y comparar los resultados
cat("Proporción en la Muestra 1:", prop_muestra_1, "\n")
## Proporción en la Muestra 1: 0.36
cat("Proporción en la Muestra 2:", prop_muestra_2, "\n")
## Proporción en la Muestra 2: 0.285

Interpretación del Resultado: Al ejecutar el código, verás que las dos proporciones muestrales (por ejemplo, 0.36 y 0.285) son diferentes entre sí y también diferentes de la proporción real (0.33). Esto demuestra efectivamente la variabilidad del muestreo: cada muestra nos da una estimación ligeramente distinta.

Extensión 1: Repite el proceso de tomar muestras dos veces más (usa otras semillas (set.seed(): 222 y 333).

Ejercicio 2: El Teorema del Límite Central en Acción

Objetivo: Visualizar cómo se distribuyen las proporciones muestrales y entender el Teorema del Límite Central (TLC).

Procedimiento:

  1. Usando la misma población, toma 10,000 muestras de 200 personas cada una.

  2. Calcula la proporción muestral para cada una de las 10,000 muestras.

  3. Crea un histograma para visualizar la distribución de estas 10,000 proporciones. ¿Qué forma tiene? ¿Dónde está centrada?

Código R:

# Cargar el paquete para graficar
library(ggplot2)

# Parámetros de la simulación
num_simulaciones <- 10000
tamano_muestra <- 200
proporciones_muestrales <- numeric(num_simulaciones) # Vector para guardar los resultados

# 1. Bucle para tomar 10,000 muestras
set.seed(222)
for (i in 1:num_simulaciones) {
  muestra <- sample(poblacion, tamano_muestra)
  proporciones_muestrales[i] <- sum(muestra == "Posee ADN taíno") / length(muestra)
}

# 2. Crear un dataframe con los resultados
resultados_df <- data.frame(Proporciones = proporciones_muestrales)

# 3. Graficar el histograma
ggplot(resultados_df, aes(x = Proporciones)) +
  geom_histogram(aes(y = after_stat(density)), binwidth = 0.01, fill = "dodgerblue", color = "black", alpha = 0.7) +
  geom_vline(xintercept = proporcion_real, color = "orange", linetype = "dashed", linewidth = 1.0) +
  stat_function(fun = dnorm, args = list(mean = mean(proporciones_muestrales), sd = sd(proporciones_muestrales)), color = "darkred", linewidth = 1) +
  labs(
    x = "Proporción Muestral",
    y = "Densidad"
  ) +
  theme_minimal()

Figura 1: Histograma de las proporciones muestrales (n=200) con curva normal superpuesta. La línea naranja entrecortada indica la proporción real de la población (0.33).

Interpretación del Resultado: El histograma muestra una distribución en forma de campana, muy parecida a una distribución normal. Está centrada muy cerca de la proporción real de la población (0.33). Esto es exactamente lo que predice el Teorema del Límite Central.

Extensión 2: Cambia el tamaño de la muestra a 10. ¿Cómo afecta esto la forma de la distribución de las proporciones muestrales? ¿A cuál distribución ya estudiada se parece?

Extensión 3: Cambia el números de simulaciones a 100 (tamaño de muestra = 200). Indica cómo cambia la distribución de proporciones.

Ejercicio 3: Cálculo e Interpretación de un Intervalo de Confianza

Objetivo: Calcular un rango de valores plausibles para el parámetro poblacional y entender su significado.

Procedimiento:

Usa la primera muestra que tomaste en el Ejercicio 1 (prop_muestra_1) para calcular e interpretar un intervalo de confianza del 95% para la proporción de puertorriqueños que poseen ADN taíno. Asumimos una distribución normal de las proporciones.

La fórmula para el intervalo de confianza del 95% para una proporción es:
\[ \hat{p} \pm Z_{\alpha/2} \times \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \] donde:

  • \(\hat{p}\) es la proporción muestral (estimación puntual).
  • \(Z_{\alpha/2}\) es el valor crítico de la distribución normal estándar para un nivel de confianza del 95% (aproximadamente 1.96).
  • \(n\) es el tamaño de la muestra.

Código R:

# Datos de nuestra primera muestra
p_hat <- prop_muestra_1 # 0.16
n <- 200
nivel_confianza <- 0.95

# Calcular el valor Z para un 95% de confianza
# (1 - 0.95) / 2 = 0.025. Buscamos el cuantil 1 - 0.025 = 0.975
z_score <- qnorm(1 - (1 - nivel_confianza) / 2)

# Calcular el error estándar de la proporción
error_estandar <- sqrt((p_hat * (1 - p_hat)) / n)

# Calcular el margen de error
margen_de_error <- z_score * error_estandar

# Calcular el intervalo de confianza
limite_inferior <- p_hat - margen_de_error
limite_superior <- p_hat + margen_de_error

# Imprimir el resultado
cat("Estimación Puntual (p̂):", p_hat, "\n")
## Estimación Puntual (p̂): 0.36
cat("Intervalo de Confianza del 95%: [", limite_inferior, ",", limite_superior, "]\n")
## Intervalo de Confianza del 95%: [ 0.2934766 , 0.4265234 ]

Interpretación del Resultado: El resultado será algo como: Intervalo de Confianza del 95%: [ 0.293, 0.427 ]. La interpretación correcta es: “Tenemos un 95% de confianza en que la verdadera proporción de todos los puertorriqueños que poseen ADN taíno se encuentra entre 29% y 43%.” Nota que el valor real (0.33) está dentro de este intervalo.

Extensión 4: Cambia el nivel de confianza a 90% y 99%. ¿Cómo afecta esto el ancho del intervalo de confianza?

Ejercicio 4: Prueba de Hipótesis

Objetivo: Utilizar el marco de la prueba de hipótesis para tomar una decisión sobre una afirmación.

Procedimiento:

Un investigador piensa que la proporción de ADN taíno es menor en Culebra. Quiere probar si la proporción es menor que el 33% del estudio a nivel de todo Puerto Rico. Su muestra (muestra_2 del Ejercicio 1) arrojó una proporción de 0.30. ¿Es esta evidencia suficiente para apoyar la afirmación del investigador?

  • Hipótesis Nula (H₀): La proporción de uso es 0.33 (p = 0.33).
  • Hipótesis Alternativa (Hₐ): La proporción de ADN taíno es menor de 0.33 (p < 0.33).

Usa la función prop.test() para realizar la prueba.

Código R:

# Datos de la muestra 2
exitos <- sum(muestra_2 == "Posee ADN taíno") # Número de personas con ADN taíno
n <- length(muestra_2) # Tamaño total de la muestra

# Realizar la prueba de hipótesis de una cola
# H₀: p = 0.33
# Hₐ: p < 0.33
resultado_test <- prop.test(
  x = exitos, # número de éxitos en la muestra o p*n
  n = n, # tamaño de la muestra = 200
  p = 0.33,
  # para dos colas
  alternative = "less",
  correct = FALSE # Usamos FALSE para comparar con la fórmula del Z-test
)
# Imprimir los resultados
print(resultado_test)
## 
##  1-sample proportions test without continuity correction
## 
## data:  exitos out of n, null probability 0.33
## X-squared = 1.8318, df = 1, p-value = 0.08796
## alternative hypothesis: true p is less than 0.33
## 95 percent confidence interval:
##  0.0000000 0.3401004
## sample estimates:
##     p 
## 0.285
# Graficar el histograma y la distribución normal bajo H0 y líneas verticales de 0.27 y 0.40
ggplot(resultados_df, aes(x = Proporciones)) +
  geom_histogram(aes(y = after_stat(density)), binwidth = 0.01,
                 fill = "lightblue", color = "black") +
  geom_vline(xintercept = 0.33, color = "red", linetype = "dashed", linewidth = 1) +  # Línea en 0.33
  geom_vline(xintercept = 0.285, color = "blue", linetype = "dashed", linewidth = 1) +  # Línea en 0.30
  stat_function(fun = dnorm, args = list(mean = 0.33, sd = sqrt((0.33 * (1 - 0.33)) / n)), color = "darkgreen", linewidth = 1) +
  # Shaded area for the left 0.05 region
  stat_function(fun = dnorm, 
                args = list(mean = 0.33, sd = sqrt((0.33 * (1 - 0.33)) / n)),
                xlim = c(0.15, qnorm(0.05, mean = 0.33, sd = sqrt((0.33 * (1 - 0.33)) / n))),
                geom = "area", 
                fill = "red", 
                alpha = 0.3) +
  labs(
    x = "Proporción Muestral",
    y = "Densidad"
  ) +
  theme_minimal()

Figura 2: Histograma de las proporciones muestrales (n=200) con curva normal bajo H₀. La línea roja entrecortada indica la proporción bajo H₀ (0.33) y la línea azul entrecortada indica la proporción muestral observada (0.285). El área sombreada en rojo representa el 5% izquierdo de la distribución bajo H₀.

Interpretación del Resultado: La salida de prop.test te dará un valor p (p-value). Si el valor p es, por ejemplo, 0.1462, es mayor que el nivel de significancia común (α = 0.05).

  • Decisión: No rechazamos la hipótesis nula.
  • Conclusión: “Con un nivel de significancia de 0.05, no encontramos evidencia estadística suficiente para concluir que la proporción de personas con ADN taíno en Culebra es menor que el 33% nacional.” Aunque nuestra muestra fue del 29%, esta diferencia no es lo suficientemente grande como para ser considerada significativa; podría deberse simplemente a la variabilidad del muestreo.

Extensión 5: En ocasiones no se tiene un valor estimado de la muestra antes de hacer una investigación. Supongamos que el investigador no sabe de antemano cuál es la proporción de su muestra y en su propuesta de investigación solo indica que la proporción en Culebra es diferente (mayor o menor) al 33%. ¿Cómo cambiarías las hipótesis nula y alternativa? Usa alternative = two.sided. Realiza la prueba y comenta los resultados.