Inferencia Estadística con Proporciones

Introducción y Definiciones Básicas

La inferencia estadística es una rama de la estadística que se encarga de hacer generalizaciones sobre una población basándose en una muestra representativa de esa población.

Vamos a explorar conceptos fundamentales de las proporciones poblacionales, incluyendo la estimación puntual, el valor Z, el margen de error y los intervalos de confianza. Estos conceptos son esenciales para entender cómo podemos usar datos muestrales para hacer afirmaciones sobre una población más grande.

Estimar una Proporción Poblacional

Definición: Estimar una proporción poblacional implica usar datos de una muestra para aproximar la proporción de individuos en una población que presentan una característica determinada.
Fórmula para la Proporción Muestral (\(\hat{p}\) ):
\[ \hat{p} = \frac{x}{n} \] donde \(x\) es el número de éxitos en la muestra, y \(n\) es el tamaño de la muestra.

Valor Z

Definición: El valor Z es un puntaje estándar que indica cuántas desviaciones estándar un valor de una proporción está por encima o por debajo de la media en una distribución normal.
Cálculo del Valor Z: \[ Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1 - p_0)}{n}}} \] donde:
- \(\hat{p}\): Proporción muestral
- \(p_0\): Valor de la hipótesis nula
- \(n\): Tamaño de la muestra

Margen de Error

Definición: El margen de error es la cantidad de incertidumbre asociada con una estimación basada en una muestra.
Fórmula:
\[ E = Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \] donde:
- \(Z\): Puntaje Z correspondiente al nivel de confianza (por ejemplo, 1.96 para 95%)
- \(\hat{p}\): Proporción muestral
- \(n\): Tamaño de la muestra

Intervalo de Confianza

Definición: Un intervalo de confianza es un rango de valores dentro del cual es probable que se encuentre el verdadero valor de un parámetro poblacional, con un cierto nivel de confianza.
Fórmula para un Intervalo de Confianza: \[ \hat{p} \pm E \] donde:
- \(\hat{p}\): Proporción muestral
- \(E\): Margen de error

Contexto General para los Ejercicios de Inferencia Estadística

Algunos estudios indican que la población de Puerto Rico tiene entre un 14% a 60% de ADN taíno (dependiendo del tipo de análisis: cromosoma Y o ADN mitocondrial, respectivamente), lo que refleja la herencia indígena de la isla. A partir de estos datos, exploraremos dos escenarios (asumiendo proporciones de 14% y 60%) para practicar conceptos fundamentales de la inferencia estadística.

Ejercicio 1: Estimación Puntual y Variabilidad Muestral

Objetivo: Entender que una estimación puntual (la proporción de una muestra) varía cada vez que tomamos una muestra diferente.

Escenario A: Población con 14% de ADN Taíno

Crear una población simulada de 3,000,000 de personas con un 14% de ADN taíno.
Tomar muestras aleatorias de 200 personas y comparar las proporciones.

# 1. Crear la población
tamano_poblacion <- 3000000
proporcion_real <- 0.14
poblacion_14 <- c(rep("Posee ADN taíno", tamano_poblacion * proporcion_real),
                  rep("No posee ADN taíno", tamano_poblacion * (1 - proporcion_real)))

# 2. Tomar la primera muestra y calcular la proporción
set.seed(111) 
muestra_1 <- sample(poblacion_14, 200)
prop_muestra_1 <- sum(muestra_1 == "Posee ADN taíno") / length(muestra_1)

# 3. Tomar la segunda muestra y calcular la proporción
set.seed(113) 
muestra_2 <- sample(poblacion_14, 200)
prop_muestra_2 <- sum(muestra_2 == "Posee ADN taíno") / length(muestra_2)

# 4. Imprimir y comparar los resultados
cat("Proporción en la Muestra 1 (14% real):", prop_muestra_1, "\n")

## Proporción en la Muestra 1 (14% real): 0.185

cat("Proporción en la Muestra 2 (14% real):", prop_muestra_2, "\n")

## Proporción en la Muestra 2 (14% real): 0.13

Interpretación: Las dos proporciones muestrales son diferentes entre sí y distintas de la proporción real (0.14). Esto demuestra la variabilidad del muestreo.

Extensión 1: Repite el proceso de tomar muestras dos veces más (usa otras semillas set.seed(): 222 y 333).

Escenario B: Población con 60% de ADN Taíno

Haremos el mismo ejercicio asumiendo un 60% de ADN taíno en la población.

# Generar población del 60%
pob60taina <- c(rep("taina", 0.60 * tamano_poblacion), 
                rep("no_taina", 0.40 * tamano_poblacion))

# Tomar primera muestra aleatoria
set.seed(123)
muestra_60_1 <- sample(pob60taina, 200, replace=FALSE)
prop_muestra_60_1 <- sum(muestra_60_1 == "taina") / length(muestra_60_1)

# Tomar segunda muestra aleatoria
set.seed(456)
muestra_60_2 <- sample(pob60taina, 200, replace=FALSE)
prop_muestra_60_2 <- sum(muestra_60_2 == "taina") / length(muestra_60_2)

cat("Proporción en la Muestra 1 (60% real):", prop_muestra_60_1, "\n")

## Proporción en la Muestra 1 (60% real): 0.625

cat("Proporción en la Muestra 2 (60% real):", prop_muestra_60_2, "\n")

## Proporción en la Muestra 2 (60% real): 0.6

Ejercicio 2: El Teorema del Límite Central en Acción

Objetivo: Visualizar cómo se distribuyen las proporciones muestrales y entender el Teorema del Límite Central (TLC).

Distribución de 10,000 muestras (Población 14%)

Tomaremos 10,000 muestras de 200 personas y graficaremos su distribución.

num_simulaciones <- 10000
tamano_muestra <- 200
proporciones_muestrales <- numeric(num_simulaciones)

set.seed(222)
for (i in 1:num_simulaciones) {
  muestra <- sample(poblacion_14, tamano_muestra)
  proporciones_muestrales[i] <- sum(muestra == "Posee ADN taíno") / length(muestra)
}

resultados_df <- data.frame(Proporciones = proporciones_muestrales)

ggplot(resultados_df, aes(x = Proporciones)) +
  geom_histogram(aes(y = after_stat(density)), binwidth = 0.01, fill = "dodgerblue", color = "black", alpha = 0.7) +
  geom_vline(xintercept = proporcion_real, color = "orange", linetype = "dashed", linewidth = 1.0) +
  stat_function(fun = dnorm, args = list(mean = mean(proporciones_muestrales), sd = sd(proporciones_muestrales)), color = "darkred", linewidth = 1) +
  labs(title = "Distribución de Proporciones Muestrales (n=200, p=0.14)", x = "Proporción Muestral", y = "Densidad") +
  theme_minimal()

Interpretación: El histograma muestra una distribución en forma de campana (normal), centrada en la proporción real de la población (0.14).

Extensión 2: Cambia el tamaño de la muestra a 10. ¿Cómo afecta esto la forma de la distribución?

Extensión 3: Cambia el número de simulaciones a 100. Indica cómo cambia la distribución.

Efecto del Tamaño de la Muestra (Población 60%)

Comparemos qué sucede cuando aumentamos el tamaño de la muestra de \(n=200\) a \(n=1000\).

# Simulación para n=200
proporciones_200 <- numeric(num_simulaciones)
set.seed(123)
for (i in 1:num_simulaciones) {
  muestra <- sample(pob60taina, 200, replace = FALSE)
  proporciones_200[i] <- sum(muestra == "taina") / length(muestra)
}
resultados_200 <- data.frame(ProporcionTaina = proporciones_200)

histo200 <- ggplot(resultados_200, aes(x = ProporcionTaina)) +
  geom_histogram(binwidth = 0.01, fill = "skyblue", color = "black") +
  labs(title = "Muestra n=200", x = "Proporción", y = "Frecuencia") +
  xlim(0.45, 0.75) + ylim(0, 2750) + theme_minimal()

# Simulación para n=1000
proporciones_1000 <- numeric(num_simulaciones)
set.seed(123)
for (i in 1:num_simulaciones) {
  muestra <- sample(pob60taina, 1000, replace = FALSE)
  proporciones_1000[i] <- sum(muestra == "taina") / length(muestra)
}
resultados_1000 <- data.frame(ProporcionTaina = proporciones_1000)

histo1000 <- ggplot(resultados_1000, aes(x = ProporcionTaina)) +
  geom_histogram(binwidth = 0.01, fill = "skyblue", color = "black") +
  labs(title = "Muestra n=1000", x = "Proporción", y = "Frecuencia") +
  xlim(0.45, 0.75) + ylim(0, 2750) + theme_minimal()

# Comparar histogramas
grid.arrange(histo200, histo1000, ncol = 2)

Error Estándar: Mientras más grande es la muestra, menor es el error estándar y mayor es la precisión. La fórmula del error estándar de la proporción es: \[ SE = \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \]

Ejercicio 3: Cálculo e Interpretación de un Intervalo de Confianza

Objetivo: Calcular un rango de valores plausibles para el parámetro poblacional.

La fórmula para el intervalo de confianza del 95% es:
\[ \hat{p} \pm Z_{\alpha/2} \times \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \]

Cálculo con la muestra del 14%

p_hat <- prop_muestra_1 # Proporción de la primera muestra (aprox 0.19)
n <- 200
nivel_confianza <- 0.95

z_score <- qnorm(1 - (1 - nivel_confianza) / 2)
error_estandar <- sqrt((p_hat * (1 - p_hat)) / n)
margen_de_error <- z_score * error_estandar

limite_inferior <- p_hat - margen_de_error
limite_superior <- p_hat + margen_de_error

cat("Estimación Puntual (p̂):", p_hat, "\n")

## Estimación Puntual (p̂): 0.185

cat("Intervalo de Confianza del 95%: [", limite_inferior, ",", limite_superior, "]\n")

## Intervalo de Confianza del 95%: [ 0.1311857 , 0.2388143 ]

Interpretación: Tenemos un 95% de confianza en que la verdadera proporción de todos los puertorriqueños que poseen ADN taíno se encuentra dentro de este intervalo. Nota que el valor real (0.14) está dentro.

Extensión 4: Cambia el nivel de confianza a 90% y 99%. ¿Cómo afecta esto el ancho del intervalo?

Ejercicio 4: Pruebas de Hipótesis

Marco Teórico

Establecer las hipótesis:
- Hipótesis nula (\(H_0\)): La afirmación que se desea probar (ej. \(p = p_0\)).
- Hipótesis alternativa (\(H_a\)): La afirmación que se desea apoyar (ej. \(p \neq p_0\)).
Elegir un nivel de significancia (\(\alpha\)): Comúnmente 0.05.
Valor p: Probabilidad de observar un estadístico igual o más extremo bajo \(H_0\).
Decisión: Rechazar \(H_0\) si el valor \(p\) < \(\alpha\).

Prueba Analítica (Escenario 14%)

Un investigador piensa que la proporción de ADN taíno es menor en Culebra. Su muestra (n = 200) arrojó una proporción de 9.5%.

\(H_0\): \(p \geq 0.14\)
\(H_a\): \(p < 0.14\)

# Parámetros de la nueva prueba
n_culebra <- 200 # Asumiendo el mismo tamaño de muestra (n=200)
prop_observada <- 0.095
p_nula <- 0.14

# Calcular el número de éxitos (personas con ADN taíno en la muestra)
exitos_culebra <- round(prop_observada * n_culebra) 

# 1. Realizar la prueba de hipótesis analítica
# H0: p >= 0.14 (R usa la igualdad para el cálculo del p-value)
# Ha: p < 0.14
resultado_test_culebra <- prop.test(
  x = exitos_culebra, 
  n = n_culebra, 
  p = p_nula,
  alternative = "less", # Prueba de cola izquierda
  correct = FALSE       # Sin corrección de Yates para mantener consistencia
)

# Imprimir el resultado numérico
print(resultado_test_culebra)

## 
##  1-sample proportions test without continuity correction
## 
## data:  exitos_culebra out of n_culebra, null probability p_nula
## X-squared = 3.3638, df = 1, p-value = 0.03332
## alternative hypothesis: true p is less than 0.14
## 95 percent confidence interval:
##  0.0000000 0.1347093
## sample estimates:
##     p 
## 0.095

# 2. Visualización Gráfica de la Prueba
# Calcular la desviación estándar bajo H0
sd_nula <- sqrt((p_nula * (1 - p_nula)) / n_culebra)

# Crear la gráfica
ggplot(data.frame(x = c(0.05, 0.25)), aes(x = x)) +
  # Curva normal teórica bajo H0
  stat_function(fun = dnorm, args = list(mean = p_nula, sd = sd_nula), 
                color = "darkgreen", linewidth = 1) +
  # Línea de la hipótesis nula (0.14)
  geom_vline(xintercept = p_nula, color = "red", linetype = "dashed", linewidth = 1) +  
  # Línea de la proporción observada (0.12)
  geom_vline(xintercept = prop_observada, color = "blue", linetype = "dashed", linewidth = 1) +  
  # Área sombreada de rechazo (alfa = 0.05, cola izquierda)
  stat_function(fun = dnorm, 
                args = list(mean = p_nula, sd = sd_nula),
                xlim = c(0.05, qnorm(0.05, mean = p_nula, sd = sd_nula)),
                geom = "area", fill = "red", alpha = 0.3) +
  labs(
    title = "Prueba de Hipótesis: ADN Taíno en Culebra",
    subtitle = "H0: p = 0.14 (rojo) | Observado: p = 0.095 (azul)",
    x = "Proporción Muestral",
    y = "Densidad"
  ) +
  theme_minimal()

Conclusión: Si el valor p es menor a \(\alpha\) = 0.05, rechazamos la hipótesis nula.

Extensión 5: ¿Cómo cambiarías las hipótesis y el resultado si el investigador solo indica de antemano que la proporción es diferente? Usa alternative = "two.sided".

Prueba por Simulación (Escenario 60%)

Vamos a evaluar si una proporción observada en Culebra del 65% o del 70% es significativamente mayor que el 60% nacional, utilizando nuestras 10,000 simulaciones previas.

\(H_0\): \(p \leq 0.60\)
\(H_a\): \(p > 0.60\)

# Graficar la distribución bajo H0 (p=0.60) y las líneas de interés
ggplot(resultados_200, aes(x = ProporcionTaina)) +
  geom_histogram(binwidth = 0.005, fill = "skyblue", color = "black") +
  geom_vline(xintercept = 0.60, color = "red", linetype = "dashed", linewidth = 1) +  
  geom_vline(xintercept = 0.65, color = "blue", linetype = "dashed", linewidth = 1) +  
  geom_vline(xintercept = 0.70, color = "purple", linetype = "dashed", linewidth = 1) +
  labs(
    title = "Simulación de Pruebas de Hipótesis",
    subtitle = "H0: 0.60 (roja) | Observadas: 0.65 (azul), 0.70 (morada)",
    x = "Proporción de ADN Taíno",
    y = "Frecuencia"
  ) +
  xlim(0.5, 0.8) + theme_minimal()

# Prueba para 65%
valor_p_65 <- sum(proporciones_200 >= 0.65) / num_simulaciones
cat("El valor p para 65% es:", valor_p_65, "\n")

## El valor p para 65% es: 0.0843

if (valor_p_65 <= 0.05) {
  cat("Rechazamos H0: La proporción 0.65 es significativamente mayor que 0.60.\n\n")
} else {
  cat("No rechazamos H0: No hay evidencia suficiente para concluir que 0.65 es mayor que 0.60.\n\n")
}

## No rechazamos H0: No hay evidencia suficiente para concluir que 0.65 es mayor que 0.60.

# Prueba para 70%
valor_p_70 <- sum(proporciones_200 >= 0.70) / num_simulaciones
cat("El valor p para 70% es:", valor_p_70, "\n")

## El valor p para 70% es: 0.0029

if (valor_p_70 <= 0.05) {
  cat("Rechazamos H0: La proporción 0.70 es significativamente mayor que 0.60.\n")
} else {
  cat("No rechazamos H0: No hay evidencia suficiente para concluir que 0.70 es mayor que 0.60.\n")
}

## Rechazamos H0: La proporción 0.70 es significativamente mayor que 0.60.