Introducción a la Inferencia Estadística

Algunas Definiciones

Estimar una Proporción Poblacional

Definición: Estimar una proporción poblacional implica usar datos de una muestra para aproximar la proporción de individuos en una población que presentan una característica determinada.
Fórmula para la Proporción Muestral (\(\hat{p}\)):
\[ \hat{p} = \frac{x}{n} \] donde \(x\) es el número de éxitos en la muestra, y \(n\) es el tamaño de la muestra.

Margen de Error

Definición: El margen de error es la cantidad de incertidumbre asociada con una estimación basada en una muestra.
Fórmula:
\[ E = Z \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \] donde:
- \(Z\): Puntaje Z correspondiente al nivel de confianza (por ejemplo, 1.96 para 95%)
- \(\hat{p}\): Proporción muestral
- \(n\): Tamaño de la muestra

Intervalo de Confianza

Definición: Un intervalo de confianza es un rango de valores dentro del cual es probable que se encuentre el verdadero valor de un parámetro poblacional, con un cierto nivel de confianza.
Fórmula para un Intervalo de Confianza: \[ \hat{p} \pm E \] donde:
- \(\hat{p}\): Proporción muestral
- \(E\): Margen de error

Valor Z

Definición: El valor Z es un puntaje estándar que indica cuántas desviaciones estándar un valor de una proporción está por encima o por debajo de la media en una distribución normal.
Cálculo del Valor Z: \[ Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1 - p_0)}{n}}} \] donde:
- \(\hat{p}\): Proporción muestral
- \(p_0\): Valor de la hipótesis nula
- \(n\): Tamaño de la muestra

EJERCICIO 1: Estimación de una Proporción Poblacional

Estudios indican que una proporción significativa de los puertorriqueños, alrededor del 60%, posee ADN taíno, lo que refleja la herencia indígena de la isla.
Para investigar esta afirmación, se toma una muestra aleatoria de 200 individuos de una población simulada con la población de Puerto Rico.

Primero vamos a generar una población de 3 millones de Puertorriqueños, donde el 60% posee ADN taíno. Luego, tomaremos una muestra aleatoria de 200 individuos y estimaremos la proporción de individuos con ADN taíno en la muestra.

# Generar una población de 3 millones de Puertorriqueños
popsize<-3000000 
pob60taina <-c(rep("taina",0.60*popsize),rep("no_taina",0.40*popsize))

# Tomar una muestra aleatoria de 200 individuos
set.seed(123)
muestra <- sample(pob60taina,200,replace=FALSE)

# Calcular la proporción de individuos con ADN taíno en la muestra
prop_muestra <- sum(muestra == "taina") / length(muestra)
prop_muestra

## [1] 0.625

Vamos a tomar otra muestra aleatoria de 200 individuos y calcular la proporción de individuos con ADN taíno en esta nueva muestra.

# Tomar otra muestra aleatoria de 200 individuos
set.seed(456)
muestra2 <- sample(pob60taina,200, replace=FALSE)

# Calcular la proporción de individuos con ADN taíno en la nueva muestra
prop_muestra2 <- sum(muestra2 == "taina") / length(muestra2)
prop_muestra2

## [1] 0.6

Vamos ahora a tomar 10000 muestras aleatorias de 200 individuos y calcular la proporción de individuos con ADN taíno en cada muestra. Luego, vamos a graficar un histograma de las proporciones muestrales para ver cómo se distribuyen.

# Cargar la librería ggplot2
library(ggplot2)

# Generar una población de 3 millones de Puertorriqueños
popsize <- 3000000
pob60taina <- c(rep("taina", 0.60 * popsize), rep("no_taina", 0.40 * popsize))

# Inicializar parámetros
set.seed(123)  # Para reproducibilidad
num_simulaciones <- 10000  # Número de repeticiones
tamano_muestra <- 200  # Tamaño de la muestra
proporciones <- numeric(num_simulaciones)  # Vector para almacenar las proporciones

# Repetir el muestreo 10,000 veces
for (i in 1:num_simulaciones) {
  muestra <- sample(pob60taina, tamano_muestra, replace = FALSE)
  proporciones[i] <- sum(muestra == "taina") / length(muestra)
}

# Crear un dataframe para graficar
resultados <- data.frame(ProporcionTaina = proporciones)

# Graficar el histograma con ggplot2
histo200 <- ggplot(resultados, aes(x = ProporcionTaina)) +
  geom_histogram(binwidth = 0.01, fill = "skyblue", color = "black") +
  labs(
    x = "Proporción de ADN Taíno",
    y = "Frecuencia"
  ) +
  xlim(0.45, 0.75) + # Escala fija en el eje x
  ylim(0, 2750) + # Escala fija en el eje y
  theme_minimal()
histo200

Vamos a repetir lo anterior con una muestra de 1000 individuos.

# Cargar la librería ggplot2
library(ggplot2)

# Generar una población de 3 millones de Puertorriqueños
popsize <- 3000000
pob60taina <- c(rep("taina", 0.60 * popsize), rep("no_taina", 0.40 * popsize))

# Inicializar parámetros
set.seed(123)  # Para reproducibilidad
num_simulaciones <- 10000  # Número de repeticiones
tamano_muestra <- 1000  # Tamaño de la muestra
proporciones <- numeric(num_simulaciones)  # Vector para almacenar las proporciones

# Repetir el muestreo 10,000 veces
for (i in 1:num_simulaciones) {
  muestra <- sample(pob60taina, tamano_muestra, replace = FALSE)
  proporciones[i] <- sum(muestra == "taina") / length(muestra)
}

# Crear un dataframe para graficar
resultados <- data.frame(ProporcionTaina = proporciones)

# Graficar el histograma con ggplot2
histo1000 <- ggplot(resultados, aes(x = ProporcionTaina)) +
  geom_histogram(binwidth = 0.01, fill = "skyblue", color = "black") +
  labs(
    x = "Proporción de ADN Taíno",
    y = "Frecuencia"
  ) +
  xlim(0.45, 0.75) +  # Escala fija en el eje x
  ylim(0, 2750) +  # Escala fija en el eje y
  theme_minimal()
histo1000

Vamos a comparar los histogramas:

library(gridExtra)
grid.arrange(histo200, histo1000, ncol = 2)

Lo anterior es una aplicación de lo que se conoce como el Teorema del Límite Central, que establece que, para una muestra suficientemente grande, la distribución de las proporciones o medias muestrales se aproxima a una distribución normal, independientemente de la distribución de la población original.

Otro concepto derivado del Teorema del Límite Central es el cálculo del error estándar de la media, que es una medida de la precisión de la estimación de la media poblacional a partir de la media muestral, y su fórmula es:

\[ SE = \frac{s}{\sqrt{n}} \]

Es decir, que mientras más grande es nuestra muestra, menor es el error estándar y mayor es la precisión de nuestra estimación.

Para calcular el error estándar de la proporción, la fórmula es:

\[ SE = \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \]

Calculo del Intervalo de Confianza para una Proporción Poblacional

Ahora vamos a calcular un intervalo de confianza del 95% (valor que se utiliza frecuentemente) para la proporción de individuos con ADN taíno en la población de Puerto Rico, utilizando una muestra de 200 individuos.

La fórmla para el intervalo de confianza es:

\[ \hat{p} \pm Z \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \].

donde:
- \(\hat{p}\): Proporción muestral.
- \(Z\): Puntaje Z correspondiente al nivel de confianza (por ejemplo, 1.96 para 95%).
- \(n\): Tamaño de la muestra.

A continuación el cálculo del intervalo de confianza:

# Generar una población de 3 millones de Puertorriqueños
popsize<-3000000 
pob60taina <-c(rep("taina",0.60*popsize),rep("no_taina",0.40*popsize))

# Tomar una muestra aleatoria de 200 individuos
set.seed(222)
muestra <- sample(pob60taina,200,replace=FALSE)

# Calcular la proporción de individuos con ADN taíno en la muestra
prop_muestra <- sum(muestra == "taina") / length(muestra)

# Calcular el intervalo de confianza del 95%
alpha <- 0.05
z <- qnorm(1 - alpha / 2)  # Puntaje Z para un nivel de confianza del 95%
margin_of_error <- z * sqrt((prop_muestra * (1 - prop_muestra)) / length(muestra))

ci_lower <- prop_muestra - margin_of_error
ci_upper <- prop_muestra + margin_of_error

cat("Proporción Muestral (p̂):", prop_muestra, "\n")

## Proporción Muestral (p̂): 0.615

cat("Intervalo de Confianza del 95%:", ci_lower, "a", ci_upper, "\n")

## Intervalo de Confianza del 95%: 0.5475626 a 0.6824374

Marco de Pruebas de Hipótesis

Definición: Las pruebas de hipótesis son un procedimiento formal para evaluar una afirmación sobre un parámetro poblacional utilizando datos muestrales.
Pasos en las Pruebas de Hipótesis:
1. Establecer las hipótesis:
  - Hipótesis nula (\(H_0\)): La afirmación que se desea probar (por ejemplo, \(p = p_0\)).
  - Hipótesis alternativa (\(H_a\)): La afirmación que se desea apoyar (por ejemplo, \(p \neq p_0\)).
2. Elegir un nivel de significancia (\(\alpha\)): Comúnmente 0.05.
3. Calcular el estadístico de prueba: \[ Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1 - p_0)}{n}}} \]
4. Determinar el valor \(p\): La probabilidad de observar el estadístico de prueba bajo la hipótesis nula.
5. Tomar una decisión:
  - Rechazar \(H_0\) si el valor \(p\) < \(\alpha\).
  - No rechazar \(H_0\) de lo contrario.
Errores en las Pruebas de Hipótesis:
- Error Tipo I: Rechazar \(H_ 0\) cuando es verdadera.
- Error Tipo II: No rechazar \(H_0\) cuando es falsa.
Valor Crítico: El valor que separa la región de rechazo de la región de no rechazo en una prueba de hipótesis.
Valor p: La probabilidad de observar un estadístico de prueba igual o más extremo que el observado, bajo la hipótesis nula.
Región de Rechazo: El rango de valores del estadístico de prueba que lleva al rechazo de la hipótesis nula.
Región de No Rechazo: El rango de valores del estadístico de prueba que lleva a no rechazar la hipótesis nula.

EJERCICIO: Prueba de Hipótesis sobre una Proporción Poblacional

Vamos a realizar una prueba de hipótesis para determinar si la proporción de individuos con ADN taíno en Culebra que es de 65% es diferente de la proporción de individuos con ADN taíno en la población de Puerto Rico, que es de 60%. Luego, realizaremos la prueba de hipótesis para determinar si la proporción de individuos con ADN taíno en Culebra es diferente de 60%

Primero, vamos a establecer las hipótesis nula y alternativa:

Hipótesis nula (\(H_0\)): La proporción de individuos con ADN taíno en la población de Puerto Rico es igual a 0.60.
Hipótesis alternativa (\(H_a\)): La proporción de individuos con ADN taíno en Culebra (0.65) es diferente de 0.60.

Vamos ahora a visualizar la distribución de la proporción de ADN taíno en 10,000 muestras de 200 individuos de la población de Puerto Rico, y agregar líneas verticales en 0.60 (roja) y 0.65 (azul) para visualizar las proporciones de interés.

# Cargar la librería ggplot2
library(ggplot2)

# Generar una población de 3 millones de Puertorriqueños
popsize <- 3000000
pob60taina <- c(rep("taina", 0.60 * popsize), rep("no_taina", 0.40 * popsize))

# Inicializar parámetros
set.seed(123)  # Para reproducibilidad
num_simulaciones <- 10000  # Número de repeticiones
tamano_muestra <- 200  # Tamaño de la muestra
proporciones <- numeric(num_simulaciones)  # Vector para almacenar las proporciones

# Repetir el muestreo 10,000 veces
for (i in 1:num_simulaciones) {
  muestra <- sample(pob60taina, tamano_muestra, replace = FALSE)
  proporciones[i] <- sum(muestra == "taina") / length(muestra)
}

# Crear un dataframe para graficar
resultados <- data.frame(ProporcionTaina = proporciones)

# Graficar el histograma con ggplot2
ggplot(resultados, aes(x = ProporcionTaina)) +
  geom_histogram(binwidth = 0.005, fill = "skyblue", color = "black") +
  geom_vline(xintercept = 0.6, color = "red", linetype = "dashed", size = 1) +  # Línea en 0.6
  geom_vline(xintercept = 0.65, color = "blue", linetype = "dashed", size = 1) +  # Línea en 0.65
  labs(
    subtitle = "Líneas verticales en 0.6 (roja) y 0.65 (azul)",
    x = "Proporción de ADN Taíno",
    y = "Frecuencia"
  ) +
  xlim(0.5, 0.8) +  # Escala centrada alrededor de 0.6
  theme_minimal()

# Calcular el valor p
valor_p <- sum(proporciones >= 0.65) / num_simulaciones

# Imprimir el valor p
cat("El valor p es:", valor_p, "\n")

## El valor p es: 0.0843

# Tomar una decisión
if (valor_p <= 0.05) {
  cat("Rechazamos H0: La proporción 0.65 es significativamente mayor que 0.6 (alfa = 0.05).\n")
} else {
  cat("No rechazamos H0: No hay evidencia suficiente para concluir que la proporción 0.65 es mayor que 0.6 (alfa = 0.05).\n")
}

## No rechazamos H0: No hay evidencia suficiente para concluir que la proporción 0.65 es mayor que 0.6 (alfa = 0.05).

Ahora vamos a repetir la prueba de hipótesis para determinar si una proporción de individuos con ADN taíno en Culebra de 70% es mayor a la de Puerto Rico en general (60%).

# Cargar la librería ggplot2
library(ggplot2)

# Generar una población de 3 millones de Puertorriqueños
popsize <- 3000000
pob60taina <- c(rep("taina", 0.60 * popsize), rep("no_taina", 0.40 * popsize))

# Inicializar parámetros
set.seed(123)  # Para reproducibilidad
num_simulaciones <- 10000  # Número de repeticiones
tamano_muestra <- 200  # Tamaño de la muestra
proporciones <- numeric(num_simulaciones)  # Vector para almacenar las proporciones

# Repetir el muestreo 10,000 veces
for (i in 1:num_simulaciones) {
  muestra <- sample(pob60taina, tamano_muestra, replace = FALSE)
  proporciones[i] <- sum(muestra == "taina") / length(muestra)
}

# Crear un dataframe para graficar
resultados <- data.frame(ProporcionTaina = proporciones)

# Graficar el histograma con ggplot2
ggplot(resultados, aes(x = ProporcionTaina)) +
  geom_histogram(binwidth = 0.005, fill = "skyblue", color = "black") +
  geom_vline(xintercept = 0.6, color = "red", linetype = "dashed", size = 1) +  # Línea en 0.6
  geom_vline(xintercept = 0.7, color = "blue", linetype = "dashed", size = 1) +  # Línea en 0.7
  labs(
    subtitle = "Líneas verticales en 0.6 (roja) y 0.7 (azul)",
    x = "Proporción de ADN Taíno",
    y = "Frecuencia"
  ) +
  xlim(0.5, 0.8) +  # Escala centrada alrededor de 0.6
  theme_minimal()

# Calcular la proporción de individuos con ADN taíno en la muestra
prop_muestra <- sum(muestra == "taina") / length(muestra)

# Calcular el intervalo de confianza del 95%
alpha <- 0.05
z <- qnorm(1 - alpha / 2)  # Puntaje Z para un nivel de confianza del 95%
margin_of_error <- z * sqrt((prop_muestra * (1 - prop_muestra)) / length(muestra))

ci_lower <- prop_muestra - margin_of_error
ci_upper <- prop_muestra + margin_of_error

cat("Proporción Muestral (p̂):", prop_muestra, "\n")

## Proporción Muestral (p̂): 0.58

cat("Intervalo de Confianza del 95%:", ci_lower, "a", ci_upper, "\n")

## Intervalo de Confianza del 95%: 0.5115975 a 0.6484025

Vamos a obtener un valor p para la prueba de hipótesis y tomar una decisión.

# Calcular el valor p
valor_p <- sum(proporciones >= 0.7) / num_simulaciones

# Imprimir el valor p
cat("El valor p es:", valor_p, "\n")

## El valor p es: 0.0029

# Tomar una decisión
if (valor_p <= 0.05) {
  cat("Rechazamos H0: La proporción 0.7 es significativamente mayor que 0.6 (alfa = 0.05).\n")
} else {
  cat("No rechazamos H0: No hay evidencia suficiente para concluir que la proporción 0.7 es mayor que 0.6 (alfa = 0.05).\n")
}

## Rechazamos H0: La proporción 0.7 es significativamente mayor que 0.6 (alfa = 0.05).