Definición: Un intervalo de confianza es un
rango de valores dentro del cual es probable que se encuentre el
verdadero valor de un parámetro poblacional, con un cierto nivel de
confianza.
Fórmula para un Intervalo de Confianza: \[ \hat{p} \pm E \] donde:
Estudios indican que una proporción significativa de los
puertorriqueños, alrededor del 60%, posee ADN taíno, lo que refleja la
herencia indígena de la isla.
Para investigar esta afirmación, se toma una muestra aleatoria de 200
individuos de una población simulada con la población de Puerto
Rico.
Primero vamos a generar una población de 3 millones de Puertorriqueños, donde el 60% posee ADN taíno. Luego, tomaremos una muestra aleatoria de 200 individuos y estimaremos la proporción de individuos con ADN taíno en la muestra.
# Generar una población de 3 millones de Puertorriqueños
popsize<-3000000
pob60taina <-c(rep("taina",0.60*popsize),rep("no_taina",0.40*popsize))
# Tomar una muestra aleatoria de 200 individuos
set.seed(123)
muestra <- sample(pob60taina,200,replace=FALSE)
# Calcular la proporción de individuos con ADN taíno en la muestra
prop_muestra <- sum(muestra == "taina") / length(muestra)
prop_muestra
## [1] 0.625
Vamos a tomar otra muestra aleatoria de 200 individuos y calcular la proporción de individuos con ADN taíno en esta nueva muestra.
# Tomar otra muestra aleatoria de 200 individuos
set.seed(456)
muestra2 <- sample(pob60taina,200, replace=FALSE)
# Calcular la proporción de individuos con ADN taíno en la nueva muestra
prop_muestra2 <- sum(muestra2 == "taina") / length(muestra2)
prop_muestra2
## [1] 0.6
Vamos ahora a tomar 10000 muestras aleatorias de 200 individuos y calcular la proporción de individuos con ADN taíno en cada muestra. Luego, vamos a graficar un histograma de las proporciones muestrales para ver cómo se distribuyen.
# Cargar la librería ggplot2
library(ggplot2)
# Generar una población de 3 millones de Puertorriqueños
popsize <- 3000000
pob60taina <- c(rep("taina", 0.60 * popsize), rep("no_taina", 0.40 * popsize))
# Inicializar parámetros
set.seed(123) # Para reproducibilidad
num_simulaciones <- 10000 # Número de repeticiones
tamano_muestra <- 200 # Tamaño de la muestra
proporciones <- numeric(num_simulaciones) # Vector para almacenar las proporciones
# Repetir el muestreo 10,000 veces
for (i in 1:num_simulaciones) {
muestra <- sample(pob60taina, tamano_muestra, replace = FALSE)
proporciones[i] <- sum(muestra == "taina") / length(muestra)
}
# Crear un dataframe para graficar
resultados <- data.frame(ProporcionTaina = proporciones)
# Graficar el histograma con ggplot2
histo200 <- ggplot(resultados, aes(x = ProporcionTaina)) +
geom_histogram(binwidth = 0.01, fill = "skyblue", color = "black") +
labs(
x = "Proporción de ADN Taíno",
y = "Frecuencia"
) +
xlim(0.45, 0.75) + # Escala fija en el eje x
ylim(0, 2750) + # Escala fija en el eje y
theme_minimal()
histo200
Vamos a repetir lo anterior con una muestra de 1000 individuos.
# Cargar la librería ggplot2
library(ggplot2)
# Generar una población de 3 millones de Puertorriqueños
popsize <- 3000000
pob60taina <- c(rep("taina", 0.60 * popsize), rep("no_taina", 0.40 * popsize))
# Inicializar parámetros
set.seed(123) # Para reproducibilidad
num_simulaciones <- 10000 # Número de repeticiones
tamano_muestra <- 1000 # Tamaño de la muestra
proporciones <- numeric(num_simulaciones) # Vector para almacenar las proporciones
# Repetir el muestreo 10,000 veces
for (i in 1:num_simulaciones) {
muestra <- sample(pob60taina, tamano_muestra, replace = FALSE)
proporciones[i] <- sum(muestra == "taina") / length(muestra)
}
# Crear un dataframe para graficar
resultados <- data.frame(ProporcionTaina = proporciones)
# Graficar el histograma con ggplot2
histo1000 <- ggplot(resultados, aes(x = ProporcionTaina)) +
geom_histogram(binwidth = 0.01, fill = "skyblue", color = "black") +
labs(
x = "Proporción de ADN Taíno",
y = "Frecuencia"
) +
xlim(0.45, 0.75) + # Escala fija en el eje x
ylim(0, 2750) + # Escala fija en el eje y
theme_minimal()
histo1000
Vamos a comparar los histogramas:
library(gridExtra)
grid.arrange(histo200, histo1000, ncol = 2)
Lo anterior es una aplicación de lo que se conoce como el Teorema del Límite Central, que establece que, para una muestra suficientemente grande, la distribución de las proporciones o medias muestrales se aproxima a una distribución normal, independientemente de la distribución de la población original.
Otro concepto derivado del Teorema del Límite Central es el cálculo del error estándar de la media, que es una medida de la precisión de la estimación de la media poblacional a partir de la media muestral, y su fórmula es:
\[ SE = \frac{s}{\sqrt{n}} \]
Es decir, que mientras más grande es nuestra muestra, menor es el error estándar y mayor es la precisión de nuestra estimación.
Para calcular el error estándar de la proporción, la fórmula es:
\[ SE = \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \]
Ahora vamos a calcular un intervalo de confianza del 95% (valor que se utiliza frecuentemente) para la proporción de individuos con ADN taíno en la población de Puerto Rico, utilizando una muestra de 200 individuos.
La fórmla para el intervalo de confianza es:
\[ \hat{p} \pm Z \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \].
donde:
- \(\hat{p}\): Proporción
muestral.
- \(Z\): Puntaje Z correspondiente al
nivel de confianza (por ejemplo, 1.96 para 95%).
- \(n\): Tamaño de la muestra.
A continuación el cálculo del intervalo de confianza:
# Generar una población de 3 millones de Puertorriqueños
popsize<-3000000
pob60taina <-c(rep("taina",0.60*popsize),rep("no_taina",0.40*popsize))
# Tomar una muestra aleatoria de 200 individuos
set.seed(222)
muestra <- sample(pob60taina,200,replace=FALSE)
# Calcular la proporción de individuos con ADN taíno en la muestra
prop_muestra <- sum(muestra == "taina") / length(muestra)
# Calcular el intervalo de confianza del 95%
alpha <- 0.05
z <- qnorm(1 - alpha / 2) # Puntaje Z para un nivel de confianza del 95%
margin_of_error <- z * sqrt((prop_muestra * (1 - prop_muestra)) / length(muestra))
ci_lower <- prop_muestra - margin_of_error
ci_upper <- prop_muestra + margin_of_error
cat("Proporción Muestral (p̂):", prop_muestra, "\n")
## Proporción Muestral (p̂): 0.615
cat("Intervalo de Confianza del 95%:", ci_lower, "a", ci_upper, "\n")
## Intervalo de Confianza del 95%: 0.5475626 a 0.6824374
Definición: Las pruebas de hipótesis son un procedimiento formal para evaluar una afirmación sobre un parámetro poblacional utilizando datos muestrales.
Pasos en las Pruebas de Hipótesis:
Errores en las Pruebas de Hipótesis:
Valor Crítico: El valor que separa la región de rechazo de la región de no rechazo en una prueba de hipótesis.
Valor p: La probabilidad de observar un estadístico de prueba igual o más extremo que el observado, bajo la hipótesis nula.
Región de Rechazo: El rango de valores del estadístico de prueba que lleva al rechazo de la hipótesis nula.
Región de No Rechazo: El rango de valores del estadístico de prueba que lleva a no rechazar la hipótesis nula.
Vamos a realizar una prueba de hipótesis para determinar si la proporción de individuos con ADN taíno en Culebra que es de 65% es diferente de la proporción de individuos con ADN taíno en la población de Puerto Rico, que es de 60%. Luego, realizaremos la prueba de hipótesis para determinar si la proporción de individuos con ADN taíno en Culebra es diferente de 60%
Primero, vamos a establecer las hipótesis nula y alternativa:
Hipótesis nula (\(H_0\)): La proporción de individuos con ADN taíno en la población de Puerto Rico es igual a 0.60.
Hipótesis alternativa (\(H_a\)): La proporción de individuos con ADN taíno en Culebra (0.65) es diferente de 0.60.
Vamos ahora a visualizar la distribución de la proporción de ADN taíno en 10,000 muestras de 200 individuos de la población de Puerto Rico, y agregar líneas verticales en 0.60 (roja) y 0.65 (azul) para visualizar las proporciones de interés.
# Cargar la librería ggplot2
library(ggplot2)
# Generar una población de 3 millones de Puertorriqueños
popsize <- 3000000
pob60taina <- c(rep("taina", 0.60 * popsize), rep("no_taina", 0.40 * popsize))
# Inicializar parámetros
set.seed(123) # Para reproducibilidad
num_simulaciones <- 10000 # Número de repeticiones
tamano_muestra <- 200 # Tamaño de la muestra
proporciones <- numeric(num_simulaciones) # Vector para almacenar las proporciones
# Repetir el muestreo 10,000 veces
for (i in 1:num_simulaciones) {
muestra <- sample(pob60taina, tamano_muestra, replace = FALSE)
proporciones[i] <- sum(muestra == "taina") / length(muestra)
}
# Crear un dataframe para graficar
resultados <- data.frame(ProporcionTaina = proporciones)
# Graficar el histograma con ggplot2
ggplot(resultados, aes(x = ProporcionTaina)) +
geom_histogram(binwidth = 0.005, fill = "skyblue", color = "black") +
geom_vline(xintercept = 0.6, color = "red", linetype = "dashed", size = 1) + # Línea en 0.6
geom_vline(xintercept = 0.65, color = "blue", linetype = "dashed", size = 1) + # Línea en 0.65
labs(
subtitle = "Líneas verticales en 0.6 (roja) y 0.65 (azul)",
x = "Proporción de ADN Taíno",
y = "Frecuencia"
) +
xlim(0.5, 0.8) + # Escala centrada alrededor de 0.6
theme_minimal()
# Calcular el valor p
valor_p <- sum(proporciones >= 0.65) / num_simulaciones
# Imprimir el valor p
cat("El valor p es:", valor_p, "\n")
## El valor p es: 0.0843
# Tomar una decisión
if (valor_p <= 0.05) {
cat("Rechazamos H0: La proporción 0.65 es significativamente mayor que 0.6 (alfa = 0.05).\n")
} else {
cat("No rechazamos H0: No hay evidencia suficiente para concluir que la proporción 0.65 es mayor que 0.6 (alfa = 0.05).\n")
}
## No rechazamos H0: No hay evidencia suficiente para concluir que la proporción 0.65 es mayor que 0.6 (alfa = 0.05).
Ahora vamos a repetir la prueba de hipótesis para determinar si una proporción de individuos con ADN taíno en Culebra de 70% es mayor a la de Puerto Rico en general (60%).
# Cargar la librería ggplot2
library(ggplot2)
# Generar una población de 3 millones de Puertorriqueños
popsize <- 3000000
pob60taina <- c(rep("taina", 0.60 * popsize), rep("no_taina", 0.40 * popsize))
# Inicializar parámetros
set.seed(123) # Para reproducibilidad
num_simulaciones <- 10000 # Número de repeticiones
tamano_muestra <- 200 # Tamaño de la muestra
proporciones <- numeric(num_simulaciones) # Vector para almacenar las proporciones
# Repetir el muestreo 10,000 veces
for (i in 1:num_simulaciones) {
muestra <- sample(pob60taina, tamano_muestra, replace = FALSE)
proporciones[i] <- sum(muestra == "taina") / length(muestra)
}
# Crear un dataframe para graficar
resultados <- data.frame(ProporcionTaina = proporciones)
# Graficar el histograma con ggplot2
ggplot(resultados, aes(x = ProporcionTaina)) +
geom_histogram(binwidth = 0.005, fill = "skyblue", color = "black") +
geom_vline(xintercept = 0.6, color = "red", linetype = "dashed", size = 1) + # Línea en 0.6
geom_vline(xintercept = 0.7, color = "blue", linetype = "dashed", size = 1) + # Línea en 0.7
labs(
subtitle = "Líneas verticales en 0.6 (roja) y 0.7 (azul)",
x = "Proporción de ADN Taíno",
y = "Frecuencia"
) +
xlim(0.5, 0.8) + # Escala centrada alrededor de 0.6
theme_minimal()
# Calcular la proporción de individuos con ADN taíno en la muestra
prop_muestra <- sum(muestra == "taina") / length(muestra)
# Calcular el intervalo de confianza del 95%
alpha <- 0.05
z <- qnorm(1 - alpha / 2) # Puntaje Z para un nivel de confianza del 95%
margin_of_error <- z * sqrt((prop_muestra * (1 - prop_muestra)) / length(muestra))
ci_lower <- prop_muestra - margin_of_error
ci_upper <- prop_muestra + margin_of_error
cat("Proporción Muestral (p̂):", prop_muestra, "\n")
## Proporción Muestral (p̂): 0.58
cat("Intervalo de Confianza del 95%:", ci_lower, "a", ci_upper, "\n")
## Intervalo de Confianza del 95%: 0.5115975 a 0.6484025
Vamos a obtener un valor p para la prueba de hipótesis y tomar una decisión.
# Calcular el valor p
valor_p <- sum(proporciones >= 0.7) / num_simulaciones
# Imprimir el valor p
cat("El valor p es:", valor_p, "\n")
## El valor p es: 0.0029
# Tomar una decisión
if (valor_p <= 0.05) {
cat("Rechazamos H0: La proporción 0.7 es significativamente mayor que 0.6 (alfa = 0.05).\n")
} else {
cat("No rechazamos H0: No hay evidencia suficiente para concluir que la proporción 0.7 es mayor que 0.6 (alfa = 0.05).\n")
}
## Rechazamos H0: La proporción 0.7 es significativamente mayor que 0.6 (alfa = 0.05).