Población (\(N\)): Es el conjunto total de individuos, objetos o eventos sobre los cuales estamos interesados en obtener información. Puede ser finita o infinita. Por ejemplo, todos los estudiantes de una universidad, o todos los peces en un océano.
Muestra (\(n\)): Es un subconjunto de la población que se selecciona para su estudio. Debe ser representativa de la población para que las inferencias sean válidas. Por ejemplo, 100 estudiantes seleccionados al azar de esa universidad.
Parámetro: Es una medida descriptiva de una población. Son valores fijos y generalmente desconocidos. Se denotan con letras griegas. Ejemplos: media poblacional (\(\mu\)), desviación estándar poblacional (\(\sigma\)), proporción poblacional (\(p\)).
Estadístico: Es una medida descriptiva de una muestra. Se calcula a partir de los datos de la muestra y se utiliza para estimar los parámetros poblacionales. Se denotan con letras latinas. Ejemplos: media muestral (\(\bar{x}\)), desviación estándar muestral (\(s\)), proporción muestral (\(\hat{p}\)).
Unidad de Muestreo: Es cada elemento individual de la población que tiene una probabilidad de ser seleccionado en la muestra.
Marco Muestral: Es una lista o base de datos de todas las unidades de muestreo de la población.
El muestreo es el proceso de seleccionar la muestra de la población. Existen diversos métodos de muestreo, siendo el muestreo aleatorio simple el más básico, donde cada elemento de la población tiene la misma probabilidad de ser seleccionado.
Un estimador es un estadístico utilizado para inferir o “estimar” el valor de un parámetro poblacional desconocido. Por ejemplo, la media muestral (\(\bar{x}\)) es un estimador de la media poblacional (\(\mu\)).
Cuando tomamos múltiples muestras de una misma población y calculamos un estadístico (como la media) para cada una, estos estadísticos variarán. La distribución de estos estadísticos se conoce como distribución muestral del estadístico.
Un buen estimador debe tener ciertas propiedades deseables:
La precisión de un estimador se refiere a la dispersión de las estimaciones alrededor del verdadero valor del parámetro. Se mide generalmente por el error estándar del estimador. Un error estándar más pequeño indica mayor precisión.
Al comparar dos estimadores para un mismo parámetro, preferimos el que sea insesgado y tenga menor varianza (más eficiente). Si ambos son insesgados, el que tenga menor error estándar es superior.
Mientras que un estimador puntual proporciona un único valor como la mejor conjetura para un parámetro, un intervalo de confianza (IC) proporciona un rango de valores dentro del cual se espera que se encuentre el parámetro poblacional, con un cierto nivel de confianza.
Un intervalo de confianza se construye como: \[\text{Estimador Puntual} \pm (\text{Valor Crítico}) \times (\text{Error Estándar del Estimador})\]
El nivel de confianza (por ejemplo, 90%, 95%, 99%) indica la probabilidad de que el intervalo construido contenga el verdadero valor del parámetro si el proceso de muestreo se repitiera muchas veces.
Cuando \(\sigma\) es conocido: \[\bar{x} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\] Donde \(Z_{\alpha/2}\) es el valor crítico de la distribución normal estándar para el nivel de confianza deseado.
Cuando \(\sigma\) es desconocido (y \(n\) es grande o la población es normal): Se utiliza la desviación estándar muestral (\(s\)) en lugar de \(\sigma\), y si el tamaño de muestra es pequeño o mediano, se usa la distribución \(t\) de Student en lugar de la normal. \[\bar{x} \pm t_{n-1, \alpha/2} \frac{s}{\sqrt{n}}\] Donde \(t_{n-1, \alpha/2}\) es el valor crítico de la distribución \(t\) de Student con \(n-1\) grados de libertad.
Para muestras grandes (\(np \ge 5\) y \(n(1-p) \ge 5\)): \[\hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] Donde \(\hat{p}\) es la proporción muestral.
Problema: El peso de los paquetes de cereal en una fábrica sigue una distribución normal con una media de 500 gramos y una desviación estándar de 10 gramos. Si se toma una muestra aleatoria de 25 paquetes, ¿cuál es la probabilidad de que la media muestral esté entre 498 y 502 gramos?
Solución en Markdown:
Conclusión: La probabilidad de que la media muestral esté entre 498 y 502 gramos es de aproximadamente 0.6826.
Solución en R:
# Parámetros
mu <- 500
sigma <- 10
n <- 25
# Parámetros de la distribución muestral de la media
mu_xbar <- mu
sigma_xbar <- sigma / sqrt(n)
cat("Media de la distribución muestral:", mu_xbar, "\n")
cat("Error estándar de la distribución muestral:", sigma_xbar, "\n")
# Calcular la probabilidad P(498 <= x_bar <= 502)
probabilidad <- pnorm(502, mean = mu_xbar, sd = sigma_xbar) - pnorm(498, mean = mu_xbar, sd = sigma_xbar)
cat("La probabilidad es:", probabilidad, "\n")
# Visualización de la región
library(ggplot2)
# Definir el rango de valores para el gráfico
x_vals <- seq(mu_xbar - 3 * sigma_xbar, mu_xbar + 3 * sigma_xbar, length.out = 500)
density_vals <- dnorm(x_vals, mean = mu_xbar, sd = sigma_xbar)
df_plot <- data.frame(x = x_vals, y = density_vals)
ggplot(df_plot, aes(x = x, y = y)) +
geom_line() +
geom_area(data = subset(df_plot, x >= 498 & x <= 502), fill = "skyblue", alpha = 0.7) +
geom_vline(xintercept = 498, linetype = "dashed", color = "red") +
geom_vline(xintercept = 502, linetype = "dashed", color = "red") +
geom_vline(xintercept = mu_xbar, linetype = "dotted", color = "blue", size = 1) +
annotate("text", x = mu_xbar, y = max(density_vals) * 0.9, label = expression(mu[bar(x)]), color = "blue", vjust = -0.5, size = 5) +
annotate("text", x = 498, y = max(density_vals) * 0.1, label = "498", color = "red", hjust = 1.2) +
annotate("text", x = 502, y = max(density_vals) * 0.1, label = "502", color = "red", hjust = -0.2) +
annotate("text", x = mu_xbar, y = max(density_vals) * 0.5, label = paste("P =", round(probabilidad, 4)), color = "black") +
labs(title = "Distribución Muestral de la Media",
subtitle = paste0("Media = ", mu_xbar, ", Error Estándar = ", round(sigma_xbar, 2)),
x = "Media Muestral (gramos)",
y = "Densidad de Probabilidad") +
theme_minimal()
Región: El gráfico muestra la distribución normal de la media muestral centrada en 500. La región sombreada en azul claro entre 498 y 502 representa la probabilidad calculada. Las líneas rojas punteadas marcan los límites del intervalo y la línea azul punteada indica la media de la distribución muestral.
Problema: Una empresa de encuestas quiere estimar el gasto promedio mensual en entretenimiento de los hogares en una ciudad. Se sabe por estudios previos que la desviación estándar de este gasto es de 20 dólares. Se toma una muestra aleatoria de 100 hogares y se encuentra que el gasto promedio es de 150 dólares. Construya un intervalo de confianza del 95% para el gasto promedio mensual real de todos los hogares.
Solución en Markdown:
Conclusión: Con un 95% de confianza, el gasto promedio mensual en entretenimiento de los hogares en la ciudad se encuentra entre 146.08 y 153.92 dólares.
Solución en R:
# Parámetros
sigma <- 20
n <- 100
x_bar <- 150
nivel_confianza <- 0.95
alfa <- 1 - nivel_confianza
# Valor crítico Z
z_critico <- qnorm(1 - alfa / 2)
cat("Valor crítico Z:", z_critico, "\n")
# Error estándar de la media
error_estandar <- sigma / sqrt(n)
cat("Error estándar:", error_estandar, "\n")
# Margen de error
margen_error <- z_critico * error_estandar
cat("Margen de error:", margen_error, "\n")
# Intervalo de confianza
limite_inferior <- x_bar - margen_error
limite_superior <- x_bar + margen_error
cat("Intervalo de Confianza del", nivel_confianza * 100, "%: [", limite_inferior, ", ", limite_superior, "]\n")
# Visualización del intervalo de confianza
library(ggplot2)
# Crear un rango de valores para la distribución de la media muestral
# Asumimos que la media poblacional es igual a la media muestral observada para fines de visualización
# aunque el intervalo es para la media poblacional real
x_vals <- seq(x_bar - 4 * error_estandar, x_bar + 4 * error_estandar, length.out = 500)
density_vals <- dnorm(x_vals, mean = x_bar, sd = error_estandar)
df_plot <- data.frame(x = x_vals, y = density_vals)
ggplot(df_plot, aes(x = x, y = y)) +
geom_line() +
geom_area(data = subset(df_plot, x >= limite_inferior & x <= limite_superior), fill = "lightgreen", alpha = 0.7) +
geom_vline(xintercept = x_bar, color = "blue", linetype = "dotted", size = 1) +
geom_vline(xintercept = limite_inferior, color = "red", linetype = "dashed") +
geom_vline(xintercept = limite_superior, color = "red", linetype = "dashed") +
annotate("text", x = x_bar, y = max(density_vals) * 0.9, label = expression(bar(x)), color = "blue", vjust = -0.5, size = 5) +
annotate("text", x = limite_inferior, y = max(density_vals) * 0.1, label = round(limite_inferior, 2), color = "red", hjust = 1.2) +
annotate("text", x = limite_superior, y = max(density_vals) * 0.1, label = round(limite_superior, 2), color = "red", hjust = -0.2) +
annotate("text", x = x_bar, y = max(density_vals) * 0.5, label = paste("IC al 95%"), color = "black") +
labs(title = "Intervalo de Confianza para la Media (Sigma Conocido)",
subtitle = paste0("Media Muestral = ", x_bar, ", Error Estándar = ", round(error_estandar, 2)),
x = "Gasto Promedio Mensual ($)",
y = "Densidad de Probabilidad") +
theme_minimal()
Región: El gráfico muestra la distribución normal de las medias muestrales. La región sombreada en verde claro representa el intervalo de confianza del 95%. La línea azul punteada indica la media muestral observada, y las líneas rojas punteadas marcan los límites inferior y superior del intervalo de confianza.
Problema: En una encuesta a 400 votantes elegidos aleatoriamente, 220 declararon que votarían por el candidato A. Construya un intervalo de confianza del 90% para la verdadera proporción de votantes que apoyan al candidato A.
Solución en Markdown:
Conclusión: Con un 90% de confianza, la verdadera proporción de votantes que apoyan al candidato A se encuentra entre 0.5091 y 0.5909 (o entre 50.91% y 59.09%).
Solución en R:
# Parámetros
n <- 400
x <- 220
p_hat <- x / n
nivel_confianza <- 0.90
alfa <- 1 - nivel_confianza
cat("Proporción muestral (p_hat):", p_hat, "\n")
# Valor crítico Z
z_critico <- qnorm(1 - alfa / 2)
cat("Valor crítico Z:", z_critico, "\n")
# Error estándar de la proporción
error_estandar_prop <- sqrt((p_hat * (1 - p_hat)) / n)
cat("Error estándar de la proporción:", error_estandar_prop, "\n")
# Margen de error
margen_error_prop <- z_critico * error_estandar_prop
cat("Margen de error:", margen_error_prop, "\n")
# Intervalo de confianza
limite_inferior_prop <- p_hat - margen_error_prop
limite_superior_prop <- p_hat + margen_error_prop
cat("Intervalo de Confianza del", nivel_confianza * 100, "%: [", limite_inferior_prop, ", ", limite_superior_prop, "]\n")
# Visualización del intervalo de confianza para la proporción
library(ggplot2)
# Crear un rango de valores para la distribución de la proporción muestral
x_vals <- seq(p_hat - 4 * error_estandar_prop, p_hat + 4 * error_estandar_prop, length.out = 500)
density_vals <- dnorm(x_vals, mean = p_hat, sd = error_estandar_prop)
df_plot <- data.frame(x = x_vals, y = density_vals)
ggplot(df_plot, aes(x = x, y = y)) +
geom_line() +
geom_area(data = subset(df_plot, x >= limite_inferior_prop & x <= limite_superior_prop), fill = "lightcoral", alpha = 0.7) +
geom_vline(xintercept = p_hat, color = "blue", linetype = "dotted", size = 1) +
geom_vline(xintercept = limite_inferior_prop, color = "red", linetype = "dashed") +
geom_vline(xintercept = limite_superior_prop, color = "red", linetype = "dashed") +
annotate("text", x = p_hat, y = max(density_vals) * 0.9, label = expression(hat(p)), color = "blue", vjust = -0.5, size = 5) +
annotate("text", x = limite_inferior_prop, y = max(density_vals) * 0.1, label = round(limite_inferior_prop, 3), color = "red", hjust = 1.2) +
annotate("text", x = limite_superior_prop, y = max(density_vals) * 0.1, label = round(limite_superior_prop, 3), color = "red", hjust = -0.2) +
annotate("text", x = p_hat, y = max(density_vals) * 0.5, label = paste("IC al 90%"), color = "black") +
labs(title = "Intervalo de Confianza para la Proporción",
subtitle = paste0("Proporción Muestral = ", round(p_hat, 2), ", Error Estándar = ", round(error_estandar_prop, 3)),
x = "Proporción Muestral",
y = "Densidad de Probabilidad") +
theme_minimal()
Región: El gráfico muestra la distribución normal de las proporciones muestrales. La región sombreada en coral claro representa el intervalo de confianza del 90%. La línea azul punteada indica la proporción muestral observada, y las líneas rojas punteadas marcan los límites inferior y superior del intervalo de confianza.
Problema: Se sabe que la varianza muestral \(s^2 = \frac{1}{n-1}\sum (x_i - \bar{x})^2\) es un estimador insesgado de la varianza poblacional \(\sigma^2\). Sin embargo, el estimador \(\tilde{s}^2 = \frac{1}{n}\sum (x_i - \bar{x})^2\) (que es la varianza muestral con denominador \(n\) en lugar de \(n-1\)) es un estimador sesgado. Demuestre que \(E[s^2] = \sigma^2\) (insesgado) y \(E[\tilde{s}^2] = \frac{n-1}{n}\sigma^2\) (sesgado).
Solución en Markdown:
Para demostrar la insesgadez de \(s^2\) y el sesgo de \(\tilde{s}^2\), se utiliza la propiedad fundamental de que \(\sum (x_i - \bar{x})^2 = (n-1)s^2\). Además, es un resultado conocido en estadística que \(E[\sum (x_i - \bar{x})^2] = (n-1)\sigma^2\).
Para \(s^2\): \[E[s^2] = E\left[\frac{1}{n-1}\sum (x_i - \bar{x})^2\right]\] Por la propiedad de la esperanza \(E[cX] = cE[X]\): \[E[s^2] = \frac{1}{n-1} E\left[\sum (x_i - \bar{x})^2\right]\] Sustituyendo el resultado conocido: \[E[s^2] = \frac{1}{n-1} (n-1)\sigma^2\] \[E[s^2] = \sigma^2\] Esto demuestra que \(s^2\) es un estimador insesgado de \(\sigma^2\).
Para \(\tilde{s}^2\): Sabemos que \(\tilde{s}^2 = \frac{1}{n}\sum (x_i - \bar{x})^2\). Podemos relacionar \(\tilde{s}^2\) con \(s^2\): \[\tilde{s}^2 = \frac{1}{n} (n-1)s^2 = \frac{n-1}{n} s^2\] Ahora, tomamos la esperanza de \(\tilde{s}^2\): \[E[\tilde{s}^2] = E\left[\frac{n-1}{n} s^2\right]\] Por la propiedad de la esperanza \(E[cX] = cE[X]\): \[E[\tilde{s}^2] = \frac{n-1}{n} E[s^2]\] Como ya demostramos que \(E[s^2] = \sigma^2\): \[E[\tilde{s}^2] = \frac{n-1}{n}\sigma^2\] Dado que \(\frac{n-1}{n}\) no es igual a 1 (a menos que \(n \rightarrow \infty\)), esto demuestra que \(\tilde{s}^2\) es un estimador sesgado de \(\sigma^2\).
Conclusión: La varianza muestral con denominador \(n-1\) (\(s^2\)) es un estimador insesgado de la varianza poblacional. La varianza muestral con denominador \(n\) (\(\tilde{s}^2\)) es un estimador sesgado, subestimando la verdadera varianza poblacional. Por esta razón, \(s^2\) se prefiere en la práctica.
Solución en R:
Este ejemplo es de naturaleza más teórica y de demostración matemática que de cálculo numérico o visualización directa de una “región” en un gráfico de distribución. Sin embargo, podemos ilustrar la diferencia de los estimadores a través de simulaciones. No hay una “región” específica para dibujar aquí, sino más bien un punto en el que se ubican las esperanzas de los estimadores.
# Parámetros de la población
set.seed(42) # Para reproducibilidad
mu_poblacion <- 10
sigma_poblacion <- 3
varianza_poblacion <- sigma_poblacion^2
cat("Varianza poblacional real (sigma^2):", varianza_poblacion, "\n")
# Simulación para ilustrar la insesgadez y el sesgo
num_simulaciones <- 10000 # Número de muestras a tomar
tamano_muestra <- 30 # Tamaño de cada muestra
varianzas_s2 <- numeric(num_simulaciones)
varianzas_tilde_s2 <- numeric(num_simulaciones)
for (i in 1:num_simulaciones) {
muestra <- rnorm(tamano_muestra, mean = mu_poblacion, sd = sigma_poblacion)
# Estimador s^2 (denominador n-1)
varianzas_s2[i] <- var(muestra) # var() en R usa n-1 por defecto
# Estimador tilde_s^2 (denominador n)
varianzas_tilde_s2[i] <- sum((muestra - mean(muestra))^2) / tamano_muestra
}
# Calcular la media de los estimadores de las simulaciones
media_s2 <- mean(varianzas_s2)
media_tilde_s2 <- mean(varianzas_tilde_s2)
cat("\nMedia de s^2 de las simulaciones (esperado ~ sigma^2):", media_s2, "\n")
cat("Media de tilde_s^2 de las simulaciones (esperado ~ (n-1)/n * sigma^2):", media_tilde_s2, "\n")
cat("Valor esperado teórico para tilde_s^2:", (tamano_muestra - 1) / tamano_muestra * varianza_poblacion, "\n")
# Visualización de la distribución de los estimadores
library(ggplot2)
library(tidyr) # Para pivot_longer
df_sim <- data.frame(
simulacion = 1:num_simulaciones,
s2 = varianzas_s2,
tilde_s2 = varianzas_tilde_s2
)
df_long <- df_sim %>%
pivot_longer(cols = c(s2, tilde_s2), names_to = "Estimador", values_to = "Varianza")
ggplot(df_long, aes(x = Varianza, fill = Estimador, color = Estimador)) +
geom_density(alpha = 0.5) +
geom_vline(xintercept = varianza_poblacion, linetype = "dashed", color = "black", linewidth = 1) +
geom_vline(xintercept = mean(varianzas_s2), color = "blue", linetype = "dotted", linewidth = 1) +
geom_vline(xintercept = mean(varianzas_tilde_s2), color = "red", linetype = "dotted", linewidth = 1) +
annotate("text", x = varianza_poblacion + 0.5, y = 0.1, label = expression(sigma^2), color = "black", size = 4) +
annotate("text", x = mean(varianzas_s2) - 0.5, y = 0.15, label = expression(E(s^2)), color = "blue", size = 4) +
annotate("text", x = mean(varianzas_tilde_s2) + 0.5, y = 0.15, label = expression(E(tilde(s)^2)), color = "red", size = 4) +
labs(title = "Distribución Empírica de Estimadores de la Varianza",
subtitle = paste0("Varianza Poblacional = ", varianza_poblacion, ", Tamaño de Muestra = ", tamano_muestra),
x = "Valor de la Varianza Estimada",
y = "Densidad") +
scale_fill_manual(values = c("s2" = "skyblue", "tilde_s2" = "lightcoral")) +
scale_color_manual(values = c("s2" = "blue", "tilde_s2" = "red")) +
theme_minimal()
Región: El gráfico muestra las distribuciones de densidad empíricas de los dos estimadores de la varianza. La línea negra punteada vertical representa la verdadera varianza poblacional (\(\sigma^2\)). La línea azul punteada representa la media de las varianzas calculadas con \(s^2\) (que está muy cerca de \(\sigma^2\), demostrando insesgadez). La línea roja punteada representa la media de las varianzas calculadas con \(\tilde{s}^2\) (que es notablemente menor que \(\sigma^2\), indicando sesgo). Esto visualiza cómo \(s^2\) “apunta” al verdadero valor, mientras que \(\tilde{s}^2\) lo “subestima” consistentemente.
Espero que estos conceptos y ejemplos te sean de gran ayuda para tu trabajo en R Markdown. ¡Si tienes alguna otra pregunta o necesitas más detalles, no dudes en consultarme desde esta soleada y activa Cartagena!