A. Muestreo Estadístico: Conceptos, Estimadores y su Distribución

  • El muestreo estadístico es una técnica fundamental en estadística que nos permite inferir características de una población completa a partir del análisis de una muestra representativa de ella. Esto es crucial cuando es inviable o imposible estudiar a cada individuo de la población.

1. Conceptos Iniciales en la Teoría del Muestreo

  • Población (\(N\)): Es el conjunto total de individuos, objetos o eventos sobre los cuales estamos interesados en obtener información. Puede ser finita o infinita. Por ejemplo, todos los estudiantes de una universidad, o todos los peces en un océano.

  • Muestra (\(n\)): Es un subconjunto de la población que se selecciona para su estudio. Debe ser representativa de la población para que las inferencias sean válidas. Por ejemplo, 100 estudiantes seleccionados al azar de esa universidad.

  • Parámetro: Es una medida descriptiva de una población. Son valores fijos y generalmente desconocidos. Se denotan con letras griegas. Ejemplos: media poblacional (\(\mu\)), desviación estándar poblacional (\(\sigma\)), proporción poblacional (\(p\)).

  • Estadístico: Es una medida descriptiva de una muestra. Se calcula a partir de los datos de la muestra y se utiliza para estimar los parámetros poblacionales. Se denotan con letras latinas. Ejemplos: media muestral (\(\bar{x}\)), desviación estándar muestral (\(s\)), proporción muestral (\(\hat{p}\)).

  • Unidad de Muestreo: Es cada elemento individual de la población que tiene una probabilidad de ser seleccionado en la muestra.

  • Marco Muestral: Es una lista o base de datos de todas las unidades de muestreo de la población.


Muestreo y Estimadores. Distribuciones en el Muestreo

El muestreo es el proceso de seleccionar la muestra de la población. Existen diversos métodos de muestreo, siendo el muestreo aleatorio simple el más básico, donde cada elemento de la población tiene la misma probabilidad de ser seleccionado.

Un estimador es un estadístico utilizado para inferir o “estimar” el valor de un parámetro poblacional desconocido. Por ejemplo, la media muestral (\(\bar{x}\)) es un estimador de la media poblacional (\(\mu\)).

Distribuciones en el Muestreo

Cuando tomamos múltiples muestras de una misma población y calculamos un estadístico (como la media) para cada una, estos estadísticos variarán. La distribución de estos estadísticos se conoce como distribución muestral del estadístico.

  • Distribución Muestral de la Media (\(\bar{x}\)):
    • Si la población es normal, la distribución muestral de \(\bar{x}\) también es normal con media \(\mu\) y desviación estándar \(\sigma_{\bar{x}} = \sigma / \sqrt{n}\).
    • Teorema del Límite Central (TLC): Si el tamaño de la muestra (\(n\)) es suficientemente grande (generalmente \(n \ge 30\)), la distribución muestral de la media (\(\bar{x}\)) se aproxima a una distribución normal, independientemente de la forma de la distribución de la población original. Su media será \(\mu\) y su desviación estándar (conocida como error estándar de la media) será \(\sigma_{\bar{x}} = \sigma / \sqrt{n}\).
  • Distribución Muestral de la Proporción (\(\hat{p}\)):
    • Para muestras grandes, la distribución muestral de la proporción (\(\hat{p}\)) se aproxima a una distribución normal con media \(p\) y desviación estándar \(\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\). Esta aproximación es válida si \(np \ge 5\) y \(n(1-p) \ge 5\).

Propiedades y Precisión de los Estimadores. Comparación de Estimadores

Un buen estimador debe tener ciertas propiedades deseables:

  • Insesgadez: Un estimador es insesgado si su valor esperado es igual al parámetro que estima. Es decir, \(E(\hat{\theta}) = \theta\). Por ejemplo, \(E(\bar{x}) = \mu\) y \(E(\hat{p}) = p\).
  • Eficiencia: Un estimador es más eficiente que otro si tiene una varianza menor. Un estimador eficiente proporciona estimaciones más precisas para un mismo tamaño de muestra.
  • Consistencia: Un estimador es consistente si a medida que el tamaño de la muestra (\(n\)) aumenta, la probabilidad de que la estimación difiera del parámetro en una cantidad significativa se vuelve muy pequeña. Es decir, el estimador se acerca al verdadero valor del parámetro a medida que \(n \rightarrow \infty\).
  • Suficiencia: Un estimador es suficiente si utiliza toda la información relevante de la muestra para estimar el parámetro.

La precisión de un estimador se refiere a la dispersión de las estimaciones alrededor del verdadero valor del parámetro. Se mide generalmente por el error estándar del estimador. Un error estándar más pequeño indica mayor precisión.

Comparación de Estimadores

Al comparar dos estimadores para un mismo parámetro, preferimos el que sea insesgado y tenga menor varianza (más eficiente). Si ambos son insesgados, el que tenga menor error estándar es superior.


Estimación por Intervalos de Confianza

Mientras que un estimador puntual proporciona un único valor como la mejor conjetura para un parámetro, un intervalo de confianza (IC) proporciona un rango de valores dentro del cual se espera que se encuentre el parámetro poblacional, con un cierto nivel de confianza.

Un intervalo de confianza se construye como: \[\text{Estimador Puntual} \pm (\text{Valor Crítico}) \times (\text{Error Estándar del Estimador})\]

El nivel de confianza (por ejemplo, 90%, 95%, 99%) indica la probabilidad de que el intervalo construido contenga el verdadero valor del parámetro si el proceso de muestreo se repitiera muchas veces.

Intervalo de Confianza para la Media (\(\mu\)):

  • Cuando \(\sigma\) es conocido: \[\bar{x} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\] Donde \(Z_{\alpha/2}\) es el valor crítico de la distribución normal estándar para el nivel de confianza deseado.

  • Cuando \(\sigma\) es desconocido (y \(n\) es grande o la población es normal): Se utiliza la desviación estándar muestral (\(s\)) en lugar de \(\sigma\), y si el tamaño de muestra es pequeño o mediano, se usa la distribución \(t\) de Student en lugar de la normal. \[\bar{x} \pm t_{n-1, \alpha/2} \frac{s}{\sqrt{n}}\] Donde \(t_{n-1, \alpha/2}\) es el valor crítico de la distribución \(t\) de Student con \(n-1\) grados de libertad.

Intervalo de Confianza para la Proporción (\(p\)):

Para muestras grandes (\(np \ge 5\) y \(n(1-p) \ge 5\)): \[\hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] Donde \(\hat{p}\) es la proporción muestral.


Ejemplos Resueltos

Ejemplo 1: Distribución Muestral de la Media (Población Normal)

Problema: El peso de los paquetes de cereal en una fábrica sigue una distribución normal con una media de 500 gramos y una desviación estándar de 10 gramos. Si se toma una muestra aleatoria de 25 paquetes, ¿cuál es la probabilidad de que la media muestral esté entre 498 y 502 gramos?

Solución en Markdown:

  1. Parámetros de la población: \(\mu = 500\), \(\sigma = 10\).
  2. Tamaño de la muestra: \(n = 25\).
  3. Distribución muestral de la media (\(\bar{x}\)): Dado que la población es normal, la distribución muestral de \(\bar{x}\) también es normal con:
    • Media: \(\mu_{\bar{x}} = \mu = 500\)
    • Error estándar: \(\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} = \frac{10}{\sqrt{25}} = \frac{10}{5} = 2\)
  4. Estandarizar los valores: Para encontrar \(P(498 \le \bar{x} \le 502)\), convertimos \(\bar{x}\) a valores \(Z\):
    • Para \(\bar{x}_1 = 498\): \(Z_1 = \frac{498 - 500}{2} = \frac{-2}{2} = -1\)
    • Para \(\bar{x}_2 = 502\): \(Z_2 = \frac{502 - 500}{2} = \frac{2}{2} = 1\)
  5. Calcular la probabilidad: \(P(-1 \le Z \le 1) = P(Z \le 1) - P(Z \le -1)\). Usando tablas o software, \(P(Z \le 1) \approx 0.8413\) y \(P(Z \le -1) \approx 0.1587\). \[P(498 \le \bar{x} \le 502) = 0.8413 - 0.1587 = 0.6826\]

Conclusión: La probabilidad de que la media muestral esté entre 498 y 502 gramos es de aproximadamente 0.6826.

Solución en R:

# Parámetros
mu <- 500
sigma <- 10
n <- 25

# Parámetros de la distribución muestral de la media
mu_xbar <- mu
sigma_xbar <- sigma / sqrt(n)

cat("Media de la distribución muestral:", mu_xbar, "\n")
cat("Error estándar de la distribución muestral:", sigma_xbar, "\n")

# Calcular la probabilidad P(498 <= x_bar <= 502)
probabilidad <- pnorm(502, mean = mu_xbar, sd = sigma_xbar) - pnorm(498, mean = mu_xbar, sd = sigma_xbar)
cat("La probabilidad es:", probabilidad, "\n")

# Visualización de la región
library(ggplot2)

# Definir el rango de valores para el gráfico
x_vals <- seq(mu_xbar - 3 * sigma_xbar, mu_xbar + 3 * sigma_xbar, length.out = 500)
density_vals <- dnorm(x_vals, mean = mu_xbar, sd = sigma_xbar)

df_plot <- data.frame(x = x_vals, y = density_vals)

ggplot(df_plot, aes(x = x, y = y)) +
  geom_line() +
  geom_area(data = subset(df_plot, x >= 498 & x <= 502), fill = "skyblue", alpha = 0.7) +
  geom_vline(xintercept = 498, linetype = "dashed", color = "red") +
  geom_vline(xintercept = 502, linetype = "dashed", color = "red") +
  geom_vline(xintercept = mu_xbar, linetype = "dotted", color = "blue", size = 1) +
  annotate("text", x = mu_xbar, y = max(density_vals) * 0.9, label = expression(mu[bar(x)]), color = "blue", vjust = -0.5, size = 5) +
  annotate("text", x = 498, y = max(density_vals) * 0.1, label = "498", color = "red", hjust = 1.2) +
  annotate("text", x = 502, y = max(density_vals) * 0.1, label = "502", color = "red", hjust = -0.2) +
  annotate("text", x = mu_xbar, y = max(density_vals) * 0.5, label = paste("P =", round(probabilidad, 4)), color = "black") +
  labs(title = "Distribución Muestral de la Media",
       subtitle = paste0("Media = ", mu_xbar, ", Error Estándar = ", round(sigma_xbar, 2)),
       x = "Media Muestral (gramos)",
       y = "Densidad de Probabilidad") +
  theme_minimal()

Región: El gráfico muestra la distribución normal de la media muestral centrada en 500. La región sombreada en azul claro entre 498 y 502 representa la probabilidad calculada. Las líneas rojas punteadas marcan los límites del intervalo y la línea azul punteada indica la media de la distribución muestral.


Ejemplo 2: Intervalo de Confianza para la Media (Sigma Conocido)

Problema: Una empresa de encuestas quiere estimar el gasto promedio mensual en entretenimiento de los hogares en una ciudad. Se sabe por estudios previos que la desviación estándar de este gasto es de 20 dólares. Se toma una muestra aleatoria de 100 hogares y se encuentra que el gasto promedio es de 150 dólares. Construya un intervalo de confianza del 95% para el gasto promedio mensual real de todos los hogares.

Solución en Markdown:

  1. Parámetros dados:
    • Desviación estándar poblacional (\(\sigma\)) = 20
    • Tamaño de la muestra (\(n\)) = 100
    • Media muestral (\(\bar{x}\)) = 150
    • Nivel de confianza = 95%, lo que implica \(\alpha = 0.05\) y \(\alpha/2 = 0.025\).
  2. Valor crítico Z: Para un 95% de confianza, \(Z_{\alpha/2} = Z_{0.025} = 1.96\).
  3. Error estándar de la media: \(\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} = \frac{20}{\sqrt{100}} = \frac{20}{10} = 2\).
  4. Cálculo del intervalo de confianza: \[IC = \bar{x} \pm Z_{\alpha/2} \sigma_{\bar{x}}\] \[IC = 150 \pm 1.96 \times 2\] \[IC = 150 \pm 3.92\] Límite Inferior: \(150 - 3.92 = 146.08\) Límite Superior: \(150 + 3.92 = 153.92\)

Conclusión: Con un 95% de confianza, el gasto promedio mensual en entretenimiento de los hogares en la ciudad se encuentra entre 146.08 y 153.92 dólares.

Solución en R:

# Parámetros
sigma <- 20
n <- 100
x_bar <- 150
nivel_confianza <- 0.95
alfa <- 1 - nivel_confianza

# Valor crítico Z
z_critico <- qnorm(1 - alfa / 2)
cat("Valor crítico Z:", z_critico, "\n")

# Error estándar de la media
error_estandar <- sigma / sqrt(n)
cat("Error estándar:", error_estandar, "\n")

# Margen de error
margen_error <- z_critico * error_estandar
cat("Margen de error:", margen_error, "\n")

# Intervalo de confianza
limite_inferior <- x_bar - margen_error
limite_superior <- x_bar + margen_error

cat("Intervalo de Confianza del", nivel_confianza * 100, "%: [", limite_inferior, ", ", limite_superior, "]\n")

# Visualización del intervalo de confianza
library(ggplot2)

# Crear un rango de valores para la distribución de la media muestral
# Asumimos que la media poblacional es igual a la media muestral observada para fines de visualización
# aunque el intervalo es para la media poblacional real
x_vals <- seq(x_bar - 4 * error_estandar, x_bar + 4 * error_estandar, length.out = 500)
density_vals <- dnorm(x_vals, mean = x_bar, sd = error_estandar)

df_plot <- data.frame(x = x_vals, y = density_vals)

ggplot(df_plot, aes(x = x, y = y)) +
  geom_line() +
  geom_area(data = subset(df_plot, x >= limite_inferior & x <= limite_superior), fill = "lightgreen", alpha = 0.7) +
  geom_vline(xintercept = x_bar, color = "blue", linetype = "dotted", size = 1) +
  geom_vline(xintercept = limite_inferior, color = "red", linetype = "dashed") +
  geom_vline(xintercept = limite_superior, color = "red", linetype = "dashed") +
  annotate("text", x = x_bar, y = max(density_vals) * 0.9, label = expression(bar(x)), color = "blue", vjust = -0.5, size = 5) +
  annotate("text", x = limite_inferior, y = max(density_vals) * 0.1, label = round(limite_inferior, 2), color = "red", hjust = 1.2) +
  annotate("text", x = limite_superior, y = max(density_vals) * 0.1, label = round(limite_superior, 2), color = "red", hjust = -0.2) +
  annotate("text", x = x_bar, y = max(density_vals) * 0.5, label = paste("IC al 95%"), color = "black") +
  labs(title = "Intervalo de Confianza para la Media (Sigma Conocido)",
       subtitle = paste0("Media Muestral = ", x_bar, ", Error Estándar = ", round(error_estandar, 2)),
       x = "Gasto Promedio Mensual ($)",
       y = "Densidad de Probabilidad") +
  theme_minimal()

Región: El gráfico muestra la distribución normal de las medias muestrales. La región sombreada en verde claro representa el intervalo de confianza del 95%. La línea azul punteada indica la media muestral observada, y las líneas rojas punteadas marcan los límites inferior y superior del intervalo de confianza.


Ejemplo 3: Intervalo de Confianza para la Proporción

Problema: En una encuesta a 400 votantes elegidos aleatoriamente, 220 declararon que votarían por el candidato A. Construya un intervalo de confianza del 90% para la verdadera proporción de votantes que apoyan al candidato A.

Solución en Markdown:

  1. Parámetros dados:
    • Tamaño de la muestra (\(n\)) = 400
    • Número de éxitos (\(x\)) = 220
    • Proporción muestral (\(\hat{p}\)) = \(220 / 400 = 0.55\)
    • Nivel de confianza = 90%, lo que implica \(\alpha = 0.10\) y \(\alpha/2 = 0.05\).
  2. Verificación de condiciones: \(n\hat{p} = 400 \times 0.55 = 220 \ge 5\) y \(n(1-\hat{p}) = 400 \times 0.45 = 180 \ge 5\). La aproximación normal es válida.
  3. Valor crítico Z: Para un 90% de confianza, \(Z_{\alpha/2} = Z_{0.05} = 1.645\).
  4. Error estándar de la proporción: \(\sigma_{\hat{p}} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.55(1-0.55)}{400}} = \sqrt{\frac{0.55 \times 0.45}{400}} = \sqrt{\frac{0.2475}{400}} = \sqrt{0.00061875} \approx 0.02487\).
  5. Cálculo del intervalo de confianza: \[IC = \hat{p} \pm Z_{\alpha/2} \sigma_{\hat{p}}\] \[IC = 0.55 \pm 1.645 \times 0.02487\] \[IC = 0.55 \pm 0.0409\] Límite Inferior: \(0.55 - 0.0409 = 0.5091\) Límite Superior: \(0.55 + 0.0409 = 0.5909\)

Conclusión: Con un 90% de confianza, la verdadera proporción de votantes que apoyan al candidato A se encuentra entre 0.5091 y 0.5909 (o entre 50.91% y 59.09%).

Solución en R:

# Parámetros
n <- 400
x <- 220
p_hat <- x / n
nivel_confianza <- 0.90
alfa <- 1 - nivel_confianza

cat("Proporción muestral (p_hat):", p_hat, "\n")

# Valor crítico Z
z_critico <- qnorm(1 - alfa / 2)
cat("Valor crítico Z:", z_critico, "\n")

# Error estándar de la proporción
error_estandar_prop <- sqrt((p_hat * (1 - p_hat)) / n)
cat("Error estándar de la proporción:", error_estandar_prop, "\n")

# Margen de error
margen_error_prop <- z_critico * error_estandar_prop
cat("Margen de error:", margen_error_prop, "\n")

# Intervalo de confianza
limite_inferior_prop <- p_hat - margen_error_prop
limite_superior_prop <- p_hat + margen_error_prop

cat("Intervalo de Confianza del", nivel_confianza * 100, "%: [", limite_inferior_prop, ", ", limite_superior_prop, "]\n")

# Visualización del intervalo de confianza para la proporción
library(ggplot2)

# Crear un rango de valores para la distribución de la proporción muestral
x_vals <- seq(p_hat - 4 * error_estandar_prop, p_hat + 4 * error_estandar_prop, length.out = 500)
density_vals <- dnorm(x_vals, mean = p_hat, sd = error_estandar_prop)

df_plot <- data.frame(x = x_vals, y = density_vals)

ggplot(df_plot, aes(x = x, y = y)) +
  geom_line() +
  geom_area(data = subset(df_plot, x >= limite_inferior_prop & x <= limite_superior_prop), fill = "lightcoral", alpha = 0.7) +
  geom_vline(xintercept = p_hat, color = "blue", linetype = "dotted", size = 1) +
  geom_vline(xintercept = limite_inferior_prop, color = "red", linetype = "dashed") +
  geom_vline(xintercept = limite_superior_prop, color = "red", linetype = "dashed") +
  annotate("text", x = p_hat, y = max(density_vals) * 0.9, label = expression(hat(p)), color = "blue", vjust = -0.5, size = 5) +
  annotate("text", x = limite_inferior_prop, y = max(density_vals) * 0.1, label = round(limite_inferior_prop, 3), color = "red", hjust = 1.2) +
  annotate("text", x = limite_superior_prop, y = max(density_vals) * 0.1, label = round(limite_superior_prop, 3), color = "red", hjust = -0.2) +
  annotate("text", x = p_hat, y = max(density_vals) * 0.5, label = paste("IC al 90%"), color = "black") +
  labs(title = "Intervalo de Confianza para la Proporción",
       subtitle = paste0("Proporción Muestral = ", round(p_hat, 2), ", Error Estándar = ", round(error_estandar_prop, 3)),
       x = "Proporción Muestral",
       y = "Densidad de Probabilidad") +
  theme_minimal()

Región: El gráfico muestra la distribución normal de las proporciones muestrales. La región sombreada en coral claro representa el intervalo de confianza del 90%. La línea azul punteada indica la proporción muestral observada, y las líneas rojas punteadas marcan los límites inferior y superior del intervalo de confianza.


Ejemplo 4: Comparación de Estimadores (Varianza Muestral)

Problema: Se sabe que la varianza muestral \(s^2 = \frac{1}{n-1}\sum (x_i - \bar{x})^2\) es un estimador insesgado de la varianza poblacional \(\sigma^2\). Sin embargo, el estimador \(\tilde{s}^2 = \frac{1}{n}\sum (x_i - \bar{x})^2\) (que es la varianza muestral con denominador \(n\) en lugar de \(n-1\)) es un estimador sesgado. Demuestre que \(E[s^2] = \sigma^2\) (insesgado) y \(E[\tilde{s}^2] = \frac{n-1}{n}\sigma^2\) (sesgado).

Solución en Markdown:

Para demostrar la insesgadez de \(s^2\) y el sesgo de \(\tilde{s}^2\), se utiliza la propiedad fundamental de que \(\sum (x_i - \bar{x})^2 = (n-1)s^2\). Además, es un resultado conocido en estadística que \(E[\sum (x_i - \bar{x})^2] = (n-1)\sigma^2\).

  1. Para \(s^2\): \[E[s^2] = E\left[\frac{1}{n-1}\sum (x_i - \bar{x})^2\right]\] Por la propiedad de la esperanza \(E[cX] = cE[X]\): \[E[s^2] = \frac{1}{n-1} E\left[\sum (x_i - \bar{x})^2\right]\] Sustituyendo el resultado conocido: \[E[s^2] = \frac{1}{n-1} (n-1)\sigma^2\] \[E[s^2] = \sigma^2\] Esto demuestra que \(s^2\) es un estimador insesgado de \(\sigma^2\).

  2. Para \(\tilde{s}^2\): Sabemos que \(\tilde{s}^2 = \frac{1}{n}\sum (x_i - \bar{x})^2\). Podemos relacionar \(\tilde{s}^2\) con \(s^2\): \[\tilde{s}^2 = \frac{1}{n} (n-1)s^2 = \frac{n-1}{n} s^2\] Ahora, tomamos la esperanza de \(\tilde{s}^2\): \[E[\tilde{s}^2] = E\left[\frac{n-1}{n} s^2\right]\] Por la propiedad de la esperanza \(E[cX] = cE[X]\): \[E[\tilde{s}^2] = \frac{n-1}{n} E[s^2]\] Como ya demostramos que \(E[s^2] = \sigma^2\): \[E[\tilde{s}^2] = \frac{n-1}{n}\sigma^2\] Dado que \(\frac{n-1}{n}\) no es igual a 1 (a menos que \(n \rightarrow \infty\)), esto demuestra que \(\tilde{s}^2\) es un estimador sesgado de \(\sigma^2\).

Conclusión: La varianza muestral con denominador \(n-1\) (\(s^2\)) es un estimador insesgado de la varianza poblacional. La varianza muestral con denominador \(n\) (\(\tilde{s}^2\)) es un estimador sesgado, subestimando la verdadera varianza poblacional. Por esta razón, \(s^2\) se prefiere en la práctica.

Solución en R:

Este ejemplo es de naturaleza más teórica y de demostración matemática que de cálculo numérico o visualización directa de una “región” en un gráfico de distribución. Sin embargo, podemos ilustrar la diferencia de los estimadores a través de simulaciones. No hay una “región” específica para dibujar aquí, sino más bien un punto en el que se ubican las esperanzas de los estimadores.

# Parámetros de la población
set.seed(42) # Para reproducibilidad
mu_poblacion <- 10
sigma_poblacion <- 3
varianza_poblacion <- sigma_poblacion^2
cat("Varianza poblacional real (sigma^2):", varianza_poblacion, "\n")

# Simulación para ilustrar la insesgadez y el sesgo
num_simulaciones <- 10000 # Número de muestras a tomar
tamano_muestra <- 30      # Tamaño de cada muestra

varianzas_s2 <- numeric(num_simulaciones)
varianzas_tilde_s2 <- numeric(num_simulaciones)

for (i in 1:num_simulaciones) {
  muestra <- rnorm(tamano_muestra, mean = mu_poblacion, sd = sigma_poblacion)

  # Estimador s^2 (denominador n-1)
  varianzas_s2[i] <- var(muestra) # var() en R usa n-1 por defecto

  # Estimador tilde_s^2 (denominador n)
  varianzas_tilde_s2[i] <- sum((muestra - mean(muestra))^2) / tamano_muestra
}

# Calcular la media de los estimadores de las simulaciones
media_s2 <- mean(varianzas_s2)
media_tilde_s2 <- mean(varianzas_tilde_s2)

cat("\nMedia de s^2 de las simulaciones (esperado ~ sigma^2):", media_s2, "\n")
cat("Media de tilde_s^2 de las simulaciones (esperado ~ (n-1)/n * sigma^2):", media_tilde_s2, "\n")
cat("Valor esperado teórico para tilde_s^2:", (tamano_muestra - 1) / tamano_muestra * varianza_poblacion, "\n")

# Visualización de la distribución de los estimadores
library(ggplot2)
library(tidyr) # Para pivot_longer

df_sim <- data.frame(
  simulacion = 1:num_simulaciones,
  s2 = varianzas_s2,
  tilde_s2 = varianzas_tilde_s2
)

df_long <- df_sim %>%
  pivot_longer(cols = c(s2, tilde_s2), names_to = "Estimador", values_to = "Varianza")

ggplot(df_long, aes(x = Varianza, fill = Estimador, color = Estimador)) +
  geom_density(alpha = 0.5) +
  geom_vline(xintercept = varianza_poblacion, linetype = "dashed", color = "black", linewidth = 1) +
  geom_vline(xintercept = mean(varianzas_s2), color = "blue", linetype = "dotted", linewidth = 1) +
  geom_vline(xintercept = mean(varianzas_tilde_s2), color = "red", linetype = "dotted", linewidth = 1) +
  annotate("text", x = varianza_poblacion + 0.5, y = 0.1, label = expression(sigma^2), color = "black", size = 4) +
  annotate("text", x = mean(varianzas_s2) - 0.5, y = 0.15, label = expression(E(s^2)), color = "blue", size = 4) +
  annotate("text", x = mean(varianzas_tilde_s2) + 0.5, y = 0.15, label = expression(E(tilde(s)^2)), color = "red", size = 4) +
  labs(title = "Distribución Empírica de Estimadores de la Varianza",
       subtitle = paste0("Varianza Poblacional = ", varianza_poblacion, ", Tamaño de Muestra = ", tamano_muestra),
       x = "Valor de la Varianza Estimada",
       y = "Densidad") +
  scale_fill_manual(values = c("s2" = "skyblue", "tilde_s2" = "lightcoral")) +
  scale_color_manual(values = c("s2" = "blue", "tilde_s2" = "red")) +
  theme_minimal()

Región: El gráfico muestra las distribuciones de densidad empíricas de los dos estimadores de la varianza. La línea negra punteada vertical representa la verdadera varianza poblacional (\(\sigma^2\)). La línea azul punteada representa la media de las varianzas calculadas con \(s^2\) (que está muy cerca de \(\sigma^2\), demostrando insesgadez). La línea roja punteada representa la media de las varianzas calculadas con \(\tilde{s}^2\) (que es notablemente menor que \(\sigma^2\), indicando sesgo). Esto visualiza cómo \(s^2\) “apunta” al verdadero valor, mientras que \(\tilde{s}^2\) lo “subestima” consistentemente.


Espero que estos conceptos y ejemplos te sean de gran ayuda para tu trabajo en R Markdown. ¡Si tienes alguna otra pregunta o necesitas más detalles, no dudes en consultarme desde esta soleada y activa Cartagena!