1 INTRODUCCIÓN 📌

En inferencia estadística, uno de los objetivos fundamentales es realizar estimaciones sobre parámetros desconocidos de una población a partir de datos muestrales. Para ello se utilizan estimadores, que son funciones aplicadas a la muestra, proporcionando información sobre dichos parámetros poblacionales.

Cuando estos proporcionan un solo valor como estimación, se denominan estimadores puntuales. Es decir, dado un conjunto de datos muestrales, el estimador puntual produce un número específico que se considera una “mejor suposición” del valor real del parámetro poblacional. Por ejemplo, la media muestral es un estimador puntual comúnmente utilizado para estimar la media poblacional.

Sin embargo, no cualquier estimador es adecuado. Para que sea considerado “bueno” o confiable, se consideran ciertas propiedades deseables, permitiendo evaluar su calidad. Estas propiedades deseables de los buenos estimadores puntuales son:

Insesgadez: no tiene tendencia sistemática a errar.
Eficiencia: tiene la menor variabilidad posible.
Consistencia: mejora con muestras más grandes.
Suficiencia: aprovecha toda la información de la muestra.

El estudio de estas propiedades resulta fundamental para una buena inferencia estadística, ya que permite seleccionar, entre los distintos estadísticos disponibles, aquellos que brindan estimaciones más precisas, estables y representativas de la realidad poblacional.

2 PROPIEDAD 1: Insesgadez 📊

2.1 Definición formal 📚:

Un estimador \(\hat{\theta} = G(X_1, X_2, \ldots, X_n)\) de un parámetro poblacional \(\theta\) es insesgado si su valor esperado es igual al verdadero valor del parámetro. Es decir, se debe cumplir:

\[ E(\hat{\theta}) = \theta \]

De lo contrario, se dice que el estimador es sesgado.
El sesgo se define como:

\[ \text{Sesgo} = E(\hat{\theta}) - \theta \]

2.2 Verificación teórica 📝:

Para la demostración de esta propiedad, validaremos la insesgadez del estimador de la media muestral como un estimador de la media poblacional, y del estimador de la varianza muestral como un estimador de la varianza poblacional.

Supongamos que \(X\) es una variable aleatoria con media \(\mu\) y varianza \(\sigma^2 = 2\). Sea \(X_1, X_2, \ldots, X_n\) una muestra de tamaño \(n\), entonces:

2.2.1 Media muestral como estimador insesgado

Demostrar que la media muestral \(\bar{X}\) es un estimador insesgado de \(\mu\):

\[ E(\bar{X}) = E\left( \frac{1}{n} \sum_{i=1}^{n} X_i \right) \]

\[ E(\bar{X}) = \frac{1}{n} \sum_{i=1}^{n} E(X_i) \]

\[ E(\bar{X}) = \frac{1}{n} \sum_{i=1}^{n} \mu = \frac{n\mu}{n} = \mu \]

Por lo tanto, la media muestral \(\bar{X}\) es un estimador insesgado de la media poblacional \(\mu\).

2.2.2 Varianza muestral corregida como estimador insesgado

Demostrar que la varianza muestral corregida \(S^2\) es un estimador insesgado de la varianza poblacional \(\sigma^2 = 2\):

\[ E(S^2) = E\left( \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \right) \]

\[ E(S^2) = \frac{1}{n-1} E\left( \sum_{i=1}^{n} (X_i^2 + \bar{X}^2 - 2X_i\bar{X}) \right) \]

\[ E(S^2) = \frac{1}{n-1} \left( \sum_{i=1}^{n} E(X_i^2) - n E(\bar{X}^2) \right) \] \[ E(S^2) = \frac{1}{n-1} E\left[ \sum_{i=1}^{n}( X_i^2 + \bar{X}^2 - 2\bar{X} X_i) \right] \] \[ E(S^2) = \frac{1}{n-1} E\left[ \sum_{i=1}^{n} X_i^2 + n\bar{X}^2 - 2n\bar{X}^2 \right] \] \[ E(S^2) = \frac{1}{n-1} E\left[ \sum_{i=1}^{n} X_i^2 - n\bar{X}^2 \right] \] \[ = \frac{1}{n-1} \left( \sum_{i=1}^{n} E(X_i^2) - n E(\bar{X}^2) \right) \]

Ya que \(E(X_i^2) = (\mu^2 + \sigma^2 )\) y \(E(\bar{X}^2) = (\mu^2 + \frac{\sigma^2}{n})\), se tiene:

\[ E(S^2) = \frac{1}{n - 1} \left[ \sum_{i=1}^{n} (\mu^2 + \sigma^2) - n\left( \mu^2 + \frac{\sigma^2}{n} \right) \right] \] \[ E(S^2) = \frac{1}{n - 1} \left( n\mu^2 + n\sigma^2 - n\mu^2 - \sigma^2 \right) \] \[ E(S^2) = \frac{1}{n - 1} (n - 1)\sigma^2 = \sigma^2 \] Por lo tanto, \(S^2\) es un estimador insesgado de la varianza poblacional \((\sigma^2 = S^2)\).

Esta también es una razón por la cual muchas veces se define la varianza muestral como:

\[ s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \]

Y no como:

\[ s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \]

2.3 Simulación en R 💻:

# --- Parámetros de la Población (desconocidos en la práctica, pero necesarios para la simulación) ---

# Vamos a simular una población con una distribución normal.
# Podría ser cualquier distribución, la insesgadez sigue siendo válida.

media_poblacional <- 50
desviacion_estandar_poblacional <- 10

# --- Parámetros de la Simulación ---

tamano_muestra <- 30 # Tamaño de cada muestra extraída
numero_simulaciones <- 10000 # Número de veces que extraemos una muestra

# --- Realizar la Simulación ---
# Vector para almacenar las medias muestrales de cada simulación
medias_muestrales <- numeric(numero_simulaciones)

for (i in 1:numero_simulaciones) {
  # Extraer una muestra aleatoria de la población simulada
  muestra <- rnorm(n = tamano_muestra, mean = media_poblacional, sd = desviacion_estandar_poblacional)

  # Calcular la media de esta muestra
  medias_muestrales[i] <- mean(muestra)
}

# --- Analizar los Resultados de la Simulación ---
# Calcular la media de todas las medias muestrales obtenidas
media_de_las_medias <- mean(medias_muestrales)

# Imprimir los resultados
cat("--- Simulación de la Insesgadez de la Media Muestral ---\n")

## --- Simulación de la Insesgadez de la Media Muestral ---

cat(paste("Verdadera Media Poblacional (mu):", media_poblacional, "\n"))

## Verdadera Media Poblacional (mu): 50

cat(paste("Media de las Medias Muestrales (E[Xbar]):",
          round(media_de_las_medias, 4), "\n"))

## Media de las Medias Muestrales (E[Xbar]): 49.9945

cat(paste("Sesgo de la Media Muestral (E[Xbar] - mu):", 
          round(media_de_las_medias - media_poblacional, 4), "\n\n"))

## Sesgo de la Media Muestral (E[Xbar] - mu): -0.0055

# --- Visualización ---
hist(medias_muestrales,
     main = "Distribución de las Medias Muestrales",
     xlab = "Media Muestral",
     col = "lightblue",
     border = "white",
     breaks = 30)
abline(v = media_poblacional, col = "red", lwd = 2, lty = 2)
abline(v = media_de_las_medias, col = "blue", lwd = 2, lty = 1)
legend("topright",
       legend = c("Media Poblacional", "Media de Medias Muestrales"),
       col = c("red", "blue"),
       lty = c(2, 1),
       lwd = 2)

# --- Parámetros de la Población ---
media_poblacional <- 50
desviacion_estandar_poblacional <- 10
varianza_poblacional <- desviacion_estandar_poblacional^2 # Varianza verdadera

# --- Parámetros de la Simulación ---
tamano_muestra <- 30 # Tamaño de cada muestra (debe ser > 1 para calcular varianza)
numero_simulaciones <- 10000

# --- Realizar la Simulación ---
# Vector para almacenar las varianzas muestrales corregidas de cada simulación
varianzas_muestrales <- numeric(numero_simulaciones)

for (i in 1:numero_simulaciones) {
  # Extraer una muestra aleatoria
  muestra <- rnorm(n = tamano_muestra,
                   mean = media_poblacional,
                   sd = desviacion_estandar_poblacional)

  # Calcular la varianza muestral corregida (R usa n-1 por defecto con var())
  varianzas_muestrales[i] <- var(muestra)
}

# --- Analizar los Resultados de la Simulación ---
# Calcular la media de todas las varianzas muestrales obtenidas
media_de_las_varianzas <- mean(varianzas_muestrales)

# Imprimir los resultados
cat("--- Simulación de la Insesgadez de la Varianza Muestral Corregida ---\n")

## --- Simulación de la Insesgadez de la Varianza Muestral Corregida ---

cat(paste("Verdadera Varianza Poblacional (sigma^2):", varianza_poblacional, "\n"))

## Verdadera Varianza Poblacional (sigma^2): 100

cat(paste("Media de las Varianzas Muestrales (E[S^2]):",
          round(media_de_las_varianzas, 4),
          "\n"))

## Media de las Varianzas Muestrales (E[S^2]): 100.1005

cat(paste("Sesgo de la Varianza Muestral (E[S^2] - sigma^2):",
          round(media_de_las_varianzas - varianza_poblacional, 4), 
          "\n\n"))

## Sesgo de la Varianza Muestral (E[S^2] - sigma^2): 0.1005

# --- Visualización ---
hist(varianzas_muestrales,
     main = "Distribución de las Varianzas Muestrales (Corregidas)",
     xlab = "Varianza Muestral",
     col = "lightgreen",
     border = "white",
     breaks = 30)
abline(v = varianza_poblacional, col = "red", lwd = 2, lty = 2)
abline(v = media_de_las_varianzas, col = "blue", lwd = 2, lty = 1)
legend("topright",
       legend = c("Varianza Poblacional", "Media de Varianzas Muestrales (Corregidas)"),
       col = c("red", "blue"),
       lty = c(2, 1),
       lwd = 2)

3 PROPIEDAD 2: Eficiencia 📊

3.1 Definición formal y comparación con otros estimadores 📚:

3.1.1 Eficiencia relativa:

Sean \(\hat{\theta}_1\) y \(\hat{\theta}_2\) dos estimadores del parámetro \(\theta\), y sean \(MSE(\hat{\theta}_1)\) y \(MSE(\hat{\theta}_2)\) los errores cuadráticos medios de \(\hat{\theta}_1\) y \(\hat{\theta}_2\), respectivamente.

La eficiencia relativa de \(\hat{\theta}_2\) con respecto a \(\hat{\theta}_1\) se define como el cociente:

\[ \text{Eficiencia Relativa} = \frac{MSE(\hat{\theta}_1)}{MSE(\hat{\theta}_2)} \] Si esta eficiencia es menor que 1, concluimos que \(\hat{\theta}_1\) es un estimador más eficiente que \(\hat{\theta}_2\), en el sentido de que tiene un menor error cuadrático medio.

Ejemplo: Comparación de estimadores para la media

Suponga que estamos interesados en estimar la media \(\mu\) de una población con varianza \(\sigma^2\).

Solución:

Tomamos \(X_1, X_2, \ldots, X_n\) como una muestra aleatoria de tamaño \(n\) de la población.

Queremos comparar dos posibles estimadores para \(\mu\):

La media muestral \(\bar{X}\)
Una sola observación de la muestra, digamos \(X_i\)

Ambos, \(\bar{X}\) y \(X_i\), son estimadores insesgados de \(\mu\). Por lo tanto, el error cuadrático medio (MSE) de cada uno es simplemente su varianza.

Para la media muestral:

\[ MSE(\bar{X}) = \text{Var}(\bar{X}) = \frac{\sigma^2}{n} \]

Para una observación individual:

\[ MSE(X_i) = \text{Var}(X_i) = \sigma^2 \]

Luego la eficiencia relativa de \(X_i\) con respecto a \(\bar{X}\) es:

\[ \text{Eficiencia Relativa} = \frac{MSE(\bar{X})}{MSE(X_i)} = \frac{\frac{\sigma^2}{n}}{\sigma^2} = \frac{1}{n} \]

Dado que \(\frac{1}{n} < 1\) para muestras de tamaño \(n > 1\), se concluye que la media muestral \(\bar{X}\) es un mejor estimador de \(\mu\) que una simple observación \(X_i\).

3.1.2 Eficiencia absoluta:

Se considera todos los posibles estimadores insesgados de un parámetro \(\theta\); el que tiene varianza mínima se llama estimador eficiente de \(\theta\) o estimador de varianza mínima de \(\theta\).

NOTAS:

Hallar un estimador eficiente para el parámetro \(\theta\), es encontrar entre los estimadores insesgados, el estimador que tiene varianza más pequeña; tal estimador se llama también ESTIMADOR INSESGADO DE MÍNIMA VARIANZA.
Es posible obtener una cota inferior de las varianzas de todos los estimadores insesgados de \(\theta\). Sea \(\hat{\theta}\) un estimador insesgado del parámetro \(\theta\), basado en una muestra aleatoria de \(n\) observaciones y sea \(f(x;\theta)\) la distribución de probabilidad de la variable aleatoria \(X\). Entonces, una cota inferior de la varianza de \(\hat{\theta}\) es:

\[ \text{Var}(\hat{\theta}) \geq \frac{1}{n \cdot E\left[ \left( \frac{\partial}{\partial \theta} \ln f(x;\theta) \right)^2 \right]} \]

Sea la varianza de un estimador insesgado \(\hat{\theta}\) satisface la desigualdad de RAO-CRAMER como una igualdad, este es un estimador insesgado de mínima varianza o eficiente de \(\theta\).

Ejemplo:

Demostrar que la media muestral \(\bar{X}\) es un estimador insesgado de mínima varianza de la media \(\mu\) de una variable aleatoria \(X\) con una distribución normal de varianza conocida \(\sigma^2\).

Solución:

Sea \(\bar{X}\) un estimador insesgado de la media \(\mu\).

La función de densidad de la variable aleatoria \(X\) es:

\[ f(X; \mu) = \frac{1}{\sigma\sqrt{2\pi}} e^{- \frac{1}{2}(X - \mu)^2}, \quad -\infty < X < \infty \]

Tomando logaritmo natural a ambos miembros de la función de densidad:

\[ \ln f(X; \mu) = -\ln(\sigma\sqrt{2\pi}) - \frac{1}{2}(\frac{X - \mu}{\sigma})^2 \]

La desigualdad de Rao-Cramér para la varianza de \(\bar{X}\) es:

\[ \text{Var}(\bar{X}) \geq \frac{1}{n \cdot E\left\{ [\frac{d}{d\mu} \ln f(X; \mu)]^2 \right\}} \]

Calculamos la derivada:

\[ \frac{d}{d\mu} \left[ -\ln(\sigma\sqrt{2\pi}) - \frac{1}{2}(\frac{X - \mu}{\sigma})^2 \right] = -\frac{1}{2} \cdot 2(\frac{X - \mu}{\sigma})(\frac{-1}{\sigma}) = \frac{X - \mu}{\sigma^2} \]

Entonces:

\[ \text{Var}(\bar{X}) \geq \frac{1}{n \cdot E[(\frac{X - \mu}{\sigma^2})^2]} = \frac{1}{n \cdot \frac{E[(X- \mu)^2]}{\sigma^4}} = \frac{1}{n \cdot \frac{\sigma^2}{\sigma^4}} \] \[ \text{Var}(\bar{X}) \geq \frac{\sigma^2}{n} \] Pero sabemos que:

\[ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} \]

Como la varianza de \(\bar{X}\) alcanza exactamente la cota inferior de Rao-Cramér, concluimos que:

\[ \bar{X} \text{ es un estimador insesgado de mínima varianza, o estimador eficiente de } \mu. \]

3.2 Justificación con varianzas 📝:

Para poder demostrar la eficiencia con justificación de varianzas, usaremos el concepto de error cuadrático medio (MSE), el cual se define como:
Error cuadrático medio de un estimador: Sea \(\hat{\theta} = G(X_1, X_2, \ldots, X_n)\) un estimador de \(\theta\). El error cuadrático medio del estimador \(\hat{\theta}\) se denota por \(MSE(\hat{\theta})\). Es decir,
\(MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2]\)

Observación (Relación con la varianza y el sesgo):

El error cuadrático medio de \(\hat{\theta}\) se escribe así:
\[ MSE(\hat{\theta}) = \text{Var}(\hat{\theta}) + [\theta - E(\hat{\theta})]^2 \] Y su demostración sería de esta manera: \[ MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = E\left[ \left( (\hat{\theta} - E(\hat{\theta})) + (E(\hat{\theta}) - \theta) \right)^2 \right] \]

\[ = E[(\hat{\theta} - E(\hat{\theta}))^2] + 2(\hat{\theta} - E(\hat{\theta})) \cdot E[E(\hat{\theta}) - \theta] + E[(E(\hat{\theta}) - \theta)^2] \]

\[ = \text{Var}(\hat{\theta}) + [E(\hat{\theta}) - \theta]^2 \]

El término \(E(\hat{\theta}) - \theta\) se llama sesgo del estimador \(\hat{\theta}\) y puede ser negativo, positivo o cero.
La observación muestra que el error cuadrático medio es la suma de dos cantidades no negativas.

Entonces, cuando un estimador \(\hat{\theta}\) es insesgado, significa que \(E(\hat{\theta}) = \theta\). En este caso, el término del sesgo \([E(\hat{\theta}) - \theta]^2\) se vuelve 0.
Por lo tanto, para un estimador insesgado, el error cuadrático medio es simplemente igual a su varianza:

\[ MSE(\hat{\theta}) = \text{Var}(\hat{\theta}) \]

El objetivo de la eficiencia es encontrar el estimador insesgado con la varianza mínima.
Debido a la relación entre el error cuadrático medio y la varianza, si un estimador es insesgado, minimizar su MSE es equivalente a minimizar su varianza.

Para demostrar que un estimador insesgado tiene la mínima varianza posible (es decir, es eficiente), se compara su varianza con la cota inferior de Rao-Cramer.
Si la varianza del estimador insesgado es igual a esta cota inferior, entonces se considera un estimador insesgado de mínima varianza o eficiente.

3.3 Cálculos o simulaciones con R 💻:

mu <- 50
sigma <- 10
n <- 30 # Tamaño de la muestra
num_simulaciones <- 10000 # Número de veces que repetimos el experimento

# Vectores para almacenar las estimaciones
estimaciones_media_muestral <- numeric(num_simulaciones)
estimaciones_observacion_individual <- numeric(num_simulaciones)

# Realizar simulaciones
for (i in 1:num_simulaciones) {
  muestra <- rnorm(n, mean = mu, sd = sigma)
  
  # Estimador 1: Media muestral
  estimaciones_media_muestral[i] <- mean(muestra)
  
  # Estimador 2: Una observación individual (tomamos la primera, por ejemplo)
  estimaciones_observacion_individual[i] <- muestra[1]
}

# Calcular las varianzas de las distribuciones muestrales de los estimadores
varianza_media_muestral_simulada <- var(estimaciones_media_muestral)
varianza_observacion_individual_simulada <- var(estimaciones_observacion_individual)

# Valores teóricos
varianza_media_muestral_teorica <- sigma^2 / n
varianza_observacion_individual_teorica <- sigma^2

eficiencia_relativa_simulada <- varianza_media_muestral_simulada/
  varianza_observacion_individual_simulada
eficiencia_relativa_teorica <- 1 / n

# Visualización 

# Primer histograma 
hist(estimaciones_observacion_individual, breaks = 30, col = "lightblue", border = "black",
     main = "Distribución de Estimadores de Mu", xlab = "Valor Estimado", freq = FALSE,
     xlim = range(c(estimaciones_observacion_individual, estimaciones_media_muestral)), 
     ylim = c(0, max(density(estimaciones_observacion_individual)$y,
                     density(estimaciones_media_muestral)$y) * 1.1)) # Ajusta el rango Y

# Añade la línea de densidad para el primer estimador
lines(density(estimaciones_observacion_individual), col = "blue", lwd = 2)

# Segundo histograma 
hist(estimaciones_media_muestral, breaks = 30, col = "lightgreen", border = "black",
     add = TRUE,
     freq = FALSE)

# Añade la línea de densidad para el segundo estimador
lines(density(estimaciones_media_muestral), col = "darkgreen", lwd = 2)
# Leyenda
legend("topright",
       legend = c(expression(X[i]), expression(bar(X))), # Etiquetas con formato matemático
       fill = c("lightblue", "lightgreen"),
       border = "black",
       cex = 0.8)

4 PROPIEDAD 3: Consistencia 📊

4.1 Definición 📚:

Un estimador puntual se dice consistente si, al aumentar el tamaño de la muestra, su valor se aproxima al verdadero valor del parámetro poblacional. Es decir, cuanto más grande es la muestra, más preciso es el estimador.

Formalmente, un estimador \(\hat{\theta}_n\) es consistente para el parámetro \(\theta\) si:

\[ \lim_{n \to \infty} P\left( \left| \hat{\theta}_n - \theta \right| < \varepsilon \right) = 1 \]

Donde \(\varepsilon > 0\) es un número real positivo arbitrariamente pequeño que representa un margen de error admisible.

La definición indica que, al aumentar el tamaño de la muestra, la probabilidad de que el estimador \(\hat{\theta}_n\) se encuentre dentro de una distancia \(\varepsilon\) del verdadero parámetro \(\theta\) tiende a 1.

4.2 Demostración 📝:

Un caso clásico de estimador consistente es la media muestral \(\bar{X}\) como estimador de la media poblacional \(\mu\). Demostramos su consistencia utilizando dos propiedades fundamentales:

Esperanza de la media muestral:

\[ E[\bar{X}] = \mu \]

Varianza de la media muestral:

\[ \mathrm{Var}(\bar{X}) = \frac{\sigma^2}{n} \]

Observamos que la varianza de \(\bar{X}\) tiende a cero cuando \(n \to \infty\). Esto significa que, al aumentar el tamaño de la muestra, la distribución de \(\bar{X}\) se concentra cada vez más alrededor de \(\mu\).

Por lo tanto, la media muestral \(\bar{X}\) es un estimador consistente de la media poblacional \(\mu\).

4.3 Verificación en R 💻:

set.seed(123)  # Para reproducibilidad
mu <- 5        # Media poblacional
sigma <- 2     # Desviación estándar poblacional

# Tamaños de muestra crecientes
n_muestras <- c(5, 10, 30, 100, 1000, 5000)

# Almacenar medias muestrales
medias <- numeric(length(n_muestras))
# Generar muestras y calcular media muestral
for (i in seq_along(n_muestras)) {
  muestra <- rnorm(n_muestras[i], mean = mu, sd = sigma)
  medias[i] <- mean(muestra)
}

# Mostrar resultados
data.frame(
  "Tamaño_muestra" = n_muestras,
  "Media_muestral" = round(medias, 3)
)

##   Tamaño_muestra Media_muestral
## 1              5          5.387
## 2             10          5.264
## 3             30          5.049
## 4            100          4.876
## 5           1000          5.062
## 6           5000          4.997

# Crear el gráfico base
plot(n_muestras, medias, type = "o", pch = 16, col = "darkblue", lwd = 2,
     xlab = "Tamaño de muestra (n)", ylab = "Media muestral",
     main = "Evidencia empírica de la consistencia de la media muestral",
     ylim = c(min(medias) - 0.2, max(medias) + 0.2))
grid(col = "gray", lty = "dotted", lwd = 1)
# Agregar la línea horizontal de la media poblacional
abline(h = mu, col = "red", lty = 2, lwd = 2)

# Agregar la leyenda
legend("topright", legend = c("Media poblacional (mu = 5)"), 
       col = "red", lty = 2, lwd = 2, bty = "n")

5 PROPIEDAD 4: Suficiencia 📊

5.1 Definición y aplicación del Teorema de Factorización 📚:

Un estimador \(\hat{\theta}\) de un parámetro poblacional \(\theta\) se dice que es suficiente si utiliza toda la información contenida en la muestra sobre el parámetro. Esto implica que, una vez que se ha calculado el estimador suficiente, ninguna otra estadística derivada de la misma muestra puede proporcionar información adicional sobre \(\theta\).

Formalmente, una estadística \(T(X_1, X_2, ..., X_n)\) es suficiente para el parámetro \(\theta\) si la distribución condicional de la muestra \(\mathbf{X} = (X_1, X_2, ..., X_n)\) dado \(T(\mathbf{X})\) no depende de \(\theta\).

La herramienta principal para determinar la suficiencia de un estadístico es el Criterio de Factorización de Fisher-Neyman. Este teorema establece que una estadística \(T(\mathbf{X})\) es suficiente para el parámetro \(\theta\) si y sólo si la función de verosimilitud \(L(\theta; X_1, X_2, ..., X_n)\) puede factorizarse así:

\[ L(\theta; X_1, X_2,X_3,X_4, X_n) = g(T(X_1, X_2,X_3,X_4, X_n); \theta) \cdot h(X_1, X_2,X_3,X_4, X_n) \]

Donde:

\(g(T(X_1, X_2,X_3,X_4, X_n); \theta)\) es una función que depende de \(\theta\) y de los datos únicamente a través del estadístico \(T\).
\(h(X_1, X_2,X_3,X_4, X_n)\) es una función que depende de los datos, pero no de \(\theta\).

5.2 Justificación conceptual o matemática 📝:

La justificación conceptual de la suficiencia radica en la idea de reducción de datos sin pérdida de información. Un estimador suficiente extrae toda la información relevante de la muestra sobre el parámetro \(\theta\), descartando la que no es útil para la inferencia.

Si un estadístico es suficiente, no se necesita conservar los datos originales una vez calculado su valor, ya que toda la información sobre \(\theta\) está contenida en él.

Desde un punto de vista matemático, el Criterio de Factorización de Fisher-Neyman respalda esta idea. Al separar la función de verosimilitud en dos componentes—una que encapsula \(\theta\) solo a través de \(T\) y otra que no involucra \(\theta\)—se demuestra que toda la dependencia respecto al parámetro está contenida en \(T\):

La función \(g\) representa la parte de la muestra que sí aporta información sobre \(\theta\).
La función \(h\) representa la parte que no aporta información adicional.

Por lo tanto, si la distribución condicional de la muestra dado \(T(\mathbf{X})\) no depende de \(\theta\), significa que conocer \(T(\mathbf{X})\) es suficiente para inferir sobre el parámetro sin necesidad del resto de los datos.

5.3 Ejemplo con función de verosimilitud 📝:

Ahora usaremos la función de verosimilitud para demostrar la suficiencia de la media muestral \(\bar{X}\) como estimador de \(\mu\) en una distribución normal.

Sea \(X_1, X_2, ..., X_n\) una muestra aleatoria simple de una población que sigue una distribución normal con media \(\mu\) y varianza conocida \(\sigma^2 = 2\), es decir:

\[ X_i \sim \mathcal{N}(\mu, 2) \] Entonces la función de densidad de probabilidad para una sola observación \(X_i\) es:

\[ f(x_i; \mu) = \frac{1}{\sqrt{4\pi}} \exp\left(-\frac{(x_i - \mu)^2}{4}\right) \] La función de verosimilitud para la muestra completa \(\mathbf{X} = (X_1, ..., X_n)\), dado que las observaciones son independientes e idénticamente distribuidas, es:

\[ L(\mu; X_1, ..., X_n) = \prod_{i=1}^{n} f(x_i; \mu) \] \[ L(\mu; X_1, ..., X_n) = \prod_{i=1}^{n} \left[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2} \right) \right] \] \[ L(\mu; X_1, ..., X_n) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left( - \sum_{i=1}^{n} \frac{(x_i - \mu)^2}{2\sigma^2} \right) \] Ahora expandimos el término cuadrático en la exponencial:

\[ \sum_{i=1}^{n} (x_i - \mu)^2 = \sum x_i^2 - 2\mu \sum x_i + n\mu^2 \]

Dado que \(\sum x_i = n\bar{x}\), podemos reescribir:

\[ = \sum x_i^2 - 2n\mu \bar{x} + n\mu^2 \]

Sustituimos en la función de verosimilitud:

\[ L(\mu; X_1, ..., X_n) = \left( \frac{1}{2 \pi \sigma^2} \right)^{n/2} \exp\left( -\frac{1}{2 \sigma^2} \left( \sum_{i=1}^{n} x_i^2 - 2n \mu \bar{x} + n \mu^2 \right) \right) \]

Reordenamos para separar la dependencia en \(\mu\):

\[ L(\mu; X_1, ..., X_n) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left( -\frac{\sum_{i=1}^{n} X_i^2}{2\sigma^2} + \frac{2n\mu \bar{X}}{2\sigma^2} - \frac{n\mu^2}{2\sigma^2} \right) \] \[ L(\mu; X_1, ..., X_n) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left( \frac{n\mu \bar{X}}{\sigma^2} - \frac{n\mu^2}{2\sigma^2} \right) \exp\left( -\frac{\sum X_i^2}{2\sigma^2} \right) \]

Identificamos las partes según el Criterio de Factorización de Fisher-Neyman:

\(g(T(\mathbf{X}); \mu) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left( -\frac{n\mu^2}{2\sigma^2} + \frac{n\mu \bar{x}}{\sigma^2} \right)\)
(depende de \(\mu\) y de los datos solo a través de la media muestral \(\bar{x}\)). Por lo tanto \(T(\mathbf{X})\)=\(\bar{x}\) es el suficiente estadístico
\(h(\mathbf{X,X1,X2,X3...,Xn}) = \exp\left( -\frac{\sum x_i^2}{2\sigma^2}\right)\)
(depende de los datos de la muestra \(\sum x_i^2\), pero no del parámetro \(\mu\))

Dado que hemos logrado factorizar la función de verosimilitud en esta forma, concluimos que la media muestral \(\bar{X}\) es un estadístico suficiente para la media poblacional \(\mu\) cuando los datos provienen de una distribución normal con varianza conocida.

6 CONCLUSIONES 📌

✅Se demuestra que la media muestral y la varianza muestral se verificaron como estimadores insesgados, lo que significa que, en promedio, sus estimaciones no se desvían sistemáticamente del verdadero valor del parámetro poblacional.
✅Se confirmó que la media muestral es un estimador eficiente para la media poblacional, especialmente al alcanzar la cota inferior de Rao-Cramer, indicando que posee la mínima varianza entre los estimadores insesgados.
✅La media muestral fue demostrada como un estimador consistente de la media poblacional, lo que implica que a medida que el tamaño de la muestra aumenta, el estimador converge y se aproxima cada vez más al parámetro real.
✅Se establece que la media muestral es un estadístico suficiente para la media poblacional en distribuciones normales con varianza conocida, lo que significa que captura toda la información relevante de la muestra sobre el parámetro.
✅La verificación y comprensión de la insesgadez, eficiencia, consistencia y suficiencia son esenciales para la selección y aplicación de estimadores puntuales, ya que garantizan la fiabilidad, precisión y representatividad de las estimaciones en la inferencia estadística, facilitando decisiones informadas y robustas.

Análisis de las propiedades de los estimadores puntuales

Lucía Carbajal F., Arlette Carmen T., Laura Ojeda M., Ashley Tarazona G., Juan Zavaleta M.

2025-07-04