En inferencia estadística, uno de los objetivos fundamentales es realizar estimaciones sobre parámetros desconocidos de una población a partir de datos muestrales. Para ello se utilizan estimadores, que son funciones aplicadas a la muestra, proporcionando información sobre dichos parámetros poblacionales.
Cuando estos proporcionan un solo valor como estimación, se denominan estimadores puntuales. Es decir, dado un conjunto de datos muestrales, el estimador puntual produce un número específico que se considera una “mejor suposición” del valor real del parámetro poblacional. Por ejemplo, la media muestral es un estimador puntual comúnmente utilizado para estimar la media poblacional.
Sin embargo, no cualquier estimador es adecuado. Para que sea considerado “bueno” o confiable, se consideran ciertas propiedades deseables, permitiendo evaluar su calidad. Estas propiedades deseables de los buenos estimadores puntuales son:
El estudio de estas propiedades resulta fundamental para una buena inferencia estadística, ya que permite seleccionar, entre los distintos estadísticos disponibles, aquellos que brindan estimaciones más precisas, estables y representativas de la realidad poblacional.
Un estimador \(\hat{\theta} = G(X_1, X_2, \ldots, X_n)\) de un parámetro poblacional \(\theta\) es insesgado si su valor esperado es igual al verdadero valor del parámetro. Es decir, se debe cumplir:
\[ E(\hat{\theta}) = \theta \]
De lo contrario, se dice que el estimador es
sesgado.
El sesgo se define como:
\[ \text{Sesgo} = E(\hat{\theta}) - \theta \]
Para la demostración de esta propiedad, validaremos la insesgadez del estimador de la media muestral como un estimador de la media poblacional, y del estimador de la varianza muestral como un estimador de la varianza poblacional.
Supongamos que \(X\) es una variable aleatoria con media \(\mu\) y varianza \(\sigma^2 = 2\). Sea \(X_1, X_2, \ldots, X_n\) una muestra de tamaño \(n\), entonces:
\[ E(\bar{X}) = E\left( \frac{1}{n} \sum_{i=1}^{n} X_i \right) \]
\[ E(\bar{X}) = \frac{1}{n} \sum_{i=1}^{n} E(X_i) \]
\[ E(\bar{X}) = \frac{1}{n} \sum_{i=1}^{n} \mu = \frac{n\mu}{n} = \mu \]
Por lo tanto, la media muestral \(\bar{X}\) es un estimador insesgado de la media poblacional \(\mu\).
Demostrar que la varianza muestral corregida \(S^2\) es un estimador insesgado de la varianza poblacional \(\sigma^2 = 2\):
\[ E(S^2) = E\left( \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \right) \]
\[ E(S^2) = \frac{1}{n-1} E\left( \sum_{i=1}^{n} (X_i^2 + \bar{X}^2 - 2X_i\bar{X}) \right) \]
\[ E(S^2) = \frac{1}{n-1} \left( \sum_{i=1}^{n} E(X_i^2) - n E(\bar{X}^2) \right) \] \[ E(S^2) = \frac{1}{n-1} E\left[ \sum_{i=1}^{n}( X_i^2 + \bar{X}^2 - 2\bar{X} X_i) \right] \] \[ E(S^2) = \frac{1}{n-1} E\left[ \sum_{i=1}^{n} X_i^2 + n\bar{X}^2 - 2n\bar{X}^2 \right] \] \[ E(S^2) = \frac{1}{n-1} E\left[ \sum_{i=1}^{n} X_i^2 - n\bar{X}^2 \right] \] \[ = \frac{1}{n-1} \left( \sum_{i=1}^{n} E(X_i^2) - n E(\bar{X}^2) \right) \]
Ya que \(E(X_i^2) = (\mu^2 + \sigma^2 )\) y \(E(\bar{X}^2) = (\mu^2 + \frac{\sigma^2}{n})\), se tiene:
\[ E(S^2) = \frac{1}{n - 1} \left[ \sum_{i=1}^{n} (\mu^2 + \sigma^2) - n\left( \mu^2 + \frac{\sigma^2}{n} \right) \right] \] \[ E(S^2) = \frac{1}{n - 1} \left( n\mu^2 + n\sigma^2 - n\mu^2 - \sigma^2 \right) \] \[ E(S^2) = \frac{1}{n - 1} (n - 1)\sigma^2 = \sigma^2 \] Por lo tanto, \(S^2\) es un estimador insesgado de la varianza poblacional \((\sigma^2 = S^2)\).
Esta también es una razón por la cual muchas veces se define la varianza muestral como:
\[ s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \]
Y no como:
\[ s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \]
# --- Parámetros de la Población (desconocidos en la práctica, pero necesarios para la simulación) ---
# Vamos a simular una población con una distribución normal.
# Podría ser cualquier distribución, la insesgadez sigue siendo válida.
media_poblacional <- 50
desviacion_estandar_poblacional <- 10
# --- Parámetros de la Simulación ---
tamano_muestra <- 30 # Tamaño de cada muestra extraída
numero_simulaciones <- 10000 # Número de veces que extraemos una muestra
# --- Realizar la Simulación ---
# Vector para almacenar las medias muestrales de cada simulación
medias_muestrales <- numeric(numero_simulaciones)
for (i in 1:numero_simulaciones) {
# Extraer una muestra aleatoria de la población simulada
muestra <- rnorm(n = tamano_muestra, mean = media_poblacional, sd = desviacion_estandar_poblacional)
# Calcular la media de esta muestra
medias_muestrales[i] <- mean(muestra)
}
# --- Analizar los Resultados de la Simulación ---
# Calcular la media de todas las medias muestrales obtenidas
media_de_las_medias <- mean(medias_muestrales)
# Imprimir los resultados
cat("--- Simulación de la Insesgadez de la Media Muestral ---\n")
## --- Simulación de la Insesgadez de la Media Muestral ---
cat(paste("Verdadera Media Poblacional (mu):", media_poblacional, "\n"))
## Verdadera Media Poblacional (mu): 50
cat(paste("Media de las Medias Muestrales (E[Xbar]):",
round(media_de_las_medias, 4), "\n"))
## Media de las Medias Muestrales (E[Xbar]): 49.9945
cat(paste("Sesgo de la Media Muestral (E[Xbar] - mu):",
round(media_de_las_medias - media_poblacional, 4), "\n\n"))
## Sesgo de la Media Muestral (E[Xbar] - mu): -0.0055
# --- Visualización ---
hist(medias_muestrales,
main = "Distribución de las Medias Muestrales",
xlab = "Media Muestral",
col = "lightblue",
border = "white",
breaks = 30)
abline(v = media_poblacional, col = "red", lwd = 2, lty = 2)
abline(v = media_de_las_medias, col = "blue", lwd = 2, lty = 1)
legend("topright",
legend = c("Media Poblacional", "Media de Medias Muestrales"),
col = c("red", "blue"),
lty = c(2, 1),
lwd = 2)
# --- Parámetros de la Población ---
media_poblacional <- 50
desviacion_estandar_poblacional <- 10
varianza_poblacional <- desviacion_estandar_poblacional^2 # Varianza verdadera
# --- Parámetros de la Simulación ---
tamano_muestra <- 30 # Tamaño de cada muestra (debe ser > 1 para calcular varianza)
numero_simulaciones <- 10000
# --- Realizar la Simulación ---
# Vector para almacenar las varianzas muestrales corregidas de cada simulación
varianzas_muestrales <- numeric(numero_simulaciones)
for (i in 1:numero_simulaciones) {
# Extraer una muestra aleatoria
muestra <- rnorm(n = tamano_muestra,
mean = media_poblacional,
sd = desviacion_estandar_poblacional)
# Calcular la varianza muestral corregida (R usa n-1 por defecto con var())
varianzas_muestrales[i] <- var(muestra)
}
# --- Analizar los Resultados de la Simulación ---
# Calcular la media de todas las varianzas muestrales obtenidas
media_de_las_varianzas <- mean(varianzas_muestrales)
# Imprimir los resultados
cat("--- Simulación de la Insesgadez de la Varianza Muestral Corregida ---\n")
## --- Simulación de la Insesgadez de la Varianza Muestral Corregida ---
cat(paste("Verdadera Varianza Poblacional (sigma^2):", varianza_poblacional, "\n"))
## Verdadera Varianza Poblacional (sigma^2): 100
cat(paste("Media de las Varianzas Muestrales (E[S^2]):",
round(media_de_las_varianzas, 4),
"\n"))
## Media de las Varianzas Muestrales (E[S^2]): 100.1005
cat(paste("Sesgo de la Varianza Muestral (E[S^2] - sigma^2):",
round(media_de_las_varianzas - varianza_poblacional, 4),
"\n\n"))
## Sesgo de la Varianza Muestral (E[S^2] - sigma^2): 0.1005
# --- Visualización ---
hist(varianzas_muestrales,
main = "Distribución de las Varianzas Muestrales (Corregidas)",
xlab = "Varianza Muestral",
col = "lightgreen",
border = "white",
breaks = 30)
abline(v = varianza_poblacional, col = "red", lwd = 2, lty = 2)
abline(v = media_de_las_varianzas, col = "blue", lwd = 2, lty = 1)
legend("topright",
legend = c("Varianza Poblacional", "Media de Varianzas Muestrales (Corregidas)"),
col = c("red", "blue"),
lty = c(2, 1),
lwd = 2)
Sean \(\hat{\theta}_1\) y \(\hat{\theta}_2\) dos estimadores del parámetro \(\theta\), y sean \(MSE(\hat{\theta}_1)\) y \(MSE(\hat{\theta}_2)\) los errores cuadráticos medios de \(\hat{\theta}_1\) y \(\hat{\theta}_2\), respectivamente.
La eficiencia relativa de \(\hat{\theta}_2\) con respecto a \(\hat{\theta}_1\) se define como el cociente:
\[ \text{Eficiencia Relativa} = \frac{MSE(\hat{\theta}_1)}{MSE(\hat{\theta}_2)} \] Si esta eficiencia es menor que 1, concluimos que \(\hat{\theta}_1\) es un estimador más eficiente que \(\hat{\theta}_2\), en el sentido de que tiene un menor error cuadrático medio.
Ejemplo: Comparación de estimadores para la media
Suponga que estamos interesados en estimar la media \(\mu\) de una población con varianza \(\sigma^2\).
Solución:
Tomamos \(X_1, X_2, \ldots, X_n\) como una muestra aleatoria de tamaño \(n\) de la población.
Queremos comparar dos posibles estimadores para \(\mu\):
Ambos, \(\bar{X}\) y \(X_i\), son estimadores insesgados de \(\mu\). Por lo tanto, el error cuadrático medio (MSE) de cada uno es simplemente su varianza.
\[ MSE(\bar{X}) = \text{Var}(\bar{X}) = \frac{\sigma^2}{n} \]
\[ MSE(X_i) = \text{Var}(X_i) = \sigma^2 \]
Luego la eficiencia relativa de \(X_i\) con respecto a \(\bar{X}\) es:
\[ \text{Eficiencia Relativa} = \frac{MSE(\bar{X})}{MSE(X_i)} = \frac{\frac{\sigma^2}{n}}{\sigma^2} = \frac{1}{n} \]
Dado que \(\frac{1}{n} < 1\) para muestras de tamaño \(n > 1\), se concluye que la media muestral \(\bar{X}\) es un mejor estimador de \(\mu\) que una simple observación \(X_i\).
Se considera todos los posibles estimadores insesgados de un parámetro \(\theta\); el que tiene varianza mínima se llama estimador eficiente de \(\theta\) o estimador de varianza mínima de \(\theta\).
NOTAS:
Hallar un estimador eficiente para el parámetro \(\theta\), es encontrar entre los estimadores insesgados, el estimador que tiene varianza más pequeña; tal estimador se llama también ESTIMADOR INSESGADO DE MÍNIMA VARIANZA.
Es posible obtener una cota inferior de las varianzas de todos los estimadores insesgados de \(\theta\). Sea \(\hat{\theta}\) un estimador insesgado del parámetro \(\theta\), basado en una muestra aleatoria de \(n\) observaciones y sea \(f(x;\theta)\) la distribución de probabilidad de la variable aleatoria \(X\). Entonces, una cota inferior de la varianza de \(\hat{\theta}\) es:
\[ \text{Var}(\hat{\theta}) \geq \frac{1}{n \cdot E\left[ \left( \frac{\partial}{\partial \theta} \ln f(x;\theta) \right)^2 \right]} \]
Ejemplo:
Demostrar que la media muestral \(\bar{X}\) es un estimador insesgado de mínima varianza de la media \(\mu\) de una variable aleatoria \(X\) con una distribución normal de varianza conocida \(\sigma^2\).
Solución:
Sea \(\bar{X}\) un estimador insesgado de la media \(\mu\).
\[ f(X; \mu) = \frac{1}{\sigma\sqrt{2\pi}} e^{- \frac{1}{2}(X - \mu)^2}, \quad -\infty < X < \infty \]
\[ \ln f(X; \mu) = -\ln(\sigma\sqrt{2\pi}) - \frac{1}{2}(\frac{X - \mu}{\sigma})^2 \]
\[ \text{Var}(\bar{X}) \geq \frac{1}{n \cdot E\left\{ [\frac{d}{d\mu} \ln f(X; \mu)]^2 \right\}} \]
Calculamos la derivada:
\[ \frac{d}{d\mu} \left[ -\ln(\sigma\sqrt{2\pi}) - \frac{1}{2}(\frac{X - \mu}{\sigma})^2 \right] = -\frac{1}{2} \cdot 2(\frac{X - \mu}{\sigma})(\frac{-1}{\sigma}) = \frac{X - \mu}{\sigma^2} \]
Entonces:
\[ \text{Var}(\bar{X}) \geq \frac{1}{n \cdot E[(\frac{X - \mu}{\sigma^2})^2]} = \frac{1}{n \cdot \frac{E[(X- \mu)^2]}{\sigma^4}} = \frac{1}{n \cdot \frac{\sigma^2}{\sigma^4}} \] \[ \text{Var}(\bar{X}) \geq \frac{\sigma^2}{n} \] Pero sabemos que:
\[ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} \]
Como la varianza de \(\bar{X}\) alcanza exactamente la cota inferior de Rao-Cramér, concluimos que:
\[ \bar{X} \text{ es un estimador insesgado de mínima varianza, o estimador eficiente de } \mu. \]
Para poder demostrar la eficiencia con justificación de varianzas,
usaremos el concepto de error cuadrático medio (MSE), el cual se define
como:
Error cuadrático medio de un estimador: Sea \(\hat{\theta} = G(X_1, X_2, \ldots, X_n)\)
un estimador de \(\theta\). El error
cuadrático medio del estimador \(\hat{\theta}\) se denota por \(MSE(\hat{\theta})\). Es decir,
\(MSE(\hat{\theta}) = E[(\hat{\theta} -
\theta)^2]\)
Observación (Relación con la varianza y el sesgo):
El error cuadrático medio de \(\hat{\theta}\) se escribe así:
\[
MSE(\hat{\theta}) = \text{Var}(\hat{\theta}) + [\theta -
E(\hat{\theta})]^2
\] Y su demostración sería de esta manera: \[
MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = E\left[ \left(
(\hat{\theta} - E(\hat{\theta})) + (E(\hat{\theta}) - \theta) \right)^2
\right]
\]
\[ = E[(\hat{\theta} - E(\hat{\theta}))^2] + 2(\hat{\theta} - E(\hat{\theta})) \cdot E[E(\hat{\theta}) - \theta] + E[(E(\hat{\theta}) - \theta)^2] \]
\[ = \text{Var}(\hat{\theta}) + [E(\hat{\theta}) - \theta]^2 \]
El término \(E(\hat{\theta}) -
\theta\) se llama sesgo del estimador \(\hat{\theta}\) y puede ser negativo,
positivo o cero.
La observación muestra que el error cuadrático medio es la suma de dos
cantidades no negativas.
Entonces, cuando un estimador \(\hat{\theta}\) es
insesgado, significa que \(E(\hat{\theta}) = \theta\). En este caso,
el término del sesgo \([E(\hat{\theta}) -
\theta]^2\) se vuelve 0.
Por lo tanto, para un estimador insesgado, el error cuadrático medio es
simplemente igual a su varianza:
\[ MSE(\hat{\theta}) = \text{Var}(\hat{\theta}) \]
El objetivo de la eficiencia es encontrar el estimador insesgado con
la varianza mínima.
Debido a la relación entre el error cuadrático medio y la varianza, si
un estimador es insesgado, minimizar su MSE es equivalente a minimizar
su varianza.
Para demostrar que un estimador insesgado tiene la mínima varianza
posible (es decir, es eficiente), se compara su varianza con la
cota inferior de Rao-Cramer.
Si la varianza del estimador insesgado es igual a esta cota inferior,
entonces se considera un estimador insesgado de mínima varianza
o eficiente.
mu <- 50
sigma <- 10
n <- 30 # Tamaño de la muestra
num_simulaciones <- 10000 # Número de veces que repetimos el experimento
# Vectores para almacenar las estimaciones
estimaciones_media_muestral <- numeric(num_simulaciones)
estimaciones_observacion_individual <- numeric(num_simulaciones)
# Realizar simulaciones
for (i in 1:num_simulaciones) {
muestra <- rnorm(n, mean = mu, sd = sigma)
# Estimador 1: Media muestral
estimaciones_media_muestral[i] <- mean(muestra)
# Estimador 2: Una observación individual (tomamos la primera, por ejemplo)
estimaciones_observacion_individual[i] <- muestra[1]
}
# Calcular las varianzas de las distribuciones muestrales de los estimadores
varianza_media_muestral_simulada <- var(estimaciones_media_muestral)
varianza_observacion_individual_simulada <- var(estimaciones_observacion_individual)
# Valores teóricos
varianza_media_muestral_teorica <- sigma^2 / n
varianza_observacion_individual_teorica <- sigma^2
eficiencia_relativa_simulada <- varianza_media_muestral_simulada/
varianza_observacion_individual_simulada
eficiencia_relativa_teorica <- 1 / n
# Visualización
# Primer histograma
hist(estimaciones_observacion_individual, breaks = 30, col = "lightblue", border = "black",
main = "Distribución de Estimadores de Mu", xlab = "Valor Estimado", freq = FALSE,
xlim = range(c(estimaciones_observacion_individual, estimaciones_media_muestral)),
ylim = c(0, max(density(estimaciones_observacion_individual)$y,
density(estimaciones_media_muestral)$y) * 1.1)) # Ajusta el rango Y
# Añade la línea de densidad para el primer estimador
lines(density(estimaciones_observacion_individual), col = "blue", lwd = 2)
# Segundo histograma
hist(estimaciones_media_muestral, breaks = 30, col = "lightgreen", border = "black",
add = TRUE,
freq = FALSE)
# Añade la línea de densidad para el segundo estimador
lines(density(estimaciones_media_muestral), col = "darkgreen", lwd = 2)
# Leyenda
legend("topright",
legend = c(expression(X[i]), expression(bar(X))), # Etiquetas con formato matemático
fill = c("lightblue", "lightgreen"),
border = "black",
cex = 0.8)
Un estimador puntual se dice consistente si, al aumentar el tamaño de la muestra, su valor se aproxima al verdadero valor del parámetro poblacional. Es decir, cuanto más grande es la muestra, más preciso es el estimador.
Formalmente, un estimador \(\hat{\theta}_n\) es consistente para el parámetro \(\theta\) si:
\[ \lim_{n \to \infty} P\left( \left| \hat{\theta}_n - \theta \right| < \varepsilon \right) = 1 \]
Donde \(\varepsilon > 0\) es un número real positivo arbitrariamente pequeño que representa un margen de error admisible.
La definición indica que, al aumentar el tamaño de la muestra, la probabilidad de que el estimador \(\hat{\theta}_n\) se encuentre dentro de una distancia \(\varepsilon\) del verdadero parámetro \(\theta\) tiende a 1.
Un caso clásico de estimador consistente es la media muestral \(\bar{X}\) como estimador de la media poblacional \(\mu\). Demostramos su consistencia utilizando dos propiedades fundamentales:
\[ E[\bar{X}] = \mu \]
\[ \mathrm{Var}(\bar{X}) = \frac{\sigma^2}{n} \]
Observamos que la varianza de \(\bar{X}\) tiende a cero cuando \(n \to \infty\). Esto significa que, al aumentar el tamaño de la muestra, la distribución de \(\bar{X}\) se concentra cada vez más alrededor de \(\mu\).
Por lo tanto, la media muestral \(\bar{X}\) es un estimador consistente de la media poblacional \(\mu\).
set.seed(123) # Para reproducibilidad
mu <- 5 # Media poblacional
sigma <- 2 # Desviación estándar poblacional
# Tamaños de muestra crecientes
n_muestras <- c(5, 10, 30, 100, 1000, 5000)
# Almacenar medias muestrales
medias <- numeric(length(n_muestras))
# Generar muestras y calcular media muestral
for (i in seq_along(n_muestras)) {
muestra <- rnorm(n_muestras[i], mean = mu, sd = sigma)
medias[i] <- mean(muestra)
}
# Mostrar resultados
data.frame(
"Tamaño_muestra" = n_muestras,
"Media_muestral" = round(medias, 3)
)
## Tamaño_muestra Media_muestral
## 1 5 5.387
## 2 10 5.264
## 3 30 5.049
## 4 100 4.876
## 5 1000 5.062
## 6 5000 4.997
# Crear el gráfico base
plot(n_muestras, medias, type = "o", pch = 16, col = "darkblue", lwd = 2,
xlab = "Tamaño de muestra (n)", ylab = "Media muestral",
main = "Evidencia empírica de la consistencia de la media muestral",
ylim = c(min(medias) - 0.2, max(medias) + 0.2))
grid(col = "gray", lty = "dotted", lwd = 1)
# Agregar la línea horizontal de la media poblacional
abline(h = mu, col = "red", lty = 2, lwd = 2)
# Agregar la leyenda
legend("topright", legend = c("Media poblacional (mu = 5)"),
col = "red", lty = 2, lwd = 2, bty = "n")
Un estimador \(\hat{\theta}\) de un parámetro poblacional \(\theta\) se dice que es suficiente si utiliza toda la información contenida en la muestra sobre el parámetro. Esto implica que, una vez que se ha calculado el estimador suficiente, ninguna otra estadística derivada de la misma muestra puede proporcionar información adicional sobre \(\theta\).
Formalmente, una estadística \(T(X_1, X_2, ..., X_n)\) es suficiente para el parámetro \(\theta\) si la distribución condicional de la muestra \(\mathbf{X} = (X_1, X_2, ..., X_n)\) dado \(T(\mathbf{X})\) no depende de \(\theta\).
La herramienta principal para determinar la suficiencia de un estadístico es el Criterio de Factorización de Fisher-Neyman. Este teorema establece que una estadística \(T(\mathbf{X})\) es suficiente para el parámetro \(\theta\) si y sólo si la función de verosimilitud \(L(\theta; X_1, X_2, ..., X_n)\) puede factorizarse así:
\[ L(\theta; X_1, X_2,X_3,X_4, X_n) = g(T(X_1, X_2,X_3,X_4, X_n); \theta) \cdot h(X_1, X_2,X_3,X_4, X_n) \]
Donde:
La justificación conceptual de la suficiencia radica en la idea de reducción de datos sin pérdida de información. Un estimador suficiente extrae toda la información relevante de la muestra sobre el parámetro \(\theta\), descartando la que no es útil para la inferencia.
Si un estadístico es suficiente, no se necesita conservar los datos originales una vez calculado su valor, ya que toda la información sobre \(\theta\) está contenida en él.
Desde un punto de vista matemático, el Criterio de Factorización de Fisher-Neyman respalda esta idea. Al separar la función de verosimilitud en dos componentes—una que encapsula \(\theta\) solo a través de \(T\) y otra que no involucra \(\theta\)—se demuestra que toda la dependencia respecto al parámetro está contenida en \(T\):
Por lo tanto, si la distribución condicional de la muestra dado \(T(\mathbf{X})\) no depende de \(\theta\), significa que conocer \(T(\mathbf{X})\) es suficiente para inferir sobre el parámetro sin necesidad del resto de los datos.
Ahora usaremos la función de verosimilitud para demostrar la suficiencia de la media muestral \(\bar{X}\) como estimador de \(\mu\) en una distribución normal.
Sea \(X_1, X_2, ..., X_n\) una muestra aleatoria simple de una población que sigue una distribución normal con media \(\mu\) y varianza conocida \(\sigma^2 = 2\), es decir:
\[ X_i \sim \mathcal{N}(\mu, 2) \] Entonces la función de densidad de probabilidad para una sola observación \(X_i\) es:
\[ f(x_i; \mu) = \frac{1}{\sqrt{4\pi}} \exp\left(-\frac{(x_i - \mu)^2}{4}\right) \] La función de verosimilitud para la muestra completa \(\mathbf{X} = (X_1, ..., X_n)\), dado que las observaciones son independientes e idénticamente distribuidas, es:
\[ L(\mu; X_1, ..., X_n) = \prod_{i=1}^{n} f(x_i; \mu) \] \[ L(\mu; X_1, ..., X_n) = \prod_{i=1}^{n} \left[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2} \right) \right] \] \[ L(\mu; X_1, ..., X_n) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left( - \sum_{i=1}^{n} \frac{(x_i - \mu)^2}{2\sigma^2} \right) \] Ahora expandimos el término cuadrático en la exponencial:
\[ \sum_{i=1}^{n} (x_i - \mu)^2 = \sum x_i^2 - 2\mu \sum x_i + n\mu^2 \]
Dado que \(\sum x_i = n\bar{x}\), podemos reescribir:
\[ = \sum x_i^2 - 2n\mu \bar{x} + n\mu^2 \]
Sustituimos en la función de verosimilitud:
\[ L(\mu; X_1, ..., X_n) = \left( \frac{1}{2 \pi \sigma^2} \right)^{n/2} \exp\left( -\frac{1}{2 \sigma^2} \left( \sum_{i=1}^{n} x_i^2 - 2n \mu \bar{x} + n \mu^2 \right) \right) \]
Reordenamos para separar la dependencia en \(\mu\):
\[ L(\mu; X_1, ..., X_n) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left( -\frac{\sum_{i=1}^{n} X_i^2}{2\sigma^2} + \frac{2n\mu \bar{X}}{2\sigma^2} - \frac{n\mu^2}{2\sigma^2} \right) \] \[ L(\mu; X_1, ..., X_n) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left( \frac{n\mu \bar{X}}{\sigma^2} - \frac{n\mu^2}{2\sigma^2} \right) \exp\left( -\frac{\sum X_i^2}{2\sigma^2} \right) \]
Identificamos las partes según el Criterio de Factorización de Fisher-Neyman:
\(g(T(\mathbf{X}); \mu) = \left(
\frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left(
-\frac{n\mu^2}{2\sigma^2} + \frac{n\mu \bar{x}}{\sigma^2}
\right)\)
(depende de \(\mu\) y de los datos solo
a través de la media muestral \(\bar{x}\)). Por lo tanto \(T(\mathbf{X})\)=\(\bar{x}\) es el suficiente
estadístico
\(h(\mathbf{X,X1,X2,X3...,Xn}) =
\exp\left( -\frac{\sum x_i^2}{2\sigma^2}\right)\)
(depende de los datos de la muestra \(\sum
x_i^2\), pero no del parámetro \(\mu\))
Dado que hemos logrado factorizar la función de verosimilitud en esta forma, concluimos que la media muestral \(\bar{X}\) es un estadístico suficiente para la media poblacional \(\mu\) cuando los datos provienen de una distribución normal con varianza conocida.