Enunciado

Example 5.5. Encuéntrese el estimador de máxima verosimilitud de la desviación \(\sigma\) para el caso de la distribución normal con parámetros \(\mu\) y \(\sigma^2\).

Solución (procedimiento paso a paso)

Sea \(X_1,\dots,X_n\) una muestra aleatoria de una \(N(\mu,\sigma^2)\). La función de densidad para una observación es

\[ f_X(x_i;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right). \]

La verosimilitud de la muestra (producto de densidades) es

\[ L(\mu,\sigma^2)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) = (2\pi\sigma^2)^{-n/2}\exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2\right). \]

Es más sencillo trabajar con la log-verosimilitud:

\[ \ell(\mu,\sigma^2)=\ln L(\mu,\sigma^2) = -\frac{n}{2}\ln(2\pi) -\frac{n}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2. \]

Estimador de \(\mu\)

Derivamos \(\ell\) respecto a \(\mu\) y anulamos:

\[ \frac{\partial \ell}{\partial \mu} = -\frac{1}{2\sigma^2} \cdot 2 \sum_{i=1}^n (x_i-\mu)(-1) = \frac{1}{\sigma^2}\sum_{i=1}^n (x_i-\mu). \]

Igualando a cero:

\[ \sum_{i=1}^n (x_i-\hat{\mu}) = 0 \quad\Rightarrow\quad n\hat{\mu} = \sum_{i=1}^n x_i \quad\Rightarrow\quad \hat{\mu} = \overline{X}. \]

Así, el estimador de máxima verosimilitud para \(\mu\) es la media muestral \(\hat{\mu}=\overline{X}\).

Estimador de \(\sigma^2\)

Ahora derivamos \(\ell\) respecto a \(\sigma^2\). Es conveniente tratar \(\sigma^2\) como la variable:

\[ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2}\frac{1}{\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum_{i=1}^n (x_i-\mu)^2. \]

Igualando a cero y resolviendo para \(\sigma^2\):

\[ -\frac{n}{2}\frac{1}{\hat{\sigma}^2} + \frac{1}{2(\hat{\sigma}^2)^2} \sum_{i=1}^n (x_i-\hat{\mu})^2 = 0 \]

Multiplicando por \(2(\hat{\sigma}^2)^2\):

\[ -n\hat{\sigma}^2 + \sum_{i=1}^n (x_i-\hat{\mu})^2 = 0 \]

Por lo tanto

\[ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i-\hat{\mu})^2. \]

Finalmente, el estimador de \(\sigma\) es la raíz cuadrada de lo anterior. Si definimos una función \(h(\mu,\sigma^2)=\sqrt{\sigma^2}=\sigma\), entonces sustituyendo el MLE obtenemos

\[ \hat{\sigma} = \sqrt{\hat{\sigma}^2} = \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i-\overline{X})^2}. \]

Observación: Este estimador de \(\sigma\) (y de \(\sigma^2\)) no coincide con el estimador insesgado de la varianza muestral \(S^2\), que usa denominador \(n-1\):

\[ S^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{X})^2. \]

El MLE para \(\sigma^2\) usa denominador \(n\) y por tanto es sesgado para la varianza (pero consistente). Para muestras grandes las diferencias son pequeñas.

Ejemplo numérico y simulación

set.seed(2025)
# generar una muestra de ejemplo
n <- 20
mu_true <- 2.5
sigma_true <- 1.3
x <- rnorm(n, mean = mu_true, sd = sigma_true)

# estimadores
mu_hat <- mean(x)
sigma2_hat_mle <- mean((x - mu_hat)^2)      # MLE para sigma^2 (denominador n)
sigma_hat_mle <- sqrt(sigma2_hat_mle)

s2_unbiased <- sum((x - mu_hat)^2) / (n - 1)
s_unbiased <- sqrt(s2_unbiased)

list(
  n = n,
  mu_true = mu_true,
  sigma_true = sigma_true,
  mu_hat = mu_hat,
  sigma_hat_mle = sigma_hat_mle,
  s_unbiased = s_unbiased
)
## $n
## [1] 20
## 
## $mu_true
## [1] 2.5
## 
## $sigma_true
## [1] 1.3
## 
## $mu_hat
## [1] 2.768579
## 
## $sigma_hat_mle
## [1] 1.150481
## 
## $s_unbiased
## [1] 1.180368

Ahora una pequeña simulación para comparar la media del estimador MLE de \(\sigma\) frente al estimador insesgado (raíz de \(S^2\)).

set.seed(2025)
nsim <- 5000
n <- 10
sigma_true <- 1.0
mu_true <- 0
sigma_hat_vals <- numeric(nsim)
s_unbiased_vals <- numeric(nsim)
for (i in 1:nsim) {
  x <- rnorm(n, mu_true, sigma_true)
  mu_hat <- mean(x)
  sigma_hat_vals[i] <- sqrt(mean((x - mu_hat)^2))
  s_unbiased_vals[i] <- sqrt(sum((x - mu_hat)^2)/(n-1))
}

c(mean_mle = mean(sigma_hat_vals), mean_unbiased = mean(s_unbiased_vals), true_sigma = sigma_true)
##      mean_mle mean_unbiased    true_sigma 
##     0.9211153     0.9709408     1.0000000

Conclusión