Example 5.5. Encuéntrese el estimador de máxima verosimilitud de la desviación \(\sigma\) para el caso de la distribución normal con parámetros \(\mu\) y \(\sigma^2\).
Sea \(X_1,\dots,X_n\) una muestra aleatoria de una \(N(\mu,\sigma^2)\). La función de densidad para una observación es
\[ f_X(x_i;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right). \]
La verosimilitud de la muestra (producto de densidades) es
\[ L(\mu,\sigma^2)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) = (2\pi\sigma^2)^{-n/2}\exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2\right). \]
Es más sencillo trabajar con la log-verosimilitud:
\[ \ell(\mu,\sigma^2)=\ln L(\mu,\sigma^2) = -\frac{n}{2}\ln(2\pi) -\frac{n}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2. \]
Derivamos \(\ell\) respecto a \(\mu\) y anulamos:
\[ \frac{\partial \ell}{\partial \mu} = -\frac{1}{2\sigma^2} \cdot 2 \sum_{i=1}^n (x_i-\mu)(-1) = \frac{1}{\sigma^2}\sum_{i=1}^n (x_i-\mu). \]
Igualando a cero:
\[ \sum_{i=1}^n (x_i-\hat{\mu}) = 0 \quad\Rightarrow\quad n\hat{\mu} = \sum_{i=1}^n x_i \quad\Rightarrow\quad \hat{\mu} = \overline{X}. \]
Así, el estimador de máxima verosimilitud para \(\mu\) es la media muestral \(\hat{\mu}=\overline{X}\).
Ahora derivamos \(\ell\) respecto a \(\sigma^2\). Es conveniente tratar \(\sigma^2\) como la variable:
\[ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2}\frac{1}{\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum_{i=1}^n (x_i-\mu)^2. \]
Igualando a cero y resolviendo para \(\sigma^2\):
\[ -\frac{n}{2}\frac{1}{\hat{\sigma}^2} + \frac{1}{2(\hat{\sigma}^2)^2} \sum_{i=1}^n (x_i-\hat{\mu})^2 = 0 \]
Multiplicando por \(2(\hat{\sigma}^2)^2\):
\[ -n\hat{\sigma}^2 + \sum_{i=1}^n (x_i-\hat{\mu})^2 = 0 \]
Por lo tanto
\[ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i-\hat{\mu})^2. \]
Finalmente, el estimador de \(\sigma\) es la raíz cuadrada de lo anterior. Si definimos una función \(h(\mu,\sigma^2)=\sqrt{\sigma^2}=\sigma\), entonces sustituyendo el MLE obtenemos
\[ \hat{\sigma} = \sqrt{\hat{\sigma}^2} = \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i-\overline{X})^2}. \]
Observación: Este estimador de \(\sigma\) (y de \(\sigma^2\)) no coincide con el estimador insesgado de la varianza muestral \(S^2\), que usa denominador \(n-1\):
\[ S^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{X})^2. \]
El MLE para \(\sigma^2\) usa denominador \(n\) y por tanto es sesgado para la varianza (pero consistente). Para muestras grandes las diferencias son pequeñas.
set.seed(2025)
# generar una muestra de ejemplo
n <- 20
mu_true <- 2.5
sigma_true <- 1.3
x <- rnorm(n, mean = mu_true, sd = sigma_true)
# estimadores
mu_hat <- mean(x)
sigma2_hat_mle <- mean((x - mu_hat)^2) # MLE para sigma^2 (denominador n)
sigma_hat_mle <- sqrt(sigma2_hat_mle)
s2_unbiased <- sum((x - mu_hat)^2) / (n - 1)
s_unbiased <- sqrt(s2_unbiased)
list(
n = n,
mu_true = mu_true,
sigma_true = sigma_true,
mu_hat = mu_hat,
sigma_hat_mle = sigma_hat_mle,
s_unbiased = s_unbiased
)
## $n
## [1] 20
##
## $mu_true
## [1] 2.5
##
## $sigma_true
## [1] 1.3
##
## $mu_hat
## [1] 2.768579
##
## $sigma_hat_mle
## [1] 1.150481
##
## $s_unbiased
## [1] 1.180368
Ahora una pequeña simulación para comparar la media del estimador MLE de \(\sigma\) frente al estimador insesgado (raíz de \(S^2\)).
set.seed(2025)
nsim <- 5000
n <- 10
sigma_true <- 1.0
mu_true <- 0
sigma_hat_vals <- numeric(nsim)
s_unbiased_vals <- numeric(nsim)
for (i in 1:nsim) {
x <- rnorm(n, mu_true, sigma_true)
mu_hat <- mean(x)
sigma_hat_vals[i] <- sqrt(mean((x - mu_hat)^2))
s_unbiased_vals[i] <- sqrt(sum((x - mu_hat)^2)/(n-1))
}
c(mean_mle = mean(sigma_hat_vals), mean_unbiased = mean(s_unbiased_vals), true_sigma = sigma_true)
## mean_mle mean_unbiased true_sigma
## 0.9211153 0.9709408 1.0000000