Sea \(X_1, X_2, ..., X_n\) una muestra de \(n\) variables aleatorias de una distribución uniforme \([0, \theta]\).
Tenemos que:
\[ X \sim \text{Uniforme } (0, \theta), \quad f_X(x) = \begin{cases} \frac{1}{\theta} & \text{si } 0 \leq x \leq \theta \\ 0 & \text{en otro caso} \end{cases} \]
El valor esperado de \(X\):
\[ E[X] = \int_{-\infty}^{\infty} x f_X(x) dx = \int_0^\theta x \cdot \frac{1}{\theta} dx = \frac{1}{\theta} \int_0^\theta x dx \]
\[ E[X] = \frac{1}{\theta} \left[ \frac{x^2}{2} \right]_0^\theta = \frac{1}{\theta} \cdot \frac{\theta^2}{2} = \frac{\theta}{2} \]
Dada la muestra \(X_1, X_2, \dots, X_n\), el primer momento muestral es la media muestral:
\[ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \]
Igualar el primer momento poblacional (\(E[X] = \frac{\theta}{2}\)) con el primer momento muestral (\(\bar{X}\)):
\[ \frac{\theta}{2} = \bar{X} \Rightarrow \theta = 2 \bar{X} \]
\(\hat{\theta}_1 = 2 \bar{X}\)
Calculando \(E[\hat{\theta}_1]\)
\[ E[\hat{\theta}_1] = E[2 \bar{X}] = 2 E[\bar{X}] \]
\[ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \quad \text{(por la linealidad de la esperanza)} \]
\[ E[\bar{X}] = \frac{1}{n} \sum_{i=1}^n E[X_i] = \frac{1}{n} \cdot n E[X] = E[X] \]
\[ E[X] = \frac{\theta}{2} \Rightarrow E[\hat{\theta}_1] = 2 \cdot \frac{\theta}{2} = \theta \]
\[ E[\hat{\theta}_1] = \theta \Rightarrow \hat{\theta}_1 \text{ es insesgado} \]
\[ \hat{\theta}_1 = \frac{2}{n} \sum_{i=1}^n X_i \]
Dado que los \(X_i \sim U(0, \theta)\), la función de densidad conjunta es:
\[ f(x_1, ..., x_n; \theta) = \begin{cases} \frac{1}{\theta^n} & \text{si } 0 \leq x_i \leq \theta \text{ para todo } i \\ 0 & \text{en otro caso} \end{cases} \]
Esto equivale a:
\[ L(\theta) = \frac{1}{\theta^n} \quad \text{si } \theta \geq \max(X_1, ..., X_n) \]
La función decrece con \(\theta\), por lo tanto:
\[ \hat{\theta}_2 = \max(X_1, ..., X_n) \]
Calculamos su esperanza:
\[ E[\hat{\theta}_2] = E[\max(X_1, ..., X_n)] = \frac{n}{n+1}\theta \quad \Rightarrow \text{es sesgado.} \]
Sea \(m = \min(X_1, ..., X_n)\)
Función de densidad del mínimo:
\[ f_m(x) = \frac{n}{\theta}(1 - \frac{x}{\theta})^{n-1} \]
Esperanza:
\[ E[m] = \frac{\theta}{n+1} \Rightarrow \hat{\theta}_3 = (n+1) \cdot m \]
Entonces \(E[\hat{\theta}_3] = \theta\), por lo tanto, es insesgado.
Para \(\hat{\theta}_1 = 2\bar{X}\):
\[ Var(\hat{\theta}_1) = 4 \cdot \frac{Var(X)}{n} = 4 \cdot \frac{\theta^2}{12n} = \frac{\theta^2}{3n} \]
Para \(\hat{\theta}_2 = \max(X_1, ..., X_n)\):
\[ E[M] = \frac{n}{n+1}\theta, \quad E[M^2] = \frac{n\theta^2}{n+2} \]
\[ Var(\hat{\theta}_2) = \frac{n\theta^2}{(n+1)^2(n+2)} \]
Para \(\hat{\theta}_3 = (n+1)\cdot m\):
Sabemos que:
\[ Var(m) = \frac{\theta^2}{(n+1)^2(n+2)} \Rightarrow Var(\hat{\theta}_3) = (n+1)^2 \cdot Var(m) = \frac{\theta^2}{n+2} \]
set.seed(123) #Semilla para reproductibidad
n <- 100 #Tamaño de muestra
num_muestras <- 10000 #Número muestras
#Vectores para los estimadores
theta1 <- numeric(num_muestras)
theta2 <- numeric(num_muestras)
theta3 <- numeric(num_muestras)
#Bucle para generar las muestras y calcular los estimadores según los teóricos
for (i in 1:num_muestras) {
muestra <- runif(n, min = 0, max = 8)
theta1[i] <- 2 * mean(muestra)
theta2[i] <- max(muestra)
theta3[i] <- (n + 1)* min(muestra)
}
# Valor real de theta
theta_real <- 8
par(mfrow = c(1, 3))
hist(theta1, main = expression(hat(theta)[1] == 2 * bar(X)), col = "green", xlab = "Valor", breaks = 40)
abline(v = theta_real, col = "red", lwd = 2, lty = 2)
hist(theta2, main = expression(hat(theta)[2] == max(X)), col = "red", xlab = "Valor", breaks = 40)
abline(v = theta_real, col = "green", lwd = 2, lty = 2)
hist(theta3, main = expression(hat(theta)[3] == (n+1) * min(X)), col = "blue", xlab = "Valor", breaks = 40)
abline(v = theta_real, col = "red", lwd = 2, lty = 2)
par(mfrow = c(1,1))
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
estimadores <- tibble(
theta1 = theta1,
theta2 = theta2,
theta3 = theta3
)
# Funciones auxiliares para hallar el sesgo y varianza más rápido
sesgo <- function(est, real) mean(est) - real
varianza <- function(est) var(est)
# Calcular sesgo y varianza
resultados <- tibble(
Estimador = c("theta1", "theta2", "theta3"),
Sesgo = c(sesgo(theta1, theta_real),
sesgo(theta2, theta_real),
sesgo(theta3, theta_real)),
Varianza = c(varianza(theta1),
varianza(theta2),
varianza(theta3))
)
print(resultados)
## # A tibble: 3 × 3
## Estimador Sesgo Varianza
## <chr> <dbl> <dbl>
## 1 theta1 -0.00754 0.210
## 2 theta2 -0.0800 0.00630
## 3 theta3 -0.0524 61.8
# Convertimos a formato largo
estimadores_long <- estimadores %>%
pivot_longer(cols = everything(), names_to = "Estimador", values_to = "Valor")
# Gráfico
ggplot(estimadores_long, aes(x = Estimador, y = Valor, fill = Estimador)) +
geom_boxplot() +
geom_hline(yintercept = 8, linetype = "dashed", color = "blue", size = 1) +
labs(title = "Distribución de los estimadores",
y = "Valor estimado de θ") +
theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
En primer lugar, se puede observar que la caja correspondiente al estimador theta 1 se encuentra centrada en el valor real de theta, lo cual indica que este estimador es insesgado. Además, dado que la altura de la caja no es grande, se evidencia que presenta una varianza reducida, lo que implica una alta precisión. Por lo tanto, se puede concluir que theta 1 es un estimador preciso, consistente y eficiente.
En segundo lugar, respecto al estimador theta 2, su caja se encuentra ligeramente por debajo del valor real de theta, lo cual confirma que es un estimador sesgado hacia abajo. Sin embargo, se destaca que la caja es más estrecha que la de theta 1, lo que indica una menor varianza y, por ende, una mayor precisión. Este estimador podría ser útil en contextos donde un pequeño sesgo no tenga un impacto significativo.
En tercer lugar, el estimador theta 3 se representa con una caja considerablemente más amplia que las de los otros dos estimadores, lo que evidencia una varianza más alta en comparación con theta 1 y theta 2. Además, la mediana de theta 3 se ubica por debajo del valor real de theta. Aunque desde un punto de vista teórico theta 3 es insesgado, su elevada varianza lo convierte en un estimador inestable, por lo que no se recomienda su uso para estimar theta.
Por último, incluso al comparar cada conclución del estimador por el diagrama de cajas y bigotes con el histograma de cada estimador, podemos verificar lo dicho anteriormente, pues theta 1 presenta una distribución normal, centrada en el valor real de theta. El estimador 2 toma valores acercandose al valor real de theta y el estimador 3, no se acerca al valor real de theta, es muy disperso y tiende más a cero, es decir, es sesgado.