El proceso de simulación constituye una herramienta poderosa para la estadística que se pueden emplear para entender relaciones complejas y estimar valores difíciles de calcular directamente. Para entenderlo utilizaremos se plantean los siguientes problemas:
Propiedades de los estimadores
La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sea \(X_1,X_2,X_3 y X_4\) una muestra aleatoria de tamaño \(n=4\) cuya población la conforma una distribución exponencial con parámetro \(\theta\) desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
\(\widehat{\theta_1} = \frac{X_1+X_2}{6} + \frac{X_3+X_4}{3}\)
\(\widehat{\theta_2} = \frac{X_1+2X_2+3X_3+4X_4}{5}\)
\(\widehat{\theta_3} = \frac{X_1+X_2+X_3+X_4}{4}\)
\(\widehat{\theta_4} = \frac{\min\{X_1,X_2,X_3,X_4\}+\max\{X_1,X_2,X_3,X_4\}}{2}\)
Estimador insesgado: Un estimador \(\widehat{\theta_i}\) se considera insesgado si \(E[\widehat{\theta_i}] = \theta\).
Estimador eficiente: Sean \(\widehat{\theta_1}\) y \(\widehat{\theta_2}\) dos estimadores insesgados de \(\theta\), obtenidos en muestras del mismo tamaño. Se dice que \(\widehat{\theta_1}\) es más eficiente que \(\widehat{\theta_2}\), si la varianza de \(\widehat{\theta_1}\) es menor que la de \(\widehat{\theta_2}\).
Estimador consistente: Un estimador \(\widehat{\theta_i}\) de \(\theta\) es consistente para \(\theta\) si sus valores tienden a acercarse al parámetro poblacional \(\theta\) conforme se incrementa el tamaño de la muestra. De otro modo, el estimador se llama inconsistente.
n=4
n_muestras=20
theta <- 10
x=matrix(rexp(n*n_muestras, rate= 1/theta), nrow=n_muestras)
Estimador_1 = function(x){(x[1] + x[2])/6 + (x[3] + x[4])/3}
Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5
Estimador_3 = function(x) sum(x)/4
Estimador_4 = function(x) (min(x) + max(x))/2
T1=matrix(apply(x,1,Estimador_1), nrow=n_muestras)
T2=matrix(apply(x,1,Estimador_2), nrow=n_muestras)
T3=matrix(apply(x,1,Estimador_3), nrow=n_muestras)
T4=matrix(apply(x,1,Estimador_4), nrow=n_muestras)
T1234=data.frame(T1, T2, T3, T4)
boxplot(T1234, las=1, main="Comparación estimadores con n=20")
abline(h=10, col="red") #línea indicando el parámetro theta
apply(T1234,2,mean)
## T1 T2 T3 T4
## 12.07105 23.95000 11.94280 13.85217
apply(T1234,2,var)
## T1 T2 T3 T4
## 50.38508 204.70229 44.61933 58.61401
Para la primera estimación con tamaño de muestra \(n=20\), se observa que la media del estimador \(\widehat{\theta_1}\) el que más se acerca al valor asignado para \(\theta\). Asimismo, se observa que el estimador \(\widehat{\theta_4}\) es el que posee la menor varianza de los cuatro estimadores.
n=4
n_muestras=50
theta <- 10
x=matrix(rexp(n*n_muestras, rate= 1/theta), nrow=n_muestras)
Estimador_1 = function(x){(x[1] + x[2])/6 + (x[3] + x[4])/3}
Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5
Estimador_3 = function(x) sum(x)/4
Estimador_4 = function(x) (min(x) + max(x))/2
T1=matrix(apply(x,1,Estimador_1), nrow=n_muestras)
T2=matrix(apply(x,1,Estimador_2), nrow=n_muestras)
T3=matrix(apply(x,1,Estimador_3), nrow=n_muestras)
T4=matrix(apply(x,1,Estimador_4), nrow=n_muestras)
T1234=data.frame(T1, T2, T3, T4)
boxplot(T1234, las=1, main="Comparación estimadores con n=50")
abline(h=10, col="red") #línea indicando el parámetro theta
apply(T1234,2,mean)
## T1 T2 T3 T4
## 9.660815 19.004623 9.696161 10.905380
apply(T1234,2,var)
## T1 T2 T3 T4
## 38.55612 160.41680 35.49749 47.47424
Para la segunda estimación con tamaño de muestra \(n=50\), se observa que la media del estimador \(\widehat{\theta_4}\) el que más se acerca al valor asignado para \(\theta\). Asimismo, se observa que el estimador \(\widehat{\theta_1}\) es el que posee la menor varianza de los cuatro estimadores. Aquí unos resultados interesantes:
El estimador \(\widehat{\theta_4}\) con tamaño de \(n=50\) dejó de ser el estimador más cercano al valor asignado para \(\theta\) y se convirtió en el estimador con menor varianza.
El estimador \(\widehat{\theta_1}\) con tamaño de \(n=50\) dejó de ser el estimador con menor varianza y se convirtió en el estimador más cercano al valor asignado para \(\theta\).
Por otro lado, se observa que el estimador \(\widehat{\theta_2}\) con tamaño de muestra \(n=50\) comienza a converger al valor asignado para \(\theta\).
n=4
n_muestras=100
theta <- 10
x=matrix(rexp(n*n_muestras, rate= 1/theta), nrow=n_muestras)
Estimador_1 = function(x){(x[1] + x[2])/6 + (x[3] + x[4])/3}
Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5
Estimador_3 = function(x) sum(x)/4
Estimador_4 = function(x) (min(x) + max(x))/2
T1=matrix(apply(x,1,Estimador_1), nrow=n_muestras)
T2=matrix(apply(x,1,Estimador_2), nrow=n_muestras)
T3=matrix(apply(x,1,Estimador_3), nrow=n_muestras)
T4=matrix(apply(x,1,Estimador_4), nrow=n_muestras)
T1234=data.frame(T1, T2, T3, T4)
boxplot(T1234, las=1, main="Comparación estimadores con n=100")
abline(h=10, col="red") #línea indicando el parámetro theta
apply(T1234,2,mean)
## T1 T2 T3 T4
## 9.871669 19.884159 10.094222 11.864487
apply(T1234,2,var)
## T1 T2 T3 T4
## 29.04212 133.28082 27.55283 40.29322
Para la tercera estimación con tamaño de muestra \(n=100\), se observa que la media del estimador \(\widehat{\theta_3}\) es la que más se acerca al valor asignado para \(\theta\). Asimismo, este estimador es el que posee la menor varianza de los cuatro estimadores.
Por otro lado, se observa que el estimador \(\widehat{\theta_2}\) con tamaño de muestra \(n=100\) presenta un efecto rebote y se aleja del valor asignado para \(\theta\).
n=4
n_muestras=1000
theta <- 10
x=matrix(rexp(n*n_muestras, rate= 1/theta), nrow=n_muestras)
Estimador_1 = function(x){(x[1] + x[2])/6 + (x[3] + x[4])/3}
Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5
Estimador_3 = function(x) sum(x)/4
Estimador_4 = function(x) (min(x) + max(x))/2
T1=matrix(apply(x,1,Estimador_1), nrow=n_muestras)
T2=matrix(apply(x,1,Estimador_2), nrow=n_muestras)
T3=matrix(apply(x,1,Estimador_3), nrow=n_muestras)
T4=matrix(apply(x,1,Estimador_4), nrow=n_muestras)
T1234=data.frame(T1, T2, T3, T4)
boxplot(T1234, las=1, main="Comparación estimadores con n=1000")
abline(h=10, col="red") #línea indicando el parámetro theta
apply(T1234,2,mean)
## T1 T2 T3 T4
## 9.485682 19.046435 9.467664 11.129793
apply(T1234,2,var)
## T1 T2 T3 T4
## 25.51006 111.74553 23.03449 38.39529
Para la última estimación con tamaño de muestra \(n=1000\), se observa que la media del estimador \(\widehat{\theta_3}\) es la que más se acerca al valor asignado para \(\theta\). Asimismo, este estimador es el que posee la menor varianza de los cuatro estimadores.
Por otro lado, al revisar los resultados del estimador \(\widehat{\theta_3}\) con los diferentes tamaños de muestra se observa que cumple con la propiedad de consistencia, dado que con el crecimiento de la muestra converge al valor asignado para \(\theta\).