El proceso de simulación constituye una herramienta poderosa para la estadística que se pueden emplear para entender relaciones complejas y estimar valores difíciles de calcular directamente. Para entenderlo utilizaremos se plantean los siguientes problemas:

0.1 Problema 2

Propiedades de los estimadores

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sea \(X_1,X_2,X_3 y X_4\) una muestra aleatoria de tamaño \(n=4\) cuya población la conforma una distribución exponencial con parámetro \(\theta\) desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

\(\widehat{\theta_1} = \frac{X_1+X_2}{6} + \frac{X_3+X_4}{3}\)

\(\widehat{\theta_2} = \frac{X_1+2X_2+3X_3+4X_4}{5}\)

\(\widehat{\theta_3} = \frac{X_1+X_2+X_3+X_4}{4}\)

\(\widehat{\theta_4} = \frac{\min\{X_1,X_2,X_3,X_4\}+\max\{X_1,X_2,X_3,X_4\}}{2}\)

0.1.1 Propiedades de los estimadores

Estimador insesgado: Un estimador \(\widehat{\theta_i}\) se considera insesgado si \(E[\widehat{\theta_i}] = \theta\).

Estimador eficiente: Sean \(\widehat{\theta_1}\) y \(\widehat{\theta_2}\) dos estimadores insesgados de \(\theta\), obtenidos en muestras del mismo tamaño. Se dice que \(\widehat{\theta_1}\) es más eficiente que \(\widehat{\theta_2}\), si la varianza de \(\widehat{\theta_1}\) es menor que la de \(\widehat{\theta_2}\).

Estimador consistente: Un estimador \(\widehat{\theta_i}\) de \(\theta\) es consistente para \(\theta\) si sus valores tienden a acercarse al parámetro poblacional \(\theta\) conforme se incrementa el tamaño de la muestra. De otro modo, el estimador se llama inconsistente.

n=4
n_muestras=20
theta <- 10
x=matrix(rexp(n*n_muestras, rate= 1/theta), nrow=n_muestras) 
Estimador_1 = function(x){(x[1] + x[2])/6 + (x[3] + x[4])/3}
Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5
Estimador_3 = function(x) sum(x)/4
Estimador_4 = function(x) (min(x) + max(x))/2

T1=matrix(apply(x,1,Estimador_1), nrow=n_muestras)
T2=matrix(apply(x,1,Estimador_2), nrow=n_muestras)
T3=matrix(apply(x,1,Estimador_3), nrow=n_muestras)
T4=matrix(apply(x,1,Estimador_4), nrow=n_muestras)

T1234=data.frame(T1, T2, T3, T4)

boxplot(T1234, las=1, main="Comparación estimadores con n=20")
abline(h=10,  col="red")  #línea indicando el parámetro theta

apply(T1234,2,mean)
##       T1       T2       T3       T4 
## 12.07105 23.95000 11.94280 13.85217
apply(T1234,2,var)  
##        T1        T2        T3        T4 
##  50.38508 204.70229  44.61933  58.61401

Para la primera estimación con tamaño de muestra \(n=20\), se observa que la media del estimador \(\widehat{\theta_1}\) el que más se acerca al valor asignado para \(\theta\). Asimismo, se observa que el estimador \(\widehat{\theta_4}\) es el que posee la menor varianza de los cuatro estimadores.

n=4
n_muestras=50
theta <- 10
x=matrix(rexp(n*n_muestras, rate= 1/theta), nrow=n_muestras) 
Estimador_1 = function(x){(x[1] + x[2])/6 + (x[3] + x[4])/3}
Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5
Estimador_3 = function(x) sum(x)/4
Estimador_4 = function(x) (min(x) + max(x))/2

T1=matrix(apply(x,1,Estimador_1), nrow=n_muestras)
T2=matrix(apply(x,1,Estimador_2), nrow=n_muestras)
T3=matrix(apply(x,1,Estimador_3), nrow=n_muestras)
T4=matrix(apply(x,1,Estimador_4), nrow=n_muestras)

T1234=data.frame(T1, T2, T3, T4)

boxplot(T1234, las=1, main="Comparación estimadores con n=50")
abline(h=10,  col="red")  #línea indicando el parámetro theta

apply(T1234,2,mean)
##        T1        T2        T3        T4 
##  9.660815 19.004623  9.696161 10.905380
apply(T1234,2,var)  
##        T1        T2        T3        T4 
##  38.55612 160.41680  35.49749  47.47424

Para la segunda estimación con tamaño de muestra \(n=50\), se observa que la media del estimador \(\widehat{\theta_4}\) el que más se acerca al valor asignado para \(\theta\). Asimismo, se observa que el estimador \(\widehat{\theta_1}\) es el que posee la menor varianza de los cuatro estimadores. Aquí unos resultados interesantes:

  • El estimador \(\widehat{\theta_4}\) con tamaño de \(n=50\) dejó de ser el estimador más cercano al valor asignado para \(\theta\) y se convirtió en el estimador con menor varianza.

  • El estimador \(\widehat{\theta_1}\) con tamaño de \(n=50\) dejó de ser el estimador con menor varianza y se convirtió en el estimador más cercano al valor asignado para \(\theta\).

Por otro lado, se observa que el estimador \(\widehat{\theta_2}\) con tamaño de muestra \(n=50\) comienza a converger al valor asignado para \(\theta\).

n=4
n_muestras=100
theta <- 10
x=matrix(rexp(n*n_muestras, rate= 1/theta), nrow=n_muestras) 
Estimador_1 = function(x){(x[1] + x[2])/6 + (x[3] + x[4])/3}
Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5
Estimador_3 = function(x) sum(x)/4
Estimador_4 = function(x) (min(x) + max(x))/2

T1=matrix(apply(x,1,Estimador_1), nrow=n_muestras)
T2=matrix(apply(x,1,Estimador_2), nrow=n_muestras)
T3=matrix(apply(x,1,Estimador_3), nrow=n_muestras)
T4=matrix(apply(x,1,Estimador_4), nrow=n_muestras)

T1234=data.frame(T1, T2, T3, T4)

boxplot(T1234, las=1, main="Comparación estimadores con n=100")
abline(h=10,  col="red")  #línea indicando el parámetro theta

apply(T1234,2,mean)
##        T1        T2        T3        T4 
##  9.871669 19.884159 10.094222 11.864487
apply(T1234,2,var)  
##        T1        T2        T3        T4 
##  29.04212 133.28082  27.55283  40.29322

Para la tercera estimación con tamaño de muestra \(n=100\), se observa que la media del estimador \(\widehat{\theta_3}\) es la que más se acerca al valor asignado para \(\theta\). Asimismo, este estimador es el que posee la menor varianza de los cuatro estimadores.

Por otro lado, se observa que el estimador \(\widehat{\theta_2}\) con tamaño de muestra \(n=100\) presenta un efecto rebote y se aleja del valor asignado para \(\theta\).

n=4
n_muestras=1000
theta <- 10
x=matrix(rexp(n*n_muestras, rate= 1/theta), nrow=n_muestras) 
Estimador_1 = function(x){(x[1] + x[2])/6 + (x[3] + x[4])/3}
Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5
Estimador_3 = function(x) sum(x)/4
Estimador_4 = function(x) (min(x) + max(x))/2

T1=matrix(apply(x,1,Estimador_1), nrow=n_muestras)
T2=matrix(apply(x,1,Estimador_2), nrow=n_muestras)
T3=matrix(apply(x,1,Estimador_3), nrow=n_muestras)
T4=matrix(apply(x,1,Estimador_4), nrow=n_muestras)

T1234=data.frame(T1, T2, T3, T4)

boxplot(T1234, las=1, main="Comparación estimadores con n=1000")
abline(h=10,  col="red")  #línea indicando el parámetro theta

apply(T1234,2,mean)
##        T1        T2        T3        T4 
##  9.485682 19.046435  9.467664 11.129793
apply(T1234,2,var)  
##        T1        T2        T3        T4 
##  25.51006 111.74553  23.03449  38.39529

Para la última estimación con tamaño de muestra \(n=1000\), se observa que la media del estimador \(\widehat{\theta_3}\) es la que más se acerca al valor asignado para \(\theta\). Asimismo, este estimador es el que posee la menor varianza de los cuatro estimadores.

Por otro lado, al revisar los resultados del estimador \(\widehat{\theta_3}\) con los diferentes tamaños de muestra se observa que cumple con la propiedad de consistencia, dado que con el crecimiento de la muestra converge al valor asignado para \(\theta\).