Introducción

Un estimador es un estadístico (una función de la muestra) utilizado para estimar un parámetro desconocido de la población, engeneral, se elige el estimador que posea mejores propiedades que los restantes, como insesgadez, eficiencia, convergencia y consistencia.

Los estimadores pueden ser de dos tipos:

  • Estimación puntual: Se obtiene un punto o valor como estimación del parámetro.
  • Estimación por intervalos: Se obtiene un intervalo dentro del cual se estima que estará el parámetro con cierta probabilidad.

Construcción del modelo

Mediante la simulación nos ayuda a entender y validar las propiedades de los estimadores estadísticos como son: insesgadez, eficiencia y consistencia principalmente. El siguiente problema analiza las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean X1, X2, X3y X4 una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

\[ \hat{θ1} = \frac {X1+X2} { 6} + \frac {X3+X4}{3} \] \[ \hat{θ2} = \frac {X1+2X2+3X3+4X4}{5} \]

\[ \hat{θ3} = \frac{X1+X2+X3+X4}{4} \] \[ \hat{θ4} = \frac {min(X1,X2,X3,X4)+max(X1,X2,X3,X4)}{2} \]

  • Genere una muestras de n=20,50,100 y 1000 para cada uno de los estimadores planteados.

  • En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia Suponga un valor para el parámetro θ

  • Funciones recomendadas: function(){}, rexp(), data.frame(), apply(), boxplot()

Simulación para n =20

rate= 1 #Se establece el rate para la matriz
x=matrix(data = rexp(20*4, rate = 1), nrow = 20, byrow = TRUE)
colnames(x)<-c('t1', 't2', 't3', 't4')
x20= x[1:20,]
head(x)
##             t1        t2         t3         t4
## [1,] 1.0486417 0.4882242 0.28340752 0.02000574
## [2,] 3.1931559 0.8602038 0.04704151 0.54398530
## [3,] 0.7226187 0.2206365 0.67842513 1.68309017
## [4,] 0.3248088 1.9131436 0.61226546 0.12078233
## [5,] 2.4518626 0.4191962 0.57533827 0.09334321
## [6,] 1.0099185 2.3314476 0.11927262 1.53618202

Determinada la matriz de valores para X1, X2, X3, X4 en una muestra de 20, se calculan los estimadores y guardamos en un dataframe y graficamos:

for(i in 1:20){
  x20[i,1]=(x[i,1]+x[i,2])/6+(x[i,3]+x[i,4]/3)
  x20[i,2]=(x[i,1] + (2*x[i,2])+(3*x[i,3])+(4*x[i,4]))/5
  x20[i,3]=((x[i,1] + x[i,2] + x[i,3] + x[i,4])/4)
  x20[i,4]= (min(x[i,1],x[i,2],x[i,3],x[i,4])+ max(x[i,1],x[i,2],x[i,3],x[i,4]))/ 2
}
estimador20=data.frame(x20)

boxplot(estimador20, xlab="Estimador muestra n=20", ylab="Valores del estimador")
abline(h=rate,  col="red")

Calculamos medias y varianzas para determinar la precisión de la estimación.

medias <- apply(estimador20, 2, mean)
varianzas <- apply(estimador20, 2, var)
tablax20 =data.frame(medias, varianzas)
prop.table(tablax20) 
##       medias  varianzas
## t1 0.2017090 0.13248455
## t2 0.2492457 0.09310685
## t3 0.1296002 0.01989704
## t4 0.1513403 0.02261631

En la primera estimación para n= 20 se calculan las medias y varianzas, se observa que los estimadores 1 y 2 se encuentran demasiado sesgados con referencia al parámetro sin embargo los más cercanos son los parámetros 3 y 4.

Simulación para n =50

rate= 1 #Se establece el rate para la matriz
x=matrix(data = rexp(50*4, rate = 1), nrow = 50, byrow = TRUE)
colnames(x)<-c('t1', 't2', 't3', 't4')
x50= x[1:50,]
head(x)
##             t1         t2         t3        t4
## [1,] 2.9769427 1.33265779 0.04669965 0.2864889
## [2,] 0.8536112 1.03504448 0.92100149 1.5500809
## [3,] 0.1325500 0.13998330 0.68471114 0.3672585
## [4,] 0.3272314 2.38671490 0.11334243 0.2344569
## [5,] 4.8815417 2.66328586 0.57026773 1.7753661
## [6,] 0.4414770 0.08721767 2.14526224 1.8721879

Determinada la matriz de valores para X1, X2, X3, X4 en una muestra de 50, se calculan los estimadores y guardamos en un dataframe y graficamos:

for(i in 1:50){
  x50[i,1]=(x[i,1]+x[i,2])/6+(x[i,3]+x[i,4]/3)
  x50[i,2]=(x[i,1] + (2*x[i,2])+(3*x[i,3])+(4*x[i,4]))/5
  x50[i,3]=((x[i,1] + x[i,2] + x[i,3] + x[i,4])/4)
  x50[i,4]= (min(x[i,1],x[i,2],x[i,3],x[i,4])+ max(x[i,1],x[i,2],x[i,3],x[i,4]))/ 2
}
estimador50=data.frame(x50)

boxplot(estimador50, xlab="Estimador muestra n=50", ylab="Valores del estimador")
abline(h=rate,  col="red")

Calculamos medias y varianzas para determinar la precisión de la estimación.

medias <- apply(estimador50, 2, mean)
varianzas <- apply(estimador50, 2, var)
tablax50 =data.frame(medias, varianzas)
prop.table(tablax50) 
##       medias  varianzas
## t1 0.1875323 0.12737146
## t2 0.2288542 0.14024842
## t3 0.1163276 0.03113801
## t4 0.1307698 0.03775825

En la segunda estimación para n= 50 se calculan las medias y varianzas, se observa nuevamente que los estimadores 1 y 2 se encuentran demasiado sesgados con referencia al parámetro sin embargo los más cercanos son los parámetros 3 y 4, el parámetro 3 muestra una mejor aproximación en referncia al Q2.

Simulación para n =100

rate= 1 #Se establece el rate para la matriz
x=matrix(data = rexp(100*4, rate = 1), nrow = 100, byrow = TRUE)
colnames(x)<-c('t1', 't2', 't3', 't4')
x100= x[1:100,]
head(x)
##             t1          t2        t3         t4
## [1,] 1.9066929 1.070607537 0.1664501 1.82912284
## [2,] 1.7506356 0.217684086 0.1676020 0.07668365
## [3,] 0.1721269 0.007549965 0.7643394 0.65540446
## [4,] 0.1020631 1.056289368 0.6824733 0.72964771
## [5,] 2.3453454 1.985093785 0.6567191 0.35461779
## [6,] 1.3707004 0.779789096 0.5919047 1.01902707

Determinada la matriz de valores para X1, X2, X3, X4 en una muestra de 100, se calculan los estimadores y guardamos en un dataframe y graficamos:

for(i in 1:100){
  x100[i,1]=(x[i,1]+x[i,2])/6+(x[i,3]+x[i,4]/3)
  x100[i,2]=(x[i,1] + (2*x[i,2])+(3*x[i,3])+(4*x[i,4]))/5
  x100[i,3]=((x[i,1] + x[i,2] + x[i,3] + x[i,4])/4)
  x100[i,4]= (min(x[i,1],x[i,2],x[i,3],x[i,4])+ max(x[i,1],x[i,2],x[i,3],x[i,4]))/ 2
}
estimador100=data.frame(x100)

boxplot(estimador50, xlab="Estimador muestra n=100", ylab="Valores del estimador")
abline(h=rate,  col="red")

Calculamos medias y varianzas para determinar la precisión de la estimación.

medias <- apply(estimador100, 2, mean)
varianzas <- apply(estimador100, 2, var)
tablax100 =data.frame(medias, varianzas)
prop.table(tablax100) 
##       medias  varianzas
## t1 0.2052768 0.10563682
## t2 0.2448591 0.10393533
## t3 0.1261589 0.03027002
## t4 0.1414694 0.04239354

En la tercera estimación para n= 100 nuevamente se calculan las medias y varianzas, se observa nuevamente que los estimadores 1 y 2 se encuentran demasiado sesgados con referencia al parámetro sin embargo nuevamente los más cercanos son los parámetros 3 y 4, el parámetro 3 muestra una mejor aproximación en referncia al Q2.

Simulación para n =1000

rate= 1 #Se establece el rate para la matriz
x=matrix(data = rexp(1000*4, rate = 1), nrow = 1000, byrow = TRUE)
colnames(x)<-c('t1', 't2', 't3', 't4')
x1000= x[1:1000,]
head(x)
##             t1           t2        t3        t4
## [1,] 0.3508962 0.0006299405 0.5979531 0.8583758
## [2,] 0.6416822 0.3666034890 0.7471935 0.1094053
## [3,] 0.3650449 0.8607229051 0.4802490 1.0570624
## [4,] 0.7992541 0.4334770753 0.2704644 0.4068652
## [5,] 1.5554580 0.2834117445 0.1467727 2.3018555
## [6,] 0.5100925 1.8705322239 3.1502830 0.5845615

Determinada la matriz de valores para X1, X2, X3, X4 en una muestra de 1000, se calculan los estimadores y guardamos en un dataframe y graficamos:

for(i in 1:1000){
  x1000[i,1]=(x[i,1]+x[i,2])/6+(x[i,3]+x[i,4]/3)
  x1000[i,2]=(x[i,1] + (2*x[i,2])+(3*x[i,3])+(4*x[i,4]))/5
  x1000[i,3]=((x[i,1] + x[i,2] + x[i,3] + x[i,4])/4)
  x1000[i,4]= (min(x[i,1],x[i,2],x[i,3],x[i,4])+ max(x[i,1],x[i,2],x[i,3],x[i,4]))/ 2
}
estimador1000=data.frame(x1000)

boxplot(estimador50, xlab="Estimador muestra n=100", ylab="Valores del estimador")
abline(h=rate,  col="red")

Calculamos medias y varianzas para determinar la precisión de la estimación.

medias <- apply(estimador1000, 2, mean)
varianzas <- apply(estimador1000, 2, var)
tablax1000 =data.frame(medias, varianzas)
prop.table(tablax1000) 
##       medias varianzas
## t1 0.1881930 0.1354085
## t2 0.2251811 0.1329924
## t3 0.1135368 0.0276650
## t4 0.1320223 0.0450009

En la cuarta estimación para n= 1000 nuevamente se calculan las medias y varianzas, se observa nuevamente que los estimadores 1 y 2 se encuentran demasiado sesgados con referencia al parámetro sin embargo nuevamente los más cercanos son los parámetros 3 y 4, el parámetro 3 muestra nuevamente una mejor aproximación en referncia al Q2.

Conclusiones

De a acuerdo a las simulaciones realizadas de los Estimadores 1, 2 3 y 4 que el que mejor se acerca al valor real y que presenta menos varianza de acuerdo a la muestras de 20, 50, 100 y 1000, es el estimador 3 el cual representa la media, mediante ejercicio se muestra la utilidad y la importancia de los estimadores al estimar los parámetros de una población.