INTRODUCCION

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

Nota

Genere una muestras de n=20, 50, 100 y 1000 para cada uno de los estimadores planteados.
En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia
Suponga un valor para el parámetro θ
funciones recomendadas : function(){}, rexp() , data.frame(), apply(), boxplot()

DESARROLLO

MUESTRAS

Asumimos un θ real de 4

preal<-4

Generación de la función para los parametros θ1

p1<-function(x1,x2,x3,x4){
  ((x1+x2)/6)+((x3+x4)/3)
}

Generación de la función para los parametros θ2

p2<-function(x1,x2,x3,x4){
  (x1+(2*x2)+(3*x3)+(4*x4))/5
}

Generación de la función para los parametros θ3

p3<-function(x1,x2,x3,x4){
  (x1+x2+x3+x4)/4
}

Generación de la función para los parametros θ4

p4<-function(x1,x2,x3,x4){
  (min(x1,x2,x3,x4)+max(x1,x2,x3,x4))/2
  return(x1)
  return(x2)
  return(x3)
  return(x4)
}

Generación de la muestra

set.seed(418)
muestra <- data.frame(
  x1 = rexp(1000, rate = 1/preal),
  x2 = rexp(1000, rate = 1/preal),
  x3 = rexp(1000, rate = 1/preal),
  x4 = rexp(1000, rate = 1/preal)
)

Evaluamos cada fila generada con las funciones de los parametros θ1, θ2, θ3, θ4

muestra <- transform(muestra,
  theta1 = p1(x1, x2, x3, x4),
  theta2 = p2(x1, x2, x3, x4),
  theta3 = p3(x1, x2, x3, x4),
  theta4 = p4(x1, x2, x3, x4)
)

Generamos una funcion que me permita segmentar la matriz y generar los estimadores a partir de la muestra segmentada

tamanos <- c(20, 50, 100, 1000)
mediatheta1 <- numeric(length(tamanos))
mediatheta2 <- numeric(length(tamanos))
mediatheta3 <- numeric(length(tamanos))
mediatheta4 <- numeric(length(tamanos))
vartheta1 <- numeric(length(tamanos))
vartheta2 <- numeric(length(tamanos))
vartheta3 <- numeric(length(tamanos))
vartheta4 <- numeric(length(tamanos))

for (i in tamanos) {
  segmento <-muestra[1:i, ]
  mediatheta1[as.character(i)]<-mean(segmento$theta1)
  mediatheta2[as.character(i)]<-mean(segmento$theta2)
  mediatheta3[as.character(i)]<-mean(segmento$theta3)
  mediatheta4[as.character(i)]<-mean(segmento$theta4)
  vartheta1[as.character(i)]<-var(segmento$theta1)
  vartheta2[as.character(i)]<-var(segmento$theta2)
  vartheta3[as.character(i)]<-var(segmento$theta3)
  vartheta4[as.character(i)]<-var(segmento$theta4)
  
  boxplot(segmento[, c('theta1', 'theta2', 'theta3', 'theta4')],
          main = paste("Simulacion con", i, "filas"),
          col = c("yellow", "blue", "green", "purple"))
  abline(h=4,  col="red") 
  
  cat("Summary theta1:\n")
  print(summary(segmento$theta1))
  
  cat("Summary theta2:\n")
  print(summary(segmento$theta2))
  
  cat("Summary theta3:\n")
  print(summary(segmento$theta3))
  
  cat("Summary theta4:\n")
  print(summary(segmento$theta4))
}

## Summary theta1:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.321   2.632   3.493   4.132   4.447  14.161 
## Summary theta2:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.963   5.306   6.540   8.017   9.546  27.422 
## Summary theta3:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.255   2.878   3.989   4.479   5.171  13.510 
## Summary theta4:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3351  1.3302  4.8985  6.4207  8.2988 17.9364

## Summary theta1:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9456  2.3242  3.3988  3.9575  4.7619 14.1614 
## Summary theta2:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.267   4.718   6.782   7.802   9.400  27.422 
## Summary theta3:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.072   2.483   3.677   4.183   4.978  13.510 
## Summary theta4:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1128  1.2242  3.7487  5.1909  7.4980 17.9364

## Summary theta1:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9456  2.2094  3.3204  3.8892  4.7701 14.1614 
## Summary theta2:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.267   4.546   6.822   7.713   9.526  27.422 
## Summary theta3:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.072   2.260   3.561   3.990   4.901  13.510 
## Summary theta4:
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.04229  1.07073  2.55441  4.34593  6.31190 17.93640

## Summary theta1:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3495  2.4863  3.5030  4.0015  5.1153 18.3133 
## Summary theta2:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7599  4.7474  6.9934  8.0119 10.2292 35.0199 
## Summary theta3:
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.300   2.509   3.603   4.004   5.112  17.410 
## Summary theta4:
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.01211  1.20617  2.86338  4.14062  5.81171 42.91958

PROPIEDADES

CONSISTENCIA

Un estimador se considera consistente si tiende a converger al valor real del parámetro que se está estimando a medida que se recopilan más datos. La consistencia es una propiedad deseable en la estadística, ya que implica que el estimador es preciso y confiable cuando se trabaja con muestras grandes.

parametros <- data.frame(Theta1=tail(mediatheta1,4), Theta2=tail(mediatheta2,4), Theta3=tail(mediatheta3,4), Theta4=tail(mediatheta4,4))

parametros

##        Theta1   Theta2   Theta3   Theta4
## 20   4.132454 8.017151 4.478960 6.420722
## 50   3.957535 7.801787 4.182902 5.190941
## 100  3.889214 7.713266 3.990124 4.345932
## 1000 4.001530 8.011885 4.003756 4.140618

Podemos hacer las siguientes observaciones para cada estimador:

Theta1, Theta3 y Theta4: A medida que el tamaño de la muestra aumenta, los estimadores parece converger a un valor cercano a 4, que es el valor real del parámetro. Esto sugiere que los estimadores son consistentes. Para theta 1 con n=20, 50, 1000 es el que tiene mayor aproximacion al parametro rea, seguido por el theta 3.
Theta2: No parece converger al valor real del parametro. Esto indica que Theta2 podría no ser un estimador consistente para el parámetro.

SESGO

Medida de cuán cerca está el valor esperado del estimador del valor real del parámetro que se está estimando. Matemáticamente, el sesgo se define como la diferencia entre el valor esperado (media) del estimador y el valor real del parámetro. El sesgo se puede calcular de la siguiente manera:

Sesgo = Valor esperado del estimador - Valor real del parámetro

sesgo<- data.frame(n=tamanos,Theta1=(parametros$Theta1-preal), Theta2=(parametros$Theta2-preal), Theta3=(parametros$Theta3-preal), Theta4=(parametros$Theta4-preal))

sesgo

##      n       Theta1   Theta2       Theta3    Theta4
## 1   20  0.132453949 4.017151  0.478960436 2.4207222
## 2   50 -0.042464884 3.801787  0.182901694 1.1909415
## 3  100 -0.110786041 3.713266 -0.009876147 0.3459316
## 4 1000  0.001529928 4.011885  0.003756409 0.1406179

Un estimador es considerado insesgado si su sesgo es igual a cero, lo que significa que, en promedio, el estimador tiende a estimar el valor real del parámetro correctamente. Si el sesgo no es igual a cero, el estimador se considera sesgado, El sesgo positivo indica una sobreestimación del parámetro, mientras que el sesgo negativo indica una subestimación. Por ende:

El estimador 1 es el que tiene mayor tendencia a cero, lo que indica que es el que presenta menos sesgo para estimar el parametro.
El estimador 2 tiende a tener un pequeño sesgo positivo, por lo cual, sobreestimala el parametro
El estimador 3 tiende a cero, lo que indica que es insesgado para estimar el parametro.
El estimador 4 tiende a cero, lo que indica que es insesgado para estimar el parametro, pero muestras pequeñas tiende a tener un pequeño sesgo positivo, por lo cual, sobreestimala el parametro

Ademas, a medida que aumenta el tamaño de la muestra, todos los estimadores tienden acercarce a cero, lo que sugiere una menor tendencia a la subestimación o sobreestimacion.

EFICIENCIA

Medida de cuán dispersas son las estimaciones del estimador y cuán cercanas están al valor real del parámetro. La eficiencia se evalúa mediante la varianza del estimador. Un estimador eficiente tiene una varianza baja.

variacion<-data.frame(Theta1=tail(vartheta1,4), Theta2=tail(vartheta2,4), Theta3=tail(vartheta3,4), Theta4=tail(vartheta4,4))

variacion

##        Theta1   Theta2   Theta3   Theta4
## 20   7.481238 28.71251 7.042714 33.97644
## 50   6.592370 26.52599 6.304500 25.94866
## 100  5.535798 21.90878 5.316667 19.88346
## 1000 4.867742 21.11333 4.388625 17.63903

Basándonos en las varianzas de los estimadores:

Theta3 tiene la varianza más baja en comparación con los otros estimadores en todos los tamaños de muestra. Esto indica que Theta4 es el estimador más eficiente en términos de varianza. A medida que aumenta el tamaño de la muestra, la varianza de Theta4 disminuye, lo que es una señal positiva de su eficiencia.
Theta1 tiene la segunda varianza más baja después de Theta3, lo que sugiere que es un estimador eficiente en términos de varianza. Al igual que con Theta3, la varianza de Theta1 tiende a disminuir a medida que aumenta el tamaño de la muestra.
Theta4 tiene una varianza intermedia en comparación con los otros estimadores. Aunque no es tan eficiente como Theta3 y Theta1, sigue siendo razonablemente eficiente.A medida que aumenta el tamaño de la muestra, su varianza disminuye.
Theta2 tiene la varianza más alta en la mayoria de los tamaños de muestra. Esto indica que Theta2 es el estimador menos eficiente en términos de varianza. A medida que aumenta el tamaño de la muestra, su varianza disminuye.

Ademas, a medida que aumenta el tamaño de la muestra, todos los estimadores tienden a mejorar en términos de eficiencia, ya que sus varianzas disminuyen.

CONCLUSION

plot(tamanos, parametros$Theta1, type = "l", col = "blue", xlab = "Tamaño de la Muestra", ylab = "Media del Parámetro", ylim = c(3.8, 8.3))
lines(tamanos,parametros$Theta2, col = "red")
lines(tamanos, parametros$Theta3, col = "green")
lines(tamanos, parametros$Theta4, col = "purple")

abline(h = preal, col = "black", lty = 2)

legend("topright", legend = c("Parámetro 1", "Parámetro 2", "Parámetro 3", "Parámetro 4", "Valor Teórico"), 
       col = c("blue", "red", "green", "purple", "black"), lty = c(1, 1, 1, 1, 2))

Parece ser que la mejor opcion es el parametro theta 1, ya que es el que presenta mayor consistencia y menor sesgo, a pesar de que el theta 3 presente una eficiencia mayor, la cual difiere poco con respecto al theta 1. theta 1 permite una estimacion confiable y precisa hacia el parametro propuesto de 4, como se identifica en la grafica, donde la linea verde tiende a sobreponerse sobre la linea negra, indicando que Theta 3 converge consistentemente hacia el valor real a medida que aumenta el tamaño de la muestra.

TALLER 2

PROPIEDADES DE LOS ESTIMADORES

Melanie Michelle Gazabon Mora