Objetivo

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Probelma 2

Sean X1 , X2 , X3 y X4 , una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

θ1ˆ=((X1+X2)/6)+((X3+X4)/3)

θ2ˆ=(X1+2X2+3X3+4X4)/5

θ3ˆ=(X1+X2+X3+X4)/4

θ4ˆ=(min{X1,X2,X3,X4}+max{X1,X2,X3,X4})/2

Genere una muestras de n=20, 50, 100 y 1000 para cada uno de los estimadores planteados.

En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia

Suponga un valor para el parámetro θ

funciones recomendadas : function(){}, rexp() , data.frame(), apply(), boxplot()

Entregable : enlace en RPubs con informe 2

Solucion

Configuración inicial:

Cargamos la librería ggplot2, establecemos una semilla aleatoria con set.seed(123), definimos el valor de theta como 2, creamos un vector llamado simulaciones con los valores 20, 50, 100 y 1000, creamos una lista vacía llamada lista_resultados, se le dió valor a theta =2, se realizaron las simulaciones de 20, 50, 100, 1000.

Función calculo estimadores:

Esta función toma un vector de muestras como entrada, calcula cuatro estimadores diferentes (θ₁, θ₂, θ₃ y θ₄) utilizando las muestra, devuelve un vector con los valores de los estimadores.

Función simulacion estimadores:

Genera n muestras exponenciales con tasa theta, calcula los estimadores para cada muestra utilizando la función calculo_estimadores, devuelve una matriz con los estimadores para todas las muestras.

calculo_estimadores <- function(muestras) {
  x1 <- muestras[1]
  x2 <- muestras[2]
  x3 <- muestras[3]
  x4 <- muestras[4]

  # Estimador θ₁
  theta1 <- ((x1 + x2) / 6) + ((x3 + x4) / 3)

  # Estimador θ₂
  theta2 <- (x1 + 2 * x2 + 3 * x3 + 4 * x4) / 5

  # Estimador θ₃
  theta3 <- mean(muestras)

  # Estimador θ₄
  theta4 <- (min(muestras) + max(muestras)) / 2

  return(c(theta1, theta2, theta3, theta4))
}

Diferentes tamaños de muestra:

Para cada valor en simulaciones, generamos las muestras y almacenamos los resultados en lista resultados.

Cálculo de promedios y varianzas:

Creamos una matriz llamada promedios para almacenar los promedios de los estimadores. Calculamos los promedios para cada tamaño de muestra y estimador. Hacemos lo mismo para las varianzas y almacenamos los resultados en varianzas.

Promedios

##             θ1       θ2        θ3        θ4
## 20   0.4917774 0.988843 0.5085644 0.6061905
## 50   0.5106887 1.037139 0.5107465 0.5681255
## 100  0.4900755 0.980888 0.4982349 0.5920889
## 1000 0.5041606 1.011502 0.5025265 0.5894504

Varianza

##              θ1        θ2         θ3         θ4
## 20   0.05083935 0.2526413 0.06120691 0.15271831
## 50   0.04674825 0.2015089 0.03847403 0.06188733
## 100  0.05437002 0.2466659 0.05206874 0.08972016
## 1000 0.07478780 0.3253663 0.06260830 0.10544834

Gráficos de caja (boxplots):

Configuramos una cuadrícula de 1 fila y 4 columnas para mostrar los gráficos, para cada tamaño de muestra en simulaciones, generamos un gráfico de caja para los estimadores, agregamos una línea horizontal en 2 (valor de theta) en cada gráfico.

Analisis de propiedades.

Boxplot con n = 20:

Insesgadez: El boxplot con 20 observaciones muestra una distribución sesgada hacia la derecha en las categorías B1 y B2, mientras que B3 y B4 parecen más simétricas. Eficiencia: Con solo 20 observaciones, la estimación de la mediana y los cuartiles es menos precisa. Consistencia: La variabilidad entre las categorías es alta debido al tamaño de muestra pequeño. ### Boxplot con n = 50: Insesgadez: Las distribuciones son más simétricas y menos sesgadas en todas las categorías. Eficiencia: Con 50 observaciones, la estimación de la mediana y los cuartiles mejora en comparación con el caso anterior. Consistencia: La variabilidad entre las categorías disminuye.

Boxplot con n = 100:

Insesgadez: Las distribuciones son aún más simétricas y menos sesgadas. Eficiencia: Con 100 observaciones, las estimaciones son más precisas y confiables. Consistencia: La variabilidad entre las categorías es baja.

Boxplot con n = 1000:

Insesgadez: Las distribuciones son casi simétricas y apenas sesgadas. Eficiencia: Con 1000 observaciones, las estimaciones son altamente precisas. Consistencia: La variabilidad entre las categorías es mínima.

En conclusion, a medida que aumenta el tamaño de muestra, las distribuciones se vuelven más simétricas, las estimaciones son más precisas y la variabilidad disminuye. Sin embargo, la eficiencia también aumenta con tamaños de muestra más grandes.