Problema 2 - Propiedades de los estimadores

Desarrollo

Los estimadores estadísticos son funciones matemáticas o reglas que se utilizan para calcular estimaciones o aproximaciones de parámetros desconocidos en una población o conjunto de datos. Estos parámetros pueden representar propiedades importantes de la población, como la media, la varianza, la proporción, entre otros. Los estimadores se basan en muestras de datos observados y se seleccionan de manera que proporcionen valores que sean lo más cercanos posibles a los parámetros verdaderos, con el objetivo de inferir información precisa sobre la población en función de la información limitada de la muestra. Los estimadores son fundamentales en la estadística inferencial y desempeñan un papel crucial en la toma de decisiones, la predicción y la comprensión de fenómenos basados en datos.

El objetivo del ejercicio es evaluar la insesgadez, eficiencia y consistencia para cada uno de los estimadores propuestos, y a partir de estos establecer cual es el mejor estimador de acuerdo con sus caracteristicas.

Para lograr tal fin, se estableció una función que nos permite evaluar los estimadores teniendo en cuenta los diferentes tamaños muestrales n y valores de \(\theta\) supuestos.

# Función de los estimadores

theta_1 <- function(x1, x2, x3, x4){
  return(
    (x1+x2)/6+(x3+x4)/3
  )
}

theta_2 <- function(x1, x2, x3, x4){
  return(
    (x1+2*x2+3*x3+4*x4)/5
  )
}

theta_3 <- function(x1, x2, x3, x4){
  return(
    (x1+x2+x3+x4)/4
  )
}

theta_4 <- function(x1, x2, x3, x4){
  return(
    ((min(x1,x2,x3,x4)+max(x1,x2,x3,x4))/2)
  )
}

comparacion_function <- function(n, theta_sup){
  # n <- La cantidad de datos
  # theta_sup <- Es el valor inicial supuesto para la distribución exponencial
  
  # Se establece una semilla para poder realizar un análisis de resultados más consistente
  set.seed(43)
  
  # 1. Distribuciones exponenciales para cada muestra
  x1 <- rexp(n, theta_sup)
  x2 <- rexp(n, theta_sup)
  x3 <- rexp(n, theta_sup)
  x4 <- rexp(n, theta_sup)
  
  # 2. Crea el dataframe base
  base <- data.frame(x1, x2, x3, x4)
  
  # 3. Se calculan los estimadores con base en la muestra aleatoria
  base$t1 <- apply(base, 1, function(row) theta_1(row['x1'], row['x2'], row['x3'], row['x4']))
  base$t2 <- apply(base, 1, function(row) theta_2(row['x1'], row['x2'], row['x3'], row['x4']))
  base$t3 <- apply(base, 1, function(row) theta_3(row['x1'], row['x2'], row['x3'], row['x4']))
  base$t4 <- apply(base, 1, function(row) theta_4(row['x1'], row['x2'], row['x3'], row['x4']))
  
  # 4. Se extraen los estimadores en un dataframe
  estimadores <- base[c('t1', 't2', 't3', 't4')]
  
  # 5. Resumen de las estadisticas
  summary_data <- summary(estimadores)
  
  # 6. Se calcula la matriz de varianzas
  varianza <- var(estimadores)
  
  # 7. Reordena los estimadores para graficar
  estimadores_2 <- melt(estimadores, id.vars= NULL)
  
  # 8. Crea el grafico de boxplots
  plot <- ggplot(estimadores_2, aes(variable, value)) + 
  geom_boxplot() +
  labs(x = "Estimadores", y = "Valor", title = paste("Comparación de los estimadores con n = ", n)) +
  geom_hline(yintercept = 1/theta_sup, color = "blue", linetype = "dashed")
  
  # 9. Genera el listado de resultados
  resultados <- list(
    'summary' = summary_data,
    'grafico' = plot,  
    'varianza' = varianza
    )
  
  return(resultados)
}

Se evalua la función con los diferentes tamaños de muestra propuestos (20, 50, 100 y 1000) con \(\lambda = \frac{1}{5}\), de lo cual obtenemos el gráfico de boxplots que compara los diferentes estimadores, un resumén estadistico que indica valores máximos, mínimos, 1er, 2do y 3er cuartil, y por ultimo la matriz de varianzas que permite realizar un análisis de dispersión. A continuación se presentan los resultados obtenidos en las simulaciones.

# Se ejecuta la función
lambda = 1/5
case_1 <- comparacion_function(20, lambda)
case_2 <- comparacion_function(50, lambda)
case_3 <- comparacion_function(100, lambda)
case_4 <- comparacion_function(1000, lambda)

Resumen estadistico n=20
t1	t2	t3	t4
Min. :0.893	Min. : 1.538	Min. :0.9379	Min. :1.073
1st Qu.:3.470	1st Qu.: 6.614	1st Qu.:3.4240	1st Qu.:3.947
Median :5.504	Median :10.161	Median :5.5138	Median :5.371
Mean :5.197	Mean :10.385	Mean :5.0683	Mean :5.762
3rd Qu.:6.799	3rd Qu.:13.351	3rd Qu.:7.0154	3rd Qu.:8.715
Max. :8.812	Max. :19.891	Max. :8.6619	Max. :9.500

Matriz de varianzas n=20
	t1	t2	t3	t4
t1	6.149894	13.01237	5.273713	6.118198
t2	13.012373	28.19825	10.907939	12.343297
t3	5.273713	10.90794	5.250233	5.714523
t4	6.118198	12.34330	5.714523	7.441546

Resumen estadistico n=50
t1	t2	t3	t4
Min. : 0.7676	Min. : 1.291	Min. : 0.8267	Min. : 0.9192
1st Qu.: 2.7393	1st Qu.: 5.463	1st Qu.: 2.8660	1st Qu.: 3.3931
Median : 3.9613	Median : 7.680	Median : 4.2893	Median : 5.0044
Mean : 4.7631	Mean : 9.494	Mean : 4.8295	Mean : 5.6512
3rd Qu.: 6.4573	3rd Qu.:13.415	3rd Qu.: 6.3917	3rd Qu.: 7.8322
Max. :12.8742	Max. :28.444	Max. :13.0030	Max. :13.3895

Matriz de varianzas n=50
	t1	t2	t3	t4
t1	7.439993	15.29726	6.772910	7.583318
t2	15.297258	32.52431	13.821805	15.124261
t3	6.772910	13.82181	6.638312	7.463624
t4	7.583318	15.12426	7.463624	8.983688

Resumen estadistico n=100
t1	t2	t3	t4
Min. : 0.6756	Min. : 1.305	Min. : 0.5755	Min. : 0.7059
1st Qu.: 2.7407	1st Qu.: 5.409	1st Qu.: 2.9732	1st Qu.: 3.7639
Median : 4.5097	Median : 8.856	Median : 4.8025	Median : 5.3245
Mean : 5.2877	Mean :10.571	Mean : 5.1732	Mean : 6.1903
3rd Qu.: 7.0922	3rd Qu.:12.990	3rd Qu.: 6.4795	3rd Qu.: 8.1097
Max. :17.0983	Max. :33.614	Max. :16.8750	Max. :17.8147

Matriz de varianzas n=100
	t1	t2	t3	t4
t1	10.451055	21.96433	9.472884	10.77504
t2	21.964328	47.61344	19.613667	22.40464
t3	9.472884	19.61367	9.154070	10.05789
t4	10.775039	22.40464	10.057887	12.54941

Resumen estadistico n=1000
t1	t2	t3	t4
Min. : 0.6783	Min. : 1.290	Min. : 0.7036	Min. : 0.7254
1st Qu.: 3.1534	1st Qu.: 6.129	1st Qu.: 3.2511	1st Qu.: 3.7199
Median : 4.5629	Median : 8.988	Median : 4.5786	Median : 5.3353
Mean : 4.9618	Mean : 9.894	Mean : 4.9824	Mean : 5.8615
3rd Qu.: 6.3222	3rd Qu.:12.693	3rd Qu.: 6.3447	3rd Qu.: 7.4468
Max. :14.8297	Max. :31.667	Max. :16.1014	Max. :24.8964

Matriz de varianzas n=1000
	t1	t2	t3	t4
t1	6.127272	12.35177	5.627434	6.429106
t2	12.351771	26.00317	11.081782	12.635685
t3	5.627434	11.08178	5.800942	6.681139
t4	6.429106	12.63569	6.681139	9.177907

Con base en los graficos y tablas anteriores se puede evidenciar que los estimadores \(\theta_1\), \(\theta_2\) y \(\theta_3\) presentan valores cercanos a la media (5), lo cual indica que su grado de sezgo es bajo en comparación con \(\theta_4\) cuyo valor medio es aproximadamente el doble que la media siendo este sezgado. Teniendo en cuenta esto, el estimador \(\theta_3\) se destaca por tener el valor medio más cercano al teorico.

Adicionalmente, al realizar el análisis del gráfico de boxplots y la matriz de varianzas se puede evidenciar que el estimador \(\theta_3\) es quien presenta el menor grado de dispersión, lo que lo convierte en el estimador más eficiente, seguido por \(\theta_1\), \(\theta_4\) y \(\theta_2\) respectivamente.

En cuanto al análisis de consistencia solo los estimadores \(\theta_1\) y \(\theta_3\) presentan una disminución del sezgo apreciativo a medida que se aumenta el tamaño de la muestra, por lo cual son consistentes.

Finalmente, con base en los resultados obtenidos se puede concluir que el mejor estimador es \(\theta_3\) siendo el que presenta menor grado de sezgo, es el más eficiente y consistente.

Problema 2 - Propiedades de los estimadores

Sebastian Barrera Saenz

2023-09-17

Enunciado

Desarrollo