Planteamiento

La simulación es una herramienta invaluable para comprender y validar las propiedades de los estimadores estadísticos, como la insesgadez, la eficiencia y la consistencia, entre otras. El siguiente problema permite evidenciar las características principales de un conjunto de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean \(X_1\), \(X_2\), \(X_3\) y \(X_4\), una muestra aleatoria de tamaño \(n=4\) cuya población la conforma una distribución exponencial con parámetro \(θ\) desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

\(\hat{θ_1}=\frac{X_1+X_2}{6}+\frac{X_3+X_4}{3}\)

\(\hat{θ_2}=\frac{X_1+2X_2+3X_3+4X_4}{5}\)

\(\hat{θ_3}=\frac{X_1+X_2+X_3+X_4}{4}\)

\(\hat{θ_4}=\frac{min{X_1,X_2,X_3,X_4}+max{X_1,X_2,X_3,X_4}}{2}\)

Notas

Genere una muestras de n = 20, 50, 100 y 1000 para cada uno de los estimadores planteados.
En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia
Suponga un valor para el parámetro \(θ\)
Funciones recomendadas : function(){}, rexp() , data.frame(), apply(), boxplot()

Metodología

Para abordar el problema planteado, se realizará un análisis de los estimadores propuestos para la estimación del parámetro asociado a un modelo de probabilidad. Este análisis se llevará a cabo mediante la simulación de muestras aleatorias de diferentes tamaños y la evaluación de las propiedades de insesgadez, eficiencia y consistencia de cada estimador.

Generación de Muestras Aleatorias: Se generarán muestras aleatorias de tamaño \(n\) para cada uno de los estimadores propuestos. Se considerarán tamaños de muestra \(n=20,50,100,1000\). Cada muestra se obtendrá a partir de una distribución exponencial con un parámetro \(θ\) desconocido pero asumido como conocido. Para esta tarea, se empleará la función rexp().
Cálculo de Estimadores: Para cada tamaño de muestra, se calcularán los valores de los cuatro estimadores propuestos (\(\hat{θ_1},\hat{θ_2},\hat{θ_3},\hat{θ_4}\)).
Evaluación de Propiedades de los Estimadores: Para evaluar los estimadores, se analizará su insesgadez, consistencia y eficiencia. Se calculará el sesgo de cada estimador como la diferencia entre su media y el valor verdadero del parámetro. Se examinará cómo este sesgo converge a cero con el aumento del tamaño de la muestra para evaluar la consistencia. Además, se calculará la varianza de cada estimador para medir su eficiencia. Este análisis permitirá determinar la idoneidad de cada estimador.
Visualización de Resultados Se utilizarán boxplots para visualizar las estimaciones de los cuatro estimadores en función del tamaño de muestra. Cada boxplot mostrará la distribución de las estimaciones para un tamaño de muestra específico y se compararán con el valor verdadero de \(θ\) mediante una línea horizontal en \(y=θ\).

Este proceso proporcionará una mejor comprensión de las características de cada estimador y su desempeño, lo que facilitará la selección del estimador más adecuado para la estimación del parámetro en el modelo de probabilidad.

Solución

En primer lugar, se establecen cuatro funciones de estimadores diferentes: estimador_1, estimador_2, estimador_3 y estimador_4. Cada una de estas funciones toma un conjunto de datos como entrada y genera una estimación particular basada en dichos datos.

# Se define una función para cada estimador
estimador_1 <- function(x) {
  return((x[1] + x[2]) / 6 + (x[3] + x[4]) / 3)
}

estimador_2 <- function(x) {
  return((x[1] + 2*x[2] + 3*x[3] + 4*x[4]) / 5)
}

estimador_3 <- function(x) {
  return(mean(x))
}

estimador_4 <- function(x) {
  return((min(x) + max(x)) / 2)
}

Luego, se garantiza la reproducibilidad de los resultados mediante la fijación de una semilla aleatoria. Se introduce un parámetro denominado theta, que representa un valor de la población; en este caso, se selecciona un valor igual a 2.

set.seed(1110) # Para garantizar la reproducibilidad
theta <- 2

Posteriormente, se generan muestras aleatorias de diferentes tamaños (20, 50, 100, y 1000) a partir de una distribución exponencial con parámetro theta. Para cada tamaño de muestra, se calculan los valores de los cuatro estimadores para cada conjunto de datos de la muestra, y estos valores se organizan en cuatro dataframes que se almacenan en una lista de resultados.

#Se generan muestras y se calculan estimadores
muestras <- c(20, 50, 100, 1000)
resultados_df_list <- list()
for (n in muestras) {
  # Crea matrices con valores aleatorios exponenciales
  muestra <- matrix(rexp(4*n, rate=1/theta), ncol=4)
  
  # calcula los valores de los estimadores para cada fila de la matriz muestra, y devuelve una matriz donde cada fila contiene los valores de los cuatro estimadores correspondientes a esa fila específica de la muestra.
  estimaciones <- apply(muestra, 1, function(x) c(estimador_1(x), estimador_2(x), estimador_3(x), estimador_4(x)))
  
  # Almacenar los resultados en un dataframe y asignarlo a la lista usando la clave del tamaño de muestra
  resultados_df <- data.frame(matrix(estimaciones, ncol=4, byrow=TRUE))
  colnames(resultados_df) <- c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4")
 
  resultados_df_list[[as.character(n)]] <- resultados_df
}

Con el fin de profundizar en la comprensión de estos estimadores, se elaboran boxplots que representan gráficamente las estimaciones de estos cuatro. Cada boxplot se asocia a un tamaño de muestra distinto y exhibe la distribución de las estimaciones obtenidas. Asimismo, se incorpora una línea horizontal en \(y=2\) (el valor de \(θ\)) para permitir una comparación visual entre las estimaciones y el valor real.

# Define una paleta de colores
mi_paleta <- c("#154360", "#FF5733", "#FFC300", "#1ABC9C")

# Genera los boxplots
for (i in 1:length(resultados_df_list)) {
  datos <- resultados_df_list[[as.character(muestras[i])]]
  boxplot(datos, 
          main = paste("Boxplot de Estimadores (n =", muestras[i], ")"), 
          ylab = "Estimaciones", 
          col = mi_paleta[i],  # Utiliza colores de la paleta
          border = "black",    # Añade bordes negros para mayor contraste
          boxwex = 0.5,        # Reduce el ancho de los boxes
          outline = TRUE       # Agrega líneas exteriores a los boxplots
  )
  # Agrega una línea horizontal en y = 2
  abline(h = theta, col = "red", lty = theta) # lty = 2 para una línea punteada

}

Insesgadez y Consistencia

Para evaluar la insesgadez, se calculó el sesgo como la diferencia entre la media de los estimadores y el verdadero valor del parámetro, estos valores fueron consignados en la siguiente tabla resumen.

datos20 <- resultados_df_list[[as.character(20)]]
datos50 <- resultados_df_list[[as.character(50)]]
datos100 <- resultados_df_list[[as.character(100)]]
datos1000 <- resultados_df_list[[as.character(1000)]]

insesgadez20 <- (colMeans(datos20)- theta)
insesgadez50 <- (colMeans(datos50)- theta)
insesgadez100 <- (colMeans(datos100)- theta)
insesgadez1000 <- (colMeans(datos1000)- theta)

# Especifica los nombres de las filas
nombres_filas <- c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4")

# Crea un dataframe con resultados de insesgadez
tabla <- data.frame(
  muestra_20 = insesgadez20,
  muestra_50 = insesgadez50,
  muestra_100 = insesgadez100,
  muestra_1000 = insesgadez1000,
  row.names = nombres_filas
)
tabla <- t(tabla)
# Imprime la tabla
print(tabla)

##              Estimador 1 Estimador 2 Estimador 3 Estimador 4
## muestra_20   -0.06264949    1.883108 -0.15103383   0.1329939
## muestra_50   -0.08675906    1.854806 -0.05290859   0.2665970
## muestra_100  -0.05904014    1.921017 -0.03861714   0.3046647
## muestra_1000  0.04087257    2.063759  0.02879995   0.3703622

Debido a que el sesgo tiende a cero, se pueden considerar los estimadores \(\hat{θ_1}\) y \(\hat{θ_3}\) como insesgados. El \(\hat{θ_4}\) se acerca a cero con un número de muestra de 20. En los otros casos, se consideran sesgados, siendo el más sesgado de todos el \(\hat{θ_2}\).

Adicionalmente, se puede observar que los estimadores \(\hat{θ_1}\) y \(\hat{θ_3}\) son consistentes, ya que a medida que aumenta el tamaño de la muestra, el sesgo se acerca más a cero, es decir, se parecen cada vez más al valor real.

Eficiencia

En relación con la eficiencia, se realizó el cálculo de la varianza de los estimadores, y posteriormente, los resultados fueron organizados en una tabla resumen, como se evidencia a continuación.

# Calcular la varianza
varianza20 <- apply(datos20, 2, var)
varianza50 <- apply(datos50, 2, var)
varianza100 <- apply(datos100, 2, var)
varianza1000 <- apply(datos1000, 2, var)

# Crea un dataframe con resultados de insesgadez
tabla1 <- data.frame(
  muestra_20 = varianza20,
  muestra_50 = varianza50,
  muestra_100 = varianza100,
  muestra_1000 = varianza1000,
  row.names = nombres_filas
)
tabla1 <- t(tabla1)
# Imprime la tabla
print(tabla1)

##              Estimador 1 Estimador 2 Estimador 3 Estimador 4
## muestra_20     2.3385618    9.925864   1.5552890    2.394817
## muestra_50     0.9707561    3.735557   0.7843872    1.750808
## muestra_100    1.2411787    5.692799   1.0849424    1.858715
## muestra_1000   1.1332335    4.871826   0.9921863    1.602245

El estimador \(\hat{θ_3}\) es el más eficiente al ser insesgado y presentar la menor varianza en todos los tamaños de muestra.

Discusión

Este apartado busca analizar los cuatro estimadores propuestos para la estimación del parámetro desconocido en un modelo de probabilidad basado en una distribución exponencial. Los resultados de la simulación proporcionaron una visión más amplia sobre las propiedades de insesgadez, eficiencia y consistencia de cada estimador en diferentes tamaños de muestra.

En relación con la insesgadez, se encontró que tanto \(\hat{θ_1}\) como \(\hat{θ_3}\) resultaron insesgados, ya que el sesgo tendió a cero al aumentar el tamaño de la muestra. Sin embargo, el estimador \(\hat{θ_4}\) inicialmente presentó un sesgo cercano a cero con muestras pequeñas, pero este sesgo se incrementó a medida que aumentaba el tamaño de la muestra, lo que sugiere una falta de insesgadez en muestras más grandes. Por otro lado, \(\hat{θ_2}\) mostró un sesgo significativo en todos los tamaños de muestra, lo que indica una falta de insesgadez en su estimación.

Además, se analizó la consistencia de los estimadores, observando cómo el sesgo se reducía a medida que aumentaba el tamaño de la muestra. Tanto \(\hat{θ_1}\) como \(\hat{θ_3}\) mostraron consistencia, ya que el sesgo disminuyó considerablemente con muestras más grandes, acercándose a cero, es decir que su media se acerco al valor verdadero del parámetro. En contraste, \(\hat{θ_2}\) y \(\hat{θ_4}\) mostraron una tendencia persistente hacia un sesgo lejano a cero incluso con tamaños de muestra más grandes, lo que sugiere una falta de consistencia en sus estimaciones.

En cuanto a la eficiencia, se calculó la varianza de cada estimador. Los resultados indicaron que \(\hat{θ_3}\) fue el estimador más eficiente en todos los tamaños de muestra, presentando la menor varianza entre los cuatro estimadores. Esto sugiere que \(\hat{θ_3}\) no solo fue insesgado y consistente, sino que también proporcionó estimaciones más precisas del parámetro de interés en comparación con los otros estimadores.

En resumen, la simulación y el análisis de los estimadores proporcionaron una comprensión más profunda de sus características y desempeño en diferentes escenarios. Los resultados destacan la importancia de considerar tanto la insesgadez, la consistencia y la eficiencia al seleccionar un estimador para la estimación de parámetros en modelos de probabilidad. En este contexto, \(\hat{θ_3}\) sobresale como la opción más adecuada, demostrando insesgadez, consistencia y eficiencia en la estimación del parámetro.

Conclusiones

El análisis exhaustivo de los estimadores para la estimación del parámetro en un modelo de probabilidad exponencial revela hallazgos significativos. Mientras que \(\hat{θ_1}\) y \(\hat{θ_3}\) muestran ser insesgados y consistentes, con este último destacando por su eficiencia al presentar la menor varianza en todos los tamaños de muestra, \(\hat{θ_2}\) y \(\hat{θ_4}\) exhiben sesgos significativos y una falta de consistencia en sus estimaciones, lo que sugiere su menor idoneidad para la estimación precisa del parámetro. En conjunto, estos resultados subrayan la importancia crucial de considerar tanto la insesgadez, la consistencia y la eficiencia al seleccionar un estimador apropiado, señalando a \(\hat{θ_3}\) como la opción más adecuada en este contexto específico.

CONTACTO

Propiedades de los estimadores

Autores: Carolina Silva & Dónoban Rojas

2024-03-17