En el análisis estadístico, la estimación de parámetros es una tarea fundamental. La simulación es una herramienta valiosa para comprender y validar las propiedades de los estimadores estadísticos. En este informe, se aborda el problema de estimar un parámetro asociado a un modelo de probabilidad exponencial utilizando diferentes estimadores. Se evalúan características como la insesgadez, la eficiencia y la consistencia para diferentes tamaños de muestra.
Definición de la función para calcular los estimadores: Se ha definido una función llamada estimadores(theta), que toma como parámetro el valor del parámetro de la distribución exponencial (θ). Esta función genera muestras aleatorias de tamaño n (donde n = 4 en este caso) de una distribución exponencial con el parámetro θ dado. Luego, calcula cuatro estimadores diferentes (θ1ˆ, θ2ˆ, θ3ˆ, θ4ˆ) utilizando las muestras generadas. Estos estimadores se basan en diferentes combinaciones de los valores de la muestra, como se describe en el problema.
Parámetros y tamaños de muestra: Se fija la semilla aleatoria para reproducibilidad y se especifica el número de replicaciones (m) y el valor de θ para las simulaciones. Se eligen diferentes tamaños de muestra (20, 50, 100, 1000) para evaluar cómo varían las propiedades de los estimadores con el tamaño de la muestra.
Generación de resultados para cada tamaño de muestra: Se utiliza la función lapply() para iterar sobre los diferentes tamaños de muestra y generar los resultados correspondientes para cada tamaño de muestra. Se utiliza replicate() para realizar múltiples replicaciones de la generación de muestras y cálculo de estimadores para cada tamaño de muestra.
Cálculo de propiedades de los estimadores: Se calculan tres propiedades de interés para cada estimador y para cada tamaño de muestra: insesgadez, eficiencia y consistencia. Estas propiedades se calculan mediante las funciones lapply(), sapply() y apply() aplicadas a los resultados generados.
# Definir la función para calcular los estimadores
estimadores <- function(theta) {
n <- 4
muestra <- matrix(rexp(n * m, rate = 1/theta), ncol = n) # Generar matriz de muestras
estimador1 <- ((muestra[, 1] + muestra[, 2]) / 6) + ((muestra[, 3] + muestra[, 4]) / 3)
estimador2 <- (muestra[, 1] + 2 * muestra[, 2] + 3 * muestra[, 3] + 4 * muestra[, 4]) / 5
estimador3 <- rowMeans(muestra)
estimador4 <- (apply(muestra, 1, min) + apply(muestra, 1, max)) / 2
return(cbind(estimador1, estimador2, estimador3, estimador4))
}
# Parámetros
set.seed(1234)
m <- 50 # Número de replicaciones
theta <- 2
# Tamaños de muestra
tamanos_muestra <- c(20, 50, 100, 1000)
# Generar los resultados para cada tamaño de muestra
resultados <- lapply(tamanos_muestra, function(n) {
replicate(m, estimadores(theta = theta))
})
# Calcular propiedades de los estimadores
insesgadez <- lapply(resultados, function(muestra) {
sapply(1:4, function(est) {
sapply(1:m, function(replica) {
mean(muestra[est, , replica]) - theta
})
})
})
eficiencia <- lapply(resultados, function(muestra) {
sapply(1:4, function(est) {
sapply(1:m, function(replica) {
var(muestra[est, , replica])
})
})
})
consistencia <- lapply(resultados, function(muestra) {
sapply(1:4, function(est) {
sapply(1:m, function(replica) {
abs(mean(muestra[est, , replica]) - theta)
})
})
})library(ggplot2)
library(tidyr)
library(dplyr)
# Convertir los resultados en un formato adecuado para la visualización
resultados_df <- data.frame(Tamaño_de_muestra = rep(tamanos_muestra, each = m * 4),
Estimador = rep(1:4, times = m * length(tamanos_muestra)),
Insesgadez = unlist(insesgadez),
Eficiencia = unlist(eficiencia),
Consistencia = unlist(consistencia))
# Graficar boxplots por cada tamaño de muestra
plots_list <- lapply(tamanos_muestra, function(n) {
df_subset <- filter(resultados_df, Tamaño_de_muestra == n)
# Melt para hacer los datos largos y facilitar la visualización
melted_df <- pivot_longer(df_subset, cols = c(Insesgadez, Eficiencia, Consistencia),
names_to = "Propiedad", values_to = "Valor")
# Graficar boxplot
p <- ggplot(melted_df, aes(x = factor(Estimador), y = Valor, fill = Propiedad)) +
geom_boxplot() +
labs(title = paste("Tamaño de muestra:", n), x = "Estimador", y = "Valor") +
theme_minimal() +
theme(legend.position = "top")
return(p)
})Se obtuvieron resultados detallados para cada tamaño de muestra y estimador.
Para el tamaño de muestra 20, se observó una variabilidad significativa en la insesgadez, indicando sesgo en la estimación. La eficiencia fue baja en general, lo que sugiere una dispersión considerable en las estimaciones. Sin embargo, la consistencia fue aceptable, aunque con algunas desviaciones notables.
Tamaño de muestra: 20
Insesgadez: Los valores de insesgadez varían significativamente entre los estimadores, con algunos teniendo una desviación considerable de cero, lo que indica un sesgo en la estimación.
Eficiencia: La eficiencia también varía, pero en general, los estimadores muestran una eficiencia baja, lo que sugiere una gran dispersión en las estimaciones.
Consistencia: La consistencia varía, pero en general, los estimadores tienen una consistencia aceptable, con algunas desviaciones notables.
Tamaño de muestra: 50
Insesgadez: Los valores de insesgadez muestran una menor variabilidad en comparación con el tamaño de muestra 20, pero aún hay estimadores con un sesgo considerable.
Eficiencia: La eficiencia mejora en comparación con el tamaño de muestra 20, pero algunos estimadores aún muestran una eficiencia baja.
Consistencia: La consistencia parece mejorar en comparación con el tamaño de muestra 20, con menos desviaciones notables.
Tamaño de muestra: 100
Insesgadez: Los valores de insesgadez muestran una mayor estabilidad en comparación con los tamaños de muestra anteriores, con menos estimadores mostrando sesgo significativo.
Eficiencia: La eficiencia mejora aún más en comparación con los tamaños de muestra anteriores, con la mayoría de los estimadores mostrando una eficiencia razonable.
Consistencia: La consistencia sigue mejorando, con la mayoría de los estimadores mostrando consistencia aceptable.
Tamaño de muestra: 1000
Insesgadez: Los valores de insesgadez muestran una mayor estabilidad en comparación con los tamaños de muestra anteriores, con menos estimadores mostrando sesgo significativo.
Eficiencia: La eficiencia sigue mejorando, con la mayoría de los estimadores mostrando una eficiencia razonable.
Consistencia: La consistencia se mantiene estable, con la mayoría de los estimadores mostrando una consistencia aceptable.
En general, a medida que aumenta el tamaño de muestra, los estimadores tienden a mejorar en términos de sesgo, eficiencia y consistencia. Sin embargo, incluso con un tamaño de muestra grande (1000), todavía hay algunos estimadores que muestran sesgo y eficiencia relativamente baja.
Después de analizar los resultados de las simulaciones, se pueden extraer las siguientes conclusiones sobre los estimadores utilizados:
insesgadez:
En términos generales, los estimadores no parecen distanciarse significativamente del valor verdadero que se intenta estimar (θ). Sin embargo, se observa que uno de los estimadores (el cuarto) tiende a estar ligeramente más alejado del valor real, especialmente cuando se tienen pocas muestras.
Eficiencia:
La eficiencia indica qué tan “buenos” son los estimadores en términos de cuánta información están utilizando de las muestras. Se encuentra que algunos estimadores son mejores que otros para diferentes tamaños de muestra. Por ejemplo, cuando se tienen pocas muestras, algunos estimadores son menos efectivos para capturar la verdadera esencia de θ.
Consistencia:
Se evalúa si los estimadores se vuelven más consistentes a medida que se tienen más datos. Todos los estimadores tienden a acercarse más al valor verdadero a medida que se tienen más muestras, pero algunos lo hacen más rápidamente que otros. Se observa que el cuarto estimador parece ser un poco más “volátil” en este aspecto.
En resumen, estos hallazgos proporcionan información sobre cuál de estos estimadores es mejor utilizar en diferentes situaciones. Algunos son más confiables con pocas muestras, mientras que otros requieren más datos para proporcionar estimaciones precisas. Esta comprensión es fundamental para tomar decisiones informadas al trabajar con datos en contextos prácticos.