La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean 𝑋1, 𝑋2, 𝑋3 y 𝑋4, una muestra aleatoria de tamaño n = 4 cuya población la conforma una distribución exponencial con parámetro 𝜃desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
t1 <- ((x1 +x2)/6) +((x3+x4)/3)
t2 <- (x1+(2*(x2))+(3*(x3))+(4*(x4)))/5
t3 <- (x1+x2+x3+x4)/4
t4 <- (min(x1, x2, x3, x4) + max(x1, x2, x3, x4)) / 2
Se realizan simulaciones usando un n = 20, 50, 100 y 1.000 y con un parámetro (t) igual a 1/5 de acuerdo a las características del modelo exponencial que establece que la E[x] = 1/lambda. A continuación se realiza el código para cada tamaño de muestra
Se crea una muestra de tamaño n y se crea una semilla para la replicabilidad del ejercicio. Se define un lambda de 5, teniendo entonces un 𝜃 igual a 1/5 (t).
set.seed(123)
t = 1/5
n = 20
Ahora se crean las variables aleatorias usando la función exponencial con tamaño de muestra n = 20 y t = 1/5.
x1 = rexp(n, t)
x2 = rexp(n, t)
x3 = rexp(n, t)
x4 = rexp(n, t)
Ahora se calculan los estimadores y a partir del boxplot se analizan sus características.
x1234 <- data.frame(x1,x2,x3,x4)
minx <- apply(x1234, 1, min)
maxx <- apply(x1234, 1, max)
data <- data.frame(
t1 <- ((x1 +x2)/6) +((x3+x4)/3),
t2 <- (x1+(2*(x2))+(3*(x3))+(4*(x4)))/5,
t3 <- (x1+x2+x3+x4)/4,
t4 <- (minx + maxx) / 2
)
names(data) <- c("t1", "t2", "t3", "t4")
boxplot(data, las = 1)
abline(h= 5)
Se calcula la media y la varianza para cada estimador con el fin
de poder comparar mejor sus resultados.
apply(data, 2, mean)
t1 t2 t3 t4
5.177122 10.219794 5.085644 6.003939
apply(data, 2, sd)
t1 t2 t3 t4
2.608320 4.682086 2.228218 3.608070
En este caso se observa que los estimadores 1 y 3 son estimadores insesgados pues sus medias están más cercanas al valor del parámetro. Sin embargo, el estimador 3 es más eficiente que el 1 pues tiene una varianza ligeramente más baja.
Ahora se analizarán los resultados para los tamaños de muestra n= 50, 100 y 1000 y se mostrarán los resultados.
A continuación se repite la prueba de los estimadores con un n = 50.
set.seed(123)
t = 1/5
n = 50
x1 = rexp(n, t)
x2 = rexp(n, t)
x3 = rexp(n, t)
x4 = rexp(n, t)
x1234 <- data.frame(x1,x2,x3,x4)
minx <- apply(x1234, 1, min)
maxx <- apply(x1234, 1, max)
data <- data.frame(
t1 <- ((x1 +x2)/6) +((x3+x4)/3),
t2 <- (x1+(2*(x2))+(3*(x3))+(4*(x4)))/5,
t3 <- (x1+x2+x3+x4)/4,
t4 <- (minx + maxx) / 2
)
names(data) <- c("t1", "t2", "t3", "t4")
apply(data, 2, mean)
t1 t2 t3 t4
4.972023 9.895097 5.036166 5.788121
apply(data, 2, sd)
t1 t2 t3 t4
2.587901 5.176448 2.593126 3.511058
boxplot(data, las = 1)
abline(h= 5)
El resultado es similar a la simulación con n=20, los estimadores
1 y 3 son los más acertados, siendo insesgados y más precisos. El
estimador 2 está lejos del valor del parámetro y el estimador 4 está
cerca pero rebasa el valor esperado del parámetro (5). Entre los
estimadores 1 y 3, en este caso el estimador 1 tuvo uno menor
variabilidad.
set.seed(123)
t = 1/5
n = 100
x1 = rexp(n, t)
x2 = rexp(n, t)
x3 = rexp(n, t)
x4 = rexp(n, t)
x1234 <- data.frame(x1,x2,x3,x4)
minx <- apply(x1234, 1, min)
maxx <- apply(x1234, 1, max)
data <- data.frame(
t1 <- ((x1 +x2)/6) +((x3+x4)/3),
t2 <- (x1+(2*(x2))+(3*(x3))+(4*(x4)))/5,
t3 <- (x1+x2+x3+x4)/4,
t4 <- (minx + maxx) / 2
)
names(data) <- c("t1", "t2", "t3", "t4")
apply(data, 2, mean)
t1 t2 t3 t4
4.941755 9.783242 4.965358 5.733920
apply(data, 2, sd)
t1 t2 t3 t4
2.276096 4.845655 2.223877 2.868529
boxplot(data, las = 1)
abline(h= 5)
A mayor tamaño de la muestra más cercana es la media al valor del
estimador. En este caso nuevamente los estimadores t1 y t3 son los más
cercanos siendo t3 el de menor variablidad (Eficiente e insesgado).
set.seed(123)
t = 1/5
n = 1000
x1 = rexp(n, t)
x2 = rexp(n, t)
x3 = rexp(n, t)
x4 = rexp(n, t)
x1234 <- data.frame(x1,x2,x3,x4)
minx <- apply(x1234, 1, min)
maxx <- apply(x1234, 1, max)
data <- data.frame(
t1 <- ((x1 +x2)/6) +((x3+x4)/3),
t2 <- (x1+(2*(x2))+(3*(x3))+(4*(x4)))/5,
t3 <- (x1+x2+x3+x4)/4,
t4 <- (minx + maxx) / 2
)
names(data) <- c("t1", "t2", "t3", "t4")
apply(data, 2, mean)
t1 t2 t3 t4
4.980205 9.898509 4.999876 5.810203
apply(data, 2, sd)
t1 t2 t3 t4
2.674932 5.423683 2.548749 3.176790
boxplot(data, las = 1)
abline(h= 5)
Cómo se observa, al ampliar el tamaño de la muestra los
estimadores fueron ajustando el valor de la media acercándose cada vez
más al valor del parámetro. Por ejemplo el estimador (t3) que mostró ser
el más insesgado y eficiente, para una muestra n=20 tuvo una media de
cercana a 5, sin embargo para un n= 1000 su valor fue de 4.999 siendo
mucho más cercano al valor del parámetro (5). En conclusión el estimador
evaluado es consistente porque se aproxima cada vez mas al verdadero
valor del parámetro a medida que el tamaño muestral aumenta.