Actividad 2. Métodos y Simulación Estadística

Problema 2: propiedades de los estimadores

La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean 𝑋1, 𝑋2, 𝑋3 y 𝑋4, una muestra aleatoria de tamaño n = 4 cuya población la conforma una distribución exponencial con parámetro 𝜃desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

t1 <- ((x1 +x2)/6) +((x3+x4)/3)
t2 <- (x1+(2*(x2))+(3*(x3))+(4*(x4)))/5
t3 <- (x1+x2+x3+x4)/4
t4 <- (min(x1, x2, x3, x4) + max(x1, x2, x3, x4)) / 2

Solución

Se realizan simulaciones usando un n = 20, 50, 100 y 1.000 y con un parámetro (t) igual a 1/5 de acuerdo a las características del modelo exponencial que establece que la E[x] = 1/lambda. A continuación se realiza el código para cada tamaño de muestra

Para n = 20

Se crea una muestra de tamaño n y se crea una semilla para la replicabilidad del ejercicio. Se define un lambda de 5, teniendo entonces un 𝜃 igual a 1/5 (t).

set.seed(123)
t = 1/5
n = 20

Ahora se crean las variables aleatorias usando la función exponencial con tamaño de muestra n = 20 y t = 1/5.

x1 = rexp(n, t)
x2 = rexp(n, t)
x3 = rexp(n, t)
x4 = rexp(n, t)

Ahora se calculan los estimadores y a partir del boxplot se analizan sus características.

x1234 <- data.frame(x1,x2,x3,x4)
minx <- apply(x1234, 1, min)
maxx <- apply(x1234, 1, max)

data <- data.frame(
t1 <- ((x1 +x2)/6) +((x3+x4)/3),
t2 <- (x1+(2*(x2))+(3*(x3))+(4*(x4)))/5,
t3 <- (x1+x2+x3+x4)/4,
t4 <- (minx + maxx) / 2
)
names(data) <- c("t1", "t2", "t3", "t4")
boxplot(data, las = 1)
abline(h= 5)

Se calcula la media y la varianza para cada estimador con el fin de poder comparar mejor sus resultados.

apply(data, 2, mean)

       t1        t2        t3        t4 
 5.177122 10.219794  5.085644  6.003939

apply(data, 2, sd)

      t1       t2       t3       t4 
2.608320 4.682086 2.228218 3.608070

En este caso se observa que los estimadores 1 y 3 son estimadores insesgados pues sus medias están más cercanas al valor del parámetro. Sin embargo, el estimador 3 es más eficiente que el 1 pues tiene una varianza ligeramente más baja.

Ahora se analizarán los resultados para los tamaños de muestra n= 50, 100 y 1000 y se mostrarán los resultados.

Para n = 50

A continuación se repite la prueba de los estimadores con un n = 50.

set.seed(123)
t = 1/5
n = 50

x1 = rexp(n, t)
x2 = rexp(n, t)
x3 = rexp(n, t)
x4 = rexp(n, t)

x1234 <- data.frame(x1,x2,x3,x4)
minx <- apply(x1234, 1, min)
maxx <- apply(x1234, 1, max)

data <- data.frame(
t1 <- ((x1 +x2)/6) +((x3+x4)/3),
t2 <- (x1+(2*(x2))+(3*(x3))+(4*(x4)))/5,
t3 <- (x1+x2+x3+x4)/4,
t4 <- (minx + maxx) / 2
)
names(data) <- c("t1", "t2", "t3", "t4")

apply(data, 2, mean)

      t1       t2       t3       t4 
4.972023 9.895097 5.036166 5.788121

apply(data, 2, sd)

      t1       t2       t3       t4 
2.587901 5.176448 2.593126 3.511058

boxplot(data, las = 1)
abline(h= 5)

El resultado es similar a la simulación con n=20, los estimadores 1 y 3 son los más acertados, siendo insesgados y más precisos. El estimador 2 está lejos del valor del parámetro y el estimador 4 está cerca pero rebasa el valor esperado del parámetro (5). Entre los estimadores 1 y 3, en este caso el estimador 1 tuvo uno menor variabilidad.

Para n = 100

set.seed(123)
t = 1/5
n = 100

x1 = rexp(n, t)
x2 = rexp(n, t)
x3 = rexp(n, t)
x4 = rexp(n, t)

x1234 <- data.frame(x1,x2,x3,x4)
minx <- apply(x1234, 1, min)
maxx <- apply(x1234, 1, max)

data <- data.frame(
t1 <- ((x1 +x2)/6) +((x3+x4)/3),
t2 <- (x1+(2*(x2))+(3*(x3))+(4*(x4)))/5,
t3 <- (x1+x2+x3+x4)/4,
t4 <- (minx + maxx) / 2
)
names(data) <- c("t1", "t2", "t3", "t4")

apply(data, 2, mean)

      t1       t2       t3       t4 
4.941755 9.783242 4.965358 5.733920

apply(data, 2, sd)

      t1       t2       t3       t4 
2.276096 4.845655 2.223877 2.868529

boxplot(data, las = 1)
abline(h= 5)

A mayor tamaño de la muestra más cercana es la media al valor del estimador. En este caso nuevamente los estimadores t1 y t3 son los más cercanos siendo t3 el de menor variablidad (Eficiente e insesgado).

Para n = 1000

set.seed(123)
t = 1/5
n = 1000

x1 = rexp(n, t)
x2 = rexp(n, t)
x3 = rexp(n, t)
x4 = rexp(n, t)

x1234 <- data.frame(x1,x2,x3,x4)
minx <- apply(x1234, 1, min)
maxx <- apply(x1234, 1, max)

data <- data.frame(
t1 <- ((x1 +x2)/6) +((x3+x4)/3),
t2 <- (x1+(2*(x2))+(3*(x3))+(4*(x4)))/5,
t3 <- (x1+x2+x3+x4)/4,
t4 <- (minx + maxx) / 2
)
names(data) <- c("t1", "t2", "t3", "t4")

apply(data, 2, mean)

      t1       t2       t3       t4 
4.980205 9.898509 4.999876 5.810203

apply(data, 2, sd)

      t1       t2       t3       t4 
2.674932 5.423683 2.548749 3.176790

boxplot(data, las = 1)
abline(h= 5)

Cómo se observa, al ampliar el tamaño de la muestra los estimadores fueron ajustando el valor de la media acercándose cada vez más al valor del parámetro. Por ejemplo el estimador (t3) que mostró ser el más insesgado y eficiente, para una muestra n=20 tuvo una media de cercana a 5, sin embargo para un n= 1000 su valor fue de 4.999 siendo mucho más cercano al valor del parámetro (5). En conclusión el estimador evaluado es consistente porque se aproxima cada vez mas al verdadero valor del parámetro a medida que el tamaño muestral aumenta.