Características de un buen estimador
Insesgamiento
Media muestral
Se demostrará que la media muestral es un estimador insesgado del parámetro poblacional.
En primer lugar, se genera una población simulada de N 500,000 casos con una media poblacional \(\mu\) de 45.472 (parámetro poblacional).
rm(list=ls()) #Limpiar entorno de trabajo
set.seed(1959) #Fijar semilla aleatoria para reproductibilidad
poblacion<-runif(500000,1,90) # Población: variable aleatoria con distribución uniforme que varía entre 1 y 90, con N de 500,000 casos
parametro <- mean(poblacion) # Parámetro poblacional: media en la población
Luego, se generan 10,000 muestras aleatorias de n 2,000 casos y se calcula la media muestral (estimador) para cada una de ellas.
estimadores <-NULL
for(i in 1:10000){
estimadores<-c(estimadores,mean(sample(poblacion,size = 2000)))
}
Como se puede ver, los estimadores varían aleatoriamente en torno al parámetro poblacional (línea roja).
hist(estimadores)
abline(v = parametro,col="red")
Pero en la esperanza matemática (media de la distribución muestral del estimador) coincide con el parámetro poblacional.
insesgamiento <- parametro - mean(estimadores)
round(insesgamiento,1)
## [1] 0
Por lo tanto, se demuestra que: \(E(\bar{x}) = \mu\) .
Proporción muestral
Se demostrará que la proporción muestral es un estimador insesgado del parámetro poblacional.
En primer lugar, se genera una población simulada de N 500,000 casos con una proporción poblacional \(\pi\) de 0.2 (parámetro poblacional).
rm(list=ls()) #Limpiar entorno de trabajo
set.seed(1959) #Fijar semilla aleatoria para reproductibilidad
poblacion<-rbinom(500000,1,0.2) # Población: variable aleatoria con distribución binomial que varía entre 0 y 1, con N de 500,000 casos
parametro <- mean(poblacion) # Parámetro poblacional: proporción en la población
Luego, se generan 10,000 muestras aleatorias de n 2,000 casos y se calcula la proporción muestral (estimador) para cada una de ellas.
estimadores <-NULL
for(i in 1:10000){
estimadores<-c(estimadores,mean(sample(poblacion,size = 2000)))
}
Como se puede ver, los estimadores varían aleatoriamente en torno al parámetro poblacional (línea roja).
hist(estimadores)
abline(v = parametro,col="red")
Pero en la esperanza matemática (media de la distribución muestral del estimador) coincide con el parámetro poblacional.
insesgamiento <- parametro - mean(estimadores)
round(insesgamiento,1)
## [1] 0
Por lo tanto, se demuestra que: \(E(p) = \pi\) .
Consistencia
Media muestral
Se demostrará que la media muestral es un estimador consistente del parámetro poblacional.
En primer lugar, se genera una población simulada de N 500 casos con una media poblacional (\(\mu\)) de 47.154 (parámetro poblacional).
rm(list=ls()) #Limpiar entorno de trabajo
set.seed(1959) #Fijar semilla aleatoria para reproductibilidad
poblacion<-runif(500,1,90) # Población: variable aleatoria con distribución uniforme que varía entre 1 y 90, con N de 500 casos
parametro <- mean(poblacion) # Parámetro poblacional: media en la población
Luego, se generan 500 muestras aleatorias con n desde 1 a 500 casos y se calcula la media muestral (estimador) para cada una de ellas.
estimadores <-NULL
for(i in 1:500){
estimadores<-c(estimadores,mean(sample(poblacion,size = i)))
}
n <- 1:500
Se grafican los estimadores obtenidos para cada tamaño muestral.
plot(n,estimadores)
abline(h = parametro,col="red")
Se observa que a medida que aumenta el tamaño de la muestra (n) el valor de la media muestral tiende a coincidir con el parámetro poblacional (línea roja).
Por lo tanto, se demuestra que: \(\lim_{n \to \infty} P(|\bar{x}-\mu| > \epsilon) = 0\) .
Proporción muestral
Se demostrará que la proporción muestral es un estimador consistente del parámetro poblacional.
En primer lugar, se genera una población simulada de N 500 casos con un parámetro poblacional \(\pi\) de 0.43 (parámetro poblacional).
rm(list=ls()) #Limpiar entorno de trabajo
set.seed(1959) #Fijar semilla aleatoria para reproductibilidad
poblacion<-rbinom(500,1,0.4) # Población: variable aleatoria con distribución binomial que varía entre 0 y 1, con N de 500 casos
parametro <- mean(poblacion) # Parámetro poblacional: media en la población
Luego, se generan 500 muestras aleatorias con n desde 1 a 500 casos y se calcula la proporción muestral (estimador) para cada una de ellas.
estimadores <-NULL
for(i in 1:500){
estimadores<-c(estimadores,mean(sample(poblacion,size = i)))
}
n <- 1:500
Se grafican los estimadores obtenidos para cada tamaño muestral.
plot(n,estimadores)
abline(h = parametro,col="red")
Se observa que a medida que aumenta el tamaño de la muestra (n) el valor de la proporción muestral tiende a coincidir con el parámetro poblacional (línea roja).
Por lo tanto, se demuestra que: \(\lim_{n \to \infty} P(| p -\pi | > \epsilon) = 0\) .