==================================
En este documento se busca obtener las medias, o promedios, de varias muestras aleatorias para comprobar que mientras más grande sea la data, los promedios de las muestras se acercan más a una media poblacional.
Primero se obtendrá una distribución aleatoria buscando una media de 15 con desvest de 5 y se graficará su distribución y media. Estos parámetros escogidos son arbitrarios.
set.seed(15)
x <- rnorm(1000, 15, 5)
hist(x)
abline(v=mean(x), lwd= 3, col="blue" )
pobmean <- round(mean(x), 3)
Vemos que la media poblacional es 15.185.
Se obtienen 10, 20 y 50 muestras aleatorias con un tamaño de 50 observaciones a partir de esta distribución
muest10 <- as.data.frame(replicate(10, sample(x, size = 50)))
muest20 <- as.data.frame(replicate(20, sample(x, size = 50)))
muest50 <- as.data.frame(replicate(50, sample(x, size = 50)))
Se obtienen las medias de todas las muestras
mu_muest10 <- colMeans(muest10)
mu_muest20 <- colMeans(muest20)
mu_muest50 <- colMeans(muest50)
Se obtienen los histogramas de las muestras aleatorias creadas para ver que tienen distribución similar a su población de origen. Se indica en los histogramas las medias del conjunto de datos.
par(mfrow= c(2, 2), lwd= 2)
hist(mu_muest10)
abline(v=mean(mu_muest10), col= "red", lwd= 3)
hist(mu_muest20)
abline(v=mean(mu_muest20), col= "red", lwd= 3)
hist(mu_muest50)
abline(v=mean(mu_muest50), col= "red", lwd= 3)
Trabajamos con las medias. Primero le damos un vistazo a las medias de los promedios de nuestras muestras aleatorias.
Obtenemos que para las 10 muestras el promedio es
mean10 <- mean(mu_muest10)
mean10
## [1] 15.48811
Para las 20 muestras es
mean20 <- mean(mu_muest20)
mean20
## [1] 15.02346
Y para las 50 muestras es
mean50 <- mean(mu_muest50)
mean50
## [1] 15.14594
Al obtener el promedio de estos tres valores obtenemos
mean.all <-(mean10+mean20+mean50)/3
mean.all
## [1] 15.21917
A continuación vemos los valores absolutos de las diferencias entre estas medias y la media poblacional.
paste("La diferencia con las 10 muestras es de", abs(pobmean-mean10))
## [1] "La diferencia con las 10 muestras es de 0.303105256218997"
paste("La diferencia con las 20 muestras es de", abs(pobmean-mean20))
## [1] "La diferencia con las 20 muestras es de 0.161540422219463"
paste("La diferencia con las 50 muestras es de", abs(pobmean-mean50))
## [1] "La diferencia con las 50 muestras es de 0.0390637520823027"
paste("La diferencia con el promedio de las tres anteriores es de", abs(pobmean-mean.all))
## [1] "La diferencia con el promedio de las tres anteriores es de 0.0341670273057435"
Y podemos ver que a mayor cantidad de observaciones hay una mayor semejanza a la media poblacional