Comparando las medias de la muestra y población

==================================

En este documento se busca obtener las medias, o promedios, de varias muestras aleatorias para comprobar que mientras más grande sea la data, los promedios de las muestras se acercan más a una media poblacional.

Primer Paso

Primero se obtendrá una distribución aleatoria buscando una media de 15 con desvest de 5 y se graficará su distribución y media. Estos parámetros escogidos son arbitrarios.

set.seed(15)
x <- rnorm(1000, 15, 5)
hist(x)
abline(v=mean(x), lwd= 3, col="blue" )

pobmean <- round(mean(x), 3)

Vemos que la media poblacional es 15.185.

Segundo Paso

Se obtienen 10, 20 y 50 muestras aleatorias con un tamaño de 50 observaciones a partir de esta distribución

muest10 <- as.data.frame(replicate(10, sample(x, size = 50)))
muest20 <- as.data.frame(replicate(20, sample(x, size = 50)))
muest50 <- as.data.frame(replicate(50, sample(x, size = 50)))

Tercer Paso

Se obtienen las medias de todas las muestras

mu_muest10 <- colMeans(muest10)
mu_muest20 <- colMeans(muest20)
mu_muest50 <- colMeans(muest50)

Cuarto paso

Se obtienen los histogramas de las muestras aleatorias creadas para ver que tienen distribución similar a su población de origen. Se indica en los histogramas las medias del conjunto de datos.

par(mfrow= c(2, 2), lwd= 2)
hist(mu_muest10)
abline(v=mean(mu_muest10), col= "red", lwd= 3)
hist(mu_muest20)
abline(v=mean(mu_muest20), col= "red", lwd= 3)
hist(mu_muest50)
abline(v=mean(mu_muest50), col= "red", lwd= 3)

Quinto paso

Trabajamos con las medias. Primero le damos un vistazo a las medias de los promedios de nuestras muestras aleatorias.

Obtenemos que para las 10 muestras el promedio es

mean10 <- mean(mu_muest10)
mean10

## [1] 15.48811

Para las 20 muestras es

mean20 <- mean(mu_muest20)
mean20

## [1] 15.02346

Y para las 50 muestras es

mean50 <- mean(mu_muest50)
mean50

## [1] 15.14594

Al obtener el promedio de estos tres valores obtenemos

mean.all <-(mean10+mean20+mean50)/3
mean.all

## [1] 15.21917

A continuación vemos los valores absolutos de las diferencias entre estas medias y la media poblacional.

paste("La diferencia con las 10 muestras es de", abs(pobmean-mean10))

## [1] "La diferencia con las 10 muestras es de 0.303105256218997"

paste("La diferencia con las 20 muestras es de", abs(pobmean-mean20))

## [1] "La diferencia con las 20 muestras es de 0.161540422219463"

paste("La diferencia con las 50 muestras es de", abs(pobmean-mean50))

## [1] "La diferencia con las 50 muestras es de 0.0390637520823027"

paste("La diferencia con el promedio de las tres anteriores es de", abs(pobmean-mean.all))

## [1] "La diferencia con el promedio de las tres anteriores es de 0.0341670273057435"

Y podemos ver que a mayor cantidad de observaciones hay una mayor semejanza a la media poblacional