Determinar la distribución muestral de la media.
Se simula población con sueldos de trabajadores de una Institución educativa. La distribución de esta población no es normal es decir, no tiene características de ser distribución normal.
Se crean datos relacionados con la población y se determinan los parámetros descriptivos.
Se crean 100 y 1000 muestras diferentes con n elementos diferentes relacionados con la población y se determinan la media aritmética de cada muestra.
Se determina la distribución muestral de la media de las cien muestras y se identifica que la distribución se acera a una distribución normal además de que la media de la distribución muestral se acerca a la media de la población.
Si se organizan las medias de todas las muestras posibles (por decir cien y mil) en una distribución de probabilidad, el resultado recibe el nombre de distribución muestral de la media.
DISTRIBUCIÓN MUESTRAL DE LA MEDIA es la distribución de probabilidad de todas las posibles medias de las muestras de un determinado tamaño muestral de la población. [@lind2015].
library(cowplot)
library(ggplot2)
library(knitr)
Para que no aparezca notación científica
options(scipen=999)
set.seed(2022)
N <- 650 # Cantidad de datos de población
rango <- 5000:35000 # Rango de sueldos
n = 100 # Cantidad de datos de cada muestra
q1 = 100 # Cantidad de muestras m1, m2, m3
q2 = 1000 # Cantidad de muestras m1, m2, m3
Se simula una población de trabajadores por medio de la creación de un vector con valores que contienen sueldos mensuales en pesos mexicanos de una población de \(N=650\) trabajadores que laboran en una Institución educativa. El rango del sueldo de manera simulada está entre $5000 y $35000 pesos ($) mensuales.
\[ poblacion = \text{ {x | x es un trabajador de una Institución educativa; }} \therefore \\ x_1, x_2, x_3, ... ,x_{N=6500} \]
poblacion <- data.frame(x = 1:N, sueldo=sample(x = rango, size = N, replace = TRUE))
head(poblacion$sueldo, 30)
## [1] 25707 14650 12885 7870 17106 13899 9869 7750 29269 21859 5122 15472
## [13] 14485 6271 12174 13028 22905 5950 11255 27997 27468 9608 32954 13991
## [25] 15688 33513 7425 22931 14019 21811
tail(poblacion$sueldo, 30)
## [1] 21598 5848 28266 20362 32060 14052 11039 7206 11462 12276 13060 14444
## [13] 30898 14548 30608 26851 31879 13169 26272 34849 34827 34180 22406 27628
## [25] 5447 29187 14894 18892 22053 31477
summary(poblacion$sueldo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5120 12346 19069 19761 27705 34852
media.p <- round(mean(poblacion$sueldo),2)
desv.p <- round(sd(poblacion$sueldo),2)
media.p; desv.p
## [1] 19761.25
## [1] 8706.34
Se tiene una media aritmética poblacional de 19761.25 con una desviación estándar de 8706.34.
\[ \mu = \frac{\sum{sueldo_x}}{N} = 19761.25 \]
Se determina una primera muestra de 100 trabajadores sin reemplazo que significa que no se puede repetir el trabajador el valor de \(x\).
\[ muestra = \text{ {x | x es un trabajador de la población; }} \therefore \\ x_1, x_2, x_3, ... ,x_{n=100} \]
La variables xs como parte de la muestra puede ser cualquier trabajador de la población que representa a la población.
xs <- sample(x = 1:N, size = n, replace = FALSE)
muestra <- poblacion[xs,]
summary(muestra$sueldo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5204 13043 18871 20141 28334 34852
media.m <- round(mean(muestra$sueldo),2)
desv.m <- round(sd(muestra$sueldo),2)
media.m; desv.m
## [1] 20140.97
## [1] 8855.34
Se tiene una media aritmética de la primera muestra de 20140.97 con una desviación estándar de 8706.34. \[ \bar{x_1} = \frac{\sum{sueldo_x}}{n} = 20140.97 \]
El error muestral es porque los estadísticos no son valores numéricos igual que los parámetros de la población, siempre existirá una diferencia.
paste("Media aritméica poblacional", media.p, ";", "media muestral", media.m)
## [1] "Media aritméica poblacional 19761.25 ; media muestral 20140.97"
paste("Desviación estándar poblacional", desv.p, ";","desviación muestral", desv.m)
## [1] "Desviación estándar poblacional 8706.34 ; desviación muestral 8855.34"
Se determina el error muestral del estadístico media de la muestra con respecto al parámetro de la media poblacional
dif.media <- media.p - media.m
paste("El error muestral con respecto a la media aritmética es de: ", round(dif.media, 2))
## [1] "El error muestral con respecto a la media aritmética es de: -379.72"
\[ \text{Error muestral =} (\mu - \bar{x}) = (19761.25 - 20140.97) =-379.72 \]
# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "blue") +
labs(title = "Población",
subtitle = paste("ME=", media.p, "; ds=", desv.p, "; Err muestral media=",dif.media),
caption = "Fuente propia") +
geom_vline(xintercept = media.m, col='red') +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g1 <- g1 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(muestra, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "green") +
geom_vline(xintercept = media.m, col='red') +
labs(title = "Muestra",
subtitle = paste("me=", media.m, "; ds.=", desv.m),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g2 <- g2 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)
Se observa que no es una distribuciones normal, ni los datos de población ni los datos de la muestra se comportan como distribución normal.
Se determinan cien (100) muestras de 100 elementos cada una, luego se organizan las medias de todas las muestras en una distribución de probabilidad, el resultado recibe el nombre de distribución muestral de la media [@lind2015].
muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:q1) {
muestras[[i]] <- sample(x = poblacion$sueldo, size = q1, replace = FALSE)
m.muestras[i] <- mean(muestras[[i]])
}
Se construye una tabla de distribución de todos los sueldos de cada muestra, solo se muestran los tres primeros y los últimos tres en la columna final se observa la media de cada muestra.
La función t() transforma registros a columnas de un data.frame.
sueldos <- data.frame(muestras)
sueldos <- t(sueldos)
colnames(sueldos) <- paste0("sueldo",1:q1)
rownames(sueldos) <- paste0("M",1:q1)
tabla <- data.frame(sueldos[,1:3], "..."="...", sueldos[,(q1-2):q1], medias.muestrales = m.muestras)
kable(tabla, caption = "Tabla de medias aritméticas de cien muestras de cien sueldos cada una")
sueldo1 | sueldo2 | sueldo3 | … | sueldo98 | sueldo99 | sueldo100 | medias.muestrales | |
---|---|---|---|---|---|---|---|---|
M1 | 15788 | 21859 | 32713 | … | 10812 | 21811 | 32786 | 20736.06 |
M2 | 9075 | 22283 | 30372 | … | 14054 | 24182 | 29707 | 20639.82 |
M3 | 12097 | 24474 | 13137 | … | 29531 | 23992 | 25633 | 19996.53 |
M4 | 30979 | 13425 | 11904 | … | 10543 | 9325 | 19321 | 20633.99 |
M5 | 26272 | 12961 | 33947 | … | 26851 | 26304 | 27046 | 18681.45 |
M6 | 5848 | 23490 | 31265 | … | 12244 | 33188 | 15040 | 19109.22 |
M7 | 8204 | 29190 | 19049 | … | 10594 | 20566 | 29531 | 20468.30 |
M8 | 16060 | 19321 | 12885 | … | 30738 | 9414 | 13396 | 19828.73 |
M9 | 32639 | 12720 | 21859 | … | 10548 | 26065 | 26545 | 19830.11 |
M10 | 11385 | 15411 | 5862 | … | 15147 | 27566 | 14740 | 18944.63 |
M11 | 17959 | 22158 | 17046 | … | 27332 | 26648 | 9925 | 19746.89 |
M12 | 30608 | 14548 | 24582 | … | 21040 | 5978 | 30269 | 19870.17 |
M13 | 21598 | 5120 | 34372 | … | 19703 | 24182 | 21028 | 20645.61 |
M14 | 27368 | 30817 | 29126 | … | 30612 | 21214 | 5735 | 20957.24 |
M15 | 34155 | 28951 | 24182 | … | 23961 | 30705 | 29941 | 21667.95 |
M16 | 30817 | 19903 | 15506 | … | 15688 | 14632 | 29190 | 17482.29 |
M17 | 30705 | 5461 | 16929 | … | 28086 | 25022 | 26890 | 19208.38 |
M18 | 24794 | 14019 | 8218 | … | 16026 | 32770 | 7397 | 18347.65 |
M19 | 32085 | 31265 | 14008 | … | 24808 | 16438 | 32855 | 20682.27 |
M20 | 13396 | 19771 | 5122 | … | 30510 | 17656 | 14339 | 20125.20 |
M21 | 21040 | 30690 | 19901 | … | 15788 | 31518 | 14740 | 20737.61 |
M22 | 21584 | 27284 | 23490 | … | 13396 | 9781 | 28882 | 18237.47 |
M23 | 26648 | 33377 | 7697 | … | 27304 | 28730 | 6764 | 20240.44 |
M24 | 6210 | 21811 | 15837 | … | 14485 | 7750 | 14052 | 18496.68 |
M25 | 13960 | 24030 | 9481 | … | 5606 | 14362 | 14789 | 20458.39 |
M26 | 26576 | 32143 | 28255 | … | 30269 | 9233 | 14920 | 20726.29 |
M27 | 19376 | 13521 | 14322 | … | 19901 | 11760 | 26851 | 18830.83 |
M28 | 15479 | 6296 | 32134 | … | 5204 | 16836 | 20119 | 19379.19 |
M29 | 21335 | 6955 | 9854 | … | 19703 | 30710 | 17667 | 19353.12 |
M30 | 8513 | 28882 | 34453 | … | 20553 | 13960 | 31565 | 21039.95 |
M31 | 28263 | 11642 | 27657 | … | 16153 | 16823 | 28471 | 19611.47 |
M32 | 30054 | 13937 | 5848 | … | 10361 | 29642 | 10922 | 20298.66 |
M33 | 32060 | 14261 | 26632 | … | 22902 | 30361 | 31565 | 20583.66 |
M34 | 7429 | 30738 | 34241 | … | 13396 | 15184 | 29194 | 20676.34 |
M35 | 13028 | 30612 | 24474 | … | 12337 | 20362 | 22902 | 19540.91 |
M36 | 8204 | 31737 | 30148 | … | 31518 | 30705 | 6701 | 19947.62 |
M37 | 27677 | 21859 | 21302 | … | 12946 | 29539 | 14362 | 19431.05 |
M38 | 26556 | 32639 | 10543 | … | 27382 | 11348 | 18188 | 19811.23 |
M39 | 32713 | 6376 | 30979 | … | 27566 | 13246 | 13583 | 18502.11 |
M40 | 17656 | 32026 | 16780 | … | 6577 | 10345 | 18550 | 19389.62 |
M41 | 11074 | 12946 | 22406 | … | 15998 | 19198 | 17981 | 19102.56 |
M42 | 6602 | 10282 | 17667 | … | 15583 | 17959 | 30363 | 19992.70 |
M43 | 6794 | 20020 | 20870 | … | 9233 | 13583 | 8204 | 18382.83 |
M44 | 26251 | 23466 | 18590 | … | 32302 | 12961 | 21353 | 19774.39 |
M45 | 23626 | 10361 | 20553 | … | 32885 | 20963 | 13048 | 20706.49 |
M46 | 33813 | 28471 | 20566 | … | 8149 | 29269 | 31901 | 19546.44 |
M47 | 29822 | 13815 | 28266 | … | 30690 | 12318 | 11146 | 19250.42 |
M48 | 10361 | 21859 | 23626 | … | 15769 | 27566 | 14261 | 18468.96 |
M49 | 12375 | 18773 | 6154 | … | 23490 | 14966 | 5974 | 19491.52 |
M50 | 21353 | 33416 | 31265 | … | 32143 | 19376 | 13815 | 19490.71 |
M51 | 29502 | 14322 | 33448 | … | 10038 | 11552 | 7870 | 19512.78 |
M52 | 30872 | 13368 | 13896 | … | 25160 | 31031 | 13048 | 18866.18 |
M53 | 30491 | 32855 | 25580 | … | 9869 | 6973 | 17922 | 20113.63 |
M54 | 33377 | 5264 | 31652 | … | 21368 | 11462 | 15688 | 18909.46 |
M55 | 10199 | 31523 | 27970 | … | 26272 | 8268 | 28627 | 18193.86 |
M56 | 26851 | 6735 | 31135 | … | 9869 | 12064 | 33513 | 18875.31 |
M57 | 5941 | 24808 | 11039 | … | 8862 | 17221 | 16017 | 19622.10 |
M58 | 11074 | 5461 | 5974 | … | 19376 | 17882 | 33188 | 19137.89 |
M59 | 21598 | 16426 | 14436 | … | 14054 | 30363 | 30710 | 19948.76 |
M60 | 13521 | 19063 | 30054 | … | 6764 | 19075 | 8513 | 20520.33 |
M61 | 24991 | 30979 | 20020 | … | 29880 | 14054 | 8184 | 20703.26 |
M62 | 19075 | 12972 | 7425 | … | 20678 | 8218 | 27970 | 19740.58 |
M63 | 27284 | 5122 | 8801 | … | 29814 | 16592 | 13815 | 19488.40 |
M64 | 6210 | 23254 | 13815 | … | 31988 | 25143 | 19063 | 18671.46 |
M65 | 13070 | 19049 | 12375 | … | 19063 | 11332 | 27368 | 20533.80 |
M66 | 30054 | 13028 | 7154 | … | 24618 | 9414 | 20362 | 19701.35 |
M67 | 22931 | 7614 | 31476 | … | 9969 | 29814 | 25903 | 19074.74 |
M68 | 34050 | 28111 | 5264 | … | 29054 | 30054 | 34852 | 19360.43 |
M69 | 11504 | 7555 | 16836 | … | 30768 | 20970 | 25022 | 19175.43 |
M70 | 27046 | 8903 | 13978 | … | 21312 | 13991 | 32713 | 18854.49 |
M71 | 9233 | 5614 | 13293 | … | 5735 | 29642 | 5974 | 18809.82 |
M72 | 13293 | 20141 | 30491 | … | 17780 | 28353 | 9075 | 20693.37 |
M73 | 5122 | 21047 | 17656 | … | 10041 | 12318 | 20553 | 18839.38 |
M74 | 9054 | 31135 | 30363 | … | 27341 | 34050 | 6973 | 18413.02 |
M75 | 13839 | 30802 | 18507 | … | 12276 | 13542 | 15769 | 18724.59 |
M76 | 10139 | 12946 | 23254 | … | 12318 | 13070 | 22371 | 20734.33 |
M77 | 18290 | 30898 | 23255 | … | 5874 | 34241 | 9917 | 18736.71 |
M78 | 17656 | 15688 | 6701 | … | 14688 | 22902 | 30510 | 19452.58 |
M79 | 10199 | 22778 | 31996 | … | 25160 | 19771 | 14062 | 19034.93 |
M80 | 18971 | 20678 | 14548 | … | 9414 | 25633 | 26625 | 19208.05 |
M81 | 12318 | 13815 | 27238 | … | 16060 | 13648 | 14650 | 19605.06 |
M82 | 27312 | 6210 | 18445 | … | 12064 | 19017 | 27313 | 19171.32 |
M83 | 10030 | 13060 | 26071 | … | 27925 | 13521 | 30898 | 19515.63 |
M84 | 25978 | 34050 | 9854 | … | 8513 | 22819 | 7333 | 20098.99 |
M85 | 31630 | 18590 | 7377 | … | 11533 | 7697 | 21302 | 18847.77 |
M86 | 14615 | 22405 | 34241 | … | 28951 | 6973 | 11146 | 20459.58 |
M87 | 20553 | 31059 | 12720 | … | 29054 | 25903 | 23217 | 19832.79 |
M88 | 13709 | 15449 | 19161 | … | 9231 | 19142 | 5447 | 19877.13 |
M89 | 14444 | 19802 | 16426 | … | 22952 | 14589 | 27046 | 19756.34 |
M90 | 14789 | 13899 | 22931 | … | 29126 | 8204 | 25224 | 20019.58 |
M91 | 14322 | 21811 | 28353 | … | 6794 | 12318 | 14553 | 20209.78 |
M92 | 31031 | 13513 | 13368 | … | 6577 | 10548 | 15449 | 19885.71 |
M93 | 28353 | 11595 | 17882 | … | 31059 | 5614 | 18559 | 20993.02 |
M94 | 20119 | 6271 | 23342 | … | 23368 | 20035 | 20107 | 19280.53 |
M95 | 28730 | 14008 | 20119 | … | 9521 | 18249 | 8231 | 18011.64 |
M96 | 27566 | 20727 | 6296 | … | 32060 | 28951 | 26071 | 20086.76 |
M97 | 30065 | 30269 | 5974 | … | 26071 | 33188 | 26648 | 19101.39 |
M98 | 29157 | 8862 | 31901 | … | 9917 | 21214 | 25621 | 19251.26 |
M99 | 31578 | 13815 | 30972 | … | 6154 | 22902 | 22931 | 19801.28 |
M100 | 13060 | 30491 | 12318 | … | 23687 | 15688 | 29642 | 20588.40 |
media.todas.muestras <- round(mean(tabla$medias.muestrales),4)
paste("La media de todas las muestras es de: ", media.todas.muestras)
## [1] "La media de todas las muestras es de: 19631.4713"
# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "blue") +
labs(title = "Población",
subtitle = paste("ME = ", media.p),
caption = "Fuente propia") +
geom_vline(xintercept = media.m, col='red') +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g1 <- g1 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(tabla, aes(x = medias.muestrales)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "green") +
geom_vline(xintercept = media.todas.muestras, col='red') +
labs(title = "Distribución muestral de la media CIEN",
subtitle = paste("Media =", media.todas.muestras),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g2 <- g2 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)
Se observa la diferencia de forma de las distribuciones poblacional y muestral de medias.
También existe una diferencia en el rango de las medias de la población con respecto a la media de todas las muestras. El rango del sueldo de la población es 5120, 34852, mientras que las medias muestrales de la población con respecto al sueldo varían de 17482.29, 21667.95.
En cuanto a la diferencias de las desviaciones estándar de la población y de las muestras:
sd(poblacion$sueldo)
## [1] 8706.343
sd(tabla$medias.muestrales)
## [1] 803.2327
Se reduce su rango o lo que es lo mismo la desviación disminuye de 8706.3431836 en la población a 803.2327057 en las medias muestrales.
¿Que pasará con mil muestras?
Se repite el proceso, ahora en lugar de ser cien ahora serán mil muestras.
Se determinan mil (1000) muestras de 100 elementos cada una, luego se organizan las medias de todas las muestras en una distribución de probabilidad, el resultado recibe el nombre de distribución muestral de la media [@lind2015].
muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:q2) {
muestras[[i]] <- sample(x = poblacion$sueldo, size = q2, replace = TRUE)
m.muestras[i] <- mean(muestras[[i]])
}
Se construye una tabla de distribución de todos los sueldos de cada muestra, solo se muestran los tres primeros y los últimos tres en la columna final se observa la media de cada muestra.
Como son mil muestras solo se muestran las primeras cincuenta y las últimas cincuenta.
sueldos <- data.frame(muestras)
sueldos <- t(sueldos)
colnames(sueldos) <- paste0("sueldo",1:q2)
rownames(sueldos) <- paste0("M",1:q2)
tabla <- data.frame(sueldos[,1:3], "..."="...", sueldos[,(q2-2):q2], medias.muestrales = m.muestras)
kable(head(tabla,50), caption = paste("Tabla de medias aritméticas de ",q2," muestras de cien sueldos cada una"))
sueldo1 | sueldo2 | sueldo3 | … | sueldo998 | sueldo999 | sueldo1000 | medias.muestrales | |
---|---|---|---|---|---|---|---|---|
M1 | 27368 | 5978 | 11732 | … | 6376 | 32060 | 21353 | 19735.60 |
M2 | 28255 | 22931 | 22735 | … | 31516 | 5122 | 6594 | 19461.26 |
M3 | 30054 | 19198 | 31265 | … | 20107 | 11332 | 9231 | 19925.22 |
M4 | 5190 | 15363 | 9414 | … | 9781 | 24262 | 10114 | 19787.03 |
M5 | 17959 | 26648 | 15213 | … | 24182 | 22931 | 14615 | 19699.13 |
M6 | 28550 | 34805 | 13960 | … | 14052 | 25707 | 27925 | 19818.80 |
M7 | 32435 | 31091 | 29187 | … | 17780 | 27822 | 14920 | 19629.92 |
M8 | 10139 | 8030 | 34372 | … | 9969 | 32116 | 11434 | 19948.42 |
M9 | 31503 | 13978 | 27238 | … | 32143 | 31701 | 33364 | 19717.43 |
M10 | 34805 | 27332 | 27332 | … | 14276 | 13583 | 8184 | 19731.35 |
M11 | 11146 | 26632 | 6607 | … | 22819 | 27468 | 29054 | 19952.71 |
M12 | 30690 | 33513 | 11904 | … | 12008 | 8703 | 23490 | 19596.00 |
M13 | 23750 | 16864 | 31476 | … | 34372 | 8801 | 17106 | 19764.49 |
M14 | 34241 | 21598 | 9485 | … | 18216 | 31996 | 16836 | 19415.40 |
M15 | 17780 | 32060 | 10812 | … | 24518 | 26556 | 19011 | 20064.70 |
M16 | 20035 | 29190 | 26576 | … | 15506 | 22905 | 16592 | 19725.03 |
M17 | 14650 | 16780 | 32134 | … | 8801 | 34852 | 28353 | 19555.64 |
M18 | 13648 | 15411 | 13638 | … | 34484 | 17656 | 15363 | 19860.12 |
M19 | 30705 | 14684 | 17698 | … | 21214 | 11379 | 30069 | 19838.46 |
M20 | 14362 | 23466 | 19017 | … | 29642 | 30817 | 11162 | 19674.36 |
M21 | 18337 | 26809 | 30898 | … | 12276 | 19771 | 10543 | 19884.02 |
M22 | 11405 | 13839 | 23466 | … | 29071 | 11878 | 32942 | 20065.61 |
M23 | 20727 | 8096 | 17309 | … | 10480 | 13028 | 29814 | 19915.11 |
M24 | 15472 | 18216 | 12276 | … | 9210 | 22952 | 13583 | 20070.22 |
M25 | 24262 | 9481 | 32713 | … | 18249 | 33377 | 23342 | 19576.29 |
M26 | 7716 | 12972 | 32786 | … | 19903 | 13521 | 22905 | 19823.25 |
M27 | 18507 | 13368 | 13521 | … | 29194 | 7439 | 10667 | 19311.69 |
M28 | 9231 | 30054 | 13896 | … | 32770 | 29822 | 13797 | 19686.54 |
M29 | 23628 | 10922 | 32143 | … | 13673 | 9087 | 7277 | 19884.90 |
M30 | 18550 | 30269 | 13513 | … | 14485 | 21122 | 23315 | 19581.58 |
M31 | 22952 | 10030 | 31511 | … | 7113 | 19775 | 30148 | 19795.52 |
M32 | 30898 | 30510 | 29066 | … | 26809 | 32085 | 22405 | 20124.76 |
M33 | 32925 | 29941 | 6482 | … | 12318 | 25736 | 14008 | 19751.09 |
M34 | 24991 | 18290 | 18773 | … | 28850 | 27877 | 14650 | 19556.91 |
M35 | 19321 | 8184 | 7333 | … | 29126 | 32885 | 27629 | 19698.03 |
M36 | 27822 | 28102 | 19075 | … | 27628 | 13137 | 17922 | 19398.05 |
M37 | 8513 | 28328 | 17882 | … | 30690 | 31630 | 29126 | 19594.75 |
M38 | 7555 | 10545 | 19903 | … | 11950 | 19049 | 29979 | 19682.20 |
M39 | 21302 | 14516 | 31565 | … | 8903 | 30070 | 33878 | 19491.74 |
M40 | 7697 | 28850 | 29642 | … | 30529 | 27822 | 8268 | 19981.12 |
M41 | 34553 | 21302 | 30082 | … | 24179 | 5120 | 27304 | 20292.71 |
M42 | 15184 | 34154 | 22158 | … | 18507 | 7429 | 22902 | 19488.39 |
M43 | 15363 | 8096 | 9917 | … | 23255 | 19075 | 29187 | 19516.32 |
M44 | 7377 | 14544 | 20553 | … | 8801 | 19142 | 29194 | 19817.44 |
M45 | 6482 | 14553 | 34135 | … | 8268 | 5978 | 13060 | 20077.39 |
M46 | 19468 | 31630 | 28263 | … | 34838 | 6154 | 31652 | 20098.04 |
M47 | 27312 | 11255 | 11405 | … | 28627 | 34155 | 15040 | 19880.35 |
M48 | 16198 | 6119 | 13396 | … | 32336 | 18317 | 29979 | 19753.59 |
M49 | 14616 | 5735 | 11140 | … | 6780 | 5204 | 12913 | 19514.80 |
M50 | 9925 | 13991 | 32336 | … | 31996 | 13960 | 21122 | 19566.39 |
kable(tail(tabla,50), caption = paste("Tabla de medias aritméticas de ",q2," muestras de cien sueldos cada una"))
sueldo1 | sueldo2 | sueldo3 | … | sueldo998 | sueldo999 | sueldo1000 | medias.muestrales | |
---|---|---|---|---|---|---|---|---|
M951 | 5122 | 33416 | 16198 | … | 10114 | 21598 | 12720 | 19587.42 |
M952 | 8149 | 18971 | 26732 | … | 15769 | 13521 | 9325 | 19849.75 |
M953 | 20124 | 11379 | 16737 | … | 22931 | 21817 | 34050 | 19547.66 |
M954 | 17981 | 33947 | 30768 | … | 21122 | 13048 | 19468 | 19995.34 |
M955 | 14412 | 30703 | 8903 | … | 30817 | 15479 | 32786 | 19877.48 |
M956 | 31144 | 7555 | 29194 | … | 26434 | 19075 | 12720 | 19766.87 |
M957 | 26304 | 23628 | 30608 | … | 22087 | 24794 | 7439 | 20005.65 |
M958 | 19017 | 18507 | 25980 | … | 9512 | 14052 | 25224 | 19926.28 |
M959 | 17959 | 8792 | 20553 | … | 31503 | 33448 | 13638 | 20201.61 |
M960 | 13754 | 20035 | 14894 | … | 22283 | 14261 | 31565 | 19635.05 |
M961 | 12375 | 13638 | 19011 | … | 11878 | 32954 | 7578 | 19951.53 |
M962 | 19802 | 29979 | 23798 | … | 15982 | 16426 | 21859 | 20183.62 |
M963 | 16060 | 6271 | 32048 | … | 9454 | 21047 | 27313 | 19461.99 |
M964 | 10114 | 9481 | 11146 | … | 30972 | 22371 | 20141 | 19364.60 |
M965 | 5848 | 30658 | 10361 | … | 23626 | 26556 | 14019 | 20029.63 |
M966 | 11039 | 10041 | 34241 | … | 9485 | 29071 | 30710 | 19622.83 |
M967 | 13751 | 12064 | 11552 | … | 25143 | 25575 | 31031 | 20005.85 |
M968 | 19161 | 25143 | 7617 | … | 12961 | 29054 | 7617 | 19348.55 |
M969 | 29187 | 17922 | 33125 | … | 26648 | 8703 | 9512 | 19407.35 |
M970 | 30491 | 25980 | 11878 | … | 31511 | 23368 | 14271 | 19841.40 |
M971 | 30510 | 28583 | 19901 | … | 6735 | 25978 | 9210 | 19381.28 |
M972 | 9231 | 23687 | 6269 | … | 13991 | 24794 | 34805 | 19678.36 |
M973 | 13638 | 9869 | 27822 | … | 28111 | 28841 | 5204 | 20229.85 |
M974 | 30054 | 23798 | 10030 | … | 25143 | 10845 | 7377 | 19519.65 |
M975 | 30872 | 30269 | 31059 | … | 14589 | 6482 | 9231 | 19915.06 |
M976 | 32514 | 5447 | 12008 | … | 13991 | 21040 | 10812 | 19573.20 |
M977 | 22488 | 29531 | 20124 | … | 10900 | 6269 | 25393 | 20110.75 |
M978 | 5447 | 22053 | 27997 | … | 10038 | 26065 | 25736 | 19586.69 |
M979 | 12375 | 21598 | 8899 | … | 21335 | 13815 | 6296 | 19716.98 |
M980 | 25621 | 31477 | 6735 | … | 8899 | 24178 | 14052 | 19772.21 |
M981 | 17667 | 31523 | 14920 | … | 32116 | 21817 | 27313 | 19876.43 |
M982 | 19771 | 9233 | 19063 | … | 21817 | 11552 | 13960 | 20042.42 |
M983 | 19775 | 19017 | 20107 | … | 13048 | 7113 | 27332 | 19699.62 |
M984 | 8703 | 11255 | 18188 | … | 31503 | 29054 | 13060 | 19417.86 |
M985 | 17882 | 27657 | 28532 | … | 30148 | 29054 | 13648 | 19462.67 |
M986 | 15411 | 27997 | 13368 | … | 6764 | 33807 | 25224 | 19593.85 |
M987 | 22997 | 14485 | 22819 | … | 13425 | 6701 | 11074 | 19540.94 |
M988 | 30372 | 12375 | 7614 | … | 6607 | 6607 | 6735 | 20034.35 |
M989 | 13896 | 26625 | 18317 | … | 28730 | 10282 | 16153 | 19974.64 |
M990 | 19161 | 23217 | 14616 | … | 22819 | 21811 | 15411 | 19315.32 |
M991 | 25781 | 14516 | 25482 | … | 8268 | 6154 | 31406 | 20066.80 |
M992 | 14362 | 14789 | 29502 | … | 13839 | 32435 | 26890 | 20334.87 |
M993 | 23687 | 17035 | 14485 | … | 20035 | 27885 | 14616 | 19855.21 |
M994 | 9917 | 28850 | 23255 | … | 13937 | 12972 | 23354 | 19888.37 |
M995 | 5583 | 29101 | 30608 | … | 34852 | 23342 | 23626 | 19776.92 |
M996 | 15568 | 25362 | 14339 | … | 31031 | 8903 | 15363 | 19621.75 |
M997 | 32143 | 31988 | 8703 | … | 27313 | 21811 | 27925 | 19980.98 |
M998 | 26648 | 9925 | 14589 | … | 32143 | 34180 | 28850 | 19687.87 |
M999 | 30872 | 14052 | 20553 | … | 8862 | 21335 | 13048 | 19887.57 |
M1000 | 21108 | 34849 | 29126 | … | 13396 | 24179 | 5921 | 19654.69 |
media.todas.muestras <- round(mean(tabla$medias.muestrales),2)
paste("La media de todas las ", q2, " muestras "," es de: ", media.todas.muestras)
## [1] "La media de todas las 1000 muestras es de: 19763.1"
# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "blue") +
labs(title = "Población",
subtitle = paste("ME=", media.p),
caption = "Fuente propia") +
geom_vline(xintercept = media.m, col='red') +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g1 <- g1 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(tabla, aes(x = medias.muestrales)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "green") +
geom_vline(xintercept = media.todas.muestras, col='red') +
labs(title = "Distribución muestral de la media MIL",
subtitle = paste("Media =", media.todas.muestras),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g2 <- g2 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=6),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)
Se observa que la media de todas las muestras se acerca a la media de la población así mismo, la distribución muestral de la media es una distribución que se parece a distribución normal con gráfica de gauss o campana.
Entre mas muestras haya, la dispersión de los datos disminuye y entre más muestras se determinen, el valor de la media de todas las muestras se acerca al valor de la media poblacional.
¿Cuál es el valor de la media muestral de 10000 mil muestras de 100 datos cada una?: 19761.13
¿Cuál es el error muestral de la media de todas las muestras con respeto a la media aritmética de población. -0.12
¿Cómo se observa la gráfica de campana?
Aquí la solución replicando el código modificando valores en variables…
q3 = 10000
muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:q3) {
muestras[[i]] <- sample(x = poblacion$sueldo, size = q3, replace = TRUE)
m.muestras[i] <- mean(muestras[[i]])
}
sueldos <- data.frame(muestras)
sueldos <- t(sueldos)
colnames(sueldos) <- paste0("sueldo",1:q3)
rownames(sueldos) <- paste0("M",1:q3)
tabla <- data.frame(sueldos[,1:3], "..."="...", sueldos[,(q3-2):q3], medias.muestrales = m.muestras)
media.todas.muestras <- round(mean(m.muestras),2)
paste("La media de todas las ", q3, " muestras "," es de: ", media.todas.muestras)
## [1] "La media de todas las 10000 muestras es de: 19761.13"
Histograma de medias muestrales de la muestra con DIEZ MIL observaciones
# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "blue") +
labs(title = "Población",
subtitle = paste("ME=", media.p),
caption = "Fuente propia") +
geom_vline(xintercept = media.m, col='red') +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g1 <- g1 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(tabla, aes(x = medias.muestrales)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "green") +
geom_vline(xintercept = media.todas.muestras, col='red') +
labs(title = "Distribución muestral de la media DIEZ MIL",
subtitle = paste("Media =", media.todas.muestras),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g2 <- g2 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=6),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)