1 Objetivo

Determinar la distribución muestral de la media.

2 Descripción

Se simula población con sueldos de trabajadores de una Institución educativa. La distribución de esta población no es normal es decir, no tiene características de ser distribución normal.

Se crean datos relacionados con la población y se determinan los parámetros descriptivos.

Se crean 100 y 1000 muestras diferentes con n elementos diferentes relacionados con la población y se determinan la media aritmética de cada muestra.

Se determina la distribución muestral de la media de las cien muestras y se identifica que la distribución se acera a una distribución normal además de que la media de la distribución muestral se acerca a la media de la población.

3 Marco de referencia

Si se organizan las medias de todas las muestras posibles (por decir cien y mil) en una distribución de probabilidad, el resultado recibe el nombre de distribución muestral de la media.

DISTRIBUCIÓN MUESTRAL DE LA MEDIA es la distribución de probabilidad de todas las posibles medias de las muestras de un determinado tamaño muestral de la población. [@lind2015].

4 Desarrollo

4.1 Configuraciones iniciales

4.1.1 Librerías

library(cowplot)
library(ggplot2)
library(knitr)

4.1.2 Notación normal

Para que no aparezca notación científica

options(scipen=999)

4.1.3 Semilla

set.seed(2022)

4.1.4 Variables iniciales

N <- 650 # Cantidad de datos de población
rango <- 5000:35000 # Rango de sueldos
n = 100  # Cantidad de datos de cada muestra
q1 = 100  # Cantidad de muestras m1, m2, m3
q2 = 1000  # Cantidad de muestras m1, m2, m3

4.2 Crear datos

Se simula una población de trabajadores por medio de la creación de un vector con valores que contienen sueldos mensuales en pesos mexicanos de una población de \(N=650\) trabajadores que laboran en una Institución educativa. El rango del sueldo de manera simulada está entre $5000 y $35000 pesos ($) mensuales.

4.2.1 Población

\[ poblacion = \text{ {x | x es un trabajador de una Institución educativa; }} \therefore \\ x_1, x_2, x_3, ... ,x_{N=6500} \]

poblacion <- data.frame(x = 1:N, sueldo=sample(x = rango, size =  N, replace = TRUE))

4.2.2 Primeros treinta observaciones de Población

head(poblacion$sueldo, 30)
##  [1] 25707 14650 12885  7870 17106 13899  9869  7750 29269 21859  5122 15472
## [13] 14485  6271 12174 13028 22905  5950 11255 27997 27468  9608 32954 13991
## [25] 15688 33513  7425 22931 14019 21811

4.2.3 Últimos treinta observaciones de Población

tail(poblacion$sueldo, 30)
##  [1] 21598  5848 28266 20362 32060 14052 11039  7206 11462 12276 13060 14444
## [13] 30898 14548 30608 26851 31879 13169 26272 34849 34827 34180 22406 27628
## [25]  5447 29187 14894 18892 22053 31477

4.2.4 Parámetros poblacionales

summary(poblacion$sueldo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5120   12346   19069   19761   27705   34852
media.p <- round(mean(poblacion$sueldo),2)
desv.p <- round(sd(poblacion$sueldo),2)
media.p; desv.p
## [1] 19761.25
## [1] 8706.34

Se tiene una media aritmética poblacional de 19761.25 con una desviación estándar de 8706.34.

\[ \mu = \frac{\sum{sueldo_x}}{N} = 19761.25 \]

4.3 Muestra

Se determina una primera muestra de 100 trabajadores sin reemplazo que significa que no se puede repetir el trabajador el valor de \(x\).

\[ muestra = \text{ {x | x es un trabajador de la población; }} \therefore \\ x_1, x_2, x_3, ... ,x_{n=100} \]

La variables xs como parte de la muestra puede ser cualquier trabajador de la población que representa a la población.

xs <- sample(x = 1:N, size =  n, replace = FALSE)
muestra <- poblacion[xs,]

4.3.1 Estadísticos muestrales

summary(muestra$sueldo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5204   13043   18871   20141   28334   34852
media.m <- round(mean(muestra$sueldo),2)
desv.m <- round(sd(muestra$sueldo),2)
media.m; desv.m
## [1] 20140.97
## [1] 8855.34

Se tiene una media aritmética de la primera muestra de 20140.97 con una desviación estándar de 8706.34. \[ \bar{x_1} = \frac{\sum{sueldo_x}}{n} = 20140.97 \]

4.4 Error muestral

El error muestral es porque los estadísticos no son valores numéricos igual que los parámetros de la población, siempre existirá una diferencia.

paste("Media aritméica poblacional", media.p, ";", "media muestral", media.m)
## [1] "Media aritméica poblacional 19761.25 ; media muestral 20140.97"
paste("Desviación estándar poblacional", desv.p, ";","desviación muestral", desv.m)
## [1] "Desviación estándar poblacional 8706.34 ; desviación muestral 8855.34"

Se determina el error muestral del estadístico media de la muestra con respecto al parámetro de la media poblacional

dif.media <- media.p - media.m
paste("El error muestral con respecto a la media aritmética es de: ", round(dif.media, 2))
## [1] "El error muestral con respecto a la media aritmética es de:  -379.72"

\[ \text{Error muestral =} (\mu - \bar{x}) = (19761.25 - 20140.97) =-379.72 \]

4.5 Histograma de población y muestra

# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "blue") +
  labs(title = "Población",
      subtitle = paste("ME=", media.p, "; ds=", desv.p,  "; Err muestral media=",dif.media),
              caption = "Fuente propia") +  
  
  geom_vline(xintercept = media.m, col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g1 <- g1 + theme(
  plot.title = element_text(color = "black", size = 10, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(muestra, aes(x = sueldo)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "green") +
    geom_vline(xintercept = media.m, col='red') +
  labs(title = "Muestra",
      subtitle = paste("me=", media.m, "; ds.=", desv.m),
              caption = "Fuente propia") +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g2 <- g2 + theme(
  plot.title = element_text(color = "black", size = 10, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)

Se observa que no es una distribuciones normal, ni los datos de población ni los datos de la muestra se comportan como distribución normal.

4.6 Distribución muestral de la media 100 muestras.

Se determinan cien (100) muestras de 100 elementos cada una, luego se organizan las medias de todas las muestras en una distribución de probabilidad, el resultado recibe el nombre de distribución muestral de la media [@lind2015].

muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:q1) {
    muestras[[i]] <- sample(x = poblacion$sueldo, size = q1, replace = FALSE)
    
  m.muestras[i] <- mean(muestras[[i]])
}

4.6.1 Distribución de las muestras 100

Se construye una tabla de distribución de todos los sueldos de cada muestra, solo se muestran los tres primeros y los últimos tres en la columna final se observa la media de cada muestra.

La función t() transforma registros a columnas de un data.frame.

sueldos <- data.frame(muestras)
sueldos <- t(sueldos)
colnames(sueldos) <- paste0("sueldo",1:q1)
rownames(sueldos) <- paste0("M",1:q1)
tabla <- data.frame(sueldos[,1:3], "..."="...", sueldos[,(q1-2):q1], medias.muestrales = m.muestras)
kable(tabla, caption = "Tabla de medias aritméticas de cien muestras de cien sueldos cada una")
Tabla de medias aritméticas de cien muestras de cien sueldos cada una
sueldo1 sueldo2 sueldo3 sueldo98 sueldo99 sueldo100 medias.muestrales
M1 15788 21859 32713 10812 21811 32786 20736.06
M2 9075 22283 30372 14054 24182 29707 20639.82
M3 12097 24474 13137 29531 23992 25633 19996.53
M4 30979 13425 11904 10543 9325 19321 20633.99
M5 26272 12961 33947 26851 26304 27046 18681.45
M6 5848 23490 31265 12244 33188 15040 19109.22
M7 8204 29190 19049 10594 20566 29531 20468.30
M8 16060 19321 12885 30738 9414 13396 19828.73
M9 32639 12720 21859 10548 26065 26545 19830.11
M10 11385 15411 5862 15147 27566 14740 18944.63
M11 17959 22158 17046 27332 26648 9925 19746.89
M12 30608 14548 24582 21040 5978 30269 19870.17
M13 21598 5120 34372 19703 24182 21028 20645.61
M14 27368 30817 29126 30612 21214 5735 20957.24
M15 34155 28951 24182 23961 30705 29941 21667.95
M16 30817 19903 15506 15688 14632 29190 17482.29
M17 30705 5461 16929 28086 25022 26890 19208.38
M18 24794 14019 8218 16026 32770 7397 18347.65
M19 32085 31265 14008 24808 16438 32855 20682.27
M20 13396 19771 5122 30510 17656 14339 20125.20
M21 21040 30690 19901 15788 31518 14740 20737.61
M22 21584 27284 23490 13396 9781 28882 18237.47
M23 26648 33377 7697 27304 28730 6764 20240.44
M24 6210 21811 15837 14485 7750 14052 18496.68
M25 13960 24030 9481 5606 14362 14789 20458.39
M26 26576 32143 28255 30269 9233 14920 20726.29
M27 19376 13521 14322 19901 11760 26851 18830.83
M28 15479 6296 32134 5204 16836 20119 19379.19
M29 21335 6955 9854 19703 30710 17667 19353.12
M30 8513 28882 34453 20553 13960 31565 21039.95
M31 28263 11642 27657 16153 16823 28471 19611.47
M32 30054 13937 5848 10361 29642 10922 20298.66
M33 32060 14261 26632 22902 30361 31565 20583.66
M34 7429 30738 34241 13396 15184 29194 20676.34
M35 13028 30612 24474 12337 20362 22902 19540.91
M36 8204 31737 30148 31518 30705 6701 19947.62
M37 27677 21859 21302 12946 29539 14362 19431.05
M38 26556 32639 10543 27382 11348 18188 19811.23
M39 32713 6376 30979 27566 13246 13583 18502.11
M40 17656 32026 16780 6577 10345 18550 19389.62
M41 11074 12946 22406 15998 19198 17981 19102.56
M42 6602 10282 17667 15583 17959 30363 19992.70
M43 6794 20020 20870 9233 13583 8204 18382.83
M44 26251 23466 18590 32302 12961 21353 19774.39
M45 23626 10361 20553 32885 20963 13048 20706.49
M46 33813 28471 20566 8149 29269 31901 19546.44
M47 29822 13815 28266 30690 12318 11146 19250.42
M48 10361 21859 23626 15769 27566 14261 18468.96
M49 12375 18773 6154 23490 14966 5974 19491.52
M50 21353 33416 31265 32143 19376 13815 19490.71
M51 29502 14322 33448 10038 11552 7870 19512.78
M52 30872 13368 13896 25160 31031 13048 18866.18
M53 30491 32855 25580 9869 6973 17922 20113.63
M54 33377 5264 31652 21368 11462 15688 18909.46
M55 10199 31523 27970 26272 8268 28627 18193.86
M56 26851 6735 31135 9869 12064 33513 18875.31
M57 5941 24808 11039 8862 17221 16017 19622.10
M58 11074 5461 5974 19376 17882 33188 19137.89
M59 21598 16426 14436 14054 30363 30710 19948.76
M60 13521 19063 30054 6764 19075 8513 20520.33
M61 24991 30979 20020 29880 14054 8184 20703.26
M62 19075 12972 7425 20678 8218 27970 19740.58
M63 27284 5122 8801 29814 16592 13815 19488.40
M64 6210 23254 13815 31988 25143 19063 18671.46
M65 13070 19049 12375 19063 11332 27368 20533.80
M66 30054 13028 7154 24618 9414 20362 19701.35
M67 22931 7614 31476 9969 29814 25903 19074.74
M68 34050 28111 5264 29054 30054 34852 19360.43
M69 11504 7555 16836 30768 20970 25022 19175.43
M70 27046 8903 13978 21312 13991 32713 18854.49
M71 9233 5614 13293 5735 29642 5974 18809.82
M72 13293 20141 30491 17780 28353 9075 20693.37
M73 5122 21047 17656 10041 12318 20553 18839.38
M74 9054 31135 30363 27341 34050 6973 18413.02
M75 13839 30802 18507 12276 13542 15769 18724.59
M76 10139 12946 23254 12318 13070 22371 20734.33
M77 18290 30898 23255 5874 34241 9917 18736.71
M78 17656 15688 6701 14688 22902 30510 19452.58
M79 10199 22778 31996 25160 19771 14062 19034.93
M80 18971 20678 14548 9414 25633 26625 19208.05
M81 12318 13815 27238 16060 13648 14650 19605.06
M82 27312 6210 18445 12064 19017 27313 19171.32
M83 10030 13060 26071 27925 13521 30898 19515.63
M84 25978 34050 9854 8513 22819 7333 20098.99
M85 31630 18590 7377 11533 7697 21302 18847.77
M86 14615 22405 34241 28951 6973 11146 20459.58
M87 20553 31059 12720 29054 25903 23217 19832.79
M88 13709 15449 19161 9231 19142 5447 19877.13
M89 14444 19802 16426 22952 14589 27046 19756.34
M90 14789 13899 22931 29126 8204 25224 20019.58
M91 14322 21811 28353 6794 12318 14553 20209.78
M92 31031 13513 13368 6577 10548 15449 19885.71
M93 28353 11595 17882 31059 5614 18559 20993.02
M94 20119 6271 23342 23368 20035 20107 19280.53
M95 28730 14008 20119 9521 18249 8231 18011.64
M96 27566 20727 6296 32060 28951 26071 20086.76
M97 30065 30269 5974 26071 33188 26648 19101.39
M98 29157 8862 31901 9917 21214 25621 19251.26
M99 31578 13815 30972 6154 22902 22931 19801.28
M100 13060 30491 12318 23687 15688 29642 20588.40

4.6.2 Media de todas las muestras 100

media.todas.muestras <- round(mean(tabla$medias.muestrales),4)
paste("La media de todas las muestras es de: ", media.todas.muestras)
## [1] "La media de todas las muestras es de:  19631.4713"

4.6.3 Histograma de medias muestrales CIEN

# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "blue") +
  labs(title = "Población",
      subtitle = paste("ME = ", media.p),
              caption = "Fuente propia") +  
  
  geom_vline(xintercept = media.m, col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g1 <- g1 + theme(
  plot.title = element_text(color = "black", size = 10, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(tabla, aes(x = medias.muestrales)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "green") +
    geom_vline(xintercept = media.todas.muestras, col='red') +
  labs(title = "Distribución muestral de la media CIEN",
      subtitle = paste("Media =", media.todas.muestras),
              caption = "Fuente propia") +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g2 <- g2 + theme(
  plot.title = element_text(color = "black", size = 10, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)

Se observa la diferencia de forma de las distribuciones poblacional y muestral de medias.

También existe una diferencia en el rango de las medias de la población con respecto a la media de todas las muestras. El rango del sueldo de la población es 5120, 34852, mientras que las medias muestrales de la población con respecto al sueldo varían de 17482.29, 21667.95.

En cuanto a la diferencias de las desviaciones estándar de la población y de las muestras:

sd(poblacion$sueldo)
## [1] 8706.343
sd(tabla$medias.muestrales)
## [1] 803.2327

Se reduce su rango o lo que es lo mismo la desviación disminuye de 8706.3431836 en la población a 803.2327057 en las medias muestrales.

4.7 Distribución muestral de la media 1000 muestras.

¿Que pasará con mil muestras?

Se repite el proceso, ahora en lugar de ser cien ahora serán mil muestras.

Se determinan mil (1000) muestras de 100 elementos cada una, luego se organizan las medias de todas las muestras en una distribución de probabilidad, el resultado recibe el nombre de distribución muestral de la media [@lind2015].

muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:q2) {
    muestras[[i]] <- sample(x = poblacion$sueldo, size = q2, replace = TRUE)
    
  m.muestras[i] <- mean(muestras[[i]])
}

4.7.1 Distribución de las muestras 1000

Se construye una tabla de distribución de todos los sueldos de cada muestra, solo se muestran los tres primeros y los últimos tres en la columna final se observa la media de cada muestra.

Como son mil muestras solo se muestran las primeras cincuenta y las últimas cincuenta.

sueldos <- data.frame(muestras)
sueldos <- t(sueldos)
colnames(sueldos) <- paste0("sueldo",1:q2)
rownames(sueldos) <- paste0("M",1:q2)
tabla <- data.frame(sueldos[,1:3], "..."="...", sueldos[,(q2-2):q2], medias.muestrales = m.muestras)

4.7.1.1 Primeras cincuenta

kable(head(tabla,50), caption = paste("Tabla de medias aritméticas de ",q2," muestras de cien sueldos cada una"))
Tabla de medias aritméticas de 1000 muestras de cien sueldos cada una
sueldo1 sueldo2 sueldo3 sueldo998 sueldo999 sueldo1000 medias.muestrales
M1 27368 5978 11732 6376 32060 21353 19735.60
M2 28255 22931 22735 31516 5122 6594 19461.26
M3 30054 19198 31265 20107 11332 9231 19925.22
M4 5190 15363 9414 9781 24262 10114 19787.03
M5 17959 26648 15213 24182 22931 14615 19699.13
M6 28550 34805 13960 14052 25707 27925 19818.80
M7 32435 31091 29187 17780 27822 14920 19629.92
M8 10139 8030 34372 9969 32116 11434 19948.42
M9 31503 13978 27238 32143 31701 33364 19717.43
M10 34805 27332 27332 14276 13583 8184 19731.35
M11 11146 26632 6607 22819 27468 29054 19952.71
M12 30690 33513 11904 12008 8703 23490 19596.00
M13 23750 16864 31476 34372 8801 17106 19764.49
M14 34241 21598 9485 18216 31996 16836 19415.40
M15 17780 32060 10812 24518 26556 19011 20064.70
M16 20035 29190 26576 15506 22905 16592 19725.03
M17 14650 16780 32134 8801 34852 28353 19555.64
M18 13648 15411 13638 34484 17656 15363 19860.12
M19 30705 14684 17698 21214 11379 30069 19838.46
M20 14362 23466 19017 29642 30817 11162 19674.36
M21 18337 26809 30898 12276 19771 10543 19884.02
M22 11405 13839 23466 29071 11878 32942 20065.61
M23 20727 8096 17309 10480 13028 29814 19915.11
M24 15472 18216 12276 9210 22952 13583 20070.22
M25 24262 9481 32713 18249 33377 23342 19576.29
M26 7716 12972 32786 19903 13521 22905 19823.25
M27 18507 13368 13521 29194 7439 10667 19311.69
M28 9231 30054 13896 32770 29822 13797 19686.54
M29 23628 10922 32143 13673 9087 7277 19884.90
M30 18550 30269 13513 14485 21122 23315 19581.58
M31 22952 10030 31511 7113 19775 30148 19795.52
M32 30898 30510 29066 26809 32085 22405 20124.76
M33 32925 29941 6482 12318 25736 14008 19751.09
M34 24991 18290 18773 28850 27877 14650 19556.91
M35 19321 8184 7333 29126 32885 27629 19698.03
M36 27822 28102 19075 27628 13137 17922 19398.05
M37 8513 28328 17882 30690 31630 29126 19594.75
M38 7555 10545 19903 11950 19049 29979 19682.20
M39 21302 14516 31565 8903 30070 33878 19491.74
M40 7697 28850 29642 30529 27822 8268 19981.12
M41 34553 21302 30082 24179 5120 27304 20292.71
M42 15184 34154 22158 18507 7429 22902 19488.39
M43 15363 8096 9917 23255 19075 29187 19516.32
M44 7377 14544 20553 8801 19142 29194 19817.44
M45 6482 14553 34135 8268 5978 13060 20077.39
M46 19468 31630 28263 34838 6154 31652 20098.04
M47 27312 11255 11405 28627 34155 15040 19880.35
M48 16198 6119 13396 32336 18317 29979 19753.59
M49 14616 5735 11140 6780 5204 12913 19514.80
M50 9925 13991 32336 31996 13960 21122 19566.39

4.7.1.2 Últimas cincuenta

kable(tail(tabla,50), caption = paste("Tabla de medias aritméticas de ",q2," muestras de cien sueldos cada una"))
Tabla de medias aritméticas de 1000 muestras de cien sueldos cada una
sueldo1 sueldo2 sueldo3 sueldo998 sueldo999 sueldo1000 medias.muestrales
M951 5122 33416 16198 10114 21598 12720 19587.42
M952 8149 18971 26732 15769 13521 9325 19849.75
M953 20124 11379 16737 22931 21817 34050 19547.66
M954 17981 33947 30768 21122 13048 19468 19995.34
M955 14412 30703 8903 30817 15479 32786 19877.48
M956 31144 7555 29194 26434 19075 12720 19766.87
M957 26304 23628 30608 22087 24794 7439 20005.65
M958 19017 18507 25980 9512 14052 25224 19926.28
M959 17959 8792 20553 31503 33448 13638 20201.61
M960 13754 20035 14894 22283 14261 31565 19635.05
M961 12375 13638 19011 11878 32954 7578 19951.53
M962 19802 29979 23798 15982 16426 21859 20183.62
M963 16060 6271 32048 9454 21047 27313 19461.99
M964 10114 9481 11146 30972 22371 20141 19364.60
M965 5848 30658 10361 23626 26556 14019 20029.63
M966 11039 10041 34241 9485 29071 30710 19622.83
M967 13751 12064 11552 25143 25575 31031 20005.85
M968 19161 25143 7617 12961 29054 7617 19348.55
M969 29187 17922 33125 26648 8703 9512 19407.35
M970 30491 25980 11878 31511 23368 14271 19841.40
M971 30510 28583 19901 6735 25978 9210 19381.28
M972 9231 23687 6269 13991 24794 34805 19678.36
M973 13638 9869 27822 28111 28841 5204 20229.85
M974 30054 23798 10030 25143 10845 7377 19519.65
M975 30872 30269 31059 14589 6482 9231 19915.06
M976 32514 5447 12008 13991 21040 10812 19573.20
M977 22488 29531 20124 10900 6269 25393 20110.75
M978 5447 22053 27997 10038 26065 25736 19586.69
M979 12375 21598 8899 21335 13815 6296 19716.98
M980 25621 31477 6735 8899 24178 14052 19772.21
M981 17667 31523 14920 32116 21817 27313 19876.43
M982 19771 9233 19063 21817 11552 13960 20042.42
M983 19775 19017 20107 13048 7113 27332 19699.62
M984 8703 11255 18188 31503 29054 13060 19417.86
M985 17882 27657 28532 30148 29054 13648 19462.67
M986 15411 27997 13368 6764 33807 25224 19593.85
M987 22997 14485 22819 13425 6701 11074 19540.94
M988 30372 12375 7614 6607 6607 6735 20034.35
M989 13896 26625 18317 28730 10282 16153 19974.64
M990 19161 23217 14616 22819 21811 15411 19315.32
M991 25781 14516 25482 8268 6154 31406 20066.80
M992 14362 14789 29502 13839 32435 26890 20334.87
M993 23687 17035 14485 20035 27885 14616 19855.21
M994 9917 28850 23255 13937 12972 23354 19888.37
M995 5583 29101 30608 34852 23342 23626 19776.92
M996 15568 25362 14339 31031 8903 15363 19621.75
M997 32143 31988 8703 27313 21811 27925 19980.98
M998 26648 9925 14589 32143 34180 28850 19687.87
M999 30872 14052 20553 8862 21335 13048 19887.57
M1000 21108 34849 29126 13396 24179 5921 19654.69

4.7.2 Media de todas las muestras 1000

media.todas.muestras <- round(mean(tabla$medias.muestrales),2)
paste("La media de todas las ", q2, " muestras "," es de: ", media.todas.muestras)
## [1] "La media de todas las  1000  muestras   es de:  19763.1"

4.7.3 Histograma de medias muestrales MIL

# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "blue") +
  labs(title = "Población",
      subtitle = paste("ME=", media.p),
              caption = "Fuente propia") +  
  
  geom_vline(xintercept = media.m, col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g1 <- g1 + theme(
  plot.title = element_text(color = "black", size = 10, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(tabla, aes(x = medias.muestrales)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "green") +
    geom_vline(xintercept = media.todas.muestras, col='red') +
  labs(title = "Distribución muestral de la media MIL",
      subtitle = paste("Media =", media.todas.muestras),
              caption = "Fuente propia") +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g2 <- g2 + theme(
  plot.title = element_text(color = "black", size = 10, face = "bold"),
  plot.subtitle = element_text(color = "black",size=6),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)

Se observa que la media de todas las muestras se acerca a la media de la población así mismo, la distribución muestral de la media es una distribución que se parece a distribución normal con gráfica de gauss o campana.

Entre mas muestras haya, la dispersión de los datos disminuye y entre más muestras se determinen, el valor de la media de todas las muestras se acerca al valor de la media poblacional.

5 Interpretación

¿Cuál es el valor de la media muestral de 10000 mil muestras de 100 datos cada una?: 19761.13

¿Cuál es el error muestral de la media de todas las muestras con respeto a la media aritmética de población. -0.12

¿Cómo se observa la gráfica de campana?

Aquí la solución replicando el código modificando valores en variables…

q3 = 10000
muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:q3) {
    muestras[[i]] <- sample(x = poblacion$sueldo, size = q3, replace = TRUE)
    
  m.muestras[i] <- mean(muestras[[i]])
}
sueldos <- data.frame(muestras)
sueldos <- t(sueldos)
colnames(sueldos) <- paste0("sueldo",1:q3)
rownames(sueldos) <- paste0("M",1:q3)
tabla <- data.frame(sueldos[,1:3], "..."="...", sueldos[,(q3-2):q3], medias.muestrales = m.muestras)
media.todas.muestras <- round(mean(m.muestras),2)
paste("La media de todas las ", q3, " muestras "," es de: ", media.todas.muestras)
## [1] "La media de todas las  10000  muestras   es de:  19761.13"

Histograma de medias muestrales de la muestra con DIEZ MIL observaciones

# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "blue") +
  labs(title = "Población",
      subtitle = paste("ME=", media.p),
              caption = "Fuente propia") +  
  
  geom_vline(xintercept = media.m, col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g1 <- g1 + theme(
  plot.title = element_text(color = "black", size = 10, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(tabla, aes(x = medias.muestrales)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "green") +
    geom_vline(xintercept = media.todas.muestras, col='red') +
  labs(title = "Distribución muestral de la media DIEZ MIL",
      subtitle = paste("Media =", media.todas.muestras),
              caption = "Fuente propia") +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g2 <- g2 + theme(
  plot.title = element_text(color = "black", size = 10, face = "bold"),
  plot.subtitle = element_text(color = "black",size=6),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)