1 Objetivo

Determinar el error de muestreo.

2 Descripción

Se simula población y muestra de sueldo de trabajadores de una Institución educativa.

Se crean datos relacionados con la población y se determinan los parámetros descriptivos.

Se crean datos relacionados con muestra y se determinas los estadísticos descriptivos.

Se determina el error muestral de la media y de las desviaciones.

Se visualiza el histograma y la densidad de los ejercicios.

3 Marco de referencia

Las muestras se emplean para determinar características de la población. Por ejemplo, con la media de una muestra se calcula la media de la población; no obstante, como la muestra forma parte o es una porción representativa de la población, es poco probable que su media sea exactamente igual a la de la población. Asimismo, es poco factible que la desviación estándar de la muestra sea exactamente igual a la de la población; por lo tanto, se puede esperar una diferencia entre un estadístico de la muestra y el parámetro de la población correspondiente; la cual recibe el nombre de error de muestreo [@lind2015].

ERROR DE MUESTREO es la diferencia entre el estadístico de una muestra y el parámetro de la población correspondiente [@lind2015].

Por otra parte, se puede decir es la diferencia entre un valor poblacional (parámetro) y el estimado (estadístico), derivado de una muestra probabilística, que es debido al hecho de que sólo se observa una muestra de los valores, tan diferentes como una selección imperfecta, sesgos en las respuestas o su estimación, errores de observación y registro, entre otras cosas.

4 Desarrollo

4.1 Configuraciones iniciales

4.1.1 Librerías

library(cowplot)
library(ggplot2)

4.1.2 Notación normal

Para que no aparezca notación científica

options(scipen=999)

4.1.3 Semilla

set.seed(1183)

4.1.4 Variables iniciales

N <- 650 # Cantidad de datos de población
rango <- 5000:35000 # Rango 
n = 100  # Cantidad de datos de muestra

4.2 Crear datos

Se simula una población de trabajadores por medio de la creación de un vector con valores que contienen sueldos mensuales en pesos mexicanos de una población de 650 trabajadores que laboran en una Institución educativa. El rango está entre $5000 y $35000 pesos mensuales.

4.2.1 Población

\[ poblacion = \text{ {x | x es un trabajador de una Institución educativa; }} \therefore \\ x_1, x_2, x_3, ... ,x_{N=650} \]

poblacion <- data.frame(x = 1:N, sueldo=sample(x = rango, size =  N, replace = TRUE))

4.2.2 Primeros treinta observaciones de Población

head(poblacion, 30)
##     x sueldo
## 1   1   5770
## 2   2  14891
## 3   3  29690
## 4   4  28278
## 5   5  22068
## 6   6  34474
## 7   7  16854
## 8   8  16568
## 9   9   6091
## 10 10  24362
## 11 11  32297
## 12 12  24301
## 13 13  21909
## 14 14  28898
## 15 15  30571
## 16 16  28507
## 17 17   8783
## 18 18  23126
## 19 19  15788
## 20 20  21933
## 21 21  24296
## 22 22  30789
## 23 23  31284
## 24 24  11196
## 25 25  18178
## 26 26  19918
## 27 27   8469
## 28 28  32988
## 29 29  16188
## 30 30  11601

4.2.3 Últimos treinta observaciones de Población

tail(poblacion, 30)
##       x sueldo
## 621 621  15579
## 622 622  19313
## 623 623  14846
## 624 624  27478
## 625 625  31769
## 626 626  16922
## 627 627   6084
## 628 628  21345
## 629 629  13797
## 630 630  32616
## 631 631  30394
## 632 632  15985
## 633 633  18246
## 634 634   6818
## 635 635  25872
## 636 636  13470
## 637 637  26759
## 638 638  27838
## 639 639  29716
## 640 640  27389
## 641 641  25992
## 642 642  28941
## 643 643  29021
## 644 644  20057
## 645 645  22570
## 646 646  19916
## 647 647   6482
## 648 648  15314
## 649 649  16165
## 650 650  21513

4.2.4 Parámetros poblacionales

summary(poblacion$sueldo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5096   12334   20277   20138   27647   34858
minimo.p <- min(poblacion$sueldo)
maximo.p <- max(poblacion$sueldo)
media.p <- round(mean(poblacion$sueldo),2)
desv.p <- round(sd(poblacion$sueldo),2)

El trabajador DE LA POBLACION menos gana tiene un sueldo de 5096, el que más gana recibe 34858, con una desviación estándar de 8700.17 y una media aritmética de 20137.65.

4.3 Muestra

Se determina una muestra de 100 trabajadores sin reemplazo que significa que no se puede repetir el trabajador el el valor de \(x\).

\[ muestra = \text{ {x | x es un trabajador de la población; }} \therefore \\ x_1, x_2, x_3, ... ,x_{n=100} \]

La variables xs como parte de la muestra puede ser cualquier trabajador de la población que representa a la población.

xs <- sample(x = 1:n, size =  n, replace = FALSE)
muestra <- poblacion[xs,]

4.3.1 Primeros treinta

head(muestra, 30)
##     x sueldo
## 7   7  16854
## 61 61   6432
## 6   6  34474
## 16 16  28507
## 38 38  11704
## 1   1   5770
## 11 11  32297
## 27 27   8469
## 63 63  22432
## 37 37  11533
## 69 69  32521
## 29 29  16188
## 91 91  34858
## 30 30  11601
## 36 36  26270
## 51 51  32955
## 62 62  23022
## 20 20  21933
## 33 33  33387
## 4   4  28278
## 5   5  22068
## 45 45  23402
## 74 74  34265
## 31 31  10336
## 15 15  30571
## 17 17   8783
## 73 73  34723
## 14 14  28898
## 21 21  24296
## 35 35  16480

4.3.2 Últimos treinta

tail(muestra, 20)
##     x sueldo
## 64 64  30425
## 87 87  18330
## 41 41  26606
## 78 78  27570
## 26 26  19918
## 39 39  18954
## 85 85  21335
## 58 58   6645
## 72 72  11251
## 89 89  20980
## 97 97  24739
## 40 40  13098
## 66 66  25634
## 57 57  26314
## 79 79   7883
## 84 84  20335
## 2   2  14891
## 67 67  14724
## 9   9   6091
## 28 28  32988

4.3.3 Descripción de los datos

summary(muestra)
##        x              sueldo     
##  Min.   :  1.00   Min.   : 5770  
##  1st Qu.: 25.75   1st Qu.:12265  
##  Median : 50.50   Median :20338  
##  Mean   : 50.50   Mean   :20270  
##  3rd Qu.: 75.25   3rd Qu.:27185  
##  Max.   :100.00   Max.   :34858

4.3.4 Estadísticos muestrales

summary(muestra$sueldo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5770   12265   20338   20270   27185   34858
minimo.m <- min(muestra$sueldo)
maximo.m <- max(muestra$sueldo)
media.m <- round(mean(muestra$sueldo),2)
desv.m <- round(sd(muestra$sueldo),2)

El trabajador DE LA MUESTRA menos gana tiene un sueldo de 5770, el que más gana recibe 34858, con una desviación estándar de 8378.79 y una media aritmética de 20269.55.

4.4 Error muestral

El error muestral aparece porque los valores estadísticos de la muestra son diferentes (cercanos pero diferentes) con respecto a los valores de los parámetros de la población.

media.p; media.m
## [1] 20137.65
## [1] 20269.55
desv.p; desv.m
## [1] 8700.17
## [1] 8378.79

4.4.1 Diferencias muestrales

dif.media <- media.p - media.m
dif.desv <- desv.p - desv.m
paste("El error muestral con respecto a la media es de: ", dif.media)
## [1] "El error muestral con respecto a la media es de:  -131.899999999998"
paste("El error muestral con respecto a la desviación es de: ", round(dif.desv),4)
## [1] "El error muestral con respecto a la desviación es de:  321 4"

4.5 Histograma de población y muestra

# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "blue") +
  labs(title = "Población",
      subtitle = paste("ME=", media.p, "; ds=", desv.p,  "; Err muest. media=",dif.media),
              caption = "Fuente propia") +  
  
  geom_vline(xintercept = media.m, col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g1 <- g1 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(muestra, aes(x = sueldo)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "green") +
    geom_vline(xintercept = media.m, col='red') +
  labs(title = "Muestra",
      subtitle = paste("me=", media.m, "; ds.=", desv.m,  "; Err. muestral de sd.=",dif.desv),
              caption = "Fuente propia") +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g2 <- g2 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)

Se observa que no son distribuciones normales, ni los datos de población ni los datos de la muestra se comportan como distribución normal.

4.6 Población normal

Se simula una población de datos normales de un variable que contiene edades en jóvenes. Se genera una población de 650 personas y la variable aleatoria es continua con media igual a 24 y desviación estándar de 3.

N <- 650
poblacion <- round(rnorm(n = N, mean = 24, sd = 3), 0)
poblacion
##   [1] 27 26 21 23 25 24 23 22 21 26 19 23 23 23 21 20 22 26 24 21 23 27 20 22 27
##  [26] 22 21 21 21 25 23 29 25 27 29 29 29 20 22 19 26 24 20 25 23 32 30 23 27 23
##  [51] 23 24 29 23 21 28 30 20 23 22 26 23 21 26 25 27 23 26 22 26 21 22 24 25 25
##  [76] 21 27 23 23 25 27 21 27 26 25 27 18 26 26 20 26 21 25 26 23 24 26 21 30 25
## [101] 20 27 24 19 24 22 24 24 20 24 19 28 27 29 26 24 25 22 18 26 24 19 25 22 18
## [126] 22 18 23 26 19 25 28 24 31 23 26 18 22 23 24 21 24 24 22 23 21 34 26 22 27
## [151] 21 24 25 22 22 24 28 26 22 26 27 28 26 22 19 24 21 18 25 25 23 29 19 28 27
## [176] 22 23 25 29 27 22 22 21 28 28 19 29 22 22 27 20 24 25 24 26 26 29 22 27 22
## [201] 25 28 32 19 25 24 21 21 23 22 23 22 20 23 25 28 25 26 28 23 22 25 22 22 27
## [226] 21 18 25 26 26 22 25 26 23 24 25 26 23 23 20 20 22 28 19 17 23 24 21 17 22
## [251] 28 28 21 30 28 22 26 17 21 23 22 22 28 25 29 23 18 23 24 21 23 24 23 25 25
## [276] 23 28 23 18 23 28 27 24 21 29 27 22 24 22 19 28 25 25 25 22 23 24 25 27 25
## [301] 22 22 23 21 21 30 24 25 25 26 19 27 26 15 15 23 23 24 21 28 25 23 23 25 32
## [326] 24 22 24 25 20 28 22 24 23 24 30 24 24 28 26 19 21 26 23 28 23 20 22 21 22
## [351] 24 25 26 22 27 26 22 23 21 26 23 17 23 28 27 23 21 23 21 19 25 19 24 28 23
## [376] 21 23 26 23 27 30 27 20 25 29 24 25 19 26 20 27 24 27 26 29 19 27 25 27 22
## [401] 25 25 23 27 27 25 25 18 27 27 26 22 23 27 31 28 25 25 30 22 24 28 22 27 22
## [426] 22 21 25 27 25 25 22 24 21 29 27 26 23 21 21 25 22 23 21 22 29 28 26 24 24
## [451] 21 25 26 23 24 22 28 27 31 32 22 28 26 24 28 19 22 19 29 25 31 28 28 18 24
## [476] 18 20 24 25 28 26 20 28 21 26 23 22 25 22 21 22 20 26 27 28 21 27 23 25 23
## [501] 22 23 24 29 24 26 24 19 22 23 20 26 27 26 26 28 24 26 28 27 25 29 27 25 25
## [526] 19 23 25 29 16 28 22 24 21 27 23 22 24 23 21 30 26 26 24 28 27 30 27 22 19
## [551] 23 26 26 29 26 19 23 23 26 23 20 22 25 22 20 23 19 25 20 25 19 24 24 24 26
## [576] 17 30 25 27 28 22 21 21 27 22 25 23 23 28 27 22 22 22 22 23 26 24 27 23 20
## [601] 20 24 32 22 28 27 22 31 21 30 20 16 17 22 22 24 24 20 22 19 20 26 27 26 28
## [626] 24 24 21 26 22 25 25 26 22 25 23 19 23 21 25 22 28 26 18 23 21 24 24 20 32

4.6.1 Parámetros de la población

summary(poblacion)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      15      22      24      24      26      34

4.6.2 Media de la población

Se obtiene el parámetro de la media poblacional

media.p <- round(mean(poblacion), 2)
media.p
## [1] 24

4.6.3 Desviación estándar de la población

Se obtiene el parámetro de la desviación estándar de la población

desv.std.p <- round(sd(poblacion), 2)
desv.std.p
## [1] 3.13

4.7 Muestreo

Determinar tres muestras llamadas m1, m2 y m3 cada una con el 20% de la población.

4.7.1 Semilla

Se siembra una semilla para generar las mismas muestras cada vez que se construye el archivo markdown.

4.7.2 m1; m2 y m3

porcentaje = 0.20
n <- round(N * porcentaje)
m1 <- sample(x = poblacion, size = n, replace = FALSE)
m2 <- sample(x = poblacion, size = n, replace = FALSE)
m3 <- sample(x = poblacion, size = n, replace = FALSE)

Se visualizan las muestras

m1; m2; m3
##   [1] 28 28 25 26 22 25 25 25 22 22 20 22 29 24 28 26 23 21 23 23 21 24 26 27 19
##  [26] 21 23 25 22 23 21 19 25 20 22 26 27 26 27 20 29 23 21 28 24 28 23 34 25 27
##  [51] 24 20 25 22 26 21 23 27 23 30 26 23 23 26 21 22 24 27 23 23 25 25 25 25 25
##  [76] 23 26 26 21 23 27 26 23 29 19 29 23 23 22 25 21 24 23 19 27 24 25 23 22 18
## [101] 23 22 24 22 24 25 28 24 24 22 23 25 24 24 26 22 24 25 23 30 25 20 21 24 18
## [126] 23 19 25 19 27
##   [1] 22 23 19 24 21 26 20 19 24 27 24 24 27 23 24 22 25 29 21 25 19 26 18 23 22
##  [26] 27 23 22 21 22 20 22 25 24 31 25 18 25 23 26 28 27 22 24 29 29 24 29 21 22
##  [51] 26 19 23 28 21 26 24 21 25 23 25 27 20 22 22 24 26 21 28 26 25 24 23 25 22
##  [76] 27 32 26 25 22 25 23 25 22 27 20 26 26 23 28 19 21 28 20 20 23 24 23 27 23
## [101] 27 22 30 19 24 25 26 25 24 25 23 21 25 22 23 24 24 27 22 19 24 24 29 23 19
## [126] 22 26 23 22 23
##   [1] 19 26 20 23 20 24 20 28 23 34 24 27 21 31 20 26 25 17 29 24 26 25 22 28 25
##  [26] 22 22 23 19 23 22 26 25 22 23 16 23 20 23 23 28 28 26 28 25 26 25 23 24 26
##  [51] 23 22 32 21 23 31 18 21 25 26 26 23 25 23 23 17 22 28 27 26 23 28 26 20 22
##  [76] 25 21 22 29 28 23 22 27 23 22 29 23 21 16 25 25 26 27 25 22 21 30 23 20 29
## [101] 32 23 22 29 25 15 23 26 21 23 22 28 22 24 25 22 27 22 26 22 26 29 22 21 24
## [126] 23 25 30 26 19

4.7.3 Medias de las muestras

media.m1 <- round(mean(m1), 2)
media.m2 <- round(mean(m2), 2)
media.m3 <- round(mean(m3), 2)
media.m1; media.m2; media.m3
## [1] 23.95
## [1] 23.84
## [1] 24.05

4.7.4 Desviaciones estándar de las muestras

desv.std.m1 <- round(sd(m1), 2)
desv.std.m2 <- round(sd(m2), 2)
desv.std.m3 <- round(sd(m3), 2)
desv.std.m1; desv.std.m2; desv.std.m3
## [1] 2.77
## [1] 2.84
## [1] 3.43

4.7.5 Errores de muestreo conforme a las medias

error.m1 <- round(media.p - media.m1, 2)
error.m2 <- round(media.p - media.m2, 2)
error.m3 <- round(media.p - media.m3, 2)
error.m1; error.m2; error.m3
## [1] 0.05
## [1] 0.16
## [1] -0.05

4.7.6 Errores de muestreo conforme a las desviaciones estándar

error.dsm1 <- round(desv.std.p - desv.std.m1, 4)
error.dsm2 <- round(desv.std.p - desv.std.m2, 4)
error.dsm3 <- round(desv.std.p - desv.std.m3, 4)
error.dsm1; error.dsm2; error.dsm3
## [1] 0.36
## [1] 0.29
## [1] -0.3

4.7.7 Histogramas de la población y de las muestras

Se visualiza el histograma de la población y de las tres muestras en dos reglones y dos columnas.

4.7.7.1 Convertir los datos de la población y de las muestras a data.frame

Se transforma data.frame() los valores de la población y de las muestras para facilitar la visualización de datos con ggplot() con variable llamada edades.

poblacion <- data.frame(edades = poblacion)
muestra1 <- data.frame(edades = m1)
muestra2 <- data.frame(edades = m2)
muestra3 <- data.frame(edades = m3)
# Histograma con densidad. Población
gp <- ggplot(poblacion, aes(x = edades)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "blue", bins = 30) +
  labs(title = "Población",
      subtitle = paste("ME=", media.p, "; ds=", desv.std.p),
              caption = "Fuente propia") +  
  
  geom_vline(xintercept = media.p, col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
gp <- gp + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
# Muestra 1
gm1 <- ggplot(muestra1, aes(x = edades)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "green", bins = 30) +
    geom_vline(xintercept = media.m1, col='red') +
  labs(title = "Muestra 1",
      subtitle = paste("me=", media.m1, "; ds.=", desv.std.m1,  "; Err. muestral de media.=",error.m1),
              caption = "Fuente propia") +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
gm1 <- gm1 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
# Muestra 2
gm2 <- ggplot(muestra2, aes(x = edades)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "brown", bins = 30) +
    geom_vline(xintercept = media.m2, col='red') +
  labs(title = "Muestra 2",
      subtitle = paste("me=", media.m2, "; ds.=", desv.std.m2,  "; Err. muestral de media.=",error.m2),
              caption = "Fuente propia") +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
gm2 <- gm2 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
# Muestra 3
gm3 <- ggplot(muestra3, aes(x = edades)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "orange", bins = 30) +
    geom_vline(xintercept = media.m3, col='red') +
  labs(title = "Muestra 3",
      subtitle = paste("me=", media.m3, "; ds.=", desv.std.m3,  "; Err. muestral de media.=",error.m3),
              caption = "Fuente propia") +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
gm3 <- gm3 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(gp, gm1, gm2, gm3, nrow = 2, ncol = 2)

5 Interpretación

Las muestras extraídas de distribuciones no normales, es decir, aquellas que no siguen una distribución normal (también conocida como gráfica de Gauss), tampoco exhiben características de una distribución normal.

Por otro lado, las muestras extraídas de distribuciones normales tienden a tener un comportamiento similar a una distribución normal, o al menos se acercan considerablemente a ella.

El error de muestreo se refiere a la discrepancia entre los valores de los parámetros y los estadísticos.

En el caso de la media muestral, el error muestral de la media se define como la diferencia entre la media aritmética de una población (parámetro) y el valor de la media aritmética calculada en la muestra (estadístico). En el ejemplo de las edades de los estudiantes, los errores muestrales de las medias aritméticas con respecto a la población fueron: 0.05, -0.05, -0.05.

Del mismo modo, el error muestral de la desviación se refiere a la discrepancia entre la desviación estándar de una población (parámetro) y el valor de la desviación estándar calculada en la muestra (estadístico). En el ejemplo de las edades de los estudiantes, los errores muestrales de las desviaciones con respecto a la población fueron: 0.36, 0.29, -0.3.

En resumen, las muestras extraídas de distribuciones no normales no siguen una distribución normal, mientras que las muestras extraídas de distribuciones normales tienden a comportarse como una distribución normal. Los errores muestrales de la media y la desviación estándar permiten evaluar las diferencias entre los parámetros de la población y los estadísticos calculados en la muestra.

6 Bibliografía

Lind, Douglas, William Marchal, and Samuel Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.