Objetivo

Determinar el error de muestreo.

Descripción

Se simula población y muestra de sueldo de trabajadores de una Institución educativa.

Se crean datos relacionados con la población y se determinan los parámetros descriptivos.

Se crean datos relacionados con muestra y se determinas los estadísticos descriptivos.

Se determina el error muestral de la media y de las desviaciones.

Marco de referencia

Las muestras se emplean para determinar características de la población. Por ejemplo, con la media de una muestra se calcula la media de la población; no obstante, como la muestra forma parte o es una porción representativa de la población, es poco probable que su media sea exactamente igual a la de la población. Asimismo, es poco factible que la desviación estándar de la muestra sea exactamente igual a la de la población; por lo tanto, se puede esperar una diferencia entre un estadístico de la muestra y el parámetro de la población correspondiente; la cual recibe el nombre de error de muestreo [@lind2015].

ERROR DE MUESTREO es la diferencia entre el estadístico de una muestra y el parámetro de la población correspondiente [@lind2015].

Desarrollo

Configuraciones iniciales

Librerías

library(cowplot)
library(ggplot2)

Notación normal

Para que no aparezca notación científica

options(scipen=999)

Semilla

set.seed(2021)

Variables iniciales

N <- 650 # Cantidad de datos de pobación
rango <- 5000:35000 # Rango 
n = 100  # Cantidad de datos de muestra

Crear datos

Se simula una población de trabajadores por medio de la creación de un vector con valores que contienen sueldos mensuales en pesos mexicanos de una población de 650 trabajadores que laboran en una Institución educativa. El rango está entre $5000 y $35000 pesos mensuales.

Población

\[ poblacion = \text{ {x | x es un trabajador de una Institución educativa; }} \therefore \\ x_1, x_2, x_3, ... ,x_{N=6500} \]

poblacion <- data.frame(x = 1:N, sueldo=sample(x = rango, size =  N, replace = TRUE))

Primeros treinta observaciones de Población

head(poblacion, 30)
##     x sueldo
## 1   1  34574
## 2   2  23597
## 3   3  18741
## 4   4  30017
## 5   5  13934
## 6   6  18195
## 7   7  14203
## 8   8  22477
## 9   9  25671
## 10 10   6786
## 11 11  27117
## 12 12  11765
## 13 13   9420
## 14 14  25974
## 15 15  21486
## 16 16   5360
## 17 17  29086
## 18 18   7994
## 19 19  14147
## 20 20  34841
## 21 21  30722
## 22 22  22595
## 23 23   9732
## 24 24  32010
## 25 25  33461
## 26 26  29935
## 27 27  34209
## 28 28  25643
## 29 29   7148
## 30 30  34013

Últimos treinta observaciones de Población

tail(poblacion, 30)
##       x sueldo
## 621 621  13663
## 622 622  14956
## 623 623   9229
## 624 624   6845
## 625 625  33487
## 626 626  28823
## 627 627   6200
## 628 628   6599
## 629 629   8829
## 630 630  18001
## 631 631  22922
## 632 632   7512
## 633 633  10271
## 634 634  28728
## 635 635  19138
## 636 636  10268
## 637 637  29760
## 638 638  26310
## 639 639  25586
## 640 640  31534
## 641 641  11724
## 642 642  17153
## 643 643  29583
## 644 644  29534
## 645 645  29805
## 646 646  12690
## 647 647   5076
## 648 648  10719
## 649 649  33265
## 650 650  29357

Parámetros poblacionales

summary(poblacion$sueldo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5052   11837   18752   19671   27605   34969
minimo.p <- min(poblacion$sueldo)
maximo.p <- max(poblacion$sueldo)
media.p <- round(mean(poblacion$sueldo),2)
desv.p <- round(sd(poblacion$sueldo),2)

El trabajador DE LA POBLACION menos gana tiene un sueldo de 5052, el que más gana recibe 34969, con una desviación estándar de 8921.12 y una media aritmética de 19671.45.

Muestra

Se determina una muestra de 100 trabajadores sin reemplazo que significa que no se puede repetir el trabajador el el valor de \(x\). \[ muestra = \text{ {x | x es un trabajador de la población; }} \therefore \\ x_1, x_2, x_3, ... ,x_{n=100} \]

La variables xs como parte de la muestra puede ser cualquier trabajador de la población que representa a la población.

xs <- sample(x = 1:n, size =  n, replace = FALSE)
muestra <- poblacion[xs,]

Primeros treinta

head(muestra, 30)
##     x sueldo
## 87 87  20339
## 1   1  34574
## 88 88  31081
## 51 51   9769
## 12 12  11765
## 67 67   8138
## 11 11  27117
## 78 78  15634
## 77 77  31778
## 4   4  30017
## 16 16   5360
## 70 70  11503
## 20 20  34841
## 79 79  28920
## 38 38  34316
## 15 15  21486
## 99 99  28339
## 96 96  30125
## 48 48  26189
## 17 17  29086
## 23 23   9732
## 41 41  32941
## 61 61  30956
## 57 57  22264
## 47 47   8413
## 29 29   7148
## 55 55  29975
## 56 56  28886
## 33 33   8425
## 59 59   6552

Últimos treinta

tail(muestra, 20)
##     x sueldo
## 76 76   8036
## 22 22  22595
## 80 80  19243
## 85 85  33178
## 7   7  14203
## 26 26  29935
## 43 43  13874
## 9   9  25671
## 25 25  33461
## 39 39  16336
## 97 97   6143
## 83 83  19033
## 10 10   6786
## 21 21  30722
## 62 62  27675
## 50 50  15318
## 3   3  18741
## 71 71  33665
## 18 18   7994
## 28 28  25643

Descripción de los datos

summary(muestra)
##        x              sueldo     
##  Min.   :  1.00   Min.   : 5360  
##  1st Qu.: 25.75   1st Qu.:12406  
##  Median : 50.50   Median :21616  
##  Mean   : 50.50   Mean   :21003  
##  3rd Qu.: 75.25   3rd Qu.:29986  
##  Max.   :100.00   Max.   :34969

Estadísticos muestrales

summary(muestra$sueldo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5360   12406   21616   21003   29986   34969
minimo.m <- min(muestra$sueldo)
maximo.m <- max(muestra$sueldo)
media.m <- round(mean(muestra$sueldo),2)
desv.m <- round(sd(muestra$sueldo),2)

El trabajador DE LA MUESTRA menos gana tiene un sueldo de 5360, el que más gana recibe 34969, con una desviación estándar de 9552.46 y una media aritmética de 21002.77.

Error muestral

El error muestral se da porque los valores estadísticos de la muestra son diferentes (cercanos pero diferentes) con respecto a los valores de los parámetros de la población.

media.p; media.m
## [1] 19671.45
## [1] 21002.77
desv.p; desv.m
## [1] 8921.12
## [1] 9552.46

Diferencias muestrales

dif.media <- media.p - media.m
dif.desv <- desv.p - desv.m
paste("El error muestral con respecto a la media es de: ", dif.media)
## [1] "El error muestral con respecto a la media es de:  -1331.32"
paste("El error muestral con respecto a la desviación es de: ", dif.desv)
## [1] "El error muestral con respecto a la desviación es de:  -631.339999999998"

Histograma de población y muestra

# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "blue") +
  labs(title = "Población",
      subtitle = paste("ME=", media.p, "; ds=", desv.p,  "; Err muestral media=",dif.media),
              caption = "Fuente propia") +  
  
  geom_vline(xintercept = media.m, col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g1 <- g1 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(muestra, aes(x = sueldo)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "green") +
    geom_vline(xintercept = media.m, col='red') +
  labs(title = "Muestra",
      subtitle = paste("me=", media.m, "; ds.=", desv.m,  "; Err. muestral de Desv.Std.=",dif.desv),
              caption = "Fuente propia") +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g2 <- g2 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)

Se observa que no son distribuciones normales, ni los datos de población ni los datos de la muestra se comportan como distribución normal.

Interpretación

Pendiente …

Bibliografía