Determinar el error de muestreo.
Se simula población y muestra de sueldo de trabajadores de una Institución educativa.
Se crean datos relacionados con la población y se determinan los parámetros descriptivos.
Se crean datos relacionados con muestra y se determinas los estadísticos descriptivos.
Se determina el error muestral de la media y de las desviaciones.
Las muestras se emplean para determinar características de la población. Por ejemplo, con la media de una muestra se calcula la media de la población; no obstante, como la muestra forma parte o es una porción representativa de la población, es poco probable que su media sea exactamente igual a la de la población. Asimismo, es poco factible que la desviación estándar de la muestra sea exactamente igual a la de la población; por lo tanto, se puede esperar una diferencia entre un estadístico de la muestra y el parámetro de la población correspondiente; la cual recibe el nombre de error de muestreo [@lind2015].
ERROR DE MUESTREO es la diferencia entre el estadístico de una muestra y el parámetro de la población correspondiente [@lind2015].
library(cowplot)
library(ggplot2)
Para que no aparezca notación científica
options(scipen=999)
set.seed(2021)
N <- 650 # Cantidad de datos de pobación
rango <- 5000:35000 # Rango
n = 100 # Cantidad de datos de muestra
Se simula una población de trabajadores por medio de la creación de un vector con valores que contienen sueldos mensuales en pesos mexicanos de una población de 650 trabajadores que laboran en una Institución educativa. El rango está entre $5000 y $35000 pesos mensuales.
\[ poblacion = \text{ {x | x es un trabajador de una Institución educativa; }} \therefore \\ x_1, x_2, x_3, ... ,x_{N=6500} \]
poblacion <- data.frame(x = 1:N, sueldo=sample(x = rango, size = N, replace = TRUE))
head(poblacion, 30)
## x sueldo
## 1 1 34574
## 2 2 23597
## 3 3 18741
## 4 4 30017
## 5 5 13934
## 6 6 18195
## 7 7 14203
## 8 8 22477
## 9 9 25671
## 10 10 6786
## 11 11 27117
## 12 12 11765
## 13 13 9420
## 14 14 25974
## 15 15 21486
## 16 16 5360
## 17 17 29086
## 18 18 7994
## 19 19 14147
## 20 20 34841
## 21 21 30722
## 22 22 22595
## 23 23 9732
## 24 24 32010
## 25 25 33461
## 26 26 29935
## 27 27 34209
## 28 28 25643
## 29 29 7148
## 30 30 34013
tail(poblacion, 30)
## x sueldo
## 621 621 13663
## 622 622 14956
## 623 623 9229
## 624 624 6845
## 625 625 33487
## 626 626 28823
## 627 627 6200
## 628 628 6599
## 629 629 8829
## 630 630 18001
## 631 631 22922
## 632 632 7512
## 633 633 10271
## 634 634 28728
## 635 635 19138
## 636 636 10268
## 637 637 29760
## 638 638 26310
## 639 639 25586
## 640 640 31534
## 641 641 11724
## 642 642 17153
## 643 643 29583
## 644 644 29534
## 645 645 29805
## 646 646 12690
## 647 647 5076
## 648 648 10719
## 649 649 33265
## 650 650 29357
summary(poblacion$sueldo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5052 11837 18752 19671 27605 34969
minimo.p <- min(poblacion$sueldo)
maximo.p <- max(poblacion$sueldo)
media.p <- round(mean(poblacion$sueldo),2)
desv.p <- round(sd(poblacion$sueldo),2)
El trabajador DE LA POBLACION menos gana tiene un sueldo de 5052, el que más gana recibe 34969, con una desviación estándar de 8921.12 y una media aritmética de 19671.45.
Se determina una muestra de 100 trabajadores sin reemplazo que significa que no se puede repetir el trabajador el el valor de \(x\). \[ muestra = \text{ {x | x es un trabajador de la población; }} \therefore \\ x_1, x_2, x_3, ... ,x_{n=100} \]
La variables xs como parte de la muestra puede ser cualquier trabajador de la población que representa a la población.
xs <- sample(x = 1:n, size = n, replace = FALSE)
muestra <- poblacion[xs,]
head(muestra, 30)
## x sueldo
## 87 87 20339
## 1 1 34574
## 88 88 31081
## 51 51 9769
## 12 12 11765
## 67 67 8138
## 11 11 27117
## 78 78 15634
## 77 77 31778
## 4 4 30017
## 16 16 5360
## 70 70 11503
## 20 20 34841
## 79 79 28920
## 38 38 34316
## 15 15 21486
## 99 99 28339
## 96 96 30125
## 48 48 26189
## 17 17 29086
## 23 23 9732
## 41 41 32941
## 61 61 30956
## 57 57 22264
## 47 47 8413
## 29 29 7148
## 55 55 29975
## 56 56 28886
## 33 33 8425
## 59 59 6552
tail(muestra, 20)
## x sueldo
## 76 76 8036
## 22 22 22595
## 80 80 19243
## 85 85 33178
## 7 7 14203
## 26 26 29935
## 43 43 13874
## 9 9 25671
## 25 25 33461
## 39 39 16336
## 97 97 6143
## 83 83 19033
## 10 10 6786
## 21 21 30722
## 62 62 27675
## 50 50 15318
## 3 3 18741
## 71 71 33665
## 18 18 7994
## 28 28 25643
summary(muestra)
## x sueldo
## Min. : 1.00 Min. : 5360
## 1st Qu.: 25.75 1st Qu.:12406
## Median : 50.50 Median :21616
## Mean : 50.50 Mean :21003
## 3rd Qu.: 75.25 3rd Qu.:29986
## Max. :100.00 Max. :34969
summary(muestra$sueldo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5360 12406 21616 21003 29986 34969
minimo.m <- min(muestra$sueldo)
maximo.m <- max(muestra$sueldo)
media.m <- round(mean(muestra$sueldo),2)
desv.m <- round(sd(muestra$sueldo),2)
El trabajador DE LA MUESTRA menos gana tiene un sueldo de 5360, el que más gana recibe 34969, con una desviación estándar de 9552.46 y una media aritmética de 21002.77.
El error muestral se da porque los valores estadísticos de la muestra son diferentes (cercanos pero diferentes) con respecto a los valores de los parámetros de la población.
media.p; media.m
## [1] 19671.45
## [1] 21002.77
desv.p; desv.m
## [1] 8921.12
## [1] 9552.46
dif.media <- media.p - media.m
dif.desv <- desv.p - desv.m
paste("El error muestral con respecto a la media es de: ", dif.media)
## [1] "El error muestral con respecto a la media es de: -1331.32"
paste("El error muestral con respecto a la desviación es de: ", dif.desv)
## [1] "El error muestral con respecto a la desviación es de: -631.339999999998"
# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "blue") +
labs(title = "Población",
subtitle = paste("ME=", media.p, "; ds=", desv.p, "; Err muestral media=",dif.media),
caption = "Fuente propia") +
geom_vline(xintercept = media.m, col='red') +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g1 <- g1 + theme(
plot.title = element_text(color = "black", size = 12, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(muestra, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "green") +
geom_vline(xintercept = media.m, col='red') +
labs(title = "Muestra",
subtitle = paste("me=", media.m, "; ds.=", desv.m, "; Err. muestral de Desv.Std.=",dif.desv),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g2 <- g2 + theme(
plot.title = element_text(color = "black", size = 12, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)
Se observa que no son distribuciones normales, ni los datos de población ni los datos de la muestra se comportan como distribución normal.
Pendiente …