Determinar el error de muestreo.
Se simula población y muestra de sueldo de trabajadores de una Institución educativa.
Se crean datos relacionados con la población y se determinan los parámetros descriptivos.
Se crean datos relacionados con muestra y se determinas los estadísticos descriptivos.
Se determina el error muestral de la media y de las desviaciones.
Se visualiza el histograma y la densidad de los ejercicios.
Las muestras se emplean para determinar características de la población. Por ejemplo, con la media de una muestra se calcula la media de la población; no obstante, como la muestra forma parte o es una porción representativa de la población, es poco probable que su media sea exactamente igual a la de la población. Asimismo, es poco factible que la desviación estándar de la muestra sea exactamente igual a la de la población; por lo tanto, se puede esperar una diferencia entre un estadístico de la muestra y el parámetro de la población correspondiente; la cual recibe el nombre de error de muestreo.
ERROR DE MUESTREO es la diferencia entre el estadístico de una muestra y el parámetro de la población correspondiente.
Por otra parte, se puede decir es la diferencia entre un valor poblacional (parámetro) y el estimado (estadístico), derivado de una muestra probabilística, que es debido al hecho de que sólo se observa una muestra de los valores, tan diferentes como una selección imperfecta, sesgos en las respuestas o su estimación, errores de observación y registro, entre otras cosas.
library(cowplot)
library(ggplot2)
Para que no aparezca notación científica
options(scipen=999)
set.seed(2022)
N <- 650 # Cantidad de datos de población
rango <- 5000:35000 # Rango
n = 100 # Cantidad de datos de muestra
Se simula una población de trabajadores por medio de la creación de un vector con valores que contienen sueldos mensuales en pesos mexicanos de una población de 650 trabajadores que laboran en una Institución educativa. El rango está entre $5000 y $35000 pesos mensuales.
\[ poblacion = \text{ {x | x es un trabajador de una Institución educativa; }} \therefore \\ x_1, x_2, x_3, ... ,x_{N=650} \]
poblacion <- data.frame(x = 1:N, sueldo=sample(x = rango, size = N, replace = TRUE))
head(poblacion, 30)
## x sueldo
## 1 1 25707
## 2 2 14650
## 3 3 12885
## 4 4 7870
## 5 5 17106
## 6 6 13899
## 7 7 9869
## 8 8 7750
## 9 9 29269
## 10 10 21859
## 11 11 5122
## 12 12 15472
## 13 13 14485
## 14 14 6271
## 15 15 12174
## 16 16 13028
## 17 17 22905
## 18 18 5950
## 19 19 11255
## 20 20 27997
## 21 21 27468
## 22 22 9608
## 23 23 32954
## 24 24 13991
## 25 25 15688
## 26 26 33513
## 27 27 7425
## 28 28 22931
## 29 29 14019
## 30 30 21811
tail(poblacion, 30)
## x sueldo
## 621 621 21598
## 622 622 5848
## 623 623 28266
## 624 624 20362
## 625 625 32060
## 626 626 14052
## 627 627 11039
## 628 628 7206
## 629 629 11462
## 630 630 12276
## 631 631 13060
## 632 632 14444
## 633 633 30898
## 634 634 14548
## 635 635 30608
## 636 636 26851
## 637 637 31879
## 638 638 13169
## 639 639 26272
## 640 640 34849
## 641 641 34827
## 642 642 34180
## 643 643 22406
## 644 644 27628
## 645 645 5447
## 646 646 29187
## 647 647 14894
## 648 648 18892
## 649 649 22053
## 650 650 31477
summary(poblacion$sueldo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5120 12346 19069 19761 27705 34852
minimo.p <- min(poblacion$sueldo)
maximo.p <- max(poblacion$sueldo)
media.p <- round(mean(poblacion$sueldo),2)
desv.p <- round(sd(poblacion$sueldo),2)
El trabajador DE LA POBLACION menos gana tiene un sueldo de 5120, el que más gana recibe 34852, con una desviación estándar de 8706.34 y una media aritmética de 19761.25.
Se determina una muestra de 100 trabajadores sin reemplazo que significa que no se puede repetir el trabajador el el valor de \(x\).
\[ muestra = \text{ {x | x es un trabajador de la población; }} \therefore \\ x_1, x_2, x_3, ... ,x_{n=100} \]
La variables xs como parte de la muestra puede ser cualquier trabajador de la población que representa a la población.
xs <- sample(x = 1:n, size = n, replace = FALSE)
muestra <- poblacion[xs,]
head(muestra, 30)
## x sueldo
## 39 39 33947
## 36 36 24978
## 62 62 8899
## 58 58 8072
## 54 54 24808
## 13 13 14485
## 71 71 8703
## 97 97 25393
## 11 11 5122
## 70 70 23377
## 25 25 15688
## 61 61 25980
## 5 5 17106
## 17 17 22905
## 4 4 7870
## 100 100 30703
## 52 52 13425
## 35 35 8268
## 87 87 15583
## 85 85 25210
## 99 99 18590
## 3 3 12885
## 63 63 26809
## 72 72 9512
## 23 23 32954
## 40 40 14789
## 45 45 13385
## 64 64 32048
## 81 81 31091
## 95 95 18317
tail(muestra, 20)
## x sueldo
## 76 76 30817
## 60 60 24474
## 98 98 9854
## 1 1 25707
## 94 94 34805
## 73 73 9087
## 21 21 27468
## 34 34 27677
## 86 86 19017
## 92 92 14412
## 26 26 33513
## 48 48 17780
## 41 41 6607
## 82 82 9996
## 67 67 28539
## 89 89 31059
## 8 8 7750
## 53 53 10030
## 79 79 20678
## 96 96 27304
summary(muestra)
## x sueldo
## Min. : 1.00 Min. : 5122
## 1st Qu.: 25.75 1st Qu.:12029
## Median : 50.50 Median :18804
## Mean : 50.50 Mean :19477
## 3rd Qu.: 75.25 3rd Qu.:27520
## Max. :100.00 Max. :34805
summary(muestra$sueldo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5122 12029 18804 19477 27520 34805
minimo.m <- min(muestra$sueldo)
maximo.m <- max(muestra$sueldo)
media.m <- round(mean(muestra$sueldo),2)
desv.m <- round(sd(muestra$sueldo),2)
El trabajador DE LA MUESTRA menos gana tiene un sueldo de 5122, el que más gana recibe 34805, con una desviación estándar de 8630.16 y una media aritmética de 19477.18.
El error muestral aparece porque los valores estadísticos de la muestra son diferentes (cercanos pero diferentes) con respecto a los valores de los parámetros de la población.
media.p; media.m
## [1] 19761.25
## [1] 19477.18
desv.p; desv.m
## [1] 8706.34
## [1] 8630.16
dif.media <- media.p - media.m
dif.desv <- desv.p - desv.m
paste("El error muestral con respecto a la media es de: ", dif.media)
## [1] "El error muestral con respecto a la media es de: 284.07"
paste("El error muestral con respecto a la desviación es de: ", round(dif.desv),4)
## [1] "El error muestral con respecto a la desviación es de: 76 4"
# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "blue") +
labs(title = "Población",
subtitle = paste("ME=", media.p, "; ds=", desv.p, "; Err muest. media=",dif.media),
caption = "Fuente propia") +
geom_vline(xintercept = media.m, col='red') +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g1 <- g1 + theme(
plot.title = element_text(color = "black", size = 12, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(muestra, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "green") +
geom_vline(xintercept = media.m, col='red') +
labs(title = "Muestra",
subtitle = paste("me=", media.m, "; ds.=", desv.m, "; Err. muestral de sd.=",dif.desv),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g2 <- g2 + theme(
plot.title = element_text(color = "black", size = 12, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)
Se observa que no son distribuciones normales, ni los datos de población ni los datos de la muestra se comportan como distribución normal.
Se simula una población de datos normales de un variable que contiene edades en jóvenes. Se genera una población de 650 personas y la variable aleatoria es continua con media igual a 24 y desviación estándar de 3.
N <- 650
poblacion <- round(rnorm(n = N, mean = 24, sd = 3), 0)
poblacion
## [1] 24 27 17 17 21 25 25 26 28 20 21 21 22 22 20 26 25 25 30 19 23 19 24 22 24
## [26] 22 25 25 21 22 25 22 20 19 22 21 27 26 23 20 26 30 23 23 27 25 25 23 21 24
## [51] 26 25 25 26 26 22 23 20 22 25 25 24 25 26 26 23 25 30 19 22 18 27 22 25 32
## [76] 22 22 27 26 17 20 23 27 25 22 20 23 20 25 24 25 20 27 27 26 22 22 21 22 19
## [101] 24 24 27 25 19 18 24 27 20 19 17 22 34 23 26 26 22 23 24 25 21 19 27 25 24
## [126] 25 21 30 23 24 25 21 24 22 23 31 23 23 22 25 25 25 23 26 20 24 22 23 22 23
## [151] 22 26 22 23 25 24 21 23 17 27 27 24 25 21 20 25 30 25 20 21 25 23 28 25 25
## [176] 27 28 26 23 28 26 24 26 24 26 23 25 25 21 27 26 27 25 19 19 24 22 25 26 24
## [201] 25 22 22 22 19 23 25 28 25 29 22 19 25 24 29 26 25 24 22 26 29 23 22 25 27
## [226] 32 19 22 26 21 21 18 20 26 24 21 24 24 21 23 26 26 23 24 25 29 24 21 23 26
## [251] 28 21 25 21 27 24 23 25 24 21 27 22 25 26 21 20 25 23 27 29 22 24 26 23 21
## [276] 25 21 25 25 24 23 20 23 28 23 25 26 21 22 28 20 20 22 24 27 23 24 26 22 25
## [301] 23 19 31 31 27 26 23 24 28 22 25 23 25 22 27 20 23 25 20 29 24 26 23 27 22
## [326] 24 23 19 24 28 24 26 29 26 25 27 24 24 19 24 25 24 26 22 26 17 22 25 23 22
## [351] 24 24 22 25 28 25 25 20 20 20 23 23 23 19 27 28 23 26 21 29 23 23 25 31 25
## [376] 25 27 22 19 22 20 26 25 26 25 26 22 19 22 23 26 23 26 21 24 23 23 23 25 20
## [401] 25 26 26 29 25 23 26 24 27 26 29 22 19 20 21 24 26 24 19 24 28 23 27 25 24
## [426] 31 22 31 24 23 23 24 21 26 23 29 25 18 24 26 24 26 31 24 28 27 24 23 22 27
## [451] 25 26 24 23 24 21 27 26 23 22 28 20 25 24 22 23 30 20 28 25 22 28 26 23 28
## [476] 24 32 21 23 26 24 23 27 22 27 25 27 20 26 27 21 22 24 23 26 20 26 25 28 22
## [501] 21 25 25 22 24 21 25 28 29 24 24 28 23 24 27 19 27 24 24 23 20 28 21 24 29
## [526] 20 20 25 23 23 24 24 23 18 22 26 21 29 24 29 25 29 23 24 26 22 27 25 20 27
## [551] 21 29 21 26 24 21 19 26 22 19 22 26 21 29 23 25 23 32 21 26 18 27 23 23 25
## [576] 23 27 21 26 21 21 26 27 20 22 28 20 23 26 22 28 23 25 28 22 22 22 22 22 25
## [601] 24 23 23 25 18 24 26 18 28 23 29 27 21 19 26 23 18 29 21 28 25 25 25 22 23
## [626] 24 26 20 21 18 23 20 22 26 18 20 22 28 24 19 19 23 23 25 25 22 24 20 25 24
summary(poblacion)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.00 22.00 24.00 23.89 26.00 34.00
Se obtiene el parámetro de la media poblacional
media.p <- round(mean(poblacion), 2)
media.p
## [1] 23.89
Se obtiene el parámetro de la desviación estándar de la población
desv.std.p <- round(sd(poblacion), 2)
desv.std.p
## [1] 2.9
Determinar tres muestras llamadas m1, m2 y m3 cada una con el 20% de la población.
Se siembra una semilla para generar las mismas muestras cada vez que se construye el archivo markdown.
porcentaje = 0.20
n <- round(N * porcentaje)
m1 <- sample(x = poblacion, size = n, replace = FALSE)
m2 <- sample(x = poblacion, size = n, replace = FALSE)
m3 <- sample(x = poblacion, size = n, replace = FALSE)
Se visualizan las muestras
m1; m2; m3
## [1] 23 20 23 22 24 26 22 27 25 25 25 24 30 22 27 22 21 19 20 24 23 32 24 21 23
## [26] 19 26 25 25 24 25 26 22 24 26 24 22 25 25 27 28 23 20 28 23 29 21 18 26 23
## [51] 20 23 24 24 23 19 25 28 24 21 23 25 21 25 29 25 31 25 20 21 19 23 24 25 23
## [76] 21 20 21 22 24 17 23 31 19 25 22 22 25 23 25 24 26 22 22 23 21 24 22 25 21
## [101] 20 24 29 26 27 24 22 23 21 25 27 26 27 18 25 28 26 27 24 20 25 24 23 31 22
## [126] 25 26 24 21 22
## [1] 21 20 27 20 22 23 24 19 32 25 24 20 21 25 21 23 20 20 26 24 24 23 20 25 23
## [26] 26 26 22 28 28 25 27 19 17 23 28 24 22 21 23 24 22 24 22 25 25 23 18 24 25
## [51] 26 22 23 26 19 26 20 23 24 23 20 29 27 26 20 22 22 24 26 22 21 22 28 31 22
## [76] 21 24 22 25 24 22 26 27 23 24 30 25 23 29 23 28 21 25 22 26 24 23 23 23 25
## [101] 26 22 24 21 25 27 24 18 28 23 25 22 25 21 23 26 26 18 26 23 23 21 20 22 23
## [126] 19 26 24 24 23
## [1] 24 21 23 24 25 22 22 25 21 34 27 24 22 25 24 27 21 25 26 24 20 22 28 29 28
## [26] 20 23 23 23 23 23 27 22 22 24 27 26 23 24 22 24 26 24 26 24 29 20 23 29 19
## [51] 21 17 25 24 27 21 26 23 23 23 23 26 21 17 26 25 29 23 22 24 26 26 26 31 18
## [76] 19 29 26 19 19 29 24 24 26 28 26 24 25 23 21 21 26 21 24 28 24 25 23 23 23
## [101] 24 24 24 22 24 26 18 23 24 17 19 25 25 25 26 19 22 26 19 26 22 26 25 25 25
## [126] 20 25 23 22 30
media.m1 <- round(mean(m1), 2)
media.m2 <- round(mean(m2), 2)
media.m3 <- round(mean(m3), 2)
media.m1; media.m2; media.m3
## [1] 23.77
## [1] 23.56
## [1] 23.87
desv.std.m1 <- round(sd(m1), 2)
desv.std.m2 <- round(sd(m2), 2)
desv.std.m3 <- round(sd(m3), 2)
desv.std.m1; desv.std.m2; desv.std.m3
## [1] 2.87
## [1] 2.76
## [1] 2.97
error.m1 <- round(media.p - media.m1, 2)
error.m2 <- round(media.p - media.m2, 2)
error.m3 <- round(media.p - media.m3, 2)
error.m1; error.m2; error.m3
## [1] 0.12
## [1] 0.33
## [1] 0.02
error.dsm1 <- round(desv.std.p - desv.std.m1, 4)
error.dsm2 <- round(desv.std.p - desv.std.m2, 4)
error.dsm3 <- round(desv.std.p - desv.std.m3, 4)
error.dsm1; error.dsm2; error.dsm3
## [1] 0.03
## [1] 0.14
## [1] -0.07
Se visualiza el histograma de la población y de las tres muestras en dos reglones y dos columnas.
Se transforma data.frame() los valores de la población y de las muestras para facilitar la visualización de datos con ggplot() con variable llamada edades.
poblacion <- data.frame(edades = poblacion)
muestra1 <- data.frame(edades = m1)
muestra2 <- data.frame(edades = m2)
muestra3 <- data.frame(edades = m3)
# Histograma con densidad. Población
gp <- ggplot(poblacion, aes(x = edades)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "blue", bins = 30) +
labs(title = "Población",
subtitle = paste("ME=", media.p, "; ds=", desv.std.p),
caption = "Fuente propia") +
geom_vline(xintercept = media.p, col='red') +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
gp <- gp + theme(
plot.title = element_text(color = "black", size = 12, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
# Muestra 1
gm1 <- ggplot(muestra1, aes(x = edades)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "green", bins = 30) +
geom_vline(xintercept = media.m1, col='red') +
labs(title = "Muestra 1",
subtitle = paste("me=", media.m1, "; ds.=", desv.std.m1, "; Err. muestral de media.=",error.m1),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
gm1 <- gm1 + theme(
plot.title = element_text(color = "black", size = 12, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
# Muestra 2
gm2 <- ggplot(muestra2, aes(x = edades)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "brown", bins = 30) +
geom_vline(xintercept = media.m2, col='red') +
labs(title = "Muestra 2",
subtitle = paste("me=", media.m2, "; ds.=", desv.std.m2, "; Err. muestral de media.=",error.m2),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
gm2 <- gm2 + theme(
plot.title = element_text(color = "black", size = 12, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
# Muestra 3
gm3 <- ggplot(muestra3, aes(x = edades)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "orange", bins = 30) +
geom_vline(xintercept = media.m3, col='red') +
labs(title = "Muestra 3",
subtitle = paste("me=", media.m3, "; ds.=", desv.std.m3, "; Err. muestral de media.=",error.m3),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
gm3 <- gm3 + theme(
plot.title = element_text(color = "black", size = 12, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(gp, gm1, gm2, gm3, nrow = 2, ncol = 2)
Una muestras que es extraída de distribuciones que no so del tipo normal es decir, no pertenecen a una distribución normal (gráfica de gauss), la muestra también no tienen características de ser distribución normal.
Las muestras que son extraídas de distribuciones normales su comportamiento es ser una distribución normal o por lo menos se acerca mucho a ser distribución normal.
El error de muestreo es la diferencia que existe entre los valores de parámetros y estadísticos.
La diferencia que existe entre las medias aritméticas de una población (parámetro) con respecto al valor de la media aritmética (estadísticos) se le conoce como error muestral de la media. En el ejemplo de las edades de los estudiantes, los errores muestrales de las medias aritméticas con respecto a la población fueron: 0.12, 0.02, 0.02.
La diferencia que existe entre las desviaciones estándar de una población (parámetro) con respecto al valor de la desviación estándar (estadísticos) se le conoce como error muestral de la desviación. En el ejemplo de las edades de los estudiantes, los errores muestrales de las desviaciones con respecto a la población fueron: 0.03, 0.14, -0.07.
En los distintos errores de muestreo que nos encontramos en el caso, podemos descifrar que cada uno de estos es aquel error que aparece porque los valores estadísticos de la muestra son diferentes, de igual manera, estos pueden ser cercanos, pero diferentes. Con respecto a los valores de los distintos parámetros de la población y del ejercicio en el que nos encontramos.