A continuación se presenta el objetivo general de la práctica:
A continuación, se presenta los objetivos específicos que tiene la siguiente práctica:
Simular La Población Con Sueldos De Trabajadores De Una Institución Educativa.
Crear Los Datos Relacionados Con La Población
Determinar Los Parámetros Descriptivos.
Crear 100 Y 1000 Muestras Diferentes Con N Elementos Diferentes Relacionados Con La Población
Determinan La Media Aritmética De Cada Muestra.
Determinar La Distribución Muestral De La Media De Las Cien Muestras
Identificar La Distribución Se Acera A Una Distribución Normal Además De Que La Media De La Distribución Muestral Se Acerca A La Media De La Población.
Realizar la Interpretación De La Práctica Correspondiente.
Nota - La Distribución De La Población De La Práctica No Es Normal Es Decir, No Tiene Características De Ser Distribución Normal.
La probabilidad y la estadística están relacionadas en una forma importante. La probabilidad se emplea como herramienta; permite que se evalúe la confiabilidad de las conclusiones acerca de la población cuando tenga sólo información muestral.
Por otra parte, la probabilidad indica el grado de certidumbre o certeza de un suceso o fenómeno estudiado, en la investigación científica existen muchos fenómenos en los cuales es necesario determinar la probabilidad de que un evento ocurra o dejen de ocurrir, para lo cual el estudio de este campo, es necesario.
Además tiene aplicaciones muy importantes en investigación; dado que es base para la inferencia estadística que permite el estudio de muestras con el objetivo de inferir o extrapolar características de estas a una población.
La definición propia de una variables estadísticas es la siguiente, de acuerdo con los estipulado por Enciclopedia en su sitio web (2022):
Una variable estadística es una característica de una muestra o población de datos que puede adoptar diferentes valores.
Cuando hablamos de variable estadística estamos hablando de una cualidad que, generalmente adopta forma numérica. Por ejemplo, la altura de Juan es de 180 centímetros. La variable estadística es la altura y está medida en centímetros.
Claro que no todas las variables estadísticas son iguales y, por supuesto, no todas se pueden (en principio) expresar en forma de número.
Aunque hay decenas de tipos de variables estadísticas, por norma general podemos encontrarnos dos tipos de variables:
Variable Cuantitativa: Son variables que se expresan numéricamente.
Variable Continua: Toman un valor infinito de valores entre un intervalo de datos. El tiempo que tarda un corredor en completar los 100 metros lisos.
Variable Discreta: Toman un valor finito de valores entre un intervalo de datos. Número de helados vendidos.
Variable Cualitativa: Son variables que se expresan, por norma general, en palabras.
Variable Ordinal: Expresa diferentes niveles y orden.
Variable Nominal: Expresa un nombre claramente diferenciado. Por ejemplo el color de ojos puede ser azul, negro, castaño, verde, etc.
El muestreo es el proceso mediante el cual se selecciona un grupo de observaciones que pertenecen a una población. Esto, con el fin de realizar un estudio estadístico.
En otras palabras, es el procedimiento mediante el cual se toman a ciertos individuos que pertenecen a una población que está siendo sujeto de un análisis.
Desde un punto de vista aplicado, se denomina muestreo el proceso de selección de la muestra o muestras a utilizar para la investigación. Esto supone generar una o pocas muestras. Actualmente es de interés la selección de muestras para la simulación informática de los procesos de muestreo, particularmente para la obtención de distribuciones muestrales. En estos casos el número de muestras generadas puede ser muy grande (10.000, 80.000, o más) y el procedimiento de muestreo se realiza informáticamente y con procedimientos específicos.
Desde un punto de vista teórico, el concepto de muestreo es fundamental para la Inferencia Estadística. El hecho de que las muestras no sean exactamente representativas de las poblaciones significa que las inferencias presentan cierto margen de incertidumbre. Para cuantificarlo y definir técnicas inferenciales es necesario conocer cómo se comportan los estadísticos obtenidos en las muestras, esto es, cómo son las distribuciones muestrales de los estadísticos habitualmente utilizados para la inferencia.
Las muestras singulares generadas para investigación con sujetos suelen utilizarse para obtener algunos estadísticos (Media, proporción, cuasivarianza, etc.) con los que se realiza el proceso de inferencia. En cambio, las muestras simuladas por ordenador suelen ser utilizadas para obtener distribuciones muestrales y realizar inferencia.
Esto es de interés cuando se dan circunstancias especiales que no aconsejan utilizar los procedimientos habituales.
Las distribuciones muestrales son las distribuciones de estadísticos de muestras que pertenecen a la misma población. Por ejemplo, la distribución muestral de la Media es la distribución de las Medias de muestras de un mismo tamaño extraídas de la misma población.
En los siguientes ejercicios también se utilizan funciones de paquetes predeterminados de lenguaje de R para una mejor comprensión de la distribución binomial.
# Importación De Los Paquetes Y Librerías Necesarias Para La Realización De La Práctica
library(cowplot)
library(ggplot2)
library(knitr)
# Acomodo Del Tipo De Notación Para El Muestro De Los Valores Obtenidos
options(scipen=999) # Notación normal
# options(scipen=1) # Notación científica
# Implementación De La Semilla Aleatoria
set.seed(2023)
Se simula una población de trabajadores por medio de la creación de un vector con valores que contienen sueldos mensuales en pesos mexicanos de una población de \(N=650\) trabajadores que laboran en una Institución educativa. El rango del sueldo de manera simulada está entre $5000 y $35000 pesos ($) mensuales.
# Inicializando Las Variables Para El Caso
N <- 650 # Cantidad de datos de población
rango <- 5000:35000 # Rango de sueldos
n = 100 # Cantidad de datos de cada muestra
q1 = 100 # Cantidad de muestras m1, m2, m3
q2 = 1000 # Cantidad de muestras m1, m2, m3
q3 <- 10000
\[ poblacion = \text{ {x | x es un trabajador de una Institución educativa; }} \therefore \\ x_1, x_2, x_3, ... ,x_{N=6500} \]
poblacion <- data.frame(x = 1:N, sueldo=sample(x = rango, size = N, replace = TRUE))
head(poblacion$sueldo, 30)
## [1] 26967 15670 30960 6991 12922 32929 12723 22249 28744 14756 16824 27396
## [13] 14348 27599 30534 25961 18698 13398 33716 27275 33383 18956 13575 21151
## [25] 12304 22910 11456 21877 15721 19703
tail(poblacion$sueldo, 30)
## [1] 33095 9643 13798 9809 19307 29817 5976 16975 17985 8105 31701 13311
## [13] 23904 28564 25336 24250 30863 29629 34692 18319 21720 12379 32139 34938
## [25] 20862 14527 5825 22779 18248 9288
summary(poblacion$sueldo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5001 12924 19974 20035 27295 34987
media.p <- round(mean(poblacion$sueldo),2)
desv.p <- round(sd(poblacion$sueldo),2)
media.p; desv.p
## [1] 20034.84
## [1] 8476.9
Se tiene una media aritmética poblacional de 20034.84 con una desviación estándar de 8476.9.
\[ \mu = \frac{\sum{sueldo_x}}{N} = 19761.25 \]
Se determina una primera muestra de 100 trabajadores sin reemplazo que significa que no se puede repetir el trabajador el valor de \(x\).
\[ muestra = \text{ {x | x es un trabajador de la población; }} \therefore \\ x_1, x_2, x_3, ... ,x_{n=100} \]
La variables xs como parte de la muestra puede ser cualquier trabajador de la población que representa a la población.
xs <- sample(x = 1:N, size = n, replace = FALSE)
muestra <- poblacion[xs,]
summary(muestra$sueldo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5118 12872 20911 20139 27042 34155
media.m <- round(mean(muestra$sueldo),2)
desv.m <- round(sd(muestra$sueldo),2)
media.m; desv.m
## [1] 20138.73
## [1] 8473.99
Se tiene una media aritmética de la primera muestra de 20138.73 con una desviación estándar de 8476.9. \[ \bar{x_1} = \frac{\sum{sueldo_x}}{n} = 20140.97 \]
El error muestral es porque los estadísticos no son valores numéricos igual que los parámetros de la población, siempre existirá una diferencia.
paste("Media aritméica poblacional", media.p, ";", "media muestral", media.m)
## [1] "Media aritméica poblacional 20034.84 ; media muestral 20138.73"
paste("Desviación estándar poblacional", desv.p, ";","desviación muestral", desv.m)
## [1] "Desviación estándar poblacional 8476.9 ; desviación muestral 8473.99"
Se determina el error muestral del estadístico media de la muestra con respecto al parámetro de la media poblacional
dif.media <- media.p - media.m
paste("El error muestral con respecto a la media aritmética es de: ", round(dif.media, 2))
## [1] "El error muestral con respecto a la media aritmética es de: -103.89"
\[ \text{Error muestral =} (\mu - \bar{x}) = (19761.25 - 20140.97) =-379.72 \] ### * El Histograma De La Población Y De La Muestra
# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "blue") +
labs(title = "Población",
subtitle = paste("ME=", media.p, "; ds=", desv.p, "; Err muestral media=",dif.media),
caption = "Fuente propia") +
geom_vline(xintercept = media.m, col='red') +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g1 <- g1 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(muestra, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "green") +
geom_vline(xintercept = media.m, col='red') +
labs(title = "Muestra",
subtitle = paste("me=", media.m, "; ds.=", desv.m),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g2 <- g2 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)
Se observa que no es una distribuciones normal, ni los datos de población ni los datos de la muestra se comportan como distribución normal.
Se determinan cien (100) muestras de 100 elementos cada una, luego se organizan las medias de todas las muestras en una distribución de probabilidad, el resultado recibe el nombre de distribución muestral de la media [@lind2015].
muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:q1) {
muestras[[i]] <- sample(x = poblacion$sueldo, size = q1, replace = FALSE)
m.muestras[i] <- mean(muestras[[i]])
}
Se construye una tabla de distribución de todos los sueldos de cada muestra, solo se muestran los tres primeros y los últimos tres en la columna final se observa la media de cada muestra.
La función t() transforma registros a columnas de un data.frame.
sueldos <- data.frame(muestras)
sueldos <- t(sueldos)
colnames(sueldos) <- paste0("sueldo",1:q1)
rownames(sueldos) <- paste0("M",1:q1)
tabla <- data.frame(sueldos[,1:3], "..."="...", sueldos[,(q1-2):q1], medias.muestrales = m.muestras)
kable(tabla, caption = "Tabla de medias aritméticas de cien muestras de cien sueldos cada una")
| sueldo1 | sueldo2 | sueldo3 | … | sueldo98 | sueldo99 | sueldo100 | medias.muestrales | |
|---|---|---|---|---|---|---|---|---|
| M1 | 31701 | 10124 | 8756 | … | 5439 | 24213 | 29869 | 21856.73 |
| M2 | 17529 | 16035 | 5558 | … | 17713 | 31596 | 26047 | 20947.57 |
| M3 | 32139 | 34876 | 21170 | … | 6700 | 9420 | 27509 | 19447.93 |
| M4 | 16954 | 21937 | 24213 | … | 22426 | 8683 | 17320 | 19939.66 |
| M5 | 19665 | 30605 | 21395 | … | 27407 | 28884 | 5976 | 19295.74 |
| M6 | 32206 | 6116 | 18140 | … | 11145 | 33514 | 7849 | 19674.33 |
| M7 | 30667 | 21576 | 13311 | … | 32643 | 10663 | 5160 | 19384.36 |
| M8 | 34379 | 9267 | 23219 | … | 34722 | 8319 | 21395 | 19514.08 |
| M9 | 18657 | 34126 | 13390 | … | 30605 | 22257 | 34302 | 19271.24 |
| M10 | 25961 | 26654 | 33752 | … | 18676 | 10209 | 18698 | 19559.08 |
| M11 | 12526 | 21576 | 34987 | … | 24314 | 20577 | 15865 | 20284.64 |
| M12 | 25457 | 11517 | 18698 | … | 21772 | 11366 | 7786 | 20630.76 |
| M13 | 24088 | 16975 | 6042 | … | 10663 | 22044 | 26455 | 20731.32 |
| M14 | 24720 | 13566 | 24811 | … | 26948 | 21528 | 29000 | 22096.79 |
| M15 | 28269 | 34649 | 25000 | … | 20416 | 21159 | 20862 | 19149.24 |
| M16 | 20408 | 8382 | 9758 | … | 12981 | 24314 | 33166 | 21569.73 |
| M17 | 17890 | 28564 | 22044 | … | 21736 | 18984 | 19307 | 20856.76 |
| M18 | 25801 | 25163 | 27407 | … | 21159 | 22946 | 5425 | 20843.57 |
| M19 | 11442 | 8383 | 27971 | … | 30196 | 5324 | 26776 | 19734.39 |
| M20 | 9467 | 15742 | 15836 | … | 6788 | 33166 | 18749 | 19436.67 |
| M21 | 8105 | 13432 | 27938 | … | 5397 | 5432 | 15321 | 20119.08 |
| M22 | 31157 | 21083 | 30597 | … | 15393 | 19307 | 11100 | 20249.72 |
| M23 | 18522 | 18994 | 34692 | … | 24755 | 24720 | 28884 | 21681.55 |
| M24 | 28519 | 9397 | 5144 | … | 14773 | 25647 | 16854 | 19553.19 |
| M25 | 27181 | 26503 | 34338 | … | 11366 | 27276 | 27061 | 19454.10 |
| M26 | 21564 | 12439 | 23219 | … | 33796 | 33068 | 18908 | 20740.01 |
| M27 | 30534 | 26129 | 12402 | … | 17217 | 16621 | 12379 | 20952.14 |
| M28 | 12786 | 13607 | 5976 | … | 8383 | 15824 | 14360 | 18651.93 |
| M29 | 7891 | 12646 | 25315 | … | 6504 | 32925 | 7281 | 19418.78 |
| M30 | 12634 | 20566 | 5118 | … | 33514 | 27673 | 16429 | 21188.57 |
| M31 | 32206 | 7282 | 12880 | … | 22511 | 26442 | 7866 | 20119.42 |
| M32 | 7281 | 6051 | 24250 | … | 18994 | 5825 | 20827 | 19425.78 |
| M33 | 13897 | 28193 | 21055 | … | 28269 | 29023 | 18365 | 20695.77 |
| M34 | 30605 | 18984 | 15824 | … | 30734 | 28864 | 14552 | 19814.13 |
| M35 | 5427 | 8181 | 17179 | … | 29236 | 21159 | 7027 | 21139.97 |
| M36 | 13877 | 7891 | 29780 | … | 5182 | 26584 | 34492 | 19199.15 |
| M37 | 24605 | 30315 | 13565 | … | 27599 | 15824 | 18248 | 21287.31 |
| M38 | 20970 | 16954 | 30960 | … | 5440 | 27275 | 30667 | 21219.95 |
| M39 | 11437 | 8429 | 30013 | … | 15721 | 27275 | 14410 | 20906.84 |
| M40 | 13575 | 32073 | 34302 | … | 32760 | 33383 | 30935 | 20851.04 |
| M41 | 23784 | 6700 | 21150 | … | 16235 | 28900 | 12174 | 21000.09 |
| M42 | 8490 | 32678 | 19952 | … | 32464 | 33590 | 17961 | 20713.27 |
| M43 | 21063 | 18751 | 33074 | … | 21050 | 24442 | 7995 | 19874.86 |
| M44 | 23047 | 13798 | 16059 | … | 9342 | 13753 | 22910 | 20841.75 |
| M45 | 5853 | 23981 | 16006 | … | 27243 | 23890 | 18875 | 19465.03 |
| M46 | 26967 | 21951 | 16106 | … | 26979 | 18994 | 17227 | 20029.76 |
| M47 | 7170 | 29177 | 28862 | … | 19082 | 29817 | 17713 | 21057.55 |
| M48 | 21794 | 9679 | 13061 | … | 20827 | 30161 | 17320 | 21051.55 |
| M49 | 21576 | 19952 | 12279 | … | 11385 | 26170 | 28744 | 19386.37 |
| M50 | 32685 | 5425 | 17959 | … | 28744 | 20598 | 34834 | 18898.56 |
| M51 | 14827 | 9849 | 6382 | … | 19596 | 17890 | 19082 | 20173.81 |
| M52 | 24650 | 17737 | 28862 | … | 32760 | 9205 | 7866 | 18981.28 |
| M53 | 24418 | 32643 | 8490 | … | 14269 | 32685 | 13676 | 19869.85 |
| M54 | 21736 | 6382 | 20601 | … | 11776 | 13676 | 20759 | 18551.43 |
| M55 | 11353 | 29506 | 25336 | … | 28915 | 14608 | 25799 | 22120.97 |
| M56 | 18199 | 6466 | 18961 | … | 25648 | 8697 | 27864 | 20966.89 |
| M57 | 28864 | 18522 | 11456 | … | 29287 | 7281 | 26975 | 20651.13 |
| M58 | 14527 | 5976 | 16954 | … | 23773 | 9562 | 33068 | 18882.72 |
| M59 | 26967 | 19414 | 9922 | … | 11181 | 11686 | 9562 | 19843.60 |
| M60 | 14827 | 30852 | 11076 | … | 28884 | 9420 | 18657 | 20075.68 |
| M61 | 25799 | 9910 | 23180 | … | 27649 | 30222 | 21543 | 20631.01 |
| M62 | 16671 | 6590 | 21937 | … | 17227 | 18140 | 21395 | 21349.62 |
| M63 | 13398 | 8683 | 30460 | … | 6007 | 8951 | 14608 | 18815.45 |
| M64 | 7216 | 29023 | 31427 | … | 27193 | 19182 | 9420 | 20571.99 |
| M65 | 16263 | 26948 | 14827 | … | 31377 | 21902 | 19822 | 19514.19 |
| M66 | 16975 | 12250 | 23079 | … | 10399 | 18319 | 10345 | 18766.13 |
| M67 | 31154 | 28061 | 5374 | … | 13566 | 13575 | 33074 | 19029.12 |
| M68 | 21794 | 34065 | 30013 | … | 17008 | 27386 | 12575 | 19237.53 |
| M69 | 13877 | 7160 | 8382 | … | 28061 | 19307 | 28564 | 18931.03 |
| M70 | 26129 | 20768 | 5976 | … | 12304 | 19703 | 32073 | 20990.97 |
| M71 | 23890 | 22511 | 10209 | … | 30838 | 11686 | 16621 | 19939.86 |
| M72 | 21528 | 30161 | 25896 | … | 28864 | 5160 | 5118 | 19730.97 |
| M73 | 15836 | 15742 | 30960 | … | 18698 | 28564 | 34785 | 21698.05 |
| M74 | 22779 | 25245 | 29817 | … | 10663 | 13520 | 33896 | 19782.84 |
| M75 | 12527 | 30222 | 5685 | … | 18365 | 8683 | 26292 | 20013.82 |
| M76 | 7995 | 14919 | 18080 | … | 13621 | 16235 | 30667 | 20584.78 |
| M77 | 14364 | 8181 | 19497 | … | 26129 | 28459 | 16975 | 19340.77 |
| M78 | 24418 | 20827 | 14552 | … | 21772 | 15083 | 30476 | 20273.64 |
| M79 | 9213 | 15721 | 13565 | … | 7995 | 17903 | 16235 | 20059.47 |
| M80 | 24605 | 26455 | 20759 | … | 5324 | 5440 | 21931 | 19160.74 |
| M81 | 23079 | 19596 | 16106 | … | 11695 | 28915 | 16621 | 19992.73 |
| M82 | 23904 | 22910 | 31821 | … | 29000 | 11645 | 13061 | 20152.42 |
| M83 | 19665 | 29236 | 17414 | … | 32307 | 8122 | 34987 | 19959.85 |
| M84 | 21564 | 24650 | 20570 | … | 8498 | 13062 | 34783 | 20419.48 |
| M85 | 6337 | 22959 | 15028 | … | 23487 | 19822 | 20598 | 20490.66 |
| M86 | 19997 | 22959 | 16671 | … | 26141 | 28783 | 34338 | 20579.48 |
| M87 | 5144 | 23487 | 8211 | … | 7282 | 12786 | 7160 | 18319.56 |
| M88 | 27649 | 27864 | 18984 | … | 28459 | 23006 | 30355 | 19479.23 |
| M89 | 7063 | 20458 | 13676 | … | 34876 | 17961 | 15089 | 19962.92 |
| M90 | 22946 | 20213 | 5853 | … | 21172 | 28611 | 5425 | 19230.85 |
| M91 | 31474 | 16710 | 12206 | … | 8429 | 12594 | 25336 | 19222.91 |
| M92 | 30582 | 10334 | 19497 | … | 23981 | 31474 | 13002 | 19445.31 |
| M93 | 31615 | 28271 | 6382 | … | 8756 | 20768 | 24213 | 21309.24 |
| M94 | 19492 | 26143 | 14269 | … | 28528 | 12926 | 24901 | 19770.85 |
| M95 | 5182 | 32760 | 26166 | … | 13796 | 8756 | 26503 | 18430.45 |
| M96 | 21050 | 18012 | 23391 | … | 11021 | 31377 | 7282 | 20979.69 |
| M97 | 21736 | 22044 | 22910 | … | 20827 | 26129 | 7063 | 19655.27 |
| M98 | 5425 | 33037 | 25315 | … | 18751 | 11052 | 27243 | 20748.27 |
| M99 | 32925 | 32685 | 30439 | … | 24213 | 15089 | 26073 | 20231.66 |
| M100 | 26143 | 16035 | 6784 | … | 5118 | 26279 | 11807 | 20319.94 |
media.todas.muestras <- round(mean(tabla$medias.muestrales),4)
paste("La media de todas las muestras es de: ", media.todas.muestras)
## [1] "La media de todas las muestras es de: 20104.5192"
# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "blue") +
labs(title = "Población",
subtitle = paste("ME = ", media.p),
caption = "Fuente propia") +
geom_vline(xintercept = media.m, col='red') +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g1 <- g1 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(tabla, aes(x = medias.muestrales)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "green") +
geom_vline(xintercept = media.todas.muestras, col='red') +
labs(title = "Distribución muestral de la media CIEN",
subtitle = paste("Media =", media.todas.muestras),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g2 <- g2 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)
Se observa la diferencia de forma de las distribuciones poblacional y muestral de medias.
También existe una diferencia en el rango de las medias de la población con respecto a la media de todas las muestras. El rango del sueldo de la población es 5001, 34987, mientras que las medias muestrales de la población con respecto al sueldo varían de 18319.56, 22120.97.
En cuanto a la diferencias de las desviaciones estándar de la población y de las muestras:
sd(poblacion$sueldo)
## [1] 8476.901
sd(tabla$medias.muestrales)
## [1] 863.5907
Se reduce su rango o lo que es lo mismo la desviación disminuye de 8476.9008223 en la población a 863.5906738 en las medias muestrales.
¿Que pasará con mil muestras?
Se repite el proceso, ahora en lugar de ser cien ahora serán mil muestras.
Se determinan mil (1000) muestras de 100 elementos cada una, luego se organizan las medias de todas las muestras en una distribución de probabilidad, el resultado recibe el nombre de distribución muestral de la media [@lind2015].
muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:q2) {
muestras[[i]] <- sample(x = poblacion$sueldo, size = q2, replace = TRUE)
m.muestras[i] <- mean(muestras[[i]])
}
Se construye una tabla de distribución de todos los sueldos de cada muestra, solo se muestran los tres primeros y los últimos tres en la columna final se observa la media de cada muestra.
Como son mil muestras solo se muestran las primeras cincuenta y las últimas cincuenta.
sueldos <- data.frame(muestras)
sueldos <- t(sueldos)
colnames(sueldos) <- paste0("sueldo",1:q2)
rownames(sueldos) <- paste0("M",1:q2)
tabla <- data.frame(sueldos[,1:3], "..."="...", sueldos[,(q2-2):q2], medias.muestrales = m.muestras)
kable(head(tabla,50), caption = paste("Tabla de medias aritméticas de ",q2," muestras de cien sueldos cada una"))
| sueldo1 | sueldo2 | sueldo3 | … | sueldo998 | sueldo999 | sueldo1000 | medias.muestrales | |
|---|---|---|---|---|---|---|---|---|
| M1 | 12174 | 27844 | 16621 | … | 22257 | 34783 | 29281 | 19515.61 |
| M2 | 8383 | 11852 | 11076 | … | 17008 | 33957 | 7117 | 20177.87 |
| M3 | 26663 | 9849 | 8683 | … | 31483 | 19839 | 26166 | 20155.38 |
| M4 | 26271 | 11908 | 10209 | … | 29299 | 9267 | 15663 | 20033.58 |
| M5 | 30597 | 34649 | 12805 | … | 15321 | 6817 | 11686 | 19846.49 |
| M6 | 26143 | 16975 | 17655 | … | 8498 | 11686 | 5397 | 19823.41 |
| M7 | 19812 | 15663 | 30852 | … | 29647 | 13790 | 25315 | 20130.99 |
| M8 | 33383 | 22349 | 30582 | … | 16138 | 13104 | 14410 | 20073.87 |
| M9 | 21170 | 12926 | 30597 | … | 14756 | 5160 | 24755 | 19726.33 |
| M10 | 29281 | 33716 | 20627 | … | 26967 | 26170 | 11100 | 20155.79 |
| M11 | 8122 | 18856 | 24720 | … | 23358 | 12338 | 25457 | 20495.24 |
| M12 | 12740 | 24605 | 5425 | … | 6382 | 31765 | 20601 | 19690.12 |
| M13 | 15670 | 17195 | 8429 | … | 31615 | 18012 | 16854 | 20181.07 |
| M14 | 5685 | 27181 | 24720 | … | 6504 | 21063 | 18994 | 19754.19 |
| M15 | 23981 | 26502 | 18416 | … | 29478 | 7242 | 20762 | 19995.83 |
| M16 | 27971 | 27938 | 30960 | … | 33072 | 32763 | 7891 | 20642.15 |
| M17 | 5558 | 18961 | 12646 | … | 34619 | 31953 | 9809 | 19994.30 |
| M18 | 12526 | 12279 | 24755 | … | 5425 | 5825 | 12646 | 19923.13 |
| M19 | 13565 | 8122 | 28193 | … | 25457 | 18961 | 9292 | 19571.81 |
| M20 | 25961 | 11686 | 17961 | … | 6042 | 11852 | 16824 | 19627.27 |
| M21 | 28884 | 17737 | 14364 | … | 16006 | 27844 | 33166 | 19998.86 |
| M22 | 26648 | 12926 | 17903 | … | 6337 | 26776 | 21151 | 20113.90 |
| M23 | 5160 | 23196 | 24630 | … | 26414 | 16429 | 9679 | 20203.99 |
| M24 | 26442 | 28900 | 7995 | … | 9594 | 14021 | 33166 | 19818.92 |
| M25 | 14348 | 21736 | 24862 | … | 15873 | 21172 | 27649 | 20426.04 |
| M26 | 29869 | 28611 | 20701 | … | 12174 | 25538 | 30007 | 20642.21 |
| M27 | 8683 | 15434 | 29287 | … | 18926 | 17737 | 32353 | 19558.95 |
| M28 | 11100 | 21845 | 8382 | … | 23487 | 19497 | 28900 | 20138.98 |
| M29 | 17737 | 21083 | 11582 | … | 16860 | 8490 | 28165 | 20353.78 |
| M30 | 22044 | 29881 | 17903 | … | 32464 | 28783 | 28109 | 19953.78 |
| M31 | 28269 | 27599 | 33796 | … | 23883 | 22959 | 34492 | 20323.56 |
| M32 | 25245 | 7027 | 24901 | … | 34785 | 32145 | 14269 | 19973.76 |
| M33 | 13398 | 17655 | 11181 | … | 12646 | 21931 | 12926 | 20005.32 |
| M34 | 12067 | 18698 | 13798 | … | 29023 | 21576 | 18994 | 20234.03 |
| M35 | 5160 | 17753 | 15756 | … | 15028 | 33948 | 15068 | 19713.65 |
| M36 | 6700 | 5490 | 26654 | … | 26948 | 13796 | 13390 | 20187.15 |
| M37 | 11908 | 30734 | 13790 | … | 25336 | 32472 | 31427 | 20632.25 |
| M38 | 25336 | 9540 | 6590 | … | 12805 | 20701 | 15985 | 20152.21 |
| M39 | 33590 | 34783 | 28106 | … | 20210 | 13520 | 29348 | 19982.47 |
| M40 | 23006 | 17217 | 18199 | … | 12575 | 7160 | 27673 | 19936.30 |
| M41 | 26073 | 7786 | 11807 | … | 27275 | 19713 | 7866 | 20151.11 |
| M42 | 13621 | 12295 | 14042 | … | 15083 | 26210 | 30863 | 20360.72 |
| M43 | 11776 | 15836 | 28776 | … | 5825 | 23196 | 5825 | 20321.89 |
| M44 | 33948 | 15028 | 30605 | … | 17809 | 12330 | 13566 | 20311.92 |
| M45 | 28564 | 25245 | 25569 | … | 7702 | 30182 | 30460 | 19955.21 |
| M46 | 26170 | 22349 | 29287 | … | 28528 | 12922 | 14042 | 20039.63 |
| M47 | 8319 | 20566 | 32353 | … | 20762 | 30088 | 21576 | 19896.93 |
| M48 | 28611 | 30355 | 34302 | … | 33072 | 21395 | 19523 | 19911.67 |
| M49 | 6337 | 23006 | 32763 | … | 18365 | 19497 | 20601 | 20289.28 |
| M50 | 25801 | 11776 | 33840 | … | 9679 | 9922 | 15635 | 20229.48 |
kable(tail(tabla,50), caption = paste("Tabla de medias aritméticas de ",q2," muestras de cien sueldos cada una"))
| sueldo1 | sueldo2 | sueldo3 | … | sueldo998 | sueldo999 | sueldo1000 | medias.muestrales | |
|---|---|---|---|---|---|---|---|---|
| M951 | 26787 | 21937 | 8383 | … | 28915 | 23981 | 30222 | 20329.14 |
| M952 | 23981 | 25245 | 18657 | … | 13574 | 23773 | 18012 | 19878.64 |
| M953 | 26053 | 26948 | 7063 | … | 32472 | 30222 | 33284 | 20225.12 |
| M954 | 15670 | 15824 | 21379 | … | 16860 | 28611 | 20570 | 20246.33 |
| M955 | 13798 | 30247 | 9397 | … | 33514 | 25000 | 32295 | 19861.44 |
| M956 | 12250 | 27599 | 20566 | … | 5324 | 34338 | 8382 | 19813.92 |
| M957 | 8951 | 13676 | 34692 | … | 18416 | 31662 | 17462 | 20075.95 |
| M958 | 17163 | 15670 | 16860 | … | 25538 | 12926 | 17163 | 20078.88 |
| M959 | 24250 | 33334 | 7216 | … | 33796 | 20213 | 13565 | 19963.93 |
| M960 | 24862 | 5384 | 11052 | … | 20566 | 9467 | 19839 | 20255.36 |
| M961 | 18549 | 8848 | 16106 | … | 9934 | 15434 | 22974 | 20189.63 |
| M962 | 21063 | 18319 | 11366 | … | 11961 | 5384 | 27275 | 19915.74 |
| M963 | 9594 | 26654 | 5118 | … | 9288 | 9824 | 32206 | 20138.32 |
| M964 | 6382 | 27061 | 19596 | … | 25538 | 31157 | 33383 | 19648.24 |
| M965 | 13432 | 23079 | 27844 | … | 7063 | 27243 | 26143 | 19844.14 |
| M966 | 29961 | 9304 | 18926 | … | 27938 | 9267 | 28098 | 20178.76 |
| M967 | 34834 | 26502 | 12279 | … | 14410 | 10399 | 6382 | 20366.79 |
| M968 | 6590 | 26166 | 33957 | … | 28165 | 24901 | 13676 | 19770.62 |
| M969 | 22983 | 11456 | 16138 | … | 20271 | 17529 | 10062 | 20090.76 |
| M970 | 13908 | 23180 | 14907 | … | 33334 | 9267 | 17903 | 20423.88 |
| M971 | 5246 | 29000 | 7242 | … | 7866 | 22044 | 8105 | 20172.15 |
| M972 | 20416 | 14773 | 28564 | … | 5649 | 7299 | 5160 | 20143.62 |
| M973 | 30460 | 20458 | 26166 | … | 30734 | 17163 | 26141 | 19199.19 |
| M974 | 25315 | 27035 | 14773 | … | 25961 | 12206 | 30534 | 20176.30 |
| M975 | 13566 | 24314 | 27276 | … | 23006 | 32073 | 30315 | 19605.89 |
| M976 | 9679 | 28459 | 30088 | … | 14784 | 16710 | 23436 | 19929.27 |
| M977 | 7891 | 11181 | 7299 | … | 24442 | 21902 | 5118 | 20197.76 |
| M978 | 8756 | 33840 | 23981 | … | 23487 | 29478 | 18080 | 20214.52 |
| M979 | 28564 | 6274 | 22257 | … | 26210 | 24650 | 32763 | 20589.25 |
| M980 | 17195 | 21150 | 19596 | … | 31821 | 26292 | 12740 | 19831.86 |
| M981 | 21444 | 12206 | 31157 | … | 12880 | 13385 | 28057 | 20161.15 |
| M982 | 21564 | 6590 | 11385 | … | 9913 | 33072 | 5432 | 19418.90 |
| M983 | 7281 | 25648 | 7252 | … | 7242 | 14784 | 16138 | 20149.22 |
| M984 | 13062 | 14756 | 16006 | … | 15089 | 24418 | 24160 | 20490.93 |
| M985 | 27306 | 31427 | 32073 | … | 24720 | 8756 | 17985 | 20011.84 |
| M986 | 13873 | 15434 | 26210 | … | 12174 | 9420 | 23773 | 20094.98 |
| M987 | 30667 | 23219 | 13798 | … | 23487 | 11021 | 11807 | 19866.59 |
| M988 | 20701 | 27407 | 5182 | … | 21063 | 15880 | 16138 | 20253.50 |
| M989 | 28528 | 16362 | 23358 | … | 34811 | 20210 | 9910 | 20021.10 |
| M990 | 11874 | 6274 | 8211 | … | 32760 | 5853 | 13104 | 19877.39 |
| M991 | 17163 | 17163 | 30161 | … | 30667 | 7282 | 26170 | 20140.48 |
| M992 | 9910 | 9342 | 20418 | … | 21730 | 18257 | 22946 | 19707.51 |
| M993 | 18080 | 11776 | 9397 | … | 13104 | 6700 | 33284 | 20007.10 |
| M994 | 23180 | 21150 | 18199 | … | 16710 | 6590 | 20912 | 20182.79 |
| M995 | 7160 | 11442 | 18199 | … | 32307 | 32760 | 16621 | 19976.06 |
| M996 | 15028 | 22779 | 18237 | … | 9267 | 14784 | 20213 | 19852.19 |
| M997 | 16458 | 12304 | 13398 | … | 15434 | 13385 | 7216 | 19702.90 |
| M998 | 24862 | 11486 | 11145 | … | 9758 | 34783 | 14919 | 19729.23 |
| M999 | 5649 | 32464 | 19997 | … | 5825 | 9342 | 28178 | 20198.66 |
| M1000 | 10334 | 16954 | 9420 | … | 18013 | 20762 | 28269 | 20129.70 |
media.todas.muestras <- round(mean(tabla$medias.muestrales),2)
paste("La media de todas las ", q2, " muestras "," es de: ", media.todas.muestras)
## [1] "La media de todas las 1000 muestras es de: 20040.07"
# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "blue") +
labs(title = "Población",
subtitle = paste("ME=", media.p),
caption = "Fuente propia") +
geom_vline(xintercept = media.m, col='red') +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g1 <- g1 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(tabla, aes(x = medias.muestrales)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "green") +
geom_vline(xintercept = media.todas.muestras, col='red') +
labs(title = "Distribución muestral de la media MIL",
subtitle = paste("Media =", media.todas.muestras),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g2 <- g2 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=6),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)
Se observa que la media de todas las muestras se acerca a la media de la población así mismo, la distribución muestral de la media es una distribución que se parece a distribución normal con gráfica de gauss o campana.
Entre mas muestras haya, la dispersión de los datos disminuye y entre más muestras se determinen, el valor de la media de todas las muestras se acerca al valor de la media poblacional.
La distribución muestral de la media es una distribución de probabilidad que describe la variabilidad de las medias muestrales. La distribución muestral de la media se utiliza para estimar la media poblacional a partir de una muestra aleatoria.
La distribución muestral de la media se puede calcular utilizando la fórmula:
Media muestral = μ
Donde μ es la media poblacional y n es el tamaño de la muestra.
La distribución muestral de la media se puede utilizar para calcular el error estándar de la media. El error estándar de la media es una medida de la variabilidad de las medias muestrales y se puede calcular utilizando la fórmula:
Error estándar de la media = σ / √n
Donde σ es la desviación estándar de la población y n es el tamaño de la muestra.
La distribución muestral de la media se puede utilizar para construir intervalos de confianza para la media poblacional. Un intervalo de confianza es un rango de valores que contiene el verdadero valor del parámetro con un cierto nivel de confianza.
¿Cuál es el valor de la media muestral de 10000 mil muestras de 100 datos cada una?: 19761.13
¿Cuál es el error muestral de la media de todas las muestras con respeto a la media aritmética de población. -0.12
¿Cómo se observa la gráfica de campana?
Histograma de medias muestrales de la muestra con DIEZ MIL observaciones
# Histograma con densidad
g1 <- ggplot(poblacion, aes(x = sueldo)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "blue") +
labs(title = "Población",
subtitle = paste("ME=", media.p),
caption = "Fuente propia") +
geom_vline(xintercept = media.m, col='red') +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g1 <- g1 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=7),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
g2 <- ggplot(tabla, aes(x = medias.muestrales)) +
geom_histogram(aes(y = ..density..),
colour = 1, fill = "green") +
geom_vline(xintercept = media.todas.muestras, col='red') +
labs(title = "Distribución muestral de la media DIEZ MIL",
subtitle = paste("Media =", media.todas.muestras),
caption = "Fuente propia") +
geom_density(lwd = 1.2,
linetype = 2,
colour = 2)
g2 <- g2 + theme(
plot.title = element_text(color = "black", size = 10, face = "bold"),
plot.subtitle = element_text(color = "black",size=6),
plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)
Levine, D. M. (2010) Estadística para administración y economía. (7ª. ed.) México : Pearson Educación.
Mendenhall, W. (2010). Introducción a la Probabilidad y Estadística. (13ª. ed.) México: Cengage Learning.
Montgomery, D. C. (2011). Probabilidad y estadística aplicadas a la ingeniería. (2ª. ed.) México : Limusa: Wiley.
Quezada, L. (2010). Estadística para ingenieros. México : Empresa Editora Macro.