Simular el teorema del límite central.
Con un conjunto de datos y librerías adecuadas, simular el valor de la media muestral comparado con el valor de la media poblacional asociando con ello con el teorema del límite central.
Recordando los conceptos de población y muestra se dice que una población es el conjunto de todos los elementos que interesan en un estudio, y una muestra es un subconjunto de la población. (Anderson et al., 2008).
Ahora bien, a las características numéricas de una población, como la media \(\mu\) y la desviación estándar \(S^2\), se les llama parámetros, por otra parte a los valores numéricos de una muestra como la media muestral \(\bar{x}\) o la desviación típica de una muestra \(\sigma\) se les llama estadísticos.
El principal propósito de la inferencia estadística es hacer estimaciones y pruebas de hipótesis acerca de los parámetros poblacionales usando la información que proporciona una muestra (Anderson et al., 2008).
Entonces, ¿porqué hacer muestras?, porque ayudan a determinar estimaciones de toda una población, resulta menos costoso indagar sobre una muestra que sobre toda la población.
Por ejemplo: Imaginar que se quiera saber el valor medio de kilometraje o millaje de una llantas de autos, para estimar la duración media, en millas, el fabricante selecciona una muestra de cierta cantidad de neumáticos nuevos para probarlos y determina los estadísticos como la media muestral en lugar de probar y medir todas las llantas, eso optimiza en tiempo y costo y permite establecer un estimador sobre la duración de todas las llantas.
Otro ejemplo sería conocer la opinión de la población usando una muestra que represnte a toda la pobación y se puede conocer la media sobre cualquier aspecto numéricamente de partido político, gobierno, instituciones, o cualquier otro ámbito. Aquí nuevamente se conocen estimaciones de toda la población a través de los estadísticos.
Un tercer caso sería por ejemplo, el tratar de llegar a una conclusión con respecto a la proporción de personas bebedoras de café en Estados Unidos que prefieren cierta marca de café. Sería imposible preguntar a cada bebedor de café estadounidense para calcular el valor del parámetro \(p\) que representa la proporción de la población. En cambio, se selecciona una muestra aleatoria grande y se calcula la proporción \(\hat{p}\) de personas en esta muestra que prefieren la marca de café en cuestión. El valor \(\hat{p}\) se utiliza ahora para hacer una inferencia con respecto a la proporción \(p\) verdadera. (Walpole et al., 2012).
En resumen, las muestras se emplean para determinar características de la población. Por ejemplo, con la media de una muestra se calcula la media de la población; no obstante, como la muestra forma parte o es una porción representativa de la población, es poco probable que su media sea exactamente igual a la de la población (Lind et al., 2015)
Además, es poco factible que la desviación estándar de la muestra sea exactamente igual a la de la población; por lo tanto, se puede esperar una diferencia entre un estadístico de la muestra y el parámetro de la población correspondiente; la cual recibe el nombre de error de muestreo (Lind et al., 2015).
El error de muestreo lo define (Lind et al., 2015) como la diferencia entre el estadístico de una muestra y el parámetro de la población correspondiente.
Para determinar un error de muestreo con respecto a la media \[\bar{x} - \mu\]
Distribución muestral de la media significa que si se organizan las medias de todas las muestras posibles en una distribución de probabilidad, el resultado recibe el nombre de distribución muestral de la media (Lind et al., 2015).
Entonces, la distribución muestral de la media es la distribución de probabilidad de todas las posibles medias de las muestras de un determinado tamaño muestral de la población (Lind et al., 2015).
El concepto del teorema de limite central es que si todas las muestras de un tamaño en particular se seleccionan de cualquier población, la distribución muestral de la media se aproxima a una distribución normal (Lind et al., 2015).
Si se utiliza una población normal con media \(\mu\) y varianza \(\sigma^{2}\) y se toma una muestra aleatoria de \(n\) observaciones. Cada observación \(x_{i}\), \(i = 1, 2,..., n\), de la muestra aleatoria tendrá entonces la misma distribución normal que la población de donde se tomó (Walpole et al., 2012).
Si se toman muestras de una población con distribución desconocida (tal vez no normal), ya sea finita o infinita, la distribución muestral de la m edia \(\bar{x}\) será aproximadamente normal de la media poblacional \(\mu\) (Walpole et al., 2012).
Lo mismo sucede para la varianza y desviación poblacional con respecto a la varianza y desviación de la muestra. Los estadísticos de una muestra son confiables independientemente del tipo de distribucion de que se trate.
Para ejemplificar estos conceptos se presentan los siguientes ejercicios:
library(dplyr)
library(mosaic)
library(readr)
library(ggplot2) # Para gráficos
library(knitr) # Para formateo de datos
library(fdth) # Para tablas de frecuencias
library(gtools) # Para combinaciones y permutaciones
library(Rmpfr) # Para factoriales de números muy grandes
library(fdth) # Para tablas de frecuencias
N <- 1000000;
edad.poblacion <- round(rnorm(N, mean = 35, sd = 5), 0)
summary(edad.poblacion)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 32.00 35.00 34.99 38.00 57.00
paste("El valor de edad de una pobacion. Los primeros cincuenta valores ...")
## [1] "El valor de edad de una pobacion. Los primeros cincuenta valores ..."
head(edad.poblacion, 50)
## [1] 36 44 40 36 29 36 36 33 37 45 37 35 35 38 38 37 39 37 38 41 28 38 39 40 43
## [26] 29 33 40 30 36 30 45 28 31 33 31 41 36 27 34 37 33 36 18 31 40 32 38 37 32
paste("El valor de edad de una pobacion. Los últimos cincuenta valores ...")
## [1] "El valor de edad de una pobacion. Los últimos cincuenta valores ..."
tail(edad.poblacion, 50)
## [1] 35 37 37 40 31 36 37 43 42 27 23 32 33 38 30 39 29 35 36 37 37 39 39 39 30
## [26] 35 35 38 33 36 39 33 27 39 30 28 33 43 34 34 35 36 37 31 38 29 37 38 38 40
media.pob <- mean(edad.poblacion)
desv.std <- sd(edad.poblacion)
paste("Los parámetros de la media y desviación estándard de la población")
## [1] "Los parámetros de la media y desviación estándard de la población"
media.pob; desv.std
## [1] 34.99466
## [1] 5.00649
El valor medio de la edad de la pobación \(\mu\) es 34.994656 y el valor de la desviación estándar de la población es \(S^{2}\) es 5.0064898
n <- 500
muestras <- data.frame(m1=sample(edad.poblacion, n),
m2=sample(edad.poblacion, n),
m3=sample(edad.poblacion, n),
m4=sample(edad.poblacion, n),
m5=sample(edad.poblacion, n))
summary(muestras)
## m1 m2 m3 m4
## Min. :22.00 Min. :21.00 Min. :20.00 Min. :16.00
## 1st Qu.:32.00 1st Qu.:32.00 1st Qu.:31.75 1st Qu.:31.00
## Median :36.00 Median :35.00 Median :34.00 Median :35.00
## Mean :35.65 Mean :35.07 Mean :34.84 Mean :34.95
## 3rd Qu.:39.00 3rd Qu.:39.00 3rd Qu.:38.00 3rd Qu.:38.00
## Max. :49.00 Max. :49.00 Max. :49.00 Max. :49.00
## m5
## Min. :16.00
## 1st Qu.:32.00
## Median :35.00
## Mean :35.07
## 3rd Qu.:38.00
## Max. :47.00
kable(head(muestras, 10), caption = "Muestras de la población. Los primeros diez de 500 registros")
m1 | m2 | m3 | m4 | m5 |
---|---|---|---|---|
32 | 31 | 38 | 31 | 37 |
40 | 29 | 35 | 34 | 34 |
32 | 28 | 33 | 44 | 35 |
38 | 32 | 40 | 44 | 39 |
42 | 35 | 31 | 35 | 29 |
38 | 34 | 33 | 33 | 35 |
44 | 34 | 29 | 32 | 47 |
36 | 30 | 32 | 43 | 37 |
30 | 37 | 41 | 36 | 32 |
40 | 36 | 33 | 36 | 43 |
kable(head(muestras, 10), caption = "Muestras de la población. Los últimos diez de 500 registros")
m1 | m2 | m3 | m4 | m5 |
---|---|---|---|---|
32 | 31 | 38 | 31 | 37 |
40 | 29 | 35 | 34 | 34 |
32 | 28 | 33 | 44 | 35 |
38 | 32 | 40 | 44 | 39 |
42 | 35 | 31 | 35 | 29 |
38 | 34 | 33 | 33 | 35 |
44 | 34 | 29 | 32 | 47 |
36 | 30 | 32 | 43 | 37 |
30 | 37 | 41 | 36 | 32 |
40 | 36 | 33 | 36 | 43 |
medias <- 0
error <- 0
for(i in 1:5) {
medias[i] <- mean(muestras[,i])
error[i] <- medias[i] - media.pob
}
error.muestreo <- data.frame(Media.Poblacion = media.pob, Media.Muestras = medias, Errores = error)
kable(error.muestreo, caption = "Error de media de edad de cada muestra con respecto a la media de la población")
Media.Poblacion | Media.Muestras | Errores |
---|---|---|
34.99466 | 35.654 | 0.659344 |
34.99466 | 35.072 | 0.077344 |
34.99466 | 34.844 | -0.150656 |
34.99466 | 34.952 | -0.042656 |
34.99466 | 35.066 | 0.071344 |
Cada una de estas diferencias en la columna de Errores, representa el error de muestreo cometido al calcular la media de la población. A veces estos errores son valores positivos, lo cual indica que la media muestral sobre excedió la media poblacional; otras veces son negativos, lo cual indica que la media muestral es inferior a la media poblacional (Lind et al., 2015).
hist(edad.poblacion, main = "Histrograma de la edad de la población")
hist(muestras$m1, main = "Histrograma de la edad de la muestra 1", ylab = "Edades", xlab="Observacaiones")
hist(muestras$m2, main = "Histrograma de la edad de la muestRa 2", ylab = "Edades", xlab="Observacaiones")
hist(muestras$m3, main = "Histrograma de la edad de la muestRa 3", ylab = "Edades", xlab="Observacaiones")
hist(muestras$m4, main = "Histrograma de la edad de la muestRa 4", ylab = "Edades", xlab="Observacaiones")
hist(muestras$m5, main = "Histrograma de la edad de la muestRa 5", ylab = "Edades", xlab="Observacaiones")
Con el ejercicio anterior, anterior se encontró el error de muestreo y se presentaron los resultados de comparar un estadístico para una muestra (como la media de la muestra) con la media de la población; bajo este contexto, cuando se usa la media muestral para estudiar la media de la población, ¿cómo se determina la exactitud de la estimación?, es decir, como saber si la media de la muestra es un estimador real con respecto a la población.
Para responder estas preguntas, primero hay que precisar el concepto de distribución muestral de la media: es la distribución de probabilidad de todas las posibles medias de las muestras de un determinado tamaño muestral de la población (Lind et al., 2015).
options(scipen = 999) # Para mostrar notación normal y no científica en el valor de N: 1e+06
N; n;
## [1] 1000000
## [1] 500
options(scipen = 0) # Regresa a notación numérica normal
summary(edad.poblacion)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 32.00 35.00 34.99 38.00 57.00
media.pob; desv.std
## [1] 34.99466
## [1] 5.00649
#factorialMpfr(N) / (factorialMpfr(n) * (factorialMpfr(N-n)))
Por lo anterior el número de muestra con una población de un millón (1000000) en grupo de 500 es demasiado grande para tratarlo.
Para ejemplificar el teorema de límite central se reduce la población a 10 con muestras de 2 personas.
Simulando una nueva población con los mismos valores de media de edad igual a 35 y desviación de 5.
Se determinan los nuevos parámetros de medias y desviaciones estándar de la población.
N <- 10; n <- 2
edad.poblacion <- round(rnorm(N, mean = 35, sd = 5), 0)
edad.poblacion
## [1] 27 39 28 43 35 41 36 22 39 29
media.pob <- mean(edad.poblacion)
desv.std <- sd(edad.poblacion)
media.pob; desv.std
## [1] 33.9
## [1] 6.983313
De acuerdo al concepto distribución muestral de la media ¿cuál es el número de muestras que hay que determinar en grupos de 2 para una población de 10?
n.combinaciones <- factorialMpfr(N) / (factorialMpfr(n) * (factorialMpfr(N-n)))
as.integer(n.combinaciones)
## [1] 45
Ahora bien ¿cuál es el valor estadístico de la media de la edad de la primera muestra, de la segunda, de la tercera y de la 45 ava muestra.
muestras <- cbind(1:as.integer(n.combinaciones))
muestras <- cbind(muestras, combinations(N, n, 1:N))
muestras <- cbind(muestras, edad.poblacion[muestras[,2]], edad.poblacion[muestras[,3]])
medias <- 0
error <- 0
for(i in 1:as.integer(n.combinaciones)) {
medias[i] <- mean(muestras[i,c(4,5)])
error[i] <- medias[i] - media.pob
}
muestras <- cbind(muestras, medias)
muestras <- cbind(muestras, media.pob)
muestras <- cbind(muestras, error)
muestras <- data.frame(muestras)
colnames(muestras) <- c("Muestra", "Pos.1", "Pos.2", "Valor.1", "Valor.2", "Media muestra", "Media pob.", "Error")
kable(muestras, caption = "Las muestras")
Muestra | Pos.1 | Pos.2 | Valor.1 | Valor.2 | Media muestra | Media pob. | Error |
---|---|---|---|---|---|---|---|
1 | 1 | 2 | 27 | 39 | 33.0 | 33.9 | -0.9 |
2 | 1 | 3 | 27 | 28 | 27.5 | 33.9 | -6.4 |
3 | 1 | 4 | 27 | 43 | 35.0 | 33.9 | 1.1 |
4 | 1 | 5 | 27 | 35 | 31.0 | 33.9 | -2.9 |
5 | 1 | 6 | 27 | 41 | 34.0 | 33.9 | 0.1 |
6 | 1 | 7 | 27 | 36 | 31.5 | 33.9 | -2.4 |
7 | 1 | 8 | 27 | 22 | 24.5 | 33.9 | -9.4 |
8 | 1 | 9 | 27 | 39 | 33.0 | 33.9 | -0.9 |
9 | 1 | 10 | 27 | 29 | 28.0 | 33.9 | -5.9 |
10 | 2 | 3 | 39 | 28 | 33.5 | 33.9 | -0.4 |
11 | 2 | 4 | 39 | 43 | 41.0 | 33.9 | 7.1 |
12 | 2 | 5 | 39 | 35 | 37.0 | 33.9 | 3.1 |
13 | 2 | 6 | 39 | 41 | 40.0 | 33.9 | 6.1 |
14 | 2 | 7 | 39 | 36 | 37.5 | 33.9 | 3.6 |
15 | 2 | 8 | 39 | 22 | 30.5 | 33.9 | -3.4 |
16 | 2 | 9 | 39 | 39 | 39.0 | 33.9 | 5.1 |
17 | 2 | 10 | 39 | 29 | 34.0 | 33.9 | 0.1 |
18 | 3 | 4 | 28 | 43 | 35.5 | 33.9 | 1.6 |
19 | 3 | 5 | 28 | 35 | 31.5 | 33.9 | -2.4 |
20 | 3 | 6 | 28 | 41 | 34.5 | 33.9 | 0.6 |
21 | 3 | 7 | 28 | 36 | 32.0 | 33.9 | -1.9 |
22 | 3 | 8 | 28 | 22 | 25.0 | 33.9 | -8.9 |
23 | 3 | 9 | 28 | 39 | 33.5 | 33.9 | -0.4 |
24 | 3 | 10 | 28 | 29 | 28.5 | 33.9 | -5.4 |
25 | 4 | 5 | 43 | 35 | 39.0 | 33.9 | 5.1 |
26 | 4 | 6 | 43 | 41 | 42.0 | 33.9 | 8.1 |
27 | 4 | 7 | 43 | 36 | 39.5 | 33.9 | 5.6 |
28 | 4 | 8 | 43 | 22 | 32.5 | 33.9 | -1.4 |
29 | 4 | 9 | 43 | 39 | 41.0 | 33.9 | 7.1 |
30 | 4 | 10 | 43 | 29 | 36.0 | 33.9 | 2.1 |
31 | 5 | 6 | 35 | 41 | 38.0 | 33.9 | 4.1 |
32 | 5 | 7 | 35 | 36 | 35.5 | 33.9 | 1.6 |
33 | 5 | 8 | 35 | 22 | 28.5 | 33.9 | -5.4 |
34 | 5 | 9 | 35 | 39 | 37.0 | 33.9 | 3.1 |
35 | 5 | 10 | 35 | 29 | 32.0 | 33.9 | -1.9 |
36 | 6 | 7 | 41 | 36 | 38.5 | 33.9 | 4.6 |
37 | 6 | 8 | 41 | 22 | 31.5 | 33.9 | -2.4 |
38 | 6 | 9 | 41 | 39 | 40.0 | 33.9 | 6.1 |
39 | 6 | 10 | 41 | 29 | 35.0 | 33.9 | 1.1 |
40 | 7 | 8 | 36 | 22 | 29.0 | 33.9 | -4.9 |
41 | 7 | 9 | 36 | 39 | 37.5 | 33.9 | 3.6 |
42 | 7 | 10 | 36 | 29 | 32.5 | 33.9 | -1.4 |
43 | 8 | 9 | 22 | 39 | 30.5 | 33.9 | -3.4 |
44 | 8 | 10 | 22 | 29 | 25.5 | 33.9 | -8.4 |
45 | 9 | 10 | 39 | 29 | 34.0 | 33.9 | 0.1 |
La media de la distribución muestral de la media se obtiene al sumar las medias muestrales y dividir el resultado entre el número de muestras. La media de todas las medias muestrales se representa mediante \(\mu_\bar{x}\) \[\mu_\bar{x} = \sum_{i=1}^{N}\bar{x}=\bar{x_1} + \bar{x_2}+\bar{x_3}...\bar{x_n}\] Entonces … la media de la distribución muestral comparado con la media poblaciónal
paste("La media poblacional es: ", media.pob, " y la media de la edad de la distribución muestral es: ", mean(muestras$`Media muestra`))
## [1] "La media poblacional es: 33.9 y la media de la edad de la distribución muestral es: 33.9"
tabla.frec.muestras <- fdt(muestras$`Media muestra`, )
kable(tabla.frec.muestras, caption = "Tabla de frecuencias de la medias de edades de cada muestra")
|
|
muestras$media.muestra <- muestras$`Media muestra`
barplot(height = tabla.frec.muestras$table$f, names.arg = tabla.frec.muestras$table$`Class limits`)
El gráfico de barra muestra que la mayor cantidad de medias muestrales de edades está en valores de en medio por lo que su comportamiento es de tipo normal y la muestral de todas las medias de edades es igual a 33.9 La distribución muestral de la media es la distribución de todas las medias muestrales \(\bar{x}\) con tamaño de la muestra \(n\) de una población \(N\), y se conoce la desviación estándar \(\sigma\) de la población. (Lind et al., 2015)
El valor estadístico de la media muestral de una población es un buen estimador dado que se comprueba que es estadísticamente correcto quedanddo demostrado mediante el teorema de límite central.
El teorema central del límite hace hincapié en que, en el caso de muestras aleatorias grandes, la forma de la distribución muestral de la media se aproxima a la distribución de probabilidad normal.(Lind et al., 2015).
La aproximación es más exacta en el caso de muestras grandes que en el de muestras pequeñas; lo cual es una de las conclusiones más útiles de la estadística porque permite razonar sobre la distribución de las medias muestrales sin ninguna información acerca de la forma de la distribución de la población de la que se toma la muestra. En otras palabras, el teorema central del límite se cumple en el caso de todas las distribuciones.
Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para administración y economía (10th ed.). Cengage Learning,
Lind, D., Marchal, W., & Wathen, S. (2015). Estadística aplicada a los negocios y la economía (Decimo Sexta). McGraw-Hill.
Walpole, R. E., Myers, R. H., & Myers, S. L. (2012). Probabilidad y estadística para ingeniería y ciencias (Novena Edición). Pearson.