Objetivo

Simular el teorema del límite central.

Descripción

Con un conjunto de datos y librerías adecuadas, simular el valor de la media muestral comparado con el valor de la media poblacional asociando con ello con el teorema del límite central.

Fundamento teórico

Recordando los conceptos de población y muestra se dice que una población es el conjunto de todos los elementos que interesan en un estudio, y una muestra es un subconjunto de la población. (Anderson et al., 2008).

Ahora bien, a las características numéricas de una población, como la media μ y la desviación estándar S2, se les llama parámetros, por otra parte a los valores numéricos de una muestra como la media muestral x¯ o la desviación típica de una muestra σ se les llama estadísticos.

El principal propósito de la inferencia estadística es hacer estimaciones y pruebas de hipótesis acerca de los parámetros poblacionales usando la información que proporciona una muestra (Anderson et al., 2008).

Entonces, ¿porqué hacer muestras?, porque ayudan a determinar estimaciones de toda una población, resulta menos costoso indagar sobre una muestra que sobre toda la población.

Por ejemplo: Imaginar que se quiera saber el valor medio de kilometraje o millaje de una llantas de autos, para estimar la duración media, en millas, el fabricante selecciona una muestra de cierta cantidad de neumáticos nuevos para probarlos y determina los estadísticos como la media muestral en lugar de probar y medir todas las llantas, eso optimiza en tiempo y costo y permite establecer un estimador sobre la duración de todas las llantas.

Otro ejemplo sería conocer la opinión de la población usando una muestra que represnte a toda la pobación y se puede conocer la media sobre cualquier aspecto numéricamente de partido político, gobierno, instituciones, o cualquier otro ámbito. Aquí nuevamente se conocen estimaciones de toda la población a través de los estadísticos.

Un tercer caso sería por ejemplo, el tratar de llegar a una conclusión con respecto a la proporción de personas bebedoras de café en Estados Unidos que prefieren cierta marca de café. Sería imposible preguntar a cada bebedor de café estadounidense para calcular el valor del parámetro p que representa la proporción de la población. En cambio, se selecciona una muestra aleatoria grande y se calcula la proporción p^ de personas en esta muestra que prefieren la marca de café en cuestión. El valor p^ se utiliza ahora para hacer una inferencia con respecto a la proporción p verdadera. (Walpole et al., 2012).

En resumen, las muestras se emplean para determinar características de la población. Por ejemplo, con la media de una muestra se calcula la media de la población; no obstante, como la muestra forma parte o es una porción representativa de la población, es poco probable que su media sea exactamente igual a la de la población (Lind et al., 2015)

Además, es poco factible que la desviación estándar de la muestra sea exactamente igual a la de la población; por lo tanto, se puede esperar una diferencia entre un estadístico de la muestra y el parámetro de la población correspondiente; la cual recibe el nombre de error de muestreo (Lind et al., 2015).

El error de muestreo lo define (Lind et al., 2015) como la diferencia entre el estadístico de una muestra y el parámetro de la población correspondiente.

Para determinar un error de muestreo con respecto a la media x¯−μ

Distribución muestral de la media significa que si se organizan las medias de todas las muestras posibles en una distribución de probabilidad, el resultado recibe el nombre de distribución muestral de la media (Lind et al., 2015).

Entonces, la distribución muestral de la media es la distribución de probabilidad de todas las posibles medias de las muestras de un determinado tamaño muestral de la población (Lind et al., 2015).

El concepto del teorema de limite central es que si todas las muestras de un tamaño en particular se seleccionan de cualquier población, la distribución muestral de la media se aproxima a una distribución normal (Lind et al., 2015).

Si se utiliza una población normal con media μ y varianza σ2 y se toma una muestra aleatoria de n observaciones. Cada observación xi, i=1,2,…,n, de la muestra aleatoria tendrá entonces la misma distribución normal que la población de donde se tomó (Walpole et al., 2012).

Si se toman muestras de una población con distribución desconocida (tal vez no normal), ya sea finita o infinita, la distribución muestral de la m edia x¯ será aproximadamente normal de la media poblacional μ (Walpole et al., 2012).

Lo mismo sucede para la varianza y desviación poblacional con respecto a la varianza y desviación de la muestra. Los estadísticos de una muestra son confiables independientemente del tipo de distribucion de que se trate.

Para ejemplificar estos conceptos se presentan los siguientes ejercicios:

1. Cargar librerías

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(mosaic)
## Warning: package 'mosaic' was built under R version 4.0.3
## Registered S3 method overwritten by 'mosaic':
##   method                           from   
##   fortify.SpatialPolygonsDataFrame ggplot2
## 
## The 'mosaic' package masks several functions from core packages in order to add 
## additional features.  The original behavior of these functions should not be affected by this.
## 
## Attaching package: 'mosaic'
## The following object is masked from 'package:Matrix':
## 
##     mean
## The following object is masked from 'package:ggplot2':
## 
##     stat
## The following objects are masked from 'package:dplyr':
## 
##     count, do, tally
## The following objects are masked from 'package:stats':
## 
##     binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
##     quantile, sd, t.test, var
## The following objects are masked from 'package:base':
## 
##     max, mean, min, prod, range, sample, sum
library(readr)
## Warning: package 'readr' was built under R version 4.0.3
library(ggplot2)  # Para gráficos
library(knitr)    # Para formateo de datos
library(fdth)     # Para tablas de frecuencias
## Warning: package 'fdth' was built under R version 4.0.3
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:mosaic':
## 
##     sd, var
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(gtools)   # Para combinaciones y permutaciones
## 
## Attaching package: 'gtools'
## The following object is masked from 'package:mosaic':
## 
##     logit
library(Rmpfr)    # Para factoriales de números muy grandes
## Warning: package 'Rmpfr' was built under R version 4.0.3
## Loading required package: gmp
## Warning: package 'gmp' was built under R version 4.0.3
## 
## Attaching package: 'gmp'
## The following object is masked from 'package:mosaic':
## 
##     factorize
## The following objects are masked from 'package:Matrix':
## 
##     crossprod, tcrossprod
## The following objects are masked from 'package:base':
## 
##     %*%, apply, crossprod, matrix, tcrossprod
## C code of R package 'Rmpfr': GMP using 64 bits per limb
## 
## Attaching package: 'Rmpfr'
## The following object is masked from 'package:gmp':
## 
##     outer
## The following objects are masked from 'package:stats':
## 
##     dbinom, dgamma, dnbinom, dnorm, dpois, pnorm
## The following objects are masked from 'package:base':
## 
##     cbind, pmax, pmin, rbind

2. Cargar datos

Experimentar con una población de 1000000 de edades de personas Se simula una población bajo una condición de distribución normal de N=1000000 (un millón) de personas con media de edad de 35 años y desviación estándar de 5. Se muestran los parámetros principales de la edad de la población.

N <- 1000000; 

edad.poblacion <- round(rnorm(N, mean = 35, sd = 5), 0)

summary(edad.poblacion)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      12      32      35      35      38      59
paste("El valor de edad de una pobacion. Los primeros cincuenta valores ...")
## [1] "El valor de edad de una pobacion. Los primeros cincuenta valores ..."
head(edad.poblacion, 50) 
##  [1] 33 42 34 38 40 33 33 35 37 37 44 25 30 37 39 34 35 39 43 43 28 32 40 40 26
## [26] 33 29 39 33 41 29 30 35 29 43 39 35 34 27 36 31 42 41 39 32 34 40 38 41 36
paste("El valor de edad de una pobacion. Los últimos cincuenta valores ...")
## [1] "El valor de edad de una pobacion. Los últimos cincuenta valores ..."
tail(edad.poblacion, 50)
##  [1] 35 27 28 29 36 30 36 35 35 37 35 36 31 40 30 45 39 42 41 34 32 34 38 39 30
## [26] 32 32 31 39 46 26 30 33 35 36 25 39 35 44 34 36 26 34 33 36 39 30 35 37 38
media.pob <- mean(edad.poblacion)
desv.std <- sd(edad.poblacion)

paste("Los parámetros de la media y desviación estándard de la población")
## [1] "Los parámetros de la media y desviación estándard de la población"
media.pob; desv.std
## [1] 35.00277
## [1] 5.007329

El valor medio de la edad de la pobación μ es 35.002037 y el valor de la desviación estándar de la población es S2 es 5.0063637

Determinar medias y desviaciones muestrales.

Determinar cinco muestras de n=500 casos por medio de la función sample(), se guardan en un data.frame llamado muestras. Se visualizan los estadísticos principales por medio de la función summary() Se utiliza un ciclo para determinar las medias de cada muestra. Se construye un data frame con los valores de los errores estadísticos

n <- 500
muestras <- data.frame(m1=sample(edad.poblacion, n),
                       m2=sample(edad.poblacion, n),
                       m3=sample(edad.poblacion, n),
                       m4=sample(edad.poblacion, n),
                       m5=sample(edad.poblacion, n))

summary(muestras)
##        m1              m2              m3              m4              m5      
##  Min.   :19.00   Min.   :18.00   Min.   :20.00   Min.   :21.00   Min.   :20.0  
##  1st Qu.:32.00   1st Qu.:31.75   1st Qu.:31.00   1st Qu.:32.00   1st Qu.:31.0  
##  Median :35.00   Median :35.00   Median :35.00   Median :35.00   Median :35.0  
##  Mean   :34.89   Mean   :35.03   Mean   :34.97   Mean   :34.97   Mean   :35.1  
##  3rd Qu.:38.00   3rd Qu.:38.00   3rd Qu.:38.00   3rd Qu.:38.00   3rd Qu.:39.0  
##  Max.   :50.00   Max.   :52.00   Max.   :50.00   Max.   :50.00   Max.   :49.0
kable(head(muestras, 10), caption = "Muestras de la población. Los primeros diez de 500 registros")
Muestras de la población. Los primeros diez de 500 registros
m1 m2 m3 m4 m5
35 40 39 35 31
34 32 25 26 34
32 40 23 35 42
33 40 38 42 29
42 31 36 39 39
35 31 41 33 27
31 43 32 39 28
37 28 29 30 41
35 28 38 27 30
34 36 28 31 35
kable(head(muestras, 10), caption = "Muestras de la población. Los últimos diez de 500 registros")
Muestras de la población. Los últimos diez de 500 registros
m1 m2 m3 m4 m5
35 40 39 35 31
34 32 25 26 34
32 40 23 35 42
33 40 38 42 29
42 31 36 39 39
35 31 41 33 27
31 43 32 39 28
37 28 29 30 41
35 28 38 27 30
34 36 28 31 35
medias <- 0
error <- 0

for(i in 1:5) {
  medias[i] <- mean(muestras[,i])
  error[i] <- medias[i] - media.pob
}

error.muestreo <- data.frame(Media.Poblacion = media.pob, Media.Muestras = medias, Errores = error)

kable(error.muestreo, caption = "Error de media de edad de cada muestra con respecto a la media de la población")
Error de media de edad de cada muestra con respecto a la media de la población
Media.Poblacion Media.Muestras Errores
35.00277 34.892 -0.110769
35.00277 35.032 0.029231
35.00277 34.966 -0.036769
35.00277 34.972 -0.030769
35.00277 35.104 0.101231

Cada una de estas diferencias en la columna de Errores, representa el error de muestreo cometido al calcular la media de la población. A veces estos errores son valores positivos, lo cual indica que la media muestral sobre excedió la media poblacional; otras veces son negativos, lo cual indica que la media muestral es inferior a la media poblacional (Lind et al., 2015).

Visualizando la población y la muestra

hist(edad.poblacion, main = "Histrograma de la edad de la población")

hist(muestras$m1, main = "Histrograma de la edad de la muestra 1", ylab = "Edades", xlab="Observacaiones")

hist(muestras$m2, main = "Histrograma de la edad de la muestRa 2", ylab = "Edades", xlab="Observacaiones")

hist(muestras$m3, main = "Histrograma de la edad de la muestRa 3", ylab = "Edades", xlab="Observacaiones")

hist(muestras$m4, main = "Histrograma de la edad de la muestRa 4", ylab = "Edades", xlab="Observacaiones")

hist(muestras$m5, main = "Histrograma de la edad de la muestRa 5", ylab = "Edades", xlab="Observacaiones")

Con el ejercicio anterior, anterior se encontró el error de muestreo y se presentaron los resultados de comparar un estadístico para una muestra (como la media de la muestra) con la media de la población; bajo este contexto, cuando se usa la media muestral para estudiar la media de la población, ¿cómo se determina la exactitud de la estimación?, es decir, como saber si la media de la muestra es un estimador real con respecto a la población.

Para responder estas preguntas, primero hay que precisar el concepto de distribución muestral de la media: es la distribución de probabilidad de todas las posibles medias de las muestras de un determinado tamaño muestral de la población (Lind et al., 2015).

Se recapitulan los datos iniciales N = 1000000, tamaño de la población n = 500, tamaño de la muestra edad.poblacion es la edad conocida y recabada de las personas. media.pob es la media de toda la población, desv.std es la desviación estándar de toda la población,

options(scipen = 999) # Para mostrar notación normal y no científica en el valor de N: 1e+06
N; n; 
## [1] 1000000
## [1] 500
options(scipen = 0) # Regresa a notación numérica normal 
summary(edad.poblacion)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      12      32      35      35      38      59
media.pob; desv.std
## [1] 35.00277
## [1] 5.007329
#factorialMpfr(N) / (factorialMpfr(n) * (factorialMpfr(N-n)))

Por lo anterior el número de muestra con una población de un millón (1000000) en grupo de 500 es demasiado grande para tratarlo.

Para ejemplificar el teorema de límite central se reduce la población a 10 con muestras de 2 personas.

Simulando una nueva población con los mismos valores de media de edad igual a 35 y desviación de 5.

Se determinan los nuevos parámetros de medias y desviaciones estándar de la población. * N = 10, tamaño de la población * n = 2, tamaño de la muestra

N <- 10; n <- 2

edad.poblacion <- round(rnorm(N, mean = 35, sd = 5), 0)

edad.poblacion
##  [1] 40 44 31 31 37 33 29 37 35 41
media.pob <- mean(edad.poblacion)
desv.std <- sd(edad.poblacion)

media.pob; desv.std
## [1] 35.8
## [1] 4.894441

De acuerdo al concepto distribución muestral de la media ¿cuál es el número de muestras que hay que determinar en grupos de 2 para una población de 10?

n.combinaciones <- factorialMpfr(N) / (factorialMpfr(n) * (factorialMpfr(N-n)))
as.integer(n.combinaciones)
## [1] 45

Ahora bien ¿cuál es el valor estadístico de la media de la edad de la primera muestra, de la segunda, de la tercera y de la 45 ava muestra.

Determinando muestras en grupos de 2

muestras <- cbind(1:as.integer(n.combinaciones))

muestras <- cbind(muestras, combinations(N, n, 1:N))

muestras <- cbind(muestras, edad.poblacion[muestras[,2]], edad.poblacion[muestras[,3]])

medias <- 0
error <- 0

for(i in 1:as.integer(n.combinaciones)) {
  medias[i] <- mean(muestras[i,c(4,5)])
  error[i] <- medias[i] - media.pob
}

muestras <- cbind(muestras, medias)
muestras <- cbind(muestras, media.pob)
muestras <- cbind(muestras, error)

muestras <- data.frame(muestras)

colnames(muestras) <- c("Muestra", "Pos.1", "Pos.2", "Valor.1", "Valor.2", "Media muestra", "Media pob.", "Error")

kable(muestras, caption = "Las muestras")
Las muestras
Muestra Pos.1 Pos.2 Valor.1 Valor.2 Media muestra Media pob. Error
1 1 2 40 44 42.0 35.8 6.2
2 1 3 40 31 35.5 35.8 -0.3
3 1 4 40 31 35.5 35.8 -0.3
4 1 5 40 37 38.5 35.8 2.7
5 1 6 40 33 36.5 35.8 0.7
6 1 7 40 29 34.5 35.8 -1.3
7 1 8 40 37 38.5 35.8 2.7
8 1 9 40 35 37.5 35.8 1.7
9 1 10 40 41 40.5 35.8 4.7
10 2 3 44 31 37.5 35.8 1.7
11 2 4 44 31 37.5 35.8 1.7
12 2 5 44 37 40.5 35.8 4.7
13 2 6 44 33 38.5 35.8 2.7
14 2 7 44 29 36.5 35.8 0.7
15 2 8 44 37 40.5 35.8 4.7
16 2 9 44 35 39.5 35.8 3.7
17 2 10 44 41 42.5 35.8 6.7
18 3 4 31 31 31.0 35.8 -4.8
19 3 5 31 37 34.0 35.8 -1.8
20 3 6 31 33 32.0 35.8 -3.8
21 3 7 31 29 30.0 35.8 -5.8
22 3 8 31 37 34.0 35.8 -1.8
23 3 9 31 35 33.0 35.8 -2.8
24 3 10 31 41 36.0 35.8 0.2
25 4 5 31 37 34.0 35.8 -1.8
26 4 6 31 33 32.0 35.8 -3.8
27 4 7 31 29 30.0 35.8 -5.8
28 4 8 31 37 34.0 35.8 -1.8
29 4 9 31 35 33.0 35.8 -2.8
30 4 10 31 41 36.0 35.8 0.2
31 5 6 37 33 35.0 35.8 -0.8
32 5 7 37 29 33.0 35.8 -2.8
33 5 8 37 37 37.0 35.8 1.2
34 5 9 37 35 36.0 35.8 0.2
35 5 10 37 41 39.0 35.8 3.2
36 6 7 33 29 31.0 35.8 -4.8
37 6 8 33 37 35.0 35.8 -0.8
38 6 9 33 35 34.0 35.8 -1.8
39 6 10 33 41 37.0 35.8 1.2
40 7 8 29 37 33.0 35.8 -2.8
41 7 9 29 35 32.0 35.8 -3.8
42 7 10 29 41 35.0 35.8 -0.8
43 8 9 37 35 36.0 35.8 0.2
44 8 10 37 41 39.0 35.8 3.2
45 9 10 35 41 38.0 35.8 2.2

La media de la distribución muestral de la media se obtiene al sumar las medias muestrales y dividir el resultado entre el número de muestras. La media de todas las medias muestrales se representa mediante μx¯ μx¯=∑i=1Nx¯=x1¯+x2¯+x3¯…xn¯ Entonces … la media de la distribución muestral comparado con la media poblaciónal

paste("La media poblacional es: ", media.pob, " y la media de la edad de la distribución muestral es: ", mean(muestras$`Media muestra`))
## [1] "La media poblacional es:  35.8  y la media de la edad de la distribución muestral es:  35.8"

Interpretacion del Caso 23

En la elaboracion de este caso se dio a conocer lo que es el valor estadístico de la media muestral de una población, el valor total con el que se trabajo fue de 1,000,000 de personas de los cuales se tomo en cuenta su edad, con la media de un valor estable entre los 35 años y asi mismo tambien se trabajo con la desviacion estandar con un valor de 5, asi mismo la aproximacion que se obtuvo tiene los valores o resultados mas exactos en los casos donde las muestras que se hicieron son grandes y hubo valores menos exactos en las muestras que son mas pequeñas, con esto quiere decir que esto permite razonar la distribucion de medias muestrales que se lllevan acabo con el teorema central del limite siendo asi este que cumpla con todas las distribuciones.

Referencias bibliográficas

Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para administración y economía (10th ed.). Cengage Learning,

Lind, D., Marchal, W., & Wathen, S. (2015). Estadística aplicada a los negocios y la economía (Decimo Sexta). McGraw-Hill.

Walpole, R. E., Myers, R. H., & Myers, S. L. (2012). Probabilidad y estadística para ingeniería y ciencias (Novena Edición). Pearson.