1 Objetivo

Demostrar el teorema de límite central

2 Descripción

Se cargan unos de datos de población y se aplica el teorema de límite central

3 Fundamento teórico

Los conceptos de error muestral y la aplicación a la distribución muestral de medias presentados anteriormente; permite utilizar la distribución de probabilidad normal para crear intervalos de confianza de la media poblacional descrita en casos siguientes así como la pruebas de hipótesis

El teorema central del límite hace hincapié en que, en el caso de muestras aleatorias grandes, la forma de la distribución muestral de la media se aproxima a la distribución de probabilidad normal.

Una definición sería TEOREMA CENTRAL DEL LÍMITE: si todas las muestras de un tamaño en particular se seleccionan de cualquier población, la distribución muestral de la media se aproxima a una distribución normal; esta mejora con muestras más grandes.

La aproximación es más exacta en el caso de muestras grandes que en el de muestras pequeñas; lo cual es una de las conclusiones más útiles de la estadística porque permite razonar sobre la distribución de las medias muestrales sin ninguna información acerca de la forma de la distribución de la población de la que se toma la muestra.

El teorema central del límite se cumple en el caso de todas las distribuciones.

Cuando se seleccionan muestras aleatorias simples de tamaño \(n\) de una población \(N\), la distribución muestral de la media muestral puede aproximarse a la media poblacional mediante una distribución normal a medida que el tamaño de la muestra se hace grande (Anderson, Sweeney, and Williams 2008a).

El planteamiento del teorema, la suposición de normalidad en la distribución de la media \(\bar{x}\) se vuelve más precisa a medida que \(n\) se hace más grande.

Ahora bien, la media muestral se le conoce como el estimador puntual de la media poblacional \(\mu\), a la desviación estándar muestral \(S\) como el estimador puntual de la desviación estándar poblacional \(\sigma\).

La distribución muestral de la media un estadístico que depende de la distribución de la población, del tamaño de las muestras y del método de selección de las muestras.

Como la variable aleatoria media muestral puede tener muchos valores diferentes, suele ser de interés conocer la media de todos los valores de \(\bar{x}\) que se obtienen con diferentes muestras aleatorias simples.

La media de todas las variables aleatoria es el valor esperado de \(\bar{x}\). El valor esperado se denota como \(E(\bar{x})\).

Con respecto a determinar si un estimador puntual como la media muestral \(\bar{x}\) esta se debe valorar por sus propiedades de insesgadez, eficiencia y consistencia.

  • insesgadez. Si el valor esperado del estadístico muestral \(E(\hat\theta)\) es igual al parámetro poblacional \(E(\theta\) que se estudia, se dice que el estadístico muestral es un estimador insesgado del parámetro poblacional. Algunas veces, el valor del estimador puntual \(E(\hat\theta)\) puede ser menor que \(E(\theta)\) y otras veces sea mayor que \(E(\theta)\). La importancia radica en si la distribución muestral está muy sesgada, los estadísticos generados pueden ser subestimados o sobreestimados.
  • Eficiencia. Una distribución muestral es mas eficiente cuando tiene menor error muestral, siendo este último la diferencia de la media poblacional \(\mu\) con la media muestral \(\bar{x}\). Se dice que el estimador puntual con menor error estándar tiene mayor eficiencia relativa que los otros.
  • Consistencia. Cuanto se obtienen varias muestra se debe observar que la media muestral \(\bar{x}\) debe acercarse a la media poblacional \(\mu\) conforme la muestra aumenta.

Si la población es una distribución normal, entonces, en el caso de cualquier tamaño de muestra, la distribución muestral de las medias también será de naturaleza normal.

Si la distribución poblacional es simétrica (pero no normal), la forma normal de la distribución muestral de las
medias se presenta con muestras tan pequeñas como 10.

Por otra parte, si se comienza con una distribución sesgada o con colas anchas, quizá se requieran muestras de 30 o más para registrar la característica de normalidad.

Es posible comparar la media de las medias de la muestra con la media de la población. \[ \text{media de la población = }\mu = \frac{\sum_{i=1}^{N} x_i}{N} \]

\[ \text{media de medias de la distribución muestral = }\mu_{\bar{x}} = \frac{\sum_{i=1}^{n} \bar{x}_i}{n} \]

Ahora bien ¿qué pasa con respecto a la desviación estándar de una población con respecto a la desviación de una distribución de medias?

En los ejemplos que se muestran abajo hay menor dispersión en la distribución de la media muestral que en la distribución de la población, lo cual indica la diferencia entre los rangos de la población y los de las medias muestrales.

Además se advierte que la media de las medias de las muestras se encuentra cerca de la de la población; es posible demostrar que la media de la distribución muestral es la media poblacional (es decir, \(\mu = \mu_{\bar{x}}\) y si la desviación estándar de la población es \(\sigma\), la de las medias muestrales es \(\frac{\sigma}{\sqrt{n}}\), en la que \(n\) es el número de observaciones de cada muestra.

Entonces, es el error \(\frac{\sigma}{\sqrt{n}}\) estándar de la media. En realidad, el nombre completo es desviación estándar de la distribución muestral de la media.

\[ \text{Error estándar=}\frac{\sigma}{\sqrt{n}} \]

4 Desarrollo

4.1 Cargar librerías

library(cowplot) # Gráficos
library(ggplot2) # Gráficos
library(knitr)   # Tablas 
library(fdth)    # Tabla de frecuencias

4.2 Cargar datos

Se toma el ejercicio de un negocio 40 empleados que tienen ciertos años de trabajo en una empresa, los datos son generados para este caso y la fuente del ejercicio original está en el libro de (Lind, Marchal, and Wathen 2015) página 235.

Se estiman valores de los trabajadores con años de servicio y los datos con ciertas características. Los datos de la población creados a partir de la función sample() tienden a ser un población con sesgo positivo:

Como el negocio ha crecido en años recientes, la distribución indica que 29 de los 40, o sea el 72% de los empleados han estado en la compañía durante menos de seis años.

También hay 11 empleados que tienen más de seis años. 4 de éstos 11 han laborado en la compañía doces años o más.

La variable de interés es años de servicio (agnios) del conjunto de datos población.

4.2.1 Simulando los años de servicio

set.seed(2022)

4.2.2 La población por años de servicio

4.2.2.1 Datos generados aleatoriamente

menos.de.seis <- sample(x = 1:5, size = 29, replace = TRUE)
mas_de_seis <- sample(x = 6:11, size = 7, replace = TRUE)
mas_de_doce <- sample(x = 12:19, size = 4, replace = FALSE)
poblacion <- data.frame(agnios = c(menos.de.seis, mas_de_seis, mas_de_doce))
poblacion$agnios
##  [1]  4  3  3  4  4  3  1  5  2  5  1  3  1  2  2  5  4  4  4  5  3  4  3  4  3
## [26]  4  5  2  2 10  7  6  8  6 11  8 16 15 13 12

4.2.2.2 Conforme a datos del ejercicio del libro

Será opcional usar estos datos

#agnios <- c(11,4,18,2,1,2,0,2,2,4,3,4,1,2,2,3,3,19,8,3,7,1,0,2,7,0,4,5,1,14,16,8,9,1,1,2,5,10,2,3)
#poblacion <- data.frame(agnios)

4.2.3 Tabla de Frecuencia

Similar al ejercicio original del libro, el 82.50% de los trabajadores tiene entre 0 y 8 años aproximadamente y el 17.50% tiene por encima de 8 años

tabla <- fdt(poblacion$agnios, breaks = "Sturges")
tabla
##     Class limits  f   rf rf(%) cf cf(%)
##    [0.99,3.1571) 15 0.38  37.5 15  37.5
##  [3.1571,5.3243) 14 0.35  35.0 29  72.5
##  [5.3243,7.4914)  3 0.07   7.5 32  80.0
##  [7.4914,9.6586)  2 0.05   5.0 34  85.0
##  [9.6586,11.826)  2 0.05   5.0 36  90.0
##  [11.826,13.993)  2 0.05   5.0 38  95.0
##   [13.993,16.16)  2 0.05   5.0 40 100.0

Parámetro poblacional de la media

Se determina la media de la población de los años de servicio y la desviación estándar para comparar su uso y estimar con la desviación estándar de la población, la dispersión de la distribución de medias.

\[ \mu = \frac{\sum_{i=1}^{n} agnios_i}{N}= \]

summary(poblacion$agnios)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.000   4.000   5.175   6.000  16.000
media.p <- round(mean(poblacion$agnios),2)
desv.p <- sd(poblacion$agnios)
media.p; desv.p
## [1] 5.18
## [1] 3.747734

4.2.4 Histograma de la población.

Se presenta el histograma con la única variable de interés años de servicio de los \(N=40\) trabajadores.

N <- nrow(poblacion)
g1 <- ggplot(poblacion, aes(x = agnios)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "lightblue") +
  labs(title = "Población",
      subtitle = paste("N=",N," Media=", media.p),
              caption = "Fuente propia") +  
  geom_vline(xintercept = media.p, col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
g1 <- g1 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=6),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, nrow = 1, ncol = 1)
## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Se observa un sesgo positivo en la distribución de la población. La distribución es asimétrica positiva.

4.3 Distribución muestral para VEINTICINCO muestras n=5

El valor del tamaño de la población \(N=40\). Las muestras tendrán cinco elementos cada una por lo que el valor del tamaño de las muestras \(n=5\).

Se toma un valor de venticinco muestras por decir un número pero en realidad hay 658008 muestras de tamaño \(n=5\) que se pueden tomar de la población de \(N=40\) empleados, las cuales se determinan con la fórmula de las combinaciones.

4.3.1 Inicializando variables

n <- 5 # Tamaño de cada muestra
N <- length(poblacion$agnios) # Tamaño de la población
n; N
## [1] 5
## [1] 40
nm <- 25 # Número de muestras
nm
## [1] 25

4.3.2 Construyendo muestras

muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:nm) {
    muestras[[i]] <- sample(x = poblacion$agnios, size = n, replace = FALSE)
    
  m.muestras[i] <- round(mean(muestras[[i]]),2)
}

4.3.3 Tabla de distribución

Formando tabla de distribución de medias en la última columna la media de las muestras.

Crear los valores de las medias por renglón con al función t() se convierte columnas a renglones.

distribucion.medias <- data.frame(muestras)
distribucion.medias <- data.frame(t(distribucion.medias))

Poner nombres de columnas x1, x2, x3, x4, x5 y nombres de observaciones M1, M2, M3, …. M25

colnames(distribucion.medias) <- paste0("x", seq(1:n))
rownames(distribucion.medias) <- paste0("M", seq(1:nm))

4.3.3.1 Media muestral

Agregar la columna medias del vector m.muestras previamente generado en el ciclo de 1 a 25.

distribucion.medias <- cbind(distribucion.medias, medias = m.muestras)

4.3.3.2 Distribución muestral de la media

Mostrar la tabla de distribución de medias de todas las muestras.

kable(distribucion.medias, caption = paste("Distribución muestral de la media ", nm, " muestras, tamaño de la muestra n=", n))
Distribución muestral de la media 25 muestras, tamaño de la muestra n= 5
x1 x2 x3 x4 x5 medias
M1 3 6 5 8 11 6.6
M2 4 5 12 5 3 5.8
M3 7 4 5 3 4 4.6
M4 4 4 3 2 4 3.4
M5 4 3 8 3 4 4.4
M6 2 2 8 7 3 4.4
M7 3 1 2 11 16 6.6
M8 5 11 6 5 3 6.0
M9 5 4 2 5 2 3.6
M10 8 2 5 4 2 4.2
M11 13 3 4 2 3 5.0
M12 4 8 15 4 4 7.0
M13 5 4 1 13 4 5.4
M14 6 4 5 4 1 4.0
M15 3 4 2 6 1 3.2
M16 4 1 4 7 3 3.8
M17 2 4 4 2 1 2.6
M18 12 15 1 4 3 7.0
M19 1 2 11 3 4 4.2
M20 3 4 4 5 4 4.0
M21 6 4 16 13 3 8.4
M22 2 3 4 4 4 3.4
M23 5 2 6 5 15 6.6
M24 13 2 3 2 7 5.4
M25 3 1 10 4 5 4.6

4.3.3.3 Rangos

range(poblacion$agnios)
## [1]  1 16
range(distribucion.medias$medias)
## [1] 2.6 8.4

4.3.3.4 Error estándar

El error estándar es la desviación estándar de la distribución muestral de la media o la dispersión de la misma en el sentido del rango de la distribución. \[ \text{Error estándar=}\frac{\sigma}{\sqrt{n}} \]

err.std <- round(desv.p / sqrt(n),2 )
paste("El error estándar es de ", err.std, "para n=",n, "y número de muestras nm = ", nm, ". El Err. Std. significa  la dispersión de la distribución muestral de la media.")
## [1] "El error estándar es de  1.68 para n= 5 y número de muestras nm =  25 . El Err. Std. significa  la dispersión de la distribución muestral de la media."

4.3.3.5 Histograma de la distribución

g2 <- ggplot(distribucion.medias, aes(x = medias)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "lightblue") +
  labs(title = "Distribución muestral",
      subtitle = paste("NM = ", nm, "; n = ",n , "; Me = ", round(mean(distribucion.medias$medias),2), "Er.Std=",err.std),
              caption = "Fuente propia") +  
  geom_vline(xintercept = round(mean(distribucion.medias$medias),2), col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g2 <- g2 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)

Se observa la diferencia de forma de las distribuciones poblacional y muestral de medias; la población de tiempos de servicio de los empleados(izquierda) tiene un sesgo positivo, y la distribución de estas 25 medias muestrales no refleja el mismo sesgo positivo.

También se observa una diferencia en el rango de las medias muestrales en comparación con el rango de la población.

En la población, los periodos de servicio variaron de 1 a 19 años. Cuando se seleccionaron muestras de tamaño 30, las medias de las muestras variaron de 2.6 a 9.2 años.

4.4 Distribución muestral para VEINTICINCO muestras n=30

El valor del tamaño de la población \(N=40\). Las muestras tendrán treinta elementos cada una por lo que el valor del tamaño de las muestras \(n=30\). Ahora se aumenta el número de elementos de la muestra.

4.4.1 Inicializando variables

¿Qué sucede si se aumenta el número de elementos de la muestra \(n=30\) y el mismo número de muestras 25?

n <- 30 # Tamaño de cada muestra
N <- length(poblacion$agnios) # Tamaño de la población
n; N
## [1] 30
## [1] 40
nm <- 25 # Número de muestras
nm
## [1] 25

4.4.2 Construyendo muestras

muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:nm) {
    muestras[[i]] <- sample(x = poblacion$agnios, size = n, replace = FALSE)
    
  m.muestras[i] <- round(mean(muestras[[i]]),2)
}

4.4.3 Tabla de distribución

Formando tabla de distribución de medias en la última columna la media de las muestras.

Crear los valores de las medias por renglón con al función t() se convierte columnas a renglones.

distribucion.medias <- data.frame(muestras)
distribucion.medias <- data.frame(t(distribucion.medias))

Poner nombres de columnas x1, x2, x3, x4, x5 … x20 y nombres de observaciones M1, M2, M3, …. M30

colnames(distribucion.medias) <- paste0("x", seq(1:n))
rownames(distribucion.medias) <- paste0("M", seq(1:nm))

4.4.3.1 Media muestral

Agregar la columna medias del vector m.muestras previamente generado en el ciclo de 1 a 25.

distribucion.medias <- cbind(distribucion.medias, medias = m.muestras)

4.4.3.2 Distribución muestral de la media

Mostrar la tabla de distribución de medias de todas las muestras

kable(distribucion.medias, caption = paste("Distribución muestral de la media ", nm, " muestras, ", "tamaño de la muestra n=",n))
Distribución muestral de la media 25 muestras, tamaño de la muestra n= 30
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 x21 x22 x23 x24 x25 x26 x27 x28 x29 x30 medias
M1 5 2 4 1 3 12 5 5 3 4 2 4 15 8 5 2 4 2 16 6 5 11 4 3 4 3 4 6 4 1 5.10
M2 3 3 4 3 2 2 7 5 6 2 8 1 12 4 4 5 11 2 4 1 5 3 15 5 3 4 16 2 4 8 5.13
M3 2 5 3 4 4 6 11 4 2 4 15 3 5 1 13 3 3 5 6 5 5 8 1 2 7 4 10 4 4 1 5.00
M4 1 5 4 3 5 4 4 4 3 7 16 3 13 4 4 1 6 3 2 5 3 2 8 4 4 11 5 2 3 5 4.80
M5 2 7 12 4 15 5 2 10 4 13 4 2 11 16 1 5 3 3 5 3 3 8 1 3 4 4 2 3 4 5 5.47
M6 7 4 4 5 3 2 4 8 4 2 11 5 4 4 5 6 5 16 1 3 15 12 3 6 2 2 2 4 4 3 5.20
M7 4 10 1 3 2 2 3 4 5 2 4 6 8 13 6 5 4 16 4 2 4 3 2 8 3 5 1 1 3 5 4.63
M8 3 2 1 4 5 4 6 5 3 6 1 4 5 8 2 11 2 12 5 2 13 4 3 5 10 4 2 4 3 15 5.13
M9 15 2 4 1 5 4 3 4 5 4 5 6 5 3 4 2 1 4 3 13 10 8 3 16 4 11 5 12 3 1 5.53
M10 4 11 3 2 4 7 1 2 2 5 3 4 4 6 4 1 16 2 1 10 5 4 6 3 8 13 4 3 5 15 5.27
M11 4 4 4 6 11 13 3 5 5 10 3 4 3 6 2 2 5 1 4 7 15 1 2 4 3 8 4 3 3 3 4.93
M12 12 4 4 11 5 8 3 10 6 2 2 3 7 15 4 4 4 4 2 4 4 1 5 8 3 1 2 2 3 16 5.30
M13 2 8 4 2 1 5 11 3 5 4 6 6 4 2 4 2 3 4 4 8 5 7 5 5 4 13 3 1 3 3 4.57
M14 3 3 3 3 5 5 1 4 16 4 4 5 4 1 2 8 5 7 4 6 1 8 6 4 4 4 2 3 15 4 4.80
M15 3 1 3 2 15 3 5 10 11 2 3 2 4 4 5 6 1 5 7 13 4 4 2 12 5 3 3 5 4 1 4.93
M16 5 8 13 3 4 2 3 4 3 3 10 4 4 5 15 12 4 4 3 7 4 6 2 2 2 5 8 1 2 6 5.13
M17 4 3 5 4 4 16 8 4 3 5 1 10 3 2 2 2 3 7 6 11 3 3 5 3 4 4 1 6 4 12 4.93
M18 5 3 4 2 5 7 4 6 3 2 10 3 5 16 4 13 4 15 2 4 3 5 4 4 4 6 2 2 8 8 5.43
M19 4 2 4 3 15 16 3 7 5 2 4 3 4 3 12 8 1 1 4 5 6 5 3 5 3 4 2 2 3 13 5.07
M20 1 2 5 12 1 8 3 5 3 5 5 5 2 4 4 1 4 6 11 3 4 15 13 3 3 4 3 2 16 2 5.17
M21 2 5 3 3 4 8 5 5 5 4 2 3 1 8 2 4 5 6 3 13 15 10 4 2 4 11 6 4 12 16 5.83
M22 7 16 4 4 4 13 5 2 4 3 10 5 6 12 3 4 8 2 5 2 3 3 15 4 5 4 2 3 5 8 5.70
M23 5 2 2 6 4 7 3 15 1 4 1 4 3 4 16 11 2 8 5 3 5 4 13 3 4 5 2 3 12 4 5.37
M24 4 1 1 11 4 8 3 5 3 5 2 4 2 3 8 4 1 5 3 12 3 10 2 3 6 4 15 3 7 4 4.87
M25 4 4 10 5 5 12 3 3 2 1 1 3 2 3 11 5 4 4 2 5 6 8 1 16 8 2 13 4 7 6 5.33

4.4.3.3 Rango

range(poblacion$agnios)
## [1]  1 16
range(distribucion.medias$medias)
## [1] 4.57 5.83

En la población, los periodos de servicio variaron de 1 a 19 años. Cuando se seleccionaron muestras de tamaño 30, las medias de las muestras variaron de 4.67 a 6.37 años.

4.4.3.4 Error estándar

El error estándar es la desviación estándar de la distribución muestral de la media o la dispersión de la misma en el sentido del rango de la distribución. \[ \text{Error estándar=}\frac{\sigma}{\sqrt{n}} \]

err.std <- round(desv.p / sqrt(n),2 )
paste("El error estándar es de ", err.std, "para n=",n, "y número de muestras nm = ", nm, ". El Err. Std. significa  la dispersión de la distribución muestral de la media.")
## [1] "El error estándar es de  0.68 para n= 30 y número de muestras nm =  25 . El Err. Std. significa  la dispersión de la distribución muestral de la media."

4.4.3.5 Histograma de la distribución

g3 <- ggplot(distribucion.medias, aes(x = medias)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "green") +
  labs(title = "Distribución muestral ",
                  subtitle = paste("NM = ", nm, "; n = ",n , "; Me = ", round(mean(distribucion.medias$medias),2), "Err.Std=",err.std),
              caption = "Fuente propia") +  
  geom_vline(xintercept = round(mean(distribucion.medias$medias),2), col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g3 <- g3 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=6),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, g3, nrow = 1, ncol = 3)

A medida que incrementa el tamaño de la muestra, la distribución muestral de las medias se aproxima a la distribución de probabilidad normal; este hecho se ilustra con el teorema central del límite.

Hay menos dispersión en la distribución muestral de las medias que en la distribución de la población.

4.5 Distribución muestral para CIEN muestras n=30

El valor del tamaño de la población \(N=40\). Las muestras tendrán treinta elementos cada una por lo que el valor del tamaño de las muestras \(n=30\).

Ahora se aumenta el número de muestras a \(nm=100\)

4.5.1 Inicializando variables

n <- 30 # Tamaño de cada muestra
N <- length(poblacion$agnios) # Tamaño de la población
n; N
## [1] 30
## [1] 40
nm <- 100 # Número de muestras
nm
## [1] 100

4.5.2 Construyendo muestras

muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:nm) {
    muestras[[i]] <- sample(x = poblacion$agnios, size = n, replace = FALSE)
    
  m.muestras[i] <- round(mean(muestras[[i]]),2)
}

4.5.3 Tabla de distribución

Formando tabla de distribución de medias en la última columna la media de las muestras.

Crear los valores de las medias por renglón con al función t() se convierte columnas a renglones.

distribucion.medias <- data.frame(muestras)
distribucion.medias <- data.frame(t(distribucion.medias))

Poner nombres de columnas x1, x2, x3, x4, x5 … x20 y nombres de observaciones M1, M2, M3, …. M25 … M100

colnames(distribucion.medias) <- paste0("x", seq(1:n))
rownames(distribucion.medias) <- paste0("M", seq(1:nm))

4.5.3.1 Media muestral

Agregar la columna medias del vector m.muestras previamente generado en el ciclo de 1 a total de muestras.

distribucion.medias <- cbind(distribucion.medias, medias = m.muestras)

4.5.3.2 Distribución muestral de la media

Mostrar la tabla de distribución de medias de todas las muestras

kable(distribucion.medias, caption = paste("Distribución muestral de la media ", nm, " muestras, ", "tamaño de la muestra n=",n))
Distribución muestral de la media 100 muestras, tamaño de la muestra n= 30
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 x21 x22 x23 x24 x25 x26 x27 x28 x29 x30 medias
M1 10 3 7 12 8 11 4 3 5 2 4 1 8 3 4 13 5 2 6 4 2 4 5 4 1 3 3 5 16 5 5.43
M2 8 6 4 8 4 3 4 2 11 5 3 5 4 7 4 10 3 12 2 2 3 4 16 1 3 4 3 5 1 15 5.40
M3 8 4 2 7 15 4 1 3 5 6 3 2 3 2 3 4 12 3 5 4 3 4 13 5 5 6 4 16 8 11 5.70
M4 1 4 4 10 2 3 8 15 12 8 6 3 4 3 6 4 4 1 2 13 11 5 16 3 2 3 5 2 3 4 5.57
M5 4 6 15 4 3 10 3 3 2 2 12 4 2 1 3 5 5 4 8 4 1 7 8 5 2 4 13 3 11 6 5.33
M6 1 10 3 3 6 16 4 5 4 13 5 2 1 5 2 15 3 8 3 7 2 3 1 5 8 3 4 12 2 6 5.40
M7 2 3 1 2 11 5 2 3 1 4 3 4 4 2 4 8 15 3 16 10 4 6 5 3 6 5 12 5 3 4 5.20
M8 6 3 2 1 4 3 3 8 3 2 12 16 2 13 3 4 2 2 6 4 4 7 5 4 4 8 4 10 5 3 5.10
M9 1 5 5 5 4 1 15 12 3 3 2 10 4 2 3 11 4 6 13 4 16 8 4 7 2 3 6 8 2 4 5.77
M10 11 7 4 4 4 6 5 2 4 2 4 2 3 2 12 3 4 15 5 4 1 8 4 8 13 1 2 4 5 16 5.50
M11 3 3 2 8 11 1 4 8 10 12 16 4 1 4 2 3 4 15 2 4 2 2 5 4 6 1 5 3 3 4 5.07
M12 3 2 2 1 3 11 4 3 4 5 2 3 12 1 4 5 3 6 2 6 3 2 10 4 4 4 8 4 4 16 4.70
M13 5 7 3 5 13 11 2 15 5 3 4 3 3 4 2 12 1 4 6 3 5 6 8 10 4 4 5 4 4 2 5.43
M14 2 4 2 1 6 1 4 3 5 13 5 5 15 3 2 3 1 12 10 4 8 3 16 3 5 4 3 4 2 4 5.10
M15 4 5 5 4 2 6 3 7 4 3 2 5 3 4 1 4 10 2 5 15 3 3 1 4 1 11 4 4 13 2 4.67
M16 2 6 4 5 2 7 3 11 3 3 8 12 6 2 4 3 13 4 3 5 1 4 5 16 15 4 4 1 4 3 5.43
M17 8 8 6 3 13 4 4 2 2 10 4 4 3 2 5 5 3 1 12 2 4 4 6 16 4 3 3 2 11 7 5.37
M18 8 7 3 2 3 15 16 4 5 4 2 12 3 1 10 4 4 4 4 5 11 4 5 5 13 3 6 8 4 3 5.93
M19 2 5 1 13 16 4 4 4 4 12 5 3 3 3 5 6 2 3 3 4 3 5 4 11 15 8 2 1 1 7 5.30
M20 5 1 16 2 2 1 3 12 8 2 5 4 15 13 4 4 5 8 3 3 3 2 3 2 4 6 3 10 4 11 5.47
M21 4 4 15 4 10 3 8 3 1 8 2 3 5 4 4 5 4 4 3 3 6 2 5 6 13 1 2 2 5 3 4.73
M22 3 10 4 5 8 15 2 1 11 6 4 5 12 2 4 4 3 3 5 13 3 6 2 4 2 3 4 5 5 3 5.23
M23 4 4 2 5 1 2 2 5 8 2 3 1 3 15 5 3 12 4 3 3 4 4 4 3 3 6 5 4 4 5 4.30
M24 3 4 1 13 4 15 5 4 12 2 4 2 3 4 8 5 1 3 8 2 7 4 10 5 6 1 3 3 3 5 5.00
M25 13 12 8 2 4 10 4 5 4 3 11 4 2 4 2 5 6 4 15 3 1 16 7 3 1 2 4 4 4 3 5.53
M26 4 4 4 3 1 4 7 5 6 3 2 12 3 13 16 2 3 5 5 4 15 10 3 3 2 3 6 8 4 1 5.37
M27 2 15 2 3 6 5 3 3 2 5 4 4 2 8 4 4 6 4 1 10 3 13 8 4 3 7 4 2 5 5 4.90
M28 4 16 8 8 2 4 2 2 3 3 3 3 6 2 4 5 3 6 4 12 10 4 5 4 1 4 1 5 5 4 4.77
M29 13 6 2 4 5 3 3 4 4 11 5 8 8 15 4 1 4 3 6 1 2 2 12 4 3 3 2 4 7 10 5.30
M30 3 3 1 1 5 5 5 2 3 4 5 4 4 4 3 15 1 3 7 13 12 4 11 3 2 8 8 10 2 5 5.20
M31 4 4 4 6 3 3 4 3 1 5 3 12 15 8 8 4 4 7 5 4 4 10 2 5 3 3 2 16 6 5 5.43
M32 2 1 5 3 2 5 3 4 3 3 3 3 5 2 10 4 2 8 4 4 3 12 11 7 4 4 16 1 15 1 5.00
M33 3 5 5 1 5 13 4 3 8 3 6 4 4 2 8 5 4 4 4 2 1 3 3 15 16 3 2 12 4 5 5.23
M34 3 4 4 4 13 5 1 3 4 10 5 16 5 4 11 4 15 1 3 4 2 2 3 2 3 3 7 12 2 5 5.33
M35 5 3 10 5 4 15 4 1 6 2 3 5 2 3 2 2 4 2 7 1 8 3 4 3 4 13 8 4 4 3 4.67
M36 3 8 4 11 1 4 1 16 3 4 4 6 15 7 12 5 5 3 5 3 2 10 3 6 2 3 4 2 4 13 5.63
M37 10 4 1 5 2 3 1 2 4 12 4 13 6 5 16 5 6 1 4 4 2 3 4 2 8 3 8 15 3 5 5.37
M38 15 6 8 4 4 4 3 4 16 13 4 8 2 1 3 2 5 3 4 2 1 4 5 5 4 3 11 4 5 3 5.20
M39 4 6 5 4 2 12 3 6 3 3 1 16 3 3 5 5 3 3 10 13 7 2 8 2 4 4 5 1 4 2 4.97
M40 6 16 5 4 5 3 4 4 5 1 2 4 3 1 2 4 3 8 10 4 2 3 3 3 13 6 12 15 5 8 5.47
M41 3 13 4 3 5 16 3 2 4 4 5 5 4 1 8 4 2 5 3 4 3 4 1 5 3 6 4 7 2 10 4.77
M42 4 4 5 8 3 15 3 3 1 10 4 6 2 2 3 4 4 4 6 1 5 12 3 5 11 5 3 4 8 5 5.10
M43 5 5 2 3 1 15 2 4 4 12 1 2 3 4 3 2 3 16 3 4 1 2 8 4 5 4 4 10 4 3 4.63
M44 3 16 2 5 15 4 4 4 10 13 4 8 3 4 3 5 11 5 4 6 6 3 2 12 4 7 1 1 3 3 5.70
M45 3 7 4 4 3 8 2 3 4 6 10 1 5 11 5 2 4 1 6 5 2 8 5 4 12 2 15 3 4 13 5.40
M46 10 3 4 3 4 2 3 5 5 2 1 8 5 4 2 11 1 3 4 2 5 4 15 3 4 4 12 5 1 6 4.70
M47 3 4 2 3 13 2 6 5 3 5 3 10 5 3 1 4 4 5 1 8 2 4 3 5 6 2 16 11 4 3 4.87
M48 6 5 16 6 4 10 2 4 11 8 5 1 3 3 5 15 3 7 1 3 4 2 4 2 2 3 5 4 12 3 5.30
M49 4 8 16 10 4 5 4 6 5 8 7 4 4 3 4 3 4 3 2 4 11 2 12 1 3 6 1 3 13 2 5.40
M50 3 13 2 5 4 4 3 4 4 3 1 3 8 12 3 2 5 4 4 5 4 4 3 2 1 6 5 7 15 16 5.17
M51 1 1 10 5 8 2 2 5 5 4 15 16 4 3 3 4 2 6 4 8 7 2 3 12 4 13 4 4 4 2 5.43
M52 4 4 8 3 4 4 12 1 2 16 5 4 3 15 2 5 4 2 1 3 4 10 3 3 2 5 6 13 4 2 5.13
M53 10 4 1 11 4 8 5 3 4 2 5 16 5 7 3 4 3 6 3 1 4 1 2 4 4 8 2 6 5 2 4.77
M54 3 5 13 2 1 4 1 11 6 6 4 3 4 4 2 7 3 4 15 3 3 12 5 3 16 4 5 5 2 8 5.47
M55 2 4 4 8 4 13 5 2 4 7 2 5 2 4 5 2 16 1 3 6 4 3 3 1 5 3 6 11 3 8 4.87
M56 2 12 4 5 16 6 4 4 4 5 1 3 2 2 5 11 4 2 3 4 10 4 8 4 1 4 5 8 1 15 5.30
M57 15 3 10 5 5 5 6 3 16 4 8 2 4 8 3 2 4 2 3 1 4 3 4 2 1 13 4 3 5 4 5.07
M58 4 4 2 1 5 3 15 11 4 2 3 2 3 2 3 3 1 3 6 4 16 6 8 5 4 3 5 5 2 5 4.67
M59 4 4 6 3 4 4 4 1 3 2 15 1 2 5 13 11 2 4 5 8 5 6 3 2 3 8 5 5 2 12 5.07
M60 5 12 4 6 3 6 4 3 11 8 4 1 5 4 13 1 2 7 2 4 3 10 2 3 16 3 5 5 4 8 5.47
M61 4 2 5 4 15 2 5 4 10 7 4 4 5 1 3 12 5 13 1 2 8 3 4 2 5 1 4 4 4 3 4.87
M62 2 15 6 5 3 5 10 2 4 4 8 1 5 13 2 4 8 3 5 7 3 2 2 12 4 5 4 4 6 3 5.23
M63 2 5 1 4 1 4 7 13 5 2 5 5 3 4 6 4 2 1 8 3 4 2 3 4 6 4 3 5 10 4 4.33
M64 1 5 2 2 11 4 8 1 3 4 16 4 5 5 8 15 7 4 4 3 4 3 3 1 6 5 2 2 10 6 5.13
M65 2 10 13 4 4 15 6 4 4 4 5 2 3 8 1 4 6 3 3 5 12 3 2 4 11 8 5 1 16 3 5.70
M66 3 11 15 5 4 3 2 4 13 6 16 4 2 10 4 3 5 2 2 12 8 5 3 1 1 2 1 3 5 4 5.30
M67 4 6 3 5 3 4 7 4 6 13 3 4 3 1 12 4 5 2 1 5 4 5 2 3 10 2 16 15 11 2 5.50
M68 7 3 15 1 3 5 6 2 4 13 10 3 4 5 16 3 2 4 2 5 2 4 4 4 4 12 8 4 11 1 5.57
M69 2 15 6 11 3 7 6 1 5 3 3 5 3 12 4 4 4 4 3 5 13 4 10 4 3 8 2 1 2 8 5.37
M70 13 5 4 8 4 15 3 8 10 2 16 4 1 12 5 11 4 7 6 6 3 3 1 4 3 3 2 4 2 3 5.73
M71 2 1 3 3 3 4 1 5 1 3 4 6 2 5 2 15 7 4 5 3 10 2 4 4 2 12 5 3 5 4 4.33
M72 5 11 5 4 2 4 2 6 1 5 5 1 3 13 12 2 7 3 10 1 4 16 4 4 4 3 4 4 5 3 5.10
M73 2 15 2 4 3 11 2 10 4 4 8 3 3 2 5 8 5 7 3 4 3 1 5 4 16 4 6 4 4 2 5.13
M74 11 2 3 13 5 4 1 3 15 6 3 2 12 6 10 4 3 16 1 8 5 4 4 1 8 4 4 2 2 4 5.53
M75 7 5 2 5 3 3 2 1 5 12 3 4 3 4 16 4 5 2 4 2 3 5 6 3 13 1 4 1 4 4 4.53
M76 2 5 8 1 2 16 4 5 4 3 5 6 7 3 3 12 10 2 3 4 4 3 4 4 8 15 5 1 2 13 5.47
M77 4 6 1 4 4 2 5 4 1 4 3 15 6 3 8 5 12 13 3 3 2 8 16 7 5 10 4 3 4 2 5.57
M78 3 1 2 3 13 2 11 4 12 4 4 10 3 2 4 8 16 1 5 6 4 6 3 3 5 4 4 3 4 7 5.23
M79 2 2 3 2 3 3 11 8 6 4 3 4 4 4 15 5 4 4 8 3 6 1 5 12 10 3 4 2 4 13 5.27
M80 5 5 3 3 1 10 4 2 5 3 4 5 4 1 3 2 5 4 3 3 6 2 8 13 2 11 3 16 1 4 4.70
M81 5 2 2 5 8 12 5 2 3 3 4 15 4 3 4 5 6 1 5 1 10 7 4 4 3 2 3 11 4 4 4.90
M82 5 3 3 4 2 3 4 5 13 8 4 8 2 15 3 2 10 12 1 5 4 4 5 11 4 2 4 4 6 16 5.73
M83 3 2 3 1 4 2 8 4 10 4 6 12 4 4 3 6 7 1 4 1 13 5 4 3 4 2 8 11 3 15 5.23
M84 10 5 2 7 2 4 6 15 1 16 3 4 2 5 4 12 4 4 4 8 4 4 3 3 2 5 2 3 1 11 5.20
M85 5 16 11 3 1 2 5 3 7 15 6 3 5 5 2 4 3 3 2 3 4 10 3 8 4 4 2 8 5 6 5.27
M86 2 12 13 5 2 7 2 4 11 16 3 10 5 1 3 2 5 6 4 3 4 1 8 6 4 2 3 5 4 5 5.27
M87 3 3 4 10 2 2 2 2 5 4 13 3 6 4 12 4 3 3 5 7 3 4 1 1 2 5 5 6 5 4 4.43
M88 5 3 16 3 5 8 8 6 5 5 7 3 4 1 6 1 2 3 3 4 12 2 4 11 4 3 4 15 2 4 5.30
M89 5 2 4 3 2 3 15 4 5 2 1 4 3 4 6 5 13 7 10 12 4 1 3 5 2 3 4 8 8 3 5.03
M90 3 3 2 1 4 2 3 8 11 8 16 3 5 4 3 4 2 1 13 1 5 4 4 10 2 15 4 12 4 5 5.40
M91 4 4 4 2 11 5 13 6 4 3 2 4 10 3 3 5 5 4 12 2 3 3 8 1 6 3 4 4 1 5 4.80
M92 5 15 3 11 4 2 3 5 13 3 2 5 1 6 4 4 2 3 7 3 2 16 4 4 2 4 4 8 3 1 4.97
M93 3 4 8 4 1 3 2 2 13 5 3 5 4 3 3 3 4 1 12 5 7 6 6 4 2 4 10 1 2 15 4.83
M94 4 11 2 5 4 4 2 1 1 2 10 4 3 2 3 3 3 4 12 16 8 4 3 6 5 3 7 6 1 8 4.90
M95 3 8 4 4 4 2 2 2 4 11 10 8 5 7 2 16 13 15 4 4 6 4 4 12 5 3 5 3 1 6 5.90
M96 3 10 3 2 6 13 8 2 3 5 4 3 4 4 4 1 2 2 4 15 12 6 7 5 1 1 8 4 4 5 5.03
M97 16 4 4 3 4 5 11 4 2 10 3 2 2 6 5 8 4 3 13 4 6 1 3 3 4 5 2 1 3 1 4.73
M98 4 4 4 15 11 7 2 4 5 5 13 3 3 3 6 5 5 16 4 2 5 1 6 2 1 3 2 4 3 1 4.97
M99 3 4 2 6 2 12 7 15 8 16 4 13 5 8 2 3 4 1 5 4 3 4 3 4 1 5 4 6 3 5 5.40
M100 3 2 4 4 4 5 4 3 3 4 5 16 5 8 13 11 2 1 10 3 4 7 2 1 3 5 4 3 5 8 5.07

4.5.3.3 Rango

range(poblacion$agnios)
## [1]  1 16
range(distribucion.medias$medias)
## [1] 4.30 5.93

En la población, los periodos de servicio variaron de 1 a 19 años. Cuando se seleccionaron muestras de tamaño 30, las medias de las muestras variaron de 4.67 a 6.37 años.

4.5.3.4 Error estándar

El error estándar es la desviación estándar de la distribución muestral de la media o la dispersión de la misma en el sentido del rango de la distribución. \[ \text{Error estándar=}\frac{\sigma}{\sqrt{n}} \]

err.std <- round(desv.p / sqrt(n),2 )
paste("El error estándar es de ", err.std, "para n=",n, "y número de muestras nm = ", nm, ". El Err. Std. significa  la dispersión de la distribución muestral de la media.")
## [1] "El error estándar es de  0.68 para n= 30 y número de muestras nm =  100 . El Err. Std. significa  la dispersión de la distribución muestral de la media."

4.5.3.5 Histograma de la distribución

g4 <- ggplot(distribucion.medias, aes(x = medias)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "yellow") +
  labs(title = "Distribución muestral ",
                  subtitle = paste("NM = ", nm, "; n = ",n , "; Med = ", round(mean(distribucion.medias$medias),2), "Err.Std=",err.std),
              caption = "Fuente propia") +  
  geom_vline(xintercept = round(mean(distribucion.medias$medias),2), col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g4 <- g4 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, g3, g4, nrow = 2, ncol = 2)

Entre más muestras haya se acerca a una distribución normal (amarillo cien muestras).

5 Interpretación

El teorema central del límite indica que, sin importar la forma de la distribución de la población, la distribución muestral de la media se aproximará a la distribución de probabilidad normal; cuanto mayor sea el número de observaciones en cada muestra, más evidente será la convergencia.

La media de la distribución muestral de medias será exactamente igual a la media poblacional si se seleccionan todas las muestras posibles del mismo tamaño de cualquier población \(\mu = \mu_{\bar{x}}\).

5.1 Interpretación Teorema de Límite Central

En este teorema, todas las muestras de un tamaño en particular se seleccionan de cualquier población, la distribución muestral de la media se aproxima a una distribución normal. El teorema, a pesar de que se escuche complicado, llega a facilitar de gran forma las cosas.

El caso cuenta con varios elementos como tablas de distribución, histogramas, etc. Que hacen que se comprenda de mejor manera los datos resumidos.

6 Bibliografía