Los Objetivos De La Práctica

* El Objetivo General De La Práctica

A continuación se presenta el objetivo general de la práctica:

  • Determinar Y Demostrar El Teorema Del Límite Central

* Los Objetivos Específicos De La Práctica

A continuación, se presenta los objetivos específicos que tiene la siguiente práctica:

  • Cargar Y Simular Los Datos De Una Población De Manera Aleatoria.

  • Aplicar El Teorema Del Límite Central A La Población Creada.

  • Realizar la Interpretación De La Práctica Correspondiente.

* Investigaciones Pertinentes

* La Probabilidad

La probabilidad y la estadística están relacionadas en una forma importante. La probabilidad se emplea como herramienta; permite que se evalúe la confiabilidad de las conclusiones acerca de la población cuando tenga sólo información muestral.

Por otra parte, la probabilidad indica el grado de certidumbre o certeza de un suceso o fenómeno estudiado, en la investigación científica existen muchos fenómenos en los cuales es necesario determinar la probabilidad de que un evento ocurra o dejen de ocurrir, para lo cual el estudio de este campo, es necesario.

Además tiene aplicaciones muy importantes en investigación; dado que es base para la inferencia estadística que permite el estudio de muestras con el objetivo de inferir o extrapolar características de estas a una población.

* Las Variables Estadísticas

La definición propia de una variables estadísticas es la siguiente, de acuerdo con los estipulado por Enciclopedia en su sitio web (2022):

Una variable estadística es una característica de una muestra o población de datos que puede adoptar diferentes valores.

Cuando hablamos de variable estadística estamos hablando de una cualidad que, generalmente adopta forma numérica. Por ejemplo, la altura de Juan es de 180 centímetros. La variable estadística es la altura y está medida en centímetros.

  • También podríamos, por ejemplo, decir que el beneficio de una empresa ha sido de 22.300 dólares el último año. En este caso, la variable sería el beneficio y estaría medido en dólares. Las variables son del tipo cuantitativo (se expresan con un número)

Claro que no todas las variables estadísticas son iguales y, por supuesto, no todas se pueden (en principio) expresar en forma de número.

  • Así, otra variable que podríamos encontrarnos es el color de ojos de una persona. Por ejemplo, Juan tiene los ojos verdes y Andrés los tiene azules. La variable sería el color de ojos y sería una variable cualitativa. Es decir, no se expresa con número.

* Los Tipos De Variables Estadísticas

Aunque hay decenas de tipos de variables estadísticas, por norma general podemos encontrarnos dos tipos de variables:

  • Variable Cuantitativa: Son variables que se expresan numéricamente.

    • Variable Continua: Toman un valor infinito de valores entre un intervalo de datos. El tiempo que tarda un corredor en completar los 100 metros lisos.

    • Variable Discreta: Toman un valor finito de valores entre un intervalo de datos. Número de helados vendidos.

  • Variable Cualitativa: Son variables que se expresan, por norma general, en palabras.

    • Variable Ordinal: Expresa diferentes niveles y orden.

    • Variable Nominal: Expresa un nombre claramente diferenciado. Por ejemplo el color de ojos puede ser azul, negro, castaño, verde, etc.

* El Teorema Del Límite Central

El teorema central del límite (TCL) es una teoría estadística que establece que, dada una muestra aleatoria suficientemente grande de la población, la distribución de las medias muestrales seguirá una distribución normal.

Además, el TCL afirma que a medida que el tamaño de la muestra se incrementa, la media muestral se acercará a la media de la población. Por tanto, mediante el TCL podemos definir la distribución de la media muestral de una determinada población con una varianza conocida. De manera que la distribución seguirá una distribución normal si el tamaño de la muestra es lo suficientemente grande.

* Las Principales Características Del Teorema Del Límite Central

El teorema central del límite tiene una serie de propiedades de gran utilidad en el ámbito estadístico y probabilístico. Las principales son:

  • Si el tamaño de la muestra es suficientemente grande, la distribución de las medias muestrales seguirá aproximadamente una distribución normal. El TCL considera una muestra como grande cuando el tamaño de la misma es superior a 30. Por tanto, si la muestra es superior a 30, la media muestral tendrá una función de distribución próxima a una normal.

  • La media poblacional y la media muestral serán iguales. Es decir, la media de la distribución de todas las medias muestrales será igual a la media del total de la población.

  • La varianza de la distribución de las medias muestrales será σ²/n. Que es la varianza de la población dividido entre el tamaño de la muestra.

Que la distribución de las medias muestrales se parezca a una normal es tremendamente útil.

Porque la distribución normal es muy fácil de aplicar para realizar contrastes de hipótesis y construcción de intervalos de confianza. En estadística que una distribución sea normal es bastante importante, dado que muchos estadísticos requieren este tipo de distribución.

Además, el TCL nos permitirá hacer inferencia sobre la media poblacional a través de la media muestral. Y esto es de gran utilidad cuando por falta de medios no podemos recolectar datos de toda una población.

* Desarrollo Metodológico De La Práctica

En los siguientes ejercicios también se utilizan funciones de paquetes predeterminados de lenguaje de R para una mejor comprensión de la distribución binomial.

* Actividad No. 1 - Importar E Implementar Las Librerías

# Importación De Los Paquetes Y Librerías Necesarias Para La Realización De La Práctica 
library(cowplot) # Gráficos
library(ggplot2) # Gráficos
library(knitr)   # Tablas 
library(fdth)    # Tabla de frecuencias

# Acomodo Del Tipo De Notación Para El Muestro De Los Valores Obtenidos 
options(scipen=999) # Notación normal
# options(scipen=1) # Notación científica

* Actividad No. 2 - Implementación De La Semilla Aleatoria

# Implementación De La Semilla Aleatoria
set.seed(2023)

* Actividad No. 3 - El Ejercicio Del Sueldo De Trabajadores De Una Institución Educativa

* Los Datos Pertinentes Para La Realización De La Práctica

Se toma el ejercicio de un negocio 40 empleados que tienen ciertos años de trabajo en una empresa, los datos son generados para este caso y la fuente del ejercicio original está en el libro de [@lind2015] página 235.

Se estiman valores de los trabajadores con años de servicio y los datos con ciertas características. Los datos de la población creados a partir de la función sample() tienden a ser un población con sesgo positivo:

Como el negocio ha crecido en años recientes, la distribución indica que 29 de los 40, o sea el 72% de los empleados han estado en la compañía durante menos de seis años.

También hay 11 empleados que tienen más de seis años. 4 de éstos 11 han laborado en la compañía doces años o más.

La variable de interés es años de servicio (agnios) del conjunto de datos población.

Simulando los años de servicio

set.seed(2022)

La población por años de servicio

Datos generados aleatoriamente

menos.de.seis <- sample(x = 1:5, size = 29, replace = TRUE)
mas_de_seis <- sample(x = 6:11, size = 7, replace = TRUE)
mas_de_doce <- sample(x = 12:19, size = 4, replace = FALSE)
poblacion <- data.frame(agnios = c(menos.de.seis, mas_de_seis, mas_de_doce))
poblacion$agnios
##  [1]  4  3  3  4  4  3  1  5  2  5  1  3  1  2  2  5  4  4  4  5  3  4  3  4  3
## [26]  4  5  2  2 10  7  6  8  6 11  8 16 15 13 12

Conforme a datos del ejercicio del libro

Será opcional usar estos datos

#agnios <- c(11,4,18,2,1,2,0,2,2,4,3,4,1,2,2,3,3,19,8,3,7,1,0,2,7,0,4,5,1,14,16,8,9,1,1,2,5,10,2,3)
#poblacion <- data.frame(agnios)

Tabla de Frecuencia

Similar al ejercicio original del libro, el 82.50% de los trabajadores tiene entre 0 y 8 años aproximadamente y el 17.50% tiene por encima de 8 años

tabla <- fdt(poblacion$agnios, breaks = "Sturges")
tabla
##     Class limits  f   rf rf(%) cf cf(%)
##    [0.99,3.1571) 15 0.38  37.5 15  37.5
##  [3.1571,5.3243) 14 0.35  35.0 29  72.5
##  [5.3243,7.4914)  3 0.07   7.5 32  80.0
##  [7.4914,9.6586)  2 0.05   5.0 34  85.0
##  [9.6586,11.826)  2 0.05   5.0 36  90.0
##  [11.826,13.993)  2 0.05   5.0 38  95.0
##   [13.993,16.16)  2 0.05   5.0 40 100.0

Parámetro poblacional de la media

Se determina la media de la población de los años de servicio y la desviación estándar para comparar su uso y estimar con la desviación estándar de la población, la dispersión de la distribución de medias.

\[ \mu = \frac{\sum_{i=1}^{n} agnios_i}{N}= \]

summary(poblacion$agnios)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.000   4.000   5.175   6.000  16.000
media.p <- round(mean(poblacion$agnios),2)
desv.p <- sd(poblacion$agnios)
media.p; desv.p
## [1] 5.18
## [1] 3.747734

Histograma de la población.

Se presenta el histograma con la única variable de interés años de servicio de los \(N=40\) trabajadores.

N <- nrow(poblacion)
g1 <- ggplot(poblacion, aes(x = agnios)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "lightblue") +
  labs(title = "Población",
      subtitle = paste("N=",N," Media=", media.p),
              caption = "Fuente propia") +  
  geom_vline(xintercept = media.p, col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
g1 <- g1 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=6),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, nrow = 1, ncol = 1)
## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Se observa un sesgo positivo en la distribución de la población. La distribución es asimétrica positiva.

Distribución muestral para VEINTICINCO muestras n=5

El valor del tamaño de la población \(N=40\). Las muestras tendrán cinco elementos cada una por lo que el valor del tamaño de las muestras \(n=5\).

Se toma un valor de venticinco muestras por decir un número pero en realidad hay 658008 muestras de tamaño \(n=5\) que se pueden tomar de la población de \(N=40\) empleados, las cuales se determinan con la fórmula de las combinaciones.

Inicializando variables

n <- 5 # Tamaño de cada muestra
N <- length(poblacion$agnios) # Tamaño de la población
n; N
## [1] 5
## [1] 40
nm <- 25 # Número de muestras
nm
## [1] 25

Construyendo muestras

muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:nm) {
    muestras[[i]] <- sample(x = poblacion$agnios, size = n, replace = FALSE)
    
  m.muestras[i] <- round(mean(muestras[[i]]),2)
}

Tabla de distribución

Formando tabla de distribución de medias en la última columna la media de las muestras.

Crear los valores de las medias por renglón con al función t() se convierte columnas a renglones.

distribucion.medias <- data.frame(muestras)
distribucion.medias <- data.frame(t(distribucion.medias))

Poner nombres de columnas x1, x2, x3, x4, x5 y nombres de observaciones M1, M2, M3, …. M25

colnames(distribucion.medias) <- paste0("x", seq(1:n))
rownames(distribucion.medias) <- paste0("M", seq(1:nm))

Media muestral

Agregar la columna medias del vector m.muestras previamente generado en el ciclo de 1 a 25.

distribucion.medias <- cbind(distribucion.medias, medias = m.muestras)

Distribución muestral de la media

Mostrar la tabla de distribución de medias de todas las muestras.

kable(distribucion.medias, caption = paste("Distribución muestral de la media ", nm, " muestras, tamaño de la muestra n=", n))
Distribución muestral de la media 25 muestras, tamaño de la muestra n= 5
x1 x2 x3 x4 x5 medias
M1 3 6 5 8 11 6.6
M2 4 5 12 5 3 5.8
M3 7 4 5 3 4 4.6
M4 4 4 3 2 4 3.4
M5 4 3 8 3 4 4.4
M6 2 2 8 7 3 4.4
M7 3 1 2 11 16 6.6
M8 5 11 6 5 3 6.0
M9 5 4 2 5 2 3.6
M10 8 2 5 4 2 4.2
M11 13 3 4 2 3 5.0
M12 4 8 15 4 4 7.0
M13 5 4 1 13 4 5.4
M14 6 4 5 4 1 4.0
M15 3 4 2 6 1 3.2
M16 4 1 4 7 3 3.8
M17 2 4 4 2 1 2.6
M18 12 15 1 4 3 7.0
M19 1 2 11 3 4 4.2
M20 3 4 4 5 4 4.0
M21 6 4 16 13 3 8.4
M22 2 3 4 4 4 3.4
M23 5 2 6 5 15 6.6
M24 13 2 3 2 7 5.4
M25 3 1 10 4 5 4.6

Rangos

range(poblacion$agnios)
## [1]  1 16
range(distribucion.medias$medias)
## [1] 2.6 8.4

Error estándar

El error estándar es la desviación estándar de la distribución muestral de la media o la dispersión de la misma en el sentido del rango de la distribución. \[ \text{Error estándar=}\frac{\sigma}{\sqrt{n}} \]

err.std <- round(desv.p / sqrt(n),2 )
paste("El error estándar es de ", err.std, "para n=",n, "y número de muestras nm = ", nm, ". El Err. Std. significa  la dispersión de la distribución muestral de la media.")
## [1] "El error estándar es de  1.68 para n= 5 y número de muestras nm =  25 . El Err. Std. significa  la dispersión de la distribución muestral de la media."

Histograma de la distribución

g2 <- ggplot(distribucion.medias, aes(x = medias)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "lightblue") +
  labs(title = "Distribución muestral",
      subtitle = paste("NM = ", nm, "; n = ",n , "; Me = ", round(mean(distribucion.medias$medias),2), "Er.Std=",err.std),
              caption = "Fuente propia") +  
  geom_vline(xintercept = round(mean(distribucion.medias$medias),2), col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g2 <- g2 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, nrow = 1, ncol = 2)

Se observa la diferencia de forma de las distribuciones poblacional y muestral de medias; la población de tiempos de servicio de los empleados(izquierda) tiene un sesgo positivo, y la distribución de estas 25 medias muestrales no refleja el mismo sesgo positivo.

También se observa una diferencia en el rango de las medias muestrales en comparación con el rango de la población.

En la población, los periodos de servicio variaron de 1 a 19 años. Cuando se seleccionaron muestras de tamaño 30, las medias de las muestras variaron de 2.6 a 9.2 años.

Distribución muestral para VEINTICINCO muestras n=30

El valor del tamaño de la población \(N=40\). Las muestras tendrán treinta elementos cada una por lo que el valor del tamaño de las muestras \(n=30\). Ahora se aumenta el número de elementos de la muestra.

Inicializando variables

¿Qué sucede si se aumenta el número de elementos de la muestra \(n=30\) y el mismo número de muestras 25?

n <- 30 # Tamaño de cada muestra
N <- length(poblacion$agnios) # Tamaño de la población
n; N
## [1] 30
## [1] 40
nm <- 25 # Número de muestras
nm
## [1] 25

Construyendo muestras

muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:nm) {
    muestras[[i]] <- sample(x = poblacion$agnios, size = n, replace = FALSE)
    
  m.muestras[i] <- round(mean(muestras[[i]]),2)
}

Tabla de distribución

Formando tabla de distribución de medias en la última columna la media de las muestras.

Crear los valores de las medias por renglón con al función t() se convierte columnas a renglones.

distribucion.medias <- data.frame(muestras)
distribucion.medias <- data.frame(t(distribucion.medias))

Poner nombres de columnas x1, x2, x3, x4, x5 … x20 y nombres de observaciones M1, M2, M3, …. M30

colnames(distribucion.medias) <- paste0("x", seq(1:n))
rownames(distribucion.medias) <- paste0("M", seq(1:nm))

Media muestral

Agregar la columna medias del vector m.muestras previamente generado en el ciclo de 1 a 25.

distribucion.medias <- cbind(distribucion.medias, medias = m.muestras)

Distribución muestral de la media

Mostrar la tabla de distribución de medias de todas las muestras

kable(distribucion.medias, caption = paste("Distribución muestral de la media ", nm, " muestras, ", "tamaño de la muestra n=",n))
Distribución muestral de la media 25 muestras, tamaño de la muestra n= 30
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 x21 x22 x23 x24 x25 x26 x27 x28 x29 x30 medias
M1 5 2 4 1 3 12 5 5 3 4 2 4 15 8 5 2 4 2 16 6 5 11 4 3 4 3 4 6 4 1 5.10
M2 3 3 4 3 2 2 7 5 6 2 8 1 12 4 4 5 11 2 4 1 5 3 15 5 3 4 16 2 4 8 5.13
M3 2 5 3 4 4 6 11 4 2 4 15 3 5 1 13 3 3 5 6 5 5 8 1 2 7 4 10 4 4 1 5.00
M4 1 5 4 3 5 4 4 4 3 7 16 3 13 4 4 1 6 3 2 5 3 2 8 4 4 11 5 2 3 5 4.80
M5 2 7 12 4 15 5 2 10 4 13 4 2 11 16 1 5 3 3 5 3 3 8 1 3 4 4 2 3 4 5 5.47
M6 7 4 4 5 3 2 4 8 4 2 11 5 4 4 5 6 5 16 1 3 15 12 3 6 2 2 2 4 4 3 5.20
M7 4 10 1 3 2 2 3 4 5 2 4 6 8 13 6 5 4 16 4 2 4 3 2 8 3 5 1 1 3 5 4.63
M8 3 2 1 4 5 4 6 5 3 6 1 4 5 8 2 11 2 12 5 2 13 4 3 5 10 4 2 4 3 15 5.13
M9 15 2 4 1 5 4 3 4 5 4 5 6 5 3 4 2 1 4 3 13 10 8 3 16 4 11 5 12 3 1 5.53
M10 4 11 3 2 4 7 1 2 2 5 3 4 4 6 4 1 16 2 1 10 5 4 6 3 8 13 4 3 5 15 5.27
M11 4 4 4 6 11 13 3 5 5 10 3 4 3 6 2 2 5 1 4 7 15 1 2 4 3 8 4 3 3 3 4.93
M12 12 4 4 11 5 8 3 10 6 2 2 3 7 15 4 4 4 4 2 4 4 1 5 8 3 1 2 2 3 16 5.30
M13 2 8 4 2 1 5 11 3 5 4 6 6 4 2 4 2 3 4 4 8 5 7 5 5 4 13 3 1 3 3 4.57
M14 3 3 3 3 5 5 1 4 16 4 4 5 4 1 2 8 5 7 4 6 1 8 6 4 4 4 2 3 15 4 4.80
M15 3 1 3 2 15 3 5 10 11 2 3 2 4 4 5 6 1 5 7 13 4 4 2 12 5 3 3 5 4 1 4.93
M16 5 8 13 3 4 2 3 4 3 3 10 4 4 5 15 12 4 4 3 7 4 6 2 2 2 5 8 1 2 6 5.13
M17 4 3 5 4 4 16 8 4 3 5 1 10 3 2 2 2 3 7 6 11 3 3 5 3 4 4 1 6 4 12 4.93
M18 5 3 4 2 5 7 4 6 3 2 10 3 5 16 4 13 4 15 2 4 3 5 4 4 4 6 2 2 8 8 5.43
M19 4 2 4 3 15 16 3 7 5 2 4 3 4 3 12 8 1 1 4 5 6 5 3 5 3 4 2 2 3 13 5.07
M20 1 2 5 12 1 8 3 5 3 5 5 5 2 4 4 1 4 6 11 3 4 15 13 3 3 4 3 2 16 2 5.17
M21 2 5 3 3 4 8 5 5 5 4 2 3 1 8 2 4 5 6 3 13 15 10 4 2 4 11 6 4 12 16 5.83
M22 7 16 4 4 4 13 5 2 4 3 10 5 6 12 3 4 8 2 5 2 3 3 15 4 5 4 2 3 5 8 5.70
M23 5 2 2 6 4 7 3 15 1 4 1 4 3 4 16 11 2 8 5 3 5 4 13 3 4 5 2 3 12 4 5.37
M24 4 1 1 11 4 8 3 5 3 5 2 4 2 3 8 4 1 5 3 12 3 10 2 3 6 4 15 3 7 4 4.87
M25 4 4 10 5 5 12 3 3 2 1 1 3 2 3 11 5 4 4 2 5 6 8 1 16 8 2 13 4 7 6 5.33

Rango

range(poblacion$agnios)
## [1]  1 16
range(distribucion.medias$medias)
## [1] 4.57 5.83

En la población, los periodos de servicio variaron de 1 a 19 años. Cuando se seleccionaron muestras de tamaño 30, las medias de las muestras variaron de 4.67 a 6.37 años.

Error estándar

El error estándar es la desviación estándar de la distribución muestral de la media o la dispersión de la misma en el sentido del rango de la distribución. \[ \text{Error estándar=}\frac{\sigma}{\sqrt{n}} \]

err.std <- round(desv.p / sqrt(n),2 )
paste("El error estándar es de ", err.std, "para n=",n, "y número de muestras nm = ", nm, ". El Err. Std. significa  la dispersión de la distribución muestral de la media.")
## [1] "El error estándar es de  0.68 para n= 30 y número de muestras nm =  25 . El Err. Std. significa  la dispersión de la distribución muestral de la media."

Histograma de la distribución

g3 <- ggplot(distribucion.medias, aes(x = medias)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "green") +
  labs(title = "Distribución muestral ",
                  subtitle = paste("NM = ", nm, "; n = ",n , "; Me = ", round(mean(distribucion.medias$medias),2), "Err.Std=",err.std),
              caption = "Fuente propia") +  
  geom_vline(xintercept = round(mean(distribucion.medias$medias),2), col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g3 <- g3 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=6),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, g3, nrow = 1, ncol = 3)

A medida que incrementa el tamaño de la muestra, la distribución muestral de las medias se aproxima a la distribución de probabilidad normal; este hecho se ilustra con el teorema central del límite [@lind2015].

Hay menos dispersión en la distribución muestral de las medias que en la distribución de la población.

Distribución muestral para CIEN muestras n=30

El valor del tamaño de la población \(N=40\). Las muestras tendrán treinta elementos cada una por lo que el valor del tamaño de las muestras \(n=30\).

Ahora se aumenta el número de muestras a \(nm=100\)

Inicializando variables

n <- 30 # Tamaño de cada muestra
N <- length(poblacion$agnios) # Tamaño de la población
n; N
## [1] 30
## [1] 40
nm <- 100 # Número de muestras
nm
## [1] 100

Construyendo muestras

muestras = as.list(NULL)
m.muestras = NULL
for (i in 1:nm) {
    muestras[[i]] <- sample(x = poblacion$agnios, size = n, replace = FALSE)
    
  m.muestras[i] <- round(mean(muestras[[i]]),2)
}

Tabla de distribución

Formando tabla de distribución de medias en la última columna la media de las muestras.

Crear los valores de las medias por renglón con al función t() se convierte columnas a renglones.

distribucion.medias <- data.frame(muestras)
distribucion.medias <- data.frame(t(distribucion.medias))

Poner nombres de columnas x1, x2, x3, x4, x5 … x20 y nombres de observaciones M1, M2, M3, …. M25 … M100

colnames(distribucion.medias) <- paste0("x", seq(1:n))
rownames(distribucion.medias) <- paste0("M", seq(1:nm))

Media muestral

Agregar la columna medias del vector m.muestras previamente generado en el ciclo de 1 a total de muestras.

distribucion.medias <- cbind(distribucion.medias, medias = m.muestras)

Distribución muestral de la media

Mostrar la tabla de distribución de medias de todas las muestras

kable(distribucion.medias, caption = paste("Distribución muestral de la media ", nm, " muestras, ", "tamaño de la muestra n=",n))
Distribución muestral de la media 100 muestras, tamaño de la muestra n= 30
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 x21 x22 x23 x24 x25 x26 x27 x28 x29 x30 medias
M1 10 3 7 12 8 11 4 3 5 2 4 1 8 3 4 13 5 2 6 4 2 4 5 4 1 3 3 5 16 5 5.43
M2 8 6 4 8 4 3 4 2 11 5 3 5 4 7 4 10 3 12 2 2 3 4 16 1 3 4 3 5 1 15 5.40
M3 8 4 2 7 15 4 1 3 5 6 3 2 3 2 3 4 12 3 5 4 3 4 13 5 5 6 4 16 8 11 5.70
M4 1 4 4 10 2 3 8 15 12 8 6 3 4 3 6 4 4 1 2 13 11 5 16 3 2 3 5 2 3 4 5.57
M5 4 6 15 4 3 10 3 3 2 2 12 4 2 1 3 5 5 4 8 4 1 7 8 5 2 4 13 3 11 6 5.33
M6 1 10 3 3 6 16 4 5 4 13 5 2 1 5 2 15 3 8 3 7 2 3 1 5 8 3 4 12 2 6 5.40
M7 2 3 1 2 11 5 2 3 1 4 3 4 4 2 4 8 15 3 16 10 4 6 5 3 6 5 12 5 3 4 5.20
M8 6 3 2 1 4 3 3 8 3 2 12 16 2 13 3 4 2 2 6 4 4 7 5 4 4 8 4 10 5 3 5.10
M9 1 5 5 5 4 1 15 12 3 3 2 10 4 2 3 11 4 6 13 4 16 8 4 7 2 3 6 8 2 4 5.77
M10 11 7 4 4 4 6 5 2 4 2 4 2 3 2 12 3 4 15 5 4 1 8 4 8 13 1 2 4 5 16 5.50
M11 3 3 2 8 11 1 4 8 10 12 16 4 1 4 2 3 4 15 2 4 2 2 5 4 6 1 5 3 3 4 5.07
M12 3 2 2 1 3 11 4 3 4 5 2 3 12 1 4 5 3 6 2 6 3 2 10 4 4 4 8 4 4 16 4.70
M13 5 7 3 5 13 11 2 15 5 3 4 3 3 4 2 12 1 4 6 3 5 6 8 10 4 4 5 4 4 2 5.43
M14 2 4 2 1 6 1 4 3 5 13 5 5 15 3 2 3 1 12 10 4 8 3 16 3 5 4 3 4 2 4 5.10
M15 4 5 5 4 2 6 3 7 4 3 2 5 3 4 1 4 10 2 5 15 3 3 1 4 1 11 4 4 13 2 4.67
M16 2 6 4 5 2 7 3 11 3 3 8 12 6 2 4 3 13 4 3 5 1 4 5 16 15 4 4 1 4 3 5.43
M17 8 8 6 3 13 4 4 2 2 10 4 4 3 2 5 5 3 1 12 2 4 4 6 16 4 3 3 2 11 7 5.37
M18 8 7 3 2 3 15 16 4 5 4 2 12 3 1 10 4 4 4 4 5 11 4 5 5 13 3 6 8 4 3 5.93
M19 2 5 1 13 16 4 4 4 4 12 5 3 3 3 5 6 2 3 3 4 3 5 4 11 15 8 2 1 1 7 5.30
M20 5 1 16 2 2 1 3 12 8 2 5 4 15 13 4 4 5 8 3 3 3 2 3 2 4 6 3 10 4 11 5.47
M21 4 4 15 4 10 3 8 3 1 8 2 3 5 4 4 5 4 4 3 3 6 2 5 6 13 1 2 2 5 3 4.73
M22 3 10 4 5 8 15 2 1 11 6 4 5 12 2 4 4 3 3 5 13 3 6 2 4 2 3 4 5 5 3 5.23
M23 4 4 2 5 1 2 2 5 8 2 3 1 3 15 5 3 12 4 3 3 4 4 4 3 3 6 5 4 4 5 4.30
M24 3 4 1 13 4 15 5 4 12 2 4 2 3 4 8 5 1 3 8 2 7 4 10 5 6 1 3 3 3 5 5.00
M25 13 12 8 2 4 10 4 5 4 3 11 4 2 4 2 5 6 4 15 3 1 16 7 3 1 2 4 4 4 3 5.53
M26 4 4 4 3 1 4 7 5 6 3 2 12 3 13 16 2 3 5 5 4 15 10 3 3 2 3 6 8 4 1 5.37
M27 2 15 2 3 6 5 3 3 2 5 4 4 2 8 4 4 6 4 1 10 3 13 8 4 3 7 4 2 5 5 4.90
M28 4 16 8 8 2 4 2 2 3 3 3 3 6 2 4 5 3 6 4 12 10 4 5 4 1 4 1 5 5 4 4.77
M29 13 6 2 4 5 3 3 4 4 11 5 8 8 15 4 1 4 3 6 1 2 2 12 4 3 3 2 4 7 10 5.30
M30 3 3 1 1 5 5 5 2 3 4 5 4 4 4 3 15 1 3 7 13 12 4 11 3 2 8 8 10 2 5 5.20
M31 4 4 4 6 3 3 4 3 1 5 3 12 15 8 8 4 4 7 5 4 4 10 2 5 3 3 2 16 6 5 5.43
M32 2 1 5 3 2 5 3 4 3 3 3 3 5 2 10 4 2 8 4 4 3 12 11 7 4 4 16 1 15 1 5.00
M33 3 5 5 1 5 13 4 3 8 3 6 4 4 2 8 5 4 4 4 2 1 3 3 15 16 3 2 12 4 5 5.23
M34 3 4 4 4 13 5 1 3 4 10 5 16 5 4 11 4 15 1 3 4 2 2 3 2 3 3 7 12 2 5 5.33
M35 5 3 10 5 4 15 4 1 6 2 3 5 2 3 2 2 4 2 7 1 8 3 4 3 4 13 8 4 4 3 4.67
M36 3 8 4 11 1 4 1 16 3 4 4 6 15 7 12 5 5 3 5 3 2 10 3 6 2 3 4 2 4 13 5.63
M37 10 4 1 5 2 3 1 2 4 12 4 13 6 5 16 5 6 1 4 4 2 3 4 2 8 3 8 15 3 5 5.37
M38 15 6 8 4 4 4 3 4 16 13 4 8 2 1 3 2 5 3 4 2 1 4 5 5 4 3 11 4 5 3 5.20
M39 4 6 5 4 2 12 3 6 3 3 1 16 3 3 5 5 3 3 10 13 7 2 8 2 4 4 5 1 4 2 4.97
M40 6 16 5 4 5 3 4 4 5 1 2 4 3 1 2 4 3 8 10 4 2 3 3 3 13 6 12 15 5 8 5.47
M41 3 13 4 3 5 16 3 2 4 4 5 5 4 1 8 4 2 5 3 4 3 4 1 5 3 6 4 7 2 10 4.77
M42 4 4 5 8 3 15 3 3 1 10 4 6 2 2 3 4 4 4 6 1 5 12 3 5 11 5 3 4 8 5 5.10
M43 5 5 2 3 1 15 2 4 4 12 1 2 3 4 3 2 3 16 3 4 1 2 8 4 5 4 4 10 4 3 4.63
M44 3 16 2 5 15 4 4 4 10 13 4 8 3 4 3 5 11 5 4 6 6 3 2 12 4 7 1 1 3 3 5.70
M45 3 7 4 4 3 8 2 3 4 6 10 1 5 11 5 2 4 1 6 5 2 8 5 4 12 2 15 3 4 13 5.40
M46 10 3 4 3 4 2 3 5 5 2 1 8 5 4 2 11 1 3 4 2 5 4 15 3 4 4 12 5 1 6 4.70
M47 3 4 2 3 13 2 6 5 3 5 3 10 5 3 1 4 4 5 1 8 2 4 3 5 6 2 16 11 4 3 4.87
M48 6 5 16 6 4 10 2 4 11 8 5 1 3 3 5 15 3 7 1 3 4 2 4 2 2 3 5 4 12 3 5.30
M49 4 8 16 10 4 5 4 6 5 8 7 4 4 3 4 3 4 3 2 4 11 2 12 1 3 6 1 3 13 2 5.40
M50 3 13 2 5 4 4 3 4 4 3 1 3 8 12 3 2 5 4 4 5 4 4 3 2 1 6 5 7 15 16 5.17
M51 1 1 10 5 8 2 2 5 5 4 15 16 4 3 3 4 2 6 4 8 7 2 3 12 4 13 4 4 4 2 5.43
M52 4 4 8 3 4 4 12 1 2 16 5 4 3 15 2 5 4 2 1 3 4 10 3 3 2 5 6 13 4 2 5.13
M53 10 4 1 11 4 8 5 3 4 2 5 16 5 7 3 4 3 6 3 1 4 1 2 4 4 8 2 6 5 2 4.77
M54 3 5 13 2 1 4 1 11 6 6 4 3 4 4 2 7 3 4 15 3 3 12 5 3 16 4 5 5 2 8 5.47
M55 2 4 4 8 4 13 5 2 4 7 2 5 2 4 5 2 16 1 3 6 4 3 3 1 5 3 6 11 3 8 4.87
M56 2 12 4 5 16 6 4 4 4 5 1 3 2 2 5 11 4 2 3 4 10 4 8 4 1 4 5 8 1 15 5.30
M57 15 3 10 5 5 5 6 3 16 4 8 2 4 8 3 2 4 2 3 1 4 3 4 2 1 13 4 3 5 4 5.07
M58 4 4 2 1 5 3 15 11 4 2 3 2 3 2 3 3 1 3 6 4 16 6 8 5 4 3 5 5 2 5 4.67
M59 4 4 6 3 4 4 4 1 3 2 15 1 2 5 13 11 2 4 5 8 5 6 3 2 3 8 5 5 2 12 5.07
M60 5 12 4 6 3 6 4 3 11 8 4 1 5 4 13 1 2 7 2 4 3 10 2 3 16 3 5 5 4 8 5.47
M61 4 2 5 4 15 2 5 4 10 7 4 4 5 1 3 12 5 13 1 2 8 3 4 2 5 1 4 4 4 3 4.87
M62 2 15 6 5 3 5 10 2 4 4 8 1 5 13 2 4 8 3 5 7 3 2 2 12 4 5 4 4 6 3 5.23
M63 2 5 1 4 1 4 7 13 5 2 5 5 3 4 6 4 2 1 8 3 4 2 3 4 6 4 3 5 10 4 4.33
M64 1 5 2 2 11 4 8 1 3 4 16 4 5 5 8 15 7 4 4 3 4 3 3 1 6 5 2 2 10 6 5.13
M65 2 10 13 4 4 15 6 4 4 4 5 2 3 8 1 4 6 3 3 5 12 3 2 4 11 8 5 1 16 3 5.70
M66 3 11 15 5 4 3 2 4 13 6 16 4 2 10 4 3 5 2 2 12 8 5 3 1 1 2 1 3 5 4 5.30
M67 4 6 3 5 3 4 7 4 6 13 3 4 3 1 12 4 5 2 1 5 4 5 2 3 10 2 16 15 11 2 5.50
M68 7 3 15 1 3 5 6 2 4 13 10 3 4 5 16 3 2 4 2 5 2 4 4 4 4 12 8 4 11 1 5.57
M69 2 15 6 11 3 7 6 1 5 3 3 5 3 12 4 4 4 4 3 5 13 4 10 4 3 8 2 1 2 8 5.37
M70 13 5 4 8 4 15 3 8 10 2 16 4 1 12 5 11 4 7 6 6 3 3 1 4 3 3 2 4 2 3 5.73
M71 2 1 3 3 3 4 1 5 1 3 4 6 2 5 2 15 7 4 5 3 10 2 4 4 2 12 5 3 5 4 4.33
M72 5 11 5 4 2 4 2 6 1 5 5 1 3 13 12 2 7 3 10 1 4 16 4 4 4 3 4 4 5 3 5.10
M73 2 15 2 4 3 11 2 10 4 4 8 3 3 2 5 8 5 7 3 4 3 1 5 4 16 4 6 4 4 2 5.13
M74 11 2 3 13 5 4 1 3 15 6 3 2 12 6 10 4 3 16 1 8 5 4 4 1 8 4 4 2 2 4 5.53
M75 7 5 2 5 3 3 2 1 5 12 3 4 3 4 16 4 5 2 4 2 3 5 6 3 13 1 4 1 4 4 4.53
M76 2 5 8 1 2 16 4 5 4 3 5 6 7 3 3 12 10 2 3 4 4 3 4 4 8 15 5 1 2 13 5.47
M77 4 6 1 4 4 2 5 4 1 4 3 15 6 3 8 5 12 13 3 3 2 8 16 7 5 10 4 3 4 2 5.57
M78 3 1 2 3 13 2 11 4 12 4 4 10 3 2 4 8 16 1 5 6 4 6 3 3 5 4 4 3 4 7 5.23
M79 2 2 3 2 3 3 11 8 6 4 3 4 4 4 15 5 4 4 8 3 6 1 5 12 10 3 4 2 4 13 5.27
M80 5 5 3 3 1 10 4 2 5 3 4 5 4 1 3 2 5 4 3 3 6 2 8 13 2 11 3 16 1 4 4.70
M81 5 2 2 5 8 12 5 2 3 3 4 15 4 3 4 5 6 1 5 1 10 7 4 4 3 2 3 11 4 4 4.90
M82 5 3 3 4 2 3 4 5 13 8 4 8 2 15 3 2 10 12 1 5 4 4 5 11 4 2 4 4 6 16 5.73
M83 3 2 3 1 4 2 8 4 10 4 6 12 4 4 3 6 7 1 4 1 13 5 4 3 4 2 8 11 3 15 5.23
M84 10 5 2 7 2 4 6 15 1 16 3 4 2 5 4 12 4 4 4 8 4 4 3 3 2 5 2 3 1 11 5.20
M85 5 16 11 3 1 2 5 3 7 15 6 3 5 5 2 4 3 3 2 3 4 10 3 8 4 4 2 8 5 6 5.27
M86 2 12 13 5 2 7 2 4 11 16 3 10 5 1 3 2 5 6 4 3 4 1 8 6 4 2 3 5 4 5 5.27
M87 3 3 4 10 2 2 2 2 5 4 13 3 6 4 12 4 3 3 5 7 3 4 1 1 2 5 5 6 5 4 4.43
M88 5 3 16 3 5 8 8 6 5 5 7 3 4 1 6 1 2 3 3 4 12 2 4 11 4 3 4 15 2 4 5.30
M89 5 2 4 3 2 3 15 4 5 2 1 4 3 4 6 5 13 7 10 12 4 1 3 5 2 3 4 8 8 3 5.03
M90 3 3 2 1 4 2 3 8 11 8 16 3 5 4 3 4 2 1 13 1 5 4 4 10 2 15 4 12 4 5 5.40
M91 4 4 4 2 11 5 13 6 4 3 2 4 10 3 3 5 5 4 12 2 3 3 8 1 6 3 4 4 1 5 4.80
M92 5 15 3 11 4 2 3 5 13 3 2 5 1 6 4 4 2 3 7 3 2 16 4 4 2 4 4 8 3 1 4.97
M93 3 4 8 4 1 3 2 2 13 5 3 5 4 3 3 3 4 1 12 5 7 6 6 4 2 4 10 1 2 15 4.83
M94 4 11 2 5 4 4 2 1 1 2 10 4 3 2 3 3 3 4 12 16 8 4 3 6 5 3 7 6 1 8 4.90
M95 3 8 4 4 4 2 2 2 4 11 10 8 5 7 2 16 13 15 4 4 6 4 4 12 5 3 5 3 1 6 5.90
M96 3 10 3 2 6 13 8 2 3 5 4 3 4 4 4 1 2 2 4 15 12 6 7 5 1 1 8 4 4 5 5.03
M97 16 4 4 3 4 5 11 4 2 10 3 2 2 6 5 8 4 3 13 4 6 1 3 3 4 5 2 1 3 1 4.73
M98 4 4 4 15 11 7 2 4 5 5 13 3 3 3 6 5 5 16 4 2 5 1 6 2 1 3 2 4 3 1 4.97
M99 3 4 2 6 2 12 7 15 8 16 4 13 5 8 2 3 4 1 5 4 3 4 3 4 1 5 4 6 3 5 5.40
M100 3 2 4 4 4 5 4 3 3 4 5 16 5 8 13 11 2 1 10 3 4 7 2 1 3 5 4 3 5 8 5.07

Rango

range(poblacion$agnios)
## [1]  1 16
range(distribucion.medias$medias)
## [1] 4.30 5.93

En la población, los periodos de servicio variaron de 1 a 19 años. Cuando se seleccionaron muestras de tamaño 30, las medias de las muestras variaron de 4.67 a 6.37 años.

Error estándar

El error estándar es la desviación estándar de la distribución muestral de la media o la dispersión de la misma en el sentido del rango de la distribución. \[ \text{Error estándar=}\frac{\sigma}{\sqrt{n}} \]

err.std <- round(desv.p / sqrt(n),2 )
paste("El error estándar es de ", err.std, "para n=",n, "y número de muestras nm = ", nm, ". El Err. Std. significa  la dispersión de la distribución muestral de la media.")
## [1] "El error estándar es de  0.68 para n= 30 y número de muestras nm =  100 . El Err. Std. significa  la dispersión de la distribución muestral de la media."

Histograma de la distribución

g4 <- ggplot(distribucion.medias, aes(x = medias)) + 
  geom_histogram(aes(y = ..density..),
                 colour = 1, fill = "yellow") +
  labs(title = "Distribución muestral ",
                  subtitle = paste("NM = ", nm, "; n = ",n , "; Med = ", round(mean(distribucion.medias$medias),2), "Err.Std=",err.std),
              caption = "Fuente propia") +  
  geom_vline(xintercept = round(mean(distribucion.medias$medias),2), col='red') +
  geom_density(lwd = 1.2,
               linetype = 2,
               colour = 2)
g4 <- g4 + theme(
  plot.title = element_text(color = "black", size = 12, face = "bold"),
  plot.subtitle = element_text(color = "black",size=7),
  plot.caption = element_text(color = "black", face = "italic", size=6)
)
plot_grid(g1, g2, g3, g4, nrow = 2, ncol = 2)

Entre más muestras haya se acerca a una distribución normal (amarillo cien muestras).

Interpretación

El teorema central del límite indica que, sin importar la forma de la distribución de la población, la distribución muestral de la media se aproximará a la distribución de probabilidad normal; cuanto mayor sea el número de observaciones en cada muestra, más evidente será la convergencia [@lind2015].

La media de la distribución muestral de medias será exactamente igual a la media poblacional si se seleccionan todas las muestras posibles del mismo tamaño de cualquier población \(\mu = \mu_{\bar{x}}\).

* Referencias Bibliográficas

  • Levine, D. M. (2010) Estadística para administración y economía. (7ª. ed.) México : Pearson Educación.

  • Mendenhall, W. (2010). Introducción a la Probabilidad y Estadística. (13ª. ed.) México: Cengage Learning.

  • Montgomery, D. C. (2011). Probabilidad y estadística aplicadas a la ingeniería. (2ª. ed.) México : Limusa: Wiley.

  • Quezada, L. (2010). Estadística para ingenieros. México : Empresa Editora Macro.