Cargar Librerias
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(mosaic)
## Registered S3 method overwritten by 'mosaic':
## method from
## fortify.SpatialPolygonsDataFrame ggplot2
##
## The 'mosaic' package masks several functions from core packages in order to add
## additional features. The original behavior of these functions should not be affected by this.
##
## Attaching package: 'mosaic'
## The following object is masked from 'package:Matrix':
##
## mean
## The following object is masked from 'package:ggplot2':
##
## stat
## The following objects are masked from 'package:dplyr':
##
## count, do, tally
## The following objects are masked from 'package:stats':
##
## binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
## quantile, sd, t.test, var
## The following objects are masked from 'package:base':
##
## max, mean, min, prod, range, sample, sum
library(readr)
library(ggplot2) # Para gráficos
library(knitr) # Para formateo de datos
library(fdth) # Para tablas de frecuencias
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:mosaic':
##
## sd, var
## The following objects are masked from 'package:stats':
##
## sd, var
library(gtools) # Para combinaciones y permutaciones
##
## Attaching package: 'gtools'
## The following object is masked from 'package:mosaic':
##
## logit
library(Rmpfr)
## Loading required package: gmp
##
## Attaching package: 'gmp'
## The following object is masked from 'package:mosaic':
##
## factorize
## The following objects are masked from 'package:Matrix':
##
## crossprod, tcrossprod
## The following objects are masked from 'package:base':
##
## %*%, apply, crossprod, matrix, tcrossprod
## C code of R package 'Rmpfr': GMP using 64 bits per limb
##
## Attaching package: 'Rmpfr'
## The following object is masked from 'package:gmp':
##
## outer
## The following objects are masked from 'package:stats':
##
## dbinom, dgamma, dnbinom, dnorm, dpois, pnorm
## The following objects are masked from 'package:base':
##
## cbind, pmax, pmin, rbind
Cargar Datos
Experimentar con una población de 1000000 de edades de personas
El valor medio de la edad de la pobación μ es 35.002037 y el valor de la desviación estándar de la población es S2 es 5.0063637
Cada una de estas diferencias en la columna de Errores, representa el error de muestreo cometido al calcular la media de la población. A veces estos errores son valores positivos, lo cual indica que la media muestral sobre excedió la media poblacional; otras veces son negativos, lo cual indica que la media muestral es inferior a la media poblacional (Lind et al., 2015).
Visualizando la población y la muestra
hist(edad.poblacion, main = "Histrograma de la edad de la población")

hist(muestras$m1, main = "Histrograma de la edad de la muestra 1", ylab = "Edades", xlab="Observacaiones")

hist(muestras$m2, main = "Histrograma de la edad de la muestRa 2", ylab = "Edades", xlab="Observacaiones")

hist(muestras$m3, main = "Histrograma de la edad de la muestRa 3", ylab = "Edades", xlab="Observacaiones")

hist(muestras$m4, main = "Histrograma de la edad de la muestRa 4", ylab = "Edades", xlab="Observacaiones")

hist(muestras$m5, main = "Histrograma de la edad de la muestRa 5", ylab = "Edades", xlab="Observacaiones")

Con el ejercicio anterior, anterior se encontró el error de muestreo y se presentaron los resultados de comparar un estadístico para una muestra (como la media de la muestra) con la media de la población; bajo este contexto, cuando se usa la media muestral para estudiar la media de la población, ¿cómo se determina la exactitud de la estimación?, es decir, como saber si la media de la muestra es un estimador real con respecto a la población.
Para responder estas preguntas, primero hay que precisar el concepto de distribución muestral de la media: es la distribución de probabilidad de todas las posibles medias de las muestras de un determinado tamaño muestral de la población (Lind et al., 2015).
-Se recapitulan los datos iniciales
-N = 1000000, tamaño de la población
-n = 500, tamaño de la muestra
-edad.poblacion es la edad conocida y recabada de las personas.
-media.pob es la media de toda la población,
-desv.std es la desviación estándar de toda la población,
options(scipen = 999) # Para mostrar notación normal y no científica en el valor de N: 1e+06
N; n;
## [1] 1000000
## [1] 500
options(scipen = 0) # Regresa a notación numérica normal
summary(edad.poblacion)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12 32 35 35 38 59
media.pob; desv.std
## [1] 34.99764
## [1] 5.010003
En el anterior ejercicio se determinaron cinco muestras y cinco errores muestrales, uno de cada muestra. De acuerdo al concepto de distribución muestral de la media, ¿Cual es la cantidad posibles muestras de grupos de 500 que se pueden determinar para una población de 1000000? Se necesita determinar la combinaciones
Por lo anterior el número de muestra con una población de un millón (1000000) en grupo de 500 es demasiado grande para tratarlo.
Para ejemplificar el teorema de límite central se reduce la población a 10 con muestras de 2 personas.
Simulando una nueva población con los mismos valores de media de edad igual a 35 y desviación de 5.
Ahora bien ¿cuál es el valor estadístico de la media de la edad de la primera muestra, de la segunda, de la tercera y de la 45 ava muestra.
Determinando muestras en grupos de 2
muestras <- cbind(1:as.integer(n.combinaciones))
muestras <- cbind(muestras, combinations(N, n, 1:N))
muestras <- cbind(muestras, edad.poblacion[muestras[,2]], edad.poblacion[muestras[,3]])
medias <- 0
error <- 0
for(i in 1:as.integer(n.combinaciones)) {
medias[i] <- mean(muestras[i,c(4,5)])
error[i] <- medias[i] - media.pob
}
muestras <- cbind(muestras, medias)
muestras <- cbind(muestras, media.pob)
muestras <- cbind(muestras, error)
muestras <- data.frame(muestras)
colnames(muestras) <- c("Muestra", "Pos.1", "Pos.2", "Valor.1", "Valor.2", "Media muestra", "Media pob.", "Error")
kable(muestras, caption = "Las muestras")
Las muestras
| 1 |
1 |
2 |
36 |
27 |
31.5 |
32.7 |
-1.2 |
| 2 |
1 |
3 |
36 |
43 |
39.5 |
32.7 |
6.8 |
| 3 |
1 |
4 |
36 |
31 |
33.5 |
32.7 |
0.8 |
| 4 |
1 |
5 |
36 |
29 |
32.5 |
32.7 |
-0.2 |
| 5 |
1 |
6 |
36 |
43 |
39.5 |
32.7 |
6.8 |
| 6 |
1 |
7 |
36 |
28 |
32.0 |
32.7 |
-0.7 |
| 7 |
1 |
8 |
36 |
22 |
29.0 |
32.7 |
-3.7 |
| 8 |
1 |
9 |
36 |
33 |
34.5 |
32.7 |
1.8 |
| 9 |
1 |
10 |
36 |
35 |
35.5 |
32.7 |
2.8 |
| 10 |
2 |
3 |
27 |
43 |
35.0 |
32.7 |
2.3 |
| 11 |
2 |
4 |
27 |
31 |
29.0 |
32.7 |
-3.7 |
| 12 |
2 |
5 |
27 |
29 |
28.0 |
32.7 |
-4.7 |
| 13 |
2 |
6 |
27 |
43 |
35.0 |
32.7 |
2.3 |
| 14 |
2 |
7 |
27 |
28 |
27.5 |
32.7 |
-5.2 |
| 15 |
2 |
8 |
27 |
22 |
24.5 |
32.7 |
-8.2 |
| 16 |
2 |
9 |
27 |
33 |
30.0 |
32.7 |
-2.7 |
| 17 |
2 |
10 |
27 |
35 |
31.0 |
32.7 |
-1.7 |
| 18 |
3 |
4 |
43 |
31 |
37.0 |
32.7 |
4.3 |
| 19 |
3 |
5 |
43 |
29 |
36.0 |
32.7 |
3.3 |
| 20 |
3 |
6 |
43 |
43 |
43.0 |
32.7 |
10.3 |
| 21 |
3 |
7 |
43 |
28 |
35.5 |
32.7 |
2.8 |
| 22 |
3 |
8 |
43 |
22 |
32.5 |
32.7 |
-0.2 |
| 23 |
3 |
9 |
43 |
33 |
38.0 |
32.7 |
5.3 |
| 24 |
3 |
10 |
43 |
35 |
39.0 |
32.7 |
6.3 |
| 25 |
4 |
5 |
31 |
29 |
30.0 |
32.7 |
-2.7 |
| 26 |
4 |
6 |
31 |
43 |
37.0 |
32.7 |
4.3 |
| 27 |
4 |
7 |
31 |
28 |
29.5 |
32.7 |
-3.2 |
| 28 |
4 |
8 |
31 |
22 |
26.5 |
32.7 |
-6.2 |
| 29 |
4 |
9 |
31 |
33 |
32.0 |
32.7 |
-0.7 |
| 30 |
4 |
10 |
31 |
35 |
33.0 |
32.7 |
0.3 |
| 31 |
5 |
6 |
29 |
43 |
36.0 |
32.7 |
3.3 |
| 32 |
5 |
7 |
29 |
28 |
28.5 |
32.7 |
-4.2 |
| 33 |
5 |
8 |
29 |
22 |
25.5 |
32.7 |
-7.2 |
| 34 |
5 |
9 |
29 |
33 |
31.0 |
32.7 |
-1.7 |
| 35 |
5 |
10 |
29 |
35 |
32.0 |
32.7 |
-0.7 |
| 36 |
6 |
7 |
43 |
28 |
35.5 |
32.7 |
2.8 |
| 37 |
6 |
8 |
43 |
22 |
32.5 |
32.7 |
-0.2 |
| 38 |
6 |
9 |
43 |
33 |
38.0 |
32.7 |
5.3 |
| 39 |
6 |
10 |
43 |
35 |
39.0 |
32.7 |
6.3 |
| 40 |
7 |
8 |
28 |
22 |
25.0 |
32.7 |
-7.7 |
| 41 |
7 |
9 |
28 |
33 |
30.5 |
32.7 |
-2.2 |
| 42 |
7 |
10 |
28 |
35 |
31.5 |
32.7 |
-1.2 |
| 43 |
8 |
9 |
22 |
33 |
27.5 |
32.7 |
-5.2 |
| 44 |
8 |
10 |
22 |
35 |
28.5 |
32.7 |
-4.2 |
| 45 |
9 |
10 |
33 |
35 |
34.0 |
32.7 |
1.3 |
La media de la distribución muestral de la media se obtiene al sumar las medias muestrales y dividir el resultado entre el número de muestras. La media de todas las medias muestrales se representa mediante μx¯