La versión original en inglés puede ser consultada en este enlace
Para los siguientes ejercicios se usará el siguiente conjunto de datos, donde x representa los pesos de toda la población.
dir <- system.file(package = "dagdata")
filename <- file.path(dir,"extdata/femaleControlsPopulation.csv")
x <- read.csv(filename) %>% unlist
¿Cuál es el promedio de es estos pesos?
mean(x) # [1] 23.89338
Luego de colocar la semilla en 1, set.seed(1) se toma una muestra aleatoria de 5 pesos de la lista. ¿Cuál es el valor absoluto de la diferencia entre el promedio de la muestra y el promedio de todos los valores?
set.seed(1)
abs(mean(sample(x, 5)) - mean(x)) # [1] 0.3293778
Luego de colocar la semilla en 5, set.seed(5) se toma una muestra aleatoria de 5 pesos de la lista. ¿Cuál es el valor absoluto de la diferencia entre el promedio de la muestra y el promedio de todos los valores?
set.seed(5)
abs(mean(sample(x, 5)) - mean(x)) # [1] 0.3813778
¿Por qué son diferentes los dos valores obtenidos en el ejercicio 3 y en el ejercicio 4?
Coloque la semilla en 1, tome una muestra de 5 ratones 1000 veces, guarde los promedios de cada muestra. ¿Qué proporción de estos 1000 promedios esta más de 1 gramo por encima o por abajo del promedio de x?
n<-1000
N<-5
proms5<-vector('numeric', n)
set.seed(1)
for(i in 1:n){
proms5[i] <- mean(sample(x, N))
}
mean(abs(proms5 - mean(x)) > 1) # [1] 0.503
Incrementemos el número de veces de 1000 a 10000, tomando muestras de 5 ratones, guarde los promedios de cada muestra. ¿Qué proporción de estos 10000 promedios esta más de 1 gramo por encima o por abajo del promedio de x?
n<-10000
N<-5
proms<-vector('numeric', n)
set.seed(1)
for(i in 1:n){
proms[i] <- mean(sample(x, N))
}
mean(abs(proms - mean(x)) > 1) # [1] 0.5084
Note que las respuestas de 5 y 6 no cambian mucho, eso es lo esperado. La forma en que pensamos sobre las distribuciones de valores aleatorios es como la distribución de la lista de valores obtenidos si repetimos el experimento un número infinito de veces. En un computador, no podemos realizar un número infinito de iteraciones, así que en cambio, para nuestros ejemplos, consideramos que 1000 es lo suficientemente grande, por lo que 10000 también lo es. Ahora bien, si se cambia el tamaño de la muestra, se cambia la variable aleatoria y por lo tanto su distribución.
Coloque la semilla en 1, tome una muestra de 50 ratones 1000 veces, guarde los promedios de cada muestra. ¿Qué proporción de estos 1000 promedios esta más de 1 gramo por encima o por abajo del promedio de x?
n<-1000
N<-50
proms50<-vector('numeric', n)
set.seed(1)
for(i in 1:n){
proms50[i] <- mean(sample(x, N))
}
mean(abs(proms50 - mean(x)) > 1) # [1] 0.014
Utilice un histograma para “observar” la distribución de promedios que se obtiene con un tamaño de muestra de 5 y un tamaño de muestra de 50. ¿Cómo diría que difieren?
mypar(1,2)
hist(proms5, main="Promedios de muestras de 5", xlab = "Peso en gramos", ylab = "Frecuencia")
hist(proms50, main="Promedios de muestras de 50", xlab = "Peso en gramos", ylab = "Frecuencia")
Para el último conjunto de promedios, los obtenidos de un tamaño de muestra de 50, ¿qué proporción está entre 23 y 25?
mean(proms50 >= 23 & proms50 <=25) # [1] 0.982
Ahora calcule la proporción de resultados entre 23 y 25 para una distribución normal con un media de 23,9 y una desviación estándar de 0,43.
pnorm(25, mean=23.9, sd=0.43) - pnorm(23, mean=23.9, sd=0.43) # [1] 0.9765648
Las respuestas al 9 y al 10 fueron muy similares. Esto se debe a que podemos aproximar la distribución del promedio de la muestra con una distribución normal.
Variables aleatorias | Capítulo de inferencia | Poblaciones y muestras |