Ejercicios de variables aleatorias

La versión original en inglés puede ser consultada en este enlace

Para los siguientes ejercicios se usará el siguiente conjunto de datos, donde x representa los pesos de toda la población.

dir <- system.file(package = "dagdata")
filename <- file.path(dir,"extdata/femaleControlsPopulation.csv") 
x <- read.csv(filename) %>% unlist

1

¿Cuál es el promedio de es estos pesos?

mean(x) # [1] 23.89338

2

Luego de colocar la semilla en 1, set.seed(1) se toma una muestra aleatoria de 5 pesos de la lista. ¿Cuál es el valor absoluto de la diferencia entre el promedio de la muestra y el promedio de todos los valores?

set.seed(1)
abs(mean(sample(x, 5)) - mean(x)) # [1] 0.3293778

3

Luego de colocar la semilla en 5, set.seed(5) se toma una muestra aleatoria de 5 pesos de la lista. ¿Cuál es el valor absoluto de la diferencia entre el promedio de la muestra y el promedio de todos los valores?

set.seed(5)
abs(mean(sample(x, 5)) - mean(x)) # [1] 0.3813778

4

¿Por qué son diferentes los dos valores obtenidos en el ejercicio 3 y en el ejercicio 4?

Porque cometimos un error de codificación.
Porque el promedio de x es aleatorio.
Porque el promedio de las muestras es una variable aleatoria.
Todo lo anterior.

5

Coloque la semilla en 1, tome una muestra de 5 ratones 1000 veces, guarde los promedios de cada muestra. ¿Qué proporción de estos 1000 promedios esta más de 1 gramo por encima o por abajo del promedio de x?

n<-1000
N<-5
proms5<-vector('numeric', n)
set.seed(1)
for(i in 1:n){
  proms5[i] <- mean(sample(x, N))
}
mean(abs(proms5 - mean(x)) > 1) # [1] 0.503

6

Incrementemos el número de veces de 1000 a 10000, tomando muestras de 5 ratones, guarde los promedios de cada muestra. ¿Qué proporción de estos 10000 promedios esta más de 1 gramo por encima o por abajo del promedio de x?

n<-10000
N<-5
proms<-vector('numeric', n)
set.seed(1)
for(i in 1:n){
  proms[i] <- mean(sample(x, N))
}
mean(abs(proms - mean(x)) > 1) # [1] 0.5084

7

Note que las respuestas de 5 y 6 no cambian mucho, eso es lo esperado. La forma en que pensamos sobre las distribuciones de valores aleatorios es como la distribución de la lista de valores obtenidos si repetimos el experimento un número infinito de veces. En un computador, no podemos realizar un número infinito de iteraciones, así que en cambio, para nuestros ejemplos, consideramos que 1000 es lo suficientemente grande, por lo que 10000 también lo es. Ahora bien, si se cambia el tamaño de la muestra, se cambia la variable aleatoria y por lo tanto su distribución.

Coloque la semilla en 1, tome una muestra de 50 ratones 1000 veces, guarde los promedios de cada muestra. ¿Qué proporción de estos 1000 promedios esta más de 1 gramo por encima o por abajo del promedio de x?

n<-1000
N<-50
proms50<-vector('numeric', n)
set.seed(1)
for(i in 1:n){
  proms50[i] <- mean(sample(x, N))
}
mean(abs(proms50 - mean(x)) > 1) # [1] 0.014

8

Utilice un histograma para “observar” la distribución de promedios que se obtiene con un tamaño de muestra de 5 y un tamaño de muestra de 50. ¿Cómo diría que difieren?

mypar(1,2)
hist(proms5, main="Promedios de muestras de 5", xlab = "Peso en gramos", ylab = "Frecuencia")
hist(proms50, main="Promedios de muestras de 50", xlab = "Peso en gramos", ylab = "Frecuencia")

En realidad son lo mismo.
Ambos se ven aproximadamente normales, pero con un tamaño de muestra de 50, la dispersión es menor.
Ambos se ven aproximadamente normales, pero con un tamaño de muestra de 50, la dispersión es mayor.
La segunda distribución no parece normal en absoluto.

9

Para el último conjunto de promedios, los obtenidos de un tamaño de muestra de 50, ¿qué proporción está entre 23 y 25?

mean(proms50 >= 23 & proms50 <=25) # [1] 0.982

10

Ahora calcule la proporción de resultados entre 23 y 25 para una distribución normal con un media de 23,9 y una desviación estándar de 0,43.

pnorm(25, mean=23.9, sd=0.43) - pnorm(23, mean=23.9, sd=0.43) # [1] 0.9765648

Las respuestas al 9 y al 10 fueron muy similares. Esto se debe a que podemos aproximar la distribución del promedio de la muestra con una distribución normal.

Variables aleatorias

Capítulo de inferencia

Poblaciones y muestras