Para estos ejercicios, se usará el siguiente conjunto de datos:

dir <- system.file(package = "dagdata")
filename <- file.path(dir,"extdata/mice_pheno.csv") 
datos <- read.csv(filename) %>% na.omit

En todo caso, si no se ha instalado la librería dagdata se puede también descargar el archivo de la red, primero se asegura que el paquete dowloader está instalado.

if (!require("downloader")) install.packages("downloader")

Luego, se descarga el archivo.

url <- "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extdata/mice_pheno.csv"
nombre_de_archivo <- basename (url)
download(url, destfile = nombre_de_archivo)
datos <- na.omit (read.csv (nombre_de_archivo))

1

Si una lista de números tiene una distribución que se aproxima bien a la distribución normal, ¿qué proporción de estos números está dentro de una desviación estándar del promedio de la lista?

pnorm(1)-pnorm(-1) # [1] 0.6826895

2

¿Qué proporción de los números de la lista se encuentran a dos desviaciones estándar del promedio de la lista?

pnorm(2)-pnorm(-2) # [1] 0.9544997

3

¿Qué proporción de estos números se encuentran a tres desviaciones estándar del promedio de la lista?

pnorm(3)-pnorm(-3) # [1] 0.9973002

4

Si y es el peso de los machos en la dieta de control. ¿Qué proporción de ratones se encuentran a una desviación estándar del peso promedio (recuerde usar popsd para la población sd)?

if (!require("rafalib")) install.packages("rafalib")
y = datos$Bodyweight[datos$Sex=='M' & datos$Diet=='chow']
mean(y >= mean(y) - popsd(y) & y <= mean(y) + popsd(y)) # [1] 0.6950673
## [1] 0.6950673

5

¿Qué proporción de estos números se encuentran a dos desviaciones estándar del promedio de la lista?

mean(y >= mean(y) - 2 * popsd(y) & y <= mean(y) + 2 * popsd(y)) # [1] 0.9461883
## [1] 0.9461883

6

¿Qué proporción de estos números se encuentran a tres desviaciones estándar del promedio de la lista?

mean(y >= mean(y) - 2 * popsd(y) & y <= mean(y) + 2 * popsd(y)) # [1] 0.9461883 
## [1] 0.9461883

7

Los números de la distribución normal y la lista de pesos son relativamente cercanos. Además, se están comparando indirectamente cuantiles de la distribución normal con cuantiles de la distribución del peso del ratón. De hecho, se pueden comparar todos los cuantiles usando un qqplot. ¿Cuál de las siguientes opciones describe mejor el gráfico qq que compara los pesos de los ratones con la distribución normal?

qqnorm(y)
qqline(y)

  1. Los puntos de la gráfica qq caen exactamente en la línea de identidad.
  2. El promedio de los pesos del ratón no es 0 y, por lo tanto, no puede seguir una distribución normal.
  3. Los pesos de los ratones están bien aproximados por la distribución normal, aunque los valores más grandes (cola derecha) son más grandes de lo previsto por la normal. Esto es consistente con las diferencias observadas en las preguntas 3 y 6.
  4. Estas no son variables aleatorias y, por lo tanto, no pueden seguir una distribución normal.

8

Cree el gráfico qq anterior para las cuatro poblaciones: machos / hembras en cada una de las dos dietas. ¿Cuál es la explicación más probable de que los pesos estén bien aproximados? ¿Cuál es la mejor explicación para que todos estos se aproximen bien por la distribución normal?

mypar(2,2)
qqnorm(y, main = 'Peso machos control')
qqline(y)
y = datos$Bodyweight[datos$Sex=='M' & datos$Diet=='hf']
qqnorm(y, main = 'Peso machos tratamiento')
qqline(y)
y = datos$Bodyweight[datos$Sex=='F' & datos$Diet=='chow']
qqnorm(y, main = 'Peso hembras control')
qqline(y)
y = datos$Bodyweight[datos$Sex=='F' & datos$Diet=='hf']
qqnorm(y, main = 'Peso hembras tratamiento')
qqline(y)

  1. El TLC nos dice que los promedios muestrales son aproximadamente normales.
  2. Así es como se comporta la naturaleza. Quizás es el resultado de muchos factores biológicos promediados.
  3. Todo lo que se mide en la naturaleza sigue una distribución normal.
  4. El error de medición se distribuye normalmente.

9

Ahora se va a utilizar la función replicate para aprender sobre la distribución de variables aleatorias. Todos los ejercicios anteriores se relacionan con la distribución normal como una aproximación de la distribución de una lista fija de números o una población. Todavía no se ha discutido la probabilidad en estos ejercicios. Si la distribución de una lista de números es aproximadamente normal, al elegir un número al azar de esta distribución, seguirá una distribución normal. Sin embargo, es importante recordar que afirmar que alguna variable tiene una distribución no implica necesariamente que esta variable sea aleatoria. Además, tenga en cuenta que esto no está relacionado con el teorema del límite central. El límite central se aplica a promedios de variables aleatorias. Se explora este concepto.

Ahora se tomará una muestra de tamaño 25 de la población de machos con dieta de control. El promedio de esta muestra es la variable aleatoria. Se usa replicate para observar 10000 realizaciones de esta variable aleatoria. Establezca la semilla en 1, genere estos 10000 promedios. Haga un histograma y una gráfica qq de estos 10000 números contra la distribución normal.

n<-10000
y<-datos$Bodyweight[datos$Sex=='M' & datos$Diet=='chow']
set.seed(1)
proms<-replicate(n, {mean(sample(y, 25))})
mypar(1,2)
hist(proms, breaks = 50)
qqnorm(proms)
qqline(proms)

Se puede ver que, tal como predice el TLC, la distribución de la variable aleatoria está muy bien aproximada por la distribución normal.

¿Cuál es el promedio de la distribución de las medias de las muestras?

mean(proms) # [1] 30.96856

10

¿Cuál es la desviación estándar de la distribución de los promedios muestrales?

sd(proms) # [1] 0.8271233

11

Según el TLC, la respuesta al ejercicio 9 debería ser la misma que la mean(y). Debería poder confirmar que estos dos números están muy cerca. ¿Cuál de los siguientes nos dice el CLT que debería estar cerca de su respuesta al ejercicio 10?

  1. popsd(y)
  2. popsd(proms)/sqrt(25)
  3. sqrt(25)/popsd(y)
  4. popsd(y)/sqrt(25)

12

En la práctica, como no se puede conocer la desviación estándar de la población \(\sigma\) (popsd (y)) debido a que casi nunca es accesible, no se puede usar TLC de manera directa. Esto se debe a que se tiene una muestra y no la distribución completa. Tampoco se puede usar popsd(proms) porque para construir promedios, se tendrían que tomar 10000 muestras y esto nunca es práctico. Por lo general, solo se obtiente una muestra. En su lugar, se estimar popsd(y). Como se describe, lo que se usa es la desviación estándar de la muestra. Establezca la semilla en 1, utilizando la función replicate, cree 10000 muestras de 25 y ahora, en lugar del promedio de la muestra, obtenga la desviación estándar. Observe la distribución de las desviaciones estándar de la muestra.

n<-10000
set.seed(1)
sds<-replicate(n, {sd(sample(y, 25))})
mypar(1,2)
hist(sds, breaks = 50)
qqnorm(sds)
qqline(sds)

Es una variable aleatoria. La desviación estándar de la población real es aproximadamente 4,4. ¿Qué proporción de las desviaciones estándar de las muestras está por debajo de 3,5?

mean(sds < 3.5) # [1] 0.0942

13

Lo que revela la respuesta a la pregunta 12 es que el denominador de la prueba t es una variable aleatoria. Al disminuir el tamaño de la muestra, se puede ver cómo aumentar esta variabilidad. Por tanto, añade variabilidad. Cuanto menor sea el tamaño de la muestra, más variabilidad se agrega. La distribución normal deja de proporcionar una aproximación útil. Cuando la distribución de los valores de la población es aproximadamente normal, como lo es para los pesos, la distribución t proporciona una mejor aproximación. Se verá esto más adelante. Aquí se verá la diferencia entre la distribución t y la normal. Utilice la función qt y qnorm para obtener los cuantiles de x = seq (0.0001,0.9999, len = 300).

Haga esto para los grados de libertad 3, 10, 15, 25, 30 y 100.

set.seed(1)
x = seq (0.0001,0.9999, len = 300)
mypar(3,2)
for(gl in c(3,10,15,25,30,100)){
  cuantiles <- qt(x, gl)
  qqnorm(cuantiles, main=paste('gl=', gl))
  qqline(cuantiles)
}

¿Cuál de las siguientes afirmaciones es verdadera?

  1. La distribución t y la distribución normal son siempre las mismas.
  2. La distribución t tiene un promedio más alto que la distribución normal.
  3. La distribución t tiene colas más grandes hasta 30 grados de libertad, momento en el que es prácticamente igual que la distribución normal.
  4. La varianza de la distribución t crece a medida que aumentan los grados de libertad.
Distribución t Capítulo de inferencia TLC en la práctica