Se cargan las librerías necesarias.
if (!require("devtools")) install.packages("devtools") # Para instalar librerías desde otras fuentes diferentes a CRAN
if (!require("dplyr")) install.packages("dplyr")
if (!require("latex2exp")) install.packages("latex2exp") # Para usar latex en los títulos de las gráficas
if (!require("rafalib")) install.packages("rafalib") # Varias funciones prácticas: mypar, popsd
if (!require("dagdata")) install_github("genomicsclass/dagdata") # Para tener disponibles los datos del estudio de ratones
La versión original en inglés puede ser consultada en este enlace.
Este capítulo presenta los conceptos estadísticos necesarios para comprender los valores p y los intervalos de confianza. Estos términos son omnipresentes en la literatura sobre ciencias de la vida.
Se usará el artículo Winzell, M. S., & Ahren, B. (2004). The High-Fat Diet-Fed Mouse: A Model for Studying Mechanisms and Treatment of Impaired Glucose Tolerance and Type 2 Diabetes. Diabetes, 53(Supplement 3), S215–S219 como ejemplo.
Hay que tener en cuenta que el resumen tiene esta declaración:
El peso corporal fue mayor en los ratones alimentados con la dieta alta en grasas ya después de la primera semana, debido a una mayor ingesta dietética en combinación con una menor eficiencia metabólica.
Para respaldar esta afirmación, proporcionan lo siguiente en la sección de resultados:
Ya durante la primera semana después de la introducción de una dieta alta en grasas, el peso corporal aumentó significativamente más en los ratones alimentados con una dieta alta en grasas ( \(+\) 1,6 \(\pm\) 0,1 g) que en los ratones alimentados con una dieta normal ( \(+\) 0,2 \(\pm\) 0,1 g; P \(<\) 0,001).
¿Qué significa P \(<\) 0,001? ¿Cuáles son los \(\pm\) incluidos? Se aprenderá lo que esto significa y a calcular estos valores en R. El primer paso es comprender las variables aleatorias. Para esto se usaran datos de una base de datos de ratones (proporcionada por Karen Svenson a través de Gary Churchill y Dan Gatti y parcialmente financiado por P50 GM070683). Se importarán los datos a R y se explicarán las variables aleatorias y distribuciones nulas usando programación R.
Como ya se ha instalado el paquete dagdata se puede ver cuáles son los archivos de datos que incorpora este paquete, esto se puede hacer con las siguientes instrucciones en R.
dir <- system.file(package = "dagdata")
list.files(file.path(dir, "extdata"))
## [1] "admissions.csv" "astronomicalunit.csv"
## [3] "babies.txt" "femaleControlsPopulation.csv"
## [5] "femaleMiceWeights.csv" "mice_pheno.csv"
## [7] "msleep_ggplot2.csv" "README"
## [9] "spider_wolff_gorb_2013.csv"
Se leen los datos de femaleMiceWeights.csv
filename <- file.path(dir,"extdata/femaleMiceWeights.csv")
dat <- read.csv(filename)
Hay interés en determinar si seguir una dieta determinada aumenta el peso de los ratones después de varias semanas. Estos datos se obtuvieron seleccionando 24 ratones de The Jackson Lab y asignando al azar comida o una dieta alta en grasas (hf). Después de varias semanas, los científicos pesaron cada ratón y obtuvieron estos datos (head solo nos muestra las primeras 6 filas):
head(dat)
## Diet Bodyweight
## 1 chow 21.51
## 2 chow 28.14
## 3 chow 24.04
## 4 chow 23.45
## 5 chow 23.68
## 6 chow 19.79
En RStudio, se puede ver el conjunto de datos completo con:
View(dat)
Entonces, ¿son los ratones con dieta grasa más pesados? El ratón 24 con 20,73 gramos es uno de los ratones más ligeros, mientras que el ratón 21 con 34,02 gramos es uno de los más pesados. Ambos están en la dieta grasa. Con solo mirar los datos, se ve que hay variabilidad. Afirmaciones como la anterior generalmente se refieren a las medias. Así que se mira la media de cada grupo:
control <- filter(dat,Diet=="chow") %>% select(Bodyweight) %>% unlist
tratamiento <- dat$Bodyweight[dat$Diet=="hf"]
print( mean(control) ) # [1] 23.81333 - Media de los pesos de los individuos de control
print( mean(tratamiento) ) # [1] 26.83417 - Media de los pesos de los individuos de tratamiento
difobservaciones <- mean(tratamiento) - mean(control)
print(difobservaciones) # [1] 3.020833 - Diferencia observada entre las medias de tratamiento y control
Por tanto, los ratones de la dieta grasa (hf) son un 10% más pesados. ¿Se ha terminado? ¿Por qué se necesitan valores p e intervalos de confianza? La razón es que estos promedios son variables aleatorias. Pueden tomar muchos valores.
Si se repite el experimento, se obtienen 24 ratones diferentes del Laboratorio Jackson y, tras asignarlos aleatoriamente a cada dieta, se obtiene una media diferente. Cada vez que se repite este experimento, se obtiene un valor diferente, a este tipo de variables se le llama variable aleatoria.
| Capítulo de inferencia | Variables aleatorias |