Ahora que se ha introducido la idea de una variable aleatoria, una distribución nula y un valor p, se puede describir la teoría matemática que permite calcular valores p en la práctica. También se aprenderá sobre intervalos de confianza y cálculos de potencia.
Un primer paso en la inferencia estadística es comprender qué población interesa. En el ejemplo del peso del ratón, tenemos dos poblaciones: ratones hembra con dietas de control y ratones hembra con dietas altas en grasas, siendo el peso el resultado de interés. Se considera que esta población es fija y la aleatoriedad proviene del muestreo. Una de las razones por las que se ha usado este conjunto de datos como ejemplo es porque se tienen los pesos de todos los ratones de este tipo.
dir <- system.file(package = "dagdata")
filename <- file.path(dir,"extdata/mice_pheno.csv")
dat <- read.csv(filename)
Tambien puede ser descargado desde este enlace y leerlo en R:
Luego se puede acceder a los valores de la población y determinar, por ejemplo, cuántos se tiene Aquí se calcula el tamaño de la población de control:
library(dplyr)
controlPopulation <- filter(dat,Sex == "F" & Diet == "chow") %>% select(Bodyweight) %>% unlist
length(controlPopulation) # [1] 225
Por lo general, se indican estos valores como \(x_1,\dots,x_m\). En este caso, \(m\) es el número de datos calculado anteriormente. Se puede hacer lo mismo con la población de dietas altas en grasas:
hfPopulation <- dat$Bodyweight[dat$Sex == "F" & dat$Diet == "hf"] # Otra forma de seleccionar
length(hfPopulation) # [1] 200
e indicar estos con \(y_1,\dots,y_n\).
Luego se pueden definir resúmenes de interés para estas poblaciones, como la media y la varianza.
\[ \mu_x=\dfrac{1}{m}\sum_{i=1}^{m}x_{i} \Longleftrightarrow \mu_y=\dfrac{1}{n}\sum_{i=1}^{n}y_{i} \] Donde \(x\) y \(y\) simbolizan las poblaciones, es usual que se simbolicen con letras minúsculas.
\[\sigma_{x}^2=\dfrac{1}{m}\sum_{i=1}^{m}(x_{i}-\mu_{x})^2 \Longleftrightarrow \sigma_{y}^2=\dfrac{1}{n}\sum_{i=1}^{n}(y_{i}-\mu_{y})^2\] #### Sample estimates
En el capítulo anterior, se obtuvieron muestras de 12 ratones de cada población. Se representan datos de muestras con letras mayúsculas para indicar que son aleatorios. Esta es una práctica común en estadística, aunque no siempre se sigue. Las muestras se simbolizan de manera usual con letras mayúsculas, así: \[ X_1,X_2,...,X_n\Longleftrightarrow {Y}_1,Y_2,...,Y_n \]
Entonces, las muestras son \(X_1,\dots,X_M\) y \(Y_1,\dots,Y_N\), son muestras de \(x\) y \(y\) respectivamente y, en este caso, \(N=M=12\). Por el contrario y como se vio anteriormente, cuando se enumeran los valores de la población, que son establecidos y no aleatorios, se usan letras minúsculas.
Como se quiere saber si \((\mu_Y - \mu_X)=0\), se considera la versión de muestra: $ {Y} -{X} $ con: ##### Media muestral:
\[ \bar{X}=\frac{1}{M} \sum_{i=1}^M X_i \Longleftrightarrow \bar{Y}=\frac{1}{N} \sum_{i=1}^N Y_i. \]
Se debe tener en cuenta que esta diferencia de medias también es una variable aleatoria. Previamente, se aprendió sobre el comportamiento de las variables aleatorias con un ejercicio que involucraba muestreos repetidos de la distribución original. Por supuesto, este no es un ejercicio que se pueda ejecutar en la práctica. En este caso particular, implicaría comprar 24 ratones una y otra vez. Aquí se describe la teoría matemática que relaciona matemáticamente \(\bar{X}\) con \(\mu_x\) y \(\bar{Y}\) con \(\mu_y\), que a su vez ayudará a comprender la relación entre ${Y} - {X} $ y \(\mu_Y - \mu_X\). Específicamente, se describira cómo el teorema del límite central permite utilizar una aproximación para responder esta pregunta, así como introducir la distribución t ampliamente utilizada.
| Ejercicios variables aleatorias | Capítulo de inferencia | Ejercicios poblaciones y muestras |