El teorema del límite central es el resultado de la teoría de la probabilidad. Gran parte de la teoría de la probabilidad se inspiró originalmente en el juego. Esta teoría todavía se utiliza en la práctica en los casinos. Por ejemplo, para estimar cuántas personas necesitan jugar a las tragamonedas para que haya una probabilidad del 99,9999% de ganar suficiente dinero para cubrir los gastos.
Un ejemplo sencillo relacionado con los juegos de apuestas. Supóngase que se está interesado en la proporción en que se obtiene un 6 cuando se lanza 100 veces \(n = 100\) un dado. Esta es una variable aleatoria que podemos simular con x = sample(1:6, 100, replace=T) y la proporción que nos interesa se puede expresar como una media: mean(x == 6). Debido a que las tiradas del dado son independientes, se puede aplicar el TLC.
Si se repite el experimento 10000 veces y se guardan las proporciones en las que cae el número 6 en cada una de ellas. Esta variable aleatoria (proporción de veces en que cae 6) tiene una media p = 1/6 y una varianza p * (1-p) / n. Entonces, de acuerdo con el teorema del límite central, z = (mean(x==6) - p) / sqrt(p*(1-p)/n) debería seguir una distribución normal con una media de 0 y desviación estándar de 1.
Establezca la semilla en 1, luego use replicate para realizar la simulación e informe qué proporción de veces z fue mayor que 2 en valor absoluto (TLC dice que debería ser aproximadamente 0.046 2*(1-pnorm(2))).
N<-10000
n<-100
p<-1/6
set.seed(1)
zs <- replicate(N, {
x = sample(1:6, n, replace=T)
(mean(x==6) - p) / sqrt(p*(1-p)/n)
})
mean(abs(zs) > 2) # [1] 0.0431
qqnorm(zs)
qqline(zs)
Para la última simulación, puede hacer un qqplot para confirmar la aproximación normal. Ahora, el CLT es un resultado asintótico, lo que significa que está cada vez más cerca de ser una aproximación perfecta a medida que aumenta el tamaño de la muestra. En la práctica, sin embargo, debemos decidir si es apropiado para los tamaños de muestra reales. ¿Es suficiente con 10? ¿15? 30?
En el ejemplo utilizado en el ejercicio 1, los datos originales son binarios (6 o no). En este caso, la probabilidad de éxito también afecta la idoneidad del teorema del límite central. Con probabilidades muy bajas, necesitamos tamaños de muestra más grandes para que el teorema del límite central “se active”.
Ejecute la simulación del ejercicio 1, pero para diferentes valores de p y n. ¿Para cuál de las siguientes opciones es mejor la aproximación normal?
ps<-c(0.5,0.5,0.01,0.01)
ns<-c(5,30,30,100)
mypar(4,2)
for(i in 1:4){
opciones <- 1/ps[i]
zs <- replicate(N, {
x = sample(1:opciones, ns[i], replace=T)
(mean(x==1) - p) / sqrt(p*(1-p)/ns[i])
})
hist(zs, main = paste('p=', ps[i], ', n=', ns[i]))
qqnorm(zs)
qqline(zs)
}
Para los ejercicios del 3 al 13 se usará el siguiente conjunto de datos.
dir <- system.file(package = "dagdata")
filename <- file.path(dir,"extdata/femaleMiceWeights.csv")
datos <- read.csv(filename) %>% na.omit
En todo caso, si no se ha instalado la librería dagdata se puede también descargar el archivo de la red, primero se asegura que el paquete dowloader está instalado.
if (!require("downloader")) install.packages("downloader")
Luego, se descarga el archivo.
url <- "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extdata/femaleMiceWeights.csv"
nombre_de_archivo <- basename (url)
download(url, destfile = nombre_de_archivo)
datos <- na.omit (read.csv (nombre_de_archivo))
Como ya se ha visto, el teorema del límite central también se aplica a promedios de datos cuantitativos. Una diferencia importante con los datos binarios, para los que se sabe que la varianza es p(1−p), es que con los datos cuantitativos se requiere estimar la desviación estándar de la población.
En varios ejercicios anteriores se han ilustrado conceptos estadísticos con la situación poco realista de tener acceso a toda la población. En la práctica, no se tiene acceso a poblaciones enteras. En cambio, se obtiene una muestra aleatoria y se requiere llegar a conclusiones analizando esos datos. datos es un ejemplo de un conjunto de datos simple típico que representa solo una muestra. Tenemos 12 medidas para cada una de las dos poblaciones:
X <- filter (dat, Diet == "chow")%>% select (Bodyweight)%>% unlist
Y <- filter (dat, Diet == "hf")%>% select (Bodyweight)%>% unlist
X sería una muestra aleatoria de la población de todos los ratones en la dieta de control y Y sería una muestra aleatoria de la población de todos los ratones en la dieta alta en grasas.
Defina el parámetro \(\mu_x\) como el promedio de la población de control. Estimamos este parámetro con el promedio muestral \(\bar{X}\). ¿Cuál es el promedio de la muestra?
mean(X) # [1] 23.81333
No conocemos \(\mu_x\), pero queremos usar \(\bar{X}\) para comprender \(\mu_x\). ¿Cuál de los siguientes usa el teorema del límite central para comprender qué tan bien \(\bar{X}\) se aproxima a \(\mu_x\)?
El resultado anterior nos dice la distribución de la siguiente variable aleatoria: \(Z = \sqrt{12}\cdot\dfrac{\bar{X}-\mu_x}{\sigma_x}\)‾.
Según el teorema del límite central, ¿cual es la media de Z? (no necesita código).
0
El resultado de 4 y 5 nos dice que se conoce la distribución de la diferencia entre la estimación y lo que se quiere estimar, pero no conocemos. Sin embargo, la ecuación involucra la desviación estándar de la población \(\sigma_x\)?, que no conocemos. Dado lo que discutimos, ¿cuál es su estimación de \(\sigma_x\)?
sd(X) # [1] 3.022541
La desviación estándar de la población se estima con la desviación estándar de la muestra. ### 7
Use el teorema del límite central para aproximar la probabilidad de que la estimación \(\bar{X}\) esté desviada en más de 2 gramos de \(\mu_x\).
Para resolver este ejercicio se pueden usar cualquiera de las siguientes aproximaciones, con idénticos resultados:
1 - pnorm(mean(X)+2, mean=mean(X), sd=sd(X)/sqrt(12)) + pnorm(mean(X)-2, mean=mean(X), sd=sd(X)/sqrt(12)) # [1] 0.02189533
2*(1 - pnorm(mean(X)+2, mean=mean(X), sd=sd(X)/sqrt(12))) # [1] 0.02189533
2*(pnorm(mean(X)-2, mean=mean(X), sd=sd(X)/sqrt(12))) # [1] 0.02189533
2 * ( 1-pnorm(sqrt(12)*2/sd(X)) ) # [1] 0.02189533
La última aproximación está basada en la ecuacion \(Z=\sqrt{N}\dfrac{\bar{X}}{s_X}\)
Ahora se introduce el concepto de hipótesis nula. No se conoce ni \(\mu_x\) ni \(\mu_y\). Se quiere cuantificar lo que dicen los datos sobre la posibilidad de que la dieta no tenga ningún efecto, es decir que \(\mu_x = \mu_y\). Si se usa el teorema del límite central, entonces se aproxima la distribución de \(\bar{X}\) como normal con media \(\mn_x\) y desviación estándar \(\sigma_x/sqrt{M}\) y la distribución de \(\bar{Y}\) como normal con media \(\mn_y\) y desviación estándar \(\sigma_y/sqrt{N}\). Esto implica que la distribución de la diferencia \(\bar{Y}-\bar{X}\) tiene media 0. Se dice que la desviación estándar de este estadístico (el error estándar) es \(SE(\bar{Y}-\bar{X}) = \sqrt{\sigma_y^2/12+\sigma_x^2/12}\) y que se estiman las desviaciones estándar de la población \(\sigma_x\) y \(\sigma_y\) con las estimaciones de la muestra. ¿Cuál es la estimación de \(SE(\bar{Y}-\bar{X}) = \sqrt{\sigma_y^2/12+\sigma_x^2/12}\)?
sqrt(var(Y)/12+var(X)/12) # [1] 1.469867
sqrt( sd(X)^2/12 + sd(Y)^2/12 ) # [1] 1.469867
Entonces ahora se puede calcular \(\bar{Y} − \bar{X}\) como una estimación de este error estándar y construir un estadístico t. ¿Cuál es el valor de este estadístico t?
(mean(Y)-mean(X))/sqrt(var(X)/length(X)+var(Y)/length(Y)) # [1] 2.055174
t.test(Y,X)$stat # [1] 2.055174
Si se aplica el teorema del límite cental, ¿cuál es la distribución de este estadístico t?
Para algunos de los siguientes ejercicios, hay que revisar la distribución t que se presentó antes.
En particular, hay recordar que la distribución t está centrada en 0 y tiene un parámetro: los grados de libertad, que controlan el tamaño de las colas. Observe que si X sigue una distribución t, la probabilidad de que X sea menor que un valor extremo, como 3 desviaciones estándares de la media, aumenta con los grados de libertad. Por ejemplo, observe la diferencia entre:
1 - pt(3, df=3) # [1] 0.02883444
1 - pt(3, df=15) # [1] 0.004486369
1 - pt(3, df=30) # [1] 0.002694982
1 - pnorm(3) # [1] 0.001349898
Como se explicó, bajo ciertos supuestos, el estadístico t sigue una distribución t. Determinar los grados de libertad a veces puede ser engorroso, pero la función t.test lo calcula. Un dato importante a tener en cuenta es que los grados de libertad están directamente relacionados con el tamaño de la muestra. Hay varios recursos para aprender más sobre los grados de libertad en Internet, así como libros de estadísticas.
Ahora se puede calcular un valor p usando teorema del límite central. ¿Cuál es la probabilidad de observar una cantidad tan grande como la calculada en 9, cuando la distribución nula es verdadera?
2*(1-pnorm( (mean(Y)-mean(X))/sqrt(var(X)/length(X)+var(Y)/length(Y)) )) # [1] 0.0398622
El teorema del límite central proporciona una aproximación para los casos en los que el tamaño de la muestra es grande. En la práctica, no se puede verificar la suposición porque solo se puede ver 1 resultado (que se calculó anteriormente). Como resultado, si esta aproximación está desactivada, también lo está el valor p. Como se describió anteriormente, existe otro enfoque que no requiere un gran tamaño de muestra, sino que la distribución de la población es aproximadamente normal. No podemos ver esta distribución, por lo que nuevamente es una suposición, aunque podemos observar la distribución de la muestra con qqnorm (X) y qqnorm (Y). Si se está dispuestos a asumir esto, se deduce que el estadístico t sigue la distribución t.
¿Cuál es el valor p bajo la aproximación de distribución t? Sugerencia: utilice la función t.test.
t.test(Y,X)$p.value # [1] 0.05299888
## [1] 0.05299888
Usando el teorema del límite central con la distribución normal, se obtuvo un valor p menor que \(0.05\) y con la distribución t, uno que es mayor. Ambos no pueden tener razón. ¿Cuál frase describe mejor la diferencia?
| TLC en la práctica | Capítulo de inferencia | Test t en la práctica |