Al observar la gráfica de colesterol por enfermedad nos hacemos la pregunta:
¿Existe una diferencia significativa en el nivel de colesterol promedio entre personas enfermas (num > 0) y no enfermas (num = 0)?
No existe diferencia en el colesterol promedio entre pacientes con y sin enfermedad cardíaca.
\[H_0:\mu_{enfermos}=\mu_{no\ enfermos}\]
Sí existe diferencia en el colesterol promedio entre pacientes con y sin enfermedad cardíaca.
\[H_a:\mu_{enfermos}\neq\mu_{no\ enfermos}\]
Escogemos el nivel estándar:
\[\alpha=0.05\]
Dado que queremos ver si hay cualquier diferencia, no sólo si un promedio es mayor, usamos un contraste bilateral.
Para comparar medias de variables continuas (colesterol) entre dos grupos ajenos (enfermos y no enfermos), usamos la prueba-t de muestras independientes.
En datos médicos es muy común que las varianzas no sean iguales y la versión de prueba-t que usa R por defecto es la Welch que ajusta los grados de libertad sin requerir homogeneidad.
Con tamaños de muestra mayores que 30 por grupo (en este caso, cientos), se aplica el teorema del límite central y la prueba-t sigue siendo válida incluso con desviaciones moderadas de normalidad.
El estadístico de prueba es:
\[t=\frac{\bar{X}_1-\bar{X}_2}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}}\] Donde
Utilizamos t.test() y obtenemos el siguiente
resultado:
##
## Welch Two Sample t-test
##
## data: chol by enfermedad
## t = 3.179, df = 699.09, p-value = 0.001543
## alternative hypothesis: true difference in means between group Enfermedad and group No Enfermedad is not equal to 0
## 95 percent confidence interval:
## 5.296205 22.403932
## sample estimates:
## mean in group Enfermedad mean in group No Enfermedad
## 254.0087 240.1586
El valor estadístico es t = 3.179, lo que significa que la diferencia entre las medias de colesterol de los dos grupos (enfermos vs. no enfermos) es 3.179 desviaciones estándar de error más grande de lo que se esperaría si no hubiera realmente diferencia entre los grupos (si \(H_0\) fuera verdadera). Es decir, la diferencia observada es lo suficientemente grande como para no atribuirse al azar.
El valor-p es p-value = 0.001543. Como el p-valor es mucho menor que el nivel de significancia \(\alpha\), se rechaza \(H_0\). Este p-valor aporta evidencia muy fuerte de que existe una diferencia real entre los grupos.
El intervalo de confianza al 95%: [5.3. 22.4] significa que estamos 95% seguros de que la diferencia real en el colesterol promedio entre los grupos enfermos y no enfermos está entre 5.3 y 22.4 mg/dl. Como todo el intervalo está por encima de 0, refuerza la conclusión de que el colesterol es mayor en el grupo enfermo.
Por todo lo anterior, se rechaza la hipótesis nula \(\left(H_0\right)\).
Las personas con enfermedad cardíaca (num > 0, aquí etiquetadas como “Enfermedad”) presentan un colesterol promedio significativamente mayor que las personas no enfermas.
Esto sugiere que el colesterol puede estar asociado con la presencia de enfermedad cardíaca.
No implica causalidad, pero sí: