Heart Disease UCI

Al observar la gráfica de colesterol por enfermedad nos hacemos la pregunta:

¿Existe una diferencia significativa en el nivel de colesterol promedio entre personas enfermas (num > 0) y no enfermas (num = 0)?

Hipótesis nula \(\left(H_0\right)\)

No existe diferencia en el colesterol promedio entre pacientes con y sin enfermedad cardíaca.

\[H_0:\mu_{enfermos}=\mu_{no\ enfermos}\]

Hipótesis alternativa \(\left(H_a\right)\)

Sí existe diferencia en el colesterol promedio entre pacientes con y sin enfermedad cardíaca.

\[H_a:\mu_{enfermos}\neq\mu_{no\ enfermos}\]

Nivel de significancia \(\left(\alpha\right)\)

Escogemos el nivel estándar:

\[\alpha=0.05\]

Tipo de contraste

Dado que queremos ver si hay cualquier diferencia, no sólo si un promedio es mayor, usamos un contraste bilateral.

Estadístico de prueba esperado

Para comparar medias de variables continuas (colesterol) entre dos grupos ajenos (enfermos y no enfermos), usamos la prueba-t de muestras independientes.

En datos médicos es muy común que las varianzas no sean iguales y la versión de prueba-t que usa R por defecto es la Welch que ajusta los grados de libertad sin requerir homogeneidad.

Con tamaños de muestra mayores que 30 por grupo (en este caso, cientos), se aplica el teorema del límite central y la prueba-t sigue siendo válida incluso con desviaciones moderadas de normalidad.

El estadístico de prueba es:

\[t=\frac{\bar{X}_1-\bar{X}_2}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}}\] Donde

  • \(\bar{X}_1\), \(\bar{X}_2\) : medias de colesterol de cada grupo
  • \(s_1\), \(s_2\) : desviación estándar
  • \(n_1\), \(n_2\) : tamaños de las muestras

Utilizamos t.test() y obtenemos el siguiente resultado:

## 
##  Welch Two Sample t-test
## 
## data:  chol by enfermedad
## t = 3.179, df = 699.09, p-value = 0.001543
## alternative hypothesis: true difference in means between group Enfermedad and group No Enfermedad is not equal to 0
## 95 percent confidence interval:
##   5.296205 22.403932
## sample estimates:
##    mean in group Enfermedad mean in group No Enfermedad 
##                    254.0087                    240.1586

El valor estadístico es t = 3.179, lo que significa que la diferencia entre las medias de colesterol de los dos grupos (enfermos vs. no enfermos) es 3.179 desviaciones estándar de error más grande de lo que se esperaría si no hubiera realmente diferencia entre los grupos (si \(H_0\) fuera verdadera). Es decir, la diferencia observada es lo suficientemente grande como para no atribuirse al azar.

El valor-p es p-value = 0.001543. Como el p-valor es mucho menor que el nivel de significancia \(\alpha\), se rechaza \(H_0\). Este p-valor aporta evidencia muy fuerte de que existe una diferencia real entre los grupos.

El intervalo de confianza al 95%: [5.3. 22.4] significa que estamos 95% seguros de que la diferencia real en el colesterol promedio entre los grupos enfermos y no enfermos está entre 5.3 y 22.4 mg/dl. Como todo el intervalo está por encima de 0, refuerza la conclusión de que el colesterol es mayor en el grupo enfermo.

Por todo lo anterior, se rechaza la hipótesis nula \(\left(H_0\right)\).

Implicación práctica y analítica

Hallazgo principal:

Las personas con enfermedad cardíaca (num > 0, aquí etiquetadas como “Enfermedad”) presentan un colesterol promedio significativamente mayor que las personas no enfermas.

  • Enfermos: 254.0 mg/dl
  • No enfermos: 240.2 mg/dl
  • Diferencia: 14 mg/dl aprox.

Implicación clínica / analítica:

Esto sugiere que el colesterol puede estar asociado con la presencia de enfermedad cardíaca.

No implica causalidad, pero sí:

  • Puede ser un factor de riesgo relevante.
  • Es útil para modelos predictivos.
  • Refuerza hipótesis fisiológicas conocidas sobre el rol del colesterol.