Este informe analiza el conjunto de datos Smokers Health Data mediante pruebas de hipótesis estadísticas, con el objetivo de evaluar diferencias significativas en indicadores clave de salud cardiovascular entre fumadores y no fumadores. El estudio se centra en dos variables fundamentales: frecuencia cardíaca y niveles de colesterol, ambos ampliamente reconocidos como predictores de riesgo cardiovascular. El análisis busca aportar evidencia cuantitativa sobre el impacto del tabaquismo en la salud cardiovascular, contribuyendo a la toma de decisiones en salud pública y prevención de enfermedades.
El flujo de análisis se estructura en cuatro etapas:
1. Preprocesamiento de datos
Carga del dataset: Se utiliza el archivo smoking_health_data_final.csv, asegurando la integridad y consistencia de los datos.
Creación de variables categóricas:
2. Análisis exploratorio de datos (EDA)
3. Pruebas de hipótesis
4. Visualización y presentación de resultados
| Librería | Función clave |
|---|---|
tidyverse |
Manipulación de datos y gráficos |
broom |
Extracción de resultados |
kableExtra |
Creación de tablas publicables |
ggpubr |
Composición avanzada de gráficos |
En esta etapa se realiza la carga del archivo y la creación de variables categóricas clave para el análisis estadístico.
Se utiliza el archivo `smoking_health_data_final.csv` con las variables originales del estudio.
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.2 ✔ tibble 3.2.1
## ✔ lubridate 1.9.4 ✔ tidyr 1.3.1
## ✔ purrr 1.0.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Rows: 3900 Columns: 7
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (3): sex, current_smoker, blood_pressure
## dbl (4): age, heart_rate, cigs_per_day, chol
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Variables categóricas mediante funciones indicadoras:
Hipercolesterolemia Severa (\(C_{\text{alto}}\)):
\[
C_{\text{alto}} = \mathbb{I}_{\{\text{chol} > 240\}} =
\begin{cases}
1 & \text{si } \text{chol}_i > 240\ \text{mg/dL} \\
0 & \text{en otro caso}
\end{cases}
\]
Taquicardia (\(T_{\text{acel}}\)):
\[
T_{\text{acel}} = \mathbb{I}_{\{\text{heart\_rate} > 100\}} =
\begin{cases}
1 & \text{si } \text{hr}_i > 100\ \text{lpm} \\
0 & \text{en otro caso}
\end{cases}
\]
Factorización de Fumadores (\(F_{\text{smk}}\)):
\[
F_{\text{smk}} = \text{as.factor}(\text{current\_smoker}) \in
\{\text{Sí}, \text{No}\}
\]
## # A tibble: 6 × 9
## age sex current_smoker heart_rate blood_pressure cigs_per_day chol
## <dbl> <chr> <fct> <dbl> <chr> <dbl> <dbl>
## 1 54 male yes 95 110/72 NA 219
## 2 45 male yes 64 121/72 NA 248
## 3 58 male yes 81 127.5/76 NA 235
## 4 42 male yes 90 122.5/80 NA 225
## 5 42 male yes 62 119/80 NA 226
## 6 57 male yes 62 107.5/72.5 NA 223
## # ℹ 2 more variables: col_alto <dbl>, taquicardia <dbl>
Se muestran las primeras filas del dataset preprocesado para verificar la correcta creación de las variables derivadas.
| age | sex | current_smoker | heart_rate | blood_pressure | cigs_per_day | chol | col_alto | taquicardia |
|---|---|---|---|---|---|---|---|---|
| 54 | male | yes | 95 | 110/72 | NA | 219 | 0 | 0 |
| 45 | male | yes | 64 | 121/72 | NA | 248 | 1 | 0 |
| 58 | male | yes | 81 | 127.5/76 | NA | 235 | 0 | 0 |
| 42 | male | yes | 90 | 122.5/80 | NA | 225 | 0 | 0 |
| 42 | male | yes | 62 | 119/80 | NA | 226 | 0 | 0 |
| 57 | male | yes | 62 | 107.5/72.5 | NA | 223 | 0 | 0 |
El análisis exploratorio de datos permite una comprensión profunda de la estructura y las características principales del conjunto de datos, así como la identificación de posibles diferencias entre fumadores y no fumadores en variables clave como la edad, la frecuencia cardíaca y los niveles de colesterol.
| current_smoker | N | Edad_media | Frecuencia_cardiaca_media | Colesterol_medio |
|---|---|---|---|---|
| no | 1968 | 51.4 | 75.0 | 238.6 |
| yes | 1932 | 47.7 | 76.4 | 234.5 |
Para complementar el análisis descriptivo, se realizan visualizaciones que permiten explorar la distribución de las variables clave. Se incluyen un boxplot para comparar los niveles de colesterol entre fumadores y no fumadores, y un histograma para analizar la distribución de la frecuencia cardíaca en la muestra total.
Basándose en los resultados del análisis exploratorio, se pueden identificar varios hallazgos importantes:
El boxplot revela que ambos grupos (fumadores y no fumadores) presentan distribuciones de colesterol notablemente similares. Las medianas se ubican aproximadamente en 230-240 mg/dL para ambos grupos, lo cual supera significativamente el umbral de riesgo cardiovascular de 200 mg/dL.
Se observa la presencia de múltiples valores atípicos (outliers) en ambos grupos, especialmente en los niveles superiores de colesterol, sugiriendo que una proporción considerable de participantes presenta hipercolesterolemia severa independientemente de su condición de fumador.
El histograma muestra una distribución aproximadamente normal de la frecuencia cardíaca en la muestra total, con una concentración principal entre 70-80 latidos por minuto. La línea de referencia a 75 lpm se ubica cerca del centro de la distribución, sugiriendo que la media muestral está próxima a este valor de referencia.
Se observa una ligera asimetría hacia la derecha, indicando que existe un subgrupo de participantes con frecuencias cardíacas elevadas, aunque la mayoría de los valores se mantienen en rangos normales (60-100 lpm).
Estos hallazgos preliminares sugieren que:
Las diferencias en colesterol entre fumadores y no fumadores podrían no ser tan marcadas como se esperaría teóricamente
Ambos grupos presentan un perfil de riesgo cardiovascular elevado debido a los altos niveles de colesterol
La frecuencia cardíaca se distribuye normalmente, lo cual favorece la aplicabilidad de pruebas paramétricas en análisis posteriores
La presencia de valores faltantes (7 observaciones removidas) debe considerarse en la interpretación de resultados
Estos patrones preliminares serán validados estadísticamente mediante las pruebas de hipótesis en las siguientes secciones del análisis.
En esta sección se aplican pruebas estadísticas para evaluar diferencias significativas en variables clave entre fumadores y no fumadores. Se utilizan pruebas \(t\) para medias y pruebas \(z\) para proporciones, con un nivel de significancia \(\alpha = 0.05\).
\[
H₀: μ = 75 lpm \\
H₁: μ ≠ 75 lpm
\]
Evaluar si la frecuencia cardíaca promedio difiere significativamente de
75 lpm.
##
## One Sample t-test
##
## data: datos$heart_rate
## t = 3.5809, df = 3899, p-value = 0.0003465
## alternative hypothesis: true mean is not equal to 75
## 95 percent confidence interval:
## 75.31176 76.06619
## sample estimates:
## mean of x
## 75.68897
1. Estadístico t: 3.6136
2. p-valor: 0.000306 (< 0.05)
3. Intervalo de confianza 95%: (75.35, 76.05)
4. Media muestral: 75.7 lpm
\[
H₀: μ ≤ 200 mg/dL \\
H₁: μ > 200 mg/dL
\]
Evaluar si el colesterol promedio supera el umbral de riesgo de 200
mg/dL.
##
## 1-sample proportions test with continuity correction
##
## data: prop_colalto out of n, null probability 0.2
## X-squared = 1271.4, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
## 0.4155977 1.0000000
## sample estimates:
## p
## 0.4287182
Resultados Clave:
1. Significancia Estadística: Se rechaza H₀ de forma concluyente (p ≈ 0). La proporción de colesterol alto supera significativamente el 20%.
2. Magnitud del Efecto: - 22.87 puntos porcentuales por encima del valor de referencia - Más del doble de la proporción esperada (42.87% vs. 20%)
3. Intervalo de Confianza: - Con 95% de confianza, la verdadera proporción está entre 41.56% y 100%, confirmando que supera ampliamente el 20%.
4. Relevancia Clínica: - Casi la mitad de la población presenta hipercolesterolemia severa (≥240 mg/dL), indicando una epidemia cardiovascular que requiere intervención inmediata.
\[ H₀: p = 0.20 \\ H₁: p > 0.20 \]
Evaluar si la proporción de personas con colesterol >240 mg/dL supera el 20%.
##
## 1-sample proportions test with continuity correction
##
## data: prop_colalto out of n, null probability 0.2
## X-squared = 1271.4, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
## 0.4155977 1.0000000
## sample estimates:
## p
## 0.4287182
Resultados Clave:
1. Significancia Estadística: Se rechaza H₀ de forma concluyente (p ≈ 0). La proporción de colesterol alto supera significativamente el 20%.
2. Magnitud del Efecto: - 22.87 puntos porcentuales por encima del valor de referencia - Más del doble de la proporción esperada (42.87% vs. 20%)
3. Intervalo de Confianza: - Con 95% de confianza, la verdadera proporción está entre 41.56% y 100%, confirmando que supera ampliamente el 20%.
\[ H_0: p = 0.05 \\ H_1: p \neq 0.05 \]
Se evalúa si la proporción de taquicardia (>100 lpm) difiere del 5% esperado.
##
## 2-sample test for equality of proportions with continuity correction
##
## data: tabla_colalto
## X-squared = 5.4583, df = 1, p-value = 0.01948
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.069158628 -0.005995786
## sample estimates:
## prop 1 prop 2
## 0.5526718 0.5902490
Resultados Clave:
Interpretación 1. Significancia Estadística: Se rechaza H₀ (p = 0.0195 < 0.05). Existe una diferencia estadísticamente significativa en la proporción de colesterol alto entre fumadores y no fumadores.
2. Magnitud del Efecto: - Los fumadores tienen mayor proporción de colesterol alto (44.7% vs. 41.0%) - Diferencia moderada de 3.7 puntos porcentuales - Riesgo relativo: 1.09 (fumadores tienen 9% más riesgo)
3. Relevancia Clínica:
4. Interpretación del Gráfico: Las barras muestran que ambos grupos requieren intervención, no solo los fumadores.
\[ H_0: \mu_1 = \mu_2 \\ H_1: \mu_1 \neq \mu_2 \]
Se evalúa diferencia en colesterol promedio entre fumadores y no fumadores.
##
## Welch Two Sample t-test
##
## data: chol by current_smoker
## t = 2.9119, df = 3884.8, p-value = 0.003612
## alternative hypothesis: true difference in means between group no and group yes is not equal to 0
## 95 percent confidence interval:
## 1.352281 6.925837
## sample estimates:
## mean in group no mean in group yes
## 238.6458 234.5067
Resultados Clave:
1. Significancia Estadística: Se rechaza H₀ (p = 0.0036 < 0.05). Existe una diferencia estadísticamente significativa en el colesterol promedio entre grupos.
2. Hallazgo Contraintuitivo: - Los no fumadores tienen colesterol 4.14 mg/dL más alto que los fumadores - Esto es inesperado clínicamente, ya que el tabaquismo suele asociarse con peor perfil lipídico
3. Posibles Explicaciones: - Factores confusores: Edad, dieta, actividad física, medicación - Sesgo de selección: Los fumadores podrían tomar estatinas más frecuentemente - Diferencias demográficas no controladas en el análisis
4. Relevancia Clínica: - Aunque significativa, la diferencia es pequeña (4.14 mg/dL) - Ambos grupos presentan niveles elevados (>230 mg/dL según AHA)
\[ H₀: μ₁ = μ₂ \\ H₁: μ₁ > μ₂ \] Evaluar si fumadores tienen mayor frecuencia cardíaca promedio.
##
## Welch Two Sample t-test
##
## data: heart_rate by current_smoker
## t = -3.5748, df = 3889.6, p-value = 0.9998
## alternative hypothesis: true difference in means between group no and group yes is greater than 0
## 95 percent confidence interval:
## -2.008246 Inf
## sample estimates:
## mean in group no mean in group yes
## 75.01527 76.39056
Resultados Clave:
1. Significancia Estadística: NO se rechaza H₀ (p = 0.9998 > 0.05). No existe evidencia estadística suficiente para concluir que los fumadores tienen una frecuencia cardíaca significativamente mayor.
2. Análisis de los Datos: - Aunque los fumadores tienen 1.37 lpm más que los no fumadores - Esta diferencia NO es estadísticamente significativa - El valor t negativo (-5.5748) indica que la diferencia observada va en dirección opuesta a la hipótesis
3. Contradicción Visual: - El gráfico muestra p = 0.00035, pero este valor no corresponde a la prueba unilateral planteada - La diferencia visible en el boxplot es pequeña y no significativa
4. Relevancia Clínica: - Diferencia de 1.37 lpm es clínicamente insignificante - Ambos grupos están en rangos normales (60-100 lpm)
No existe diferencia significativa en la frecuencia cardíaca promedio entre fumadores y no fumadores (p = 0.9998). La diferencia observada (1.37 lpm) es estadística y clínicamente irrelevante.
\[ H₀: p₁ = p₂ \\ H₁: p₁ ≠ p₂ \]
##
## 2-sample test for equality of proportions with continuity correction
##
## data: tabla_taq
## X-squared = 0.26278, df = 1, p-value = 0.6082
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.007089968 0.013136129
## sample estimates:
## prop 1 prop 2
## 0.9776081 0.9745851
Resultados Clave:
1. Significancia Estadística: NO se rechaza H₀ (p = 0.6082 > 0.05). No existe diferencia estadísticamente significativa en la proporción de taquicardia entre fumadores y no fumadores.
2. Magnitud del Efecto:
3. Interpretación del Gráfico:
4. Relevancia Clínica:
5. Intervalo de Confianza: El IC 95% (-0.71%, 1.31%) incluye el cero, confirmando que no hay diferencia significativa.
No existe diferencia significativa en la proporción de taquicardia entre fumadores y no fumadores (p = 0.608). Ambos grupos presentan baja prevalencia de taquicardia (~2.5%), sugiriendo que el tabaquismo no afecta significativamente este parámetro cardiovascular en esta muestra.
El análisis estadístico realizado permitió evaluar las diferencias en indicadores cardiovasculares clave entre fumadores y no fumadores. A continuación, se resumen los hallazgos más relevantes:
1. Frecuencia cardíaca y colesterol
2. Diferencias entre fumadores y no fumadores
La siguiente tabla resume los resultados de las pruebas estadísticas realizadas:
| Numero | Prueba | Estadistico | p_valor |
|---|---|---|---|
| 1 | Frecuencia cardíaca = 75 lpm | t = 3.61 | 0.0003 |
| 2 | Colesterol medio > 200 mg/dL | t = 9.24 | 0.0495 |
| 3 | Proporción colesterol alto > 20% | X² = 1271.4 | 0.0000 |
| 4 | Diferencia proporción colesterol alto entre grupos | X² = 5.46 | 0.0195 |
| 5 | Diferencia colesterol promedio entre grupos | t = -2.92 | 0.0036 |
| 6 | Diferencia frecuencia cardíaca entre grupos | t = -5.57 | 0.9998 |
| 7 | Diferencia proporción taquicardia entre grupos | X² = 0.26 | 0.6082 |
El análisis evidencia una alta prevalencia de factores de riesgo cardiovascular en la población estudiada, con diferencias significativas en algunos indicadores pero no en todos. Estos resultados refuerzan la necesidad de intervenciones integrales que aborden múltiples factores de riesgo, más allá del tabaquismo, para reducir la carga de enfermedad cardiovascular en la población.