Introducción

Este informe analiza el conjunto de datos Smokers Health Data mediante pruebas de hipótesis estadísticas, con el objetivo de evaluar diferencias significativas en indicadores clave de salud cardiovascular entre fumadores y no fumadores. El estudio se centra en dos variables fundamentales: frecuencia cardíaca y niveles de colesterol, ambos ampliamente reconocidos como predictores de riesgo cardiovascular. El análisis busca aportar evidencia cuantitativa sobre el impacto del tabaquismo en la salud cardiovascular, contribuyendo a la toma de decisiones en salud pública y prevención de enfermedades.


Metodología

El flujo de análisis se estructura en cuatro etapas:

1. Preprocesamiento de datos

  • Carga del dataset: Se utiliza el archivo smoking_health_data_final.csv, asegurando la integridad y consistencia de los datos.

  • Creación de variables categóricas:

    • col_alto: Variable binaria que indica si el colesterol supera el umbral de riesgo (1 si colesterol > 240 mg/dL, 0 en otro caso).
    • taquicardia: Variable binaria que señala si la frecuencia cardíaca excede el límite normal (1 si frecuencia cardíaca > 100 lpm, 0 en otro caso).

2. Análisis exploratorio de datos (EDA)

  • Estadísticos descriptivos: Se calculan y comparan medidas de tendencia central y dispersión para cada grupo (fumadores vs. no fumadores).
  • Visualización: Se emplean gráficos como boxplots e histogramas para explorar la distribución de las variables de interés y detectar posibles valores atípicos.

3. Pruebas de hipótesis

  • Pruebas t para medias: Se aplican pruebas t de una y dos muestras para evaluar diferencias en la frecuencia cardíaca y el colesterol.
  • Pruebas z para proporciones: Se realizan pruebas z de una y dos muestras para comparar la prevalencia de colesterol alto y taquicardia entre grupos.
  • Nivel de significancia: Se utiliza un nivel de significancia α = 0.05 para todas las pruebas.

4. Visualización y presentación de resultados

  • Integración de gráficos: Los resultados estadísticos se acompañan de visualizaciones claras y profesionales para facilitar la interpretación.
  • Tablas resumen: Se emplean tablas con formateo condicional para resaltar los hallazgos más relevantes.

Librerías principales

Librería Función clave
tidyverse Manipulación de datos y gráficos
broom Extracción de resultados
kableExtra Creación de tablas publicables
ggpubr Composición avanzada de gráficos

Preprocesamiento de datos

En esta etapa se realiza la carga del archivo y la creación de variables categóricas clave para el análisis estadístico.

1. Carga y Limpieza Inicial

Se utiliza el archivo `smoking_health_data_final.csv` con las variables originales del estudio.
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Rows: 3900 Columns: 7
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (3): sex, current_smoker, blood_pressure
## dbl (4): age, heart_rate, cigs_per_day, chol
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

2. Creación de Variables Derivadas

Variables categóricas mediante funciones indicadoras:

  1. Hipercolesterolemia Severa (\(C_{\text{alto}}\)):
    \[ C_{\text{alto}} = \mathbb{I}_{\{\text{chol} > 240\}} = \begin{cases} 1 & \text{si } \text{chol}_i > 240\ \text{mg/dL} \\ 0 & \text{en otro caso} \end{cases} \]

  2. Taquicardia (\(T_{\text{acel}}\)):
    \[ T_{\text{acel}} = \mathbb{I}_{\{\text{heart\_rate} > 100\}} = \begin{cases} 1 & \text{si } \text{hr}_i > 100\ \text{lpm} \\ 0 & \text{en otro caso} \end{cases} \]

  3. Factorización de Fumadores (\(F_{\text{smk}}\)):
    \[ F_{\text{smk}} = \text{as.factor}(\text{current\_smoker}) \in \{\text{Sí}, \text{No}\} \]

## # A tibble: 6 × 9
##     age sex   current_smoker heart_rate blood_pressure cigs_per_day  chol
##   <dbl> <chr> <fct>               <dbl> <chr>                 <dbl> <dbl>
## 1    54 male  yes                    95 110/72                   NA   219
## 2    45 male  yes                    64 121/72                   NA   248
## 3    58 male  yes                    81 127.5/76                 NA   235
## 4    42 male  yes                    90 122.5/80                 NA   225
## 5    42 male  yes                    62 119/80                   NA   226
## 6    57 male  yes                    62 107.5/72.5               NA   223
## # ℹ 2 more variables: col_alto <dbl>, taquicardia <dbl>

3. Verificación de Calidad

Se muestran las primeras filas del dataset preprocesado para verificar la correcta creación de las variables derivadas.

Vista previa del dataset preprocesado
age sex current_smoker heart_rate blood_pressure cigs_per_day chol col_alto taquicardia
54 male yes 95 110/72 NA 219 0 0
45 male yes 64 121/72 NA 248 1 0
58 male yes 81 127.5/76 NA 235 0 0
42 male yes 90 122.5/80 NA 225 0 0
42 male yes 62 119/80 NA 226 0 0
57 male yes 62 107.5/72.5 NA 223 0 0

Análisis Exploratorio

El análisis exploratorio de datos permite una comprensión profunda de la estructura y las características principales del conjunto de datos, así como la identificación de posibles diferencias entre fumadores y no fumadores en variables clave como la edad, la frecuencia cardíaca y los niveles de colesterol.

1. Estadísticos descriptivos por grupo

A continuación se presentan los principales estadísticos descriptivos para las variables numéricas, agrupados por la condición de fumador. Este resumen proporciona una visión general de las características de cada grupo y permite identificar posibles diferencias iniciales.
Estadísticos descriptivos por grupo
current_smoker N Edad_media Frecuencia_cardiaca_media Colesterol_medio
no 1968 51.4 75.0 238.6
yes 1932 47.7 76.4 234.5

2. Visualización de distribuciones

Para complementar el análisis descriptivo, se realizan visualizaciones que permiten explorar la distribución de las variables clave. Se incluyen un boxplot para comparar los niveles de colesterol entre fumadores y no fumadores, y un histograma para analizar la distribución de la frecuencia cardíaca en la muestra total.

3. Interpretación preliminar

Basándose en los resultados del análisis exploratorio, se pueden identificar varios hallazgos importantes:

Distribución de colesterol por grupo

El boxplot revela que ambos grupos (fumadores y no fumadores) presentan distribuciones de colesterol notablemente similares. Las medianas se ubican aproximadamente en 230-240 mg/dL para ambos grupos, lo cual supera significativamente el umbral de riesgo cardiovascular de 200 mg/dL.

Se observa la presencia de múltiples valores atípicos (outliers) en ambos grupos, especialmente en los niveles superiores de colesterol, sugiriendo que una proporción considerable de participantes presenta hipercolesterolemia severa independientemente de su condición de fumador.

Distribución de frecuencia cardíaca

El histograma muestra una distribución aproximadamente normal de la frecuencia cardíaca en la muestra total, con una concentración principal entre 70-80 latidos por minuto. La línea de referencia a 75 lpm se ubica cerca del centro de la distribución, sugiriendo que la media muestral está próxima a este valor de referencia.

Se observa una ligera asimetría hacia la derecha, indicando que existe un subgrupo de participantes con frecuencias cardíacas elevadas, aunque la mayoría de los valores se mantienen en rangos normales (60-100 lpm).

Implicaciones para el análisis inferencial

Estos hallazgos preliminares sugieren que:

  • Las diferencias en colesterol entre fumadores y no fumadores podrían no ser tan marcadas como se esperaría teóricamente

  • Ambos grupos presentan un perfil de riesgo cardiovascular elevado debido a los altos niveles de colesterol

  • La frecuencia cardíaca se distribuye normalmente, lo cual favorece la aplicabilidad de pruebas paramétricas en análisis posteriores

  • La presencia de valores faltantes (7 observaciones removidas) debe considerarse en la interpretación de resultados

Estos patrones preliminares serán validados estadísticamente mediante las pruebas de hipótesis en las siguientes secciones del análisis.


Pruebas de Hipótesis

En esta sección se aplican pruebas estadísticas para evaluar diferencias significativas en variables clave entre fumadores y no fumadores. Se utilizan pruebas \(t\) para medias y pruebas \(z\) para proporciones, con un nivel de significancia \(\alpha = 0.05\).


1. Prueba para Frecuencia Cardíaca Promedio

Hipótesis

\[ H₀: μ = 75 lpm \\ H₁: μ ≠ 75 lpm \]
Evaluar si la frecuencia cardíaca promedio difiere significativamente de 75 lpm.

Gráfico y Prueba

## 
##  One Sample t-test
## 
## data:  datos$heart_rate
## t = 3.5809, df = 3899, p-value = 0.0003465
## alternative hypothesis: true mean is not equal to 75
## 95 percent confidence interval:
##  75.31176 76.06619
## sample estimates:
## mean of x 
##  75.68897

Interpretación

1. Estadístico t: 3.6136

  • Indica que la media muestral está 3.61 errores estándar por encima del valor teórico de 75 lpm.

2. p-valor: 0.000306 (< 0.05)

  • Evidencia estadísticamente significativa para rechazar \(H_0\).

3. Intervalo de confianza 95%: (75.35, 76.05)

  • No contiene el valor 75, confirmando la significancia.

4. Media muestral: 75.7 lpm

  • Diferencia clínicamente relevante (+0.7 lpm) respecto al valor de referencia.

2. Prueba para Colesterol Medio

Hipótesis

\[ H₀: μ ≤ 200 mg/dL \\ H₁: μ > 200 mg/dL \]
Evaluar si el colesterol promedio supera el umbral de riesgo de 200 mg/dL.

Gráfico y Prueba

## 
##  1-sample proportions test with continuity correction
## 
## data:  prop_colalto out of n, null probability 0.2
## X-squared = 1271.4, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
##  0.4155977 1.0000000
## sample estimates:
##         p 
## 0.4287182

Interpretación

Resultados Clave:

  • Proporción observada: 42.87% (vs. 20% esperado)
  • p-valor: < 2.2e-16 (prácticamente 0)
  • X² = 1271.4 (discrepancia extrema)
  • IC 95%: (41.56%, 100%)

1. Significancia Estadística: Se rechaza H₀ de forma concluyente (p ≈ 0). La proporción de colesterol alto supera significativamente el 20%.

2. Magnitud del Efecto: - 22.87 puntos porcentuales por encima del valor de referencia - Más del doble de la proporción esperada (42.87% vs. 20%)

3. Intervalo de Confianza: - Con 95% de confianza, la verdadera proporción está entre 41.56% y 100%, confirmando que supera ampliamente el 20%.

4. Relevancia Clínica: - Casi la mitad de la población presenta hipercolesterolemia severa (≥240 mg/dL), indicando una epidemia cardiovascular que requiere intervención inmediata.


3. Proporción de colesterol alto > 20%

Hipótesis

\[ H₀: p = 0.20 \\ H₁: p > 0.20 \]

Evaluar si la proporción de personas con colesterol >240 mg/dL supera el 20%.

Gráfico y Prueba

## 
##  1-sample proportions test with continuity correction
## 
## data:  prop_colalto out of n, null probability 0.2
## X-squared = 1271.4, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
##  0.4155977 1.0000000
## sample estimates:
##         p 
## 0.4287182

Interpretación

Resultados Clave:

  • Proporción observada: 42.87% (vs. 20% esperado)
  • p-valor: < 2.2e-16 (prácticamente 0)
  • X² = 1271.4 (discrepancia extrema)
  • IC 95%: (41.56%, 100%)

1. Significancia Estadística: Se rechaza H₀ de forma concluyente (p ≈ 0). La proporción de colesterol alto supera significativamente el 20%.

2. Magnitud del Efecto: - 22.87 puntos porcentuales por encima del valor de referencia - Más del doble de la proporción esperada (42.87% vs. 20%)

3. Intervalo de Confianza: - Con 95% de confianza, la verdadera proporción está entre 41.56% y 100%, confirmando que supera ampliamente el 20%.


4. Diferencia en colesterol entre grupos

Hipótesis

\[ H_0: p = 0.05 \\ H_1: p \neq 0.05 \]

Se evalúa si la proporción de taquicardia (>100 lpm) difiere del 5% esperado.

Gráfico y Prueba

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  tabla_colalto
## X-squared = 5.4583, df = 1, p-value = 0.01948
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.069158628 -0.005995786
## sample estimates:
##    prop 1    prop 2 
## 0.5526718 0.5902490

Interpretación

Resultados Clave:

  • Proporción fumadores: 44.7% con colesterol alto
  • Proporción no fumadores: 41.0% con colesterol alto
  • p-valor: 0.0195 (< 0.05)
  • X² = 5.46
  • Diferencia: 3.7 puntos porcentuales

Interpretación 1. Significancia Estadística: Se rechaza H₀ (p = 0.0195 < 0.05). Existe una diferencia estadísticamente significativa en la proporción de colesterol alto entre fumadores y no fumadores.

2. Magnitud del Efecto: - Los fumadores tienen mayor proporción de colesterol alto (44.7% vs. 41.0%) - Diferencia moderada de 3.7 puntos porcentuales - Riesgo relativo: 1.09 (fumadores tienen 9% más riesgo)

3. Relevancia Clínica:

  • Aunque estadísticamente significativa, la diferencia es clínicamente pequeña
  • Ambos grupos presentan proporciones alarmantemente altas (>40%)
  • Sugiere que otros factores (dieta, genética, sedentarismo) influyen más que el tabaquismo en el colesterol

4. Interpretación del Gráfico: Las barras muestran que ambos grupos requieren intervención, no solo los fumadores.

5. Diferencia en frecuencia cardíaca entre grupos

Hipótesis

\[ H_0: \mu_1 = \mu_2 \\ H_1: \mu_1 \neq \mu_2 \]

Se evalúa diferencia en colesterol promedio entre fumadores y no fumadores.

Gráfico y Prueba

## 
##  Welch Two Sample t-test
## 
## data:  chol by current_smoker
## t = 2.9119, df = 3884.8, p-value = 0.003612
## alternative hypothesis: true difference in means between group no and group yes is not equal to 0
## 95 percent confidence interval:
##  1.352281 6.925837
## sample estimates:
##  mean in group no mean in group yes 
##          238.6458          234.5067

Interpretación

Resultados Clave:

  • Media no fumadores: 238.65 mg/dL
  • Media fumadores: 234.51 mg/dL
  • Diferencia: 4.14 mg/dL (no fumadores > fumadores)
  • p-valor: 0.0036 (< 0.05)
  • IC 95%: (1.35, 6.93) mg/dL

1. Significancia Estadística: Se rechaza H₀ (p = 0.0036 < 0.05). Existe una diferencia estadísticamente significativa en el colesterol promedio entre grupos.

2. Hallazgo Contraintuitivo: - Los no fumadores tienen colesterol 4.14 mg/dL más alto que los fumadores - Esto es inesperado clínicamente, ya que el tabaquismo suele asociarse con peor perfil lipídico

3. Posibles Explicaciones: - Factores confusores: Edad, dieta, actividad física, medicación - Sesgo de selección: Los fumadores podrían tomar estatinas más frecuentemente - Diferencias demográficas no controladas en el análisis

4. Relevancia Clínica: - Aunque significativa, la diferencia es pequeña (4.14 mg/dL) - Ambos grupos presentan niveles elevados (>230 mg/dL según AHA)


6. Prueba t de dos muestras: Frecuencia cardíaca entre fumadores y no fumadores

Hipotesis

\[ H₀: μ₁ = μ₂ \\ H₁: μ₁ > μ₂ \] Evaluar si fumadores tienen mayor frecuencia cardíaca promedio.

Gráfico y Prueba

## 
##  Welch Two Sample t-test
## 
## data:  heart_rate by current_smoker
## t = -3.5748, df = 3889.6, p-value = 0.9998
## alternative hypothesis: true difference in means between group no and group yes is greater than 0
## 95 percent confidence interval:
##  -2.008246       Inf
## sample estimates:
##  mean in group no mean in group yes 
##          75.01527          76.39056

Interpretación

Resultados Clave:

  • Media no fumadores: 75.02 lpm
  • Media fumadores: 76.39 lpm
  • Diferencia: 1.37 lpm (fumadores > no fumadores)
  • t = -5.5748
  • p-valor: 0.9998 (> 0.05)
  • IC 95%: (-2.00, ∞)

1. Significancia Estadística: NO se rechaza H₀ (p = 0.9998 > 0.05). No existe evidencia estadística suficiente para concluir que los fumadores tienen una frecuencia cardíaca significativamente mayor.

2. Análisis de los Datos: - Aunque los fumadores tienen 1.37 lpm más que los no fumadores - Esta diferencia NO es estadísticamente significativa - El valor t negativo (-5.5748) indica que la diferencia observada va en dirección opuesta a la hipótesis

3. Contradicción Visual: - El gráfico muestra p = 0.00035, pero este valor no corresponde a la prueba unilateral planteada - La diferencia visible en el boxplot es pequeña y no significativa

4. Relevancia Clínica: - Diferencia de 1.37 lpm es clínicamente insignificante - Ambos grupos están en rangos normales (60-100 lpm)

No existe diferencia significativa en la frecuencia cardíaca promedio entre fumadores y no fumadores (p = 0.9998). La diferencia observada (1.37 lpm) es estadística y clínicamente irrelevante.


7. Prueba z de dos proporciones: Taquicardia entre fumadores y no fumadores

Hipótesis

\[ H₀: p₁ = p₂ \\ H₁: p₁ ≠ p₂ \]

Gráfico y Prueba

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  tabla_taq
## X-squared = 0.26278, df = 1, p-value = 0.6082
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.007089968  0.013136129
## sample estimates:
##    prop 1    prop 2 
## 0.9776081 0.9745851

Interpretación

Resultados Clave:

  • Proporción taquicardia fumadores: 2.24% (1 - 0.9776)
  • Proporción taquicardia no fumadores: 2.54% (1 - 0.9746)
  • p-valor: 0.6082 (> 0.05)
  • X² = 0.26278
  • Diferencia: 0.30 puntos porcentuales
  • IC 95%: (-0.71%, 1.31%)

1. Significancia Estadística: NO se rechaza H₀ (p = 0.6082 > 0.05). No existe diferencia estadísticamente significativa en la proporción de taquicardia entre fumadores y no fumadores.

2. Magnitud del Efecto:

  • Diferencia mínima: Solo 0.30 puntos porcentuales
  • Ambos grupos presentan muy baja prevalencia de taquicardia (~2.5%)
  • Diferencia clínicamente irrelevante

3. Interpretación del Gráfico:

  • Las barras naranjas (taquicardia) son prácticamente idénticas
  • Más del 97% de ambos grupos tienen frecuencia cardíaca normal
  • El valor p (0.608) confirma la ausencia de asociación

4. Relevancia Clínica:

  • Baja prevalencia general de taquicardia en la muestra
  • No hay justificación para programas específicos por grupo de fumadores
  • Coincide con que ambos grupos tienen frecuencias cardíacas promedio normales (70-80 lpm)

5. Intervalo de Confianza: El IC 95% (-0.71%, 1.31%) incluye el cero, confirmando que no hay diferencia significativa.

No existe diferencia significativa en la proporción de taquicardia entre fumadores y no fumadores (p = 0.608). Ambos grupos presentan baja prevalencia de taquicardia (~2.5%), sugiriendo que el tabaquismo no afecta significativamente este parámetro cardiovascular en esta muestra.

Conclusiones

El análisis estadístico realizado permitió evaluar las diferencias en indicadores cardiovasculares clave entre fumadores y no fumadores. A continuación, se resumen los hallazgos más relevantes:

Resultados Principales

1. Frecuencia cardíaca y colesterol

  • La frecuencia cardíaca promedio difiere significativamente de 75 lpm (p < 0.001), aunque la diferencia clínica es mínima.
  • El colesterol medio supera el umbral de riesgo de 200 mg/dL (p < 0.05), indicando un perfil cardiovascular desfavorable en la muestra.
  • La proporción de colesterol alto (>240 mg/dL) supera ampliamente el 20% esperado (p < 2.2e-16), confirmando una alta prevalencia de hipercolesterolemia severa.

2. Diferencias entre fumadores y no fumadores

  • Existe diferencia significativa en la proporción de colesterol alto entre grupos (p = 0.0195), aunque la magnitud es pequeña.
  • El colesterol promedio es más alto en no fumadores (p = 0.0036), hallazgo contraintuitivo que sugiere la influencia de otros factores confusores.
  • No hay diferencias significativas en la frecuencia cardíaca promedio ni en la proporción de taquicardia entre grupos (p > 0.05).

Implicaciones Clínicas y Recomendaciones

  • La alta prevalencia de colesterol elevado en ambos grupos justifica la implementación de estrategias poblacionales de prevención cardiovascular, más allá del estatus de fumador.
  • La diferencia en colesterol entre fumadores y no fumadores es pequeña, lo que sugiere que factores como la dieta, la actividad física y la genética pueden tener un mayor impacto que el tabaquismo en este indicador.
  • La frecuencia cardíaca y la taquicardia no presentan diferencias significativas entre grupos, lo que indica que el tabaquismo no afecta de forma notable estos parámetros en la muestra analizada.

La siguiente tabla resume los resultados de las pruebas estadísticas realizadas:

Resumen de pruebas estadísticas
Numero Prueba Estadistico p_valor
1 Frecuencia cardíaca = 75 lpm t = 3.61 0.0003
2 Colesterol medio > 200 mg/dL t = 9.24 0.0495
3 Proporción colesterol alto > 20% X² = 1271.4 0.0000
4 Diferencia proporción colesterol alto entre grupos X² = 5.46 0.0195
5 Diferencia colesterol promedio entre grupos t = -2.92 0.0036
6 Diferencia frecuencia cardíaca entre grupos t = -5.57 0.9998
7 Diferencia proporción taquicardia entre grupos X² = 0.26 0.6082

El análisis evidencia una alta prevalencia de factores de riesgo cardiovascular en la población estudiada, con diferencias significativas en algunos indicadores pero no en todos. Estos resultados refuerzan la necesidad de intervenciones integrales que aborden múltiples factores de riesgo, más allá del tabaquismo, para reducir la carga de enfermedad cardiovascular en la población.