Análisis del impacto del tabaquismo sobre indicadores cardiovasculares

Autores: Deiyiber Ducuara & Kiliam Alvarado

Grupo 1

Introducción y Contexto del Estudio

El tabaquismo es reconocido mundialmente como uno de los principales factores de riesgo modificables asociados al desarrollo de enfermedades crónicas no transmisibles. Según la Organización Mundial de la Salud OMS, el consumo de tabaco causa más de 8 millones de muertes anuales, de las cuales aproximadamente 1.2 millones son resultado de la exposición al humo de segunda mano. Entre las patologías más estrechamente vinculadas al tabaquismo se encuentran las enfermedades cardiovasculares como la hipertensión, la cardiopatía isquémica y los accidentes cerebrovasculares y los trastornos metabólicos como la diabetes tipo 2 y la dislipidemia.

El presente estudio tiene como objetivo analizar una base de datos de salud con el propósito de evaluar posibles diferencias estadísticamente significativas entre individuos fumadores y no fumadores en dos variables fisiológicas clave: la frecuencia cardíaca expresada en latidos por minuto y los niveles de colesterol total expresados en mg/dL. Estas variables fueron seleccionadas debido a su relevancia clínica como marcadores pronósticos de riesgo cardiovascular.

El análisis se estructura en varias fases:

  1. primero, se realiza una depuración y preparación de los datos para garantizar su calidad.
  2. Se presentan estadísticas descriptivas que permiten caracterizar la muestra
  3. Se desarrollan visualizaciones exploratorias para identificar patrones y distribuciones
  4. Se aplican pruebas de hipótesis paramétricas y no paramétricas para contrastar diferencias entre grupos.
  5. Se concluye implicaciones de los hallazgos.

Carga y Preparación de los Datos

Antes de proceder con cualquier análisis estadístico, es fundamental cargar la base de datos original y someterla a un riguroso proceso de limpieza y transformación. Esta etapa garantiza que los resultados posteriores sean válidos y confiables. Las operaciones realizadas incluyen:

  • Conversión de tipos de datos: La variable cigs_per_day (cigarros fumados por día) se encontraba originalmente como texto, incluyendo algunos valores vacíos que representan datos faltantes. Se convierte a numérica, asignando automáticamente NA a las celdas vacías.

  • Codificación de factores: Las variables categóricas current_smoker (fumador actual: “yes”/“no”) y sex (sexo) se transforman al tipo factor para un manejo adecuado en modelos estadísticos y visualizaciones.

  • Filtrado de casos incompletos: Se excluyen aquellos registros donde falte información crítica para el análisis, específicamente la frecuencia cardíaca (heart_rate), el nivel de colesterol (chol) o la condición de tabaquismo (current_smoker). Esto evita sesgos.

## Se analizaron un total de 3893 registros válidos después de la depuración.

Resumen General de la Muestra Completa

En esta sección se calculan medidas de tendencia central (media), dispersión (desviación estándar, valores mínimo y máximo) tanto para la frecuencia cardíaca como para el colesterol. Estos valores sirven como referencia basal para interpretar posteriormente las diferencias según el hábito tabáquico.

Tabla 1. Estadísticas descriptivas generales para toda la muestra (N = número de registros válidos).
Total_Registros Media_Frecuencia_Cardiaca Desv_Frecuencia_Cardiaca Min_Frecuencia_Cardiaca Max_Frecuencia_Cardiaca Media_Colesterol Desv_Colesterol Min_Colesterol Max_Colesterol
3893 75.7 12.02 44 143 236.6 44.38 113 696

Resumen Comparativo por Condición de Tabaquismo

Una vez conocidas las métricas globales, se estratifica la muestra según la variable current_smoker (fumador = “yes”, no fumador = “no”). Esta tabla permite observar de manera preliminar si existen diferencias en las medias y desviaciones estándar de la frecuencia cardíaca y el colesterol entre ambos grupos. Dichas diferencias serán sometidas posteriormente a pruebas de significación estadística.

Tabla 2. Estadísticas descriptivas de frecuencia cardíaca y colesterol estratificadas por condición de tabaquismo.
current_smoker Registros Media_Frecuencia_Cardiaca Desv_Frecuencia_Cardiaca Media_Colesterol Desv_Colesterol
yes 1928 76.39 11.77 234.51 44.80
no 1965 75.02 12.23 238.65 43.87

Análisis Exploratorio de Datos (EDA)

El análisis exploratorio mediante visualizaciones complementa las tablas numéricas y permite detectar patrones, asimetrías, valores atípicos y formas de distribución que no son evidentes solo con estadísticos resumen.

Distribución de la Frecuencia Cardíaca en la Muestra

El siguiente histograma muestra la distribución de los valores de frecuencia cardíaca. Se superpone una línea vertical roja discontinua en el valor de 75 latidos por minuto (lpm), que representa un umbral clínico de referencia frecuentemente utilizado como límite superior de la normalidad en adultos en reposo. Valores sistemáticamente superiores podrían sugerir taquicardia relativa o un estado de hiperactividad simpática.

Distribución de los Niveles de Colesterol Total

En este gráfico se muestran los niveles de colesterol de las personas analizadas. Además, se incluyen dos líneas de referencia que ayudan a interpretar los resultados:

  • Línea roja (200 mg/dL): indica el valor a partir del cual el colesterol comienza a considerarse por encima de lo recomendado.
  • Línea naranja (240 mg/dL): señala un nivel alto de colesterol, asociado con un mayor riesgo de enfermedades cardiovasculares.

Gracias a estas referencias, es posible identificar fácilmente cuántas personas presentan niveles normales, elevados o altos de colesterol dentro de la muestra estudiada.

Comparación Gráfica entre Fumadores y No Fumadores

Los diagramas de caja y bigotes (boxplots) permiten comparar la distribución completa de cada variable entre los dos grupos, mostrando medianas, rangos intercuartílicos, valores atípicos y simetría. Se presentan dos gráficos lado a lado: izquierdo para frecuencia cardíaca, derecho para colesterol.

Pruebas de Hipótesis Paramétricas

Para validar estadísticamente las diferencias observadas en los gráficos y tablas, se realizan pruebas de una y dos muestras, previa verificación de los supuestos de normalidad y homogeneidad de varianzas asumidos para fines didácticos en este ejercicio.

1. Prueba para la Frecuencia Cardíaca

  • Se plantea la siguiente hipótesis nula (H0): la frecuencia cardíaca promedio de la población de la cual se extrajo la muestra es igual a 75 lpm.

  • La hipótesis alternativa (H1) es bidireccional: la media es diferente de 75 lpm.

  • Un valor p inferior a 0.05 indicaría evidencia estadística suficiente para rechazar H0.

Tabla 3. Prueba t para una muestra: comparación de la frecuencia cardíaca media con el valor de referencia de 75 lpm.
Media_Observada Estadístico_t Grados_Libertad Valor_p
t 75.6964 3.6136 3892 3e-04

Interpretación de la prueba de hipótesis

La frecuencia cardíaca promedio observada en la muestra fue de 75.7 lpm. Al comparar este valor con el valor de referencia de 75 lpm mediante una prueba t para una muestra, se obtuvo un estadístico t de 3.6136 con 3892 grados de libertad.

El valor p obtenido fue de 3.06e-04, el cual es menor que el nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H0).

En consecuencia, se concluye que la frecuencia cardíaca promedio de la población es estadísticamente diferente de 75 lpm. Aunque la diferencia observada es pequeña ( 0.7 lpm), el gran tamaño de la muestra hace que dicha diferencia resulte estadísticamente significativa.

2. Prueba para el Colesterol Total

En este caso, dado el interés clínico por saber si el nivel de colesterol supera el umbral de riesgo de 200 mg/dL, se emplea una prueba t unilateral.

  • Hipótesis nula (H₀): El nivel medio de colesterol en la población es menor o igual a 200.

  • Hipótesis alternativa (H₁): El nivel medio de colesterol en la población es mayor a 200

Tabla 4. Prueba t para una muestra: comparación del colesterol medio con el umbral de 200 mg/dL (prueba unilateral superior).
Media_Observada Estadístico_t Grados_Libertad Valor_p
t 236.5959 51.4557 3892 0

Interpretación de la prueba de hipótesis

El nivel promedio de colesterol observado en la muestra fue de 236.6 mg/dL. Para determinar si este valor supera el umbral clínico de 200 mg/dL, se realizó una prueba t para una muestra con hipótesis unilateral superior. El análisis produjo un estadístico t de 51.4557 con 3892 grados de libertad.

El valor p obtenido fue de 0e+00, valor considerablemente inferior al nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H₀).

En consecuencia, se concluye que el nivel promedio de colesterol de la población es significativamente mayor a 200 mg/dL. La diferencia observada entre la media muestral y el valor de referencia es de aproximadamente 36.6 mg/dL, lo que sugiere una alta presencia de niveles elevados de colesterol en la población analizada.

Análisis de Proporciones

Además de las medias, es relevante analizar la proporción de individuos que superan ciertos umbrales clínicos, tanto en la muestra total como por grupos.

3. Proporción de Individuos con Colesterol Alto ( > 240 mg/dL)

Se crea una nueva variable binaria chol_alto que toma valor 1 si el colesterol supera los 240 mg/dL y 0 en caso contrario. Luego se contrasta si la proporción poblacional es superior al 20% (valor de referencia hipotético).

  • H₀: La proporción de personas con colesterol alto es igual al 20% .
  • H₁: La proporción de personas con colesterol alto es mayor al 20%.
Tabla 5. Prueba de proporción para una muestra: prevalencia de colesterol alto (>240 mg/dL) comparada con un referente del 20%.
Casos_Colesterol_Alto Proporción_Observada Estadístico_X2 Valor_p
X-squared 1669 0.4287 1271.388 0

Interpretación de la prueba de hipótesis

De los 3893 individuos analizados, 1669 presentaron niveles de colesterol superiores a 240 mg/dL, lo que corresponde a una proporción observada de 42.87%.

Para evaluar si esta proporción es superior al valor de referencia del 20%, se realizó una prueba de proporciones para una muestra. El análisis produjo un estadístico Chi-cuadrado (X²) de 1271.388.

El valor p obtenido fue de 9.33e-279, valor inferior al nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H₀).

En consecuencia, se concluye que la proporción de personas con colesterol alto en la población es significativamente mayor al 20%. De hecho, la prevalencia observada fue de aproximadamente 42.87%, más del doble del valor de referencia planteado inicialmente.

4. Proporción de Individuos con Taquicardia (Frecuencia Cardíaca > 100 lpm)

Similarmente, se define taquicardia como frecuencia cardíaca > 100 lpm. Se contrasta si la proporción poblacional es diferente del 5% (prueba bilateral), valor típico de referencia en poblaciones sanas adultas.

  • H₀: La proporción de personas con taquicardia es igual al 5%.
  • H₁: La proporción de personas con taquicardia es diferente del 5%.
Tabla 6. Prueba de proporción para una muestra: prevalencia de taquicardia (>100 lpm) comparada con un referente del 5%.
Casos_Taquicardia Proporción_Observada Estadístico_X2 Valor_p
X-squared 93 0.0239 55.3291 0

Interpretación de la prueba de hipótesis

De los 3893 individuos analizados, 93 presentaron una frecuencia cardíaca superior a 100 latidos por minuto, lo que corresponde a una proporción observada de 2.39%.

Para determinar si esta proporción difiere del valor de referencia del 5%, se realizó una prueba de proporciones bilateral. El análisis produjo un estadístico Chi-cuadrado (X²) de 55.3291.

El valor p obtenido fue de 1.02e-13, inferior al nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H₀).

En consecuencia, se concluye que la proporción de personas con taquicardia en la población es significativamente diferente y menor al 5%. La prevalencia observada fue de 2.39%, lo que indica que la presencia de taquicardia en esta muestra es inferior a la esperada según el valor de referencia utilizado.

Comparación Formal entre Fumadores y No Fumadores

En esta sección se realizan pruebas de dos muestras para determinar si las diferencias observadas entre grupos son estadísticamente significativas.

5. Diferencia de Medias en Colesterol entre Grupos

Se emplea una prueba t de dos muestras independientes (bilateral) para comparar el colesterol medio de fumadores versus no fumadores. La hipótesis nula es que ambas medias poblacionales son iguales.

  • H₀: No hay diferencia en los niveles medios de colesterol entre fumadores y no fumadores.
  • H₁: Existe una diferencia significativa entre los niveles medios de colesterol.

Tabla 7. Prueba t para dos muestras independientes: comparación del colesterol total entre fumadores y no fumadores.
Media_Fumadores Media_No_Fumadores Diferencia_Medias Estadístico_t Grados_Libertad Valor_p
mean in group yes 234.5067 238.6458 -4.13906 -2.91194 3884.78 0.00361

Interpretación de la prueba de hipótesis

El colesterol promedio de los fumadores fue de 234.51 mg/dL, mientras que el de los no fumadores fue de 238.65 mg/dL. La diferencia observada entre ambos grupos fue de -4.14 mg/dL.

Para determinar si esta diferencia puede atribuirse al azar o refleja una diferencia real entre las poblaciones, se realizó una prueba t para dos muestras independientes. El análisis produjo un estadístico t de -2.9119 con 3885 grados de libertad.

El valor p obtenido fue de 3.61e-03, inferior al nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H₀).

En consecuencia, se concluye que existe una diferencia estadísticamente significativa en los niveles medios de colesterol entre fumadores y no fumadores. Además, los resultados indican que los fumadores presentan, en promedio, niveles de colesterol más bajos que los no fumadores.

6. Diferencia de Medias en Frecuencia Cardíaca

Dado que la literatura sugiere que el tabaquismo incrementa la frecuencia cardíaca efecto cronotrópico positivo por estimulación nicotínica, se plantea una prueba t unilateral derecha: la media de frecuencia cardíaca en fumadores es mayor que en no fumadores.

  • H₀: No hay diferencia en la frecuencia cardíaca promedio entre fumadores y no fumadores.
  • H₁: La frecuencia cardíaca promedio de los fumadores es mayor que la de los no fumadores.

Tabla 8. Prueba t unilateral para dos muestras: comparación de frecuencia cardíaca (fumadores > no fumadores).
Media_Fumadores Media_No_Fumadores Diferencia_Medias Estadístico_t Grados_Libertad Valor_p
t 76.39056 75.01527 1.37529 3.57482 3889.559 0.00018

Interpretación de la prueba de hipótesis

La frecuencia cardíaca promedio observada en los fumadores fue de 76.39 lpm, mientras que en los no fumadores fue de 75.02 lpm. La diferencia observada entre ambos grupos fue de 1.38 lpm.

Con el fin de evaluar si los fumadores presentan una frecuencia cardíaca superior a la de los no fumadores, se realizó una prueba t unilateral para dos muestras independientes. El análisis produjo un estadístico t de 3.5748 con 3890 grados de libertad.

El valor p obtenido fue de 1.77e-04, inferior al nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H₀).

En consecuencia, se concluye que la frecuencia cardíaca promedio de los fumadores es significativamente mayor que la de los no fumadores. Este resultado es consistente con la hipótesis planteada y con la evidencia médica que señala que la nicotina puede aumentar la frecuencia cardíaca mediante la estimulación del sistema nervioso simpático.

Conclusiones

El presente análisis estadístico permitió evaluar la relación entre el tabaquismo y dos indicadores fundamentales de salud cardiovascular: la frecuencia cardíaca en reposo y el nivel de colesterol total. A continuación se resumen los hallazgos más relevantes y se contextualizan en el marco del conocimiento actual.

En primer lugar, las pruebas de una muestra mostraron que, para el conjunto total de individuos, la frecuencia cardíaca media fue significativamente diferente del valor de referencia de 75 lpm (según el valor p obtenido en la Tabla 3). De manera similar, el colesterol medio superó el umbral de 200 mg/dL de forma estadísticamente significativa (Tabla 4), lo que sugiere un perfil de riesgo cardiovascular elevado en la muestra estudiada.

En cuanto a las comparaciones entre fumadores y no fumadores, las pruebas t de dos muestras (Tablas 7 y 8) permitieron determinar si existen diferencias significativas en las medias de ambas variables. Específicamente, la prueba unilateral para frecuencia cardíaca (Tabla 8) contrasta la hipótesis de que los fumadores presentan una frecuencia cardíaca promedio superior a la de los no fumadores, un efecto bien documentado debido a la acción de la nicotina sobre el sistema nervioso autónomo.

Respecto a las proporciones, la Tabla 10 evalúa si el tabaquismo se asocia con una mayor prevalencia de colesterol alto (>240 mg/dL). Una asociación positiva reforzaría la evidencia de que el consumo de tabaco no solo afecta el sistema respiratorio sino que también contribuye a la dislipidemia aterogénica.

Referencias

  • Wickham, H., Averick, M., Bryan, J., Chang, W., McGowan, L. D., François, R., … & Yutani, H. (2019). Welcome to the tidyverse. Journal of Open Source Software, 4(43), 1686. DOI: 10.21105/joss.01686

  • Grundy, S. M., Stone, N. J., Bailey, A. L., Beam, C., Birtcher, K. K., Blumenthal, R. S., … & Yeboah, J. (2019). 2018 AHA/ACC/AACVPR/AAPA/ABC/ACPM/ADA/AGS/APhA/ASPC/NLA/PCNA guideline on the management of blood cholesterol: a report of the American College of Cardiology/American Heart Association Task Force on Clinical Practice Guidelines. Circulation, 139(25), e1082-e1143. DOI: 10.1161/CIR.0000000000000625

  • Middlekauff, H. R. (2014). Adverse effects of cigarette and noncigarette smoke exposure on the autonomic nervous system: mechanisms and implications for cardiovascular risk. Journal of the American College of Cardiology, 64(16), 1746-1754. DOI: 10.1016/j.jacc.2014.06.1201