El tabaquismo es reconocido mundialmente como uno de los principales factores de riesgo modificables asociados al desarrollo de enfermedades crónicas no transmisibles. Según la Organización Mundial de la Salud OMS, el consumo de tabaco causa más de 8 millones de muertes anuales, de las cuales aproximadamente 1.2 millones son resultado de la exposición al humo de segunda mano. Entre las patologías más estrechamente vinculadas al tabaquismo se encuentran las enfermedades cardiovasculares como la hipertensión, la cardiopatía isquémica y los accidentes cerebrovasculares y los trastornos metabólicos como la diabetes tipo 2 y la dislipidemia.
El presente estudio tiene como objetivo analizar una base de datos de salud con el propósito de evaluar posibles diferencias estadísticamente significativas entre individuos fumadores y no fumadores en dos variables fisiológicas clave: la frecuencia cardíaca expresada en latidos por minuto y los niveles de colesterol total expresados en mg/dL. Estas variables fueron seleccionadas debido a su relevancia clínica como marcadores pronósticos de riesgo cardiovascular.
El análisis se estructura en varias fases:
Antes de proceder con cualquier análisis estadístico, es fundamental cargar la base de datos original y someterla a un riguroso proceso de limpieza y transformación. Esta etapa garantiza que los resultados posteriores sean válidos y confiables. Las operaciones realizadas incluyen:
Conversión de tipos de datos: La variable cigs_per_day (cigarros fumados por día) se encontraba originalmente como texto, incluyendo algunos valores vacíos que representan datos faltantes. Se convierte a numérica, asignando automáticamente NA a las celdas vacías.
Codificación de factores: Las variables categóricas current_smoker (fumador actual: “yes”/“no”) y sex (sexo) se transforman al tipo factor para un manejo adecuado en modelos estadísticos y visualizaciones.
Filtrado de casos incompletos: Se excluyen aquellos registros donde falte información crítica para el análisis, específicamente la frecuencia cardíaca (heart_rate), el nivel de colesterol (chol) o la condición de tabaquismo (current_smoker). Esto evita sesgos.
## Se analizaron un total de 3893 registros válidos después de la depuración.
En esta sección se calculan medidas de tendencia central (media), dispersión (desviación estándar, valores mínimo y máximo) tanto para la frecuencia cardíaca como para el colesterol. Estos valores sirven como referencia basal para interpretar posteriormente las diferencias según el hábito tabáquico.
| Total_Registros | Media_Frecuencia_Cardiaca | Desv_Frecuencia_Cardiaca | Min_Frecuencia_Cardiaca | Max_Frecuencia_Cardiaca | Media_Colesterol | Desv_Colesterol | Min_Colesterol | Max_Colesterol |
|---|---|---|---|---|---|---|---|---|
| 3893 | 75.7 | 12.02 | 44 | 143 | 236.6 | 44.38 | 113 | 696 |
Una vez conocidas las métricas globales, se estratifica la muestra según la variable current_smoker (fumador = “yes”, no fumador = “no”). Esta tabla permite observar de manera preliminar si existen diferencias en las medias y desviaciones estándar de la frecuencia cardíaca y el colesterol entre ambos grupos. Dichas diferencias serán sometidas posteriormente a pruebas de significación estadística.
| current_smoker | Registros | Media_Frecuencia_Cardiaca | Desv_Frecuencia_Cardiaca | Media_Colesterol | Desv_Colesterol |
|---|---|---|---|---|---|
| yes | 1928 | 76.39 | 11.77 | 234.51 | 44.80 |
| no | 1965 | 75.02 | 12.23 | 238.65 | 43.87 |
El análisis exploratorio mediante visualizaciones complementa las tablas numéricas y permite detectar patrones, asimetrías, valores atípicos y formas de distribución que no son evidentes solo con estadísticos resumen.
El siguiente histograma muestra la distribución de los valores de frecuencia cardíaca. Se superpone una línea vertical roja discontinua en el valor de 75 latidos por minuto (lpm), que representa un umbral clínico de referencia frecuentemente utilizado como límite superior de la normalidad en adultos en reposo. Valores sistemáticamente superiores podrían sugerir taquicardia relativa o un estado de hiperactividad simpática.
En este gráfico se muestran los niveles de colesterol de las personas analizadas. Además, se incluyen dos líneas de referencia que ayudan a interpretar los resultados:
Gracias a estas referencias, es posible identificar fácilmente cuántas personas presentan niveles normales, elevados o altos de colesterol dentro de la muestra estudiada.
Los diagramas de caja y bigotes (boxplots) permiten comparar la distribución completa de cada variable entre los dos grupos, mostrando medianas, rangos intercuartílicos, valores atípicos y simetría. Se presentan dos gráficos lado a lado: izquierdo para frecuencia cardíaca, derecho para colesterol.
Para validar estadísticamente las diferencias observadas en los gráficos y tablas, se realizan pruebas de una y dos muestras, previa verificación de los supuestos de normalidad y homogeneidad de varianzas asumidos para fines didácticos en este ejercicio.
Se plantea la siguiente hipótesis nula (H0): la frecuencia cardíaca promedio de la población de la cual se extrajo la muestra es igual a 75 lpm.
La hipótesis alternativa (H1) es bidireccional: la media es diferente de 75 lpm.
Un valor p inferior a 0.05 indicaría evidencia estadística suficiente para rechazar H0.
| Media_Observada | Estadístico_t | Grados_Libertad | Valor_p | |
|---|---|---|---|---|
| t | 75.6964 | 3.6136 | 3892 | 3e-04 |
La frecuencia cardíaca promedio observada en la muestra fue de 75.7 lpm. Al comparar este valor con el valor de referencia de 75 lpm mediante una prueba t para una muestra, se obtuvo un estadístico t de 3.6136 con 3892 grados de libertad.
El valor p obtenido fue de 3.06e-04, el cual es menor que el nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H0).
En consecuencia, se concluye que la frecuencia cardíaca promedio de la población es estadísticamente diferente de 75 lpm. Aunque la diferencia observada es pequeña ( 0.7 lpm), el gran tamaño de la muestra hace que dicha diferencia resulte estadísticamente significativa.
En este caso, dado el interés clínico por saber si el nivel de colesterol supera el umbral de riesgo de 200 mg/dL, se emplea una prueba t unilateral.
Hipótesis nula (H₀): El nivel medio de colesterol en la población es menor o igual a 200.
Hipótesis alternativa (H₁): El nivel medio de colesterol en la población es mayor a 200
| Media_Observada | Estadístico_t | Grados_Libertad | Valor_p | |
|---|---|---|---|---|
| t | 236.5959 | 51.4557 | 3892 | 0 |
El nivel promedio de colesterol observado en la muestra fue de 236.6 mg/dL. Para determinar si este valor supera el umbral clínico de 200 mg/dL, se realizó una prueba t para una muestra con hipótesis unilateral superior. El análisis produjo un estadístico t de 51.4557 con 3892 grados de libertad.
El valor p obtenido fue de 0e+00, valor considerablemente inferior al nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H₀).
En consecuencia, se concluye que el nivel promedio de colesterol de la población es significativamente mayor a 200 mg/dL. La diferencia observada entre la media muestral y el valor de referencia es de aproximadamente 36.6 mg/dL, lo que sugiere una alta presencia de niveles elevados de colesterol en la población analizada.
Además de las medias, es relevante analizar la proporción de individuos que superan ciertos umbrales clínicos, tanto en la muestra total como por grupos.
Se crea una nueva variable binaria chol_alto que toma valor 1 si el colesterol supera los 240 mg/dL y 0 en caso contrario. Luego se contrasta si la proporción poblacional es superior al 20% (valor de referencia hipotético).
| Casos_Colesterol_Alto | Proporción_Observada | Estadístico_X2 | Valor_p | |
|---|---|---|---|---|
| X-squared | 1669 | 0.4287 | 1271.388 | 0 |
De los 3893 individuos analizados, 1669 presentaron niveles de colesterol superiores a 240 mg/dL, lo que corresponde a una proporción observada de 42.87%.
Para evaluar si esta proporción es superior al valor de referencia del 20%, se realizó una prueba de proporciones para una muestra. El análisis produjo un estadístico Chi-cuadrado (X²) de 1271.388.
El valor p obtenido fue de 9.33e-279, valor inferior al nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H₀).
En consecuencia, se concluye que la proporción de personas con colesterol alto en la población es significativamente mayor al 20%. De hecho, la prevalencia observada fue de aproximadamente 42.87%, más del doble del valor de referencia planteado inicialmente.
Similarmente, se define taquicardia como frecuencia cardíaca > 100 lpm. Se contrasta si la proporción poblacional es diferente del 5% (prueba bilateral), valor típico de referencia en poblaciones sanas adultas.
| Casos_Taquicardia | Proporción_Observada | Estadístico_X2 | Valor_p | |
|---|---|---|---|---|
| X-squared | 93 | 0.0239 | 55.3291 | 0 |
De los 3893 individuos analizados, 93 presentaron una frecuencia cardíaca superior a 100 latidos por minuto, lo que corresponde a una proporción observada de 2.39%.
Para determinar si esta proporción difiere del valor de referencia del 5%, se realizó una prueba de proporciones bilateral. El análisis produjo un estadístico Chi-cuadrado (X²) de 55.3291.
El valor p obtenido fue de 1.02e-13, inferior al nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H₀).
En consecuencia, se concluye que la proporción de personas con taquicardia en la población es significativamente diferente y menor al 5%. La prevalencia observada fue de 2.39%, lo que indica que la presencia de taquicardia en esta muestra es inferior a la esperada según el valor de referencia utilizado.
En esta sección se realizan pruebas de dos muestras para determinar si las diferencias observadas entre grupos son estadísticamente significativas.
Se emplea una prueba t de dos muestras independientes (bilateral) para comparar el colesterol medio de fumadores versus no fumadores. La hipótesis nula es que ambas medias poblacionales son iguales.
| Media_Fumadores | Media_No_Fumadores | Diferencia_Medias | Estadístico_t | Grados_Libertad | Valor_p | |
|---|---|---|---|---|---|---|
| mean in group yes | 234.5067 | 238.6458 | -4.13906 | -2.91194 | 3884.78 | 0.00361 |
El colesterol promedio de los fumadores fue de 234.51 mg/dL, mientras que el de los no fumadores fue de 238.65 mg/dL. La diferencia observada entre ambos grupos fue de -4.14 mg/dL.
Para determinar si esta diferencia puede atribuirse al azar o refleja una diferencia real entre las poblaciones, se realizó una prueba t para dos muestras independientes. El análisis produjo un estadístico t de -2.9119 con 3885 grados de libertad.
El valor p obtenido fue de 3.61e-03, inferior al nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H₀).
En consecuencia, se concluye que existe una diferencia estadísticamente significativa en los niveles medios de colesterol entre fumadores y no fumadores. Además, los resultados indican que los fumadores presentan, en promedio, niveles de colesterol más bajos que los no fumadores.
Dado que la literatura sugiere que el tabaquismo incrementa la frecuencia cardíaca efecto cronotrópico positivo por estimulación nicotínica, se plantea una prueba t unilateral derecha: la media de frecuencia cardíaca en fumadores es mayor que en no fumadores.
| Media_Fumadores | Media_No_Fumadores | Diferencia_Medias | Estadístico_t | Grados_Libertad | Valor_p | |
|---|---|---|---|---|---|---|
| t | 76.39056 | 75.01527 | 1.37529 | 3.57482 | 3889.559 | 0.00018 |
La frecuencia cardíaca promedio observada en los fumadores fue de 76.39 lpm, mientras que en los no fumadores fue de 75.02 lpm. La diferencia observada entre ambos grupos fue de 1.38 lpm.
Con el fin de evaluar si los fumadores presentan una frecuencia cardíaca superior a la de los no fumadores, se realizó una prueba t unilateral para dos muestras independientes. El análisis produjo un estadístico t de 3.5748 con 3890 grados de libertad.
El valor p obtenido fue de 1.77e-04, inferior al nivel de significancia de 0.05. Por lo tanto, existe evidencia estadística suficiente para rechazar la hipótesis nula (H₀).
En consecuencia, se concluye que la frecuencia cardíaca promedio de los fumadores es significativamente mayor que la de los no fumadores. Este resultado es consistente con la hipótesis planteada y con la evidencia médica que señala que la nicotina puede aumentar la frecuencia cardíaca mediante la estimulación del sistema nervioso simpático.
El presente análisis estadístico permitió evaluar la relación entre el tabaquismo y dos indicadores fundamentales de salud cardiovascular: la frecuencia cardíaca en reposo y el nivel de colesterol total. A continuación se resumen los hallazgos más relevantes y se contextualizan en el marco del conocimiento actual.
En primer lugar, las pruebas de una muestra mostraron que, para el conjunto total de individuos, la frecuencia cardíaca media fue significativamente diferente del valor de referencia de 75 lpm (según el valor p obtenido en la Tabla 3). De manera similar, el colesterol medio superó el umbral de 200 mg/dL de forma estadísticamente significativa (Tabla 4), lo que sugiere un perfil de riesgo cardiovascular elevado en la muestra estudiada.
En cuanto a las comparaciones entre fumadores y no fumadores, las pruebas t de dos muestras (Tablas 7 y 8) permitieron determinar si existen diferencias significativas en las medias de ambas variables. Específicamente, la prueba unilateral para frecuencia cardíaca (Tabla 8) contrasta la hipótesis de que los fumadores presentan una frecuencia cardíaca promedio superior a la de los no fumadores, un efecto bien documentado debido a la acción de la nicotina sobre el sistema nervioso autónomo.
Respecto a las proporciones, la Tabla 10 evalúa si el tabaquismo se asocia con una mayor prevalencia de colesterol alto (>240 mg/dL). Una asociación positiva reforzaría la evidencia de que el consumo de tabaco no solo afecta el sistema respiratorio sino que también contribuye a la dislipidemia aterogénica.
Wickham, H., Averick, M., Bryan, J., Chang, W., McGowan, L. D., François, R., … & Yutani, H. (2019). Welcome to the tidyverse. Journal of Open Source Software, 4(43), 1686. DOI: 10.21105/joss.01686
Grundy, S. M., Stone, N. J., Bailey, A. L., Beam, C., Birtcher, K. K., Blumenthal, R. S., … & Yeboah, J. (2019). 2018 AHA/ACC/AACVPR/AAPA/ABC/ACPM/ADA/AGS/APhA/ASPC/NLA/PCNA guideline on the management of blood cholesterol: a report of the American College of Cardiology/American Heart Association Task Force on Clinical Practice Guidelines. Circulation, 139(25), e1082-e1143. DOI: 10.1161/CIR.0000000000000625
Middlekauff, H. R. (2014). Adverse effects of cigarette and noncigarette smoke exposure on the autonomic nervous system: mechanisms and implications for cardiovascular risk. Journal of the American College of Cardiology, 64(16), 1746-1754. DOI: 10.1016/j.jacc.2014.06.1201