1 Introducción


El presente informe tiene como propósito realizar un análisis descriptivo, exploratorio e inferencial del conjunto de datos Smokers Health Data, el cual reúne información fisiológica, biomédica y de hábitos de vida de individuos fumadores y no fumadores. Este dataset incluye variables como frecuencia cardíaca, niveles de colesterol y presión arterial, a demás de variables de caracterización de la población como: edad, sexo y cigarrillos por día. La diversidad de estas variables permite abordar el estudio desde una perspectiva integral, evaluando posibles diferencias entre los grupos y analizando el impacto del tabaquismo sobre distintos indicadores de salud.

Como parte de este análisis, se aplican pruebas de hipótesis tanto para medias como para proporciones, con el fin de determinar si las diferencias observadas entre fumadores y no fumadores son estadísticamente significativas. Entre las pruebas realizadas se incluyen comparaciones de la frecuencia cardíaca, niveles de colesterol y proporciones de condiciones clínicas como taquicardia o hipercolesterolemia. Asimismo, se emplean diferentes gráficas —como histogramas, gráficos de densidad, diagramas de caja y gráficos de proporciones— que permiten visualizar la distribución de los datos y complementar la interpretación estadística.


2 Preliminares


A continuación se instalar los paquetes a utilizar y se cargará la base de datos Smokers Health Data

2.1 Instalación de paquetes

library(readr)
library(ggplot2)
library(BSDA)
library(tidyr)
library(naniar)  #Para gráfica nulos
library(dplyr)

2.2 Carga de la base de datos

smoking_health <- read_csv("smoking_health_data_final.csv")
head(smoking_health, 10)
## # A tibble: 10 × 7
##      age sex   current_smoker heart_rate blood_pressure cigs_per_day  chol
##    <dbl> <chr> <chr>               <dbl> <chr>                 <dbl> <dbl>
##  1    54 male  yes                    95 110/72                   NA   219
##  2    45 male  yes                    64 121/72                   NA   248
##  3    58 male  yes                    81 127.5/76                 NA   235
##  4    42 male  yes                    90 122.5/80                 NA   225
##  5    42 male  yes                    62 119/80                   NA   226
##  6    57 male  yes                    62 107.5/72.5               NA   223
##  7    43 male  yes                    75 109.5/69                 NA   222
##  8    42 male  yes                    66 123/73                   NA   196
##  9    37 male  yes                    65 123.5/77                 NA   188
## 10    49 male  yes                    93 127.5/81.5               NA   256

3 Limpieza de la base de datos


Como primer paso, se análizara el tipo de variables presentes en el dataset, y se convertiran a facores aquellas que sean necesarias.

3.1 Codificación de variables categóricas

Se revisa la estructura de la base de datos, en la cual se puede identificar que tenemos cuatro variables numéricas y tres variables tipo cadena, a su vez, puede interpretarse que se dispone de cuatro variables cualitativas y tres cuantitativas, las cuales se muestra en la siguiente tabla:
***

Variable Tipo según archivo Tipo conceptual Descripción
age numérica (int) Cuantitativa Edad
sex texto (chr) Cualitativa Sexo
current_smoker texto (chr) Cualitativa Estado de fumador actual
heart_rate numérica (int) Cuantitativa Frecuencia cardíaca
blood_pressure texto (chr) Cualitativa* Presión arterial en formato “sist/diast” (debe separarse)
cigs_per_day numérica (float) Cuantitativa Cigarrillos por día
chol numérica (float) Cuantitativa Nivel de colesterol
## spc_tbl_ [3,900 × 7] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ age           : num [1:3900] 54 45 58 42 42 57 43 42 37 49 ...
##  $ sex           : chr [1:3900] "male" "male" "male" "male" ...
##  $ current_smoker: chr [1:3900] "yes" "yes" "yes" "yes" ...
##  $ heart_rate    : num [1:3900] 95 64 81 90 62 62 75 66 65 93 ...
##  $ blood_pressure: chr [1:3900] "110/72" "121/72" "127.5/76" "122.5/80" ...
##  $ cigs_per_day  : num [1:3900] NA NA NA NA NA NA NA NA NA NA ...
##  $ chol          : num [1:3900] 219 248 235 225 226 223 222 196 188 256 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   age = col_double(),
##   ..   sex = col_character(),
##   ..   current_smoker = col_character(),
##   ..   heart_rate = col_double(),
##   ..   blood_pressure = col_character(),
##   ..   cigs_per_day = col_double(),
##   ..   chol = col_double()
##   .. )
##  - attr(*, "problems")=<externalptr>

De acuerdo con lo anterior, se transforman las variables categóricas en factores:

smoking_health$current_smoker=as.factor(smoking_health$current_smoker)
smoking_health$sex=as.factor(smoking_health$sex)

3.2 Revisión de valores faltantes

colSums(is.na(smoking_health))
##            age            sex current_smoker     heart_rate blood_pressure 
##              0              0              0              0              0 
##       systolic      diastolic   cigs_per_day           chol 
##              0              0             14              7

Dado que la base de datos tiene un total de 3.900 registros y solo el 0.54% tiene alguna de las variables nulas. Se decide eliminar estos registros ya que no son significativos estadisticamente hablando y se crea la base smoking_health_clean.

smoking_health_clean <- smoking_health[complete.cases(smoking_health), ]
nrow(smoking_health_clean)
## [1] 3879
colSums(is.na(smoking_health_clean))
##            age            sex current_smoker     heart_rate blood_pressure 
##              0              0              0              0              0 
##       systolic      diastolic   cigs_per_day           chol 
##              0              0              0              0

4 Pruebas de hipótesis para una muestra media


4.1 Frecuencia cardíaca

comprobar si la frecuencia cardíaca promedio de los individuos en la muestra es igual a 75 latidos por minuto, valor que podría considerarse una referencia general para adultos sanos en reposo. \[ u_{x} = 75 \\ \begin{cases} H_{0}: \ \mu = \mu_{x} \\ H_{a}: \ \mu \neq \mu_{x} \end{cases} \]
Para esta prueba, de tipo Bilateral, realizamos z.test, calculamos la media y gráficamos el comportamiento de la variable.

z.test(x=smoking_health_clean$heart_rate, 
       mu=75,
       sigma.x = sd(smoking_health_clean$heart_rate),
       alternative = "two.sided",
       conf.level = 0.95)
## 
##  One-sample z-Test
## 
## data:  smoking_health_clean$heart_rate
## z = 3.6217, p-value = 0.0002926
## alternative hypothesis: true mean is not equal to 75
## 95 percent confidence interval:
##  75.32079 76.07751
## sample estimates:
## mean of x 
##  75.69915


Interpretación: Con base en la prueba Z para una muestra, se obtuvo un estadístico 𝑍=3.6217 con un p-valor de 0.00029, lo cual indica evidencia suficiente para rechazar la hipótesis nula, es decir que la medía NO es exactamente igual a 75 latidos por minuto. El intervalo de confianza del 95% para la media se encuentra entre 75.32 y 76.08 latidos por minuto, rango que no incluye el valor hipotético de 75. Por ello, se concluye que la frecuencia cardíaca promedio de los individuos en la muestra es significativamente diferente de 75 lat/min, aunque la diferencia observada es pequeña desde el punto de vista clínico.


Sobre las gráficas: En el histograma de la frecuencia cardíaca se observa una distribución aproximadamente normal, con la mayoría de los valores concentrados entre 70 y 80 latidos por minuto. Al comparar la media hipotética (75 lpm) con la media observada (~75.7 lpm), representadas por líneas verticales roja y azul respectivamente, se aprecia un ligero desplazamiento hacia la derecha.

Esta pequeña diferencia visual coincide con el resultado de la prueba estadística, la cual indicó un p-valor muy bajo, permitiendo rechazar la hipótesis nula. Por su parte, la gráfica de densidad muestra que la mayor concentración de valores se ubica alrededor de los 75–76 latidos por minuto, lo cual es coherente con la media observada (~75.7 lpm).

En conjunto, la curva de densidad respalda que la frecuencia cardíaca en la muestra no se centra exactamente en 75 lpm, sino ligeramente por encima, manteniéndose dentro de un patrón fisiológico esperado.


El histograma superpuesto muestra que tanto fumadores como no fumadores presentan distribuciones similares en la frecuencia cardíaca, concentrándose la mayoría de valores entre 60 y 90 latidos por minuto. Sin embargo, la línea de media indica que los fumadores presentan una frecuencia cardíaca ligeramente mayor en comparación con los no fumadores. Además, la distribución de los fumadores tiende a extenderse hacia valores más altos, lo que sugiere una mayor proporción de frecuencias cardíacas elevadas en este grupo

4.2 Colesterol

Se quiere evaluar si los niveles medios de colesterol en la muestra superan el valor umbral de 200 mg/dL, punto a partir del cual se considera que existe hipercolesterolemia.

\[ u_{x} = 200 \\ \begin{cases} H_{0}: \ \mu \le 200 \\ H_{a}: \ \mu > 200 \end{cases} \] En este escenario se pondrá en práctica una prueba de tipo cola derecha, para luego complementarla con gráficos que soporten los resultados.

z.test(x=smoking_health_clean$chol, 
       mu=200,
       sigma.x = sd(smoking_health_clean$chol),
       alternative = "greater",
       conf.level = 0.95)
## 
##  One-sample z-Test
## 
## data:  smoking_health_clean$chol
## z = 51.365, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 200
## 95 percent confidence interval:
##  235.4563       NA
## sample estimates:
## mean of x 
##  236.6293

Interpretación: Los resultados de la prueba z para una muestra indican un estadístico de 𝑍= 51.365 con un p-valor menor a 2.2e-16, lo que proporciona evidencia estadísticamente contundente para rechazar la hipótesis nula.

Dado que el intervalo de confianza unilateral del 95% se encuentra por encima de 235.46 mg/dL, se concluye que el nivel medio de colesterol en la población estudiada es significativamente mayor al valor clínico de referencia de 200 mg/dL.

En términos clínicos, este resultado sugiere que la población analizada presenta, en promedio, niveles de colesterol consistentemente elevados, compatibles con un diagnóstico de hipercolesterolemia.


Sobre las gráficas: Tanto el histograma como la curva de densidad muestran que los niveles de colesterol en la muestra están predominantemente por encima del umbral clínico de 200 mg/dL. La media observada (~236 mg/dL) confirma que, en promedio, la población analizada presenta hipercolesterolemia.

La distribución muestra un sesgo positivo, con una cola extendida hacia valores altos, lo que sugiere variabilidad considerable y la presencia de valores potencialmente atípicos.

En conjunto, las gráficas respaldan visualmente los resultados del análisis estadístico, que concluyó que el nivel medio de colesterol es significativamente mayor a 200 mg/dL.


El análisis mediante boxplot muestra que los niveles de colesterol presentan una distribución similar entre fumadores y no fumadores, tanto en la media como en la dispersión general. Ambos grupos exhiben múltiples valores atípicos, lo que indica la presencia de individuos con niveles considerablemente elevados de colesterol. Aunque los fumadores presentan algunos outliers más altos, esta diferencia no se refleja en el nivel central de la distribución. En general, no se observan diferencias marcadas entre ambos grupos en términos de colesterol, y la variación interna es considerable dentro de cada uno.

## # A tibble: 2 × 3
##   current_smoker media_colesterol     n
##   <fct>                     <dbl> <int>
## 1 no                         239.  1965
## 2 yes                        235.  1914

Por último, los resultados muestran que las medias de colesterol para fumadores y no fumadores son muy similares, con una diferencia menor a 5 mg/dL. Esto sugiere que, en la población analizada, el hábito de fumar no se asocia con diferencias relevantes en el nivel promedio de colesterol. Sin embargo, ambos grupos presentan valores medios muy superiores al umbral clínico de 200 mg/dL, lo cual indica una elevada prevalencia de hipercolesterolemia en general.


5 Prueba hipótesis de una muestra proporcional


5.1 Colesterol alto

Se considera que una persona tiene colesterol alto si su nivel es mayor a 240 mg/dL (según criterios médicos comunes).

Hipótesis:
• H₀: La proporción de personas con colesterol alto es igual al 20%.
• H₁: La proporción de personas con colesterol alto es mayor al 20%.

\[ \begin{cases} H_{0}: p = 0.20 \\ H_{a}: p > 0.20 \end{cases} \] De acuerdo a referencias de la literatura, como [1], en este tipo de pruebas de hipótesis de usa Prop que compara la proporción muestral con la proporción poblacional hipotética.

Primero, se crea la variable binaria y se convertirá a factor:

smoking_health_clean$colesterol_alto = as.factor(smoking_health_clean$colesterol_alto)
head(smoking_health_clean[, c("chol", "colesterol_alto")], 5)
## # A tibble: 5 × 2
##    chol colesterol_alto
##   <dbl> <fct>          
## 1   175 0              
## 2   240 0              
## 3   199 0              
## 4   235 0              
## 5   300 1

Por lo tanto, se realizará una prueba de tipo proporción.

prop.test(
  x = sum(smoking_health_clean$colesterol_alto == 1),
  n = nrow(smoking_health_clean),
  p = 0.20,
  alternative = "greater"
)
## 
##  1-sample proportions test with continuity correction
## 
## data:  sum(smoking_health_clean$colesterol_alto == 1) out of nrow(smoking_health_clean), null probability 0.2
## X-squared = 1272.5, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
##  0.4160878 1.0000000
## sample estimates:
##         p 
## 0.4292343

Interpretación: La prueba de proporción para una muestra arrojó un estadístico X^2=1272.5 con un p-valor menor a 2.2e-16, lo cual proporciona evidencia estadísticamente contundente para rechazar la hipótesis nula que la proporción de individuos con colesterol alto es del 20%.

La proporción observada en la muestra es de aproximadamente 42.9%, y el intervalo de confianza unilateral del 95% indica que la proporción poblacional es al menos 41.6%. Por lo tanto, se concluye que la prevalencia de colesterol alto en esta población es significativamente mayor al 20%.

De acuerdo con la visualización, aproximadamente 42.9% de las personas evaluadas presentan colesterol alto, mientras que el 57.1% se encuentran en el rango normal o límite.

Aunque la proporción mayoritaria pertenece al grupo sin colesterol alto, el porcentaje de individuos que sí exceden el umbral clínico es considerablemente elevado. Dicho de otra forma, casi 4 de cada 10 personas en la muestra presentan valores superiores a 240 mg/dL, lo cual representa un nivel de prevalencia significativo. Incluso sin contar con formación médica especializada, puede afirmarse —basado en criterios ampliamente aceptados en la literatura— que niveles superiores a este umbral están asociados con un incremento en el riesgo de desarrollar enfermedades cardiovasculares, tales como arteriosclerosis, hipertensión y eventos coronarios.


5.2 Frecuencia cardíaca

Se considera que una persona tiene taquicardia si su frecuencia cardíaca es mayor a 100 lpm (según criterios clínicos). POr lo que se realizará la siguiente prueba:

\[ \begin{cases} H_{0}: p = 0.05 \\ H_{a}: p \neq 0.05 \end{cases} \]

prop.test(
  x = sum(smoking_health_clean$taquicardia == 1),
  n = nrow(smoking_health_clean),
  p = 0.05,
  alternative = "two.sided"
)
## 
##  1-sample proportions test with continuity correction
## 
## data:  sum(smoking_health_clean$taquicardia == 1) out of nrow(smoking_health_clean), null probability 0.05
## X-squared = 54.763, df = 1, p-value = 1.36e-13
## alternative hypothesis: true p is not equal to 0.05
## 95 percent confidence interval:
##  0.01949545 0.02942205
## sample estimates:
##          p 
## 0.02397525

Interpretación: los resultados muestran que la proporción observada de taquicardia en la muestra es de 2.39%, la cual es notablemente menor que el 5% planteado bajo la hipótesis nula. Sin embargo, el elemento central para la toma de decisión es el p-valor, que en este caso fue de 1.36e-13, lo que permite concluir que existe evidencia estadística abrumadora para rechazar la hipótesis nula y aseverar que la proporción verdadera de taquicardia en la población no es igual al 5%. Esta conclusión se refuerza con el intervalo de confianza del 95%, el cual se encuentra entre 0.0195 u 0.0294.

Desde una aproximación clínica, los resultados sugieren que en esta muestra la prevalencia de taquicardia es relativamente baja (≈2.4%), y está claramente por debajo del 5% esperado bajo la hipótesis nula. De acuerdo con criterios clínicos, una frecuencia cardíaca mayor a 100 lpm es indicativa de taquicardia y puede estar asociada con fiebre, estrés, anemia, deshidratación o condiciones cardíacas.

La conclusión realizada con el análisis de la prueba de hipótesis, toma aun más valor con la gráfica anterior ya que, se observa que las medias de la frecuencia cardíaca en la población general muestran valores muy similares entre los dos grupos: aproximadamente 76.4 lpm en fumadores y 75.01 lpm en no fumadores.

Si bien se aprecia que las personas que no fuman presentan, en promedio, una frecuencia cardíaca ligeramente menor, la diferencia entre ambos grupos es pequeña y no sugiere un efecto clínicamente relevante por sí misma. Esto indica que, dentro de este conjunto de datos, el hábito de fumar no parece generar una variación marcada en la frecuencia cardíaca basal de la población analizada.

En primer lugar, se observa que la mediana de la frecuencia cardíaca es ligeramente mayor en el grupo de fumadores que en el de no fumadores, coherente con la diferencia de medias calculada previamente (aprox. 76.4 lpm en fumadores vs. 75.0 lpm en no fumadores). Sin embargo, esta diferencia es pequeña y no sugiere cambios clínicamente relevantes.

En cuanto a la dispersión, ambos grupos presentan rangos intercuartílicos similares, lo que indica que la variabilidad de la frecuencia cardíaca es comparable entre fumadores y no fumadores. Esto sugiere que el hábito de fumar no introduce una variabilidad adicional marcada en los valores de frecuencia cardíaca dentro de esta población.

Respecto a los valores atípicos, se identifican varios en ambos grupos, representados como puntos fuera de los límites del bigote superior. Estos outliers corresponden principalmente a valores elevados de frecuencia cardíaca (por encima de 100 lpm), asociados clínicamente al fenómeno de taquicardia. Es importante notar que estos valores atípicos aparecen en ambas categorías, lo cual indica que el hábito de fumar no es el único factor asociado a elevaciones significativas en la frecuencia cardíaca; pueden intervenir otras condiciones fisiológicas o médicas presentes en los individuos.

6 Prueba de hipótesis para la diferencia de medias

6.1 Niveles promedio de colesterol

Se desea evaluar si existen diferencias significativas en los niveles promedio de colesterol entre personas fumadoras y no fumadoras. Se plantea la siguiente prueba de hipótesis.

\[ \\ \begin{cases} H_{0}: \mu_{\text{fumadores}} = \mu_{\text{no fumadores}} \\ H_{a}: \mu_{\text{fumadores}} \neq \mu_{\text{no fumadores}} \end{cases} \]

Con el fin de verficiar esta diferencia de medias, se plantean los siguientes gráficos: histograma y densidad.

## # A tibble: 2 × 2
##   current_smoker media_chol
##   <fct>               <dbl>
## 1 no                   239.
## 2 yes                  235.


Al ver el histograma, podríamos deducir que la distribución de los indices de colesterol entre fumadores y no fumadores es prácticamente la misma, sin embargo, al realizar la gráfica de densidad con comparación de medías, vemos que las medía no son estrictamente iguales, sino que los no fumadores tienden a tener un nivel de colesterol más alto. Sin embargo esta diferencia no es tan significativa. Esto se evidencia también en la prueba de hipótesis que se muestra a continuación.

t.test(chol ~ current_smoker,
       data = smoking_health_clean,
       alternative = "two.sided")
## 
##  Welch Two Sample t-test
## 
## data:  chol by current_smoker
## t = 2.867, df = 3867.7, p-value = 0.004166
## alternative hypothesis: true difference in means between group no and group yes is not equal to 0
## 95 percent confidence interval:
##  1.292055 6.881471
## sample estimates:
##  mean in group no mean in group yes 
##          238.6458          234.5590

Interpretación: Para evaluar si existen diferencias significativas en los niveles promedio de colesterol entre fumadores y no fumadores, se aplicó una prueba t de dos muestras independientes. El nivel de significancia utilizado fue del 5%. Los resultados indican que la diferencia observada entre las medias del colesterol en ambos grupos (fumadores vs no fumadores) 234.55 y 238,65 se acompañan de un p-valor de 0.004166.

Dado que este p-valor es menor que 0.05, se rechaza la hipótesis nula que plantea igualdad de medias. Esto sugiere que existe evidencia estadísticamente significativa para afirmar que los fumadores y no fumadores presentan niveles promedio de colesterol diferentes, aun cuando su diferencia sea pequeña.

En términos clínicos, aunque esta diferencia estadística no implica necesariamente causalidad, sí sugiere que la condición de fumador puede estar asociada a variaciones en el metabolismo lipídico, lo cual coincide con literatura que vincula el tabaquismo con un mayor riesgo cardiovascular. Es importante señalar que, como analistas, no emitimos diagnósticos; sin embargo, los resultados apoyan la relevancia de seguir estudiando la relación entre hábitos de salud y marcadores fisiológicos

6.2 Frecuencia cardíaca



\[ mu = frecuancia\ cardiaca \\ \begin{cases} H_{0}: \mu_{\text{fumadores}} = \mu_{\text{no fumadores}} \\ H_{a}: \mu_{\text{fumadores}} \neq \mu_{\text{no fumadores}} \end{cases} \]

Para validar la diferencia de las medias, se realizará un boxplot y un gráfico de densidad, con el fin de ver la distribución de la frecuencia cardíaca entre los dos grupos. Esto permitirá una primer aproximación visual, que luego de rematará con a prueba de hipótesis.

## # A tibble: 2 × 2
##   current_smoker media_hr
##   <fct>             <dbl>
## 1 no                 75.0
## 2 yes                76.4



Las gráficas anteriormente mostradas, dan cuenta que, por ejemplo: En la gráfica de densidad, aunque la distribución en prácticamente la misma, las medias difieren, siendo 75 pulsaciones por minuto, la media para los no fumadores y 76.4 para los fumadores. Así mismo, las áreas coloreadas se superponen en más del 90% de su extensión.

Por su parte, el gráfico de boxplot, se confirma que no existen diferencias estadística ni clínicamente significativas en la frecuencia cardíaca entre fumadores y no fumadores. Las distribuciones presentan formas, dispersiones y valores centrales muy similares, y los pocos valores atípicos se distribuyen en ambos grupos sin un patrón evidente.

## 
##  Welch Two Sample t-test
## 
## data:  heart_rate by current_smoker
## t = -3.5969, df = 3876.4, p-value = 0.0003261
## alternative hypothesis: true difference in means between group no and group yes is not equal to 0
## 95 percent confidence interval:
##  -2.1414571 -0.6305164
## sample estimates:
##  mean in group no mean in group yes 
##          75.01527          76.40125

Interpretación: La prueba de hipótesis fortalece lo evidenciado en las gráficas. Con un p-valor de 0.0003261, estadísticamente se rechaza la hipótesis nula, sin embargo, puede que clinicamente esta diferencia, al ser tan pequeña, no sea tan relevante. Este ejercicio también demuestra, al menos en esta muestra, que el habito de fumar no interfiere directamente o de manera significativa en los indices de frecuencia cardíaca.

6.3 Proporción de colesterol alto

En esta prueba se validará la hipótesis nula que permitirá determinar si la proporción de individuos con colesterol elevado difiere entre quienes fuman y quienes no lo hacen.

\[ p_{x} = proporción\ de\ fumadores \\ \begin{cases} H_{0}: p_{\text{fumadores}} = p_{\text{no fumadores}} \\ H_{a}: p_{\text{fumadores}} \neq p_{\text{no fumadores}}\\ \end{cases} \\ Nivel\ de\ significancia \ (\alpha = 0.05) \]

Las gráficas anteriores, dan cuenta de la proporción de la población con respecto al colesterol alto. Se puede apreciar fácilmente que en la población fumadora, el colesterol alto tiene una mayor propoporción (58.9%) que en la población no fumadora (55.3%). De manera general, estas gráficas apoyarían la idea de rechazar la hipótesis nula sobre la igualdad de estas proporciones, pero a continuación se ejecutará la prueba formar con prep.test.

altos_fumadores <- sum(smoking_health_clean$colesterol_alto == 1 &
                       smoking_health_clean$current_smoker == "yes")

altos_nofumadores <- sum(smoking_health_clean$colesterol_alto == 1 &
                         smoking_health_clean$current_smoker == "no")

# Tamaños de cada grupo
n_fumadores <- sum(smoking_health_clean$current_smoker == "yes")
n_nofumadores <- sum(smoking_health_clean$current_smoker == "no")

prop.test(
  x = c(altos_fumadores, altos_nofumadores),
  n = c(n_fumadores, n_nofumadores),
  alternative = "two.sided",
  correct = TRUE
)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(altos_fumadores, altos_nofumadores) out of c(n_fumadores, n_nofumadores)
## X-squared = 5.1731, df = 1, p-value = 0.02294
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.068315184 -0.005024691
## sample estimates:
##    prop 1    prop 2 
## 0.4106583 0.4473282
##          Grupo Colesterol_Alto Total Proporcion
## 1    Fumadores             786  1914  0.4106583
## 2 No fumadores             879  1965  0.4473282

Interpretación: Existe evidencia suficiente para afirmar que la proporción de personas con colesterol alto difiere entre fumadores y no fumadores. Además, el intervalo de confianza no incluye 0, lo que confirma la existencia de una diferencia estadística entre los grupos.

Contra la intuición clínica inicial, la proporción fue ligeramente mayor en no fumadores (44.7%) que en fumadores (41.1%). Aunque estadísticamente significativa, esta diferencia es pequeña y probablemente influida por otros factores presentes en la población estudiada.


7 Conclusiones


El análisis realizado sobre el conjunto de datos Smokers Health Data permitió explorar, describir y evaluar estadísticamente la relación entre el hábito de fumar y diversos indicadores fisiológicos. A través de procesos de limpieza, visualización y aplicación de pruebas de hipótesis para medias y proporciones, fue posible determinar si las diferencias observadas entre fumadores y no fumadores eran atribuibles al azar o reflejaban patrones en la población estudiada.

En primer lugar, los análisis descriptivos y gráficos mostraron comportamientos diferenciados en variables relevantes como el colesterol y la frecuencia cardíaca. Posteriormente, las pruebas de hipótesis permitieron cuantificar estas diferencias. Se identificó, por ejemplo, que los niveles promedio de colesterol en la población superan significativamente el umbral clínico de referencia, lo cual sugiere un perfil de riesgo cardiovascular elevado. Asimismo, la proporción de individuos con colesterol alto resultó significativamente mayor al 20% esperado, lo que refuerza este hallazgo.

En las comparaciones entre grupos, el estudio evidenció que la frecuencia cardíaca promedio difiere entre fumadores y no fumadores, y aunque la magnitud de esa diferencia es relativamente pequeña, fue estadísticamente significativa. Por otro lado, al analizar la proporción de colesterol alto entre fumadores y no fumadores, se observó una diferencia significativa entre los grupos, indicando que el tabaquismo podría asociarse a una mayor prevalencia de perfiles lipídicos alterados.


8 Material de referencia