Actividad 5 - Pruebas de Hipótesis y Visualización Interactiva

Institucion: Universidad de La Salle 
Formacion: Maestría en Inteligencia Artificial 
Curso: Ciencia de datos 
Presentado por:
      - Norberto Guerrero Moya [Grupo 01]
      - William Ruiz Martinez [Grupo 02] 
Fecha: 15 de Octubre de 2025 
Docente: Manuel Francisco Romero


  1. Introduccion

El conjunto de datos titulado Smokers Health Data representa una fuente integral para el análisis de los efectos del tabaquismo en la salud de adultos. Su diseño permite abordar estudios exploratorios, descriptivos e inferenciales que buscan comprender cómo el hábito de fumar influye en variables fisiológicas, clínicas y diagnósticas. Esta base de datos fue recolectada con el propósito de facilitar investigaciones que integren perspectivas médicas, preventivas y analíticas.

La estructura del dataset incluye variables cuantitativas como: edad, frecuencia cardíaca, colesterol y cigarrillos por dia . También incorpora variables cualitativas como sexo, estado de fumador, categorización textual de la presión arterial y presencia de enfermedades respiratorias o cardiovasculares. Esta diversidad permite realizar comparaciones entre fumadores y no fumadores, identificar patrones clínicos y evaluar riesgos asociados al tabaquismo.

Gracias a su amplitud y riqueza de datos, Smokers Health Data ofrece oportunidades para desarrollar modelos predictivos, analizar correlaciones entre hábitos y signos vitales, y generar evidencia útil para la toma de decisiones en salud pública. Su enfoque multidimensional lo convierte en un recurso valioso para investigadores, profesionales clínicos y analistas de datos interesados en el impacto del tabaco sobre la salud humana.


  1. Objetivo de la actividad

El presente análisis tiene como objetivo aplicar diversas pruebas de hipótesis mediante el lenguaje de programación R, utilizando el entorno RStudio y tomando como referencia el conjunto de datos Smokers Health Data. Esta base contiene información fisiológica y clínica de individuos fumadores y no fumadores, lo que permite realizar comparaciones entre ambos grupos en relación con variables de salud relevantes.

Entre las variables analizadas se encuentran la frecuencia cardíaca y el nivel de colesterol, lo que posibilita contrastar medias y proporciones con rigor estadístico. A través de estas pruebas se pretende identificar diferencias significativas entre los grupos, generando evidencia que contribuya a la toma de decisiones en ámbitos médicos, clínicos y de salud pública.


  1. Limpieza de la base de datos

3.1 Cargue de las librerias necesarias

library(readr)
library(ggplot2)
library(BSDA)
library(tidyverse)
library(dplyr)

3.2 Cargue de la base de datos

smoking <- read_csv("smoking health data final.csv")
smoking=as.data.frame(unclass(smoking),
                       stringsAsFactors = TRUE)

3.3 verifico la conversion de variables tipo caracter

str(smoking) #Estructura de la base de datos
## 'data.frame':    3900 obs. of  7 variables:
##  $ age           : num  54 45 58 42 42 57 43 42 37 49 ...
##  $ sex           : Factor w/ 2 levels "female","male": 2 2 2 2 2 2 2 2 2 2 ...
##  $ current_smoker: Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 2 2 2 ...
##  $ heart_rate    : num  95 64 81 90 62 62 75 66 65 93 ...
##  $ blood_pressure: Factor w/ 2317 levels "100.5/62","100.5/66",..: 230 642 869 671 572 143 198 723 709 874 ...
##  $ cigs_per_day  : num  NA NA NA NA NA NA NA NA NA NA ...
##  $ chol          : num  219 248 235 225 226 223 222 196 188 256 ...

4.Análisis descriptivo y exploratorio de los datos


4.1 Resumen estadístico

summary(smoking)
##       age            sex       current_smoker   heart_rate     blood_pressure
##  Min.   :32.00   female:2081   no :1968       Min.   : 44.00   130/80 :  18  
##  1st Qu.:42.00   male  :1819   yes:1932       1st Qu.: 68.00   120/80 :  17  
##  Median :49.00                                Median : 75.00   110/70 :  15  
##  Mean   :49.54                                Mean   : 75.69   125/80 :  15  
##  3rd Qu.:56.00                                3rd Qu.: 82.00   105/70 :   9  
##  Max.   :70.00                                Max.   :143.00   107/73 :   9  
##                                                                (Other):3817  
##   cigs_per_day         chol      
##  Min.   : 0.000   Min.   :113.0  
##  1st Qu.: 0.000   1st Qu.:206.0  
##  Median : 0.000   Median :234.0  
##  Mean   : 9.169   Mean   :236.6  
##  3rd Qu.:20.000   3rd Qu.:263.0  
##  Max.   :70.000   Max.   :696.0  
##  NA's   :14       NA's   :7

4.2 Conteo de valores faltantes

sapply(smoking, function(x) sum(is.na(x)))
##            age            sex current_smoker     heart_rate blood_pressure 
##              0              0              0              0              0 
##   cigs_per_day           chol 
##             14              7

4.3 Resumen estadístico de variables numéricas

smoking %>%
  select(age, heart_rate, cigs_per_day, chol) %>%
  summary()
##       age          heart_rate      cigs_per_day         chol      
##  Min.   :32.00   Min.   : 44.00   Min.   : 0.000   Min.   :113.0  
##  1st Qu.:42.00   1st Qu.: 68.00   1st Qu.: 0.000   1st Qu.:206.0  
##  Median :49.00   Median : 75.00   Median : 0.000   Median :234.0  
##  Mean   :49.54   Mean   : 75.69   Mean   : 9.169   Mean   :236.6  
##  3rd Qu.:56.00   3rd Qu.: 82.00   3rd Qu.:20.000   3rd Qu.:263.0  
##  Max.   :70.00   Max.   :143.00   Max.   :70.000   Max.   :696.0  
##                                   NA's   :14       NA's   :7

4.4 Distribución de variables numéricas

num_vars <- c("age", "heart_rate", "cigs_per_day", "chol")

for (var in num_vars) {
  p <- ggplot(smoking, aes(x = !!sym(var))) +
    geom_histogram(binwidth = 5, fill = "skyblue", color = "black", na.rm = TRUE) +
    theme_minimal() +
    labs(title = paste("Distribución de", var),
         x = var, y = "Frecuencia")
  suppressWarnings(print(p))
}

4.5 Análisis de los gráficos de las variables numéricas

Análisis del gráfico de distribución de edad

  1. Forma de la distribución: La distribución es asimétrica negativa (sesgo a la izquierda), con una concentración notable en edades entre 40 y 50 años. El pico máximo se encuentra en el intervalo 40–45 años, con una frecuencia cercana a 800 individuos.
  2. Tendencia general: A partir de los 45 años, la frecuencia disminuye progresivamente. Las edades superiores a 70 años tienen una representación muy baja, lo que sugiere una población predominantemente adulta media.
  3. Implicaciones posibles: La baja representación de mayores de 65 años podría influir en decisiones de pensiones, salud preventiva o formación continua.

Análisis del grafico de frecuencia cardiaca

  1. Forma de la distribución: Aproximadamente normal, con ligera asimetría hacia la derecha.
  2. Tendencia general: La mayoría de los valores se concentran entre 60 y 90 bpm, con pico en 70–75 bpm.
  3. Implicaciones posibles: Indica una población con ritmo cardíaco dentro de rangos saludables.

Análisis del grafico cigarrillos por día

  1. Forma de la distribución: Asimétrica positiva (sesgo a la derecha), con mayoría en el extremo inferior.
  2. Tendencia general: Predominan los no fumadores o quienes fuman muy poco; la frecuencia disminuye conforme aumenta el consumo diario.
  3. Implicaciones posibles: Sugiere una población mayoritariamente no fumadora.

Análisis del grafico de colesterol

  1. Forma de la distribución: Asimétrica positiva, con mayor concentración en valores bajos de colesterol.
  2. Tendencia general: La mayoría de los registros se agrupan entre 150 y 250, con un pico alrededor de 200.
  3. Implicaciones posibles: Refleja una población con niveles de colesterol mayormente dentro de rangos moderados.

  1. Pruebas de hipótesis


5.1 Prueba de hipótesis para una muestra media

Se desea comprobar si la frecuencia cardíaca promedio de los individuos en la muestra es igual a 75 latidos por minuto, valor que podría considerarse una referencia general para adultos sanos en reposo.

Hipótesis:

Hipótesis nula (H₀):

Hipótesis alternativa (H₁):

\[ \begin{align*} H_0 &: \mu = 75 \quad \text{(La media poblacional de la frecuencia cardíaca es igual a 75)} \\ H_1 &: \mu \neq 75 \quad \text{(La media poblacional de la frecuencia cardíaca es diferente de 75)} \end{align*} \]

¿Explique el resultado de la prueba hipótesis?, ¿qué podemos decir del p-valor?

# Prueba de hipótesis: ¿la media es igual a 75?
prueba_t <- t.test(smoking$heart_rate, mu = 75)
# Mostrar resultado
prueba_t
## 
##  One Sample t-test
## 
## data:  smoking$heart_rate
## t = 3.5809, df = 3899, p-value = 0.0003465
## alternative hypothesis: true mean is not equal to 75
## 95 percent confidence interval:
##  75.31176 76.06619
## sample estimates:
## mean of x 
##  75.68897
hist(smoking$heart_rate,
     main = "Distribución de la frecuencia cardíaca",
     xlab = "Frecuencia cardíaca (latidos por minuto)",
     ylab = "Frecuencia",
     col = "skyblue",
     border = "white")

Interpretación estadística del resultado

La prueba t realizada sobre la variable heart_rate arroja los siguientes resultados:

Conclusión

Dado que el p-valor es significativamente menor que 0.05, se rechaza la hipótesis nula (H₀). Esto indica que existe evidencia estadísticamente significativa para afirmar que la frecuencia cardíaca promedio de los individuos en la muestra es diferente de 75 bpm.

Aunque la diferencia es pequeña en magnitud (0.69 bpm), su significancia estadística se debe al tamaño muestral elevado, lo que reduce el error estándar y aumenta la sensibilidad de la prueba.

Interpretación del gráfico

El gráfico complementa la prueba t realizada, mostrando visualmente que la mayoría de los valores se agrupan cerca del valor de referencia (75 bpm), aunque con suficiente dispersión para que la diferencia sea estadísticamente significativa.


5.2 Prueba de niveles medios de colesterol

Se quiere evaluar si los niveles medios de colesterol en la muestra superan el valor umbral de 200 mg/dL, punto a partir del cual se considera que existe hipercolesterolemia.

Hipótesis:

Hipótesis nula (H₀):

Hipótesis alternativa (H₁):

\[ \begin{align*} H_0 &: \mu = 200 \quad \text{(El nivel medio de colesterol en la población es menor o igual a 200)} \\ H_1 &: \mu \neq 200 \quad \text{(El nivel medio de colesterol en la población es mayor a 200)} \end{align*} \]

¿Explique el resultado de la prueba hipótesis?, ¿qué podemos decir del p-valor?

prueba_col <- t.test(smoking$chol, mu = 200, alternative = "greater")
# Mostrar resultado
prueba_col
## 
##  One Sample t-test
## 
## data:  smoking$chol
## t = 51.456, df = 3892, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 200
## 95 percent confidence interval:
##  235.4258      Inf
## sample estimates:
## mean of x 
##  236.5959
hist(smoking$chol,
     main = "Distribución de niveles de colesterol",
     xlab = "Colesterol (mg/dL)",
     ylab = "Frecuencia",
     col = "lightgreen",
     border = "white")

# Agregar línea vertical en 200 mg/dL
abline(v = 200, col = "red", lwd = 2, lty = 2)

# Agregar texto explicativo
text(x = 200, y = max(hist(smoking$chol, plot = FALSE)$counts),
     labels = "Umbral: 200 mg/dL",
     pos = 4, col = "red")

Interpretación estadística del resultado

Se realizó una prueba t de una muestra para evaluar si el nivel medio de colesterol en la población supera el umbral clínico de 200 mg/dL, considerado como límite para hipercolesterolemia, que arrojo los siguientes resultados:


5.3 Prueba de hipótesis de una muestra proporcional

Se considera que una persona tiene colesterol alto si su nivel es mayor a 240 mg/dL (según criterios médicos comunes).

Nueva variable binaria:

\[ Z = \begin{cases} 1 & \text{si } \text{chol} > 240 \\ 0 & \text{si } \text{chol} \leq 240 \end{cases} \]

Hipótesis:

Hipótesis nula (H₀):

Hipótesis alternativa (H₁):

\[ \begin{align*} H_0\colon\ & p = 0.20 \quad \text{(La proporción de personas con colesterol alto es igual al 20%)} \\ H_1\colon\ & p > 0.20 \quad \text{(La proporción de personas con colesterol alto es mayor al 20%)} \end{align*} \]

¿Explique el resultado de la prueba de hipótesis?, ¿qué podemos decir del p-valor?

# Creamos una variable binaria para establecer si el colesterol es alto o no
smoking$col_alto <- ifelse(smoking$chol > 240, 1, 0)

# Realizamos la prueba de proporciones
prop.test(x = sum(smoking$col_alto, na.rm = TRUE),
          n = sum(!is.na(smoking$col_alto)),
          p = 0.20,
          alternative = "greater",
          correct = FALSE)
## 
##  1-sample proportions test without continuity correction
## 
## data:  sum(smoking$col_alto, na.rm = TRUE) out of sum(!is.na(smoking$col_alto)), null probability 0.2
## X-squared = 1272.8, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
##  0.4157256 1.0000000
## sample estimates:
##         p 
## 0.4287182
# Crear proporciones
prop_observada <- sum(smoking$chol > 240, na.rm = TRUE) / sum(!is.na(smoking$chol))
prop_esperada <- 0.20

# Crear vector de proporciones
proporciones <- c(prop_esperada, prop_observada)
nombres <- c("Esperada (H₀)", "Observada")

# Generar gráfico de barras
barplot(proporciones,
        names.arg = nombres,
        col = c("gray", "darkgreen"),
        ylim = c(0, 0.5),
        main = "Comparación de proporciones de colesterol alto",
        ylab = "Proporcion",
        xlab = "Condicion")

# Agregar línea de referencia en 0.20
abline(h = 0.20, col = "red", lty = 2, lwd = 2)

# Agregar texto explicativo
text(x = 1.5, y = 0.21, labels = "Umbral clínico: 20%", col = "red", pos = 3)

Interpretación estadística del resultado

Se evaluó si la proporción de personas con colesterol alto (definido como >240) supera el umbral clínico del 20%. La prueba de hipótesis fue:


5.4 Prueba de hipótesis para la diferencia de medias

Se considera que una persona tiene taquicardia si su frecuencia cardíaca es mayor a 100 lpm (según criterios clínicos).

Nueva variable binaria:

\[ W = \begin{cases} 1 & \text{si } \text{heart_rate} > 100 \\ 0 & \text{si } \text{heart_rate} \leq 100 \end{cases} \]

Hipótesis:

Hipótesis nula (H₀):

Hipótesis alternativa (H₁):

\[ \begin{align*} H_0\colon\ & p = 0.20 \quad \text{(La proporción de personas con taquicardia es igual al 5%)} \\ H_1\colon\ & p > 0.20 \quad \text{(La proporción de personas con taquicardia es diferente del 5%)} \end{align*} \]

¿Explique el resultado de la prueba de hipótesis?, ¿qué podemos decir del p-valor?

Prueba de hipótesis para la diferencia de medias

En el estudio sobre la salud cardiovascular de adultos, se recopilaron datos fisiológicos de un grupo de individuos clasificados como fumadores y no fumadores. Entre las variables medidas se encuentra el nivel de colesterol en sangre (mg/dL), un indicador importante de riesgo cardiovascular. Con el objetivo de evaluar si existe una diferencia significativa en los niveles promedio de colesterol entre fumadores y no fumadores, se solicita realizar una prueba de hipótesis para comparar las medias de colesterol entre ambos grupos. Asuma independencia entre las muestras y considere una significancia del 5%.

#wilcox.test(chol ~ current_smoker, data = smoking, exact = FALSE)
# Crear variable binaria de taquicardia
#smoking=smoking_health_data_final
smoking$taquicardia <- ifelse(smoking$heart_rate > 100, 1, 0)


# Contar casos
n_taquicardia <- sum(smoking$taquicardia, na.rm = TRUE)
n_total <- sum(!is.na(smoking$taquicardia))

# Prueba de proporciones (unilateral)
prop.test(x = n_taquicardia, n = n_total, p = 0.20, alternative = "greater", correct = FALSE)
## 
##  1-sample proportions test without continuity correction
## 
## data:  n_taquicardia out of n_total, null probability 0.2
## X-squared = 756.36, df = 1, p-value = 1
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
##  0.02014561 1.00000000
## sample estimates:
##          p 
## 0.02384615
# Filtrar datos válidos
smoking_filtrado <- subset(smoking, !is.na(chol) & current_smoker %in% c("yes", "no"))

# Prueba t para muestras independientes
t.test(chol ~ current_smoker, data = smoking_filtrado, var.equal = FALSE)
## 
##  Welch Two Sample t-test
## 
## data:  chol by current_smoker
## t = 2.9119, df = 3884.8, p-value = 0.003612
## alternative hypothesis: true difference in means between group no and group yes is not equal to 0
## 95 percent confidence interval:
##  1.352281 6.925837
## sample estimates:
##  mean in group no mean in group yes 
##          238.6458          234.5067

Histograma de frecuencia cardíaca (taquicardia)

hist(smoking$heart_rate,
     breaks = 30,
     col = "skyblue",
     main = "Distribución de frecuencia cardíaca",
     xlab = "Frecuencia cardíaca (lpm)",
     ylab = "Frecuencia")

# Línea de referencia en 100 lpm (umbral clínico de taquicardia)
abline(v = 100, col = "red", lwd = 2, lty = 2)
text(x = 100, y = max(hist(smoking$heart_rate, plot = FALSE)$counts),
     labels = "Umbral taquicardia (100 lpm)",
     col = "red", pos = 4)

Histograma de colesterol por condición de fumador

# Filtrar datos válidos
chol_fumadores <- smoking$chol[smoking$current_smoker == "Yes" & !is.na(smoking$chol)]
chol_no_fumadores <- smoking$chol[smoking$current_smoker == "No" & !is.na(smoking$chol)]

# Histograma bifurcado
unique(smoking$current_smoker)
## [1] yes no 
## Levels: no yes
chol_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "yes" & !is.na(smoking$chol)]
chol_no_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "no" & !is.na(smoking$chol)]
length(chol_fumadores)
## [1] 1928
length(chol_no_fumadores)
## [1] 1965
hist(chol_fumadores,
     breaks = 30,
     col = rgb(1, 0, 0, 0.5),
     xlim = range(c(chol_fumadores, chol_no_fumadores)),
     main = "Distribución de colesterol por condición de fumador",
     xlab = "Colesterol (mg/dL)",
     ylab = "Frecuencia")

hist(chol_no_fumadores,
     breaks = 30,
     col = rgb(0, 0, 1, 0.5),
     add = TRUE)

legend("topright",
       legend = c("Fumadores", "No fumadores"),
       fill = c(rgb(1, 0, 0, 0.5), rgb(0, 0, 1, 0.5)))

Interpretación estadística del resultado

1.Prueba de proporciones: Taquicardia

Se evaluó si la proporción de personas con taquicardia (frecuencia cardíaca > 100 lpm) era mayor al 20 %, bajo la hipótesis:
\[ \begin{align*} H_0\colon\ & p = 0.20 \\ H_1\colon\ & p > 0.20 \end{align*} \]

Los resultados obtenidos fueron:

A pesar del valor elevado del estadístico, el p-valor de 1 indica que no hay evidencia estadística para rechazar la hipótesis nula. Esto se debe a que la proporción observada es mucho menor que la esperada, y la prueba fue formulada como unilateral hacia la derecha (mayor a 20%), lo cual no se cumple.

Conclusión

No se rechaza la hipótesis nula. La proporción de personas con taquicardia no es mayor al 20%, y de hecho, es considerablemente menor (2.38%). El resultado es estadísticamente no significativo bajo el planteamiento unilateral.

Implicaciones clínicas y analíticas

2.Prueba t de Welch: Diferencia de medias de colesterol entre fumadores y no fumadores

Se compararon los niveles promedio de colesterol entre fumadores y no fumadores, bajo la hipótesis:

\[ \begin{align*} H_0\colon\ & \mu_{\text{fumadores}} = \mu_{\text{no fumadores}} \\ H_1\colon\ & \mu_{\text{fumadores}} \neq \mu_{\text{no fumadores}} \end{align*} \]

Los resultados obtenidos fueron:

El p-valor es menor al nivel de significancia del 5%, por lo que se rechaza la hipótesis nula. Existe una diferencia estadísticamente significativa entre los grupos, con una diferencia promedio de 4.14 mg/dL.

Conclusión

Se rechaza la hipótesis nula. Hay evidencia estadística de que los niveles promedio de colesterol difieren significativamente entre fumadores y no fumadores. En esta muestra, los no fumadores presentan niveles ligeramente más altos de colesterol.

Implicaciones clínicas y analíticas

Interpretación de los gráficos

1.Histograma de frecuencia cardíaca

Este histograma muestra la distribución de la frecuencia cardíaca en la muestra estudiada. La mayoría de los individuos presentan valores por debajo del umbral clínico de taquicardia (100 lpm), indicado por la línea roja. La baja densidad de barras a la derecha de esa línea sugiere que la prevalencia de taquicardia es muy baja en esta población, lo cual concuerda con el resultado estadístico previo (proporción observada ≈ 2.38%). Esta visualización respalda la conclusión de que la taquicardia no es un fenómeno frecuente en el grupo analizado.

2.Histograma de colesterol por condición de fumador

Este histograma bifurcado muestra la distribución de los niveles de colesterol en sangre según la condición de fumador. Las barras rojas representan a los fumadores y las azules a los no fumadores. Se observa que ambas distribuciones son similares en forma, pero los no fumadores tienden a presentar valores ligeramente más altos en promedio. Esta visualización respalda el resultado estadístico previo, donde se detectó una diferencia significativa entre las medias, aunque clínicamente moderada. El gráfico sugiere que el tabaquismo no es el único factor que influye en el colesterol, y que podrían intervenir otras variables como edad, dieta o medicación.


5.5 Prueba de diferencias significativas en los niveles promedio de colesterol entre personas fumadoras y no fumadoras

Se desea evaluar si existen diferencias significativas en los niveles promedio de colesterol entre personas fumadoras y no fumadoras. Realice el o los gráficos permitidos y comprobar:

Hipótesis:

Hipótesis nula (H₀):No hay diferencia en los niveles medios de colesterol entre fumadores y no fumadores

Hipótesis alternativa (H₁):Existe una diferencia significativa entre los niveles medios de colesterol.

¿Explique el resultado de la prueba hipótesis?, ¿qué podemos decir del p-valor?

# Filtrar datos válidos
smoking_filtrado <- subset(smoking, !is.na(chol) & current_smoker %in% c("yes", "no"))

# Prueba t para muestras independientes
t.test(chol ~ current_smoker, data = smoking_filtrado, var.equal = FALSE)
## 
##  Welch Two Sample t-test
## 
## data:  chol by current_smoker
## t = 2.9119, df = 3884.8, p-value = 0.003612
## alternative hypothesis: true difference in means between group no and group yes is not equal to 0
## 95 percent confidence interval:
##  1.352281 6.925837
## sample estimates:
##  mean in group no mean in group yes 
##          238.6458          234.5067
chol_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "yes" & !is.na(smoking$chol)]
chol_no_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "no" & !is.na(smoking$chol)]

hist(chol_fumadores,
     breaks = 30,
     col = rgb(1, 0, 0, 0.5),
     xlim = range(c(chol_fumadores, chol_no_fumadores)),
     main = "Distribución de colesterol por condición de fumador",
     xlab = "Colesterol (mg/dL)",
     ylab = "Frecuencia")

hist(chol_no_fumadores,
     breaks = 30,
     col = rgb(0, 0, 1, 0.5),
     add = TRUE)

legend("topright",
       legend = c("Fumadores", "No fumadores"),
       fill = c(rgb(1, 0, 0, 0.5), rgb(0, 0, 1, 0.5)))

Interpretación estadística del resultado

Diferencia significativas en los niveles promedio de colesterol entre personas fumadoras y no fumadoras

Se compararon los niveles promedio de colesterol entre fumadores y no fumadores, bajo la hipótesis:

\[ \begin{align*} H_0\colon\ & \text{No hay diferencia en los niveles medios de colesterol entre fumadores y no fumadores} \\ H_1\colon\ & \text{Existe una diferencia significativa entre los niveles medios de colesterol} \end{align*} \]

Los resultados obtenidos fueron:

El p-valor es menor al nivel de significancia del 5%, por lo que se rechaza la hipótesis nula. Existe una diferencia estadísticamente significativa entre los grupos, con una diferencia promedio de 4.14 mg/dL.

Conclusión

Se rechaza la hipótesis nula. Hay evidencia estadística de que los niveles promedio de colesterol difieren significativamente entre fumadores y no fumadores. En esta muestra, los no fumadores presentan niveles ligeramente más altos de colesterol.

Implicaciones clínicas y analíticas

Interpretación del gráfico

Histograma de colesterol por niveles promedio

Este histograma bifurcado muestra la distribución de los niveles de colesterol en sangre según la condición de fumador. Las barras rojas representan a los fumadores y las azules a los no fumadores. Se observa que ambas distribuciones son similares en forma, pero los no fumadores tienden a presentar valores ligeramente más altos en promedio. Esta visualización respalda el resultado estadístico previo, donde se detectó una diferencia significativa entre las medias, aunque clínicamente moderada. El gráfico sugiere que el tabaquismo no es el único factor que influye en el colesterol, y que podrían intervenir otras variables como edad, dieta o medicación.


5.6 Prueba de frecuencia cardíaca promedio difiere entre quienes fuman y quienes no

Se analiza si la frecuencia cardíaca promedio difiere entre quienes fuman y quienes no. Realice el o los gráficos adecuados y compruebe:

Hipótesis:

Hipótesis nula (H₀):No hay diferencia en la frecuencia cardíaca promedio entre fumadores y no fumadores.

Hipótesis alternativa (H₁):La frecuencia cardíaca promedio de los fumadores es mayor que la de los no fumadores

¿Explique el resultado de la prueba de hipótesis?, ¿qué podemos decir del p-valor?

En el estudio se analiza si existe una diferencia significativa en la proporción de personas con colesterol alto (definido como un nivel superior a 240 mg/dL) entre fumadores y no fumadores. Para ello, se utilizaron los datos recolectados en una base que incluye variables clínicas y hábitos personales. Con base en esta información, formule y realice una prueba de hipótesis que permita determinar si la proporción de individuos con colesterol elevado difiere entre quienes fuman y quienes no lo hacen. Utilice un nivel de significancia del 5%.

Se define colesterol alto como un valor de colesterol > 240 mg/dL. Se crea una variable binaria:

\[ Z = \begin{cases} 1 & \text{si } \text{chol} > 240\quad \text{(colesterol alto)} \\ 0 & \text{si } \text{chol} \leq 240\quad \text{(colesterol normal o saludable)} \end{cases} \] \[ \begin{align*} H_0\colon\ & \text{La proporción de personas con colesterol alto es la misma en fumadores y no fumadores} \\ H_1\colon\ & \text{a proporción de personas con colesterol alto es diferente entre fumadores y no fumadores} \end{align*} \]

Prueba de Hipótesis frecuencia cardíaca

t.test(
  heart_rate ~ current_smoker,
  data = smoking,
  alternative = "greater",
  var.equal = FALSE
)
## 
##  Welch Two Sample t-test
## 
## data:  heart_rate by current_smoker
## t = -3.5809, df = 3896.4, p-value = 0.9998
## alternative hypothesis: true difference in means between group no and group yes is greater than 0
## 95 percent confidence interval:
##  -2.007336       Inf
## sample estimates:
##  mean in group no mean in group yes 
##          75.00762          76.38302
library(ggplot2)

ggplot(smoking, aes(x = heart_rate, fill = current_smoker)) +
  geom_histogram(alpha = 0.6, position = "identity", bins = 30) +
  labs(
    title = "Histograma de frecuencia cardíaca",
    x = "Frecuencia cardíaca (lpm)",
    y = "Frecuencia",
    fill = "Fumador"
  ) +
  theme_minimal()

ggplot(smoking, aes(x = current_smoker, y = heart_rate, fill = current_smoker)) +
  geom_boxplot(alpha = 0.7) +
  labs(
    title = "Boxplot de frecuencia cardíaca por hábito de fumar",
    x = "Hábito de fumar",
    y = "Frecuencia cardíaca (lpm)"
  ) +
  theme_minimal()

Prueba de Hipótesis personas con colesterol alto

# Creamos la variable binaria Z
smoking$Z <- ifelse(smoking$chol > 240, 1, 0)

# Generamos la tabla de contingencia
tabla <- table(smoking$current_smoker, smoking$Z)
tabla
##      
##          0    1
##   no  1086  879
##   yes 1138  790
# Prepararamos los datos para la proporcion del test
exitos <- tabla[,2]     
totales <- rowSums(tabla)

# 4. Presentamo la prueba de dos proporciones (bilateral)
resultado <- prop.test(exitos, totales, 
                       alternative = "two.sided",
                       correct = FALSE)

resultado
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  exitos out of totales
## X-squared = 5.6106, df = 1, p-value = 0.01785
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.006509575 0.068644839
## sample estimates:
##    prop 1    prop 2 
## 0.4473282 0.4097510

Grafico de frecuencia de colesterol alto según hábito de fumar

ggplot(smoking, aes(x = current_smoker, fill = as.factor(Z))) +
  geom_bar(position = "dodge") +
  labs(
    title = "Frecuencia de colesterol alto según hábito de fumar",
    x = "Hábito de fumar",
    y = "Número de personas",
    fill = "Colesterol alto (1 = Sí)"
  ) +
  scale_fill_manual(values = c("0" = "gray70", "1" = "red")) +
  theme_minimal()

Grafico de proporción de colesterol alto por hábito de fumar

# Crear variable binaria
smoking$Z <- ifelse(smoking$chol > 240, 1, 0)

# Crear tabla resumen manualmente
prop_df <- aggregate(Z ~ current_smoker, data = smoking, FUN = mean)

# Convertir proporción a numérica por si acaso
prop_df$Z <- as.numeric(prop_df$Z)

# Graficar
library(ggplot2)

ggplot(prop_df, aes(x = current_smoker, y = Z, fill = current_smoker)) +
  geom_col() +
  geom_text(aes(label = round(Z, 3)),
            vjust = -0.5, size = 5) +
  labs(
    title = "Proporción de colesterol alto por hábito de fumar",
    x = "Hábito de fumar",
    y = "Proporción de colesterol alto"
  ) +
  ylim(0, 1) +
  theme_minimal()

Interpretación estadística del resultado

Frecuencia cardíaca promedio entre fumadores y no fumadores

:El test t de Welch se utilizó para comparar la frecuencia cardíaca promedio entre fumadores y no fumadores. La hipótesis alternativa especificada fue unilateral en la dirección:

\[ H_1: \mu_{\text{no}} - \mu_{\text{yes}} > 0 \]

Los resultados obtenidos determinaron que enlas medias observadas muestran lo contrario:

Con un nivel de significancia del 5%, este valor p implica que:

En suma, los resultados son estadísticamente inconsistentes con la hipótesis alternativa propuesta, porque la dirección real de los datos es opuesta a la que se buscaba probar.

Conclusión

Con base en los resultados del test t de Welch, no se rechaza la hipótesis nula. La evidencia no respalda que los no fumadores tengan una frecuencia cardíaca promedio superior a la de los fumadores.

Por el contrario, las medias muestrales sugieren que los fumadores presentan una frecuencia cardíaca ligeramente mayor; sin embargo, esta afirmación no puede confirmarse formalmente bajo la hipótesis alternativa usada, ya que fue formulada en la dirección opuesta.

Implicaciones clínicas y analíticas

Diferencia en la proporción de personas con colesterol alto entre fumadores y no fumadores.

La tabla de contingencia muestra el número de individuos con colesterol alto (1) y colesterol normal (0) según su condición de fumador:

Fumador Normal (0) Alto (1)
No 1066 879
1138 790

A partir de estos datos se calcularon las proporciones:

El estadístico de prueba fue:

Dado que el valor p es menor que 0.05, existe evidencia estadísticamente significativa de que las proporciones no son iguales.

El intervalo de confianza del 95% para la diferencia de proporciones:\[p_1 - p_2 \in [0.0065,\; 0.0686]\]

Este intervalo no incluye el 0, lo que confirma la significancia estadística. Además, el intervalo es completamente positivo, indicando que:\[p_1 > p_2\]

Conclusión

Con un nivel de significancia del 5%, la prueba demuestra que existe una diferencia significativa en la proporción de personas con colesterol alto entre fumadores y no fumadores.

Los resultados muestran que:

Por tanto, se rechaza la hipótesis nula y se concluye que las proporciones no son iguales.

Implicaciones clínicas y analíticas

Desde el punto de vista clínico, estos resultados pueden parecer contraintuitivos, ya que se esperaría que los fumadores presentaran una mayor proporción de colesterol elevado debido a su mayor riesgo cardiovascular.Sin embargo, hay varias consideraciones:

Interpretación de los gráficos

Histograma de frecuencia cardiaca

El histograma muestra la distribución de la frecuencia cardíaca diferenciada por fumadores y no fumadores. Se observa que ambas distribuciones tienen formas muy similares, concentrándose en rangos parecidos de valores. Aunque los fumadores muestran una ligera mayor frecuencia de valores en la parte alta de la distribución, la superposición entre ambos grupos es amplia. Esto indica que, en general, las diferencias en la frecuencia cardíaca entre fumadores y no fumadores son pequeñas y que ambos grupos siguen patrones de distribución muy parecidos.

Boxplot de frecuencia cardíaca por hábito de fumar

El boxplot muestra la distribución de la frecuencia cardíaca en los grupos de fumadores y no fumadores. Visualmente se observa que ambos grupos presentan rangos y medianas muy similares, con solo una ligera tendencia a que los fumadores tengan una frecuencia cardíaca ligeramente mayor. Sin embargo, la superposición amplia de las cajas y los bigotes indica que las diferencias entre los grupos son pequeñas y que sus distribuciones son en gran medida comparables. Esto coincide con los resultados estadísticos que mostraron que la diferencia entre ambas medias no es significativa en términos clínicos.

Grafico de barras - Frecuencia de colesterol alto según hábito de fumar

El gráfico muestra la cantidad de personas con colesterol alto y colesterol normal en los grupos de fumadores y no fumadores. Se observa que en ambos grupos hay un número considerable de individuos con colesterol elevado, pero la barra roja correspondiente a los fumadores es ligeramente más alta que la de los no fumadores. Esto sugiere que la proporción de colesterol alto es mayor entre los fumadores, lo cual coincide con los resultados de la prueba de hipótesis, que indicaron una diferencia estadísticamente significativa entre ambos grupos.

Grafico de proporción - Colesterol alto por hábito de fumar

l gráfico muestra la proporción de personas con colesterol alto en los grupos de fumadores y no fumadores. Se observa que la proporción es mayor en el grupo de fumadores, lo que indica que un porcentaje más alto de ellos supera los 240 mg/dL de colesterol. Aunque la diferencia no es enorme, sí es consistente con el resultado estadístico que mostró que la proporción de colesterol alto es significativamente mayor en quienes fuman. Esto sugiere una posible relación entre el hábito de fumar y un mayor riesgo de presentar niveles elevados de colesterol.


6.Conclusiones


7.Referencias bibliográficas