Pruebas-Hipotesis.knit

Actividad 5 - Pruebas de Hipótesis y Visualización Interactiva

Institucion: Universidad de La Salle 
Formacion: Maestría en Inteligencia Artificial 
Curso: Ciencia de datos 
Presentado por:
      - Norberto Guerrero Moya [Grupo 01]
      - William Ruiz Martinez [Grupo 02] 
Fecha: 15 de Octubre de 2025 
Docente: Manuel Francisco Romero

Introduccion

El conjunto de datos titulado Smokers Health Data representa una fuente integral para el análisis de los efectos del tabaquismo en la salud de adultos. Su diseño permite abordar estudios exploratorios, descriptivos e inferenciales que buscan comprender cómo el hábito de fumar influye en variables fisiológicas, clínicas y diagnósticas. Esta base de datos fue recolectada con el propósito de facilitar investigaciones que integren perspectivas médicas, preventivas y analíticas.

La estructura del dataset incluye variables cuantitativas como: edad, frecuencia cardíaca, colesterol y cigarrillos por dia . También incorpora variables cualitativas como sexo, estado de fumador, categorización textual de la presión arterial y presencia de enfermedades respiratorias o cardiovasculares. Esta diversidad permite realizar comparaciones entre fumadores y no fumadores, identificar patrones clínicos y evaluar riesgos asociados al tabaquismo.

Gracias a su amplitud y riqueza de datos, Smokers Health Data ofrece oportunidades para desarrollar modelos predictivos, analizar correlaciones entre hábitos y signos vitales, y generar evidencia útil para la toma de decisiones en salud pública. Su enfoque multidimensional lo convierte en un recurso valioso para investigadores, profesionales clínicos y analistas de datos interesados en el impacto del tabaco sobre la salud humana.

Objetivo de la actividad

El presente análisis tiene como objetivo aplicar diversas pruebas de hipótesis mediante el lenguaje de programación R, utilizando el entorno RStudio y tomando como referencia el conjunto de datos Smokers Health Data. Esta base contiene información fisiológica y clínica de individuos fumadores y no fumadores, lo que permite realizar comparaciones entre ambos grupos en relación con variables de salud relevantes.

Entre las variables analizadas se encuentran la frecuencia cardíaca y el nivel de colesterol, lo que posibilita contrastar medias y proporciones con rigor estadístico. A través de estas pruebas se pretende identificar diferencias significativas entre los grupos, generando evidencia que contribuya a la toma de decisiones en ámbitos médicos, clínicos y de salud pública.

Limpieza de la base de datos

3.1 Cargue de las librerias necesarias

library(readr)
library(ggplot2)
library(BSDA)
library(tidyverse)
library(dplyr)

3.2 Cargue de la base de datos

smoking <- read_csv("smoking health data final.csv")
smoking=as.data.frame(unclass(smoking),
                       stringsAsFactors = TRUE)

3.3 verifico la conversion de variables tipo caracter

str(smoking) #Estructura de la base de datos

## 'data.frame':    3900 obs. of  7 variables:
##  $ age           : num  54 45 58 42 42 57 43 42 37 49 ...
##  $ sex           : Factor w/ 2 levels "female","male": 2 2 2 2 2 2 2 2 2 2 ...
##  $ current_smoker: Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 2 2 2 ...
##  $ heart_rate    : num  95 64 81 90 62 62 75 66 65 93 ...
##  $ blood_pressure: Factor w/ 2317 levels "100.5/62","100.5/66",..: 230 642 869 671 572 143 198 723 709 874 ...
##  $ cigs_per_day  : num  NA NA NA NA NA NA NA NA NA NA ...
##  $ chol          : num  219 248 235 225 226 223 222 196 188 256 ...

4.Análisis descriptivo y exploratorio de los datos

4.1 Resumen estadístico

summary(smoking)

##       age            sex       current_smoker   heart_rate     blood_pressure
##  Min.   :32.00   female:2081   no :1968       Min.   : 44.00   130/80 :  18  
##  1st Qu.:42.00   male  :1819   yes:1932       1st Qu.: 68.00   120/80 :  17  
##  Median :49.00                                Median : 75.00   110/70 :  15  
##  Mean   :49.54                                Mean   : 75.69   125/80 :  15  
##  3rd Qu.:56.00                                3rd Qu.: 82.00   105/70 :   9  
##  Max.   :70.00                                Max.   :143.00   107/73 :   9  
##                                                                (Other):3817  
##   cigs_per_day         chol      
##  Min.   : 0.000   Min.   :113.0  
##  1st Qu.: 0.000   1st Qu.:206.0  
##  Median : 0.000   Median :234.0  
##  Mean   : 9.169   Mean   :236.6  
##  3rd Qu.:20.000   3rd Qu.:263.0  
##  Max.   :70.000   Max.   :696.0  
##  NA's   :14       NA's   :7

4.2 Conteo de valores faltantes

sapply(smoking, function(x) sum(is.na(x)))

##            age            sex current_smoker     heart_rate blood_pressure 
##              0              0              0              0              0 
##   cigs_per_day           chol 
##             14              7

4.3 Resumen estadístico de variables numéricas

smoking %>%
  select(age, heart_rate, cigs_per_day, chol) %>%
  summary()

##       age          heart_rate      cigs_per_day         chol      
##  Min.   :32.00   Min.   : 44.00   Min.   : 0.000   Min.   :113.0  
##  1st Qu.:42.00   1st Qu.: 68.00   1st Qu.: 0.000   1st Qu.:206.0  
##  Median :49.00   Median : 75.00   Median : 0.000   Median :234.0  
##  Mean   :49.54   Mean   : 75.69   Mean   : 9.169   Mean   :236.6  
##  3rd Qu.:56.00   3rd Qu.: 82.00   3rd Qu.:20.000   3rd Qu.:263.0  
##  Max.   :70.00   Max.   :143.00   Max.   :70.000   Max.   :696.0  
##                                   NA's   :14       NA's   :7

4.4 Distribución de variables numéricas

num_vars <- c("age", "heart_rate", "cigs_per_day", "chol")

for (var in num_vars) {
  p <- ggplot(smoking, aes(x = !!sym(var))) +
    geom_histogram(binwidth = 5, fill = "skyblue", color = "black", na.rm = TRUE) +
    theme_minimal() +
    labs(title = paste("Distribución de", var),
         x = var, y = "Frecuencia")
  suppressWarnings(print(p))
}

4.5 Análisis de los gráficos de las variables numéricas

Análisis del gráfico de distribución de edad

Forma de la distribución: La distribución es asimétrica negativa (sesgo a la izquierda), con una concentración notable en edades entre 40 y 50 años. El pico máximo se encuentra en el intervalo 40–45 años, con una frecuencia cercana a 800 individuos.
Tendencia general: A partir de los 45 años, la frecuencia disminuye progresivamente. Las edades superiores a 70 años tienen una representación muy baja, lo que sugiere una población predominantemente adulta media.
Implicaciones posibles: La baja representación de mayores de 65 años podría influir en decisiones de pensiones, salud preventiva o formación continua.

Análisis del grafico de frecuencia cardiaca

Forma de la distribución: Aproximadamente normal, con ligera asimetría hacia la derecha.
Tendencia general: La mayoría de los valores se concentran entre 60 y 90 bpm, con pico en 70–75 bpm.
Implicaciones posibles: Indica una población con ritmo cardíaco dentro de rangos saludables.

Análisis del grafico cigarrillos por día

Forma de la distribución: Asimétrica positiva (sesgo a la derecha), con mayoría en el extremo inferior.
Tendencia general: Predominan los no fumadores o quienes fuman muy poco; la frecuencia disminuye conforme aumenta el consumo diario.
Implicaciones posibles: Sugiere una población mayoritariamente no fumadora.

Análisis del grafico de colesterol

Forma de la distribución: Asimétrica positiva, con mayor concentración en valores bajos de colesterol.
Tendencia general: La mayoría de los registros se agrupan entre 150 y 250, con un pico alrededor de 200.
Implicaciones posibles: Refleja una población con niveles de colesterol mayormente dentro de rangos moderados.

Pruebas de hipótesis

5.1 Prueba de hipótesis para una muestra media

Se desea comprobar si la frecuencia cardíaca promedio de los individuos en la muestra es igual a 75 latidos por minuto, valor que podría considerarse una referencia general para adultos sanos en reposo.

Hipótesis:

Hipótesis nula (H₀):

Hipótesis alternativa (H₁):

\[ \begin{align*} H_0 &: \mu = 75 \quad \text{(La media poblacional de la frecuencia cardíaca es igual a 75)} \\ H_1 &: \mu \neq 75 \quad \text{(La media poblacional de la frecuencia cardíaca es diferente de 75)} \end{align*} \]

¿Explique el resultado de la prueba hipótesis?, ¿qué podemos decir del p-valor?

# Prueba de hipótesis: ¿la media es igual a 75?
prueba_t <- t.test(smoking$heart_rate, mu = 75)
# Mostrar resultado
prueba_t

## 
##  One Sample t-test
## 
## data:  smoking$heart_rate
## t = 3.5809, df = 3899, p-value = 0.0003465
## alternative hypothesis: true mean is not equal to 75
## 95 percent confidence interval:
##  75.31176 76.06619
## sample estimates:
## mean of x 
##  75.68897

hist(smoking$heart_rate,
     main = "Distribución de la frecuencia cardíaca",
     xlab = "Frecuencia cardíaca (latidos por minuto)",
     ylab = "Frecuencia",
     col = "skyblue",
     border = "white")

Interpretación estadística del resultado

La prueba t realizada sobre la variable heart_rate arroja los siguientes resultados:

Estadístico t: t=3.5809, lo que indica que la media muestral se encuentra aproximadamente 3.58 desviaciones estándar por encima del valor hipotético de 75 bpm.
Grados de libertad: df=3899, lo que sugiere una muestra amplia, aumentando la precisión del estimador.
Media muestral: {x}=75.68897, ligeramente superior al valor de referencia.
Intervalo de confianza al 95%: [75.31176, 76.06619], lo que implica que el valor de 75 bpm no está incluido en el intervalo, reforzando la evidencia contra la hipótesis nula.
p-valor: p=0.0003465, muy inferior al umbral convencional de 0.05.

Conclusión

Dado que el p-valor es significativamente menor que 0.05, se rechaza la hipótesis nula (H₀). Esto indica que existe evidencia estadísticamente significativa para afirmar que la frecuencia cardíaca promedio de los individuos en la muestra es diferente de 75 bpm.

Aunque la diferencia es pequeña en magnitud (0.69 bpm), su significancia estadística se debe al tamaño muestral elevado, lo que reduce el error estándar y aumenta la sensibilidad de la prueba.

Interpretación del gráfico

El gráfico complementa la prueba t realizada, mostrando visualmente que la mayoría de los valores se agrupan cerca del valor de referencia (75 bpm), aunque con suficiente dispersión para que la diferencia sea estadísticamente significativa.

5.2 Prueba de niveles medios de colesterol

Se quiere evaluar si los niveles medios de colesterol en la muestra superan el valor umbral de 200 mg/dL, punto a partir del cual se considera que existe hipercolesterolemia.

Hipótesis:

Hipótesis nula (H₀):

Hipótesis alternativa (H₁):

\[ \begin{align*} H_0 &: \mu = 200 \quad \text{(El nivel medio de colesterol en la población es menor o igual a 200)} \\ H_1 &: \mu \neq 200 \quad \text{(El nivel medio de colesterol en la población es mayor a 200)} \end{align*} \]

¿Explique el resultado de la prueba hipótesis?, ¿qué podemos decir del p-valor?

prueba_col <- t.test(smoking$chol, mu = 200, alternative = "greater")
# Mostrar resultado
prueba_col

## 
##  One Sample t-test
## 
## data:  smoking$chol
## t = 51.456, df = 3892, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 200
## 95 percent confidence interval:
##  235.4258      Inf
## sample estimates:
## mean of x 
##  236.5959

hist(smoking$chol,
     main = "Distribución de niveles de colesterol",
     xlab = "Colesterol (mg/dL)",
     ylab = "Frecuencia",
     col = "lightgreen",
     border = "white")

# Agregar línea vertical en 200 mg/dL
abline(v = 200, col = "red", lwd = 2, lty = 2)

# Agregar texto explicativo
text(x = 200, y = max(hist(smoking$chol, plot = FALSE)$counts),
     labels = "Umbral: 200 mg/dL",
     pos = 4, col = "red")

Interpretación estadística del resultado

Se realizó una prueba t de una muestra para evaluar si el nivel medio de colesterol en la población supera el umbral clínico de 200 mg/dL, considerado como límite para hipercolesterolemia, que arrojo los siguientes resultados:

Estadístico t: t=51.456, lo que indica que la media muestral está más de 51 desviaciones estándar por encima del valor umbral.
Grados de libertad: = 3892, lo que refleja una muestra amplia y robusta.
Media muestral:{x} = 236.60 , claramente superior al umbral clínico.
Intervalo de confianza (95%): 235.43, ∞), lo que confirma que el valor de 200 mg/dL queda fuera del rango plausible para la media poblacional.
p-valor: p<2.2^{-16}, extremadamente pequeño, lo que indica una diferencia altamente significativa.

Conclusión

Dado que el p-valor es mucho menor que 0.05, se rechaza la hipótesis nula (H₀). Esto proporciona evidencia estadística contundente de que el nivel medio de colesterol en la población supera los 200 mg/dL, lo que sugiere una prevalencia significativa de riesgo cardiovascular.

Implicaciones clínicas y analíticas
- El resultado respalda la presencia de hipercolesterolemia poblacional, con implicaciones para políticas de salud preventiva.
- La magnitud del efecto (media de 236.6 mg/dL) no solo es estadísticamente significativa, sino también clínicamente relevante.
Interpretación del gráfico

El histograma muestra una distribución asimétrica positiva de los niveles de colesterol, con una alta concentración de valores por encima del umbral clínico de 200 mg/dL. La línea roja vertical marca este punto de corte, y la mayoría de los individuos se ubican a su derecha, lo que respalda visualmente la conclusión estadística de que la media poblacional supera dicho umbral. Esto sugiere una prevalencia significativa de hipercolesterolemia en la muestra.

5.3 Prueba de hipótesis de una muestra proporcional

Se considera que una persona tiene colesterol alto si su nivel es mayor a 240 mg/dL (según criterios médicos comunes).

Nueva variable binaria:

\[ Z = \begin{cases} 1 & \text{si } \text{chol} > 240 \\ 0 & \text{si } \text{chol} \leq 240 \end{cases} \]

Hipótesis:

Hipótesis nula (H₀):

Hipótesis alternativa (H₁):

\[ \begin{align*} H_0\colon\ & p = 0.20 \quad \text{(La proporción de personas con colesterol alto es igual al 20%)} \\ H_1\colon\ & p > 0.20 \quad \text{(La proporción de personas con colesterol alto es mayor al 20%)} \end{align*} \]

¿Explique el resultado de la prueba de hipótesis?, ¿qué podemos decir del p-valor?

# Creamos una variable binaria para establecer si el colesterol es alto o no
smoking$col_alto <- ifelse(smoking$chol > 240, 1, 0)

# Realizamos la prueba de proporciones
prop.test(x = sum(smoking$col_alto, na.rm = TRUE),
          n = sum(!is.na(smoking$col_alto)),
          p = 0.20,
          alternative = "greater",
          correct = FALSE)

## 
##  1-sample proportions test without continuity correction
## 
## data:  sum(smoking$col_alto, na.rm = TRUE) out of sum(!is.na(smoking$col_alto)), null probability 0.2
## X-squared = 1272.8, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
##  0.4157256 1.0000000
## sample estimates:
##         p 
## 0.4287182

# Crear proporciones
prop_observada <- sum(smoking$chol > 240, na.rm = TRUE) / sum(!is.na(smoking$chol))
prop_esperada <- 0.20

# Crear vector de proporciones
proporciones <- c(prop_esperada, prop_observada)
nombres <- c("Esperada (H₀)", "Observada")

# Generar gráfico de barras
barplot(proporciones,
        names.arg = nombres,
        col = c("gray", "darkgreen"),
        ylim = c(0, 0.5),
        main = "Comparación de proporciones de colesterol alto",
        ylab = "Proporcion",
        xlab = "Condicion")

# Agregar línea de referencia en 0.20
abline(h = 0.20, col = "red", lty = 2, lwd = 2)

# Agregar texto explicativo
text(x = 1.5, y = 0.21, labels = "Umbral clínico: 20%", col = "red", pos = 3)

Interpretación estadística del resultado

Se evaluó si la proporción de personas con colesterol alto (definido como >240) supera el umbral clínico del 20%. La prueba de hipótesis fue:

Estadístico chi-cuadrado: X^2 = 1272.8, con gl=1, lo que indica una desviación muy significativa respecto a la proporción esperada bajo (H₀).
p-valor: p<2.2^{-16}, extremadamente bajo, lo que implica que la probabilidad de observar una proporción igual o mayor a la obtenida si p=0.20 fuera cierto es prácticamente nula.
Estimación muestral: =0.4287, es decir, el 42.87 % de los individuos presentan colesterol alto.
Intervalo de confianza (95 %) unilateral: [0.4157, 1.0000], lo que confirma que el valor de 0.20 queda fuera del rango plausible para la proporción poblacional.

Conclusión

Dado que el p-valor es mucho menor que 0.05, se rechaza la hipótesis nula (H₀). Esto proporciona evidencia estadística contundente de que la proporción de personas con colesterol alto en la muestra es significativamente mayor al 20%.

Implicaciones clínicas y analíticas

La proporción observada (42.87%) más que duplicar el umbral clínico de referencia, lo que sugiere es una prevalencia crítica de hipercolesterolemia en la población analizada.
Este hallazgo tiene implicaciones relevantes para la gestión de riesgo cardiovascular, la planificación de intervenciones preventivas y el diseño de estrategias educativas y nutricionales.

Interpretación del gráfico

El gráfico de barras compara la proporción esperada de personas con colesterol alto bajo la hipótesis nula (20%) con la proporción observada en la muestra. La barra verde muestra que el 42.87% de los individuos supera el umbral clínico de 240 mg/dL, mientras que la línea roja marca el valor de referencia del 20%. La diferencia visual refuerza el resultado estadístico: la proporción observada es significativamente mayor a la esperada, lo que respalda el rechazo de (H₀) en la prueba de hipótesis.

5.4 Prueba de hipótesis para la diferencia de medias

Se considera que una persona tiene taquicardia si su frecuencia cardíaca es mayor a 100 lpm (según criterios clínicos).

Nueva variable binaria:

\[ W = \begin{cases} 1 & \text{si } \text{heart_rate} > 100 \\ 0 & \text{si } \text{heart_rate} \leq 100 \end{cases} \]

Hipótesis:

Hipótesis nula (H₀):

Hipótesis alternativa (H₁):

\[ \begin{align*} H_0\colon\ & p = 0.20 \quad \text{(La proporción de personas con taquicardia es igual al 5%)} \\ H_1\colon\ & p > 0.20 \quad \text{(La proporción de personas con taquicardia es diferente del 5%)} \end{align*} \]

¿Explique el resultado de la prueba de hipótesis?, ¿qué podemos decir del p-valor?

Prueba de hipótesis para la diferencia de medias

En el estudio sobre la salud cardiovascular de adultos, se recopilaron datos fisiológicos de un grupo de individuos clasificados como fumadores y no fumadores. Entre las variables medidas se encuentra el nivel de colesterol en sangre (mg/dL), un indicador importante de riesgo cardiovascular. Con el objetivo de evaluar si existe una diferencia significativa en los niveles promedio de colesterol entre fumadores y no fumadores, se solicita realizar una prueba de hipótesis para comparar las medias de colesterol entre ambos grupos. Asuma independencia entre las muestras y considere una significancia del 5%.

#wilcox.test(chol ~ current_smoker, data = smoking, exact = FALSE)
# Crear variable binaria de taquicardia
#smoking=smoking_health_data_final
smoking$taquicardia <- ifelse(smoking$heart_rate > 100, 1, 0)


# Contar casos
n_taquicardia <- sum(smoking$taquicardia, na.rm = TRUE)
n_total <- sum(!is.na(smoking$taquicardia))

# Prueba de proporciones (unilateral)
prop.test(x = n_taquicardia, n = n_total, p = 0.20, alternative = "greater", correct = FALSE)

## 
##  1-sample proportions test without continuity correction
## 
## data:  n_taquicardia out of n_total, null probability 0.2
## X-squared = 756.36, df = 1, p-value = 1
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
##  0.02014561 1.00000000
## sample estimates:
##          p 
## 0.02384615

# Filtrar datos válidos
smoking_filtrado <- subset(smoking, !is.na(chol) & current_smoker %in% c("yes", "no"))

# Prueba t para muestras independientes
t.test(chol ~ current_smoker, data = smoking_filtrado, var.equal = FALSE)

## 
##  Welch Two Sample t-test
## 
## data:  chol by current_smoker
## t = 2.9119, df = 3884.8, p-value = 0.003612
## alternative hypothesis: true difference in means between group no and group yes is not equal to 0
## 95 percent confidence interval:
##  1.352281 6.925837
## sample estimates:
##  mean in group no mean in group yes 
##          238.6458          234.5067

Histograma de frecuencia cardíaca (taquicardia)

hist(smoking$heart_rate,
     breaks = 30,
     col = "skyblue",
     main = "Distribución de frecuencia cardíaca",
     xlab = "Frecuencia cardíaca (lpm)",
     ylab = "Frecuencia")

# Línea de referencia en 100 lpm (umbral clínico de taquicardia)
abline(v = 100, col = "red", lwd = 2, lty = 2)
text(x = 100, y = max(hist(smoking$heart_rate, plot = FALSE)$counts),
     labels = "Umbral taquicardia (100 lpm)",
     col = "red", pos = 4)

Histograma de colesterol por condición de fumador

# Filtrar datos válidos
chol_fumadores <- smoking$chol[smoking$current_smoker == "Yes" & !is.na(smoking$chol)]
chol_no_fumadores <- smoking$chol[smoking$current_smoker == "No" & !is.na(smoking$chol)]

# Histograma bifurcado
unique(smoking$current_smoker)

## [1] yes no 
## Levels: no yes

chol_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "yes" & !is.na(smoking$chol)]
chol_no_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "no" & !is.na(smoking$chol)]
length(chol_fumadores)

## [1] 1928

length(chol_no_fumadores)

## [1] 1965

hist(chol_fumadores,
     breaks = 30,
     col = rgb(1, 0, 0, 0.5),
     xlim = range(c(chol_fumadores, chol_no_fumadores)),
     main = "Distribución de colesterol por condición de fumador",
     xlab = "Colesterol (mg/dL)",
     ylab = "Frecuencia")

hist(chol_no_fumadores,
     breaks = 30,
     col = rgb(0, 0, 1, 0.5),
     add = TRUE)

legend("topright",
       legend = c("Fumadores", "No fumadores"),
       fill = c(rgb(1, 0, 0, 0.5), rgb(0, 0, 1, 0.5)))

Interpretación estadística del resultado

1.Prueba de proporciones: Taquicardia

Se evaluó si la proporción de personas con taquicardia (frecuencia cardíaca > 100 lpm) era mayor al 20 %, bajo la hipótesis:
\[ \begin{align*} H_0\colon\ & p = 0.20 \\ H_1\colon\ & p > 0.20 \end{align*} \]

Los resultados obtenidos fueron:

Proporción observada: =0.0238 (2.38%)
Estadístico chi-cuadrado: ^2=756.36
Grados de libertad: 1
p-valor: 1
Intervalo de confianza (95 %): [0.0201, 1.0000]

A pesar del valor elevado del estadístico, el p-valor de 1 indica que no hay evidencia estadística para rechazar la hipótesis nula. Esto se debe a que la proporción observada es mucho menor que la esperada, y la prueba fue formulada como unilateral hacia la derecha (mayor a 20%), lo cual no se cumple.

Conclusión

No se rechaza la hipótesis nula. La proporción de personas con taquicardia no es mayor al 20%, y de hecho, es considerablemente menor (2.38%). El resultado es estadísticamente no significativo bajo el planteamiento unilateral.

Implicaciones clínicas y analíticas

La taquicardia no representa un problema prevalente en esta muestra.
La baja proporción observada podría reflejar una población joven, saludable o con buen control cardiovascular.
Se recomienda explorar posibles sesgos de selección o segmentar por edad, sexo o comorbilidades para verificar si existen subgrupos con mayor riesgo.

2.Prueba t de Welch: Diferencia de medias de colesterol entre fumadores y no fumadores

Se compararon los niveles promedio de colesterol entre fumadores y no fumadores, bajo la hipótesis:

\[ \begin{align*} H_0\colon\ & \mu_{\text{fumadores}} = \mu_{\text{no fumadores}} \\ H_1\colon\ & \mu_{\text{fumadores}} \neq \mu_{\text{no fumadores}} \end{align*} \]

Los resultados obtenidos fueron:

Estadístico t: t=2.9119,un valor de 2.9119 indica que la diferencia observada entre las medias es 2.91 veces mayor que la variabilidad esperada por azar.La diferencia entre los niveles medios de colesterol es suficientemente grande, en relación con la variabilidad de los datos, como para considerarse estadísticamente significativa.
Grados de libertad =3884.8,los grados de libertad (gl) reflejan la cantidad de información disponible para estimar la variabilidad. En la prueba de Welch (que no asume varianzas iguales), los gl se calculan con una fórmula ajustada que puede resultar en un número decimal. Un valor alto como 3884.8 indica una muestra grande, lo que aumenta la precisión de la estimación y reduce el error estándar.
p-valor =0.0036, el p-valor representa la probabilidad de obtener una diferencia igual o más extrema que la observada, asumiendo que la hipótesis nula es cierta.Un p-valor de 0.0036 es menor al umbral de significancia del 5% (0.05).Existe evidencia estadísticamente significativa para rechazar la hipótesis nula. Es decir, los niveles promedio de colesterol no son iguales entre fumadores y no fumadores.
Intervalo de confianza (95%): [1.35, 6.93], este intervalo representa el rango dentro del cual se espera que se encuentre la diferencia real de medias con un 95% de confianza.Como el intervalo no incluye el 0, se confirma que la diferencia es significativa.El rango indica que, en promedio, los no fumadores tienen entre 1.35 y 6.93 mg/dL más colesterol que los fumadores.

El p-valor es menor al nivel de significancia del 5%, por lo que se rechaza la hipótesis nula. Existe una diferencia estadísticamente significativa entre los grupos, con una diferencia promedio de 4.14 mg/dL.

Conclusión

Se rechaza la hipótesis nula. Hay evidencia estadística de que los niveles promedio de colesterol difieren significativamente entre fumadores y no fumadores. En esta muestra, los no fumadores presentan niveles ligeramente más altos de colesterol.

Implicaciones clínicas y analíticas

Aunque la diferencia es estadísticamente significativa, su magnitud es moderada desde el punto de vista clínico.
El hallazgo puede parecer contraintuitivo, ya que se esperaría mayor colesterol en fumadores. Esto sugiere la posible influencia de variables confusoras como edad, dieta, actividad física, uso de medicamentos (estatinas), o condiciones metabólicas.
Se recomienda realizar un análisis multivariado o bifurcar por subgrupos (edad, sexo, IMC, comorbilidades) para identificar patrones ocultos.

Interpretación de los gráficos

1.Histograma de frecuencia cardíaca

Este histograma muestra la distribución de la frecuencia cardíaca en la muestra estudiada. La mayoría de los individuos presentan valores por debajo del umbral clínico de taquicardia (100 lpm), indicado por la línea roja. La baja densidad de barras a la derecha de esa línea sugiere que la prevalencia de taquicardia es muy baja en esta población, lo cual concuerda con el resultado estadístico previo (proporción observada ≈ 2.38%). Esta visualización respalda la conclusión de que la taquicardia no es un fenómeno frecuente en el grupo analizado.

2.Histograma de colesterol por condición de fumador

Este histograma bifurcado muestra la distribución de los niveles de colesterol en sangre según la condición de fumador. Las barras rojas representan a los fumadores y las azules a los no fumadores. Se observa que ambas distribuciones son similares en forma, pero los no fumadores tienden a presentar valores ligeramente más altos en promedio. Esta visualización respalda el resultado estadístico previo, donde se detectó una diferencia significativa entre las medias, aunque clínicamente moderada. El gráfico sugiere que el tabaquismo no es el único factor que influye en el colesterol, y que podrían intervenir otras variables como edad, dieta o medicación.

5.5 Prueba de diferencias significativas en los niveles promedio de colesterol entre personas fumadoras y no fumadoras

Se desea evaluar si existen diferencias significativas en los niveles promedio de colesterol entre personas fumadoras y no fumadoras. Realice el o los gráficos permitidos y comprobar:

Hipótesis:

Hipótesis nula (H₀):No hay diferencia en los niveles medios de colesterol entre fumadores y no fumadores

Hipótesis alternativa (H₁):Existe una diferencia significativa entre los niveles medios de colesterol.

¿Explique el resultado de la prueba hipótesis?, ¿qué podemos decir del p-valor?

# Filtrar datos válidos
smoking_filtrado <- subset(smoking, !is.na(chol) & current_smoker %in% c("yes", "no"))

# Prueba t para muestras independientes
t.test(chol ~ current_smoker, data = smoking_filtrado, var.equal = FALSE)

## 
##  Welch Two Sample t-test
## 
## data:  chol by current_smoker
## t = 2.9119, df = 3884.8, p-value = 0.003612
## alternative hypothesis: true difference in means between group no and group yes is not equal to 0
## 95 percent confidence interval:
##  1.352281 6.925837
## sample estimates:
##  mean in group no mean in group yes 
##          238.6458          234.5067

chol_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "yes" & !is.na(smoking$chol)]
chol_no_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "no" & !is.na(smoking$chol)]

hist(chol_fumadores,
     breaks = 30,
     col = rgb(1, 0, 0, 0.5),
     xlim = range(c(chol_fumadores, chol_no_fumadores)),
     main = "Distribución de colesterol por condición de fumador",
     xlab = "Colesterol (mg/dL)",
     ylab = "Frecuencia")

hist(chol_no_fumadores,
     breaks = 30,
     col = rgb(0, 0, 1, 0.5),
     add = TRUE)

legend("topright",
       legend = c("Fumadores", "No fumadores"),
       fill = c(rgb(1, 0, 0, 0.5), rgb(0, 0, 1, 0.5)))

Interpretación estadística del resultado

Diferencia significativas en los niveles promedio de colesterol entre personas fumadoras y no fumadoras

Se compararon los niveles promedio de colesterol entre fumadores y no fumadores, bajo la hipótesis:

\[ \begin{align*} H_0\colon\ & \text{No hay diferencia en los niveles medios de colesterol entre fumadores y no fumadores} \\ H_1\colon\ & \text{Existe una diferencia significativa entre los niveles medios de colesterol} \end{align*} \]

Los resultados obtenidos fueron:

Estadístico t: t=2.9119,un valor de 2.9119 indica que la diferencia observada entre las medias es 2.91 veces mayor que la variabilidad esperada por azar.La diferencia entre los niveles medios de colesterol es suficientemente grande, en relación con la variabilidad de los datos, como para considerarse estadísticamente significativa.
Grados de libertad =3884.8,los grados de libertad (gl) reflejan la cantidad de información disponible para estimar la variabilidad. En la prueba de Welch (que no asume varianzas iguales), los gl se calculan con una fórmula ajustada que puede resultar en un número decimal. Un valor alto como 3884.8 indica una muestra grande, lo que aumenta la precisión de la estimación y reduce el error estándar.
p-valor =0.0036, el p-valor representa la probabilidad de obtener una diferencia igual o más extrema que la observada, asumiendo que la hipótesis nula es cierta.Un p-valor de 0.0036 es menor al umbral de significancia del 5% (0.05).Existe evidencia estadísticamente significativa para rechazar la hipótesis nula. Es decir, los niveles promedio de colesterol no son iguales entre fumadores y no fumadores.
Intervalo de confianza (95%): [1.35, 6.93], este intervalo representa el rango dentro del cual se espera que se encuentre la diferencia real de medias con un 95% de confianza.Como el intervalo no incluye el 0, se confirma que la diferencia es significativa.El rango indica que, en promedio, los no fumadores tienen entre 1.35 y 6.93 mg/dL más colesterol que los fumadores.

Conclusión

Implicaciones clínicas y analíticas

Aunque la diferencia es estadísticamente significativa, su magnitud es moderada desde el punto de vista clínico.
El hallazgo puede parecer contraintuitivo, ya que se esperaría mayor colesterol en fumadores. Esto sugiere la posible influencia de variables confusoras como edad, dieta, actividad física, uso de medicamentos (estatinas), o condiciones metabólicas.
Se recomienda realizar un análisis multivariado o bifurcar por subgrupos (edad, sexo, IMC, comorbilidades) para identificar patrones ocultos.

Interpretación del gráfico

Histograma de colesterol por niveles promedio

5.6 Prueba de frecuencia cardíaca promedio difiere entre quienes fuman y quienes no

Se analiza si la frecuencia cardíaca promedio difiere entre quienes fuman y quienes no. Realice el o los gráficos adecuados y compruebe:

Hipótesis:

Hipótesis nula (H₀):No hay diferencia en la frecuencia cardíaca promedio entre fumadores y no fumadores.

Hipótesis alternativa (H₁):La frecuencia cardíaca promedio de los fumadores es mayor que la de los no fumadores

¿Explique el resultado de la prueba de hipótesis?, ¿qué podemos decir del p-valor?

En el estudio se analiza si existe una diferencia significativa en la proporción de personas con colesterol alto (definido como un nivel superior a 240 mg/dL) entre fumadores y no fumadores. Para ello, se utilizaron los datos recolectados en una base que incluye variables clínicas y hábitos personales. Con base en esta información, formule y realice una prueba de hipótesis que permita determinar si la proporción de individuos con colesterol elevado difiere entre quienes fuman y quienes no lo hacen. Utilice un nivel de significancia del 5%.

Se define colesterol alto como un valor de colesterol > 240 mg/dL. Se crea una variable binaria:

\[ Z = \begin{cases} 1 & \text{si } \text{chol} > 240\quad \text{(colesterol alto)} \\ 0 & \text{si } \text{chol} \leq 240\quad \text{(colesterol normal o saludable)} \end{cases} \] \[ \begin{align*} H_0\colon\ & \text{La proporción de personas con colesterol alto es la misma en fumadores y no fumadores} \\ H_1\colon\ & \text{a proporción de personas con colesterol alto es diferente entre fumadores y no fumadores} \end{align*} \]

Prueba de Hipótesis frecuencia cardíaca

t.test(
  heart_rate ~ current_smoker,
  data = smoking,
  alternative = "greater",
  var.equal = FALSE
)

## 
##  Welch Two Sample t-test
## 
## data:  heart_rate by current_smoker
## t = -3.5809, df = 3896.4, p-value = 0.9998
## alternative hypothesis: true difference in means between group no and group yes is greater than 0
## 95 percent confidence interval:
##  -2.007336       Inf
## sample estimates:
##  mean in group no mean in group yes 
##          75.00762          76.38302

library(ggplot2)

ggplot(smoking, aes(x = heart_rate, fill = current_smoker)) +
  geom_histogram(alpha = 0.6, position = "identity", bins = 30) +
  labs(
    title = "Histograma de frecuencia cardíaca",
    x = "Frecuencia cardíaca (lpm)",
    y = "Frecuencia",
    fill = "Fumador"
  ) +
  theme_minimal()

ggplot(smoking, aes(x = current_smoker, y = heart_rate, fill = current_smoker)) +
  geom_boxplot(alpha = 0.7) +
  labs(
    title = "Boxplot de frecuencia cardíaca por hábito de fumar",
    x = "Hábito de fumar",
    y = "Frecuencia cardíaca (lpm)"
  ) +
  theme_minimal()

Prueba de Hipótesis personas con colesterol alto

# Creamos la variable binaria Z
smoking$Z <- ifelse(smoking$chol > 240, 1, 0)

# Generamos la tabla de contingencia
tabla <- table(smoking$current_smoker, smoking$Z)
tabla

##      
##          0    1
##   no  1086  879
##   yes 1138  790

# Prepararamos los datos para la proporcion del test
exitos <- tabla[,2]     
totales <- rowSums(tabla)

# 4. Presentamo la prueba de dos proporciones (bilateral)
resultado <- prop.test(exitos, totales, 
                       alternative = "two.sided",
                       correct = FALSE)

resultado

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  exitos out of totales
## X-squared = 5.6106, df = 1, p-value = 0.01785
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.006509575 0.068644839
## sample estimates:
##    prop 1    prop 2 
## 0.4473282 0.4097510

Grafico de frecuencia de colesterol alto según hábito de fumar

ggplot(smoking, aes(x = current_smoker, fill = as.factor(Z))) +
  geom_bar(position = "dodge") +
  labs(
    title = "Frecuencia de colesterol alto según hábito de fumar",
    x = "Hábito de fumar",
    y = "Número de personas",
    fill = "Colesterol alto (1 = Sí)"
  ) +
  scale_fill_manual(values = c("0" = "gray70", "1" = "red")) +
  theme_minimal()

Grafico de proporción de colesterol alto por hábito de fumar

# Crear variable binaria
smoking$Z <- ifelse(smoking$chol > 240, 1, 0)

# Crear tabla resumen manualmente
prop_df <- aggregate(Z ~ current_smoker, data = smoking, FUN = mean)

# Convertir proporción a numérica por si acaso
prop_df$Z <- as.numeric(prop_df$Z)

# Graficar
library(ggplot2)

ggplot(prop_df, aes(x = current_smoker, y = Z, fill = current_smoker)) +
  geom_col() +
  geom_text(aes(label = round(Z, 3)),
            vjust = -0.5, size = 5) +
  labs(
    title = "Proporción de colesterol alto por hábito de fumar",
    x = "Hábito de fumar",
    y = "Proporción de colesterol alto"
  ) +
  ylim(0, 1) +
  theme_minimal()

Interpretación estadística del resultado

Frecuencia cardíaca promedio entre fumadores y no fumadores

:El test t de Welch se utilizó para comparar la frecuencia cardíaca promedio entre fumadores y no fumadores. La hipótesis alternativa especificada fue unilateral en la dirección:

\[ H_1: \mu_{\text{no}} - \mu_{\text{yes}} > 0 \]

Los resultados obtenidos determinaron que enlas medias observadas muestran lo contrario:

No fumadores: 75.01 lpm
Fumadores: 76.38 lpm
El estadístico obtenido (t = –3.5809) indica que la media del grupo de no fumadores es menor que la de fumadores. Debido a que la hipótesis planteada va en sentido inverso, el p-value resultó extremadamente alto (p = 0.9998).

Con un nivel de significancia del 5%, este valor p implica que:

No existe evidencia estadística para sostener que la frecuencia cardíaca promedio es mayor en no fumadores.
El intervalo de confianza unilateral del 95% (–2.007, ∞) muestra que la diferencia de medias compatible con los datos incluso favorece a los fumadores (mayor frecuencia).

En suma, los resultados son estadísticamente inconsistentes con la hipótesis alternativa propuesta, porque la dirección real de los datos es opuesta a la que se buscaba probar.

Conclusión

Con base en los resultados del test t de Welch, no se rechaza la hipótesis nula. La evidencia no respalda que los no fumadores tengan una frecuencia cardíaca promedio superior a la de los fumadores.

Por el contrario, las medias muestrales sugieren que los fumadores presentan una frecuencia cardíaca ligeramente mayor; sin embargo, esta afirmación no puede confirmarse formalmente bajo la hipótesis alternativa usada, ya que fue formulada en la dirección opuesta.

Implicaciones clínicas y analíticas

Desde el punto de vista clínico, la diferencia observada (≈1.4 lpm mayor en fumadores) es coherente con el efecto estimulante de la nicotina, que aumenta la actividad simpática y eleva la frecuencia cardíaca. Esto puede reflejar un mayor estrés cardiovascular basal en personas fumadoras.
Analíticamente, este resultado resalta la importancia de formular correctamente la hipótesis alternativa antes de ejecutar una prueba estadística. La elección del sentido de la prueba (unilateral) puede determinar si los datos respaldan o no una conclusión. En este caso, una hipótesis planteada en la dirección opuesta a la evidencia observable impidió detectar un efecto que podría haber sido estadísticamente significativo.

Diferencia en la proporción de personas con colesterol alto entre fumadores y no fumadores.

La tabla de contingencia muestra el número de individuos con colesterol alto (1) y colesterol normal (0) según su condición de fumador:

Fumador	Normal (0)	Alto (1)
No	1066	879
Sí	1138	790

A partir de estos datos se calcularon las proporciones:

No fumadores (prop1): \[\hat{p}_1 = \frac{1066 + 879}{879} = 0.4473\]
Fumadores (prop2):\[\hat{p}_2 = \frac{1138 + 790}{790} = 0.4098\]
La prueba utilizada fue un test de diferencia de proporciones bilateral, el cual evalúa:\[\begin{align*} H_0 &: \; p_1 = p_2 \\ H_1 &: \; p_1 \neq p_2 \end{align*} \]

El estadístico de prueba fue:

Chi-cuadrado = 5.6106, con 1 grado de libertad.
Valor p = 0.01785

Dado que el valor p es menor que 0.05, existe evidencia estadísticamente significativa de que las proporciones no son iguales.

El intervalo de confianza del 95% para la diferencia de proporciones:\[p_1 - p_2 \in [0.0065,\; 0.0686]\]

Este intervalo no incluye el 0, lo que confirma la significancia estadística. Además, el intervalo es completamente positivo, indicando que:\[p_1 > p_2\]

Conclusión

Con un nivel de significancia del 5%, la prueba demuestra que existe una diferencia significativa en la proporción de personas con colesterol alto entre fumadores y no fumadores.

Los resultados muestran que:

La proporción de colesterol alto es mayor en los no fumadores (44.7%) que en los fumadores (40.9%).
La diferencia es estadísticamente significativa (p = 0.01785).
La magnitud de la diferencia es moderada, entre 0.6% y 6.9% según el intervalo de confianza.

Por tanto, se rechaza la hipótesis nula y se concluye que las proporciones no son iguales.

Implicaciones clínicas y analíticas

Desde el punto de vista clínico, estos resultados pueden parecer contraintuitivos, ya que se esperaría que los fumadores presentaran una mayor proporción de colesterol elevado debido a su mayor riesgo cardiovascular.Sin embargo, hay varias consideraciones:

El resultado podría reflejar factores de confusión no controlados, como dieta, actividad física, uso de medicamentos o edad promedio de cada grupo.
Los no fumadores podrían tener características demográficas o de salud diferentes que expliquen su mayor proporción de colesterol elevado.
La diferencia, aunque estadísticamente significativa, no es muy grande, por lo que su relevancia clínica real debe interpretarse con cautela.
La prueba estadística indica diferencia en proporciones, pero no implica causalidad.
El tamaño muestral grande (≈3900 personas) incrementa la sensibilidad de la prueba, haciendo significativas diferencias pequeñas.

Interpretación de los gráficos

Histograma de frecuencia cardiaca

El histograma muestra la distribución de la frecuencia cardíaca diferenciada por fumadores y no fumadores. Se observa que ambas distribuciones tienen formas muy similares, concentrándose en rangos parecidos de valores. Aunque los fumadores muestran una ligera mayor frecuencia de valores en la parte alta de la distribución, la superposición entre ambos grupos es amplia. Esto indica que, en general, las diferencias en la frecuencia cardíaca entre fumadores y no fumadores son pequeñas y que ambos grupos siguen patrones de distribución muy parecidos.

Boxplot de frecuencia cardíaca por hábito de fumar

El boxplot muestra la distribución de la frecuencia cardíaca en los grupos de fumadores y no fumadores. Visualmente se observa que ambos grupos presentan rangos y medianas muy similares, con solo una ligera tendencia a que los fumadores tengan una frecuencia cardíaca ligeramente mayor. Sin embargo, la superposición amplia de las cajas y los bigotes indica que las diferencias entre los grupos son pequeñas y que sus distribuciones son en gran medida comparables. Esto coincide con los resultados estadísticos que mostraron que la diferencia entre ambas medias no es significativa en términos clínicos.

Grafico de barras - Frecuencia de colesterol alto según hábito de fumar

El gráfico muestra la cantidad de personas con colesterol alto y colesterol normal en los grupos de fumadores y no fumadores. Se observa que en ambos grupos hay un número considerable de individuos con colesterol elevado, pero la barra roja correspondiente a los fumadores es ligeramente más alta que la de los no fumadores. Esto sugiere que la proporción de colesterol alto es mayor entre los fumadores, lo cual coincide con los resultados de la prueba de hipótesis, que indicaron una diferencia estadísticamente significativa entre ambos grupos.

Grafico de proporción - Colesterol alto por hábito de fumar

l gráfico muestra la proporción de personas con colesterol alto en los grupos de fumadores y no fumadores. Se observa que la proporción es mayor en el grupo de fumadores, lo que indica que un porcentaje más alto de ellos supera los 240 mg/dL de colesterol. Aunque la diferencia no es enorme, sí es consistente con el resultado estadístico que mostró que la proporción de colesterol alto es significativamente mayor en quienes fuman. Esto sugiere una posible relación entre el hábito de fumar y un mayor riesgo de presentar niveles elevados de colesterol.

6.Conclusiones

No se encontraron diferencias estadísticamente significativas en la frecuencia cardíaca entre fumadores y no fumadores, lo que indica que, bajo el modelo y los datos analizados, el hábito de fumar no se asocia con un aumento clínicamente importante de la frecuencia cardíaca en la muestra evaluada.
La prueba de diferencias de proporciones reveló que los fumadores presentan una proporción significativamente mayor de colesterol alto (>240 mg/dL) en comparación con los no fumadores, lo que sugiere una posible relación entre el hábito de fumar y un mayor riesgo metabólico.
Los gráficos de distribución (histograma y boxplot) muestran que las frecuencias cardíacas de ambos grupos se superponen ampliamente, reforzando la conclusión de que las diferencias entre fumadores y no fumadores en esta variable son pequeñas y clínicamente poco relevantes.
Los gráficos de barras y proporciones confirman visualmente el hallazgo estadístico, mostrando que la proporción de sujetos con colesterol elevado es mayor en fumadores, lo que coincide con los resultados de la prueba chi-cuadrado.
Desde una perspectiva clínica, los resultados indican que mientras la frecuencia cardíaca no parece verse marcadamente afectada por el hábito de fumar, los niveles de colesterol sí muestran diferencias importantes, lo cual podría implicar un mayor riesgo cardiovascular a largo plazo para los fumadores.
os análisis realizados refuerzan la importancia de combinar pruebas estadísticas con visualización de datos para obtener conclusiones más sólidas, ya que ambas aproximaciones proporcionan información complementaria que facilita la interpretación y comunicación de los hallazgos.

7.Referencias bibliográficas

[1] J. S. Santana y E. M. Farfán, «El arte de programar en R: un lenguaje para la estadística».
[2] J. Gomez, «Tutorial de RStudio para principiantes: Guía completa». Accedido: 14 de noviembre de 2025. [En línea]. Disponible en: https://www.datacamp.com/tutorial/r-studio-tutorial
[3] C. Sierra y G. Montes, «Tutorial inicio en RStudio · Laboratorio de Sistemas Complejos Naturales». Accedido: 14 de noviembre de 2025. [En línea].
[4] E. Ramirez, «R Para Ciencia de Datos - 3 Visualización de datos». Accedido: 14 de noviembre de 2025. [En línea]. Disponible en: https://es.r4ds.hadley.nz/03-visualize.html
[5] García, J., Molina López, J. M., García Herrero, J., Berlanga de Jesús, A., Patricio Guisado, M. Á., Bustamante, Á. L., & Padilla, W. R. (2018). Ciencia de datos: Técnicas analíticas y aprendizaje estadístico, un enfoque práctico. Alfaomega Colombiana; Altaria Publicaciones. Recuperado de: Catálogo SIBBILA, sibbila.138355.