Institucion: Universidad de La Salle
Formacion: Maestría en Inteligencia Artificial
Curso: Ciencia de datos
Presentado por:
- Norberto Guerrero Moya [Grupo 01]
- William Ruiz Martinez [Grupo 02]
Fecha: 15 de Octubre de 2025
Docente: Manuel Francisco Romero
El conjunto de datos titulado Smokers Health Data representa una fuente integral para el análisis de los efectos del tabaquismo en la salud de adultos. Su diseño permite abordar estudios exploratorios, descriptivos e inferenciales que buscan comprender cómo el hábito de fumar influye en variables fisiológicas, clínicas y diagnósticas. Esta base de datos fue recolectada con el propósito de facilitar investigaciones que integren perspectivas médicas, preventivas y analíticas.
La estructura del dataset incluye variables cuantitativas como: edad, frecuencia cardíaca, colesterol y cigarrillos por dia . También incorpora variables cualitativas como sexo, estado de fumador, categorización textual de la presión arterial y presencia de enfermedades respiratorias o cardiovasculares. Esta diversidad permite realizar comparaciones entre fumadores y no fumadores, identificar patrones clínicos y evaluar riesgos asociados al tabaquismo.
Gracias a su amplitud y riqueza de datos, Smokers Health Data ofrece oportunidades para desarrollar modelos predictivos, analizar correlaciones entre hábitos y signos vitales, y generar evidencia útil para la toma de decisiones en salud pública. Su enfoque multidimensional lo convierte en un recurso valioso para investigadores, profesionales clínicos y analistas de datos interesados en el impacto del tabaco sobre la salud humana.
Objetivo de la actividad
El presente análisis tiene como objetivo aplicar diversas pruebas de hipótesis mediante el lenguaje de programación R, utilizando el entorno RStudio y tomando como referencia el conjunto de datos Smokers Health Data. Esta base contiene información fisiológica y clínica de individuos fumadores y no fumadores, lo que permite realizar comparaciones entre ambos grupos en relación con variables de salud relevantes.
Entre las variables analizadas se encuentran la frecuencia cardíaca y el nivel de colesterol, lo que posibilita contrastar medias y proporciones con rigor estadístico. A través de estas pruebas se pretende identificar diferencias significativas entre los grupos, generando evidencia que contribuya a la toma de decisiones en ámbitos médicos, clínicos y de salud pública.
library(readr)
library(ggplot2)
library(BSDA)
library(tidyverse)
library(dplyr)
smoking <- read_csv("smoking health data final.csv")
smoking=as.data.frame(unclass(smoking),
stringsAsFactors = TRUE)
str(smoking) #Estructura de la base de datos
## 'data.frame': 3900 obs. of 7 variables:
## $ age : num 54 45 58 42 42 57 43 42 37 49 ...
## $ sex : Factor w/ 2 levels "female","male": 2 2 2 2 2 2 2 2 2 2 ...
## $ current_smoker: Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 2 2 2 ...
## $ heart_rate : num 95 64 81 90 62 62 75 66 65 93 ...
## $ blood_pressure: Factor w/ 2317 levels "100.5/62","100.5/66",..: 230 642 869 671 572 143 198 723 709 874 ...
## $ cigs_per_day : num NA NA NA NA NA NA NA NA NA NA ...
## $ chol : num 219 248 235 225 226 223 222 196 188 256 ...
summary(smoking)
## age sex current_smoker heart_rate blood_pressure
## Min. :32.00 female:2081 no :1968 Min. : 44.00 130/80 : 18
## 1st Qu.:42.00 male :1819 yes:1932 1st Qu.: 68.00 120/80 : 17
## Median :49.00 Median : 75.00 110/70 : 15
## Mean :49.54 Mean : 75.69 125/80 : 15
## 3rd Qu.:56.00 3rd Qu.: 82.00 105/70 : 9
## Max. :70.00 Max. :143.00 107/73 : 9
## (Other):3817
## cigs_per_day chol
## Min. : 0.000 Min. :113.0
## 1st Qu.: 0.000 1st Qu.:206.0
## Median : 0.000 Median :234.0
## Mean : 9.169 Mean :236.6
## 3rd Qu.:20.000 3rd Qu.:263.0
## Max. :70.000 Max. :696.0
## NA's :14 NA's :7
sapply(smoking, function(x) sum(is.na(x)))
## age sex current_smoker heart_rate blood_pressure
## 0 0 0 0 0
## cigs_per_day chol
## 14 7
smoking %>%
select(age, heart_rate, cigs_per_day, chol) %>%
summary()
## age heart_rate cigs_per_day chol
## Min. :32.00 Min. : 44.00 Min. : 0.000 Min. :113.0
## 1st Qu.:42.00 1st Qu.: 68.00 1st Qu.: 0.000 1st Qu.:206.0
## Median :49.00 Median : 75.00 Median : 0.000 Median :234.0
## Mean :49.54 Mean : 75.69 Mean : 9.169 Mean :236.6
## 3rd Qu.:56.00 3rd Qu.: 82.00 3rd Qu.:20.000 3rd Qu.:263.0
## Max. :70.00 Max. :143.00 Max. :70.000 Max. :696.0
## NA's :14 NA's :7
num_vars <- c("age", "heart_rate", "cigs_per_day", "chol")
for (var in num_vars) {
p <- ggplot(smoking, aes(x = !!sym(var))) +
geom_histogram(binwidth = 5, fill = "skyblue", color = "black", na.rm = TRUE) +
theme_minimal() +
labs(title = paste("Distribución de", var),
x = var, y = "Frecuencia")
suppressWarnings(print(p))
}
Se desea comprobar si la frecuencia cardíaca promedio de los individuos en la muestra es igual a 75 latidos por minuto, valor que podría considerarse una referencia general para adultos sanos en reposo.
Hipótesis nula (H₀):
Hipótesis alternativa (H₁):
\[ \begin{align*} H_0 &: \mu = 75 \quad \text{(La media poblacional de la frecuencia cardíaca es igual a 75)} \\ H_1 &: \mu \neq 75 \quad \text{(La media poblacional de la frecuencia cardíaca es diferente de 75)} \end{align*} \]¿Explique el resultado de la prueba hipótesis?, ¿qué podemos decir del p-valor?
# Prueba de hipótesis: ¿la media es igual a 75?
prueba_t <- t.test(smoking$heart_rate, mu = 75)
# Mostrar resultado
prueba_t
##
## One Sample t-test
##
## data: smoking$heart_rate
## t = 3.5809, df = 3899, p-value = 0.0003465
## alternative hypothesis: true mean is not equal to 75
## 95 percent confidence interval:
## 75.31176 76.06619
## sample estimates:
## mean of x
## 75.68897
hist(smoking$heart_rate,
main = "Distribución de la frecuencia cardíaca",
xlab = "Frecuencia cardíaca (latidos por minuto)",
ylab = "Frecuencia",
col = "skyblue",
border = "white")
La prueba t realizada sobre la variable heart_rate arroja los siguientes resultados:
Dado que el p-valor es significativamente menor que 0.05, se rechaza la hipótesis nula (H₀). Esto indica que existe evidencia estadísticamente significativa para afirmar que la frecuencia cardíaca promedio de los individuos en la muestra es diferente de 75 bpm.
Aunque la diferencia es pequeña en magnitud (0.69 bpm), su significancia estadística se debe al tamaño muestral elevado, lo que reduce el error estándar y aumenta la sensibilidad de la prueba.
El gráfico complementa la prueba t realizada, mostrando visualmente que la mayoría de los valores se agrupan cerca del valor de referencia (75 bpm), aunque con suficiente dispersión para que la diferencia sea estadísticamente significativa.
Se quiere evaluar si los niveles medios de colesterol en la muestra superan el valor umbral de 200 mg/dL, punto a partir del cual se considera que existe hipercolesterolemia.
Hipótesis nula (H₀):
Hipótesis alternativa (H₁):
\[ \begin{align*} H_0 &: \mu = 200 \quad \text{(El nivel medio de colesterol en la población es menor o igual a 200)} \\ H_1 &: \mu \neq 200 \quad \text{(El nivel medio de colesterol en la población es mayor a 200)} \end{align*} \]¿Explique el resultado de la prueba hipótesis?, ¿qué podemos decir del p-valor?
prueba_col <- t.test(smoking$chol, mu = 200, alternative = "greater")
# Mostrar resultado
prueba_col
##
## One Sample t-test
##
## data: smoking$chol
## t = 51.456, df = 3892, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 200
## 95 percent confidence interval:
## 235.4258 Inf
## sample estimates:
## mean of x
## 236.5959
hist(smoking$chol,
main = "Distribución de niveles de colesterol",
xlab = "Colesterol (mg/dL)",
ylab = "Frecuencia",
col = "lightgreen",
border = "white")
# Agregar línea vertical en 200 mg/dL
abline(v = 200, col = "red", lwd = 2, lty = 2)
# Agregar texto explicativo
text(x = 200, y = max(hist(smoking$chol, plot = FALSE)$counts),
labels = "Umbral: 200 mg/dL",
pos = 4, col = "red")
Se realizó una prueba t de una muestra para evaluar si el nivel medio de colesterol en la población supera el umbral clínico de 200 mg/dL, considerado como límite para hipercolesterolemia, que arrojo los siguientes resultados:
p-valor: p<2.2^{-16}, extremadamente pequeño, lo que indica una diferencia altamente significativa.
Dado que el p-valor es mucho menor que 0.05, se rechaza la hipótesis nula (H₀). Esto proporciona evidencia estadística contundente de que el nivel medio de colesterol en la población supera los 200 mg/dL, lo que sugiere una prevalencia significativa de riesgo cardiovascular.
El histograma muestra una distribución asimétrica positiva de los niveles de colesterol, con una alta concentración de valores por encima del umbral clínico de 200 mg/dL. La línea roja vertical marca este punto de corte, y la mayoría de los individuos se ubican a su derecha, lo que respalda visualmente la conclusión estadística de que la media poblacional supera dicho umbral. Esto sugiere una prevalencia significativa de hipercolesterolemia en la muestra.
Se considera que una persona tiene colesterol alto si su nivel es mayor a 240 mg/dL (según criterios médicos comunes).
Nueva variable binaria:
\[ Z = \begin{cases} 1 & \text{si } \text{chol} > 240 \\ 0 & \text{si } \text{chol} \leq 240 \end{cases} \]Hipótesis nula (H₀):
Hipótesis alternativa (H₁):
\[ \begin{align*} H_0\colon\ & p = 0.20 \quad \text{(La proporción de personas con colesterol alto es igual al 20%)} \\ H_1\colon\ & p > 0.20 \quad \text{(La proporción de personas con colesterol alto es mayor al 20%)} \end{align*} \]¿Explique el resultado de la prueba de hipótesis?, ¿qué podemos decir del p-valor?
# Creamos una variable binaria para establecer si el colesterol es alto o no
smoking$col_alto <- ifelse(smoking$chol > 240, 1, 0)
# Realizamos la prueba de proporciones
prop.test(x = sum(smoking$col_alto, na.rm = TRUE),
n = sum(!is.na(smoking$col_alto)),
p = 0.20,
alternative = "greater",
correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: sum(smoking$col_alto, na.rm = TRUE) out of sum(!is.na(smoking$col_alto)), null probability 0.2
## X-squared = 1272.8, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
## 0.4157256 1.0000000
## sample estimates:
## p
## 0.4287182
# Crear proporciones
prop_observada <- sum(smoking$chol > 240, na.rm = TRUE) / sum(!is.na(smoking$chol))
prop_esperada <- 0.20
# Crear vector de proporciones
proporciones <- c(prop_esperada, prop_observada)
nombres <- c("Esperada (H₀)", "Observada")
# Generar gráfico de barras
barplot(proporciones,
names.arg = nombres,
col = c("gray", "darkgreen"),
ylim = c(0, 0.5),
main = "Comparación de proporciones de colesterol alto",
ylab = "Proporcion",
xlab = "Condicion")
# Agregar línea de referencia en 0.20
abline(h = 0.20, col = "red", lty = 2, lwd = 2)
# Agregar texto explicativo
text(x = 1.5, y = 0.21, labels = "Umbral clínico: 20%", col = "red", pos = 3)
Se evaluó si la proporción de personas con colesterol alto (definido como >240) supera el umbral clínico del 20%. La prueba de hipótesis fue:
Dado que el p-valor es mucho menor que 0.05, se rechaza la hipótesis nula (H₀). Esto proporciona evidencia estadística contundente de que la proporción de personas con colesterol alto en la muestra es significativamente mayor al 20%.
El gráfico de barras compara la proporción esperada de personas con colesterol alto bajo la hipótesis nula (20%) con la proporción observada en la muestra. La barra verde muestra que el 42.87% de los individuos supera el umbral clínico de 240 mg/dL, mientras que la línea roja marca el valor de referencia del 20%. La diferencia visual refuerza el resultado estadístico: la proporción observada es significativamente mayor a la esperada, lo que respalda el rechazo de (H₀) en la prueba de hipótesis.
Se considera que una persona tiene taquicardia si su frecuencia cardíaca es mayor a 100 lpm (según criterios clínicos).
Nueva variable binaria:
\[ W = \begin{cases} 1 & \text{si } \text{heart_rate} > 100 \\ 0 & \text{si } \text{heart_rate} \leq 100 \end{cases} \]Hipótesis nula (H₀):
Hipótesis alternativa (H₁):
\[ \begin{align*} H_0\colon\ & p = 0.20 \quad \text{(La proporción de personas con taquicardia es igual al 5%)} \\ H_1\colon\ & p > 0.20 \quad \text{(La proporción de personas con taquicardia es diferente del 5%)} \end{align*} \]¿Explique el resultado de la prueba de hipótesis?, ¿qué podemos decir del p-valor?
En el estudio sobre la salud cardiovascular de adultos, se recopilaron datos fisiológicos de un grupo de individuos clasificados como fumadores y no fumadores. Entre las variables medidas se encuentra el nivel de colesterol en sangre (mg/dL), un indicador importante de riesgo cardiovascular. Con el objetivo de evaluar si existe una diferencia significativa en los niveles promedio de colesterol entre fumadores y no fumadores, se solicita realizar una prueba de hipótesis para comparar las medias de colesterol entre ambos grupos. Asuma independencia entre las muestras y considere una significancia del 5%.
#wilcox.test(chol ~ current_smoker, data = smoking, exact = FALSE)
# Crear variable binaria de taquicardia
#smoking=smoking_health_data_final
smoking$taquicardia <- ifelse(smoking$heart_rate > 100, 1, 0)
# Contar casos
n_taquicardia <- sum(smoking$taquicardia, na.rm = TRUE)
n_total <- sum(!is.na(smoking$taquicardia))
# Prueba de proporciones (unilateral)
prop.test(x = n_taquicardia, n = n_total, p = 0.20, alternative = "greater", correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_taquicardia out of n_total, null probability 0.2
## X-squared = 756.36, df = 1, p-value = 1
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
## 0.02014561 1.00000000
## sample estimates:
## p
## 0.02384615
# Filtrar datos válidos
smoking_filtrado <- subset(smoking, !is.na(chol) & current_smoker %in% c("yes", "no"))
# Prueba t para muestras independientes
t.test(chol ~ current_smoker, data = smoking_filtrado, var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: chol by current_smoker
## t = 2.9119, df = 3884.8, p-value = 0.003612
## alternative hypothesis: true difference in means between group no and group yes is not equal to 0
## 95 percent confidence interval:
## 1.352281 6.925837
## sample estimates:
## mean in group no mean in group yes
## 238.6458 234.5067
hist(smoking$heart_rate,
breaks = 30,
col = "skyblue",
main = "Distribución de frecuencia cardíaca",
xlab = "Frecuencia cardíaca (lpm)",
ylab = "Frecuencia")
# Línea de referencia en 100 lpm (umbral clínico de taquicardia)
abline(v = 100, col = "red", lwd = 2, lty = 2)
text(x = 100, y = max(hist(smoking$heart_rate, plot = FALSE)$counts),
labels = "Umbral taquicardia (100 lpm)",
col = "red", pos = 4)
# Filtrar datos válidos
chol_fumadores <- smoking$chol[smoking$current_smoker == "Yes" & !is.na(smoking$chol)]
chol_no_fumadores <- smoking$chol[smoking$current_smoker == "No" & !is.na(smoking$chol)]
# Histograma bifurcado
unique(smoking$current_smoker)
## [1] yes no
## Levels: no yes
chol_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "yes" & !is.na(smoking$chol)]
chol_no_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "no" & !is.na(smoking$chol)]
length(chol_fumadores)
## [1] 1928
length(chol_no_fumadores)
## [1] 1965
hist(chol_fumadores,
breaks = 30,
col = rgb(1, 0, 0, 0.5),
xlim = range(c(chol_fumadores, chol_no_fumadores)),
main = "Distribución de colesterol por condición de fumador",
xlab = "Colesterol (mg/dL)",
ylab = "Frecuencia")
hist(chol_no_fumadores,
breaks = 30,
col = rgb(0, 0, 1, 0.5),
add = TRUE)
legend("topright",
legend = c("Fumadores", "No fumadores"),
fill = c(rgb(1, 0, 0, 0.5), rgb(0, 0, 1, 0.5)))
Se evaluó si la proporción de personas con taquicardia (frecuencia
cardíaca > 100 lpm) era mayor al 20 %, bajo la hipótesis:
\[
\begin{align*}
H_0\colon\ & p = 0.20 \\
H_1\colon\ & p > 0.20
\end{align*}
\]
Los resultados obtenidos fueron:
A pesar del valor elevado del estadístico, el p-valor de 1 indica que no hay evidencia estadística para rechazar la hipótesis nula. Esto se debe a que la proporción observada es mucho menor que la esperada, y la prueba fue formulada como unilateral hacia la derecha (mayor a 20%), lo cual no se cumple.
No se rechaza la hipótesis nula. La proporción de personas con taquicardia no es mayor al 20%, y de hecho, es considerablemente menor (2.38%). El resultado es estadísticamente no significativo bajo el planteamiento unilateral.
Se compararon los niveles promedio de colesterol entre fumadores y no fumadores, bajo la hipótesis:
\[ \begin{align*} H_0\colon\ & \mu_{\text{fumadores}} = \mu_{\text{no fumadores}} \\ H_1\colon\ & \mu_{\text{fumadores}} \neq \mu_{\text{no fumadores}} \end{align*} \]Los resultados obtenidos fueron:
El p-valor es menor al nivel de significancia del 5%, por lo que se rechaza la hipótesis nula. Existe una diferencia estadísticamente significativa entre los grupos, con una diferencia promedio de 4.14 mg/dL.
Se rechaza la hipótesis nula. Hay evidencia estadística de que los niveles promedio de colesterol difieren significativamente entre fumadores y no fumadores. En esta muestra, los no fumadores presentan niveles ligeramente más altos de colesterol.
Este histograma muestra la distribución de la frecuencia cardíaca en la muestra estudiada. La mayoría de los individuos presentan valores por debajo del umbral clínico de taquicardia (100 lpm), indicado por la línea roja. La baja densidad de barras a la derecha de esa línea sugiere que la prevalencia de taquicardia es muy baja en esta población, lo cual concuerda con el resultado estadístico previo (proporción observada ≈ 2.38%). Esta visualización respalda la conclusión de que la taquicardia no es un fenómeno frecuente en el grupo analizado.
Este histograma bifurcado muestra la distribución de los niveles de colesterol en sangre según la condición de fumador. Las barras rojas representan a los fumadores y las azules a los no fumadores. Se observa que ambas distribuciones son similares en forma, pero los no fumadores tienden a presentar valores ligeramente más altos en promedio. Esta visualización respalda el resultado estadístico previo, donde se detectó una diferencia significativa entre las medias, aunque clínicamente moderada. El gráfico sugiere que el tabaquismo no es el único factor que influye en el colesterol, y que podrían intervenir otras variables como edad, dieta o medicación.
Se desea evaluar si existen diferencias significativas en los niveles promedio de colesterol entre personas fumadoras y no fumadoras. Realice el o los gráficos permitidos y comprobar:
Hipótesis nula (H₀):No hay diferencia en los niveles medios de colesterol entre fumadores y no fumadores
Hipótesis alternativa (H₁):Existe una diferencia significativa entre los niveles medios de colesterol.
¿Explique el resultado de la prueba hipótesis?, ¿qué podemos decir del p-valor?
# Filtrar datos válidos
smoking_filtrado <- subset(smoking, !is.na(chol) & current_smoker %in% c("yes", "no"))
# Prueba t para muestras independientes
t.test(chol ~ current_smoker, data = smoking_filtrado, var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: chol by current_smoker
## t = 2.9119, df = 3884.8, p-value = 0.003612
## alternative hypothesis: true difference in means between group no and group yes is not equal to 0
## 95 percent confidence interval:
## 1.352281 6.925837
## sample estimates:
## mean in group no mean in group yes
## 238.6458 234.5067
chol_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "yes" & !is.na(smoking$chol)]
chol_no_fumadores <- smoking$chol[tolower(smoking$current_smoker) == "no" & !is.na(smoking$chol)]
hist(chol_fumadores,
breaks = 30,
col = rgb(1, 0, 0, 0.5),
xlim = range(c(chol_fumadores, chol_no_fumadores)),
main = "Distribución de colesterol por condición de fumador",
xlab = "Colesterol (mg/dL)",
ylab = "Frecuencia")
hist(chol_no_fumadores,
breaks = 30,
col = rgb(0, 0, 1, 0.5),
add = TRUE)
legend("topright",
legend = c("Fumadores", "No fumadores"),
fill = c(rgb(1, 0, 0, 0.5), rgb(0, 0, 1, 0.5)))
Se compararon los niveles promedio de colesterol entre fumadores y no fumadores, bajo la hipótesis:
\[ \begin{align*} H_0\colon\ & \text{No hay diferencia en los niveles medios de colesterol entre fumadores y no fumadores} \\ H_1\colon\ & \text{Existe una diferencia significativa entre los niveles medios de colesterol} \end{align*} \]Los resultados obtenidos fueron:
El p-valor es menor al nivel de significancia del 5%, por lo que se rechaza la hipótesis nula. Existe una diferencia estadísticamente significativa entre los grupos, con una diferencia promedio de 4.14 mg/dL.
Se rechaza la hipótesis nula. Hay evidencia estadística de que los niveles promedio de colesterol difieren significativamente entre fumadores y no fumadores. En esta muestra, los no fumadores presentan niveles ligeramente más altos de colesterol.
Este histograma bifurcado muestra la distribución de los niveles de colesterol en sangre según la condición de fumador. Las barras rojas representan a los fumadores y las azules a los no fumadores. Se observa que ambas distribuciones son similares en forma, pero los no fumadores tienden a presentar valores ligeramente más altos en promedio. Esta visualización respalda el resultado estadístico previo, donde se detectó una diferencia significativa entre las medias, aunque clínicamente moderada. El gráfico sugiere que el tabaquismo no es el único factor que influye en el colesterol, y que podrían intervenir otras variables como edad, dieta o medicación.
Se analiza si la frecuencia cardíaca promedio difiere entre quienes fuman y quienes no. Realice el o los gráficos adecuados y compruebe:
Hipótesis nula (H₀):No hay diferencia en la frecuencia cardíaca promedio entre fumadores y no fumadores.
Hipótesis alternativa (H₁):La frecuencia cardíaca promedio de los fumadores es mayor que la de los no fumadores
¿Explique el resultado de la prueba de hipótesis?, ¿qué podemos decir del p-valor?
En el estudio se analiza si existe una diferencia significativa en la proporción de personas con colesterol alto (definido como un nivel superior a 240 mg/dL) entre fumadores y no fumadores. Para ello, se utilizaron los datos recolectados en una base que incluye variables clínicas y hábitos personales. Con base en esta información, formule y realice una prueba de hipótesis que permita determinar si la proporción de individuos con colesterol elevado difiere entre quienes fuman y quienes no lo hacen. Utilice un nivel de significancia del 5%.
Se define colesterol alto como un valor de colesterol > 240 mg/dL. Se crea una variable binaria:
\[ Z = \begin{cases} 1 & \text{si } \text{chol} > 240\quad \text{(colesterol alto)} \\ 0 & \text{si } \text{chol} \leq 240\quad \text{(colesterol normal o saludable)} \end{cases} \] \[ \begin{align*} H_0\colon\ & \text{La proporción de personas con colesterol alto es la misma en fumadores y no fumadores} \\ H_1\colon\ & \text{a proporción de personas con colesterol alto es diferente entre fumadores y no fumadores} \end{align*} \]Prueba de Hipótesis frecuencia cardíaca
t.test(
heart_rate ~ current_smoker,
data = smoking,
alternative = "greater",
var.equal = FALSE
)
##
## Welch Two Sample t-test
##
## data: heart_rate by current_smoker
## t = -3.5809, df = 3896.4, p-value = 0.9998
## alternative hypothesis: true difference in means between group no and group yes is greater than 0
## 95 percent confidence interval:
## -2.007336 Inf
## sample estimates:
## mean in group no mean in group yes
## 75.00762 76.38302
library(ggplot2)
ggplot(smoking, aes(x = heart_rate, fill = current_smoker)) +
geom_histogram(alpha = 0.6, position = "identity", bins = 30) +
labs(
title = "Histograma de frecuencia cardíaca",
x = "Frecuencia cardíaca (lpm)",
y = "Frecuencia",
fill = "Fumador"
) +
theme_minimal()
ggplot(smoking, aes(x = current_smoker, y = heart_rate, fill = current_smoker)) +
geom_boxplot(alpha = 0.7) +
labs(
title = "Boxplot de frecuencia cardíaca por hábito de fumar",
x = "Hábito de fumar",
y = "Frecuencia cardíaca (lpm)"
) +
theme_minimal()
Prueba de Hipótesis personas con colesterol alto
# Creamos la variable binaria Z
smoking$Z <- ifelse(smoking$chol > 240, 1, 0)
# Generamos la tabla de contingencia
tabla <- table(smoking$current_smoker, smoking$Z)
tabla
##
## 0 1
## no 1086 879
## yes 1138 790
# Prepararamos los datos para la proporcion del test
exitos <- tabla[,2]
totales <- rowSums(tabla)
# 4. Presentamo la prueba de dos proporciones (bilateral)
resultado <- prop.test(exitos, totales,
alternative = "two.sided",
correct = FALSE)
resultado
##
## 2-sample test for equality of proportions without continuity correction
##
## data: exitos out of totales
## X-squared = 5.6106, df = 1, p-value = 0.01785
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.006509575 0.068644839
## sample estimates:
## prop 1 prop 2
## 0.4473282 0.4097510
Grafico de frecuencia de colesterol alto según hábito de fumar
ggplot(smoking, aes(x = current_smoker, fill = as.factor(Z))) +
geom_bar(position = "dodge") +
labs(
title = "Frecuencia de colesterol alto según hábito de fumar",
x = "Hábito de fumar",
y = "Número de personas",
fill = "Colesterol alto (1 = Sí)"
) +
scale_fill_manual(values = c("0" = "gray70", "1" = "red")) +
theme_minimal()
Grafico de proporción de colesterol alto por hábito de fumar
# Crear variable binaria
smoking$Z <- ifelse(smoking$chol > 240, 1, 0)
# Crear tabla resumen manualmente
prop_df <- aggregate(Z ~ current_smoker, data = smoking, FUN = mean)
# Convertir proporción a numérica por si acaso
prop_df$Z <- as.numeric(prop_df$Z)
# Graficar
library(ggplot2)
ggplot(prop_df, aes(x = current_smoker, y = Z, fill = current_smoker)) +
geom_col() +
geom_text(aes(label = round(Z, 3)),
vjust = -0.5, size = 5) +
labs(
title = "Proporción de colesterol alto por hábito de fumar",
x = "Hábito de fumar",
y = "Proporción de colesterol alto"
) +
ylim(0, 1) +
theme_minimal()
:El test t de Welch se utilizó para comparar la frecuencia cardíaca promedio entre fumadores y no fumadores. La hipótesis alternativa especificada fue unilateral en la dirección:
\[ H_1: \mu_{\text{no}} - \mu_{\text{yes}} > 0 \]Los resultados obtenidos determinaron que enlas medias observadas muestran lo contrario:
Con un nivel de significancia del 5%, este valor p implica que:
En suma, los resultados son estadísticamente inconsistentes con la hipótesis alternativa propuesta, porque la dirección real de los datos es opuesta a la que se buscaba probar.
Con base en los resultados del test t de Welch, no se rechaza la hipótesis nula. La evidencia no respalda que los no fumadores tengan una frecuencia cardíaca promedio superior a la de los fumadores.
Por el contrario, las medias muestrales sugieren que los fumadores presentan una frecuencia cardíaca ligeramente mayor; sin embargo, esta afirmación no puede confirmarse formalmente bajo la hipótesis alternativa usada, ya que fue formulada en la dirección opuesta.
La tabla de contingencia muestra el número de individuos con colesterol alto (1) y colesterol normal (0) según su condición de fumador:
| Fumador | Normal (0) | Alto (1) |
|---|---|---|
| No | 1066 | 879 |
| Sí | 1138 | 790 |
A partir de estos datos se calcularon las proporciones:
El estadístico de prueba fue:
Dado que el valor p es menor que 0.05, existe evidencia estadísticamente significativa de que las proporciones no son iguales.
El intervalo de confianza del 95% para la diferencia de proporciones:\[p_1 - p_2 \in [0.0065,\; 0.0686]\]
Este intervalo no incluye el 0, lo que confirma la significancia estadística. Además, el intervalo es completamente positivo, indicando que:\[p_1 > p_2\]
Con un nivel de significancia del 5%, la prueba demuestra que existe una diferencia significativa en la proporción de personas con colesterol alto entre fumadores y no fumadores.
Los resultados muestran que:
Por tanto, se rechaza la hipótesis nula y se concluye que las proporciones no son iguales.
Desde el punto de vista clínico, estos resultados pueden parecer contraintuitivos, ya que se esperaría que los fumadores presentaran una mayor proporción de colesterol elevado debido a su mayor riesgo cardiovascular.Sin embargo, hay varias consideraciones:
El histograma muestra la distribución de la frecuencia cardíaca diferenciada por fumadores y no fumadores. Se observa que ambas distribuciones tienen formas muy similares, concentrándose en rangos parecidos de valores. Aunque los fumadores muestran una ligera mayor frecuencia de valores en la parte alta de la distribución, la superposición entre ambos grupos es amplia. Esto indica que, en general, las diferencias en la frecuencia cardíaca entre fumadores y no fumadores son pequeñas y que ambos grupos siguen patrones de distribución muy parecidos.
El boxplot muestra la distribución de la frecuencia cardíaca en los grupos de fumadores y no fumadores. Visualmente se observa que ambos grupos presentan rangos y medianas muy similares, con solo una ligera tendencia a que los fumadores tengan una frecuencia cardíaca ligeramente mayor. Sin embargo, la superposición amplia de las cajas y los bigotes indica que las diferencias entre los grupos son pequeñas y que sus distribuciones son en gran medida comparables. Esto coincide con los resultados estadísticos que mostraron que la diferencia entre ambas medias no es significativa en términos clínicos.
El gráfico muestra la cantidad de personas con colesterol alto y colesterol normal en los grupos de fumadores y no fumadores. Se observa que en ambos grupos hay un número considerable de individuos con colesterol elevado, pero la barra roja correspondiente a los fumadores es ligeramente más alta que la de los no fumadores. Esto sugiere que la proporción de colesterol alto es mayor entre los fumadores, lo cual coincide con los resultados de la prueba de hipótesis, que indicaron una diferencia estadísticamente significativa entre ambos grupos.
l gráfico muestra la proporción de personas con colesterol alto en los grupos de fumadores y no fumadores. Se observa que la proporción es mayor en el grupo de fumadores, lo que indica que un porcentaje más alto de ellos supera los 240 mg/dL de colesterol. Aunque la diferencia no es enorme, sí es consistente con el resultado estadístico que mostró que la proporción de colesterol alto es significativamente mayor en quienes fuman. Esto sugiere una posible relación entre el hábito de fumar y un mayor riesgo de presentar niveles elevados de colesterol.