El análisis que se presenta a continuación tiene como finalidad aplicar distintas pruebas de hipótesis utilizando el lenguaje de programación R en el entorno RStudio, tomando como base el conjunto de datos Smokers Health Data. Esta base contiene información clínica y fisiológica de personas fumadoras y no fumadoras, lo que permite comparar medias y proporciones asociadas a variables de salud como la frecuencia cardíaca y el nivel de colesterol. A través de estas pruebas se busca determinar, con fundamento estadístico, si existen diferencias significativas entre los grupos, apoyando así la toma de decisiones en contextos médicos y de salud pública.
#Prueba de hipotesis
##La prueba de hipotesis para la media muestral
Se va a trabajar la base diabetes_risk_dataset
library(readr)
library(ggplot2)
library(BSDA)
#Carga de base de datos
diabetes <- read_csv("diabetes_risk_dataset.csv")
diabetes=as.data.frame(unclass(diabetes),
stringsAsFactors = TRUE)
#Transformacion de varible caracter a tipo factor
head(diabetes,10)
## age bmi glucose_level physical_activity_level family_history smoker
## 1 58 33.15482 71.04987 low 0 0
## 2 71 26.78688 125.96489 low 0 0
## 3 48 20.97732 61.87620 moderate 1 1
## 4 34 27.95992 137.64807 low 0 0
## 5 62 28.30418 65.87956 moderate 0 0
## 6 27 38.64744 155.87773 low 0 0
## 7 40 27.66895 94.43835 moderate 1 1
## 8 58 23.44352 96.01062 low 0 0
## 9 77 28.02448 87.33422 low 1 0
## 10 38 25.08341 60.00000 low 1 0
## at_risk_diabetes
## 1 1
## 2 0
## 3 0
## 4 0
## 5 0
## 6 1
## 7 0
## 8 0
## 9 0
## 10 0
\[ \begin{align*} H_0 &: \mu = 75 \quad \text{(La media poblacional de la frecuencia cardíaca es igual a 75)} \\ H_1 &: \mu \neq 75 \quad \text{(La media poblacional de la frecuencia cardíaca es diferente de 75)} \end{align*} \]