Cargar datos

url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
              "BMI", "DiabetesPedigreeFunction", "Age", "Outcome")
diabetes <- read.csv(url, header = FALSE, col.names = colnames)

head(diabetes)
##   Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
## 1           6     148            72            35       0 33.6
## 2           1      85            66            29       0 26.6
## 3           8     183            64             0       0 23.3
## 4           1      89            66            23      94 28.1
## 5           0     137            40            35     168 43.1
## 6           5     116            74             0       0 25.6
##   DiabetesPedigreeFunction Age Outcome
## 1                    0.627  50       1
## 2                    0.351  31       0
## 3                    0.672  32       1
## 4                    0.167  21       0
## 5                    2.288  33       1
## 6                    0.201  30       0

Descripción de los datos

summary(diabetes[, c("Glucose", "Outcome")])
##     Glucose         Outcome     
##  Min.   :  0.0   Min.   :0.000  
##  1st Qu.: 99.0   1st Qu.:0.000  
##  Median :117.0   Median :0.000  
##  Mean   :120.9   Mean   :0.349  
##  3rd Qu.:140.2   3rd Qu.:1.000  
##  Max.   :199.0   Max.   :1.000
table(diabetes$Outcome)
## 
##   0   1 
## 500 268

Planteamiento de hipótesis

H_0: No existe diferencia entre los niveles de glucosa de los grupos.
H_A: Sí existe diferencia entre los niveles de glucosa de los grupos.

Prueba de normalidad

shapiro.test(diabetes$Glucose[diabetes$Outcome == 0])
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Glucose[diabetes$Outcome == 0]
## W = 0.96795, p-value = 5.447e-09
shapiro.test(diabetes$Glucose[diabetes$Outcome == 1])
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Glucose[diabetes$Outcome == 1]
## W = 0.95882, p-value = 6.587e-07

Podemos obervar que ambos p-value son < 0.05.

Visualización de la glucosa por grupo

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
ggplot(diabetes, aes(x = factor(Outcome), y = Glucose)) +
  geom_boxplot(fill = c("#87CEFA", "#FF9999")) +
  labs(title = "Distribución de Glucosa por Diagnóstico de Diabetes",
       x = "Outcome (0 = No, 1 = Sí)",
       y = "Nivel de Glucosa") +
  theme_minimal()

En el gráfico podemos observar que los niveles de glucosa son significativamente más altos en personas con diabetes.

Correlación

cor.test(diabetes$Glucose, diabetes$Outcome, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  diabetes$Glucose and diabetes$Outcome
## t = 14.6, df = 766, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4093489 0.5201564
## sample estimates:
##       cor 
## 0.4665814

Podemos observar que tenemos un p-value < 0.05, entonces, rechazamos la H_0 y aceptamos H_A, por lo tanto, sí existe diferencia entre los niveles de glucosa de los grupos, esto quiere decir que existe una correlación entre los niveles de glucosa y el tener diabetes. Podemos observar que el cor es < 0.8, entonces, se puede decir que hay una correlación positiva moderada entre las variables, eso quiere decir que los niveles más altos de glucosa tienen más probabilidad de padecer diabetes.

Prueba estadística (Wilcoxon)

wilcox.test(Glucose ~ Outcome, data = diabetes)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Glucose by Outcome
## W = 28391, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0

Aplicamos la prueba wilcoxon ya que no hay normalidad, y podemos ver que hay una diferencia estadísticamente significativa en los niveles de glucosa entre ambos grupos.

Conclusión

Podemos observar que ambos grupos presentan una diferencia significativa en los niveles de azucar, con esto podemos decir que el grupo que tiene diabetes tiene los niveles de glucosa mas altos a comparación del que no tiene diabetes.