url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
"BMI", "DiabetesPedigreeFunction", "Age", "Outcome")
diabetes <- read.csv(url, header = FALSE, col.names = colnames)
head(diabetes)
## Pregnancies Glucose BloodPressure SkinThickness Insulin BMI
## 1 6 148 72 35 0 33.6
## 2 1 85 66 29 0 26.6
## 3 8 183 64 0 0 23.3
## 4 1 89 66 23 94 28.1
## 5 0 137 40 35 168 43.1
## 6 5 116 74 0 0 25.6
## DiabetesPedigreeFunction Age Outcome
## 1 0.627 50 1
## 2 0.351 31 0
## 3 0.672 32 1
## 4 0.167 21 0
## 5 2.288 33 1
## 6 0.201 30 0
summary(diabetes[, c("Glucose", "Outcome")])
## Glucose Outcome
## Min. : 0.0 Min. :0.000
## 1st Qu.: 99.0 1st Qu.:0.000
## Median :117.0 Median :0.000
## Mean :120.9 Mean :0.349
## 3rd Qu.:140.2 3rd Qu.:1.000
## Max. :199.0 Max. :1.000
table(diabetes$Outcome)
##
## 0 1
## 500 268
H_0: No existe diferencia entre los niveles de
glucosa de los grupos.
H_A: Sí existe diferencia entre los niveles de glucosa
de los grupos.
shapiro.test(diabetes$Glucose[diabetes$Outcome == 0])
##
## Shapiro-Wilk normality test
##
## data: diabetes$Glucose[diabetes$Outcome == 0]
## W = 0.96795, p-value = 5.447e-09
shapiro.test(diabetes$Glucose[diabetes$Outcome == 1])
##
## Shapiro-Wilk normality test
##
## data: diabetes$Glucose[diabetes$Outcome == 1]
## W = 0.95882, p-value = 6.587e-07
Podemos obervar que ambos p-value son < 0.05.
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
ggplot(diabetes, aes(x = factor(Outcome), y = Glucose)) +
geom_boxplot(fill = c("#87CEFA", "#FF9999")) +
labs(title = "Distribución de Glucosa por Diagnóstico de Diabetes",
x = "Outcome (0 = No, 1 = Sí)",
y = "Nivel de Glucosa") +
theme_minimal()
En el gráfico podemos observar que los niveles de glucosa son significativamente más altos en personas con diabetes.
cor.test(diabetes$Glucose, diabetes$Outcome, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: diabetes$Glucose and diabetes$Outcome
## t = 14.6, df = 766, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4093489 0.5201564
## sample estimates:
## cor
## 0.4665814
Podemos observar que tenemos un p-value < 0.05, entonces, rechazamos la H_0 y aceptamos H_A, por lo tanto, sí existe diferencia entre los niveles de glucosa de los grupos, esto quiere decir que existe una correlación entre los niveles de glucosa y el tener diabetes. Podemos observar que el cor es < 0.8, entonces, se puede decir que hay una correlación positiva moderada entre las variables, eso quiere decir que los niveles más altos de glucosa tienen más probabilidad de padecer diabetes.
wilcox.test(Glucose ~ Outcome, data = diabetes)
##
## Wilcoxon rank sum test with continuity correction
##
## data: Glucose by Outcome
## W = 28391, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
Aplicamos la prueba wilcoxon ya que no hay normalidad, y podemos ver que hay una diferencia estadísticamente significativa en los niveles de glucosa entre ambos grupos.
Podemos observar que ambos grupos presentan una diferencia significativa en los niveles de azucar, con esto podemos decir que el grupo que tiene diabetes tiene los niveles de glucosa mas altos a comparación del que no tiene diabetes.