url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
"BMI", "DiabetesPedigreeFunction", "Age", "Outcome")
diabetes <- read.csv(url, header = FALSE, col.names = colnames)
head(diabetes)
## Pregnancies Glucose BloodPressure SkinThickness Insulin BMI
## 1 6 148 72 35 0 33.6
## 2 1 85 66 29 0 26.6
## 3 8 183 64 0 0 23.3
## 4 1 89 66 23 94 28.1
## 5 0 137 40 35 168 43.1
## 6 5 116 74 0 0 25.6
## DiabetesPedigreeFunction Age Outcome
## 1 0.627 50 1
## 2 0.351 31 0
## 3 0.672 32 1
## 4 0.167 21 0
## 5 2.288 33 1
## 6 0.201 30 0
Realizar:
La base de datos Pima Indians Diabetes contiene 8 variables predictoras relacionadas con medidas clínicas y personales (Pregnancies, Glucose, Blood Pressure, Skin Thickness, Insulin, BMI, Diabetes Pedigree Function, Age), y 1 variable de salida (Outcome) que indica si una persona tiene diabetes.
A continuación se realiza todo el analisis con las variables Insulina y outcome (indica si una persona tiene diabetes).
\(H_0\): Los datos de las variables insulina y outcome (indica si una persona tiene diabetes) son normales.
\(H_1\): Los datos de las variables insulina y outcome (indica si una persona tiene diabetes) no son normales.
shapiro.test(diabetes$Insulin)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Insulin
## W = 0.72202, p-value < 2.2e-16
shapiro.test(diabetes$Outcome)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Outcome
## W = 0.60251, p-value < 2.2e-16
Como p < 0.05 se rechaza la hipotesis nula y se acepta la alterna. Es decir, que los datos no son normales.
HIPOTESIS
\(H_0\): No hay correlación entre las variables.
\(H_1\): Sí hay correlación entre las variables.
pairs(diabetes$Insulin ~ diabetes$Outcome)
cor.test(diabetes$Outcome, diabetes$Insulin, data=mtcars,method="spearman")
## Warning in cor.test.default(diabetes$Outcome, diabetes$Insulin, data = mtcars,
## : Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: diabetes$Outcome and diabetes$Insulin
## S = 70478911, p-value = 0.0656
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.06647165
Como p > 0.05 Se acepta la hipotesis nula y se rechaza la alterna. Es decir, que no hay correlación entre las variables
Como los datos no son normales entonces aplicamos una prueba estadistica no parametrica.
Aplicamos la Prueba de Wilcoxon
HIPOTESIS
\(H_0\): No hay diferencia en los niveles de insulina entre personas diabéticos y no diabéticos.
\(H_1\): Hay diferencia en los niveles de insulina entre personas diabéticos y no diabéticos.
wilcox.test(diabetes$Outcome, diabetes$Insulin, data = datos, paired = FALSE)
##
## Wilcoxon rank sum test with continuity correction
##
## data: diabetes$Outcome and diabetes$Insulin
## W = 193732, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
Como p < 0.05 Se rechaza la hipotesis nula y se acepta la hipotesis alterna. Es decir, Hay diferencia en los niveles de insulina entre personas diabéticos y no diabéticos.