url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
              "BMI", "DiabetesPedigreeFunction", "Age", "Outcome")

diabetes <- read.csv(url, header = FALSE, col.names = colnames)

head(diabetes)
##   Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
## 1           6     148            72            35       0 33.6
## 2           1      85            66            29       0 26.6
## 3           8     183            64             0       0 23.3
## 4           1      89            66            23      94 28.1
## 5           0     137            40            35     168 43.1
## 6           5     116            74             0       0 25.6
##   DiabetesPedigreeFunction Age Outcome
## 1                    0.627  50       1
## 2                    0.351  31       0
## 3                    0.672  32       1
## 4                    0.167  21       0
## 5                    2.288  33       1
## 6                    0.201  30       0

Realizar:

  • Descripción de la data

La base de datos Pima Indians Diabetes contiene 8 variables predictoras relacionadas con medidas clínicas y personales (Pregnancies, Glucose, Blood Pressure, Skin Thickness, Insulin, BMI, Diabetes Pedigree Function, Age), y 1 variable de salida (Outcome) que indica si una persona tiene diabetes.

A continuación se realiza todo el analisis con las variables Insulina y outcome (indica si una persona tiene diabetes).

  • Plantear hipótesis

\(H_0\): Los datos de las variables insulina y outcome (indica si una persona tiene diabetes) son normales.

\(H_1\): Los datos de las variables insulina y outcome (indica si una persona tiene diabetes) no son normales.

  • Validar normalidad de las variables (según la hipótesis)
shapiro.test(diabetes$Insulin)
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Insulin
## W = 0.72202, p-value < 2.2e-16
shapiro.test(diabetes$Outcome)
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Outcome
## W = 0.60251, p-value < 2.2e-16

Como p < 0.05 se rechaza la hipotesis nula y se acepta la alterna. Es decir, que los datos no son normales.

  • Realizar correlación

HIPOTESIS

\(H_0\): No hay correlación entre las variables.

\(H_1\): Sí hay correlación entre las variables.

pairs(diabetes$Insulin ~ diabetes$Outcome)

cor.test(diabetes$Outcome, diabetes$Insulin, data=mtcars,method="spearman")
## Warning in cor.test.default(diabetes$Outcome, diabetes$Insulin, data = mtcars,
## : Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  diabetes$Outcome and diabetes$Insulin
## S = 70478911, p-value = 0.0656
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## 0.06647165

Como p > 0.05 Se acepta la hipotesis nula y se rechaza la alterna. Es decir, que no hay correlación entre las variables

  • Aplicar prueba estadística que corresponda según las variables

Como los datos no son normales entonces aplicamos una prueba estadistica no parametrica.

Aplicamos la Prueba de Wilcoxon

HIPOTESIS

\(H_0\): No hay diferencia en los niveles de insulina entre personas diabéticos y no diabéticos.

\(H_1\): Hay diferencia en los niveles de insulina entre personas diabéticos y no diabéticos.

wilcox.test(diabetes$Outcome, diabetes$Insulin, data = datos, paired = FALSE)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  diabetes$Outcome and diabetes$Insulin
## W = 193732, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0

Como p < 0.05 Se rechaza la hipotesis nula y se acepta la hipotesis alterna. Es decir, Hay diferencia en los niveles de insulina entre personas diabéticos y no diabéticos.