url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
Datosweb<- read.table(url, header=TRUE, sep='\t')
head(Datosweb)
##    X6.148.72.35.0.33.6.0.627.50.1
## 1    1,85,66,29,0,26.6,0.351,31,0
## 2    8,183,64,0,0,23.3,0.672,32,1
## 3   1,89,66,23,94,28.1,0.167,21,0
## 4 0,137,40,35,168,43.1,2.288,33,1
## 5    5,116,74,0,0,25.6,0.201,30,0
## 6   3,78,50,32,88,31.0,0.248,26,1

Descripcion de la data

La base de datos Pima Indians Diabetes contiene 8 variables predictoras relacionadas con medidas clĂ­nicas y personales, y 1 variable de salida (Outcome) que indica si una persona tiene diabetes.

colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness","Insulin","BMI","DiabetesPedigreeFunction", "Age", "Outcome")

diabetes <- read.csv(url, header=FALSE,col.names=colnames)

head(diabetes)
##   Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
## 1           6     148            72            35       0 33.6
## 2           1      85            66            29       0 26.6
## 3           8     183            64             0       0 23.3
## 4           1      89            66            23      94 28.1
## 5           0     137            40            35     168 43.1
## 6           5     116            74             0       0 25.6
##   DiabetesPedigreeFunction Age Outcome
## 1                    0.627  50       1
## 2                    0.351  31       0
## 3                    0.672  32       1
## 4                    0.167  21       0
## 5                    2.288  33       1
## 6                    0.201  30       0

Plantear hiotesis

Glucose: Nivel de glucosa en la sangre Outcome: Resultado de diabetes.

Hipotesis Nula:No hay diferencia significativa en el nivel medio de glucosa entre los grupos.

Hipotesis Alterna: Existe una diferencia significativa en el nivel medio de los dos grupos.

Data<-(diabetes)
plot(diabetes$Glucose)

plot(diabetes$Outcome)

Pueba de normalidad

shapiro.test(diabetes$Glucose)
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Glucose
## W = 0.9701, p-value = 1.986e-11

En este caso el p-valor es menor que 0.05 entonces, se rechaza la hipotesis nula,la distribucion no es normal.

shapiro.test(diabetes$Outcome)
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Outcome
## W = 0.60251, p-value < 2.2e-16

En este caso podemos observar que al igual que la prueba de normalidad anterior el p-valor es menor que 0.05 rechazamos la hipotesis nula, es decir la distribucion no es normal.

Correlacion

cor.test(diabetes$Glucose, diabetes$Outcome, Data=diabetes, method="pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  diabetes$Glucose and diabetes$Outcome
## t = 14.6, df = 766, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4093489 0.5201564
## sample estimates:
##       cor 
## 0.4665814

Correlacion positiva, indica que los niveles altos de glucosa estan relacionados con mayor probabilidad a la diabetes.

Prueba estadistica

t.test(diabetes$Glucose, diabetes$Outcome)
## 
##  Welch Two Sample t-test
## 
## data:  diabetes$Glucose and diabetes$Outcome
## t = 104.47, df = 767.34, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  118.2805 122.8106
## sample estimates:
##   mean of x   mean of y 
## 120.8945312   0.3489583

Los niveles de glucosa son significativamente mas altos en los pacientes con diabetes.