url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
Datosweb<- read.table(url, header=TRUE, sep='\t')
head(Datosweb)
## X6.148.72.35.0.33.6.0.627.50.1
## 1 1,85,66,29,0,26.6,0.351,31,0
## 2 8,183,64,0,0,23.3,0.672,32,1
## 3 1,89,66,23,94,28.1,0.167,21,0
## 4 0,137,40,35,168,43.1,2.288,33,1
## 5 5,116,74,0,0,25.6,0.201,30,0
## 6 3,78,50,32,88,31.0,0.248,26,1
Descripcion de la data
La base de datos Pima Indians Diabetes contiene 8 variables predictoras relacionadas con medidas clĂnicas y personales, y 1 variable de salida (Outcome) que indica si una persona tiene diabetes.
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness","Insulin","BMI","DiabetesPedigreeFunction", "Age", "Outcome")
diabetes <- read.csv(url, header=FALSE,col.names=colnames)
head(diabetes)
## Pregnancies Glucose BloodPressure SkinThickness Insulin BMI
## 1 6 148 72 35 0 33.6
## 2 1 85 66 29 0 26.6
## 3 8 183 64 0 0 23.3
## 4 1 89 66 23 94 28.1
## 5 0 137 40 35 168 43.1
## 6 5 116 74 0 0 25.6
## DiabetesPedigreeFunction Age Outcome
## 1 0.627 50 1
## 2 0.351 31 0
## 3 0.672 32 1
## 4 0.167 21 0
## 5 2.288 33 1
## 6 0.201 30 0
Plantear hiotesis
Glucose: Nivel de glucosa en la sangre Outcome: Resultado de diabetes.
Hipotesis Nula:No hay diferencia significativa en el nivel medio de glucosa entre los grupos.
Hipotesis Alterna: Existe una diferencia significativa en el nivel medio de los dos grupos.
Data<-(diabetes)
plot(diabetes$Glucose)
plot(diabetes$Outcome)
Pueba de normalidad
shapiro.test(diabetes$Glucose)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Glucose
## W = 0.9701, p-value = 1.986e-11
En este caso el p-valor es menor que 0.05 entonces, se rechaza la hipotesis nula,la distribucion no es normal.
shapiro.test(diabetes$Outcome)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Outcome
## W = 0.60251, p-value < 2.2e-16
En este caso podemos observar que al igual que la prueba de normalidad anterior el p-valor es menor que 0.05 rechazamos la hipotesis nula, es decir la distribucion no es normal.
Correlacion
cor.test(diabetes$Glucose, diabetes$Outcome, Data=diabetes, method="pearson")
##
## Pearson's product-moment correlation
##
## data: diabetes$Glucose and diabetes$Outcome
## t = 14.6, df = 766, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4093489 0.5201564
## sample estimates:
## cor
## 0.4665814
Correlacion positiva, indica que los niveles altos de glucosa estan relacionados con mayor probabilidad a la diabetes.
Prueba estadistica
t.test(diabetes$Glucose, diabetes$Outcome)
##
## Welch Two Sample t-test
##
## data: diabetes$Glucose and diabetes$Outcome
## t = 104.47, df = 767.34, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 118.2805 122.8106
## sample estimates:
## mean of x mean of y
## 120.8945312 0.3489583
Los niveles de glucosa son significativamente mas altos en los pacientes con diabetes.