url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
dp <-read.csv(url)
# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
"BMI", "DiabetesPedigreeFunction", "Age", "Outcome")
diabetes <- read.csv(url, header = FALSE, col.names = colnames)
head(diabetes)
## Pregnancies Glucose BloodPressure SkinThickness Insulin BMI
## 1 6 148 72 35 0 33.6
## 2 1 85 66 29 0 26.6
## 3 8 183 64 0 0 23.3
## 4 1 89 66 23 94 28.1
## 5 0 137 40 35 168 43.1
## 6 5 116 74 0 0 25.6
## DiabetesPedigreeFunction Age Outcome
## 1 0.627 50 1
## 2 0.351 31 0
## 3 0.672 32 1
## 4 0.167 21 0
## 5 2.288 33 1
## 6 0.201 30 0
Realizar: * Descripción de la data * Plantear hipótesis * Validar normalidad de las variables (según la hipótesis) * Realizar correlación * Aplicar prueba estadística que corresponda según las variables * Todo lo anterior realizarlo en un rpbus, enviar al correo el rmd y el enlace
Solución:
str(dp)
## 'data.frame': 767 obs. of 9 variables:
## $ X6 : int 1 8 1 0 5 3 10 2 8 4 ...
## $ X148 : int 85 183 89 137 116 78 115 197 125 110 ...
## $ X72 : int 66 64 66 40 74 50 0 70 96 92 ...
## $ X35 : int 29 0 23 35 0 32 0 45 0 0 ...
## $ X0 : int 0 0 94 168 0 88 0 543 0 0 ...
## $ X33.6 : num 26.6 23.3 28.1 43.1 25.6 31 35.3 30.5 0 37.6 ...
## $ X0.627: num 0.351 0.672 0.167 2.288 0.201 ...
## $ X50 : int 31 32 21 33 30 26 29 53 54 30 ...
## $ X1 : int 0 1 0 1 0 1 0 1 1 0 ...
Voy a trabajar con las variables “Glucose” y “Age”
Plantear hipótesis H_0= La glucosa no depende de la edad H_1= La glucosa depende de la edad
Validar normalidad de las variables (según la hipótesis)
plot(diabetes$Glucose)
plot(diabetes$Age)
De los graficos de dispersión no se puede concluir la normalidad de las
variables, por ende se hace una test de normalidad.
shapiro.test(diabetes$Pregnancies)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Pregnancies
## W = 0.90428, p-value < 2.2e-16
Para la varibale “Glucose” el valor p es menor que 0.05, entonces se rechaza la hipotesis nula y se acepta la alterna, por tanto los datos NO siguen una distribucion normal.
shapiro.test(diabetes$Age)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Age
## W = 0.87477, p-value < 2.2e-16
Para la varibale “Age” el valor p es menor que 0.05, entonces se rechaza la hipotesis nula y se acepta la alterna, por tanto los datos NO siguen una distribucion normal.
cor.test(diabetes$Glucose,diabetes$Age, method = "spearman")
## Warning in cor.test.default(diabetes$Glucose, diabetes$Age, method =
## "spearman"): Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: diabetes$Glucose and diabetes$Age
## S = 53977225, p-value = 8e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.2850447
Como el valor de p es menor que 0.05 entonces se rechaza la hipotesis nula y se acepta la hipotesis alterna, por tanto existe una relación significativa entre la edad y los niveles de glucosa.