url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

dp <-read.csv(url)


# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
              "BMI", "DiabetesPedigreeFunction", "Age", "Outcome")

diabetes <- read.csv(url, header = FALSE, col.names = colnames)

head(diabetes)
##   Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
## 1           6     148            72            35       0 33.6
## 2           1      85            66            29       0 26.6
## 3           8     183            64             0       0 23.3
## 4           1      89            66            23      94 28.1
## 5           0     137            40            35     168 43.1
## 6           5     116            74             0       0 25.6
##   DiabetesPedigreeFunction Age Outcome
## 1                    0.627  50       1
## 2                    0.351  31       0
## 3                    0.672  32       1
## 4                    0.167  21       0
## 5                    2.288  33       1
## 6                    0.201  30       0

Realizar: * Descripción de la data * Plantear hipótesis * Validar normalidad de las variables (según la hipótesis) * Realizar correlación * Aplicar prueba estadística que corresponda según las variables * Todo lo anterior realizarlo en un rpbus, enviar al correo el rmd y el enlace

Solución:

str(dp)
## 'data.frame':    767 obs. of  9 variables:
##  $ X6    : int  1 8 1 0 5 3 10 2 8 4 ...
##  $ X148  : int  85 183 89 137 116 78 115 197 125 110 ...
##  $ X72   : int  66 64 66 40 74 50 0 70 96 92 ...
##  $ X35   : int  29 0 23 35 0 32 0 45 0 0 ...
##  $ X0    : int  0 0 94 168 0 88 0 543 0 0 ...
##  $ X33.6 : num  26.6 23.3 28.1 43.1 25.6 31 35.3 30.5 0 37.6 ...
##  $ X0.627: num  0.351 0.672 0.167 2.288 0.201 ...
##  $ X50   : int  31 32 21 33 30 26 29 53 54 30 ...
##  $ X1    : int  0 1 0 1 0 1 0 1 1 0 ...

Voy a trabajar con las variables “Glucose” y “Age”

plot(diabetes$Glucose)

plot(diabetes$Age)

De los graficos de dispersión no se puede concluir la normalidad de las variables, por ende se hace una test de normalidad.

shapiro.test(diabetes$Pregnancies)
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Pregnancies
## W = 0.90428, p-value < 2.2e-16

Para la varibale “Glucose” el valor p es menor que 0.05, entonces se rechaza la hipotesis nula y se acepta la alterna, por tanto los datos NO siguen una distribucion normal.

shapiro.test(diabetes$Age)
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Age
## W = 0.87477, p-value < 2.2e-16

Para la varibale “Age” el valor p es menor que 0.05, entonces se rechaza la hipotesis nula y se acepta la alterna, por tanto los datos NO siguen una distribucion normal.

cor.test(diabetes$Glucose,diabetes$Age, method = "spearman")
## Warning in cor.test.default(diabetes$Glucose, diabetes$Age, method =
## "spearman"): Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  diabetes$Glucose and diabetes$Age
## S = 53977225, p-value = 8e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.2850447

Como el valor de p es menor que 0.05 entonces se rechaza la hipotesis nula y se acepta la hipotesis alterna, por tanto existe una relación significativa entre la edad y los niveles de glucosa.