De la siguiente base de datos

url <- “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv

La base de datos Pima Indians Diabetes contiene 8 variables predictoras relacionadas con medidas clínicas y personales, y 1 variable de salida (Outcome) que indica si una persona tiene diabetes.

Realizar: 1* Descripción de la data 2* Plantear hipótesis 3* Validar normalidad de las variables (según la hipótesis) 4* Realizar correlación 5* Aplicar prueba estadística que corresponda según las variables 6* Todo lo anterior realizarlo en un rpbus, enviar al correo el rmd y el enlace

Solución

url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
              "BMI", "DiabetesPedigreeFunction", "Age", "Outcome")

diabetes <- read.csv(url, header = FALSE, col.names = colnames)

head(diabetes)
##   Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
## 1           6     148            72            35       0 33.6
## 2           1      85            66            29       0 26.6
## 3           8     183            64             0       0 23.3
## 4           1      89            66            23      94 28.1
## 5           0     137            40            35     168 43.1
## 6           5     116            74             0       0 25.6
##   DiabetesPedigreeFunction Age Outcome
## 1                    0.627  50       1
## 2                    0.351  31       0
## 3                    0.672  32       1
## 4                    0.167  21       0
## 5                    2.288  33       1
## 6                    0.201  30       0

Pregnancies: Número de embarazos.

Glucose: Concentración de glucosa en sangre.

BloodPressure: Presión arterial diastólica (mm Hg).

SkinThickness: Espesor del pliegue cutáneo del tríceps (mm).

Insulin: Niveles de insulina en sangre (mu U/ml).

BMI: Índice de masa corporal (peso en kg / altura en m²).

DiabetesPedigreeFunction: Función de pedigrí de diabetes (probabilidad hereditaria).

Age: Edad de la persona (en años).

Outcome: 0 = No tiene diabetes, 1 = Tiene diabetes.

dim(diabetes)
## [1] 768   9
summary(diabetes)
##   Pregnancies        Glucose      BloodPressure    SkinThickness  
##  Min.   : 0.000   Min.   :  0.0   Min.   :  0.00   Min.   : 0.00  
##  1st Qu.: 1.000   1st Qu.: 99.0   1st Qu.: 62.00   1st Qu.: 0.00  
##  Median : 3.000   Median :117.0   Median : 72.00   Median :23.00  
##  Mean   : 3.845   Mean   :120.9   Mean   : 69.11   Mean   :20.54  
##  3rd Qu.: 6.000   3rd Qu.:140.2   3rd Qu.: 80.00   3rd Qu.:32.00  
##  Max.   :17.000   Max.   :199.0   Max.   :122.00   Max.   :99.00  
##     Insulin           BMI        DiabetesPedigreeFunction      Age       
##  Min.   :  0.0   Min.   : 0.00   Min.   :0.0780           Min.   :21.00  
##  1st Qu.:  0.0   1st Qu.:27.30   1st Qu.:0.2437           1st Qu.:24.00  
##  Median : 30.5   Median :32.00   Median :0.3725           Median :29.00  
##  Mean   : 79.8   Mean   :31.99   Mean   :0.4719           Mean   :33.24  
##  3rd Qu.:127.2   3rd Qu.:36.60   3rd Qu.:0.6262           3rd Qu.:41.00  
##  Max.   :846.0   Max.   :67.10   Max.   :2.4200           Max.   :81.00  
##     Outcome     
##  Min.   :0.000  
##  1st Qu.:0.000  
##  Median :0.000  
##  Mean   :0.349  
##  3rd Qu.:1.000  
##  Max.   :1.000

Ho = La media del nivel de glucosa es igual para personas con y sin diabetes

Ha = La media del nivel de glucosa es mayor en personas con diabetes

plot(diabetes$Glucose)

plot(diabetes$Outcome)

shapiro.test(diabetes$Glucose)
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Glucose
## W = 0.9701, p-value = 1.986e-11
shapiro.test(diabetes$Outcome)
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Outcome
## W = 0.60251, p-value < 2.2e-16

Ya que observando el grafico no podemos concluir una normalidad, aplicamos Shapiro.

Como el p-value de Glucose es mucho menor que 0.05, se rechaza la hipotesis nula, ya que no sigue una distribución normal

Y para el p-value de Outcome es muy pequeño, ya que es una variable categorica.

cor.test(diabetes$Glucose,diabetes$Outcome, method="spearman")
## Warning in cor.test.default(diabetes$Glucose, diabetes$Outcome, method =
## "spearman"): Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  diabetes$Glucose and diabetes$Outcome
## S = 39577497, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.4757763

Nos muestra una correlación positiva P = 0.4757763 nos da una relacion significativa osea si existe una correlación entre glucosa y diabetes

Ya que es una prueba no Paramétrica y queremos comparar las medianas de dos grupos independientes usamos la PRUEBA DE WILCOXON-MANN WHITNEY.

#prueba de wilcoxon-Menn_whitney
wilcox.test(Glucose ~ Outcome, data = diabetes)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Glucose by Outcome
## W = 28391, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0

Se usola prueba de wilcoxon-Menn_whitney para comparar los niveles de glucosa entre personas con y sin diabetes. El p-value nos indica que hay una diferencia entre los niveles de glucosa.

Por lo tanto, se acepta la Ha osea la media del nivel de glucosa es mayor en personas con diabetes.