De la siguiente base de datos
url <- “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
La base de datos Pima Indians Diabetes contiene 8 variables predictoras relacionadas con medidas clínicas y personales, y 1 variable de salida (Outcome) que indica si una persona tiene diabetes.
Realizar: 1* Descripción de la data 2* Plantear hipótesis 3* Validar normalidad de las variables (según la hipótesis) 4* Realizar correlación 5* Aplicar prueba estadística que corresponda según las variables 6* Todo lo anterior realizarlo en un rpbus, enviar al correo el rmd y el enlace
Solución
url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
"BMI", "DiabetesPedigreeFunction", "Age", "Outcome")
diabetes <- read.csv(url, header = FALSE, col.names = colnames)
head(diabetes)
## Pregnancies Glucose BloodPressure SkinThickness Insulin BMI
## 1 6 148 72 35 0 33.6
## 2 1 85 66 29 0 26.6
## 3 8 183 64 0 0 23.3
## 4 1 89 66 23 94 28.1
## 5 0 137 40 35 168 43.1
## 6 5 116 74 0 0 25.6
## DiabetesPedigreeFunction Age Outcome
## 1 0.627 50 1
## 2 0.351 31 0
## 3 0.672 32 1
## 4 0.167 21 0
## 5 2.288 33 1
## 6 0.201 30 0
Pregnancies: Número de embarazos.
Glucose: Concentración de glucosa en sangre.
BloodPressure: Presión arterial diastólica (mm Hg).
SkinThickness: Espesor del pliegue cutáneo del tríceps (mm).
Insulin: Niveles de insulina en sangre (mu U/ml).
BMI: Índice de masa corporal (peso en kg / altura en m²).
DiabetesPedigreeFunction: Función de pedigrí de diabetes (probabilidad hereditaria).
Age: Edad de la persona (en años).
Outcome: 0 = No tiene diabetes, 1 = Tiene diabetes.
dim(diabetes)
## [1] 768 9
summary(diabetes)
## Pregnancies Glucose BloodPressure SkinThickness
## Min. : 0.000 Min. : 0.0 Min. : 0.00 Min. : 0.00
## 1st Qu.: 1.000 1st Qu.: 99.0 1st Qu.: 62.00 1st Qu.: 0.00
## Median : 3.000 Median :117.0 Median : 72.00 Median :23.00
## Mean : 3.845 Mean :120.9 Mean : 69.11 Mean :20.54
## 3rd Qu.: 6.000 3rd Qu.:140.2 3rd Qu.: 80.00 3rd Qu.:32.00
## Max. :17.000 Max. :199.0 Max. :122.00 Max. :99.00
## Insulin BMI DiabetesPedigreeFunction Age
## Min. : 0.0 Min. : 0.00 Min. :0.0780 Min. :21.00
## 1st Qu.: 0.0 1st Qu.:27.30 1st Qu.:0.2437 1st Qu.:24.00
## Median : 30.5 Median :32.00 Median :0.3725 Median :29.00
## Mean : 79.8 Mean :31.99 Mean :0.4719 Mean :33.24
## 3rd Qu.:127.2 3rd Qu.:36.60 3rd Qu.:0.6262 3rd Qu.:41.00
## Max. :846.0 Max. :67.10 Max. :2.4200 Max. :81.00
## Outcome
## Min. :0.000
## 1st Qu.:0.000
## Median :0.000
## Mean :0.349
## 3rd Qu.:1.000
## Max. :1.000
Ho = La media del nivel de glucosa es igual para personas con y sin diabetes
Ha = La media del nivel de glucosa es mayor en personas con diabetes
plot(diabetes$Glucose)
plot(diabetes$Outcome)
shapiro.test(diabetes$Glucose)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Glucose
## W = 0.9701, p-value = 1.986e-11
shapiro.test(diabetes$Outcome)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Outcome
## W = 0.60251, p-value < 2.2e-16
Ya que observando el grafico no podemos concluir una normalidad, aplicamos Shapiro.
Como el p-value de Glucose es mucho menor que 0.05, se rechaza la hipotesis nula, ya que no sigue una distribución normal
Y para el p-value de Outcome es muy pequeño, ya que es una variable categorica.
cor.test(diabetes$Glucose,diabetes$Outcome, method="spearman")
## Warning in cor.test.default(diabetes$Glucose, diabetes$Outcome, method =
## "spearman"): Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: diabetes$Glucose and diabetes$Outcome
## S = 39577497, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.4757763
Nos muestra una correlación positiva P = 0.4757763 nos da una relacion significativa osea si existe una correlación entre glucosa y diabetes
Ya que es una prueba no Paramétrica y queremos comparar las medianas de dos grupos independientes usamos la PRUEBA DE WILCOXON-MANN WHITNEY.
#prueba de wilcoxon-Menn_whitney
wilcox.test(Glucose ~ Outcome, data = diabetes)
##
## Wilcoxon rank sum test with continuity correction
##
## data: Glucose by Outcome
## W = 28391, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
Se usola prueba de wilcoxon-Menn_whitney para comparar los niveles de glucosa entre personas con y sin diabetes. El p-value nos indica que hay una diferencia entre los niveles de glucosa.
Por lo tanto, se acepta la Ha osea la media del nivel de glucosa es mayor en personas con diabetes.