La Siguiente base de datos contiene 8 variables predictoras relacionadas con medidas clínicas y personales, y 1 variable de salida (Outcome) que indica si una persona tiene diabetes.
Para la realización de este trabajo miraremos la relación de dos de estas variables de la data.
url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
"BMI", "DiabetesPedigreeFunction", "Age", "Outcome")
Diabetes <- read.csv(url, header = FALSE, col.names = colnames)
head(Diabetes)
## Pregnancies Glucose BloodPressure SkinThickness Insulin BMI
## 1 6 148 72 35 0 33.6
## 2 1 85 66 29 0 26.6
## 3 8 183 64 0 0 23.3
## 4 1 89 66 23 94 28.1
## 5 0 137 40 35 168 43.1
## 6 5 116 74 0 0 25.6
## DiabetesPedigreeFunction Age Outcome
## 1 0.627 50 1
## 2 0.351 31 0
## 3 0.672 32 1
## 4 0.167 21 0
## 5 2.288 33 1
## 6 0.201 30 0
Las hipótesis irán de acuerdo a la interacción de como la variable age(Edad) tiene relacion con la variable bloodpressure(Presión arterial)
Hipotesis nula. H_0: No hay una relación significativa entre las variables de Edad y Presión arterial
Hipotesis Alterna H_a: hay una relación significativa entre las variables de Edad y Presión arterial
Para validar la normalidad de esas variables vamos a hacer uso de la gráfica y también de las pruebas de normalidad.
Grafica:
plot(Diabetes$Age, ylab = "Edad")
plot(Diabetes$BloodPressure, ylab = "Presion arterial")
Como podemos ver en las imágenes de los plox de cada variable, nos dan un indicio de que no son datos con una distribución normal, pero también podemos validar la normalidad de otra forma.
También podemos validar la normalidad con la siguiente Prueba:
Hipotesis de normalidad.
H_0: los datos presentan una distribucion normal
H_1: Los datos no presentan una distibucion normal
shapiro.test(Diabetes$Age)
##
## Shapiro-Wilk normality test
##
## data: Diabetes$Age
## W = 0.87477, p-value < 2.2e-16
shapiro.test(Diabetes$BloodPressure)
##
## Shapiro-Wilk normality test
##
## data: Diabetes$BloodPressure
## W = 0.81892, p-value < 2.2e-16
Dadas las dos Pruebas(grafica y código), concluimos que los datos de las variables Age y BloodPressure no presentan una distibusion normal.
Para realizar la correlación de estas dos variables es necesario hacer uso del método de spearman.
cor.test(Diabetes$Age, Diabetes$BloodPressure, method = "spearman")
## Warning in cor.test.default(Diabetes$Age, Diabetes$BloodPressure, method =
## "spearman"): Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: Diabetes$Age and Diabetes$BloodPressure
## S = 49005734, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.3508946
Dado que los datos de las variables Age y BloodPressure al realizar la prueba de correlación su valor de p-value es menor que 0.05 entonces, podemos decir que hay prueba suficiente para negar nuestra Hipótesis nula (H_0) y dar aceptación a nuestra hipótesis alterna (H_a).
Es decir,
H_a: hay una relación significativa entre las variables de Edad y Presión arterial.
Además de la prueba de correlación de spearman que mide de forma eficiente la correlación y los da un resultado puntual.
Dado que Wlicoxon podemos aplicarlo también para dos grupos independientes y aplicar la prueba. la aplicaremos para las variables Age y BloodPressure.
wilcox.test(Diabetes$Age, Diabetes$BloodPressure)
##
## Wilcoxon rank sum test with continuity correction
##
## data: Diabetes$Age and Diabetes$BloodPressure
## W = 37522, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
Dada la Prueba podemos también inferir en el análisis de la anterior prueba es decir la de spearman llegando a una misma conclusión . es decir que, hay una relación significativa entre las variables de Edad y Presión arterial.