Realizar:

Descripción de la data

La Siguiente base de datos contiene 8 variables predictoras relacionadas con medidas clínicas y personales, y 1 variable de salida (Outcome) que indica si una persona tiene diabetes.

Para la realización de este trabajo miraremos la relación de dos de estas variables de la data.

url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
              "BMI", "DiabetesPedigreeFunction", "Age", "Outcome")

Diabetes <- read.csv(url, header = FALSE, col.names = colnames)

head(Diabetes)
##   Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
## 1           6     148            72            35       0 33.6
## 2           1      85            66            29       0 26.6
## 3           8     183            64             0       0 23.3
## 4           1      89            66            23      94 28.1
## 5           0     137            40            35     168 43.1
## 6           5     116            74             0       0 25.6
##   DiabetesPedigreeFunction Age Outcome
## 1                    0.627  50       1
## 2                    0.351  31       0
## 3                    0.672  32       1
## 4                    0.167  21       0
## 5                    2.288  33       1
## 6                    0.201  30       0

Plantear hipótesis

Las hipótesis irán de acuerdo a la interacción de como la variable age(Edad) tiene relacion con la variable bloodpressure(Presión arterial)

Hipotesis nula. H_0: No hay una relación significativa entre las variables de Edad y Presión arterial

Hipotesis Alterna H_a: hay una relación significativa entre las variables de Edad y Presión arterial

Validar normalidad de las variables (según la hipótesis)

Para validar la normalidad de esas variables vamos a hacer uso de la gráfica y también de las pruebas de normalidad.

Grafica:

plot(Diabetes$Age, ylab = "Edad")

plot(Diabetes$BloodPressure, ylab = "Presion arterial")

Como podemos ver en las imágenes de los plox de cada variable, nos dan un indicio de que no son datos con una distribución normal, pero también podemos validar la normalidad de otra forma.

También podemos validar la normalidad con la siguiente Prueba:

Hipotesis de normalidad.

H_0: los datos presentan una distribucion normal

H_1: Los datos no presentan una distibucion normal

shapiro.test(Diabetes$Age)
## 
##  Shapiro-Wilk normality test
## 
## data:  Diabetes$Age
## W = 0.87477, p-value < 2.2e-16
shapiro.test(Diabetes$BloodPressure)
## 
##  Shapiro-Wilk normality test
## 
## data:  Diabetes$BloodPressure
## W = 0.81892, p-value < 2.2e-16

Dadas las dos Pruebas(grafica y código), concluimos que los datos de las variables Age y BloodPressure no presentan una distibusion normal.

Realizar correlación

Para realizar la correlación de estas dos variables es necesario hacer uso del método de spearman.

cor.test(Diabetes$Age, Diabetes$BloodPressure, method = "spearman")
## Warning in cor.test.default(Diabetes$Age, Diabetes$BloodPressure, method =
## "spearman"): Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  Diabetes$Age and Diabetes$BloodPressure
## S = 49005734, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.3508946

Dado que los datos de las variables Age y BloodPressure al realizar la prueba de correlación su valor de p-value es menor que 0.05 entonces, podemos decir que hay prueba suficiente para negar nuestra Hipótesis nula (H_0) y dar aceptación a nuestra hipótesis alterna (H_a).

Es decir,

H_a: hay una relación significativa entre las variables de Edad y Presión arterial.

Aplicar prueba estadística que corresponda según las variables

Además de la prueba de correlación de spearman que mide de forma eficiente la correlación y los da un resultado puntual.

Dado que Wlicoxon podemos aplicarlo también para dos grupos independientes y aplicar la prueba. la aplicaremos para las variables Age y BloodPressure.

wilcox.test(Diabetes$Age, Diabetes$BloodPressure)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Diabetes$Age and Diabetes$BloodPressure
## W = 37522, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0

Dada la Prueba podemos también inferir en el análisis de la anterior prueba es decir la de spearman llegando a una misma conclusión . es decir que, hay una relación significativa entre las variables de Edad y Presión arterial.