#install.packages("dplyr")
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
"BMI", "DiabetesPedigreeFunction", "Age", "Outcome")
diabetes <- read.csv(url, header = FALSE, col.names = colnames)
head(diabetes)
## Pregnancies Glucose BloodPressure SkinThickness Insulin BMI
## 1 6 148 72 35 0 33.6
## 2 1 85 66 29 0 26.6
## 3 8 183 64 0 0 23.3
## 4 1 89 66 23 94 28.1
## 5 0 137 40 35 168 43.1
## 6 5 116 74 0 0 25.6
## DiabetesPedigreeFunction Age Outcome
## 1 0.627 50 1
## 2 0.351 31 0
## 3 0.672 32 1
## 4 0.167 21 0
## 5 2.288 33 1
## 6 0.201 30 0
Descripción de la data La base de datos Pima Indians Diabetes contiene 8 variables predictoras relacionadas con medidas clínicas y personales, y 1 variable de salida (Outcome) que indica si una persona tiene diabetes. HIPOTESIS A TOMAR Ho=No exite una relación estre la edad y la canridad de embarazos que ha tenido la persona Hi=Exite una relación estre la edad y la cantidad de embarazos que ha tenido la persona
plot(diabetes$Age)
plot(diabetes$Pregnancies )
Validar normalidad de las variables (según la hipótesis) Ho= Los datos
tienen una disribucion normal H1= Los datos no tienen una distribución
normal
shapiro.test(diabetes$Age)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Age
## W = 0.87477, p-value < 2.2e-16
shapiro.test(diabetes$Pregnancies)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Pregnancies
## W = 0.90428, p-value < 2.2e-16
Como se puede ver el P-valor es <0.05 entonces los datos no tienen una districución normal
4.Correlación
cor.test(diabetes$Age,diabetes$Pregnancies,data=diabetes, method="spearman")
## Warning in cor.test.default(diabetes$Age, diabetes$Pregnancies, data =
## diabetes, : Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: diabetes$Age and diabetes$Pregnancies
## S = 29654123, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.6072163
hay una correlacion positiva leve lo que indica que puede que con el incremento de la edad tambien incrementa el numero de embarazos que ha tenido la persona
```