#install.packages("dplyr")
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
              "BMI", "DiabetesPedigreeFunction", "Age", "Outcome")

diabetes <- read.csv(url, header = FALSE, col.names = colnames)

head(diabetes)
##   Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
## 1           6     148            72            35       0 33.6
## 2           1      85            66            29       0 26.6
## 3           8     183            64             0       0 23.3
## 4           1      89            66            23      94 28.1
## 5           0     137            40            35     168 43.1
## 6           5     116            74             0       0 25.6
##   DiabetesPedigreeFunction Age Outcome
## 1                    0.627  50       1
## 2                    0.351  31       0
## 3                    0.672  32       1
## 4                    0.167  21       0
## 5                    2.288  33       1
## 6                    0.201  30       0

Descripción de la data La base de datos Pima Indians Diabetes contiene 8 variables predictoras relacionadas con medidas clínicas y personales, y 1 variable de salida (Outcome) que indica si una persona tiene diabetes. HIPOTESIS A TOMAR Ho=No exite una relación estre la edad y la canridad de embarazos que ha tenido la persona Hi=Exite una relación estre la edad y la cantidad de embarazos que ha tenido la persona

 plot(diabetes$Age) 

 plot(diabetes$Pregnancies ) 

Validar normalidad de las variables (según la hipótesis) Ho= Los datos tienen una disribucion normal H1= Los datos no tienen una distribución normal

 shapiro.test(diabetes$Age) 
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Age
## W = 0.87477, p-value < 2.2e-16
shapiro.test(diabetes$Pregnancies)
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Pregnancies
## W = 0.90428, p-value < 2.2e-16

Como se puede ver el P-valor es <0.05 entonces los datos no tienen una districución normal

4.Correlación

  cor.test(diabetes$Age,diabetes$Pregnancies,data=diabetes, method="spearman")
## Warning in cor.test.default(diabetes$Age, diabetes$Pregnancies, data =
## diabetes, : Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  diabetes$Age and diabetes$Pregnancies
## S = 29654123, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.6072163

hay una correlacion positiva leve lo que indica que puede que con el incremento de la edad tambien incrementa el numero de embarazos que ha tenido la persona

  • Aplicar prueba estadística que corresponda según las variables

```