PARCIAL3

#install.packages("dplyr")
library(dplyr)

## Warning: package 'dplyr' was built under R version 4.4.3

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
              "BMI", "DiabetesPedigreeFunction", "Age", "Outcome")

diabetes <- read.csv(url, header = FALSE, col.names = colnames)

head(diabetes)

##   Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
## 1           6     148            72            35       0 33.6
## 2           1      85            66            29       0 26.6
## 3           8     183            64             0       0 23.3
## 4           1      89            66            23      94 28.1
## 5           0     137            40            35     168 43.1
## 6           5     116            74             0       0 25.6
##   DiabetesPedigreeFunction Age Outcome
## 1                    0.627  50       1
## 2                    0.351  31       0
## 3                    0.672  32       1
## 4                    0.167  21       0
## 5                    2.288  33       1
## 6                    0.201  30       0

Descripción de la data La base de datos Pima Indians Diabetes contiene 8 variables predictoras relacionadas con medidas clínicas y personales, y 1 variable de salida (Outcome) que indica si una persona tiene diabetes. HIPOTESIS A TOMAR Ho=No exite una relación estre la edad y la canridad de embarazos que ha tenido la persona Hi=Exite una relación estre la edad y la cantidad de embarazos que ha tenido la persona

 plot(diabetes$Age)

 plot(diabetes$Pregnancies )

Validar normalidad de las variables (según la hipótesis) Ho= Los datos tienen una disribucion normal H1= Los datos no tienen una distribución normal

 shapiro.test(diabetes$Age)

## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Age
## W = 0.87477, p-value < 2.2e-16

shapiro.test(diabetes$Pregnancies)

## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Pregnancies
## W = 0.90428, p-value < 2.2e-16

Como se puede ver el P-valor es <0.05 entonces los datos no tienen una districución normal

4.Correlación

  cor.test(diabetes$Age,diabetes$Pregnancies,data=diabetes, method="spearman")

## Warning in cor.test.default(diabetes$Age, diabetes$Pregnancies, data =
## diabetes, : Cannot compute exact p-value with ties

## 
##  Spearman's rank correlation rho
## 
## data:  diabetes$Age and diabetes$Pregnancies
## S = 29654123, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.6072163

hay una correlacion positiva leve lo que indica que puede que con el incremento de la edad tambien incrementa el numero de embarazos que ha tenido la persona

Aplicar prueba estadística que corresponda según las variables

```

PARCIAL3

Daniel Felipe Solano Palmito

2025-30-05