EXAMENIII

url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
              "BMI", "DiabetesPedigreeFunction", "Age", "Outcome")

diabetes <- read.csv(url, header = FALSE, col.names = colnames)

head(diabetes)

##   Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
## 1           6     148            72            35       0 33.6
## 2           1      85            66            29       0 26.6
## 3           8     183            64             0       0 23.3
## 4           1      89            66            23      94 28.1
## 5           0     137            40            35     168 43.1
## 6           5     116            74             0       0 25.6
##   DiabetesPedigreeFunction Age Outcome
## 1                    0.627  50       1
## 2                    0.351  31       0
## 3                    0.672  32       1
## 4                    0.167  21       0
## 5                    2.288  33       1
## 6                    0.201  30       0

Realizar:

Descripción de la data

La base de datos Pima Indians Diabetes contiene 8 variables predictoras relacionadas con medidas clínicas y personales (Pregnancies, Glucose, Blood Pressure, Skin Thickness, Insulin, BMI, Diabetes Pedigree Function, Age), y 1 variable de salida (Outcome) que indica si una persona tiene diabetes.

A continuación se realiza todo el analisis con las variables Insulina y outcome (indica si una persona tiene diabetes).

Plantear hipótesis

\(H_0\): Los datos de las variables insulina y outcome (indica si una persona tiene diabetes) son normales.

\(H_1\): Los datos de las variables insulina y outcome (indica si una persona tiene diabetes) no son normales.

Validar normalidad de las variables (según la hipótesis)

shapiro.test(diabetes$Insulin)

## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Insulin
## W = 0.72202, p-value < 2.2e-16

shapiro.test(diabetes$Outcome)

## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Outcome
## W = 0.60251, p-value < 2.2e-16

Como p < 0.05 se rechaza la hipotesis nula y se acepta la alterna. Es decir, que los datos no son normales.

Realizar correlación

HIPOTESIS

\(H_0\): No hay correlación entre las variables.

\(H_1\): Sí hay correlación entre las variables.

pairs(diabetes$Insulin ~ diabetes$Outcome)

cor.test(diabetes$Outcome, diabetes$Insulin, data=mtcars,method="spearman")

## Warning in cor.test.default(diabetes$Outcome, diabetes$Insulin, data = mtcars,
## : Cannot compute exact p-value with ties

## 
##  Spearman's rank correlation rho
## 
## data:  diabetes$Outcome and diabetes$Insulin
## S = 70478911, p-value = 0.0656
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## 0.06647165

Como p > 0.05 Se acepta la hipotesis nula y se rechaza la alterna. Es decir, que no hay correlación entre las variables

Aplicar prueba estadística que corresponda según las variables

Como los datos no son normales entonces aplicamos una prueba estadistica no parametrica.

Aplicamos la Prueba de Wilcoxon

HIPOTESIS

\(H_0\): No hay diferencia en los niveles de insulina entre personas diabéticos y no diabéticos.

\(H_1\): Hay diferencia en los niveles de insulina entre personas diabéticos y no diabéticos.

wilcox.test(diabetes$Outcome, diabetes$Insulin, data = datos, paired = FALSE)

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  diabetes$Outcome and diabetes$Insulin
## W = 193732, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0

Como p < 0.05 Se rechaza la hipotesis nula y se acepta la hipotesis alterna. Es decir, Hay diferencia en los niveles de insulina entre personas diabéticos y no diabéticos.

EXAMENIII

Yandry Lineth Marroquin Rubio

2025-05-30