Parcial

Parcial

url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
              "BMI", "DiabetesPedigreeFunction", "Age", "Outcome")

diabetes <- read.csv(url, header = FALSE, col.names = colnames)

head(diabetes)

##   Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
## 1           6     148            72            35       0 33.6
## 2           1      85            66            29       0 26.6
## 3           8     183            64             0       0 23.3
## 4           1      89            66            23      94 28.1
## 5           0     137            40            35     168 43.1
## 6           5     116            74             0       0 25.6
##   DiabetesPedigreeFunction Age Outcome
## 1                    0.627  50       1
## 2                    0.351  31       0
## 3                    0.672  32       1
## 4                    0.167  21       0
## 5                    2.288  33       1
## 6                    0.201  30       0

Realizar:

Descripción de la data
Plantear hipótesis
Validar normalidad de las variables (según la hipótesis)
Realizar correlación
Aplicar prueba estadística que corresponda según las variables
Todo lo anterior realizarlo en un rpbus, enviar al correo el rmd y el enlace

Solucion

1 Descripción de la data

Aplicacion de datos para determinar si un paciente presenta diabetes en base al comportamiento de su cuerpo y como los factores del mismo hacen que un paciente presente o no diabetes, tomamos las variables glucosa e insulina para determinar nuestro comportamiento.

2. planteamiento de hipotesis general

\(h_0=\) El nivel de glucosa en sangre no esta relacionada con el nivel de insulina en en cuerpo

\(h_1=\) El nivel de glucosa en sangre esta relacionada con el nivel de insulina en el cuerpo

# Graficos para validar la normalidad de los datos 

plot(diabetes$Glucose) # Se evidencia una distribucion anormal de los datos en toda la tabla

plot(diabetes$Insulin) # Se evidencia una distribucion anormal de los datos en toda la tabla

# Aplicacion de correlacion para identificar el comportamiento de los datos  

cor.test(diabetes$Glucose,diabetes$Insulin)

## 
##  Pearson's product-moment correlation
## 
## data:  diabetes$Glucose and diabetes$Insulin
## t = 9.72, df = 766, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2668687 0.3928914
## sample estimates:
##       cor 
## 0.3313571

# Presentando una corelacion debil del 33% pero que nos indica que los datos si esta relacionados, de manera ignifictaiva esto nos indica que el nivel de glucosa y el de insulina se encunentran relacionados

3. Validar normalidad de las variables (según la hipótesis)

\(h_0=\) Los datos son de tipo normal

\(h_1=\) Los datos son de tipo no normal

shapiro.test(diabetes$Glucose)

## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Glucose
## W = 0.9701, p-value = 1.986e-11

shapiro.test(diabetes$Insulin)

## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Insulin
## W = 0.72202, p-value < 2.2e-16

Teniendo asi que ambas son de tipo no normales por ser infeiores a 0.05 por nuestras hipotesis quedaria de la siguiente manera

Hay evidencia suficiente para rechazar nuestra hipotesis nula y aceptar nuestra hipoteisis alterna lo que nos indica que los datos son de tipo no normales

4. realizar correlacion

Este paso ya esta realizado en el primer punto

5. Aplicar prueba estadística que corresponda según las variables

Como los resultados obtenido son no normales aplicamos prueba de tipo no parametrica para este tipo que es analizar si una variable esta relacionada con otra usamos wilcox

wilcox.test(diabetes$Glucose,diabetes$Insulin)

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  diabetes$Glucose and diabetes$Insulin
## W = 428442, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0

Como nuestro p-valor es menor a 0.05 decimos que existe evidencia suficiente para rechazar nuestra hipotesis nula y aceptar nuestra hipoteisis alterna.

Conclusion

Con lo cual concluimos que el nivel de glucosa en sangre esta relacionada con el nivel de insulina en el cuerpo osea que entre mayor sea la resencia de glucosa en sangre mayor sera la presencia de insulina

Parcial_#3

Johan Smith Salas Urrea

2025-05-30