Parcial
url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
"BMI", "DiabetesPedigreeFunction", "Age", "Outcome")
diabetes <- read.csv(url, header = FALSE, col.names = colnames)
head(diabetes)
## Pregnancies Glucose BloodPressure SkinThickness Insulin BMI
## 1 6 148 72 35 0 33.6
## 2 1 85 66 29 0 26.6
## 3 8 183 64 0 0 23.3
## 4 1 89 66 23 94 28.1
## 5 0 137 40 35 168 43.1
## 6 5 116 74 0 0 25.6
## DiabetesPedigreeFunction Age Outcome
## 1 0.627 50 1
## 2 0.351 31 0
## 3 0.672 32 1
## 4 0.167 21 0
## 5 2.288 33 1
## 6 0.201 30 0
Realizar:
Descripción de la data
Plantear hipótesis
Validar normalidad de las variables (según la hipótesis)
Realizar correlación
Aplicar prueba estadística que corresponda según las variables
Todo lo anterior realizarlo en un rpbus, enviar al correo el rmd y el enlace
Solucion
1 Descripción de la data
Aplicacion de datos para determinar si un paciente presenta diabetes en base al comportamiento de su cuerpo y como los factores del mismo hacen que un paciente presente o no diabetes, tomamos las variables glucosa e insulina para determinar nuestro comportamiento.
2. planteamiento de hipotesis general
\(h_0=\) El nivel de glucosa en sangre no esta relacionada con el nivel de insulina en en cuerpo
\(h_1=\) El nivel de glucosa en sangre esta relacionada con el nivel de insulina en el cuerpo
# Graficos para validar la normalidad de los datos
plot(diabetes$Glucose) # Se evidencia una distribucion anormal de los datos en toda la tabla
plot(diabetes$Insulin) # Se evidencia una distribucion anormal de los datos en toda la tabla
# Aplicacion de correlacion para identificar el comportamiento de los datos
cor.test(diabetes$Glucose,diabetes$Insulin)
##
## Pearson's product-moment correlation
##
## data: diabetes$Glucose and diabetes$Insulin
## t = 9.72, df = 766, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.2668687 0.3928914
## sample estimates:
## cor
## 0.3313571
# Presentando una corelacion debil del 33% pero que nos indica que los datos si esta relacionados, de manera ignifictaiva esto nos indica que el nivel de glucosa y el de insulina se encunentran relacionados
3. Validar normalidad de las variables (según la hipótesis)
\(h_0=\) Los datos son de tipo normal
\(h_1=\) Los datos son de tipo no normal
shapiro.test(diabetes$Glucose)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Glucose
## W = 0.9701, p-value = 1.986e-11
shapiro.test(diabetes$Insulin)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Insulin
## W = 0.72202, p-value < 2.2e-16
Teniendo asi que ambas son de tipo no normales por ser infeiores a 0.05 por nuestras hipotesis quedaria de la siguiente manera
Hay evidencia suficiente para rechazar nuestra hipotesis nula y aceptar nuestra hipoteisis alterna lo que nos indica que los datos son de tipo no normales
4. realizar correlacion
Este paso ya esta realizado en el primer punto
5. Aplicar prueba estadística que corresponda según las variables
Como los resultados obtenido son no normales aplicamos prueba de tipo no parametrica para este tipo que es analizar si una variable esta relacionada con otra usamos wilcox
wilcox.test(diabetes$Glucose,diabetes$Insulin)
##
## Wilcoxon rank sum test with continuity correction
##
## data: diabetes$Glucose and diabetes$Insulin
## W = 428442, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
Como nuestro p-valor es menor a 0.05 decimos que existe evidencia suficiente para rechazar nuestra hipotesis nula y aceptar nuestra hipoteisis alterna.
Conclusion
Con lo cual concluimos que el nivel de glucosa en sangre esta relacionada con el nivel de insulina en el cuerpo osea que entre mayor sea la resencia de glucosa en sangre mayor sera la presencia de insulina