La base de datos Pima Indians Diabetes que indica si una persona tiene diabetes.
\(H_0=\) El historial familiar de
diabetes no influye en si una persona tendra diabetes.
\(H_1=\) El historial familiar de diabetes
influye en si una persona tendra diabetes.
Prueba de normalidad
url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
"BMI", "DiabetesPedigreeFunction", "Age", "Outcome")
diabetes <- read.csv(url, header = FALSE, col.names = colnames)
head(diabetes)
## Pregnancies Glucose BloodPressure SkinThickness Insulin BMI
## 1 6 148 72 35 0 33.6
## 2 1 85 66 29 0 26.6
## 3 8 183 64 0 0 23.3
## 4 1 89 66 23 94 28.1
## 5 0 137 40 35 168 43.1
## 6 5 116 74 0 0 25.6
## DiabetesPedigreeFunction Age Outcome
## 1 0.627 50 1
## 2 0.351 31 0
## 3 0.672 32 1
## 4 0.167 21 0
## 5 2.288 33 1
## 6 0.201 30 0
plot(diabetes$DiabetesPedigreeFunction)
plot(diabetes$Outcome)
shapiro.test(diabetes$DiabetesPedigreeFunction)
##
## Shapiro-Wilk normality test
##
## data: diabetes$DiabetesPedigreeFunction
## W = 0.83652, p-value < 2.2e-16
shapiro.test(diabetes$Outcome)
##
## Shapiro-Wilk normality test
##
## data: diabetes$Outcome
## W = 0.60251, p-value < 2.2e-16
A travez de nuestros graficos podemos ver con antelación que nuetros datos no son normales ya que se ncuentran demasiados dispersos.
\(H_0=\) Los datos son normales.
\(H_1=\) Los datos no son
normales.
Nuestra prueba de normalidad nos indica que nuestra dos variables son
menores que 0.05, eso quiere decir que existe evidencia significativa
por tanto se rechaza la hipotesis nula, es decir, nuestros datos no son
normales.
Analisis de correlación
cor.test(diabetes$DiabetesPedigreeFunction, diabetes$Outcome, method= "pearson")
##
## Pearson's product-moment correlation
##
## data: diabetes$DiabetesPedigreeFunction and diabetes$Outcome
## t = 4.8858, df = 766, p-value = 1.255e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.1043836 0.2416168
## sample estimates:
## cor
## 0.1738441
En base a nuestro p valor que es menor que 0.05 se rechaza la
hipotesis nula y se acepta la alterna, eso quiere decir que tener
antecedentes familiares con diabetes si influye en si una persona tendrá
o no diabetes y de acuerdo a nuestra correlación, nuestras dos variables
tienen una correlacion positiva debíl.
Prueba estadística
dt_peque <- diabetes[, c("DiabetesPedigreeFunction", "Outcome")]
wilcox.test(diabetes$DiabetesPedigreeFunction, diabetes$Outcome, paired = FALSE)
##
## Wilcoxon rank sum test with continuity correction
##
## data: diabetes$DiabetesPedigreeFunction and diabetes$Outcome
## W = 397668, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
Como nuestro p valor es menor que 0.05 eso quiere decir que existe evidencia significativa por tanto se rechaza la hipotesis nula y se acepta la alterna, concluimos que el historial familiar de diabetes influye en si una persona tendra diabetes.