La base de datos Pima Indians Diabetes que indica si una persona tiene diabetes.

\(H_0=\) El historial familiar de diabetes no influye en si una persona tendra diabetes.
\(H_1=\) El historial familiar de diabetes influye en si una persona tendra diabetes.

Prueba de normalidad

url <- "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
# Cargar con nombres de columna
colnames <- c("Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin",
              "BMI", "DiabetesPedigreeFunction", "Age", "Outcome")

diabetes <- read.csv(url, header = FALSE, col.names = colnames)

head(diabetes)
##   Pregnancies Glucose BloodPressure SkinThickness Insulin  BMI
## 1           6     148            72            35       0 33.6
## 2           1      85            66            29       0 26.6
## 3           8     183            64             0       0 23.3
## 4           1      89            66            23      94 28.1
## 5           0     137            40            35     168 43.1
## 6           5     116            74             0       0 25.6
##   DiabetesPedigreeFunction Age Outcome
## 1                    0.627  50       1
## 2                    0.351  31       0
## 3                    0.672  32       1
## 4                    0.167  21       0
## 5                    2.288  33       1
## 6                    0.201  30       0
plot(diabetes$DiabetesPedigreeFunction)

plot(diabetes$Outcome)

shapiro.test(diabetes$DiabetesPedigreeFunction)
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$DiabetesPedigreeFunction
## W = 0.83652, p-value < 2.2e-16
shapiro.test(diabetes$Outcome)
## 
##  Shapiro-Wilk normality test
## 
## data:  diabetes$Outcome
## W = 0.60251, p-value < 2.2e-16

A travez de nuestros graficos podemos ver con antelación que nuetros datos no son normales ya que se ncuentran demasiados dispersos.

\(H_0=\) Los datos son normales.
\(H_1=\) Los datos no son normales.

Nuestra prueba de normalidad nos indica que nuestra dos variables son menores que 0.05, eso quiere decir que existe evidencia significativa por tanto se rechaza la hipotesis nula, es decir, nuestros datos no son normales.

Analisis de correlación

cor.test(diabetes$DiabetesPedigreeFunction, diabetes$Outcome, method= "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  diabetes$DiabetesPedigreeFunction and diabetes$Outcome
## t = 4.8858, df = 766, p-value = 1.255e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.1043836 0.2416168
## sample estimates:
##       cor 
## 0.1738441

En base a nuestro p valor que es menor que 0.05 se rechaza la hipotesis nula y se acepta la alterna, eso quiere decir que tener antecedentes familiares con diabetes si influye en si una persona tendrá o no diabetes y de acuerdo a nuestra correlación, nuestras dos variables tienen una correlacion positiva debíl.

Prueba estadística

dt_peque <- diabetes[, c("DiabetesPedigreeFunction", "Outcome")]
wilcox.test(diabetes$DiabetesPedigreeFunction,  diabetes$Outcome, paired = FALSE)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  diabetes$DiabetesPedigreeFunction and diabetes$Outcome
## W = 397668, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0

Como nuestro p valor es menor que 0.05 eso quiere decir que existe evidencia significativa por tanto se rechaza la hipotesis nula y se acepta la alterna, concluimos que el historial familiar de diabetes influye en si una persona tendra diabetes.