# Introducción

La diabetes mellitus se trata de un grupo de enfermedades que afectan al metabolismo de los alimentos, caracterizándose por la presencia en sangre de altos niveles de glucosa (hiperglucemia) devenida de cambios extremos en la producción de insulina o también por cambios en la actuación de dicha hormona sobre los tejidos insulinodependientes. La hiperglucemia crónica asociada a esta condición acarrea alteraciones en los procesos del metabolismo de los glúcidos, proteínas y lípidos, pero también provoca lesiones en los tejidos oculares, nerviosos, coronarios, vasculares, renales y de otros órganos a largo plazo. Según datos de la OMS, para 2014 existían más de 442 millones de casos de diabetes a nivel global, lo cual representa un incremento de aproximadamente 309% respecto a los datos recogidos para 1980. En la siguiente imagen se aprecia la clasificación de la diabetes mellitus.

Aunque son varias las patologías que se vinculan a los casos de la diabetes mellitus, en mayor parte se corresponden a dos condiciones: diabetes mellitus tipo 1 (DM1) y tipo 2 (DM2). La primera condición, DM1, involucra una insuficiencia completa en la secreción de insulina, la cual se suele asociar a la destrucción del tejido pancreático por parte de respuestas autoinmunes. La segunda condición, DM2 y de mayor prevalencia que DM1, se debe tanto a factores que restringen la acción de la hormona (frecuentemente aquellos relacionados con la obesidad) como a una descompensación en la respuesta secretora del páncreas. A continuación, se presenta el análisis estadístico de una base de datos sobre la prevalencia de la diabetes mediante el programa estadístico R y el entorno de desarrollo integrado (IDE) RStudio.

# Set de datos

El dataset empleado fue obtenido a través del sitio web del Departamento de Bioestadística de la Universidad de Vanderbilt y disponible mediante la URL https://hbiostat.org/data/repo/diabetes.xls. Su formato es Excel (extensión .xls) y fue elaborado por el Dr. John Schorling del Departamento de Medicina de la Universidad de Virginia (Facultad de Medicina). Consta de 403 observaciones que registran datos para 19 variables distintas relacionadas con personas afroamericanas provenientes de los condados de Buckingham y Louisa de Virginia (Estados Unidos) que fueron examinadas para diagnosticar la diabetes mellitus. Los datos forman parte de un estudio más grande (1046 individuos) que, además de la diabetes, examinó la prevalencia de la obesidad y riesgos cardiovasculares en la población afroamericana de esta localidad en 1997.
Aunque se recogen muchas variables, en este trabajo nos interesaremos por el colesterol total, la glucosa estabilizada o hdl, el ratio, que es una relacion entre hdl y colesterol, la cual tambien nos indica si el individuo es diabético (a partir de 7, se considera diabético). Tambien nos fijaremos en la edad y el peso (el cual esta en libras).

# Hipótesis principal

Deseamos observar si existe una relación entre colesterol y diabetes. La casi totalidad de estudios sobre el tema muestran que existe una clara relación entre estos, por eso esperamos observar que efectivamente, en el set de datos estudiado, se puede observar esta.

# Hipótesis secundarias

Tambien queremos observar si existe relacion entre el colesterol y la edad, entre el peso y el ratio y el colesterol y el peso. La relacion entre edad y colesterol nos interesa para poder ver si existe alguna correlacion entre edad y diabetes. por otro lado, buscar la relacion del peso con el ratio y el colesterol nos permitira ver si es posible predecir la probabilidad de que una persona con un mayor peso tenga diabetes.

library(readxl)
diabetes <- read_excel("Desktop/Carpeta diabetes/diabetes.xls")
View(diabetes)



## Relación entre diabetes y col

library(readxl)
diabetes <- read_excel("Desktop/Carpeta diabetes/diabetes.xls")

#Creo una nueva matriz con los datos iniciales para poder trabajar sobre ellos sin cambiarlos
#Puesto que a partir de un ratio de 7 es considerado diabetico, considero a todos los que tengas un ratio de más de 7 diabéticos y al resto no

diabetes2<-diabetes

diabetes2$ratio[diabetes$ratio<=7]<-"ND"
diabetes2$ratio[diabetes$ratio>7]<-"D"

#Relacion entre col y diabetes
#Busco ver la relacion entre tener el colesterol alto y tener diabetes con un test anova
#Para eso Separo a diabéticos y no diabéticos en dos grupos

GrupoDiabetes <- diabetes2[diabetes2$ratio == "D", ]
GrupoNoDiabetes <- diabetes2[diabetes2$ratio == "ND", ]

#Lo siguiente que hago es quedarme solo con los datos de colesterol de cada grupo

colD<-matrix(GrupoDiabetes$chol)
colND<-matrix(GrupoNoDiabetes$chol)

t.test(colD,colND,alternative = "two.sided")
## 
##  Welch Two Sample t-test
## 
## data:  colD and colND
## t = 3.9098, df = 25.17, p-value = 0.0006185
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  25.17682 81.18626
## sample estimates:
## mean of x mean of y 
##  257.7200  204.5385
summary(t.test(colD,colND,alternative = "two.sided"))
##             Length Class  Mode     
## statistic   1      -none- numeric  
## parameter   1      -none- numeric  
## p.value     1      -none- numeric  
## conf.int    2      -none- numeric  
## estimate    2      -none- numeric  
## null.value  1      -none- numeric  
## alternative 1      -none- character
## method      1      -none- character
## data.name   1      -none- character
D<-mean(colD)
ND<-mean(colND)
A<-c(D,ND)

#barplot(A,col=c("orange","blue"), names.arg =c("Diabético","No Diabético"),ylab = "Colesterol en sangre")

#Puesto que el plot que tengo hecho en el script no se traduce al markdown, incluyo el codigo del script en forma de texto y el resultado

Podemos observar en el plot que es apreciable una diferencia en la mdia de colesterol de los diabéticos y no diabéticos. Realizando un t.test observamos que efectivamente, existe una diferencia de medias significativas entre ambos grupos(p-value = 0.0006185)



## Diferencia de colesterol entre diabéticos y no diabéticos

library(readxl)
library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.5     ✓ purrr   0.3.4
## ✓ tibble  3.1.6     ✓ dplyr   1.0.7
## ✓ tidyr   1.1.4     ✓ stringr 1.4.0
## ✓ readr   2.1.1     ✓ forcats 0.5.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
diabetesS <- diabetes

diabetesS$ratio[diabetesS$ratio<=7]<-0
diabetesS$ratio[diabetesS$ratio>7]<-1

diabetesS <- data.frame(diabetesS)


#Separo en grupos

GrupoDiabetesS <- diabetesS[diabetesS$ratio == 1, ]
GrupoNoDiabetesS <- diabetesS[diabetesS$ratio == 0, ]


#Boxplot para visualizzar el test de Wilcoxon (Existen outliers)

boxplot(GrupoDiabetesS$chol, GrupoNoDiabetesS$chol, col = c("green", "blue"), ylab = "Nivel de colesterol en la sangre" , names = c("D","ND"))



Hemos realizado un diagrama de bigotes para poder visualizar mejor la diferencia de medias entre los dos grupos. Esto nos permite ver que, efectivamente, el grupo de diabétcos tiene de media mas colesterol que los no diabéticos, sin embargo existen algunos outliers. Para comprobar si esta diferencia es significativa utilizaremos el test de wilcoxon.

wilcox.test(GrupoDiabetesS$chol, GrupoNoDiabetesS$chol, alternative = "two.sided")
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  GrupoDiabetesS$chol and GrupoNoDiabetesS$chol
## W = 7245, p-value = 6.771e-06
## alternative hypothesis: true location shift is not equal to 0



El p-value (p-value = 6.771e-06) arrojado por el test wilcoxon es muy bajo, por lo que podemos afirmar sin miedo que los diabeticos tienen de media una mayor tasa de colesterol que aquellos que no tienen diabetes.

#Regresion lineal para determinar la relacion que existe entre el nivel de colesterol en la sangre y la edad

model <- lm(chol ~ age, data = diabetesS)
model
## 
## Call:
## lm(formula = chol ~ age, data = diabetesS)
## 
## Coefficients:
## (Intercept)          age  
##    178.1260       0.6344
summary(model)
## 
## Call:
## lm(formula = chol ~ age, data = diabetesS)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -142.630  -25.225   -5.206   24.238  232.520 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 178.1260     6.5638  27.138  < 2e-16 ***
## age           0.6344     0.1323   4.794  2.3e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 43.27 on 400 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.05434,    Adjusted R-squared:  0.05198 
## F-statistic: 22.99 on 1 and 400 DF,  p-value: 2.304e-06
scatter.smooth(x=diabetesS$age, y=diabetesS$chol , xlab = "Edad" , ylab = "Colesterol")



Si estudiamos la relación entre edad y colesterol podemos ver que existe una clara relacion lineal entre ambas. el p-value: 2.304e-06 es mas que suficiente para afirmarlo y el gráfico de dispersión nos permite intuir esta relación.

#Regresion lineal entre peso y ratio
#Primero creo un diabetes3 sin los NA


model2 <- lm(ratio ~ weight, data = diabetes)
model2
## 
## Call:
## lm(formula = ratio ~ weight, data = diabetes)
## 
## Coefficients:
## (Intercept)       weight  
##     2.37178      0.01211
summary(model2)
## 
## Call:
## lm(formula = ratio ~ weight, data = diabetes)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.1365 -1.1645 -0.2400  0.7905 14.0821 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.371776   0.376477   6.300 7.88e-10 ***
## weight      0.012111   0.002066   5.863 9.52e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.661 on 399 degrees of freedom
##   (2 observations deleted due to missingness)
## Multiple R-squared:  0.07933,    Adjusted R-squared:  0.07702 
## F-statistic: 34.38 on 1 and 399 DF,  p-value: 9.524e-09
scatter.smooth(x= diabetes$weight, y= diabetes$ratio, xlab = "Peso" , ylab = "Ratio")

#Regresion linear para determinar la relacion entre colesterol y peso

model3<- lm( chol~weight , data = diabetes)
model3
## 
## Call:
## lm(formula = chol ~ weight, data = diabetes)
## 
## Coefficients:
## (Intercept)       weight  
##   194.98642      0.07363
summary(model3)
## 
## Call:
## lm(formula = chol ~ weight, data = diabetes)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -125.75  -29.50   -3.24   22.62  230.71 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 194.98642   10.02215  19.456   <2e-16 ***
## weight        0.07363    0.05499   1.339    0.181    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 44.21 on 399 degrees of freedom
##   (2 observations deleted due to missingness)
## Multiple R-squared:  0.004474,   Adjusted R-squared:  0.001979 
## F-statistic: 1.793 on 1 and 399 DF,  p-value: 0.1813
scatter.smooth(x=diabetes$weight, y=diabetes$chol, xlab = "Peso", ylab = "Colesterol")

t.test
## function (x, ...) 
## UseMethod("t.test")
## <bytecode: 0x7ff36cd6f0b0>
## <environment: namespace:stats>



Como podemos observar con estas dos ultimas regresiones lineares, podemos establecer una relación linear entre peso y ratio, sin embargo, no podemos hacer lo mismo del peso y el colesterol (p-values de 9.524e-09 y 0.1813 respectivamente). Estas dos informaciones parecen ser contradictorias puesto que colesterol y ratio estan estrechamente relacionadas, sin embargo, se puede deber a una gran diversidad de factores. Esto se puede deber en parte a que el colesterol por si mismo no es un indicador suficientemente fuerte de diabetes puesto que es la relacion con el hdl lo que indica si existe un problema.

Conclusiones

1.La relación entre diabetes y colesterol es fuerte. Un gran nivel de colesterol en sangre aumenta la probabilidad de ser diabético.

2.Existe una relacion lineal entre diabetes y edad. Cuanto mayor se es, más probable es que se tenga diabetes.

3.Existe una relacion entre el ratio colesterol/hdl y el peso. Un mayor peso significa que es más probable tener diabetes.

4.No existe una fuerte relación entre peso y colesterol. Aunque por el reasto del trabajo se podria suponer que a mayor peso, mayor nivel de colesterol, los resultados muestran que no es necesariamente cierto.