Integrantes
Martelo Gomez Efrain
Martinez Ramirez Jonathan
Medina Guzmán Jeison
Torrres Rivera Elkin
Situación
Las pruebas diagnósticas en salud se reportan de manera cuantitativa mediante escalas continuas. Por ello el análisis de curvas ROC (receiver operating characteristic curve) constituye un método estadístico para determinar la exactitud diagnóstica de las pruebas, con el fin de: determinar el punto de corte de una escala continua que representa la mayor sensibilidad y especificidad más alta, su capacidad de diferenciar sujetos sanos versus enfermos, y comparar la capacidad discriminativa de dos o más pruebas diagnósticas.
En el presente informe se trabaja con los datos de 1030 sujetos que han sido valorados con respecto a aspectos demográficos, antropométricos, antecedentes familiares y personales, niveles de exámenes bioquímicos y su condición con respecto a clasificación de su estado de tolerancia a la glicemia.
Se realiza el análisis de comparaciones de curvas ROC con la base de datos en términos del mejor punto de predicción diagnóstico de diabetes mellitus (DM) con respecto a las variables índice de masa corporal IMC(PESO/TALLA^2), Perímetro de cintura (CINTURA), Perímetro de cadera (CADERA), y niveles de HDL Colesterol (HDL).
En el gráfico se puede apreciar que aproximadamente el 58% de las personas que padecen de DM son hombres, mientras que el 42% son mujeres, y aproximadamente el 42% de las personas que no padecen la enfermedad son hombres y el 58% son mujeres. Al parecer, la presencia o no de la enfermedad no depende del sexo, debido a los porcentajes similares que se presentan entre hombres y mujeres.
Para verificar este supuesto se aplica una prueba Chi-cuadrada. Las hipótesis a constrastar son las siguientes´:
\[H_{0}:La\ variable\ DM\ es\ independiente\ del\ Sexo.\] \[ H_{1}:La\ variable\ DM\ es\ dependiente\ del\ Sexo. \]
##
## Pearson's Chi-squared test
##
## data: TDM1
## X-squared = 0.05314, df = 1, p-value = 0.8177
Acorde a los resultados de esta prueba podemos apreciar que no hay evidencia estadistica significativa para rechazar la hipotesis nula, por lo cual la variable DM no depende del Sexo.
Pruebas de Normalidad
Se debe determinar la normailidad de las variables IMC, CINTURA, CADERA y HDL, con el fin de elegir entre una prueba parámétrica o no paramétrica, para comprobar la independecia o dependencia de la variable DM con las variables independientes mencionadas.
Para dicho propósito, se procede a construir gráficos que muestren de manera visual un indicio de normalidad o no normailidad de las variables independientes, además, de las pruebas análíticas que se pueden utilizar para ello.
Al observar el gráfico, se puede apreciar que la variable IMC parece no presentar una distribución normal, ya que los puntos cercanos a los extremos están alejados de la recta. Este supuesto se verifica con un test de Kolmogorov Smirnov, donde las hipótesis a contrastar se expresan a continuación.
\[H_{0}:La\ variable\ IMC\ posee\ distribuci\acute{o}n\ normal.\] \[ H_{1}:La\ variable\ IMC\ no\ posee\ distribuci\acute{o}n\ normal. \] Aplicando la prueba de Kolmogorov- Smirnov se tiene.
##
## One-sample Kolmogorov-Smirnov test
##
## data: IMC
## D = 0.99903, p-value < 2.2e-16
## alternative hypothesis: two-sided
Al obtenerse un p-valor menor que el nivel de significancia de 0.05, se rechaza la hipótésis nula, es decir que, con un nivel de confianza del 95% se puede inferir que la variable IMC no posee una distribución normal.
Al observar el gráfico, se puede apreciar que la variable CINTURA parece no presentar una distribución normal, ya que los puntos cercanos a los extremos están alejados de la recta. Este supuesto se verificará con un test de Kolmogorov Smirnov, donde las hipótesis a contrastar se expresan a continuación. \[H_{0}:La\ variable\ CINTURA\ posee\ distribuci\acute{o}n\ normal.\] \[ H_{1}:La\ variable\ CINTURA\ no\ posee\ distribuci\acute{o}n\ normal. \]
Aplicando la prueba de Kolmogorov- Smirnov se tiene.
##
## One-sample Kolmogorov-Smirnov test
##
## data: CINTURA
## D = 0.99903, p-value < 2.2e-16
## alternative hypothesis: two-sided
Al obtenerse un p-valor menor que el nivel de significancia de 0.05, se rechaza la hipótésis nula, es decir que, con un nivel de confianza del 95% se puede inferir que la variable CINTURA no posee una distribución normal.
Al observar el gráfico, se puede apreciar que la variable CADERA parece no presentar una distribución normal, ya que los puntos cercanos a los extremos están alejados de la recta. Este supuesto se verificará con un test de Kolmogorov Smirnov, donde las hipótesis a contrastar se expresan a continuación. \[H_{0}:La\ variable\ CADERA\ posee\ distribuci\acute{o}n\ normal.\] \[ H_{1}:La\ variable\ CADERA\ no\ posee\ distribuci\acute{o}n\ normal. \]
Aplicando la prueba de Kolmogorov- Smirnov se tiene.
##
## One-sample Kolmogorov-Smirnov test
##
## data: CADERA
## D = 0.99903, p-value < 2.2e-16
## alternative hypothesis: two-sided
Al obtenerse un p-valor menor que el nivel de significancia de 0.05, se rechaza la hipótésis nula, es decir que, con un nivel de confianza del 95% se puede inferir que la variable CADERA no posee una distribución normal.
Al observar el gráfico, se puede apreciar que la variable HDL parece no presentar una distribución normal, ya que los puntos cercanos a los extremos están alejados de la recta. Este supuesto se verificará con un test de Kolmogorov Smirnov, donde las hipótesis a contrastar se expresan a continuación. \[H_{0}:La\ variable\ HDL\ posee\ distribuci\acute{o}n\ normal.\] \[ H_{1}:La\ variable\ HDL\ no\ posee\ distribuci\acute{o}n\ normal. \]
Aplicando la prueba de Kolmogorov- Smirnov se tiene.
##
## One-sample Kolmogorov-Smirnov test
##
## data: HDL
## D = 0.99903, p-value < 2.2e-16
## alternative hypothesis: two-sided
Al obtenerse un p-valor menor que el nivel de significancia de 0.05, se rechaza la hipótésis nula, es decir que, con un nivel de confianza del 95% se puede inferir que la variable HDL no posee una distribución normal.
Pruebas de independencia de la variable dependiente DM y las variables independientes IMC, CINTURA, CADERA Y HDL.
Como las pruebas de normalidad arrojan p-valores menores que el valor de significancia de 0.05 para las variables IMC,CINTURA, CADERA y HDL, se puede inferir que ninguna de estas variables posee una distribución normal, por lo tanto, se aplican pruebas no paramétricas de Wilcoxon para contrastar la independencia vs la dependencia de dichas variables y la variable dependiente DM. De esta forma, las hipótesis a contrastar se expresan a continuación.
DM y IMC \[H_{0}:La\ variable\ DM\ es\ independiente\ del\ IMC.\] \[ H_{1}:La\ variable\ DM\ es\ dependiente\ del\ IMC. \]
##
## Wilcoxon rank sum test
##
## data: IMC by DM
## W = 37474, p-value = 1.389e-10
## alternative hypothesis: true location shift is not equal to 0
La prueba arroja un p-valor de 1.389e-10, el cual es menor que el nivel de significancia de 0.05, se rechaza la hipótesis nula, es decir que, con un nivel de significancia del 95% se tiene evidencia estadística suficiente para inferir que la DM es dependiente del IMC.
DM y CINTURA \[H_{0}:La\ variable\ DM\ es\ independiente\ del\ perímetro\ de\ la\ cintura.\] \[ H_{1}:La\ variable\ DM\ es\ dependiente\ del\ perímetro\ de\ la\ cintura. \]
##
## Wilcoxon rank sum test
##
## data: CINTURA by DM
## W = 27608, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
La prueba arroja un p-valor < 2.2e-16, y por lo tanto, menor que el nivel de significancia de 0.05, se rechaza la hipótesis nula, es decir que, con un nivel de significancia del 95% se tiene evidencia estadística suficiente para inferir que la DM es dependiente del perímetro de la cintura.
DM y CADERA \[H_{0}:La\ variable\ DM\ es\ independiente\ del\ perímetro\ de\ la\ cadera.\] \[ H_{1}:La\ variable\ DM\ es\ dependiente\ del\ perímetro\ de\ la\ cadera. \]
##
## Wilcoxon rank sum test
##
## data: CADERA by DM
## W = 36743, p-value = 2.86e-11
## alternative hypothesis: true location shift is not equal to 0
La prueba arroja un p-valor de 1.389e-10, el cual es menor que el nivel de significancia de 0.05, se rechaza la hipótesis nula, es decir que, con un nivel de significancia del 95% se tiene evidencia estadística suficiente para inferir que la DM es dependiente del perímetro de la cadera.
DM y HDL
\[H_{0}:La\ variable\ DM\ es\ independiente\ del\ HDL.\] \[ H_{1}:La\ variable\ DM\ es\ dependiente\ del\ HDL \]
##
## Wilcoxon rank sum test
##
## data: HDL by DM
## W = 72817, p-value = 1.449e-06
## alternative hypothesis: true location shift is not equal to 0
La prueba arroja un p-valor de 1.389e-10, el cual es menor que el nivel de significancia de 0.05, se rechaza la hipótesis nula, es decir que, con un nivel de significancia del 95% se tiene evidencia estadística suficiente para inferir que la DM es dependiente del HDL.
CURVA ROC
La curva ROC es una representación gráfica de la sensibilidad frente a la especificidad para un sistema clasificador binario según se varía el umbral de discriminación. Otra interpretación de este gráfico es la representación de la razón o proporción de verdaderos positivos (VPR = Razón de Verdaderos Positivos) frente a la razón o proporción de falsos positivos (FPR = Razón de Falsos Positivos) también según se varía el umbral de discriminación (valor a partir del cual decidimos que un caso es un positivo).
A continuación presentamos la curvas ROC en funcion del mejor punto de prediccion de diagnostico de diabetes Mellitus de cada una de las variables analizadas en este informe, en donde podemos observar el punto de cohorte de cada variable diagnostico.
En ese orden de ideas se puede apreciar la separación entre los grupos de enfermos y sanos, lo que permite representar la capacidad discriminatoria de una prueba para clasificar sanos como sanos y enfermos como enfermos. Ademas se presenta en cada gráfica el area bajo la curva (AUC), el cual es un parámetro que nos permite evaluar la bondad de una prueba diagnóstica que produce resultados contínuos. Esta área puede indicarnos la probabilidad de que ante un par de individuos, uno enfermo y el otro sano, la prueba los clasifique correctamente.
Con respecto a la prueba perímetro de cintura podemos observar la siguiente curva:
TABLA<-data.frame(IMC,CINTURA,CADERA,HDL,DM)
ROC.CINTURA<- roc(DM,CINTURA,auc=TRUE,ci=TRUE)
print(ROC.CINTURA)
##
## Call:
## roc.default(response = DM, predictor = CINTURA, auc = TRUE, ci = TRUE)
##
## Data: CINTURA in 901 controls (DM 0) < 128 cases (DM 1).
## Area under the curve: 0.7606
## 95% CI: 0.7218-0.7995 (DeLong)
plot.roc(ROC.CINTURA,legacy.axes = T, print.thres = "best", print.auc = TRUE,
auc.polygon = FALSE, max.auc.polygon = FALSE, auc.polygon.col = "gainsboro", col = 2, grid = TRUE,xlab="1-Especificidad",ylab="Sensibilidad" )
legend("bottomright", legend=c("DM VS CINTURA"), col=c("2"),lwd=1,pch = c(1),cex=0.7)
Podemos apreciar que para la prueba diagnóstico perímetro de cintura obtenemos un AUC de 0,761, lo que nos indica que este diagnostico tiene una probabilidad del 76,1% de clasificar a los enfermos como enfermos y a los exentos de enfermedad como sanos.
Con respecto a la prueba Indice de Masa Corporal (IMC) podemos observar la siguiente curva:
ROC.IMC<- roc(DM,IMC,auc=TRUE,ci=TRUE)
print(ROC.IMC)
##
## Call:
## roc.default(response = DM, predictor = IMC, auc = TRUE, ci = TRUE)
##
## Data: IMC in 901 controls (DM 0) < 128 cases (DM 1).
## Area under the curve: 0.6751
## 95% CI: 0.6293-0.7209 (DeLong)
plot.roc(ROC.IMC,legacy.axes = T, print.thres = "best", print.auc = TRUE,
auc.polygon = FALSE, max.auc.polygon = FALSE, auc.polygon.col = "gainsboro", col = 3, grid = TRUE,xlab="1-Especificidad",ylab="Sensibilidad" )
legend("bottomright", legend=c("DM VS IMC"), col=c("3"),lwd=1,pch = c(2),cex=0.7)
Podemos apreciar que para la prueba diagnóstico Indice de Masa Corporal (IMC) obtenemos un AUC de 0,675, lo que nos indica que este diagnóstico tiene una probabilidad del 67,5% de clasificar a los enfermos como enfermos y a los exentos de enfermedad como sanos.
Con respecto a la prueba Perímetro de Cadera podemos observar la siguiente curva:
ROC.CADERA<- roc(DM,CADERA,auc=TRUE,ci=TRUE)
print(ROC.IMC)
##
## Call:
## roc.default(response = DM, predictor = IMC, auc = TRUE, ci = TRUE)
##
## Data: IMC in 901 controls (DM 0) < 128 cases (DM 1).
## Area under the curve: 0.6751
## 95% CI: 0.6293-0.7209 (DeLong)
plot.roc(ROC.CADERA,legacy.axes = T, print.thres = "best", print.auc = TRUE,
auc.polygon = FALSE, max.auc.polygon = FALSE, auc.polygon.col = "gainsboro", col = 7, grid = TRUE,xlab="1-Especificidad",ylab="Sensibilidad" )
legend("bottomright", legend=c("DM VS CADERA"), col=c("7"),lwd=1,pch = c(13),cex=0.7)
Podemos apreciar que para la prueba diagnóstico perímetro de cadera obtenemos un AUC de 0,681, lo que nos indica que este diagnóstico tiene una probabilidad del 68,1% de clasificar a los enfermos como enfermos y a los exentos de enfermedad como sanos.
Con respecto a la prueba Colesterol HDL podemos observar la siguiente curva:
ROC.HDL<- roc(DM,HDL,auc=TRUE,ci=TRUE)
print(ROC.IMC)
##
## Call:
## roc.default(response = DM, predictor = IMC, auc = TRUE, ci = TRUE)
##
## Data: IMC in 901 controls (DM 0) < 128 cases (DM 1).
## Area under the curve: 0.6751
## 95% CI: 0.6293-0.7209 (DeLong)
plot.roc(ROC.HDL,legacy.axes = T, print.thres = "best", print.auc = TRUE,
auc.polygon = FALSE, max.auc.polygon = FALSE, auc.polygon.col = "gainsboro", col = 6, grid = TRUE,xlab="1-Especificidad",ylab="Sensibilidad")
legend("bottomright", legend=c("DM VS DHL"), col=c("6"),lwd=1,pch = c(8),cex=0.7)
Podemos apreciar que para la prueba diagnóstico colesterol HDL obtenemos un AUC de 0,631, lo que nos indica que este diagnóstico tiene una probabilidad del 63,1% de clasificar a los enfermos como enfermos y a los exentos de enfermedad como sanos.
Luego de presentar las distintas curvas ROC en funcion de cada prueba diagnostico, se realiza un grafico en conjunto donde podemos comparar la capacidad discriminatoria de las distintas pruebas.
ROC.CINTURA<- roc(DM,CINTURA,auc=TRUE,ci=TRUE)
print(ROC.CINTURA)
##
## Call:
## roc.default(response = DM, predictor = CINTURA, auc = TRUE, ci = TRUE)
##
## Data: CINTURA in 901 controls (DM 0) < 128 cases (DM 1).
## Area under the curve: 0.7606
## 95% CI: 0.7218-0.7995 (DeLong)
plot.roc(ROC.CINTURA,legacy.axes = T, print.thres = "best", print.auc = TRUE,
auc.polygon = FALSE, max.auc.polygon = FALSE, auc.polygon.col = "gainsboro", col = 2, grid = TRUE,xlab="1-Especificidad",ylab="Sensibilidad" )
ROC.IMC <-roc(DM,IMC,auc=TRUE)
print(ROC.IMC)
##
## Call:
## roc.default(response = DM, predictor = IMC, auc = TRUE)
##
## Data: IMC in 901 controls (DM 0) < 128 cases (DM 1).
## Area under the curve: 0.6751
plot(ROC.IMC, add=TRUE, col = 3)
ROC.CADERA<-roc(DM,CADERA,auc=TRUE,ci=F)
print(ROC.CADERA)
##
## Call:
## roc.default(response = DM, predictor = CADERA, auc = TRUE, ci = F)
##
## Data: CADERA in 901 controls (DM 0) < 128 cases (DM 1).
## Area under the curve: 0.6814
plot(ROC.CADERA, add=TRUE, col = 7)
ROC.HDL<-roc(DM,HDL,auc=TRUE, print.auc = FALSE,ci=TRUE)
print(ROC.HDL)
##
## Call:
## roc.default(response = DM, predictor = HDL, auc = TRUE, ci = TRUE, print.auc = FALSE)
##
## Data: HDL in 901 controls (DM 0) > 128 cases (DM 1).
## Area under the curve: 0.6314
## 95% CI: 0.5779-0.6849 (DeLong)
plot.roc(ROC.HDL, add=TRUE,col = 6)
legend("bottomright", legend=c("DM VS CINTURA","DM VS IMC","DM VS CADERA","DM VS DHL"), col=c("2","3","7","6"),lwd=1,pch = c(1,2,13,8),cex=0.7)
En este gráfico en conjunto, podemos apreciar que todas las pruebas diagnóstico tienen un AUC por encima del 0,5, lo que nos permite indicar que todas las pruebas tienen capacidad de discriminación o clasificación, siendo el diagnóstico relacionado con perímetro de cintura la prueba que presenta mejor punto diagnóstico de diabetes mellitus.