Este conjunto de datos consiste en una colección longitudinal de 150 pacientes de 60 a 96 años. Cada paciente fue escaneado en dos o más visitas, separadas por al menos un año para un total de 373 sesiones de imágenes. Para cada paciente, se incluyen 3 o 4 imágenes de resonancia magnética individual ponderada obtenidas en sesiones de exploración única. Todos los pacientes son diestros e incluyen hombres y mujeres. 72 de los pacientes se caracterizaron como no dementes durante todo el estudio. 64 de los pacientes incluidos se caracterizaron como dementes en el momento de sus visitas iniciales y se mantuvieron así para los exámenes posteriores, incluidos 51 pacientes con enfermedad de Alzheimer leve a moderada. Otros 14 pacientes se caracterizaron como no dementes en el momento de su visita inicial y posteriormente se caracterizaron como dementes en una visita posterior.
La base de datos se encuentra en un reto de Kaggle, mediante este enlace se puede acceder https://www.kaggle.com/ruslankl/dementia-prediction-w-tree-based-models/data
Subject.ID : Identificador de pacientes.
MRI.ID: Identificador de resonancia magnética de cada paciente.
Group (Converted / Demented / Nondemented) : Clasificación de pacientes al inicio del estudio.
Visit : Numero de visitas.
MR.Delay : No cuenta con descripción.
M.F : Genero.
Age : Edad del paciente.
EDUC : Años de educación.
SES : Estado socioeconómico evaluado por el Índice de posición social de Hollingshead y clasificado en categorías de 1 (estado más alto) a 5 (estado más bajo).
MMSE : Cuestionario de 30 puntos que se usa ampliamente en entornos clínicos y de investigación para medir el deterioro cognitivo. Cualquier puntaje mayor o igual a 24 puntos (de 30) indica una cognición normal. Debajo de esto, los puntajes pueden indicar un deterioro cognitivo grave (≤9 puntos), moderado (10-18 puntos) o leve (19-23 puntos). Es posible que también deba corregirse el puntaje bruto para el nivel educativo y la edad.
CDR : Escala de 5 puntos utilizada para caracterizar seis dominios de rendimiento cognitivo y funcional aplicables a la enfermedad de Alzheimer y las demencias relacionadas: memoria, orientación, juicio y resolución de problemas, asuntos comunitarios, hogar y pasatiempos y cuidado personal. Este puntaje es útil para caracterizar y rastrear el nivel de discapacidad / demencia de un paciente.
eTIV : Volumen intracraneal total estimado en mm3.
nWBV : Volumen normalizado de todo el cerebro, expresado como un porcentaje de todos los vóxeles en la imagen enmascarada de atlas que el proceso automatizado de segmentación de tejidos etiqueta como materia gris o blanca.
ASF : Factor de escala Atlas. Factor de escala calculado que transforma el cerebro y el cráneo del espacio nativo en el objetivo del atlas (es decir, el determinante de la matriz de transformación).
La demencia es un término general para una disminución de la capacidad mental lo suficientemente grave como para interferir con la vida diaria. La pérdida de memoria es un ejemplo. La demencia no es una enfermedad específica. Es un término general que describe un grupo de síntomas asociados con una disminución de la memoria u otras habilidades de pensamiento lo suficientemente graves como para reducir la capacidad de una persona para realizar actividades cotidianas.
No hay una prueba para determinar si alguien tiene demencia. Los médicos diagnostican el Alzheimer y otros tipos de demencia con base en un historial médico cuidadoso, un examen físico, pruebas de laboratorio y los cambios característicos en el pensamiento, la función diaria y el comportamiento asociados con cada tipo. Los médicos pueden determinar que una persona tiene demencia con un alto nivel de certeza. Pero es más difícil determinar el tipo exacto de demencia porque los síntomas y los cambios cerebrales de las diferentes demencias pueden superponerse. En algunos casos, un médico puede diagnosticar “demencia” y no especificar un tipo. Si esto ocurre, puede ser necesario consultar a un especialista, como un neurólogo o gerosicólogo.
En este reporte se estudian diferentes modelos para predecir el nivel de demencia (para este esdio se recodican en dos niveles(0 = normal y 1= demencia) asociado a los pacientes, enfatizando principalmente en el uso de modelos jerárquicos.
A continuación, se realizara un pequeño análisis de datos faltantes y en dado caso se procederá a realizar la imputación correspondiente.
Podemos Observar que las variable que presenta valores faltantes son SES y MMSE, por lo cual se recure a la imputación, después de analizar la distribución de cada covariable se decide imputarlos los valores con la mediada para evitar sesgar los resultados.
En el anterior gráfico podemos observar correlaciones inversamente proporcionales altas entre las variables Volumen intracraneal (eTIV), Factor de escala Atlas (ASF) y Edad (Age), Volumen normalizado de todo el cerebro (nWBV). Ademas se observa que el genero del paciente (M.F) tiene comportamientos similares en todas las variables.
Se puede apreciar que a lo largo del estudio algunos pacientes puede cambiar de nivel de demencia, la causa del posible cambio de nivel de demencia puede deberse a varios facotores clinicos y de tratamiento, pero no es posible determinarla por falta de información. Solo se destaca que es una situación que se presenta en los datos.
x <- datos %>%
select(EDUC, CDR, Group) %>%
mutate(CDR = as.factor(CDR)) %>%
ggplot(aes(y = CDR, x = EDUC)) +
geom_jitter(aes(col = Group), alpha = 0.9) +
theme_light()
y <- datos %>%
mutate(CDR = as.factor(CDR)) %>%
select(SES, CDR, Group) %>%
mutate(CDR = as.factor(CDR)) %>%
ggplot(aes(y = CDR, x = SES)) +
geom_jitter(aes(col = Group), alpha = 0.9) +
theme_light()
p <- plot_grid(x, y)
title <- ggdraw() + draw_label("Distribución de la educación y el estado socioeconómico", fontface='bold')
plot_grid(title, p, ncol=1, rel_heights=c(0.1, 1))
No hay una relación clara entre el nivel de demencia CDR Y las variables nivel de educación EDUC y estrato socioeconomico SES.
Se puede observar que los resultados de MMMS de paciente no diagnosticados con Demencia se concentran cerca de una tasa de 27-30 puntos, los resultados MMSE de pacientes diagnosticados con Demencia parecen estar más dispersos, se creería que los que en resultados elevados de MMS hay menores casos de Demencia, sin embargo podemos ver que pacientes que tenían el puntaje MMSE más alto aún tenían un índice de demencia clínica. Para el caso de volumen intracraneal se presenta una situación similar.
El volumen intracraneal eTIV parece estar más disperso para pacientes diagnosticados como no dementes y se estrecha para pacientes diagnosticados con demencia CDR. Para el factor de escala Atlas y el diagnóstico de demencia cdr el comportamiento parece ser similar.
Para la clasificar el nivel de demencia se usara un modelos jerárquico multinomiales que tenga en cuenta el comportamiento individual de cada paciente, así como la inclusión de intercepto y pendientes aleatorias, para lo cual se seleccionaron las siguientes variables explicativas M.F, Age, EDUC, SES, MMSE, CDR, eTIV, nWBV y asf. Para optimizar y mejorar la convergencia de los modelos propuestos la variables se estandarizaran restando su media y dividiendo por la desviación estándar.
\[CDR \sim bernoulli(p_{i})\]
\[logit(p_{i})=\beta_{0} + \beta_{1}*M.F_{M} + \beta_{3}*Age + \beta_{4}*EDUC + \beta_{5}*SES_2 + \beta_{6}*SES_3 + \beta_{7}*SES_4 \] \[+ \beta_{8}*SES_5 + \beta_{9}*MMSE+ \beta_{10}*eTIV + \beta_{11}*nWBV + \beta_{12}*ASF + b_{0}\]
\[b_{0} \sim N(0, \sigma^2_{0})\]
\[CDR \sim bernoulli(p_{i})\] \[logit(p_{i})=\beta_{0}+\beta_{1}*M.F_{M}+\beta_{2}*Age+\beta_{3}*EDUC+\beta_{4}*MMSE+\beta_{5}*nWBV+b_{0}\]
\[b_{0} \sim N(0, \sigma^2_{0})\]
\[CDR \sim bernoulli(p_{i})\] \[logit(p_{i})=\beta_{0}+\beta_{1}*M.F_{M}+\beta_{2}*Age+\beta_{3}*EDUC+\beta_{4}*MMSE+\beta_{5}*nWBV + b_0 + b_1\]
\[\begin{pmatrix} \beta_{0} \\ \beta_{1} \end{pmatrix} \sim \left( \begin{pmatrix} 0 \\ 0 \end{pmatrix},\begin{pmatrix} \sigma^2_{b_{0}} & \sigma_{b_{0,1}} \\ \sigma_{b_{0,1}} & \sigma^2_{b_{1}} \end{pmatrix} \right)\]
\[CDR \sim bernoulli(p_{i})\] \[logit(p_{i})=\beta_{0}+\beta_{1}*M.F_M+\beta_2*Age+\beta_{3}*EDUC+\beta_{4}*SES_2+\beta_{5}*SES_3+\beta_{6}*SES_4\] \[+\beta_{7}*SES_5+\beta_8*MMSE+\beta_9*eTIV+\beta_{10}*nWBV + b_0\] \[b_{0} \sim N(0, \sigma^2_{0})\]
mod0 <- glmer(formula=CDR ~ M.F + Age + EDUC + SES + MMSE + eTIV + nWBV + ASF + ( 1 | Subject.ID),
family=binomial(link="logit"), glmerControl(optimizer = "bobyqa"),
data=datos, nAGQ = 1)
summary(mod0)
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: CDR ~ M.F + Age + EDUC + SES + MMSE + eTIV + nWBV + ASF + (1 |
## Subject.ID)
## Data: datos
## Control: glmerControl(optimizer = "bobyqa")
##
## AIC BIC logLik deviance df.resid
## 238 289 -106 212 360
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -13.9993 -0.0913 -0.0092 0.0353 4.1673
##
## Random effects:
## Groups Name Variance Std.Dev.
## Subject.ID (Intercept) 20.28 4.503
## Number of obs: 373, groups: Subject.ID, 150
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.9290 1.4577 0.637 0.52394
## M.FM 4.6205 1.8419 2.508 0.01213 *
## Age -1.8235 0.7400 -2.464 0.01373 *
## EDUC -2.5679 0.9744 -2.635 0.00841 **
## SES2 -2.3051 1.5957 -1.445 0.14858
## SES3 -1.0276 1.8637 -0.551 0.58138
## SES4 -4.7786 2.4067 -1.986 0.04708 *
## SES5 -7.9012 4.6168 -1.711 0.08700 .
## MMSE -6.6908 1.3599 -4.920 8.66e-07 ***
## eTIV -1.8340 3.5102 -0.522 0.60133
## nWBV -2.9134 1.0005 -2.912 0.00359 **
## ASF -0.5682 3.3392 -0.170 0.86489
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr) M.FM Age EDUC SES2 SES3 SES4 SES5 MMSE eTIV
## M.FM -0.344
## Age -0.048 -0.184
## EDUC -0.335 -0.394 0.280
## SES2 -0.702 -0.119 0.045 0.446
## SES3 -0.682 -0.004 -0.055 0.375 0.621
## SES4 -0.539 -0.352 0.196 0.709 0.623 0.530
## SES5 -0.487 -0.152 0.192 0.613 0.462 0.414 0.545
## MMSE -0.135 -0.377 0.371 0.349 0.133 0.001 0.295 0.300
## eTIV 0.122 -0.321 0.047 0.045 0.020 -0.011 0.093 -0.047 0.158
## nWBV 0.077 -0.412 0.685 0.428 0.056 -0.135 0.288 0.230 0.501 0.172
## ASF 0.088 -0.193 0.007 0.007 -0.011 -0.030 0.046 -0.086 0.121 0.978
## nWBV
## M.FM
## Age
## EDUC
## SES2
## SES3
## SES4
## SES5
## MMSE
## eTIV
## nWBV
## ASF 0.107
mod1 <- glmer(formula=CDR ~ M.F + Age + EDUC + MMSE + nWBV + (1 | Subject.ID),
family=binomial(link="logit"), glmerControl(optimizer = "bobyqa"),
data=datos, nAGQ = 1)
summary(mod1)
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: CDR ~ M.F + Age + EDUC + MMSE + nWBV + (1 | Subject.ID)
## Data: datos
## Control: glmerControl(optimizer = "bobyqa")
##
## AIC BIC logLik deviance df.resid
## 235.3 262.7 -110.6 221.3 366
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -10.6494 -0.0741 -0.0109 0.0436 6.3138
##
## Random effects:
## Groups Name Variance Std.Dev.
## Subject.ID (Intercept) 29.13 5.397
## Number of obs: 373, groups: Subject.ID, 150
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.5361 0.8939 -0.600 0.54871
## M.FM 3.1132 1.5260 2.040 0.04133 *
## Age -1.7408 0.7436 -2.341 0.01923 *
## EDUC -1.7473 0.7480 -2.336 0.01950 *
## MMSE -6.9433 1.4088 -4.928 8.29e-07 ***
## nWBV -3.0432 1.0558 -2.882 0.00395 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr) M.FM Age EDUC MMSE
## M.FM -0.653
## Age -0.099 -0.039
## EDUC 0.250 -0.365 0.213
## MMSE -0.001 -0.360 0.277 0.295
## nWBV 0.116 -0.237 0.618 0.431 0.422
mod2 <- glmer(formula=CDR ~ M.F + Age + EDUC + MMSE + nWBV + (1 + Age | Subject.ID),
family=binomial(link="logit"),
glmerControl(optimizer ='optimx', optCtrl=list(method='L-BFGS-B')),
data=datos, nAGQ = 1)
summary(mod2)
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: CDR ~ M.F + Age + EDUC + MMSE + nWBV + (1 + Age | Subject.ID)
## Data: datos
## Control:
## glmerControl(optimizer = "optimx", optCtrl = list(method = "L-BFGS-B"))
##
## AIC BIC logLik deviance df.resid
## 239.0 274.3 -110.5 221.0 364
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -11.2516 -0.0818 -0.0121 0.0454 5.6388
##
## Random effects:
## Groups Name Variance Std.Dev. Corr
## Subject.ID (Intercept) 26.8313 5.1799
## Age 0.3724 0.6102 -1.00
## Number of obs: 373, groups: Subject.ID, 150
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.5299 0.8737 -0.607 0.54417
## M.FM 2.9201 1.5013 1.945 0.05176 .
## Age -1.4781 0.8396 -1.760 0.07833 .
## EDUC -1.5990 0.7551 -2.118 0.03420 *
## MMSE -6.7926 1.3965 -4.864 1.15e-06 ***
## nWBV -2.9201 1.0516 -2.777 0.00549 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr) M.FM Age EDUC MMSE
## M.FM -0.625
## Age -0.135 -0.165
## EDUC 0.232 -0.411 0.353
## MMSE -0.002 -0.387 0.300 0.322
## nWBV 0.134 -0.257 0.586 0.452 0.447
## convergence code: 0
## boundary (singular) fit: see ?isSingular
mod3 <- glmer(formula=CDR ~ M.F + Age + EDUC + SES + MMSE + eTIV + nWBV + (1| Subject.ID),
family=binomial(link="logit"), glmerControl(optimizer = "bobyqa"),
data=datos, nAGQ = 1)
summary(mod3)
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: CDR ~ M.F + Age + EDUC + SES + MMSE + eTIV + nWBV + (1 | Subject.ID)
## Data: datos
## Control: glmerControl(optimizer = "bobyqa")
##
## AIC BIC logLik deviance df.resid
## 236.0 283.1 -106.0 212.0 361
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -13.9866 -0.0916 -0.0095 0.0360 4.1276
##
## Random effects:
## Groups Name Variance Std.Dev.
## Subject.ID (Intercept) 19.94 4.465
## Number of obs: 373, groups: Subject.ID, 150
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.9492 1.4409 0.659 0.51004
## M.FM 4.5686 1.7930 2.548 0.01083 *
## Age -1.8245 0.7382 -2.471 0.01346 *
## EDUC -2.5705 0.9717 -2.645 0.00816 **
## SES2 -2.3102 1.5878 -1.455 0.14568
## SES3 -1.0370 1.8532 -0.560 0.57579
## SES4 -4.7668 2.3944 -1.991 0.04650 *
## SES5 -7.9740 4.6307 -1.722 0.08507 .
## MMSE -6.6684 1.3485 -4.945 7.61e-07 ***
## eTIV -1.2527 0.7277 -1.722 0.08514 .
## nWBV -2.9002 0.9922 -2.923 0.00347 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr) M.FM Age EDUC SES2 SES3 SES4 SES5 MMSE eTIV
## M.FM -0.329
## Age -0.053 -0.188
## EDUC -0.340 -0.401 0.283
## SES2 -0.704 -0.127 0.050 0.449
## SES3 -0.682 -0.014 -0.053 0.378 0.620
## SES4 -0.549 -0.352 0.201 0.711 0.625 0.533
## SES5 -0.478 -0.172 0.189 0.610 0.458 0.409 0.546
## MMSE -0.149 -0.367 0.376 0.353 0.139 0.004 0.296 0.309
## eTIV 0.170 -0.639 0.184 0.174 0.148 0.089 0.226 0.168 0.187
## nWBV 0.063 -0.399 0.689 0.429 0.062 -0.132 0.287 0.238 0.498 0.311
Para realizar la comparación de modelos anidados, donde \(H_0:\Theta \in Θ_0\) versus \(H_A:\Theta \in Θ\) se hace usando la prueba de razón de verosimilitud expreseda de la siguiente manera:
\[LR=2(l(\Theta_0)-l(\hat{\Theta}_0))\] y el estadístico \(LR \sim X_{k-k_0}^2\), donde \(k\) es el número de parámetros del modelo estimado y \(k_0\) es el número de parámetros del modelo asumiendo \(H_0\) verdadera.
anova(mod0, mod1, mod2, mod3)
## Data: datos
## Models:
## mod1: CDR ~ M.F + Age + EDUC + MMSE + nWBV + (1 | Subject.ID)
## mod2: CDR ~ M.F + Age + EDUC + MMSE + nWBV + (1 + Age | Subject.ID)
## mod3: CDR ~ M.F + Age + EDUC + SES + MMSE + eTIV + nWBV + (1 | Subject.ID)
## mod0: CDR ~ M.F + Age + EDUC + SES + MMSE + eTIV + nWBV + ASF + (1 |
## mod0: Subject.ID)
## Df AIC BIC logLik deviance Chisq Chi Df Pr(>Chisq)
## mod1 7 235.29 262.74 -110.64 221.29
## mod2 9 239.04 274.33 -110.52 221.04 0.2478 2 0.88346
## mod3 12 236.04 283.10 -106.02 212.04 8.9947 3 0.02936 *
## mod0 13 238.02 289.00 -106.01 212.02 0.0290 1 0.86470
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
De acuerdo a la prueba de razón de verosimilitud se puede concluir que las variables que conforman el Modelo 3 son las más adecuadas para ajustar o clasificar el índice de demencia, en comparación con los demás modelos planteados.
rank <- ranef(mod3)
db <- data.frame(efectos=rank[["Subject.ID"]][["(Intercept)"]])
ggplot(db, aes(sample =efectos)) +
stat_qq() +
stat_qq_line() +
theme_light()
En el gráfico qqplot observamos un comportamiento extraño de colas pesadas, lo cual nos da indicios que el supuesto de normalidad en los efectos aleatorios del modelo presenta problemas, sin embargo no es motivo suficiente para continuar con la validación del modelo.
Para regresión logística, este gráfico residual vs valores ajustados no proporciona información sobre los supuestos de la forma del modelo.
En los gráficos de residuales no se observa ninguna desviación extrema a excepción de algunos puntos atípicos, También muestra una variación relativamente constante en toso el rango ajustado, por lo tanto podemos concluir que los supuestos de variación constante e independencia se cumplen.
\[CDR \sim bernoulli(p_{i})\] \[logit(p_{i})=0.95+4.57*M.F_M+-1.82*Age-2.57*EDUC+-2.31*SES_2+-1.04*SES_3+-4.77*SES_4\] \[-7.97*SES_5-6.67*MMSE-1.25*eTIV-2.90*nWBV + b_0\]
\[b_0 \sim N(0, 4.46)\]