Introducción
La Neurofibromatosis Tipo 1 (NF1) es una enfermedad genética caracterizada por un amplio espectro de manifestaciones clínicas, entre ellas manchas café-au-lait, pecas axilares, neurofibromas y diversos tumores. Debido a la variabilidad de sus síntomas y a la importancia de identificar factores asociados al desarrollo de tumores, resulta relevante aplicar métodos estadísticos que permitan evaluar la relación entre diferentes signos clínicos y la probabilidad de presentar complicaciones tumorales.
En este trabajo se realizó un análisis de regresión logistica binaria utilizando una base de datos real sobre pacientes con NF1. El objetivo principal fue evaluar si variables clínicas como el tipo de caso (familiar o esporádico), la presencia de pecas, manchas café-au-lait y neurofibromas permiten predecir la probabilidad de desarrollar un tumor. Para ello se construyó el modelo logístico, se analizaron sus coeficientes, significancia estadística e importancia relativa de los predictores y se generaron gráficos de apoyo como curvas logísticas, boxplots y diagramas de barras. Además, con el fin de determinar la capacidad predictiva del modelo, se implementó una matriz de confusión, se calcularon medidas de rendimiento como sensibilidad, especificidad y exactitud y se elaboró la curva ROC y el AUC, que fueron fundamentales para evaluar la discriminación del modelo.
Resultados
## [1] "...1" "Case Type"
## [3] "Tumour Case" "Age of Mother"
## [5] "Age of Father" "Age at First Diagnosis"
## [7] "Café au lait (CLS)" "Axillary Freckles"
## [9] "Inguinal Freckles" "Lisch Nodules"
## [11] "Dermal Neurofibromins" "Plexiform Neurofibromins"
## [13] "Optic Glioma" "Skeletal Dysplasia"
## [15] "Learning Disability" "Hypertension"
## [17] "Astrocytoma" "Hamartoma"
## [19] "Scoliosis" "Other Symptoms"
## [21] "...21" "...22"
## [23] "...23"
## Generalized Linear Model
##
## 296 samples
## 4 predictor
## 2 classes: '0', '1'
##
## No pre-processing
## Resampling: Bootstrapped (25 reps)
## Summary of sample sizes: 296, 296, 296, 296, 296, 296, ...
## Resampling results:
##
## Accuracy Kappa
## 0.6996953 0.02039031
##
## Call: NULL
##
## Coefficients:
## (Intercept) CaseType Freckles CafeSpots Neurofibromas
## -0.1303 0.2105 -0.2520 -0.9166 0.1665
##
## Degrees of Freedom: 295 Total (i.e. Null); 291 Residual
## Null Deviance: 349.4
## Residual Deviance: 343 AIC: 353
##
## Call:
## NULL
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.1303 0.4810 -0.271 0.7865
## CaseType 0.2105 0.2641 0.797 0.4254
## Freckles -0.2520 0.2749 -0.917 0.3593
## CafeSpots -0.9166 0.4822 -1.901 0.0573 .
## Neurofibromas 0.1665 0.2964 0.562 0.5743
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 349.35 on 295 degrees of freedom
## Residual deviance: 342.97 on 291 degrees of freedom
## AIC: 352.97
##
## Number of Fisher Scoring iterations: 4
## glm variable importance
##
## Overall
## CafeSpots 100.00
## Freckles 26.51
## CaseType 17.58
## Neurofibromas 0.00
El intercepto representa la probabilidad estimada de tumor cuando todas las variables predictorias son iguales a 0. En este caso significa que incluso un pacientes que no presente antecedentes familiares, sin pecas axilares, sin manchas cafés-au-lait y sin los neurofibromas, el modelo le precide una probabilidad inicial de aproximadamente 47% de presentar tumor. Sin embargo, el valor p = 0.79 indica que el intercepto no es estadisticamente significativo, por lo que se asociaría al azar.
De las variables del modelo, se evidencio que Café-au-lait (100 %) es la variable más influyente. Su importancia coincide con su coeficiente más grande (en valor absoluto) y su p cercano a significancia, siendo esta la variable de la que el modelo depende fuertemente para distinguir entre pacientes con y sin tumor. Por otro lado, freckles (26.5 %) y CaseType (17.6 %) tienen una contribución moderada a baja, así que portan algo de información al modelo, pero su capacidad para predecir el tumor es limitada. Esto coincide con sus altos valores p. Por ultimo la variable de neurofibromas (0 %) no aporta información útil al modelo, ya que su coeficiente es pequeño, su valor p alto y su importancia es nula.
Debido a que manchas cafés-au-lait fue la variable que presentó un valor signficativo, se realizó una curva logistica para poder evaluar de forma independiente su efecto sobre la probabilidad estimada de presentar tumor. En el gráfico se observa una pendiente negativa, que da a entender que a medida que aumenta la presencia o intensidad de la manchas cafés-au-lait, la probabilidad de desarrollar un tumor disminuye, lo que sugiere que las manchas actuan como un factor protector o inversamente asociado con la aparición de tumores en la muestra analizada. Esta tendencia coincide con los resultados del modelo estadístico: la variable presenta un coeficiente más grande en valor absoluto y un p-value cercano al umbral de significancia (0.0573).
Este boxplot permite comparar la distribución del tipo de caso (CaseType: esporádico o familiar) entre los pacientes con y sin tumor. En el gráfico, el grupo sin tumor se representa de un color morado, mientras que el grupo con tumor aparece en verde. Las dos cajas evidencian alturas y posiciones similares, indicando que la proporción de casos familiares y esporádicos no cambia de manera significativa entre los pacientes que desarrollan o no tumor. Esta similitud entre las distribuciones de las cajas confirma la evidencia estadística obtenida por el modelo, donde el CaseType tiene un coeficiente pequeño y un p-value elevado, lo que sugiere que el antecedente familiar no es un predictor relevante para la aparición de tumores.
## 1
## 0.2845825
## Tumour CaseType Freckles CafeSpots Neurofibromas
## 25 0 1 1 1 1
## X25
## 0.2845825
## CaseType Freckles CafeSpots Neurofibromas Probabilidad
## 1 0 0 0 0 0.4674755
## 2 1 0 0 0 0.5200473
## 3 0 1 0 0 0.4055827
## 4 1 1 0 0 0.4571696
## 5 0 0 1 0 0.2598317
## 6 1 0 1 0 0.3023085
## 7 0 1 1 0 0.2143640
## 8 1 1 1 0 0.2519378
## 9 0 0 0 1 0.5090437
## 10 1 0 0 1 0.5613623
## 11 0 1 0 1 0.4462594
## 12 1 1 0 1 0.4986795
## 13 0 0 1 1 0.2930985
## 14 1 0 1 1 0.3385263
## 15 0 1 1 1 0.2437263
## 16 1 1 1 1 0.2845825
## Combinacion
## 1 Freckles:0 | Cafe:0 | Neuro:0
## 2 Freckles:0 | Cafe:0 | Neuro:0
## 3 Freckles:1 | Cafe:0 | Neuro:0
## 4 Freckles:1 | Cafe:0 | Neuro:0
## 5 Freckles:0 | Cafe:1 | Neuro:0
## 6 Freckles:0 | Cafe:1 | Neuro:0
## 7 Freckles:1 | Cafe:1 | Neuro:0
## 8 Freckles:1 | Cafe:1 | Neuro:0
## 9 Freckles:0 | Cafe:0 | Neuro:1
## 10 Freckles:0 | Cafe:0 | Neuro:1
## 11 Freckles:1 | Cafe:0 | Neuro:1
## 12 Freckles:1 | Cafe:0 | Neuro:1
## 13 Freckles:0 | Cafe:1 | Neuro:1
## 14 Freckles:0 | Cafe:1 | Neuro:1
## 15 Freckles:1 | Cafe:1 | Neuro:1
## 16 Freckles:1 | Cafe:1 | Neuro:1
La predicción individual muestra que un paciente con antecedentes familiares y presencia de los tres síntomas principales tiene una probabilidad estimada del 28.5% de desarrollar un tumor. Cuando se evaluan todas estas combinaciones de síntomas, se observa un patrón claro: la presencia de manchas cafés-au-lait es el factor que más reduce la probabilidad, actuando como un posible efecto protector. Otros síntomas como pecas y neurofibromas tienen efectos más débiles y no son significativos, aunque si se pertenece a un caso familiar se aumenta la probabilidad ligeramente, pero al igual que los demás, es muy poco significativo.
El diagrama de barras permite comparar la probabilidad estimada de tumor para cada combinación posible de síntomas y tipo de caso. Las probabilidades obtenidas por el modelo van entre 0.21 y 0.56, lo que indica niveles de riesgo bajos a moderados. Además, se observa que los casos familiares tienden a presentar probabilidades un poco mayores que los casos esporádicos, sin embargo, estas diferencias son pequeñas y no representan un efecto muy marcado. El patrón que se ve más claro es el asociado a las manchas cafés-au-lait: las combinaciones donde esta variable está presente muestran probabilidades más bajas, confirmando que tienen un efecto negativo en el riesgo de presentar un tumor. Por el contrario, cuando las combinaciones de manchas cafés-au-lait presentan valores más altos, lo que coincide con la importancia dominante de esta variable en el modelo.
## Confusion Matrix and Statistics
##
## Reference
## Prediction 0 1
## 0 41 15
## 1 1 1
##
## Accuracy : 0.7241
## 95% CI : (0.591, 0.8334)
## No Information Rate : 0.7241
## P-Value [Acc > NIR] : 0.566826
##
## Kappa : 0.0531
##
## Mcnemar's Test P-Value : 0.001154
##
## Sensitivity : 0.06250
## Specificity : 0.97619
## Pos Pred Value : 0.50000
## Neg Pred Value : 0.73214
## Prevalence : 0.27586
## Detection Rate : 0.01724
## Detection Prevalence : 0.03448
## Balanced Accuracy : 0.51935
##
## 'Positive' Class : 1
##
## Area under the curve: 0.5432
La matriz de confusióm permite evaluar el desempeño del modelo al comparar sus predicciones con los valores reales. Para este caso el modelo clasificó correctamente 41 personas sin tumor (TN), pero solo detectó 1 caso real de tumor (TP), además, dejó sin identificar a 15 personas que sí tenían tumor (FN) y predijo mal un tumor donde no lo había (FP). Si bien el accuracy obtenido parece alto, este indicador puede ser engañoso, ya que hay un desbalance en la base de datos: aproximadamente el 72% son casos sin tumor y solo el 28% son tumores, por ello es que el modelo solo termina acertando principalmente a los caso en los que no hay tumor, pero falla evidentemente al detectar los casos en los que sí hay tumor, mostrando su sensibilidad baja (6%), indicando que solo identifica 1 de cada 16 casos con tumor. La especificidad alta (97%) confirma que el modelo es bueno clasificando casos que negativos, pero deja mucho que desear para los casos positivos, demostrandose tambien en la exactitud balanceada (0.519) que es cercana al azar.
La curva ROC refuerza esto, ya que en el gráfico la curva aparece muy cercana a la diagonal gris, lo que indica que el modelo casi no distingue entre personas con y sin tumor. El AUC = 0.5432 se encuentra apenas por encima de 0.5, valor que corresponde a los modelos sin capacidad discriminativa, por lo que se considera un modelo con una utilidad clinica muy limitada.
Conclusiones
Estos resultados sugieren que los predictores utilizados (tipo de caso, manchas café-au-lait, pecas axilares y neurofibromas dérmicos) no son suficientes para construir un modelo robusto de predicción del tumor en estos pacientes, por lo que se recomienda incluir más variables y balancear la base de datos para mejorar el rendimiento.
Café-au-lait fue la variable más influyente, según el gráfico de importancia del modelo, pero su coeficiente negativo indica una relacion inversa: a mayor presencia, menor probabilidad de tumor.