2025-05-16
Zamora, T. Jesús D1. info.thowinsson@gmail.com
Barranquilla-Colombia.
Considere los datos PROS. Realize un análisis de regresión logística tomando a CAPSULE como variable dependiente y VOL como variable independiente.
##
## Call:
## glm(formula = CAPSULE ~ VOL, family = binomial, data = datos)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.178542 0.138541 -1.289 0.1975
## VOL -0.013817 0.006116 -2.259 0.0239 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 511.26 on 378 degrees of freedom
## Residual deviance: 505.86 on 377 degrees of freedom
## (1 observation deleted due to missingness)
## AIC: 509.86
##
## Number of Fisher Scoring iterations: 4
\[ \log\left(\frac{1-p}{p}\right) = -0.1785 - 0.0138 \cdot \text{VOL} \]
Donde:
\(𝑝\) es la probabilidad de que CAPSULE = 1 (es decir, que haya penetración capsular).
VOL es el volumen del tumor.
| Parámetro | Estimación | Valor p | Interpretación |
|---|---|---|---|
| Intercepto | -0.1785 | 0.1975 | No significativo. No importa demasiado si no hay contexto clínico. |
| VOL | -0.0138 | 0.0239 | Significativo (p < 0.05). A medida que el volumen aumenta, disminuye la probabilidad de CAPSULE = 1. |
Para facilitar la interpretación, convertimos los coeficientes logarítmicos en odds ratios (OR):
## (Intercept) VOL
## 0.8364889 0.9862779
## 2.5 % 97.5 %
## (Intercept) 0.6370444 1.0973512
## VOL 0.9741764 0.9978833
Aquí comparamos el modelo con \(VOL\) frente al modelo nulo (sin variables independientes) para evaluar si \(VOL\) mejora significativamente la explicación de \(CAPSULE\).
# Crear subconjunto limpio sin NAs en CAPSULE y VOL
datos_limpios <- na.omit(datos[, c("CAPSULE", "VOL")])
# Ajustar modelo nulo con datos limpios
modelo_nulo <- glm(CAPSULE ~ 1, data = datos_limpios, family = binomial)
# Ajustar modelo con VOL con datos limpios
modelo <- glm(CAPSULE ~ VOL, data = datos_limpios, family = binomial)
# Comparar modelos con prueba de razón de verosimilitud
anova(modelo_nulo, modelo, test = "Chisq")El volumen del tumor (\(VOL\)) es un predictor estadísticamente significativo para la penetración capsular (\(CAPSULE\)), como lo indica la prueba de devianza (\(valor-p = 0.02015 \< 0.05\)). Esto significa que incluir VOL mejora significativamente el ajuste del modelo logístico respecto al modelo nulo.
La relación entre \(VOL\) y la probabilidad de penetración capsular es negativa. Por cada aumento unitario en el volumen, la odds de que ocurra penetración capsular disminuye ligeramente, según la pendiente negativa observada en la gráfica y el odds ratio estimado menor que 1.
Aunque el efecto es pequeño, el modelo sugiere que tumores con mayor volumen tienen una probabilidad menor de penetración capsular en el conjunto de datos analizado.
Estos resultados invitan a investigar posibles explicaciones clínicas o biológicas para este patrón, o bien a revisar la calidad y representatividad de los datos utilizados.
Si el valor \(p\) de la prueba es menor que \(0.05\), indicará que el modelo con \(VOL\) es significativamente mejor que el modelo nulo para explicar la variable \(CAPSULE\).
Si no, \(VOL\) no aporta información relevante para predecir \(CAPSULE\).
Generamos las probabilidades predichas de penetración capsular en función de \(VOL\) y graficamos la curva logística junto con los puntos observados.
# Crear subconjunto limpio sin NAs en CAPSULE y VOL
datos_limpios <- na.omit(datos[, c("CAPSULE", "VOL")])
# Ajustar modelo con datos limpios
modelo <- glm(CAPSULE ~ VOL, data = datos_limpios, family = binomial)
# Obtener probabilidades predichas para datos limpios
datos_limpios$prob_predicha <- predict(modelo, type = "response")
# Mostrar algunas filas para verificar
head(datos_limpios[, c("VOL", "CAPSULE", "prob_predicha")])# Gráfico: dispersión y curva logística usando datos limpios
plot(datos_limpios$VOL, datos_limpios$CAPSULE,
main = "Probabilidad de penetración capsular según Volumen (VOL)",
xlab = "VOL (Volumen del tumor)",
ylab = "CAPSULE (0 = no, 1 = sí)",
pch = 16, col = "gray")
# Agregar curva de probabilidades predichas
curve(predict(modelo, data.frame(VOL = x), type = "response"),
col = "blue", lwd = 2, add = TRUE)La línea azul desciende a medida que el volumen aumenta, lo que indica que: A mayor volumen del tumor, menor es la probabilidad de penetración capsular.
La relación entre \(VOL\) y \(CAPSULE\) es negativa: el odds ratio fue menor a 1 (≈ 0.986), lo cual coincide con la pendiente descendente en la gráfica.
El modelo sugiere que por cada unidad adicional en el volumen, la odds de que haya penetración capsular disminuyen ligeramente.
\(VOL\) es un predictor estadísticamente significativo de CAPSULE (\(p=0.0239\)).
El coeficiente negativo indica que a mayor volumen, la probabilidad de penetración capsular disminuye.
La comparación con el modelo nulo confirma que el modelo con \(VOL\) es mejor.
La visualización muestra claramente la relación estimada entre volumen y probabilidad de penetración.
Jesús David Zamora Thowinsson. Economista y Administrador Pública, Especialista en estadística aplicada, Candidato Magíster Scientiarum en gerencia empresarial, Magíster en estadística aplicada↩︎