2025-05-16

Zamora, T. Jesús D1.

Barranquilla-Colombia.

Ejercicios de Practicas

1 21.0.6 Ejercicios 11

Considere los datos PROS. Realize un análisis de regresión logística tomando a CAPSULE como variable dependiente y VOL como variable independiente.

1.1 Paso 1. Carga de datos

# Verificar si el paquete 'lsm' está instalado; si no, instalarlo
if (!require("lsm")) {
  install.packages("lsm")
  library(lsm)
} else {
  library(lsm)
}

# Cargar los datos
datos <- lsm::pros
attach(datos)

1.2 Paso 2. Ajustar el modelo de regresión logística

## 
## Call:
## glm(formula = CAPSULE ~ VOL, family = binomial, data = datos)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)  
## (Intercept) -0.178542   0.138541  -1.289   0.1975  
## VOL         -0.013817   0.006116  -2.259   0.0239 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 511.26  on 378  degrees of freedom
## Residual deviance: 505.86  on 377  degrees of freedom
##   (1 observation deleted due to missingness)
## AIC: 509.86
## 
## Number of Fisher Scoring iterations: 4

1.3 Interpretación del modelo ajustado

\[ \log\left(\frac{1-p}{p}\right) = -0.1785 - 0.0138 \cdot \text{VOL} \]

Donde:

  • \(𝑝\) es la probabilidad de que CAPSULE = 1 (es decir, que haya penetración capsular).

  • VOL es el volumen del tumor.

1.4 Interpretación de coeficientes:

Parámetro Estimación Valor p Interpretación
Intercepto -0.1785 0.1975 No significativo. No importa demasiado si no hay contexto clínico.
VOL -0.0138 0.0239 Significativo (p < 0.05). A medida que el volumen aumenta, disminuye la probabilidad de CAPSULE = 1.

1.5 paso 3. Cálculo de Odds Ratios

Para facilitar la interpretación, convertimos los coeficientes logarítmicos en odds ratios (OR):

# Calcular odds ratios
exp(coef(modelo))
## (Intercept)         VOL 
##   0.8364889   0.9862779
# Calcular intervalos de confianza al 95% para los OR
exp(confint(modelo))
##                 2.5 %    97.5 %
## (Intercept) 0.6370444 1.0973512
## VOL         0.9741764 0.9978833

1.6 Paso 4. Comparación con el modelo nulo (Prueba de razón de verosimilitud)

Aquí comparamos el modelo con \(VOL\) frente al modelo nulo (sin variables independientes) para evaluar si \(VOL\) mejora significativamente la explicación de \(CAPSULE\).

# Crear subconjunto limpio sin NAs en CAPSULE y VOL
datos_limpios <- na.omit(datos[, c("CAPSULE", "VOL")])

# Ajustar modelo nulo con datos limpios
modelo_nulo <- glm(CAPSULE ~ 1, data = datos_limpios, family = binomial)

# Ajustar modelo con VOL con datos limpios
modelo <- glm(CAPSULE ~ VOL, data = datos_limpios, family = binomial)

# Comparar modelos con prueba de razón de verosimilitud
anova(modelo_nulo, modelo, test = "Chisq")

1.7 Salida del Modelo

  1. El volumen del tumor (\(VOL\)) es un predictor estadísticamente significativo para la penetración capsular (\(CAPSULE\)), como lo indica la prueba de devianza (\(valor-p = 0.02015 \< 0.05\)). Esto significa que incluir VOL mejora significativamente el ajuste del modelo logístico respecto al modelo nulo.

  2. La relación entre \(VOL\) y la probabilidad de penetración capsular es negativa. Por cada aumento unitario en el volumen, la odds de que ocurra penetración capsular disminuye ligeramente, según la pendiente negativa observada en la gráfica y el odds ratio estimado menor que 1.

  3. Aunque el efecto es pequeño, el modelo sugiere que tumores con mayor volumen tienen una probabilidad menor de penetración capsular en el conjunto de datos analizado.

  4. Estos resultados invitan a investigar posibles explicaciones clínicas o biológicas para este patrón, o bien a revisar la calidad y representatividad de los datos utilizados.

1.8 Interpretación:

Si el valor \(p\) de la prueba es menor que \(0.05\), indicará que el modelo con \(VOL\) es significativamente mejor que el modelo nulo para explicar la variable \(CAPSULE\).

Si no, \(VOL\) no aporta información relevante para predecir \(CAPSULE\).

1.9 Paso 5. Predicciones y visualización

Generamos las probabilidades predichas de penetración capsular en función de \(VOL\) y graficamos la curva logística junto con los puntos observados.

# Crear subconjunto limpio sin NAs en CAPSULE y VOL
datos_limpios <- na.omit(datos[, c("CAPSULE", "VOL")])

# Ajustar modelo con datos limpios
modelo <- glm(CAPSULE ~ VOL, data = datos_limpios, family = binomial)

# Obtener probabilidades predichas para datos limpios
datos_limpios$prob_predicha <- predict(modelo, type = "response")

# Mostrar algunas filas para verificar
head(datos_limpios[, c("VOL", "CAPSULE", "prob_predicha")])
# Gráfico: dispersión y curva logística usando datos limpios
plot(datos_limpios$VOL, datos_limpios$CAPSULE,
     main = "Probabilidad de penetración capsular según Volumen (VOL)",
     xlab = "VOL (Volumen del tumor)",
     ylab = "CAPSULE (0 = no, 1 = sí)",
     pch = 16, col = "gray")

# Agregar curva de probabilidades predichas
curve(predict(modelo, data.frame(VOL = x), type = "response"),
      col = "blue", lwd = 2, add = TRUE)

1.10 Interpretación de la grafica

  • La línea azul desciende a medida que el volumen aumenta, lo que indica que: A mayor volumen del tumor, menor es la probabilidad de penetración capsular.

  • La relación entre \(VOL\) y \(CAPSULE\) es negativa: el odds ratio fue menor a 1 (≈ 0.986), lo cual coincide con la pendiente descendente en la gráfica.

  • El modelo sugiere que por cada unidad adicional en el volumen, la odds de que haya penetración capsular disminuyen ligeramente.

2 Resumen final del análisis

  • \(VOL\) es un predictor estadísticamente significativo de CAPSULE (\(p=0.0239\)).

  • El coeficiente negativo indica que a mayor volumen, la probabilidad de penetración capsular disminuye.

  • La comparación con el modelo nulo confirma que el modelo con \(VOL\) es mejor.

  • La visualización muestra claramente la relación estimada entre volumen y probabilidad de penetración.


  1. Jesús David Zamora Thowinsson. Economista y Administrador Pública, Especialista en estadística aplicada, Candidato Magíster Scientiarum en gerencia empresarial, Magíster en estadística aplicada↩︎