1 Introducción

El objetivo del análisis fue modelar la probabilidad de que una hembra de cangrejo herradura tenga al menos un macho satélite usando una regresión logística múltiple. Para ello se consideraron variables morfométricas (peso y ancho, previamente centradas y escaladas), y dos variables categóricas/ordinales relacionadas con la apariencia y el estado de las espinas (color y spine). La variable respuesta y codifica presencia/ausencia de satélites (1 = al menos un satélite, 0 = ninguno). ## Escalado de variables

Las variables continuas weight y width fueron transformadas mediante centrado y escala (función scale) de modo que sus valores representan desviaciones estándar respecto de la media. Esta transformación estandariza las unidades, lo que facilita la comparación entre coeficientes y la interpretación de los efectos como cambios por unidad de desviación estándar. También sitúa el intercepto del modelo en una referencia interpretable (individuo con medidas medias), lo que clarifica la interpretación numérica del término constante.

crab$weight_scaled <- scale(crab$weight, center = TRUE, scale = TRUE)
crab$width_scaled <- scale(crab$width, center = TRUE, scale = TRUE)

2 Modelización

El modelo logístico ajustado fue y ~ weight_scaled + width_scaled + color + spine con enlace logit. La tabla de ajuste indica una reducción de deviance desde el modelo nulo (null deviance = 225.76) al modelo ajustado (residual deviance = 186.66), y un AIC de 196.66, lo que refleja que el conjunto de predictores aporta información relevante frente a la ausencia de predictores.

mod_crabs <- glm(y ~ weight_scaled + width_scaled + color + spine,
                 family = binomial(link = "logit"), data = crab)

3 Visualización del modelo

Los factores de inflación de la varianza (VIF) arrojaron valores moderados: aproximadamente 3.34 para weight_scaled y 3.32 para width_scaled, y alrededor de 1.18 para color y spine, lo que indica ausencia de colinealidad extrema y refleja una correlación moderada entre las medidas de tamaño corporal. En la estimación de coeficientes, color resultó estadísticamente significativo (p = 0.0144) con coeficiente negativo, mientras que weight_scaled y width_scaled mostraron coeficientes positivos pero no alcanzaron significancia individual (p > 0.1). El intercepto fue significativo (p = 0.0287). Las odds ratios exponenciadas son las siguientes: intercepto ≈ 4.59, weight_scaled ≈ 1.58, width_scaled ≈ 1.78, color ≈ 0.55 y spine ≈ 1.31. Estas magnitudes indican que, manteniendo las demás covariables constantes, incrementos en peso y ancho están asociados a mayores odds de presencia de satélites, mientras que incrementos en la escala de color están asociados a menores odds. La significancia estadística se observa únicamente para color, mientras que las demás variables presentan estimadores con incertidumbre suficiente como para no declarar un efecto distinto de cero al nivel de significancia convencional. Desde la perspectiva biológica, la asociación negativa observada entre la escala de color y la probabilidad de presencia de satélites sugiere que la coloración de la hembra podría estar transmitiendo señales relevantes para la conducta de apareamiento o para la detección por parte de los machos. La dirección de ese efecto permite plantear hipótesis: por ejemplo, que ciertas tonalidades podrían estar asociadas a estado fisiológico, madurez o comportamiento de ocultamiento, y que los machos satélites responden diferencialmente a esas señales visuales. De manera análoga, los efectos positivos estimados para tamaño (peso y ancho) son congruentes con la idea de que hembras de mayor tamaño representan recursos reproductivos más atractivos o detectables, lo cual frecuentemente se observa en especies con competencia sexual por acceso a hembras.

vif(mod_crabs)
## weight_scaled  width_scaled         color         spine 
##      3.335610      3.324872      1.184911      1.176121
summary(mod_crabs)
## 
## Call:
## glm(formula = y ~ weight_scaled + width_scaled + color + spine, 
##     family = binomial(link = "logit"), data = crab)
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)  
## (Intercept)     1.5243     0.6968   2.188   0.0287 *
## weight_scaled   0.4587     0.3991   1.149   0.2505  
## width_scaled    0.5763     0.3993   1.443   0.1489  
## color          -0.5915     0.2417  -2.447   0.0144 *
## spine           0.2717     0.2410   1.127   0.2597  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 225.76  on 172  degrees of freedom
## Residual deviance: 186.66  on 168  degrees of freedom
## AIC: 196.66
## 
## Number of Fisher Scoring iterations: 4
exp(coef(mod_crabs))
##   (Intercept) weight_scaled  width_scaled         color         spine 
##     4.5918579     1.5820211     1.7794533     0.5534806     1.3121719

4 Curva ROC

La curva ROC del modelo ilustra el comportamiento del clasificador binario a lo largo de todos los umbrales posibles, comparando sensibilidad frente a tasa de falsos positivos. El área bajo la curva (AUC) obtenida es 0.7701, lo que indica una capacidad discriminatoria buena: la probabilidad de que el modelo asigne una mayor probabilidad a una hembra con satélite frente a una sin satélite es del orden del 77 %. La forma de la curva, alejada de la diagonal de referencia, corrobora visualmente este desempeño.

prob <- predict(mod_crabs, type = "response")
roc_obj <- roc(crab$y, prob)
plot(roc_obj, col = "blue")

auc(roc_obj)
## Area under the curve: 0.7701

5 Ajuste de umbral y trade-off sensibilidad/especificidad

El umbral que optimiza el criterio de Youden fue aproximadamente 0.6298611. En ese punto, la sensibilidad es aproximadamente 0.7117 y la especificidad aproximadamente 0.7097, lo que significa que el umbral elegido produce un equilibrio simétrico entre la capacidad para detectar hembras con satélites y la capacidad para identificar hembras sin satélites. La selección del umbral define el compromiso entre falsos positivos y falsos negativos y establece el punto de operación del clasificador para uso práctico.

coords(roc_obj, "best", ret = c("threshold", "sensitivity", "specificity"))

6 Matriz de confusión

Con el umbral óptimo (≈0.6299) la matriz de confusión resultante es: 44 verdaderos negativos, 18 falsos positivos, 32 falsos negativos y 79 verdaderos positivos. Estas cifras se traducen en una exactitud global cercana al 71 %, una sensibilidad alrededor del 71 % (proporción de positivos correctamente detectados) y una especificidad alrededor del 71 % (proporción de negativos correctamente clasificados). La precisión (proporción de predicciones positivas correctas) se sitúa en torno al 81 % y el F1-score se aproxima a 0.76, lo que refleja un balance favorable entre precisión y sensibilidad en el punto de operación seleccionado.

pred_opt <- ifelse(prob >= 0.6298611, 0.7117117, 0.7096774)
table(Predicted = pred_opt, Observed = crab$y)
##            Observed
## Predicted    0  1
##   0.7096774 44 32
##   0.7117117 18 79

7 Conclusión

El ajuste final del modelo logístico muestra que la variable color es el predictor estadísticamente más consistente de la presencia de satélites en hembras de cangrejo herradura, con una asociación negativa entre la escala de color y las odds de presencia de satélites. Las medidas de tamaño corporal (weight y width), presentadas en unidades de desviación estándar, muestran signos de asociación positiva con la probabilidad de satélites y generan odds ratios superiores a 1, aunque sus efectos no resultan significativos individualmente en el ajuste con las covariables incluidas. La capacidad discriminatoria del modelo, medida por el AUC, es del orden de 0.77 y el umbral operativo identificado ofrece un equilibrio razonable entre sensibilidad y especificidad (ambas ≈ 0.71). Interpretadas en conjunto, las asociaciones modeladas ofrecen un marco cuantitativo para comprender patrones reproductivos en cangrejos herradura: la coloración emerge como un predictor robusto y las medidas de tamaño corporal figuran como correlatos biológicamente plausibles de interés reproductivo, aunque con incertidumbre estadística en la estimación individual. Estos resultados permiten vincular los insights estadísticos con procesos ecológicos y conductuales