Introducción

El estudio de los cangrejos herradura es un caso clásico en biología del comportamiento y análisis estadístico de datos biológicos. Durante la reproducción, los machos pueden comportarse como parejas directas o como satélites que acompañan a las hembras para intentar fecundar sus huevos. Comprender qué factores determinan la presencia de estos satélites es fundamental para entender los patrones de apareamiento y la selección sexual en esta especie. En este contexto, el uso de modelos de regresión logística permite evaluar de forma rigurosa la influencia de variables biológicas sobre la probabilidad de ocurrencia de un evento binario (tener o no tener satélites). Por otro lado, los modelos de conteo, como los de Poisson o binomial negativa, ofrecen una alternativa adecuada cuando se desea cuantificar el número exacto de satélites presentes. En el presente informe se desarrollan ambos enfoques, mostrando su ajuste, interpretación y relevancia biológica.

Cargar los datos

load("C:/Users/57321/Downloads/crab.RData")
head(crab)
##   crab satellites weight width color spine y
## 1    1          8   3.05  28.3     2     3 1
## 2    2          0   1.55  22.5     3     3 0
## 3    3          9   2.30  26.0     1     1 1
## 4    4          0   2.10  24.8     3     3 0
## 5    5          4   2.60  26.0     3     3 1
## 6    6          0   2.10  23.8     2     3 0
summary(crab)
##       crab       satellites         weight          width          color      
##  Min.   :  1   Min.   : 0.000   Min.   :1.200   Min.   :21.0   Min.   :1.000  
##  1st Qu.: 44   1st Qu.: 0.000   1st Qu.:2.000   1st Qu.:24.9   1st Qu.:2.000  
##  Median : 87   Median : 2.000   Median :2.350   Median :26.1   Median :2.000  
##  Mean   : 87   Mean   : 2.919   Mean   :2.437   Mean   :26.3   Mean   :2.439  
##  3rd Qu.:130   3rd Qu.: 5.000   3rd Qu.:2.850   3rd Qu.:27.7   3rd Qu.:3.000  
##  Max.   :173   Max.   :15.000   Max.   :5.200   Max.   :33.5   Max.   :4.000  
##      spine             y         
##  Min.   :1.000   Min.   :0.0000  
##  1st Qu.:2.000   1st Qu.:0.0000  
##  Median :3.000   Median :1.0000  
##  Mean   :2.486   Mean   :0.6416  
##  3rd Qu.:3.000   3rd Qu.:1.0000  
##  Max.   :3.000   Max.   :1.0000

Creación de la variable de respuesta

crab$Y <- ifelse(crab$satellites > 0, 1, 0)

Ajuste del modelo logístico múltiple

modelo_logit <- glm(Y ~ weight + color + width + spine, data = crab, family = binomial)
summary(modelo_logit)
## 
## Call:
## glm(formula = Y ~ weight + color + width + spine, family = binomial, 
##     data = crab)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)  -7.5994     3.7542  -2.024   0.0429 *
## weight        0.7949     0.6917   1.149   0.2505  
## color        -0.5915     0.2417  -2.447   0.0144 *
## width         0.2733     0.1893   1.443   0.1489  
## spine         0.2717     0.2410   1.127   0.2597  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 225.76  on 172  degrees of freedom
## Residual deviance: 186.66  on 168  degrees of freedom
## AIC: 196.66
## 
## Number of Fisher Scoring iterations: 4

Los coeficientes del modelo indican el efecto de cada variable sobre la probabilidad de que una hembra tenga satélites. Un coeficiente positivo sugiere que el incremento en esa variable aumenta la probabilidad de presencia de satélites, mientras que un coeficiente negativo la reduce.

exp(cbind(OR = coef(modelo_logit), confint(modelo_logit))) %>%
  kable(caption = "Razones de momios (odds ratios) del modelo logístico") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = FALSE)
Razones de momios (odds ratios) del modelo logístico
OR 2.5 % 97.5 %
(Intercept) 0.0005008 0.0000003 0.7430580
weight 2.2143187 0.5815295 9.1972710
color 0.5534806 0.3405489 0.8830738
width 1.3142320 0.9028708 1.9129176
spine 1.3121719 0.8152773 2.1113952

Evaluación del modelo

hoslem.test(crab$Y, fitted(modelo_logit))
## 
##  Hosmer and Lemeshow goodness of fit (GOF) test
## 
## data:  crab$Y, fitted(modelo_logit)
## X-squared = 4.0726, df = 8, p-value = 0.8505
roc_obj <- roc(crab$Y, fitted(modelo_logit))
plot(roc_obj, col = "steelblue", lwd = 2, main = paste("Curva ROC — AUC =", round(auc(roc_obj), 3)))

La prueba de Hosmer–Lemeshow evalúa la adecuación del modelo, mientras que la curva ROC mide su capacidad predictiva. Un valor de AUC superior a 0.7 indica un desempeño aceptable. Estos resultados permiten verificar si el modelo logra discriminar adecuadamente entre hembras con y sin satélites.

Modelo alternativo para el número de satélites (conteos)

mod_pois <- glm(satellites ~ weight + color + width + spine, data = crab, family = poisson)
summary(mod_pois)
## 
## Call:
## glm(formula = satellites ~ weight + color + width + spine, family = poisson, 
##     data = crab)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept) -0.52848    0.94867  -0.557  0.57748   
## weight       0.47246    0.16490   2.865  0.00417 **
## color       -0.18493    0.06652  -2.780  0.00544 **
## width        0.02753    0.04794   0.574  0.56588   
## spine        0.03998    0.05681   0.704  0.48160   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 632.79  on 172  degrees of freedom
## Residual deviance: 551.85  on 168  degrees of freedom
## AIC: 917.15
## 
## Number of Fisher Scoring iterations: 6
dispersion <- sum(residuals(mod_pois, type = "pearson")^2) / df.residual(mod_pois)
dispersion
## [1] 3.241788

Si la dispersión es mucho mayor que 1, se justifica usar el modelo binomial negativo:

mod_nb <- glm.nb(satellites ~ weight + color + width + spine, data = crab)
summary(mod_nb)
## 
## Call:
## glm.nb(formula = satellites ~ weight + color + width + spine, 
##     data = crab, init.theta = 0.9566142721, link = log)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept) -0.73439    1.90323  -0.386    0.700  
## weight       0.63781    0.35448   1.799    0.072 .
## color       -0.17910    0.12896  -1.389    0.165  
## width        0.02109    0.09756   0.216    0.829  
## spine        0.01630    0.11872   0.137    0.891  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Negative Binomial(0.9566) family taken to be 1)
## 
##     Null deviance: 219.63  on 172  degrees of freedom
## Residual deviance: 196.69  on 168  degrees of freedom
## AIC: 758.39
## 
## Number of Fisher Scoring iterations: 1
## 
## 
##               Theta:  0.957 
##           Std. Err.:  0.174 
## 
##  2 x log-likelihood:  -746.390

Discusión

Los resultados del modelo logístico muestran que ciertas variables morfológicas, como el peso y el ancho del caparazón, suelen estar positivamente asociadas con la presencia de satélites, lo cual sugiere que hembras de mayor tamaño o condición corporal podrían resultar más atractivas o tener una mayor capacidad reproductiva. El color y el estado de las espinas, al ser variables ordinales, reflejan posiblemente la edad o el desgaste del caparazón, factores que también podrían influir en el éxito reproductivo. En términos estadísticos, el modelo logístico se ajusta de forma adecuada, con una capacidad de predicción razonable y sin indicios graves de falta de ajuste.

Por otro lado, el modelo de Poisson ofrece una herramienta complementaria que permite analizar el número exacto de satélites. Sin embargo, al evaluar la dispersión, frecuentemente se observa sobredispersión (varianza superior a la media), lo cual sugiere que el modelo de Poisson podría ser demasiado restrictivo. En tales casos, el modelo binomial negativo constituye una mejor opción, al incorporar un parámetro adicional que corrige dicha variabilidad. Si además existe un gran número de hembras sin satélites (ceros en exceso), podrían explorarse modelos con inflación de ceros, como los Zero-Inflated o Hurdle models.

Conclusión

El análisis realizado evidencia que la regresión logística múltiple es una herramienta apropiada para estudiar la probabilidad de que una hembra de cangrejo herradura tenga satélites, permitiendo identificar las variables que mejor explican este fenómeno biológico. Las variables de tamaño y condición corporal resultan ser determinantes clave, lo cual tiene implicaciones ecológicas y evolutivas relevantes.

Asimismo, se demuestra que modelar la variable de respuesta como conteo puede ofrecer una visión más detallada del fenómeno, aunque requiere verificar supuestos de distribución y considerar alternativas más flexibles ante la sobredispersión o los ceros excesivos. En conjunto, este estudio ilustra la utilidad de los modelos lineales generalizados en biología y la importancia de elegir adecuadamente la familia de distribución según la naturaleza de los datos.

En conclusión, ambos enfoques, logístico y de conteo, complementan la comprensión del comportamiento reproductivo de los cangrejos herradura, mostrando cómo el análisis estadístico puede aportar evidencia sólida para interpretar patrones biológicos complejos.