El estudio de los cangrejos herradura es un caso clásico en biología del comportamiento y análisis estadístico de datos biológicos. Durante la reproducción, los machos pueden comportarse como parejas directas o como satélites que acompañan a las hembras para intentar fecundar sus huevos. Comprender qué factores determinan la presencia de estos satélites es fundamental para entender los patrones de apareamiento y la selección sexual en esta especie. En este contexto, el uso de modelos de regresión logística permite evaluar de forma rigurosa la influencia de variables biológicas sobre la probabilidad de ocurrencia de un evento binario (tener o no tener satélites). Por otro lado, los modelos de conteo, como los de Poisson o binomial negativa, ofrecen una alternativa adecuada cuando se desea cuantificar el número exacto de satélites presentes. En el presente informe se desarrollan ambos enfoques, mostrando su ajuste, interpretación y relevancia biológica.
load("C:/Users/57321/Downloads/crab.RData")
head(crab)
## crab satellites weight width color spine y
## 1 1 8 3.05 28.3 2 3 1
## 2 2 0 1.55 22.5 3 3 0
## 3 3 9 2.30 26.0 1 1 1
## 4 4 0 2.10 24.8 3 3 0
## 5 5 4 2.60 26.0 3 3 1
## 6 6 0 2.10 23.8 2 3 0
summary(crab)
## crab satellites weight width color
## Min. : 1 Min. : 0.000 Min. :1.200 Min. :21.0 Min. :1.000
## 1st Qu.: 44 1st Qu.: 0.000 1st Qu.:2.000 1st Qu.:24.9 1st Qu.:2.000
## Median : 87 Median : 2.000 Median :2.350 Median :26.1 Median :2.000
## Mean : 87 Mean : 2.919 Mean :2.437 Mean :26.3 Mean :2.439
## 3rd Qu.:130 3rd Qu.: 5.000 3rd Qu.:2.850 3rd Qu.:27.7 3rd Qu.:3.000
## Max. :173 Max. :15.000 Max. :5.200 Max. :33.5 Max. :4.000
## spine y
## Min. :1.000 Min. :0.0000
## 1st Qu.:2.000 1st Qu.:0.0000
## Median :3.000 Median :1.0000
## Mean :2.486 Mean :0.6416
## 3rd Qu.:3.000 3rd Qu.:1.0000
## Max. :3.000 Max. :1.0000
crab$Y <- ifelse(crab$satellites > 0, 1, 0)
modelo_logit <- glm(Y ~ weight + color + width + spine, data = crab, family = binomial)
summary(modelo_logit)
##
## Call:
## glm(formula = Y ~ weight + color + width + spine, family = binomial,
## data = crab)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -7.5994 3.7542 -2.024 0.0429 *
## weight 0.7949 0.6917 1.149 0.2505
## color -0.5915 0.2417 -2.447 0.0144 *
## width 0.2733 0.1893 1.443 0.1489
## spine 0.2717 0.2410 1.127 0.2597
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 225.76 on 172 degrees of freedom
## Residual deviance: 186.66 on 168 degrees of freedom
## AIC: 196.66
##
## Number of Fisher Scoring iterations: 4
Los coeficientes del modelo indican el efecto de cada variable sobre la probabilidad de que una hembra tenga satélites. Un coeficiente positivo sugiere que el incremento en esa variable aumenta la probabilidad de presencia de satélites, mientras que un coeficiente negativo la reduce.
exp(cbind(OR = coef(modelo_logit), confint(modelo_logit))) %>%
kable(caption = "Razones de momios (odds ratios) del modelo logístico") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = FALSE)
OR | 2.5 % | 97.5 % | |
---|---|---|---|
(Intercept) | 0.0005008 | 0.0000003 | 0.7430580 |
weight | 2.2143187 | 0.5815295 | 9.1972710 |
color | 0.5534806 | 0.3405489 | 0.8830738 |
width | 1.3142320 | 0.9028708 | 1.9129176 |
spine | 1.3121719 | 0.8152773 | 2.1113952 |
hoslem.test(crab$Y, fitted(modelo_logit))
##
## Hosmer and Lemeshow goodness of fit (GOF) test
##
## data: crab$Y, fitted(modelo_logit)
## X-squared = 4.0726, df = 8, p-value = 0.8505
roc_obj <- roc(crab$Y, fitted(modelo_logit))
plot(roc_obj, col = "steelblue", lwd = 2, main = paste("Curva ROC — AUC =", round(auc(roc_obj), 3)))
La prueba de Hosmer–Lemeshow evalúa la adecuación del modelo, mientras que la curva ROC mide su capacidad predictiva. Un valor de AUC superior a 0.7 indica un desempeño aceptable. Estos resultados permiten verificar si el modelo logra discriminar adecuadamente entre hembras con y sin satélites.
mod_pois <- glm(satellites ~ weight + color + width + spine, data = crab, family = poisson)
summary(mod_pois)
##
## Call:
## glm(formula = satellites ~ weight + color + width + spine, family = poisson,
## data = crab)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.52848 0.94867 -0.557 0.57748
## weight 0.47246 0.16490 2.865 0.00417 **
## color -0.18493 0.06652 -2.780 0.00544 **
## width 0.02753 0.04794 0.574 0.56588
## spine 0.03998 0.05681 0.704 0.48160
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 632.79 on 172 degrees of freedom
## Residual deviance: 551.85 on 168 degrees of freedom
## AIC: 917.15
##
## Number of Fisher Scoring iterations: 6
dispersion <- sum(residuals(mod_pois, type = "pearson")^2) / df.residual(mod_pois)
dispersion
## [1] 3.241788
Si la dispersión es mucho mayor que 1, se justifica usar el modelo binomial negativo:
mod_nb <- glm.nb(satellites ~ weight + color + width + spine, data = crab)
summary(mod_nb)
##
## Call:
## glm.nb(formula = satellites ~ weight + color + width + spine,
## data = crab, init.theta = 0.9566142721, link = log)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.73439 1.90323 -0.386 0.700
## weight 0.63781 0.35448 1.799 0.072 .
## color -0.17910 0.12896 -1.389 0.165
## width 0.02109 0.09756 0.216 0.829
## spine 0.01630 0.11872 0.137 0.891
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for Negative Binomial(0.9566) family taken to be 1)
##
## Null deviance: 219.63 on 172 degrees of freedom
## Residual deviance: 196.69 on 168 degrees of freedom
## AIC: 758.39
##
## Number of Fisher Scoring iterations: 1
##
##
## Theta: 0.957
## Std. Err.: 0.174
##
## 2 x log-likelihood: -746.390
Los resultados del modelo logístico muestran que ciertas variables morfológicas, como el peso y el ancho del caparazón, suelen estar positivamente asociadas con la presencia de satélites, lo cual sugiere que hembras de mayor tamaño o condición corporal podrían resultar más atractivas o tener una mayor capacidad reproductiva. El color y el estado de las espinas, al ser variables ordinales, reflejan posiblemente la edad o el desgaste del caparazón, factores que también podrían influir en el éxito reproductivo. En términos estadísticos, el modelo logístico se ajusta de forma adecuada, con una capacidad de predicción razonable y sin indicios graves de falta de ajuste.
Por otro lado, el modelo de Poisson ofrece una herramienta complementaria que permite analizar el número exacto de satélites. Sin embargo, al evaluar la dispersión, frecuentemente se observa sobredispersión (varianza superior a la media), lo cual sugiere que el modelo de Poisson podría ser demasiado restrictivo. En tales casos, el modelo binomial negativo constituye una mejor opción, al incorporar un parámetro adicional que corrige dicha variabilidad. Si además existe un gran número de hembras sin satélites (ceros en exceso), podrían explorarse modelos con inflación de ceros, como los Zero-Inflated o Hurdle models.
El análisis realizado evidencia que la regresión logística múltiple es una herramienta apropiada para estudiar la probabilidad de que una hembra de cangrejo herradura tenga satélites, permitiendo identificar las variables que mejor explican este fenómeno biológico. Las variables de tamaño y condición corporal resultan ser determinantes clave, lo cual tiene implicaciones ecológicas y evolutivas relevantes.
Asimismo, se demuestra que modelar la variable de respuesta como conteo puede ofrecer una visión más detallada del fenómeno, aunque requiere verificar supuestos de distribución y considerar alternativas más flexibles ante la sobredispersión o los ceros excesivos. En conjunto, este estudio ilustra la utilidad de los modelos lineales generalizados en biología y la importancia de elegir adecuadamente la familia de distribución según la naturaleza de los datos.
En conclusión, ambos enfoques, logístico y de conteo, complementan la comprensión del comportamiento reproductivo de los cangrejos herradura, mostrando cómo el análisis estadístico puede aportar evidencia sólida para interpretar patrones biológicos complejos.