Este trabajo realiza una replicación computacional basada en los estadísticos reportados (media, varianza y estructura del modelo), generando datos simulados con propiedades equivalentes.
El artículo de Jhwueng & Wu (2023) propone un modelo de regresión binomial negativa filogenética basado en ecuaciones de estimación generalizada (GEE), el cual permite manejar simultáneamente la sobredispersión y la estructura filogenética de los datos.
Dado que los datos originales del estudio no están disponibles públicamente, en este trabajo se realiza una replicación computacional basada en los estadísticos reportados (media, varianza y estructura del modelo), generando datos simulados que preservan las propiedades principales del artículo.
Para variables de conteo \(y = 0, 1, 2, \ldots\), la función de masa de probabilidad de la distribución de Poisson es:
\[f(y \mid \lambda) = \frac{e^{-\lambda} \lambda^y}{y!}, \quad y = 0, 1, 2, \ldots\]
Donde \(\lambda > 0\) es tanto la media como la varianza. El modelo de regresión Poisson usa una función de enlace logarítmica:
\[\log(\lambda_i) = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} = \mathbf{X}_i \boldsymbol{\beta}\]
Propiedad clave: \(E[Y] = \text{Var}[Y] = \lambda\) (equidispersión).
Cuando la varianza supera a la media (sobredispersión), la distribución Binomial Negativa es más adecuada. Su función de masa de probabilidad es:
\[f(y \mid p, r) = \binom{y + r - 1}{y} p^r (1-p)^y, \quad y = 0,1,2,\ldots\]
Donde \(0 \leq p \leq 1\) es la probabilidad de éxito y \(r > 0\) es el parámetro de dispersión. En términos de la media \(\mu\):
\[E[Y] = \mu = \frac{r(1-p)}{p}, \qquad \text{Var}[Y] = \mu + \frac{\mu^2}{r}\]
Como \(r \to \infty\), la Binomial Negativa converge a la distribución de Poisson.
Para comparar modelos, se usa el AICc (corrección para muestras pequeñas):
\[\text{AICc} = \text{AIC} + \frac{2k(k+1)}{n - k - 1}\]
Donde \(\text{AIC} = 2k - 2\ln(\hat{L})\), \(k\) es el número de parámetros, \(n\) es el tamaño muestral y \(\hat{L}\) es la verosimilitud máxima.
Los pesos de Akaike cuantifican el soporte relativo de cada modelo:
\[w_i = \frac{\exp\left(-\frac{1}{2} \Delta_{\text{AICc},i}\right)}{\sum_{j=1}^{m} \exp\left(-\frac{1}{2} \Delta_{\text{AICc},j}\right)}\]
Donde \(\Delta_{\text{AICc},i} = \text{AICc}_i - \min_j\{\text{AICc}_j\}\).
El paper de Jhwueng & Wu (2023) usa datos de historia de vida de lagartijas donde la variable respuesta es el número de huevos por año (EPY, Eggs Per Year) y la covariable principal es la masa del huevo (EM, Egg Mass, en gramos). Los estadísticos reportados en el paper son:
Reconstruimos el dataset con los parámetros exactos del paper:
| Población | Huevos/año (EPY) | Masa del huevo (g) |
|---|---|---|
| Pop_01 | 50 | 0.338 |
| Pop_02 | 117 | 0.236 |
| Pop_03 | 141 | 0.165 |
| Pop_04 | 78 | 0.325 |
| Pop_05 | 95 | 0.272 |
| Pop_06 | 94 | 0.541 |
| Pop_07 | 105 | 0.243 |
| Pop_08 | 49 | 0.522 |
Los datos reportados por Jhwueng & Wu (2023) muestran una media de \(20.824\) y una varianza de \(55.029\), lo que genera un ratio varianza/media de \(2.64\). Al violarse el supuesto de equidispersión de la regresión de Poisson clásica (\(\mu = \sigma^2\)), el uso de este modelo estándar subestimaría los errores estándar y sesgaría la significancia estadística. Por lo tanto, se justifica el uso de un modelo de Regresión Binomial Negativa para garantizar la validez de las inferencias, ya que este modelo permite incorporar la sobredispersión observada en los datos.
La variable respuesta es el número de camadas por año (LY, Litter number per Year) con covariables: tamaño de camada (LS), longevidad (LG), masa corporal (LS) y si la especie tiene al menos una población alienígena establecida (Spread). Parámetros del paper:
| Especie | Camadas/año (LY) | Tamaño camada | log(masa) | Longevidad (años) | Spread (0/1) |
|---|---|---|---|---|---|
| Sp_01 | 5 | 4 | 2.787 | 17 | 0 |
| Sp_02 | 4 | 2 | 4.052 | 5 | 1 |
| Sp_03 | 7 | 6 | 3.655 | 13 | 0 |
| Sp_04 | 3 | 2 | 4.020 | 18 | 0 |
| Sp_05 | 3 | 2 | 2.347 | 13 | 1 |
| Sp_06 | 1 | 5 | 5.149 | 11 | 1 |
| Sp_07 | 6 | 5 | 2.458 | 16 | 0 |
| Sp_08 | 2 | 5 | 3.194 | 25 | 0 |
Para analizar el número de camadas por año (LY) en mamíferos, se evaluó inicialmente un modelo de regresión de Poisson. La variable presenta una media de 1.986 y una varianza de 2.370, lo que produce un cociente varianza/media de 1.19. Este valor indica la presencia de una sobredispersión leve, aunque no lo suficientemente marcada como para descartar el uso del modelo de Poisson. En consecuencia, el modelo Poisson constituye una alternativa adecuada y parsimoniosa para describir los datos, mientras que modelos más complejos, como la Binomial Negativa, solo aportarían mejoras marginales en el ajuste.
Distribución de las variables respuesta en ambos datasets
El histograma de las lagartijas (EPY) muestra una distribución de conteo con una dispersión considerable, consistente con los valores de media y varianza reportados para este conjunto de datos. La varianza supera claramente a la media, lo que constituye evidencia de sobredispersión y respalda la utilización de modelos más flexibles que la regresión de Poisson estándar.
Por su parte, el histograma de los mamíferos (LY) presenta una distribución más concentrada y con menor variabilidad relativa. La diferencia entre la media y la varianza es reducida, lo que indica una sobredispersión leve y explica por qué el modelo de Poisson continúa siendo una alternativa adecuada para describir estos datos.
La sobredispersión se evalúa con el ratio Varianza/Media y con el
test formal de dispersiontest():
| Dataset | Z | p_value |
|---|---|---|
| Lagartijas | 3.9017 | 0.0000 |
| Mamíferos | -2.2347 | 0.9873 |
En cuanto a las lagartijas, la sobredispersión es estadísticamente significativa (p < 0.05), justificando el uso de Binomial Negativa. Para mamíferos, la sobredispersión es leve y el modelo Poisson puede ser adecuado, tal como reporta el paper. Aunque la relación matemática básica del ratio Varianza/Media ofrece un indicio, es metodológicamente obligatorio emplear una prueba de significancia estadística formal, como el test de Cameron & Trivedi (1990). Esto permite demostrar con rigor científico si la desviación de la equidispersión observada en los datos se debe a un patrón biológico real y persistente.
| Modelo | AICc | ΔAICc | Peso (wᵢ) | θ (dispersión) |
|---|---|---|---|---|
| Poisson (GLM) | 438.258 | 120.637 | 0 | — |
| Binomial Negativa (GLM) | 317.620 | 0.000 | 1 | 13.2725 |
Resultado replicado: La Binomial Negativa presenta menor AICc y mayor peso de Akaike para el dataset de lagartijas, consistente con lo reportado por Jhwueng & Wu (2023). La varianza (55.03) supera ampliamente a la media (20.82), confirmando la sobredispersión.
| Modelo | AICc | ΔAICc | Peso (wᵢ) | θ (dispersión) |
|---|---|---|---|---|
| Poisson (GLM) | 116.328 | 0 | 0.7311 | — |
| Binomial Negativa (GLM) | 118.328 | 2 | 0.2689 | 74903.2838 |
Resultado replicado: Para mamíferos, el modelo Poisson presenta un AICc ligeramente menor y mayor peso, concordando con el paper donde la varianza (2.37) se aproxima a la media (1.99).
Curvas de regresión ajustadas: Poisson vs Binomial Negativa
En las lagartijas, la curva de la Binomial Negativa (línea roja, \(\text{AICc} = 317.6\)) ofrece un ajuste metodológico superior para capturar la dispersión real de los datos en comparación con Poisson (\(\text{AICc} = 438.3\)). Por el contrario, en los mamíferos, ambas curvas de ajuste e intervalos de predicción son prácticamente idénticos (líneas punteadas), evidenciado por un parámetro \(\theta\) extremadamente alto (\(74903.28\)) en el modelo alternativo; lo cual confirma que la complejidad de la Binomial Negativa es redundante y consolida al GLM de Poisson (\(\text{AICc} = 116.3\)) como la opción mas adecuada para este caso.
| Dataset | Modelo | Media | Varianza | AICc | Peso (wᵢ) | Preferido |
|---|---|---|---|---|---|---|
| Lagartijas (EPY) | Poisson | 20.824 | 55.029 | 438.26 | 0.0000 | No |
| Binomial Negativa | 317.62 | 1.0000 | ✓ Sí | |||
| Mamíferos (LY) | Poisson | 1.986 | 2.370 | 116.33 | 0.7311 | ✓ Sí |
| Binomial Negativa | 118.33 | 0.2689 | No |
Para las lagartijas (EPY), la enorme brecha entre la media (\(20.824\)) y la varianza (\(55.029\)) se traduce en un soporte estadístico absoluto para la Binomial Negativa (\(\text{AICc} = 317.62\), \(\text{Peso } w_i = 1.00\)). En contraste, para los mamíferos (LY), la proximidad entre su media (\(1.986\)) y varianza (\(2.370\)) ratifica una equidispersión razonable, favoreciendo al modelo de Poisson (\(\text{AICc} = 116.33\), \(\text{Peso } w_i = 0.73\)). El cuadro final demuestra de forma integrada que la sobredispersión biológica dicta directamente la elección del GLM óptimo.
Los resultados de esta replicación son consistentes con los hallazgos de Jhwueng & Wu (2023):
Dataset de lagartijas: La varianza de EPY (≈55) supera ampliamente a la media (≈21), generando un ratio V/M ≈ 2.64. Esto indica sobredispersión significativa, y el modelo Binomial Negativa se ajusta mejor (menor AICc, mayor peso). El paper reporta una correlación negativa entre la masa del huevo y el número de huevos por año, lo cual es biológicamente consistente: huevos más pesados implican mayor inversión por descendiente y por tanto menos descendientes.
Dataset de mamíferos: En contraste, para los mamíferos (LY), la proximidad entre su media (1.986) y varianza (2.370) indica una sobredispersión leve. Sin embargo, esta diferencia es pequeña y no justifica el uso de modelos más complejos, por lo que el modelo de Poisson resultó la alternativa más parsimoniosa.
Importancia del modelo: El paper va más allá del GLM estándar e incorpora la dependencia filogenética mediante GEE. Esta extensión es crucial cuando se analiza datos de especies relacionadas evolutivamente, pues ignorar la filogenia subestima la varianza real y produce estimaciones sesgadas.
Limitaciones de la replicación: Aunque el estudio original incorpora una estructura filogenética mediante ecuaciones de estimación generalizada (GEE), el árbol filogenético y la matriz de correlación utilizados por los autores no se encuentran disponibles públicamente. Por esta razón, no fue posible reproducir exactamente el componente filogenético del modelo. La presente replicación se centró en la comparación entre los modelos de Poisson y Binomial Negativa utilizando datos simulados con características similares a las reportadas en el artículo. A pesar de esta limitación, los resultados obtenidos reproducen adecuadamente los patrones generales descritos por Jhwueng y Wu (2023).
La presencia de sobredispersión influye directamente en la selección del modelo estadístico para datos de conteo.
En el conjunto de lagartijas, la elevada relación varianza/media justificó el uso de la Regresión Binomial Negativa.
En el conjunto de mamíferos, la sobredispersión fue leve, por lo que el modelo de Poisson proporcionó un ajuste adecuado y más parsimonioso.
La replicación computacional reprodujo satisfactoriamente los patrones generales reportados por Jhwueng y Wu (2023), confirmando la utilidad de los modelos de conteo para variables biológicas.
Jhwueng, D.-C., & Wu, C.-Y. (2023). A novel phylogenetic negative binomial regression model for count-dependent variables. Biology, 12(8), 1148. https://doi.org/10.3390/biology12081148
Venables, W. N., & Ripley, B. D. (2002). Modern Applied Statistics with S (4th ed.). Springer.
Burnham, K. P., & Anderson, D. R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach (2nd ed.). Springer.
Cameron, A. C., & Trivedi, P. K. (1990). Regression-based tests for overdispersion in the Poisson model. Journal of Econometrics, 46(3), 347–364.