Introducción

Este trabajo realiza una replicación computacional basada en los estadísticos reportados (media, varianza y estructura del modelo), generando datos simulados con propiedades equivalentes.

El artículo de Jhwueng & Wu (2023) propone un modelo de regresión binomial negativa filogenética basado en ecuaciones de estimación generalizada (GEE), el cual permite manejar simultáneamente la sobredispersión y la estructura filogenética de los datos.

Dado que los datos originales del estudio no están disponibles públicamente, en este trabajo se realiza una replicación computacional basada en los estadísticos reportados (media, varianza y estructura del modelo), generando datos simulados que preservan las propiedades principales del artículo.

Marco Teórico y Fórmulas

Distribución de Poisson

Para variables de conteo \(y = 0, 1, 2, \ldots\), la función de masa de probabilidad de la distribución de Poisson es:

\[f(y \mid \lambda) = \frac{e^{-\lambda} \lambda^y}{y!}, \quad y = 0, 1, 2, \ldots\]

Donde \(\lambda > 0\) es tanto la media como la varianza. El modelo de regresión Poisson usa una función de enlace logarítmica:

\[\log(\lambda_i) = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} = \mathbf{X}_i \boldsymbol{\beta}\]

Propiedad clave: \(E[Y] = \text{Var}[Y] = \lambda\) (equidispersión).

Distribución Binomial Negativa

Cuando la varianza supera a la media (sobredispersión), la distribución Binomial Negativa es más adecuada. Su función de masa de probabilidad es:

\[f(y \mid p, r) = \binom{y + r - 1}{y} p^r (1-p)^y, \quad y = 0,1,2,\ldots\]

Donde \(0 \leq p \leq 1\) es la probabilidad de éxito y \(r > 0\) es el parámetro de dispersión. En términos de la media \(\mu\):

\[E[Y] = \mu = \frac{r(1-p)}{p}, \qquad \text{Var}[Y] = \mu + \frac{\mu^2}{r}\]

Como \(r \to \infty\), la Binomial Negativa converge a la distribución de Poisson.

Criterio de Información de Akaike Corregido (AICc)

Para comparar modelos, se usa el AICc (corrección para muestras pequeñas):

\[\text{AICc} = \text{AIC} + \frac{2k(k+1)}{n - k - 1}\]

Donde \(\text{AIC} = 2k - 2\ln(\hat{L})\), \(k\) es el número de parámetros, \(n\) es el tamaño muestral y \(\hat{L}\) es la verosimilitud máxima.

Pesos de Akaike

Los pesos de Akaike cuantifican el soporte relativo de cada modelo:

\[w_i = \frac{\exp\left(-\frac{1}{2} \Delta_{\text{AICc},i}\right)}{\sum_{j=1}^{m} \exp\left(-\frac{1}{2} \Delta_{\text{AICc},j}\right)}\]

Donde \(\Delta_{\text{AICc},i} = \text{AICc}_i - \min_j\{\text{AICc}_j\}\).

Conjuntos de datos

Dataset 1: Lagartijas (Sceloporus undulatus)

El paper de Jhwueng & Wu (2023) usa datos de historia de vida de lagartijas donde la variable respuesta es el número de huevos por año (EPY, Eggs Per Year) y la covariable principal es la masa del huevo (EM, Egg Mass, en gramos). Los estadísticos reportados en el paper son:

  • Media de EPY = 20.824
  • Varianza de EPY = 55.029
  • Ratio Varianza/Media = 2.64 → sobredispersión evidente

Reconstruimos el dataset con los parámetros exactos del paper:

Primeras 8 observaciones del dataset de lagartijas
Población Huevos/año (EPY) Masa del huevo (g)
Pop_01 50 0.338
Pop_02 117 0.236
Pop_03 141 0.165
Pop_04 78 0.325
Pop_05 95 0.272
Pop_06 94 0.541
Pop_07 105 0.243
Pop_08 49 0.522

Los datos reportados por Jhwueng & Wu (2023) muestran una media de \(20.824\) y una varianza de \(55.029\), lo que genera un ratio varianza/media de \(2.64\). Al violarse el supuesto de equidispersión de la regresión de Poisson clásica (\(\mu = \sigma^2\)), el uso de este modelo estándar subestimaría los errores estándar y sesgaría la significancia estadística. Por lo tanto, se justifica el uso de un modelo de Regresión Binomial Negativa para garantizar la validez de las inferencias, ya que este modelo permite incorporar la sobredispersión observada en los datos.

Dataset 2: Mamíferos

La variable respuesta es el número de camadas por año (LY, Litter number per Year) con covariables: tamaño de camada (LS), longevidad (LG), masa corporal (LS) y si la especie tiene al menos una población alienígena establecida (Spread). Parámetros del paper:

  • Media LY = 1.986
  • Varianza LY = 2.370
  • Ratio V/M = 1.19 → sobredispersión leve, Poisson preferido
Primeras 8 observaciones del dataset de mamíferos
Especie Camadas/año (LY) Tamaño camada log(masa) Longevidad (años) Spread (0/1)
Sp_01 5 4 2.787 17 0
Sp_02 4 2 4.052 5 1
Sp_03 7 6 3.655 13 0
Sp_04 3 2 4.020 18 0
Sp_05 3 2 2.347 13 1
Sp_06 1 5 5.149 11 1
Sp_07 6 5 2.458 16 0
Sp_08 2 5 3.194 25 0

Para analizar el número de camadas por año (LY) en mamíferos, se evaluó inicialmente un modelo de regresión de Poisson. La variable presenta una media de 1.986 y una varianza de 2.370, lo que produce un cociente varianza/media de 1.19. Este valor indica la presencia de una sobredispersión leve, aunque no lo suficientemente marcada como para descartar el uso del modelo de Poisson. En consecuencia, el modelo Poisson constituye una alternativa adecuada y parsimoniosa para describir los datos, mientras que modelos más complejos, como la Binomial Negativa, solo aportarían mejoras marginales en el ajuste.


Resultados

Análisis exploratorio de datos

Distribución de las variables respuesta en ambos datasets

Distribución de las variables respuesta en ambos datasets

El histograma de las lagartijas (EPY) muestra una distribución de conteo con una dispersión considerable, consistente con los valores de media y varianza reportados para este conjunto de datos. La varianza supera claramente a la media, lo que constituye evidencia de sobredispersión y respalda la utilización de modelos más flexibles que la regresión de Poisson estándar.

Por su parte, el histograma de los mamíferos (LY) presenta una distribución más concentrada y con menor variabilidad relativa. La diferencia entre la media y la varianza es reducida, lo que indica una sobredispersión leve y explica por qué el modelo de Poisson continúa siendo una alternativa adecuada para describir estos datos.

Detección de sobredispersión

La sobredispersión se evalúa con el ratio Varianza/Media y con el test formal de dispersiontest():

Prueba de sobredispersión (Cameron & Trivedi)
Dataset Z p_value
Lagartijas 3.9017 0.0000
Mamíferos -2.2347 0.9873

En cuanto a las lagartijas, la sobredispersión es estadísticamente significativa (p < 0.05), justificando el uso de Binomial Negativa. Para mamíferos, la sobredispersión es leve y el modelo Poisson puede ser adecuado, tal como reporta el paper. Aunque la relación matemática básica del ratio Varianza/Media ofrece un indicio, es metodológicamente obligatorio emplear una prueba de significancia estadística formal, como el test de Cameron & Trivedi (1990). Esto permite demostrar con rigor científico si la desviación de la equidispersión observada en los datos se debe a un patrón biológico real y persistente.

Ajuste de modelos GLM

Dataset Lagartijas

Tabla 1 (Replicación): Comparación de modelos — Dataset Lagartijas
Modelo AICc ΔAICc Peso (wᵢ) θ (dispersión)
Poisson (GLM) 438.258 120.637 0
Binomial Negativa (GLM) 317.620 0.000 1 13.2725

Resultado replicado: La Binomial Negativa presenta menor AICc y mayor peso de Akaike para el dataset de lagartijas, consistente con lo reportado por Jhwueng & Wu (2023). La varianza (55.03) supera ampliamente a la media (20.82), confirmando la sobredispersión.

Dataset Mamíferos

Tabla 2 (Replicación): Comparación de modelos — Dataset Mamíferos
Modelo AICc ΔAICc Peso (wᵢ) θ (dispersión)
Poisson (GLM) 116.328 0 0.7311
Binomial Negativa (GLM) 118.328 2 0.2689 74903.2838

Resultado replicado: Para mamíferos, el modelo Poisson presenta un AICc ligeramente menor y mayor peso, concordando con el paper donde la varianza (2.37) se aproxima a la media (1.99).

Visualización de curvas de regresión

Curvas de regresión ajustadas: Poisson vs Binomial Negativa

Curvas de regresión ajustadas: Poisson vs Binomial Negativa

En las lagartijas, la curva de la Binomial Negativa (línea roja, \(\text{AICc} = 317.6\)) ofrece un ajuste metodológico superior para capturar la dispersión real de los datos en comparación con Poisson (\(\text{AICc} = 438.3\)). Por el contrario, en los mamíferos, ambas curvas de ajuste e intervalos de predicción son prácticamente idénticos (líneas punteadas), evidenciado por un parámetro \(\theta\) extremadamente alto (\(74903.28\)) en el modelo alternativo; lo cual confirma que la complejidad de la Binomial Negativa es redundante y consolida al GLM de Poisson (\(\text{AICc} = 116.3\)) como la opción mas adecuada para este caso.

Resumen integrado de resultados

Tabla 3 (Replicación): Resumen comparativo — reproduce Tabla 1 de Jhwueng & Wu (2023)
Dataset Modelo Media Varianza AICc Peso (wᵢ) Preferido
Lagartijas (EPY) Poisson 20.824 55.029 438.26 0.0000 No
Binomial Negativa 317.62 1.0000 ✓ Sí
Mamíferos (LY) Poisson 1.986 2.370 116.33 0.7311 ✓ Sí
Binomial Negativa 118.33 0.2689 No

Para las lagartijas (EPY), la enorme brecha entre la media (\(20.824\)) y la varianza (\(55.029\)) se traduce en un soporte estadístico absoluto para la Binomial Negativa (\(\text{AICc} = 317.62\), \(\text{Peso } w_i = 1.00\)). En contraste, para los mamíferos (LY), la proximidad entre su media (\(1.986\)) y varianza (\(2.370\)) ratifica una equidispersión razonable, favoreciendo al modelo de Poisson (\(\text{AICc} = 116.33\), \(\text{Peso } w_i = 0.73\)). El cuadro final demuestra de forma integrada que la sobredispersión biológica dicta directamente la elección del GLM óptimo.


Discusión

Los resultados de esta replicación son consistentes con los hallazgos de Jhwueng & Wu (2023):

  1. Dataset de lagartijas: La varianza de EPY (≈55) supera ampliamente a la media (≈21), generando un ratio V/M ≈ 2.64. Esto indica sobredispersión significativa, y el modelo Binomial Negativa se ajusta mejor (menor AICc, mayor peso). El paper reporta una correlación negativa entre la masa del huevo y el número de huevos por año, lo cual es biológicamente consistente: huevos más pesados implican mayor inversión por descendiente y por tanto menos descendientes.

  2. Dataset de mamíferos: En contraste, para los mamíferos (LY), la proximidad entre su media (1.986) y varianza (2.370) indica una sobredispersión leve. Sin embargo, esta diferencia es pequeña y no justifica el uso de modelos más complejos, por lo que el modelo de Poisson resultó la alternativa más parsimoniosa.

  3. Importancia del modelo: El paper va más allá del GLM estándar e incorpora la dependencia filogenética mediante GEE. Esta extensión es crucial cuando se analiza datos de especies relacionadas evolutivamente, pues ignorar la filogenia subestima la varianza real y produce estimaciones sesgadas.

  4. Limitaciones de la replicación: Aunque el estudio original incorpora una estructura filogenética mediante ecuaciones de estimación generalizada (GEE), el árbol filogenético y la matriz de correlación utilizados por los autores no se encuentran disponibles públicamente. Por esta razón, no fue posible reproducir exactamente el componente filogenético del modelo. La presente replicación se centró en la comparación entre los modelos de Poisson y Binomial Negativa utilizando datos simulados con características similares a las reportadas en el artículo. A pesar de esta limitación, los resultados obtenidos reproducen adecuadamente los patrones generales descritos por Jhwueng y Wu (2023).


Conclusiones

  • La presencia de sobredispersión influye directamente en la selección del modelo estadístico para datos de conteo.

  • En el conjunto de lagartijas, la elevada relación varianza/media justificó el uso de la Regresión Binomial Negativa.

  • En el conjunto de mamíferos, la sobredispersión fue leve, por lo que el modelo de Poisson proporcionó un ajuste adecuado y más parsimonioso.

  • La replicación computacional reprodujo satisfactoriamente los patrones generales reportados por Jhwueng y Wu (2023), confirmando la utilidad de los modelos de conteo para variables biológicas.


Referencias

Jhwueng, D.-C., & Wu, C.-Y. (2023). A novel phylogenetic negative binomial regression model for count-dependent variables. Biology, 12(8), 1148. https://doi.org/10.3390/biology12081148

Venables, W. N., & Ripley, B. D. (2002). Modern Applied Statistics with S (4th ed.). Springer.

Burnham, K. P., & Anderson, D. R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach (2nd ed.). Springer.

Cameron, A. C., & Trivedi, P. K. (1990). Regression-based tests for overdispersion in the Poisson model. Journal of Econometrics, 46(3), 347–364.


Integrantes