Este análisis explora el uso de modelos de regresión de Poisson para datos de conteo, específicamente el número de premios recibidos por estudiantes según su tipo de programa educativo y puntaje en matemáticas. También abordaremos el problema de sobredispersión mediante el modelo Binomial Negativo.
Los datos utilizados en este análisis provienen del repositorio de ejemplos estadísticos del Institute for Digital Research and Education (IDRE) de UCLA, disponibles en: https://stats.idre.ucla.edu/stat/data/poisson_sim.csv. Este conjunto de datos simulados contiene información sobre estudiantes de secundaria, incluyendo el número de premios académicos recibidos durante un año escolar, el tipo de programa educativo al que pertenecen y su puntaje en un examen estandarizado de matemáticas.
El conjunto de datos contiene información de 200 estudiantes de secundaria. Las variables incluidas son:
Variable dependiente: -
num_awards: Número de premios académicos
recibidos por el estudiante durante el año escolar. Es una variable de
conteo (valores enteros no negativos: 0, 1, 2, …) que representa el
resultado de interés en nuestro análisis.
Variables independientes:
prog: Tipo de programa educativo al
que pertenece el estudiante. Es una variable categórica con tres
niveles:
math: Puntaje obtenido en un examen
estandarizado de matemáticas. Es una variable numérica continua que
puede tomar valores entre 33 y 75 puntos.| id | num_awards | prog | math |
|---|---|---|---|
| 45 | 0 | Vocacional | 41 |
| 108 | 0 | General | 41 |
| 15 | 0 | Vocacional | 44 |
| 67 | 0 | Vocacional | 42 |
| 153 | 0 | Vocacional | 40 |
| 51 | 0 | General | 42 |
| 164 | 0 | Vocacional | 46 |
| 133 | 0 | Vocacional | 40 |
| 2 | 0 | Vocacional | 33 |
| 53 | 0 | Vocacional | 46 |
Esta estructura de datos es apropiada para modelar mediante regresión de Poisson, ya que la variable respuesta es un conteo de eventos (premios) y queremos entender cómo el tipo de programa educativo y el desempeño en matemáticas influyen en el número esperado de premios recibidos.
#> Dimensiones del dataset: 200 observaciones y 4 variables
#> id num_awards prog math
#> Min. : 1.00 Min. :0.00 General : 45 Min. :33.00
#> 1st Qu.: 50.75 1st Qu.:0.00 Académico :105 1st Qu.:45.00
#> Median :100.50 Median :0.00 Vocacional: 50 Median :52.00
#> Mean :100.50 Mean :0.63 Mean :52.65
#> 3rd Qu.:150.25 3rd Qu.:1.00 3rd Qu.:59.00
#> Max. :200.00 Max. :6.00 Max. :75.00
El dataset contiene 200 observaciones completas sin valores faltantes. Observamos que:
Los gráficos superiores revelan características importantes de la variable respuesta:
El gráfico de cajas muestra que: - Los estudiantes del programa Académico tienden a tener puntajes de matemáticas ligeramente superiores - Existe considerable superposición entre los grupos, sugiriendo que el tipo de programa por sí solo no determina el rendimiento en matemáticas - Los puntos negros representan las medias de cada grupo
La relación entre puntaje de matemáticas y número de premios muestra:
| Programa | N | Media Premios | Varianza Premios | Ratio Var/Media | Media Math | SD Math |
|---|---|---|---|---|---|---|
| General | 45 | 0.20 | 0.16 | 0.82 | 50.02 | 7.44 |
| Académico | 105 | 1.00 | 1.63 | 1.63 | 56.73 | 8.73 |
| Vocacional | 50 | 0.24 | 0.27 | 1.12 | 46.42 | 7.95 |
Diferencias entre programas: Los estudiantes del programa Académico tienen en promedio 1.0 premio, el cuadruple que los otros programas (0.20-0.24)
Sobredispersión potencial: La razón varianza/media es mayor que 1 en dos grupos (1.63-1.12), sugiriendo posible sobredispersión que deberemos evaluar formalmente
Puntajes de matemáticas similares: Las medias de los puntajes de matemáticas son comparables entre programas dada su alta dispersión, indicando que las diferencias en premios no se deben únicamente a diferencias en habilidad matemática
Estos hallazgos sugieren que tanto el tipo de programa como el rendimiento en matemáticas podrían ser predictores importantes del número de premios, justificando su inclusión en el modelo de regresión.
La regresión de Poisson es un modelo lineal generalizado (GLM) utilizado para modelar datos de conteo. El modelo asume que la variable respuesta \(Y_i\) sigue una distribución de Poisson:
\[Y_i \sim \text{Poisson}(\mu_i)\]
donde \(\mu_i = E[Y_i]\) es el valor esperado del conteo. El modelo utiliza una función de enlace logarítmica:
\[\log(\mu_i) = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip}\]
o equivalentemente:
\[\mu_i = \exp(\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip})\]
Para nuestro análisis, el modelo propuesto es:
\[\log(\mu_i) = \beta_0 + \beta_1 \cdot \text{Académico}_i + \beta_2 \cdot \text{Vocacional}_i + \beta_3 \cdot \text{Math}_i\]
donde:
#>
#> Call:
#> glm(formula = num_awards ~ prog + math, family = poisson(link = "log"),
#> data = datos)
#>
#> Coefficients:
#> Estimate Std. Error z value Pr(>|z|)
#> (Intercept) -5.24712 0.65845 -7.969 1.60e-15 ***
#> progAcadémico 1.08386 0.35825 3.025 0.00248 **
#> progVocacional 0.36981 0.44107 0.838 0.40179
#> math 0.07015 0.01060 6.619 3.63e-11 ***
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#>
#> (Dispersion parameter for poisson family taken to be 1)
#>
#> Null deviance: 287.67 on 199 degrees of freedom
#> Residual deviance: 189.45 on 196 degrees of freedom
#> AIC: 373.5
#>
#> Number of Fisher Scoring iterations: 6
| Variable | β | Error Std | exp(β) | IC 95% Inf | IC 95% Sup | p-valor |
|---|---|---|---|---|---|---|
| (Intercept) | -5.2471 | 0.6585 | 0.0053 | 0.0014 | 0.0191 | 0.0000 |
| progAcadémico | 1.0839 | 0.3583 | 2.9561 | 1.4647 | 5.9658 | 0.0025 |
| progVocacional | 0.3698 | 0.4411 | 1.4475 | 0.6098 | 3.4360 | 0.4018 |
| math | 0.0702 | 0.0106 | 1.0727 | 1.0506 | 1.0952 | 0.0000 |
Los coeficientes en el modelo de Poisson tienen una interpretación multiplicativa cuando se exponencian. El valor \(\exp(\beta_j)\) representa la razón de tasas de incidencia (IRR - Incidence Rate Ratio).
El intercepto representa el logaritmo del número esperado de premios para un estudiante del programa General con puntaje 0 en matemáticas. Dado que un puntaje de 0 no es realista, este valor no tiene una interpretación práctica directa.
Para ilustrar la magnitud de estos efectos:
Comparación entre programas: Un estudiante del programa académico con puntaje de 50 en matemáticas tendría un número esperado de premios aproximadamente 3 veces mayor que un estudiante del programa general con el mismo puntaje
Efecto acumulativo de matemáticas: La diferencia de 10 puntos en matemáticas se asocia con un incremento del 100% en el número esperado de premios (1.073¹⁰ ≈ 2.01)
Predicción específica: Para un estudiante del programa académico con puntaje de 60 en matemáticas: \[\mu = \exp(-5.247 + 1.084 + 0.070 \times 60) = \exp(0.037) \approx 1.04 \text{ premios esperados}\]
El modelo muestra una reducción sustancial en la deviance:
Esta reducción sugiere que las variables predictoras explican una parte importante de la variabilidad en el número de premios recibidos. Sin embargo, es necesario verificar los supuestos del modelo, particularmente el de equidispersión.
Una de las principales preocupaciones al usar regresión de Poisson es la posible violación del supuesto de equidispersión (media = varianza). Cuando la varianza excede la media, tenemos sobredispersión, lo cual puede llevar a:
| Estadístico | Valor |
|---|---|
| Deviance residual | 189.450 |
| Grados de libertad | 196.000 |
| Ratio Deviance/gl | 0.967 |
| Chi-cuadrado de Pearson | 212.140 |
| Ratio Pearson/gl | 1.082 |
Interpretación:
| Componente | Valor |
|---|---|
| Hipótesis nula | Var(Y) = μ (equidispersión) |
| Hipótesis alternativa | Var(Y) = μ + α·μ² (sobredispersión) |
| Estadístico z | 1.623 |
| p-valor | 0.052 |
| Parámetro α estimado | 0.164 |
| Decisión (α=0.05) | No rechazar H₀ |
Conclusión del test: Con un p-valor de 0.052, que está justo en el límite del nivel de significancia del 5%, la evidencia de sobredispersión es marginal. Esto representa un caso interesante donde:
El análisis de residuos nos permite evaluar visualmente el ajuste del modelo y detectar posibles violaciones de los supuestos.
Basándonos en el diagnóstico realizado:
Los indicadores de dispersión están muy cercanos a 1, sugiriendo que el modelo de Poisson es apropiado
El test formal da un resultado marginal (p = 0.052), justo por encima del umbral de significancia
Los gráficos de residuos muestran violaciones graves de los supuestos
Recomendación: Aunque el modelo de Poisson parece adecuado, la naturaleza marginal del test de sobredispersión justifica ajustar también un modelo Binomial Negativo como verificación de robustez. Si ambos modelos llevan a conclusiones similares, podemos estar más confiados en nuestros resultados.
El modelo Binomial Negativo es una extensión del modelo de Poisson que relaja el supuesto de equidispersión. Este modelo permite que la varianza exceda la media mediante la introducción de un parámetro adicional de dispersión.
En el modelo Binomial Negativo, la varianza se expresa como:
\[\text{Var}(Y_i) = \mu_i + \frac{\mu_i^2}{\theta}\]
donde: - \(\mu_i\) es la media (como en Poisson) - \(\theta\) es el parámetro de dispersión (también llamado parámetro de forma)
Cuando \(\theta \to \infty\), el modelo converge al modelo de Poisson. Valores pequeños de \(\theta\) indican mayor sobredispersión.
#>
#> Call:
#> glm.nb(formula = num_awards ~ prog + math, data = datos, init.theta = 6.114661779,
#> link = log)
#>
#> Coefficients:
#> Estimate Std. Error z value Pr(>|z|)
#> (Intercept) -5.29331 0.70416 -7.517 5.60e-14 ***
#> progAcadémico 1.07507 0.36699 2.929 0.0034 **
#> progVocacional 0.36696 0.45230 0.811 0.4172
#> math 0.07107 0.01153 6.165 7.05e-10 ***
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#>
#> (Dispersion parameter for Negative Binomial(6.1147) family taken to be 1)
#>
#> Null deviance: 257.93 on 199 degrees of freedom
#> Residual deviance: 169.76 on 196 degrees of freedom
#> AIC: 373.81
#>
#> Number of Fisher Scoring iterations: 1
#>
#>
#> Theta: 6.11
#> Std. Err.: 5.58
#>
#> 2 x log-likelihood: -363.811
| term | estimate_Poisson | estimate_Binomial Negativo | std.error_Poisson | std.error_Binomial Negativo | p.value_Poisson | p.value_Binomial Negativo |
|---|---|---|---|---|---|---|
| (Intercept) | -5.2471 | -5.2933 | 0.6585 | 0.7042 | 0.0000 | 0.0000 |
| progAcadémico | 1.0839 | 1.0751 | 0.3583 | 0.3670 | 0.0025 | 0.0034 |
| progVocacional | 0.3698 | 0.3670 | 0.4411 | 0.4523 | 0.4018 | 0.4172 |
| math | 0.0702 | 0.0711 | 0.0106 | 0.0115 | 0.0000 | 0.0000 |
Observaciones clave: - Los coeficientes son muy similares entre ambos modelos - Los errores estándar del modelo Binomial Negativo son ligeramente mayores, reflejando la incertidumbre adicional por la sobredispersión - Las conclusiones sobre significancia estadística permanecen iguales
| Modelo | AIC | BIC | Log-Verosimilitud | Deviance | theta |
|---|---|---|---|---|---|
| Poisson | 373.50 | 386.7 | -182.75 | 189.45 |
|
| Binomial Negativo | 373.81 | 390.3 | -181.91 | 169.76 | 6.115 |
| Concepto | Valor |
|---|---|
| H0 | Modelo Poisson es adecuado |
| H1 | Modelo Binomial Negativo es necesario |
| Estadístico LR | 1.694 |
| Grados de libertad | 1 |
| p-valor | 0.193 |
| Decisión | No rechazar H0 - Modelo Poisson es adecuado |
Interpretación:
Análisis de los residuos:
Basándonos en el análisis comparativo:
Similitud de resultados: Ambos modelos producen estimaciones y conclusiones prácticamente idénticas
Evidencia estadística:
Principio de parsimonia: Dado que no hay evidencia fuerte a favor del modelo más complejo, es preferible mantener el modelo más simple (Poisson)
Recomendación final: Para estos datos, el modelo de Poisson es apropiado y suficiente. La ligera sobredispersión detectada no afecta las conclusiones sustantivas del análisis. Sin embargo, haber verificado con el modelo Binomial Negativo nos da confianza adicional en la robustez de nuestros resultados.
| Aspecto | Resultado |
|---|---|
| Sobredispersión detectada | Marginal (p = 0.052) |
| Modelo seleccionado | Poisson (por parsimonia) |
| Programa Académico (vs General) | IRR = 2.956*** (p = 0.002) |
| Programa Vocacional (vs General) | IRR = 1.448 (p = 0.402, no sig.) |
| Efecto de Matemáticas | IRR = 1.073*** por punto (p < 0.001) |
| Bondad de ajuste | Deviance reducida de 287.67 a 189.45 |
Nuestro análisis de regresión de Poisson reveló los siguientes hallazgos clave:
Tipo de Programa Educativo:
Rendimiento en Matemáticas:
Los resultados sugieren que tanto el tipo de programa como el rendimiento académico son determinantes importantes del éxito estudiantil medido a través de premios. La combinación de estar en un programa académico y tener alto rendimiento en matemáticas produce un efecto multiplicativo sustancial.
| Métrica | Valor |
|---|---|
| Pseudo R² (McFadden) | 34.1% |
| Reducción en deviance | 34.1% |
| Diferencia AIC (NB - Poisson) | 0.31 |
| Test de sobredispersión | p = 0.052 (marginal) |
| Conclusión | Modelo Poisson es apropiado |
| Área | Recomendación |
|---|---|
| Variables adicionales | Incluir variables como promedio general, participación en actividades extracurriculares, nivel socioeconómico |
| Diseño del estudio | Realizar seguimiento longitudinal para capturar la evolución temporal de los premios |
| Análisis avanzados | Explorar modelos mixtos si hay estructura jerárquica (estudiantes dentro de escuelas) |
| Validación | Validar el modelo con datos de otros años o instituciones educativas |
Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. John Wiley & Sons.
Cameron, A. C., & Trivedi, P. K. (2013). Regression Analysis of Count Data (2nd ed.). Cambridge University Press.
Hand, D. J., Daly, F., Lunn, A. D., McConway, K. J., & Ostrowski, E. (1994). A Handbook of Small Data Sets. Chapman and Hall.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). John Wiley & Sons.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. Springer.
Kleinbaum, D. G., Kupper, L. L., Nizam, A., & Rosenberg, E. S. (2013). Applied Regression Analysis and Other Multivariable Methods (5th ed.). Cengage Learning.
Long, J. S. (1990). The origins of sex differences in science. Social Forces, 68(4), 1297-1316.
Morel, J. G., & Neerchal, N. K. (1997). Clustered binary logistic regression in teratology data using a finite mixture distribution. Statistics in Medicine, 16(23), 2843-2853.
Piegorsch, W. W., Weinberg, C. R., & Margolin, B. H. (1988). Exploring simple independent action in multifactor tables of proportions. Biometrics, 44(2), 595-603.
Prater, N. H. (1956). Estimate gasoline yields from crudes. Petroleum Refiner, 35(5), 236-238.
Ridout, M. S. (1990). Non-convergence of Fisher’s method of scoring - An example with grouped binary data. Institute of Mathematics and Statistics Technical Report.
Searle, S. R. (1971). Linear Models. John Wiley & Sons.
UCLA Statistical Consulting Group. (n.d.). Poisson Regression Dataset. Recuperado de https://stats.idre.ucla.edu/stat/data/poisson_sim.csv
Vanegas, L. H., & Rondón, L. M. (2023). Generalized Linear Models and some of their extensions using the library glmtoolbox. Universidad Nacional de Colombia.
Weisberg, S. (1982). An empirical comparison of the percentage points of W and W’. Technometrics, 24(3), 213-216.
Zhang, D., & Zelterman, D. (1999). Binary regression for risks in excess. Biometrics, 55(4), 1250-1257.
Análisis realizado con R versión 4.4.1