02/10/2020
Tipo de datos estadísticos en el que las observaciones pueden tomar solamente valores enteros positivos, por lo general, son aquellos que determinan el número de sucesos o eventos que ocurren en una misma unidad de observación en un intervalo espacial o temporal definido (Lindsey, 2007).
Ejemplo:
Número de personas que visitan el consultorio de un médico por mes.
Número de actos agresivos de los niños durante un período de recreo.
Datos de números enteros: como los datos consisten en enteros no negativos, las técnicas de regresión OLS no serían apropiadas.
Distribución sesgada: los datos pueden presentar una mayor frecuencia para unos pocos valores, lo que hace que la distribución de frecuencia sea bastante sesgada.
Escasez: los datos pueden reflejar la ocurrencia de un evento poco común y esto lleva a contar con pocos datos.
Tasa de ocurrencia: para la creación de un modelo se supone la existencia de una tasa de ocurrencia de eventos.
Se utiliza a menudo para modelar datos de conteo. Siguiendo la notación de (Dobson & Barnett, 2018), se tiene que si \(Y\) es el número de ocurrencias de un evento, la distribución de probabilidad asociada es:
\[f(y) = \displaystyle \frac{\mu^{y} e^{-\mu}}{y!}; \hspace{0.4cm} y = 0,1,2,...\]
Donde \(\mu\) es la cantidad promedio de ocurrencias.
Se puede demostrar que \(E(Y) = Var(Y) = \mu\).
Los factores de forma son:
Coeficiente de asimetría: \(\displaystyle \frac{1}{\sqrt{\mu}}\).
Curtosis relativa: \(3 + \displaystyle \frac{1}{\mu}\).
Por lo que se puede afirmar que la distribución de Poisson es leptocúrtica con sesgo positivo (Arroyo, M., Llinás., & Muñoz, 2014).
El espacio muestral se genera por un número muy grande de repeticiones de un experimento que puede considerarse Bernoulli, cuya probabilidad de éxito sea pequeña.
Si el valor de \(\mu\) aumenta, las variables distribuidas tipo Poisson se aproximarán a la distribución normal, esto gracias al Teorema Central del Límite.
En ocasiones, no es posible suponer que el número promedio de ocurrencias es el mismo por unidad de exposición (exposure). De acuerdo con Hintze (2007), la exposición puede hacer referencia a distancias, áreas o volúmenes, sin embargo a menudo corresponde a periodos de tiempo, por lo que se acostumbra a denotarla como \(t\). Así, la función de probabilidad de \(Y\) se expresaría como sigue:
\[f(y) = \displaystyle \frac{(\mu t)^{y} e^{-\mu t}}{y!}; \hspace{0.4cm} y = 0,1,2,...\]
De acuerdo con Faraway (2016), son tres las formas en las que la distribución \(Pois(\mu)\) se presenta naturalmente:
Si el recuento es un número de un posible total, sería más apropiado un modelo binomial. No obstante, para probabilidades de éxito pequeñas y totales grandes, la distribución Poisson es apropiada:
\[n \rightarrow \infty \Rightarrow B(n,p) \approx Pois(\mu = n \cdot p)\]
Si la probabilidad de ocurrencia de un evento en un intervalo de tiempo es proporcional a la duración de dicho intervalo e independiente de la ocurrencia de otros eventos, el número de eventos en cualquier intervalo de tiempo se distribuirá Poisson.
La distribución Poisson surge naturalmente cuando se cuenta el número de eventos en un periodo de tiempo determinado, cuando se conoce a priori que el tiempo entre eventos es independiente e idénticamente distribuido de forma exponencial.
Forma de la familia exponencial:
\[f(y;\mu)= exp \left[ a(y) b(\mu) + c(\mu) + d(y) \right]\]
La función de probabilidad para la v.a. discreta \(Y\) es:
\[f(y,\mu) = \displaystyle \frac{\mu^{y} e^{-\mu}}{y!}\]
La cual puede reescribirse como:
\[f(y,\mu) = exp \left[ y \log(\mu) -\mu - \log(y!) \right]\]
Donde:
\[a(y)=y; \hspace{0.2cm} b(\mu)=log(\mu); \hspace{0.2cm} c(\mu)=-\mu; \hspace{0.2cm} d(y)= -log(y!)\]
Se tiene entonces que:
Si \(a(y)=y\), la distribución se dice que es en canónica (es decir, estándar).
\(b(\mu)\) es comúnmente llamado el parámetro natural de la distribución y es usado como la función enlace en los MLG.
Sean \(Y_{1}, ..., Y_{N}\) variables aleatorias independientes, cada una de las cuales representa el número de eventos observados de exposición \(n_{i}\) de acuerdo con el \(i\)-ésimo patrón de covariables (Dobson & Barnett, 2018). El valor esperado de \(Y_{i}\) se puede escribir como:
\[E(Y_{i}) = \mu_{i} = n_{i} \theta_{i}\]
Donde \(\theta_{i}\) depende de las variables predictoras:
\[\theta_{i} = e^{x_{i}^{T} \beta}\]
Entonces el modelo lineal generalizado se puede expresar así:
\[E(Y_{i}) = \mu_{i} = n_{i} e^{x_{i}^{T} \beta}; \hspace{0.4cm} Y_{i} \sim Pois(\mu)\]
Como la función enlace para la distribución Poisson es la función logarítmica, el modelo quedaría expresado finalmente de la siguiente forma:
\[log(\mu_{i}) = log(n_{i}) + x_{i}^{T} \beta\]
Donde \(log(n_{i})\) es conocido como el offset o la “compensación”.
De acuerdo con Shalabh (n.d.), la función de probabilidad de \(y_{1},...,y_{n}\) es:
\[L(y,\mu)= \prod_{i=1}^{n} p_{i} y_{i} = \prod_{i=1}^{n} \frac{\mu_{i}^{y_{i}}e^{-\mu_{i}}}{y_{i}!} = \frac{\left(\displaystyle \prod_{i=1}^{n}\mu_{i}^{y_{i}} \right) \cdot e^{- \displaystyle \sum_{i=1}^{n} \mu_{i}}}{\displaystyle \prod_{i=1}^{n} y_{i}!}\]
Ahora, aplicando el logaritmo natural se tiene:
\[\ln{L(y,\mu)}= \displaystyle \sum_{i=1}^{n}y_{i} \ln{(\mu_{i})} - \displaystyle \sum_{i=1}^{n} \mu_{i} - \displaystyle \sum_{i=1}^{n} \ln{(y_{i}!)}\]El parámetro \(\mu_{i}\) puede ser relacionado con los \(\beta's\) a través de la función enlace:
\[\lambda_{i}= g^{-1}(x_{i}' \beta)\]
Después de elegir la función de enlace adecuada, la función de log-verosimilitud puede ser maximizada usando algunas técnicas de optimización para un determinado conjunto de datos.
La aplicación de este modelo se realizará teniendo en cuenta lo presentado por Breslow & Day (Breslow & Day, 1987):
head(datos)
## grupo_de_edad muertes fumadores tiempo.persona ## 1 35-44 32 F 52407 ## 2 45-54 104 F 43248 ## 3 55-64 206 F 28612 ## 4 65-74 186 F 12663 ## 5 75-84 102 F 5317 ## 6 35-44 2 N 18790
dim(datos)
## [1] 10 4
En este caso se tienen las preguntas:
Se realiza un análisis exploratorio sobre los datos, sin embargo para esto se hará una transformación a los datos:
head(doctores)
## grupo_de_edad muertes_por_tasa fumadores ## 1 35-44 61.06055 F ## 2 45-54 240.47355 F ## 3 55-64 719.97763 F ## 4 65-74 1468.84624 F ## 5 75-84 1918.37502 F ## 6 35-44 10.64396 N
Partiendo de los datos anteriores, se realiza el siguiente gráfico:
Como puede observarse, un modelo lineal generalizado adecuado sería el de regresión de Poisson, cuya expresión seria similar a la siguiente:
\[\log(muertes_{i}) = \log(años.persona_{i}) + \beta_{0} + \beta_{1} fumador_{i} \\ + \beta_{2} grupo\_edad_{i} + \beta_{3} (fumador:edad)_{i} \]
Se realiza entonces el ajuste de un modelo de regresión de Poisson en R:
res.glm<-glm(muertes~fumadores*grupo_de_edad, family=poisson, offset=log(tiempo.persona), data=doctores) resumen<-summary(res.glm)
Algunos resultados de interés:
round(resumen$coefficients,2)
## Estimate Std. Error z value Pr(>|z|) ## (Intercept) -7.40 0.18 -41.87 0.00 ## fumadoresN -1.75 0.73 -2.40 0.02 ## grupo_de_edad45-54 1.37 0.20 6.78 0.00 ## grupo_de_edad55-64 2.47 0.19 12.99 0.00 ## grupo_de_edad65-74 3.18 0.19 16.62 0.00 ## grupo_de_edad75-84 3.45 0.20 17.01 0.00 ## fumadoresN:grupo_de_edad45-54 0.99 0.79 1.25 0.21 ## fumadoresN:grupo_de_edad55-64 1.36 0.76 1.80 0.07 ## fumadoresN:grupo_de_edad65-74 1.44 0.76 1.91 0.06 ## fumadoresN:grupo_de_edad75-84 1.85 0.76 2.44 0.01
Los intervalos de confianza asociados a las estimaciones de los coeficientes son:
round(confint(res.glm),2)
## 2.5 % 97.5 % ## (Intercept) -7.77 -7.07 ## fumadoresN -3.57 -0.55 ## grupo_de_edad45-54 0.99 1.78 ## grupo_de_edad55-64 2.11 2.86 ## grupo_de_edad65-74 2.82 3.57 ## grupo_de_edad75-84 3.06 3.86 ## fumadoresN:grupo_de_edad45-54 -0.38 2.88 ## fumadoresN:grupo_de_edad55-64 0.09 3.22 ## fumadoresN:grupo_de_edad65-74 0.17 3.30 ## fumadoresN:grupo_de_edad75-84 0.58 3.70
Para finalizar, se compara el AIC del modelo que tiene en cuenta la interacción entre las covariables con el modelo sin interacción:
resumen$aic # AIC modelo con interacción
## [1] 75.06794
resumen2$aic # AIC modelo sin interacción
## [1] 79.20031
Los datos de este ejemplo hacen referencia al número de reconocimientos obtenidos por los estudiantes de una escuela secundaria en el último año. Como regla de la escuela, todo estudiante recibe al menos un reconocimiento por hacer parte de ella.
head(datos)
## id reconocimientos Programa matematicas ## 1 45 1 Vocacional 41 ## 2 108 1 General 41 ## 3 15 1 Vocacional 44 ## 4 67 1 Vocacional 42 ## 5 153 1 Vocacional 40 ## 6 51 1 General 42
El siguiente gráfico es parte del análisis exploratorio:
Ajuste del modelo de regresión:
res.mod2<-summary(modelo <- glm(reconocimientos ~ Programa + matematicas, family="poisson", data=datos)) round(res.mod2$coefficients,2)
## Estimate Std. Error z value Pr(>|z|) ## (Intercept) -1.23 0.36 -3.40 0.00 ## ProgramaAcademico 0.32 0.16 1.97 0.05 ## ProgramaVocacional 0.13 0.19 0.68 0.50 ## matematicas 0.03 0.01 4.28 0.00
Gráfico del modelo de regresión de Poisson:
Arroyo, I., M., L. C. B., Llinás., H., & Muñoz, F. L. (2014). Distribuciones poisson y gamma: Una discreta y continua relación. Prospect, 99–107.
Breslow, N. E., & Day, N. E. (1987). Statistical methods in cancer research (Vol. 2). INTERNATIONAL AGENCY FOR RESEARCH ON CANCER LYON.
Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models (4th ed.). Taylor & Francis Group.
Faraway, J. J. (2016). Extending the linear model with r: Generalized linear, mixed effects and nonparametric regression models (2nd ed.). CHAPMAN & HALL/CRC.
Hintze, J. L. (2007). User’s guide iii: Regression and curve fitting. NCSS: Statistical Software.
Lindsey, J. K. (2007). Applying generalized linear models. Limburgs Universitair Centrum, Diepenbeek.
Shalabh, I. K. (n.d.). Poisson regression models. urlhttp://home.iitk.ac.in/s̃halab/regression/Chapter15-Regression-PoissonRegressionModels.pdf.