02/10/2020

Datos de recuentos

Definición

Tipo de datos estadísticos en el que las observaciones pueden tomar solamente valores enteros positivos, por lo general, son aquellos que determinan el número de sucesos o eventos que ocurren en una misma unidad de observación en un intervalo espacial o temporal definido (Lindsey, 2007).

Ejemplo:

  • Número de personas que visitan el consultorio de un médico por mes.

  • Número de actos agresivos de los niños durante un período de recreo.

Características

  • Datos de números enteros: como los datos consisten en enteros no negativos, las técnicas de regresión OLS no serían apropiadas.

  • Distribución sesgada: los datos pueden presentar una mayor frecuencia para unos pocos valores, lo que hace que la distribución de frecuencia sea bastante sesgada.

  • Escasez: los datos pueden reflejar la ocurrencia de un evento poco común y esto lleva a contar con pocos datos.

  • Tasa de ocurrencia: para la creación de un modelo se supone la existencia de una tasa de ocurrencia de eventos.

Distribución Poisson

Definición

Se utiliza a menudo para modelar datos de conteo. Siguiendo la notación de (Dobson & Barnett, 2018), se tiene que si \(Y\) es el número de ocurrencias de un evento, la distribución de probabilidad asociada es:

\[f(y) = \displaystyle \frac{\mu^{y} e^{-\mu}}{y!}; \hspace{0.4cm} y = 0,1,2,...\]

Donde \(\mu\) es la cantidad promedio de ocurrencias.

Propiedades

  • Se puede demostrar que \(E(Y) = Var(Y) = \mu\).

  • Los factores de forma son:

    1. Coeficiente de asimetría: \(\displaystyle \frac{1}{\sqrt{\mu}}\).

    2. Curtosis relativa: \(3 + \displaystyle \frac{1}{\mu}\).

Por lo que se puede afirmar que la distribución de Poisson es leptocúrtica con sesgo positivo (Arroyo, M., Llinás., & Muñoz, 2014).

Propiedades

  • El espacio muestral se genera por un número muy grande de repeticiones de un experimento que puede considerarse Bernoulli, cuya probabilidad de éxito sea pequeña.

  • La probabilidad de que se tengan dos o más éxitos en el mismo punto del intervalo es cero (Arroyo et al., 2014).

  • Si el valor de \(\mu\) aumenta, las variables distribuidas tipo Poisson se aproximarán a la distribución normal, esto gracias al Teorema Central del Límite.

La unidad de exposición (exposure)

En ocasiones, no es posible suponer que el número promedio de ocurrencias es el mismo por unidad de exposición (exposure). De acuerdo con Hintze (2007), la exposición puede hacer referencia a distancias, áreas o volúmenes, sin embargo a menudo corresponde a periodos de tiempo, por lo que se acostumbra a denotarla como \(t\). Así, la función de probabilidad de \(Y\) se expresaría como sigue:

\[f(y) = \displaystyle \frac{(\mu t)^{y} e^{-\mu t}}{y!}; \hspace{0.4cm} y = 0,1,2,...\]

Presentación natural

De acuerdo con Faraway (2016), son tres las formas en las que la distribución \(Pois(\mu)\) se presenta naturalmente:

  • Si el recuento es un número de un posible total, sería más apropiado un modelo binomial. No obstante, para probabilidades de éxito pequeñas y totales grandes, la distribución Poisson es apropiada:

\[n \rightarrow \infty \Rightarrow B(n,p) \approx Pois(\mu = n \cdot p)\]

Presentación natural

  • Si la probabilidad de ocurrencia de un evento en un intervalo de tiempo es proporcional a la duración de dicho intervalo e independiente de la ocurrencia de otros eventos, el número de eventos en cualquier intervalo de tiempo se distribuirá Poisson.

“(…) Sin embargo, en cualquier aplicación real, es probable que se violen las suposiciones. (…) No obstante, una buena aproximación puede ser suficiente.” (Faraway, 2016).

Presentación natural

La distribución Poisson surge naturalmente cuando se cuenta el número de eventos en un periodo de tiempo determinado, cuando se conoce a priori que el tiempo entre eventos es independiente e idénticamente distribuido de forma exponencial.

Regresión de Poisson

Familia exponencial

Forma de la familia exponencial:

\[f(y;\mu)= exp \left[ a(y) b(\mu) + c(\mu) + d(y) \right]\]

La función de probabilidad para la v.a. discreta \(Y\) es:

\[f(y,\mu) = \displaystyle \frac{\mu^{y} e^{-\mu}}{y!}\]

La cual puede reescribirse como:

\[f(y,\mu) = exp \left[ y \log(\mu) -\mu - \log(y!) \right]\]

Familia exponencial

Donde:

\[a(y)=y; \hspace{0.2cm} b(\mu)=log(\mu); \hspace{0.2cm} c(\mu)=-\mu; \hspace{0.2cm} d(y)= -log(y!)\]

Se tiene entonces que:

  • Si \(a(y)=y\), la distribución se dice que es en canónica (es decir, estándar).

  • \(b(\mu)\) es comúnmente llamado el parámetro natural de la distribución y es usado como la función enlace en los MLG.

Definición

Sean \(Y_{1}, ..., Y_{N}\) variables aleatorias independientes, cada una de las cuales representa el número de eventos observados de exposición \(n_{i}\) de acuerdo con el \(i\)-ésimo patrón de covariables (Dobson & Barnett, 2018). El valor esperado de \(Y_{i}\) se puede escribir como:

\[E(Y_{i}) = \mu_{i} = n_{i} \theta_{i}\]

Donde \(\theta_{i}\) depende de las variables predictoras:

\[\theta_{i} = e^{x_{i}^{T} \beta}\]

Definición

Entonces el modelo lineal generalizado se puede expresar así:

\[E(Y_{i}) = \mu_{i} = n_{i} e^{x_{i}^{T} \beta}; \hspace{0.4cm} Y_{i} \sim Pois(\mu)\]

Como la función enlace para la distribución Poisson es la función logarítmica, el modelo quedaría expresado finalmente de la siguiente forma:

\[log(\mu_{i}) = log(n_{i}) + x_{i}^{T} \beta\]

Donde \(log(n_{i})\) es conocido como el offset o la “compensación”.

Estimación de los parámetros

De acuerdo con Shalabh (n.d.), la función de probabilidad de \(y_{1},...,y_{n}\) es:

\[L(y,\mu)= \prod_{i=1}^{n} p_{i} y_{i} = \prod_{i=1}^{n} \frac{\mu_{i}^{y_{i}}e^{-\mu_{i}}}{y_{i}!} = \frac{\left(\displaystyle \prod_{i=1}^{n}\mu_{i}^{y_{i}} \right) \cdot e^{- \displaystyle \sum_{i=1}^{n} \mu_{i}}}{\displaystyle \prod_{i=1}^{n} y_{i}!}\]

Estimación de los parámetros

Ahora, aplicando el logaritmo natural se tiene:

\[\ln{L(y,\mu)}= \displaystyle \sum_{i=1}^{n}y_{i} \ln{(\mu_{i})} - \displaystyle \sum_{i=1}^{n} \mu_{i} - \displaystyle \sum_{i=1}^{n} \ln{(y_{i}!)}\]

El parámetro \(\mu_{i}\) puede ser relacionado con los \(\beta's\) a través de la función enlace:

\[\lambda_{i}= g^{-1}(x_{i}' \beta)\]

Después de elegir la función de enlace adecuada, la función de log-verosimilitud puede ser maximizada usando algunas técnicas de optimización para un determinado conjunto de datos.

Ejemplo 1

La aplicación de este modelo se realizará teniendo en cuenta lo presentado por Breslow & Day (Breslow & Day, 1987):

head(datos)
##   grupo_de_edad muertes fumadores tiempo.persona
## 1         35-44      32         F          52407
## 2         45-54     104         F          43248
## 3         55-64     206         F          28612
## 4         65-74     186         F          12663
## 5         75-84     102         F           5317
## 6         35-44       2         N          18790
dim(datos)
## [1] 10  4

Ejemplo 1

En este caso se tienen las preguntas:

  1. ¿La tasa de muertes es mayor para fumadores que para no fumadores?

  1. Si lo anterior es cierto, ¿qué tanto?

  1. ¿Está relacionada dicha diferencia con la edad?

Ejemplo 1

Se realiza un análisis exploratorio sobre los datos, sin embargo para esto se hará una transformación a los datos:

head(doctores)
##   grupo_de_edad muertes_por_tasa fumadores
## 1         35-44         61.06055         F
## 2         45-54        240.47355         F
## 3         55-64        719.97763         F
## 4         65-74       1468.84624         F
## 5         75-84       1918.37502         F
## 6         35-44         10.64396         N

Ejemplo 1

Partiendo de los datos anteriores, se realiza el siguiente gráfico:

Ejemplo 1

Como puede observarse, un modelo lineal generalizado adecuado sería el de regresión de Poisson, cuya expresión seria similar a la siguiente:

\[\log(muertes_{i}) = \log(años.persona_{i}) + \beta_{0} + \beta_{1} fumador_{i} \\ + \beta_{2} grupo\_edad_{i} + \beta_{3} (fumador:edad)_{i} \]

Ejemplo 1

Se realiza entonces el ajuste de un modelo de regresión de Poisson en R:

res.glm<-glm(muertes~fumadores*grupo_de_edad, family=poisson,
             offset=log(tiempo.persona), data=doctores) 


resumen<-summary(res.glm)

Ejemplo 1

Algunos resultados de interés:

round(resumen$coefficients,2)
##                               Estimate Std. Error z value Pr(>|z|)
## (Intercept)                      -7.40       0.18  -41.87     0.00
## fumadoresN                       -1.75       0.73   -2.40     0.02
## grupo_de_edad45-54                1.37       0.20    6.78     0.00
## grupo_de_edad55-64                2.47       0.19   12.99     0.00
## grupo_de_edad65-74                3.18       0.19   16.62     0.00
## grupo_de_edad75-84                3.45       0.20   17.01     0.00
## fumadoresN:grupo_de_edad45-54     0.99       0.79    1.25     0.21
## fumadoresN:grupo_de_edad55-64     1.36       0.76    1.80     0.07
## fumadoresN:grupo_de_edad65-74     1.44       0.76    1.91     0.06
## fumadoresN:grupo_de_edad75-84     1.85       0.76    2.44     0.01

Ejemplo 1

Los intervalos de confianza asociados a las estimaciones de los coeficientes son:

round(confint(res.glm),2)
##                               2.5 % 97.5 %
## (Intercept)                   -7.77  -7.07
## fumadoresN                    -3.57  -0.55
## grupo_de_edad45-54             0.99   1.78
## grupo_de_edad55-64             2.11   2.86
## grupo_de_edad65-74             2.82   3.57
## grupo_de_edad75-84             3.06   3.86
## fumadoresN:grupo_de_edad45-54 -0.38   2.88
## fumadoresN:grupo_de_edad55-64  0.09   3.22
## fumadoresN:grupo_de_edad65-74  0.17   3.30
## fumadoresN:grupo_de_edad75-84  0.58   3.70

Ejemplo 1

Para finalizar, se compara el AIC del modelo que tiene en cuenta la interacción entre las covariables con el modelo sin interacción:

resumen$aic # AIC modelo con interacción
## [1] 75.06794
resumen2$aic # AIC modelo sin interacción
## [1] 79.20031

Ejemplo 2

Los datos de este ejemplo hacen referencia al número de reconocimientos obtenidos por los estudiantes de una escuela secundaria en el último año. Como regla de la escuela, todo estudiante recibe al menos un reconocimiento por hacer parte de ella.

head(datos)
##    id reconocimientos   Programa matematicas
## 1  45               1 Vocacional          41
## 2 108               1    General          41
## 3  15               1 Vocacional          44
## 4  67               1 Vocacional          42
## 5 153               1 Vocacional          40
## 6  51               1    General          42

Ejemplo 2

El siguiente gráfico es parte del análisis exploratorio:

Ejemplo 2

Ajuste del modelo de regresión:

res.mod2<-summary(modelo <- glm(reconocimientos ~ Programa + 
                                  matematicas, family="poisson", 
                                data=datos))

round(res.mod2$coefficients,2)
##                    Estimate Std. Error z value Pr(>|z|)
## (Intercept)           -1.23       0.36   -3.40     0.00
## ProgramaAcademico      0.32       0.16    1.97     0.05
## ProgramaVocacional     0.13       0.19    0.68     0.50
## matematicas            0.03       0.01    4.28     0.00

Ejemplo 2

Gráfico del modelo de regresión de Poisson:

Bibliografía

Arroyo, I., M., L. C. B., Llinás., H., & Muñoz, F. L. (2014). Distribuciones poisson y gamma: Una discreta y continua relación. Prospect, 99–107.

Breslow, N. E., & Day, N. E. (1987). Statistical methods in cancer research (Vol. 2). INTERNATIONAL AGENCY FOR RESEARCH ON CANCER LYON.

Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models (4th ed.). Taylor & Francis Group.

Faraway, J. J. (2016). Extending the linear model with r: Generalized linear, mixed effects and nonparametric regression models (2nd ed.). CHAPMAN & HALL/CRC.

Hintze, J. L. (2007). User’s guide iii: Regression and curve fitting. NCSS: Statistical Software.

Lindsey, J. K. (2007). Applying generalized linear models. Limburgs Universitair Centrum, Diepenbeek.

Shalabh, I. K. (n.d.). Poisson regression models. urlhttp://home.iitk.ac.in/s̃halab/regression/Chapter15-Regression-PoissonRegressionModels.pdf.