CLASE 6 (Estimación. Parte II)

Autor/a

Gerson Rivera

Fecha de publicación

12 julio 2024

CONSTRUCCIÓN Y EVALUACIÓN DE UN GLM

En la construcción de modelos lineales generalizados es importante tener en cuenta una cosa: no existe un único modelo que sea válido En la mayoría de los casos, habrá un número variable de modelos plausibles que puedan ajustarse a un conjunto determinado de datos. Parte del trabajo de construcción y evaluación del modelo es determinar cuál de todos estos modelos son adecuados, y entre todos los modelos adecuados, cuál es el que explica la mayor proporción de la varianza sujeto a la restricción de que todos los parámetros del modelo deberán ser estadísticamente significativos. Esto es lo que se conoce como el modelo adecuado mínimo. En algunos casos habrá más de un modelo que describan los datos igual de bien. En estos casos queda a nuestro criterio elegir uno u otro, aunque puede ser recomendable utilizarlos todos y discutir las limitaciones que esto presenta desde el punto de vista inferencial. Los pasos que hay que seguir en la construcción y evaluación de un GLM son muy similares a los de cualquier modelo estadístico.

No obstante se detallan:

  • Exploración de los datos.(E.D.A. exploratory data analysis, J.Tukey) Conviene conocer nuestros datos. Puede resultar interesante obtener gráficos que nos muestren la relación entre la variable explicada y cada una de las variables explicativas, gráficos de caja (box-plot) para variables categóricas, o matrices de correlación entre las variables explicativas.
Importante…

El objetivo de este análisis exploratorio es:

  1. Buscar posibles relaciones de la variable respuesta/dependiente con la(s) variable(s) explicativa(s).

  1. Considerar la necesidad de aplicar transformaciones de las variables.

  1. Eliminar variables explicativas que estén altamente correlacionadas.
  • Elección de la estructura de errores y función de vínculo. A veces resultará fácil elegir estas propiedades del modelo. Otras resultará tremendamente difícil, y será a posteriori cuando comprobemos, analizando los residuos, la idoneidad de la distribución de errores elegida. Por otro lado, puede ser una práctica recomendable el comparar modelos con distintas funciones de vínculo para ver cuál se ajusta mejor a nuestros datos.

  • Ajuste del modelo a los datos.

Importante…

Debemos prestar particular atención a:

  1. Los tests de significación para los estimadores del modelo.

  1. La cantidad de varianza explicada por el modelo. Esto en GLM se conoce como devianza D^{2}. La devianza nos da una idea de la variabilidad del los datos. Por ello, para obtener una medida de la variabilidad explicada por el modelo, hemos de comparar la devianza del modelo nulo (Null deviance) con la devianza residual (Residual deviance), esto es, una medida de cuánto de la variabilidad de la variable respuesta no es explicado por el modelo, o lo que es lo mismo:

D^{2}=\frac{\text { Devianza.modelo.nulo-Devianza.residual }}{\text { Devianza.modelo.nulo }} \cdot 100

  • Criterios de evaluación de modelos .Podemos utilizar la reducción de la devianza como una medida del ajuste del modelo a los datos. Los tests de significación para los parámetros del modelo son también útiles para ayudarnos a simplificar el modelo. Sin embargo, un criterio comúnmente utilizado es el llamado Criterio de Información de Akaike (AIC del inglés Akaike Information Criterion). Aunque no vamos a explicar aquí los fundamentos matemáticos de este índice, sí diremos que es un índice que evalúa tanto el ajuste del modelo a los datos como la complejidad del modelo. Cuanto más pequeño es el AIC mejor es el ajuste. EI AIC es muy útil para comparar modelos similares con distintos grados de complejidad o modelos iguales (mismas variables) pero con funciones de vínculo distintas.

  • Análisis de los residuos. Los residuos son las diferencias entre los valores estimados por el modelo y los valores observados. Sin embargo, muchas veces se utilizan los residuos estandarizados, que tienen que seguir una distribución normal.

Importante…

Conviene analizar los siguientes gráficos:

  1. Histograma de los residuos.

  1. Gráfico de residuos frente a valores estimados. Estos gráficos pueden indicar falta de linealidad, heterocedasticidad (varianza no constante) y valores atípicos.

  1. El gráfico de normalidad (q-q plot), que permite contrastar la normalidad (simetría) de la distribución de los residuos.

Opcionalmente, pueden ser también de gran utilidad los siguientes gráficos:

  • Gráficos de residuos frente a variables explicativas. Pueden ayudar a identificar si la falta de linealidad o la heterocedasticidad es debida a alguna variable explicativa.

  • Gráficos de los residuos frente al tiempo (u orden de medida). Permiten detectar cambios sistema ticos en el muestreo (como cuando el experimentador adquiere mayor experiencia en el proceso de medición de un determinado fenómeno, o por el contrario, se vuelve menos cuidadoso a medida que aumenta el esfuerzo muestral ).

  • Gráficos de valores atípicos. Existen tests que permiten detectar valores atípicos. Los índices más comunes son el índice de Cook y el de apalancamiento o leverage.

Todos estos gráficos (y opcionalmente algunos tests estadísticos complementarios) nos pueden ayudar en la evaluación del modelo utilizado.

En caso necesario, sería preciso volver a plantear el modelo, tal vez utilizando una estructura de errores más adecuada, otra función de vínculo o incluso eliminando ciertos datos que pueden estar desviando nuestro análisis.

  • Simplificación del modelo. El principio de parsimonia requiere que el modelo sea tan simple como sea posible. Esto significa que no debe contener parámetros o niveles de un factor que sean redundantes.
Importante…

La simplificación del modelo implica por tanto:

  1. La eliminación de las variables explicativas que no sean significativas.

  1. La agrupación de los niveles de factores (variables categóricas) que no difieran entre sí. Esto significa que cada vez que simplificamos el modelo debemos repetir algunos pasos anteriores. La simplificación del modelo tiene que tener, además, una cierta lógica para el analista y no debe incrementar de manera significativa la devianza residual. Por ello y para llegar a entender bien los datos y las relaciones existentes entre las variables conviene evitar, en la medida de lo posible, los procedimientos automatizados (p.e. backward/forward stepwise regression procedures).

LOS MODELOS DE POISSON

Los modelos Poisson se utilizan generalmente para representar datos de conteos, es decir, datos enteros positivos, como por ejemplo el número de individuos que mueren), el número de empresas que van a bancarrota… Con datos de conteos, el o aparece como un valor más de la variable respuesta, pero valores negativos no tienen lugar. En los conteos por tanto vamos a estar interesados en modelizar la frecuencia de un determinado suceso, pero sin tener información sobre el número de veces que dicho suceso NO tiene lugar. En el caso de tener información sobre el número de veces que dicho suceso NO tiene lugar, estaríamos ante datos proporcionales y, por tanto, un modelo con distribución de errores de tipo binomial sería mucho más apropiado.

El uso de modelos lineales (es decir, asumiendo varianza constante y errores normales) no sería adecuado ante datos de conteo por las siguientes razones.

  1. El modelo lineal podría predecir valores negativos de la variable respuesta.

  2. La varianza de la variable respuesta aumentaría probablemente a medida que aumenta la media (varianza no constante).

  3. Los errores no están normalmente distribuidos.

  4. Los ceros son difícil de manejar en transformaciones de la variable respuesta.

\underline{\textbf{Ejemplo}}:

Para cada asegurado i, i=1, \ldots, n, el comportamiento de Y_{i} (el número de siniestros sufridos durante un año) sigue una distribución de Poisson de parámetro \lambda_{i}. El parámetro es distinto para cada individuo y depende de sus características de riesgo.

Suponiendo la función de ligadura se establece que:

\lambda_{i}=\exp \left(\sum_{j=1}^{p} \beta_{j} x_{j i}\right)

Una vez estimados los coeficientes o parámetros del modelo \beta_{1}, \ldots, \beta_{p}, se puede predecir \lambda_{i} en función de las características individuales. La probabilidad de que el asegurado i sufra y_{i} siniestros, bajo el anterior modelo de Poisson es:

Prob\left(Y_{i}=y_{i}\right)=\displaystyle{\dfrac{e^{-\lambda_{i}} \lambda_{i}^{y_{i}}}{y_{i} !}}

Por lo tanto:

Prob\left(Y_{i}=y_{i}\right)=\displaystyle{\dfrac{\exp \left[-\exp \left(\displaystyle{\sum_{j=1}^{p} \beta_{j} x_{j i}}\right)\right]\left[\exp \left(\displaystyle{\sum_{j=1}^{p} \beta_{j} x_{j i}}\right)\right]^{y_{i}}}{y_{i} !}}

La función de verosimilitud se escribe:

L\left(\beta_{1}, \ldots, \beta_{p}\right)=\prod_{i=1}^{n} Prob\left(Y_{i}=y_{i}\right)

y su logaritmo:

\begin{aligned} \ell n\left(\beta_{1}, \ldots, \beta_{p}\right) & =\sum_{i=1}^{n} \ell n \left[Prob\left(Y_{i}=y_{i}\right)\right]\\ & =\sum_{i=1}^{n} y_{i}\left(\sum_{j=1}^{p} \beta_{j} x_{j i}\right)-\sum_{i=1}^{n} \exp \left(\sum_{j=1}^{p} \beta_{j} x_{j i}\right)-\ell n \left(y_{i} !\right) \end{aligned}