Universidad Nacional Agraria La Molina (UNALM), Perú
Del modelo lineal normal a los MLG: motivación y lógica general
Punto de partida: una pregunta de modelación
En regresión se parte de preguntas como:
¿cómo cambia una respuesta cuando cambian ciertas covariables?
¿qué variables explican mejor la variación observada?
¿cuál es el efecto esperado de una covariable sobre la respuesta?
¿cómo comparar grupos controlando por otras variables?
¿cómo predecir la respuesta bajo condiciones dadas?
Estas preguntas requieren un modelo que conecte respuesta, covariables e incertidumbre.
Estructura general de un modelo de regresión
Un modelo de regresión puede representarse, de manera general, como:
\[
Y_i = m(\mathbf{x}_i) + \varepsilon_i, \quad i = 1, \ldots, n
\]
donde:
\(Y_i\): variable respuesta;
\(\mathbf{x}_i\): vector de variables explicativas;
\(m(\mathbf{x}_i)\): componente sistemático, explicado por las variables observadas;
\(\varepsilon_i\): componente aleatorio, no explicado por el modelo.
El modelo permite estudiar cómo cambia la respuesta según las variables explicativas, separando la parte estructurada de la variabilidad residual.
Media condicional
En un modelo de regresión, una formulación usual es modelar el comportamiento esperado de la respuesta dadas las variables explicativas:
\[
\mu_i = E(Y_i \mid \mathbf{x}_i)
\]
donde:
\(\mu_i\): media condicional de la respuesta;
\(E(Y_i \mid \mathbf{x}_i)\): valor esperado de \(Y_i\) dados los valores de las variables explicativas.
A partir del modelo general:
\[
Y_i = m(\mathbf{x}_i) + \varepsilon_i
\]
si \(E(\varepsilon_i)=0\), entonces:
\[
\mu_i = m(\mathbf{x}_i)
\]
Por tanto, el componente sistemático representa el comportamiento esperado de la respuesta.
Explicar, estimar y predecir
A partir de un modelo de regresión, pueden distinguirse tres objetivos relacionados:
Explicar: describir cómo se relaciona la respuesta con las variables explicativas.
Estimar: obtener valores para los parámetros desconocidos del modelo.
Predecir: usar el modelo ajustado para anticipar valores de la respuesta bajo ciertas condiciones.
Estas tareas no son equivalentes.
Un mismo modelo puede ser útil para predicción, pero requerir cautela para interpretar efectos o establecer conclusiones sustantivas.
Tipos de respuesta en problemas de regresión
La variable respuesta no siempre tiene la misma naturaleza.
En aplicaciones reales puede ser:
continua;
binaria;
de conteo;
una proporción;
una tasa;
positiva y asimétrica.
El tipo de respuesta condiciona la forma del modelo, la distribución asumida, la estructura de la varianza y las herramientas de diagnóstico.
Necesidad de una clase más general de modelos
El modelo de regresión debe ser coherente con la naturaleza de la respuesta.
Cuando la respuesta no es continua o cuando su variabilidad cambia con el nivel esperado de la respuesta, una formulación normal con varianza constante puede ser insuficiente.
Por ello, se requiere una clase de modelos que permita:
mantener la lógica de regresión;
incorporar distintas distribuciones para la respuesta;
relacionar el comportamiento esperado de la respuesta con las variables explicativas;
adaptar la estimación, inferencia y diagnóstico al tipo de dato.
Elementos que se reutilizarán en GLM
Al pasar a modelos lineales generalizados se mantienen varios elementos de la lógica de regresión:
variable respuesta;
variables explicativas;
media condicional;
componente sistemático;
parámetros desconocidos;
estimación;
inferencia;
diagnóstico;
comparación de modelos.
Lo que cambia es la forma probabilística y la relación entre la media y el componente sistemático.
Pregunta de transición
La transición hacia los modelos lineales generalizados se organiza a partir de tres preguntas:
¿qué distribución es adecuada para la respuesta?
¿cómo se relaciona la media condicional con las variables explicativas?
¿cómo cambia la varianza según el comportamiento esperado de la respuesta?
Estas preguntas permiten pasar del modelo lineal normal a una familia más amplia de modelos de regresión.
Así, la respuesta condicionada a las variables explicativas sigue una distribución normal con media dependiente de las covariables y varianza constante.
Forma matricial del modelo
Para las \(n\) observaciones, el modelo puede escribirse como:
cada coeficiente estimado \(\widehat{\beta}_j\) representa el cambio esperado en la media de la respuesta asociado a una unidad adicional de \(x_{ij}\), manteniendo constantes las demás variables explicativas.
El \(R^2\) ajustado penaliza la incorporación de parámetros y permite comparar modelos con distinta complejidad.
Ejemplo 1: Venta de tejados
El objetivo es explicar el número medio de tejados vendidos en una red de tiendas de construcción, a partir de características comerciales de cada filial.
Se trabajará con el archivo vendas.txt, que contiene información de (n=26) filiales. Los datos corresponden a la venta anual de un tipo de tejado de madera, reportados originalmente por Neter et al. (1996, p. 449) y retomados en Paula, sección 1.14.1.
Variable respuesta:
telhados: total de tejados vendidos, en miles de metros cuadrados.
Variables explicativas:
clientes: número de clientes registrados en la tienda, en miles;
gastos: gastos de promoción del producto, en miles de dólares;
marcas: número de marcas competidoras;
potencial: potencial de la tienda; valores más altos indican mayor potencial.
Ejemplo 1: Exploración inicial de las variables
Antes de ajustar el modelo, se revisan las principales medidas descriptivas de las variables del ejemplo.
El valor de \(R^2 = 0.989\) indica que el modelo explica aproximadamente el 98.9% de la variabilidad observada en la venta de tejados entre filiales.
El \(R^2\) ajustado, igual a 0.987, sigue siendo muy alto después de penalizar por el número de parámetros incluidos en el modelo.
Por tanto, el modelo tiene una alta capacidad descriptiva para explicar las diferencias observadas en telhados a partir de gastos, clientes y marcas.
El error estándar residual de 9.491 indica que, en promedio, las diferencias típicas entre las ventas observadas y las ventas ajustadas son de aproximadamente 9.491 miles de m² de tejados.
Referencias
Agresti, A. (2015). Foundations of linear and generalized linear models. Wiley.
Blitzstein, J. K., & Hwang, J. (2019). Introduction to probability (2nd ed.). Chapman; Hall/CRC.
Casella, G., & Berger, R. L. (2002). Statistical inference (2nd ed.). Duxbury.
DeGroot, M. H., & Schervish, M. J. (2012). Probability and statistics (4th ed.). Pearson.
Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models (4th ed.). Chapman; Hall/CRC.
Faraway, J. J. (2016). Extending the linear model with R: Generalized linear, mixed effects and nonparametric regression models (2nd ed.). Chapman; Hall/CRC.
Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to mathematical statistics (8th ed.). Pearson.
Larsen, R. J., & Marx, M. L. (2008). An introduction to mathematical statistics and its applications (4th ed.). Pearson.
McCullagh, P., & Nelder, J. A. (1989). Generalized linear models (2nd ed.). Chapman; Hall.
Pawitan, Y. (2001). In all likelihood: Statistical modelling and inference using likelihood. Oxford University Press.
Pitman, J. (1993). Probability. Springer.
Rice, J. A. (2006). Mathematical statistics and data analysis (3rd ed.). Duxbury Press.
Ross, S. (2014). A first course in probability (9th ed.). Pearson.
Wackerly, D. D., Mendenhall, W., & Scheaffer, R. L. (2008). Mathematical statistics with applications (7th ed.). Thomson Brooks/Cole.
Weisberg, S. (2014). Applied linear regression (4th ed.). Wiley.