El modelo lineal normal como base para comprender los GLM

EP7120-Modelos Lineales Generalizados Aplicados

Enver Gerald Tarazona Vargas

Universidad Nacional Agraria La Molina (UNALM), Perú

Del modelo lineal normal a los MLG: motivación y lógica general

Punto de partida: una pregunta de modelación

En regresión se parte de preguntas como:

  • ¿cómo cambia una respuesta cuando cambian ciertas covariables?
  • ¿qué variables explican mejor la variación observada?
  • ¿cuál es el efecto esperado de una covariable sobre la respuesta?
  • ¿cómo comparar grupos controlando por otras variables?
  • ¿cómo predecir la respuesta bajo condiciones dadas?

Estas preguntas requieren un modelo que conecte respuesta, covariables e incertidumbre.

Estructura general de un modelo de regresión

Un modelo de regresión puede representarse, de manera general, como:

\[ Y_i = m(\mathbf{x}_i) + \varepsilon_i, \quad i = 1, \ldots, n \]

donde:

  • \(Y_i\): variable respuesta;
  • \(\mathbf{x}_i\): vector de variables explicativas;
  • \(m(\mathbf{x}_i)\): componente sistemático, explicado por las variables observadas;
  • \(\varepsilon_i\): componente aleatorio, no explicado por el modelo.

El modelo permite estudiar cómo cambia la respuesta según las variables explicativas, separando la parte estructurada de la variabilidad residual.

Media condicional

En un modelo de regresión, una formulación usual es modelar el comportamiento esperado de la respuesta dadas las variables explicativas:

\[ \mu_i = E(Y_i \mid \mathbf{x}_i) \]

donde:

  • \(\mu_i\): media condicional de la respuesta;
  • \(E(Y_i \mid \mathbf{x}_i)\): valor esperado de \(Y_i\) dados los valores de las variables explicativas.

A partir del modelo general:

\[ Y_i = m(\mathbf{x}_i) + \varepsilon_i \]

si \(E(\varepsilon_i)=0\), entonces:

\[ \mu_i = m(\mathbf{x}_i) \]

Por tanto, el componente sistemático representa el comportamiento esperado de la respuesta.

Explicar, estimar y predecir

A partir de un modelo de regresión, pueden distinguirse tres objetivos relacionados:

  • Explicar: describir cómo se relaciona la respuesta con las variables explicativas.
  • Estimar: obtener valores para los parámetros desconocidos del modelo.
  • Predecir: usar el modelo ajustado para anticipar valores de la respuesta bajo ciertas condiciones.

Estas tareas no son equivalentes.

Un mismo modelo puede ser útil para predicción, pero requerir cautela para interpretar efectos o establecer conclusiones sustantivas.

Tipos de respuesta en problemas de regresión

La variable respuesta no siempre tiene la misma naturaleza.

En aplicaciones reales puede ser:

  • continua;
  • binaria;
  • de conteo;
  • una proporción;
  • una tasa;
  • positiva y asimétrica.

El tipo de respuesta condiciona la forma del modelo, la distribución asumida, la estructura de la varianza y las herramientas de diagnóstico.

Necesidad de una clase más general de modelos

El modelo de regresión debe ser coherente con la naturaleza de la respuesta.

Cuando la respuesta no es continua o cuando su variabilidad cambia con el nivel esperado de la respuesta, una formulación normal con varianza constante puede ser insuficiente.

Por ello, se requiere una clase de modelos que permita:

  • mantener la lógica de regresión;
  • incorporar distintas distribuciones para la respuesta;
  • relacionar el comportamiento esperado de la respuesta con las variables explicativas;
  • adaptar la estimación, inferencia y diagnóstico al tipo de dato.

Elementos que se reutilizarán en GLM

Al pasar a modelos lineales generalizados se mantienen varios elementos de la lógica de regresión:

  • variable respuesta;
  • variables explicativas;
  • media condicional;
  • componente sistemático;
  • parámetros desconocidos;
  • estimación;
  • inferencia;
  • diagnóstico;
  • comparación de modelos.

Lo que cambia es la forma probabilística y la relación entre la media y el componente sistemático.

Pregunta de transición

La transición hacia los modelos lineales generalizados se organiza a partir de tres preguntas:

  • ¿qué distribución es adecuada para la respuesta?
  • ¿cómo se relaciona la media condicional con las variables explicativas?
  • ¿cómo cambia la varianza según el comportamiento esperado de la respuesta?

Estas preguntas permiten pasar del modelo lineal normal a una familia más amplia de modelos de regresión.

Formulación y estimación del modelo lineal normal

Modelo lineal normal

El modelo lineal normal se define como:

\[ Y_i = \mathbf{x}_i^\top \boldsymbol{\beta} + \varepsilon_i, \quad i = 1,\ldots,n \]

donde:

  • \(Y_i\): variable respuesta;
  • \(\mathbf{x}_i\): vector de variables explicativas;
  • \(\boldsymbol{\beta}\): vector de parámetros desconocidos;
  • \(\varepsilon_i\): error aleatorio.

Se asume que:

\[ \varepsilon_i \overset{iid}{\sim} N(0,\sigma^2) \]

Media y varianza condicional

A partir del modelo:

\[ Y_i = \mathbf{x}_i^\top \boldsymbol{\beta} + \varepsilon_i \]

si:

\[ E(\varepsilon_i)=0 \]

entonces:

\[ E(Y_i \mid \mathbf{x}_i)=\mu_i=\mathbf{x}_i^\top \boldsymbol{\beta} \]

Además, bajo el supuesto de varianza constante:

\[ \operatorname{Var}(Y_i \mid \mathbf{x}_i)=\sigma^2 \]

Por tanto, el modelo especifica una media lineal y una varianza constante.

Distribución condicional de la respuesta

Bajo los supuestos del modelo lineal normal:

\[ \varepsilon_i \overset{iid}{\sim} N(0,\sigma^2) \]

se obtiene:

\[ Y_i \mid \mathbf{x}_i \sim N(\mu_i,\sigma^2) \]

con:

\[ \mu_i=\mathbf{x}_i^\top \boldsymbol{\beta} \]

Así, la respuesta condicionada a las variables explicativas sigue una distribución normal con media dependiente de las covariables y varianza constante.

Forma matricial del modelo

Para las \(n\) observaciones, el modelo puede escribirse como:

\[ \mathbf{Y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon} \]

donde:

  • \(\mathbf{Y}\): vector de respuestas;
  • \(X\): matriz de diseño;
  • \(\boldsymbol{\beta}\): vector de parámetros;
  • \(\boldsymbol{\varepsilon}\): vector de errores.

Bajo normalidad:

\[ \boldsymbol{\varepsilon}\sim N_n(\mathbf{0},\sigma^2 I_n) \]

y, por tanto:

\[ \mathbf{Y}\mid X \sim N_n(X\boldsymbol{\beta},\sigma^2 I_n) \]

Matriz de diseño

La matriz de diseño organiza los valores observados de las variables explicativas:

\[ X = \begin{pmatrix} \mathbf{x}_1^\top \\ \mathbf{x}_2^\top \\ \vdots \\ \mathbf{x}_n^\top \end{pmatrix} = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{pmatrix} \]

Cada fila corresponde a una observación.

Cada columna corresponde a una variable explicativa, una codificación, una transformación o una interacción.

Si el modelo incluye intercepto, una columna de \(X\) está formada por unos.

Predictor lineal

El predictor lineal de la observación \(i\) es:

\[ \eta_i=\mathbf{x}_i^\top \boldsymbol{\beta} \]

En el modelo lineal normal:

\[ \mu_i=\eta_i \]

es decir:

\[ E(Y_i\mid \mathbf{x}_i)=\mathbf{x}_i^\top \boldsymbol{\beta} \]

Por tanto, la media condicional se modela directamente mediante una combinación lineal de las variables explicativas.

Estimación y supuestos: recordatorio

En el modelo lineal normal, la estimación clásica se basa en mínimos cuadrados:

\[ \widehat{\boldsymbol{\beta}} = (X^\top X)^{-1}X^\top \mathbf{y} \]

bajo los supuestos usuales:

  • linealidad de la media;
  • errores con media cero;
  • varianza constante;
  • independencia;
  • normalidad de los errores.

Estos elementos no se desarrollan nuevamente aquí; se retoman porque permiten comparar el modelo lineal normal con los GLM.

Modelo ajustado

Una vez estimado el vector de parámetros, el modelo ajustado se expresa como:

\[ \widehat{\mu}_i = \mathbf{x}_i^\top \widehat{\boldsymbol{\beta}}, \quad i = 1,\ldots,n \]

o, equivalentemente:

\[ \widehat{Y}_i = \mathbf{x}_i^\top \widehat{\boldsymbol{\beta}} \]

donde:

  • \(\widehat{\mu}_i\): media estimada de la respuesta para la observación \(i\);
  • \(\widehat{Y}_i\): valor ajustado por el modelo;
  • \(\widehat{\boldsymbol{\beta}}\): vector de coeficientes estimados.

El modelo ajustado permite pasar de la formulación teórica a la interpretación empírica.

Interpretación de los coeficientes estimados

En el modelo ajustado:

\[ \widehat{\mu}_i = \widehat{\beta}_1 x_{i1} + \widehat{\beta}_2 x_{i2} + \cdots + \widehat{\beta}_p x_{ip} \]

cada coeficiente estimado \(\widehat{\beta}_j\) representa el cambio esperado en la media de la respuesta asociado a una unidad adicional de \(x_{ij}\), manteniendo constantes las demás variables explicativas.

La interpretación depende de:

  • la escala de la respuesta;
  • la escala de la variable explicativa;
  • la codificación usada;
  • las demás variables incluidas en el modelo;
  • el contexto aplicado del problema.

Valores ajustados y residuos

Los valores ajustados se obtienen mediante:

\[ \widehat{\mathbf{y}}=X\widehat{\boldsymbol{\beta}} \]

El vector de residuos ordinarios es:

\[ \mathbf{r}=\mathbf{y}-\widehat{\mathbf{y}} \]

Los residuos resumen la parte de la respuesta observada que no es explicada por el modelo ajustado.

Esta idea será central para el diagnóstico del modelo.

Mínimos cuadrados y máxima verosimilitud

Bajo errores normales, la estimación de \(\boldsymbol{\beta}\) por mínimos cuadrados coincide con la estimación por máxima verosimilitud.

Esta conexión es importante porque los MLG se formulan a partir de máxima verosimilitud.

En el modelo lineal normal se dispone de una solución explícita para los coeficientes.

En los MLG, la estimación se obtiene usualmente mediante procedimientos iterativos.

Regresión lineal simple como caso particular

La regresión lineal simple corresponde al caso con una sola variable explicativa:

\[ Y_i = \beta_1 + \beta_2 x_i + \varepsilon_i, \quad i=1,\ldots,n \]

donde:

  • \(\beta_1\): intercepto;
  • \(\beta_2\): pendiente;
  • \(x_i\): valor observado de la variable explicativa;
  • \(\varepsilon_i\): error aleatorio.

Este caso permite visualizar la relación entre respuesta, media ajustada y residuo.

Interpretación de la pendiente

En el modelo:

\[ Y_i = \beta_1 + \beta_2 x_i + \varepsilon_i \]

la pendiente \(\beta_2\) representa el cambio esperado en la respuesta cuando la variable explicativa aumenta en una unidad.

La interpretación depende de:

  • la escala de \(Y_i\);
  • la escala de \(x_i\);
  • el contexto del problema;
  • la validez del supuesto de relación lineal.

En el modelo múltiple, esta interpretación se extiende considerando las demás covariables constantes.

Coeficiente de determinación

Con intercepto en el modelo, la variabilidad total se descompone como:

\[ \underbrace{\sum_{i=1}^{n}(y_i-\bar{y})^2}_{SQT} = \underbrace{\sum_{i=1}^{n}(\widehat{y}_i-\bar{y})^2}_{SQReg} + \underbrace{\sum_{i=1}^{n}(y_i-\widehat{y}_i)^2}_{SQRes} \]

Por tanto, el coeficiente de determinación se calcula como:

\[ R^2 = \frac{SQReg}{SQT} = 1-\frac{SQRes}{SQT} \]

El \(R^2\) mide la proporción de la variabilidad total de la respuesta explicada por el modelo ajustado.

Coeficiente de determinación ajustado

El coeficiente de determinación ajustado se calcula como:

\[ \bar{R}^2 = 1-\frac{QMRes}{QMT} \]

donde:

\[ QMRes=\frac{SQRes}{n-p} \qquad \text{y} \qquad QMT=\frac{SQT}{n-1} \]

Equivalentemente:

\[ \bar{R}^2 = 1- (1-R^2) \frac{n-1}{n-p} \]

El \(R^2\) ajustado penaliza la incorporación de parámetros y permite comparar modelos con distinta complejidad.

Ejemplo 1: Venta de tejados

El objetivo es explicar el número medio de tejados vendidos en una red de tiendas de construcción, a partir de características comerciales de cada filial.

Se trabajará con el archivo vendas.txt, que contiene información de (n=26) filiales. Los datos corresponden a la venta anual de un tipo de tejado de madera, reportados originalmente por Neter et al. (1996, p. 449) y retomados en Paula, sección 1.14.1.

Variable respuesta:

  • telhados: total de tejados vendidos, en miles de metros cuadrados.

Variables explicativas:

  • clientes: número de clientes registrados en la tienda, en miles;
  • gastos: gastos de promoción del producto, en miles de dólares;
  • marcas: número de marcas competidoras;
  • potencial: potencial de la tienda; valores más altos indican mayor potencial.

Ejemplo 1: Exploración inicial de las variables

Antes de ajustar el modelo, se revisan las principales medidas descriptivas de las variables del ejemplo.

Ver código en R
library(dplyr)
library(knitr)

vendas <- read.table("vendas.txt", header = TRUE)

tabla_desc <- data.frame(
  Variable = c("telhados", "clientes", "gastos", "marcas", "potencial"),
  Media = c(
    mean(vendas$telhados),
    mean(vendas$clientes),
    mean(vendas$gastos),
    mean(vendas$marcas),
    mean(vendas$potencial)
  ),
  `Desv. estándar` = c(
    sd(vendas$telhados),
    sd(vendas$clientes),
    sd(vendas$gastos),
    sd(vendas$marcas),
    sd(vendas$potencial)
  ),
  Mínimo = c(
    min(vendas$telhados),
    min(vendas$clientes),
    min(vendas$gastos),
    min(vendas$marcas),
    min(vendas$potencial)
  ),
  Mediana = c(
    median(vendas$telhados),
    median(vendas$clientes),
    median(vendas$gastos),
    median(vendas$marcas),
    median(vendas$potencial)
  ),
  Máximo = c(
    max(vendas$telhados),
    max(vendas$clientes),
    max(vendas$gastos),
    max(vendas$marcas),
    max(vendas$potencial)
  )
)

kable(
  tabla_desc,
  digits = 2,
  align = "lrrrrr"
)
Variable Media Desv..estándar Mínimo Mediana Máximo
telhados 170.21 84.55 30.9 159.8 339.4
clientes 51.85 14.21 26.0 51.5 75.0
gastos 5.41 1.83 2.5 5.5 9.0
marcas 9.12 2.58 4.0 9.0 13.0
potencial 9.88 4.73 3.0 9.0 19.0

La tabla permite revisar la magnitud, dispersión y rango de las variables antes de formular el modelo.

Ejemplo 1: Distribución de telhados

Ver código en R
library(robustbase)

par(mfrow = c(1, 2))

adjbox(
  vendas$telhados,
  main = "Boxplot ajustado",
  ylab = "Tejados vendidos"
)

hist(
  vendas$telhados,
  probability = TRUE,
  main = "Distribución de telhados",
  xlab = "Tejados vendidos",
  ylab = "Densidad",
  breaks = 8
)

lines(
  density(vendas$telhados),
  lwd = 2
)

Ejemplo 1: Lectura de la distribución de telhados

En la distribución de telhados se observa:

  • ausencia de observaciones aberrantes evidentes según el boxplot ajustado;
  • ligera asimetría hacia la derecha;
  • dispersión importante en las ventas entre filiales.

La revisión gráfica sugiere que la respuesta puede tratarse inicialmente como continua para el ajuste del modelo lineal normal.

Ejemplo 1: Relaciones bivariadas con la respuesta

Ver código en R
library(ggplot2)
library(patchwork)

p1 <- ggplot(vendas, aes(x = clientes, y = telhados)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  labs(x = "Clientes registrados", y = "Tejados vendidos")

p2 <- ggplot(vendas, aes(x = gastos, y = telhados)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  labs(x = "Gastos de promoción", y = "Tejados vendidos")

p3 <- ggplot(vendas, aes(x = marcas, y = telhados)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  labs(x = "Marcas competidoras", y = "Tejados vendidos")

p4 <- ggplot(vendas, aes(x = potencial, y = telhados)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  labs(x = "Potencial de la tienda", y = "Tejados vendidos")

(p1 | p2) / (p3 | p4)

Ejemplo 1: Lectura de las relaciones bivariadas

  • La relación con clientes es claramente positiva: las filiales con más clientes registrados tienden a vender más tejados.

  • La relación con marcas es negativa: a mayor número de marcas competidoras, menor venta observada de tejados.

  • Las relaciones con gastos y potencial parecen positivas, pero visualmente son más débiles y con mayor dispersión.

  • Esta exploración sugiere que clientes y marcas podrían tener mayor aporte explicativo en el modelo múltiple.

Ejemplo 1: Matriz de correlaciones

Ver código en R
library(knitr)

cor(vendas[, c("telhados", "gastos", "clientes", "marcas", "potencial")]) |>
  round(3) |>
  kable()
telhados gastos clientes marcas potencial
telhados 1.000 0.159 0.783 -0.833 0.407
gastos 0.159 1.000 0.173 -0.038 -0.071
clientes 0.783 0.173 1.000 -0.324 0.468
marcas -0.833 -0.038 -0.324 1.000 -0.202
potencial 0.407 -0.071 0.468 -0.202 1.000

Ejemplo 1: Lectura de la matriz de correlaciones

En la matriz de correlaciones de Pearson se observa:

  • baja correlación entre telhados y gastos;
  • altas correlaciones entre telhados con clientes y marcas;
  • correlación moderada entre telhados y potencial;
  • correlaciones bajas entre las variables explicativas, excepto una correlación moderada entre clientes y potencial.

Estas correlaciones son coherentes con los diagramas de dispersión presentados a continuación.

Ejemplo 1: Modelo propuesto

Para la filial \(i\), sea \(Y_i\) el total de tejados vendidos.

Se propone el modelo lineal normal:

\[ Y_i = \beta_1 + \beta_2 gastos_i + \beta_3 clientes_i + \beta_4 marcas_i + \varepsilon_i, \quad i = 1, \ldots, 26 \]

con:

\[ \varepsilon_i \overset{iid}{\sim} N(0,\sigma^2) \]

Por tanto:

\[ E(Y_i \mid gastos_i, clientes_i, marcas_i) = \beta_1 + \beta_2 gastos_i + \beta_3 clientes_i + \beta_4 marcas_i \]

El modelo busca explicar el número medio de tejados vendidos a partir de gastos, clientes y marcas.

Ejemplo 1: Modelo ajustado

Ver código en R
mod_tejados <- lm(
  telhados ~ gastos + clientes + marcas,
  data = vendas
)

summary(mod_tejados)

Call:
lm(formula = telhados ~ gastos + clientes + marcas, data = vendas)

Residuals:
     Min       1Q   Median       3Q      Max 
-20.4450  -4.6552   0.6802   6.1668  14.3571 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 179.8443    12.6213  14.249 1.37e-12 ***
gastos        1.6772     1.0521   1.594    0.125    
clientes      3.3694     0.1432  23.524  < 2e-16 ***
marcas      -21.2165     0.7773 -27.295  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.491 on 22 degrees of freedom
Multiple R-squared:  0.9889,    Adjusted R-squared:  0.9874 
F-statistic: 654.1 on 3 and 22 DF,  p-value: < 2.2e-16

Ejemplo 1: Ecuación estimada e interpretación de los coeficientes

A partir del modelo ajustado, se obtiene:

\[ \widehat{\mu}_i = 179.844 + 1.677 gastos_i + 3.369 clientes_i - 21.217 marcas_i \]

donde \(\widehat{\mu}_i\) representa el número medio estimado de tejados vendidos para la filial \(i\).

Interpretación: Manteniendo constantes las demás variables:

  • por cada mil dólares adicionales en gastos de promoción, la venta media estimada aumenta en 1.677 miles de m²;
  • por cada mil clientes registrados adicionales, la venta media estimada aumenta en 3.369 miles de m²;
  • por cada marca competidora adicional, la venta media estimada disminuye en 21.217 miles de m².

Esta lectura corresponde a estimación e interpretación del modelo ajustado.

Ejemplo 1: Bondad de ajuste

Ver código en R
resumen_modelo <- summary(mod_tejados)

tabla_ajuste <- data.frame(
  Medida = c(
    "Error estándar residual",
    "R2",
    "R2 ajustado"
  ),
  Valor = c(
    resumen_modelo$sigma,
    resumen_modelo$r.squared,
    resumen_modelo$adj.r.squared
  )
)

tabla_ajuste |>
  mutate(Valor = round(Valor, 4)) |>
  knitr::kable()
Medida Valor
Error estándar residual 9.4905
R2 0.9889
R2 ajustado 0.9874

Ejemplo 1: Interpretación de la bondad de ajuste

El modelo presenta:

  • error estándar residual: 9.491;
  • \(R^2 = 0.989\);
  • \(R^2\) ajustado = 0.987.

El valor de \(R^2 = 0.989\) indica que el modelo explica aproximadamente el 98.9% de la variabilidad observada en la venta de tejados entre filiales.

El \(R^2\) ajustado, igual a 0.987, sigue siendo muy alto después de penalizar por el número de parámetros incluidos en el modelo.

Por tanto, el modelo tiene una alta capacidad descriptiva para explicar las diferencias observadas en telhados a partir de gastos, clientes y marcas.

El error estándar residual de 9.491 indica que, en promedio, las diferencias típicas entre las ventas observadas y las ventas ajustadas son de aproximadamente 9.491 miles de m² de tejados.

Referencias

Agresti, A. (2015). Foundations of linear and generalized linear models. Wiley.
Blitzstein, J. K., & Hwang, J. (2019). Introduction to probability (2nd ed.). Chapman; Hall/CRC.
Casella, G., & Berger, R. L. (2002). Statistical inference (2nd ed.). Duxbury.
DeGroot, M. H., & Schervish, M. J. (2012). Probability and statistics (4th ed.). Pearson.
Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models (4th ed.). Chapman; Hall/CRC.
Faraway, J. J. (2016). Extending the linear model with R: Generalized linear, mixed effects and nonparametric regression models (2nd ed.). Chapman; Hall/CRC.
Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to mathematical statistics (8th ed.). Pearson.
Larsen, R. J., & Marx, M. L. (2008). An introduction to mathematical statistics and its applications (4th ed.). Pearson.
McCullagh, P., & Nelder, J. A. (1989). Generalized linear models (2nd ed.). Chapman; Hall.
Pawitan, Y. (2001). In all likelihood: Statistical modelling and inference using likelihood. Oxford University Press.
Pitman, J. (1993). Probability. Springer.
Rice, J. A. (2006). Mathematical statistics and data analysis (3rd ed.). Duxbury Press.
Ross, S. (2014). A first course in probability (9th ed.). Pearson.
Wackerly, D. D., Mendenhall, W., & Scheaffer, R. L. (2008). Mathematical statistics with applications (7th ed.). Thomson Brooks/Cole.
Weisberg, S. (2014). Applied linear regression (4th ed.). Wiley.