En regresión paramétrica, la forma de la relación se especifica mediante un número finito de parámetros.
Por ejemplo:
\[
E(Y_i \mid x_i)=\beta_0+\beta_1x_i
\]
En regresión no paramétrica, la forma funcional es más flexible:
\[
E(Y_i \mid x_i)=m(x_i)
\]
En este curso se trabajará principalmente con modelos paramétricos de regresión, donde la media de la respuesta se relaciona con covariables mediante una estructura especificada.
Estructura general de un modelo de regresión
Un modelo de regresión puede representarse, de manera general, como:
\[
Y_i = m(\mathbf{x}_i) + \varepsilon_i, \quad i = 1, \ldots, n
\]
donde:
\(Y_i\): variable respuesta;
\(\mathbf{x}_i\): vector de variables explicativas;
\(m(\mathbf{x}_i)\): componente sistemático, explicado por las variables observadas;
\(\varepsilon_i\): componente aleatorio, no explicado por el modelo.
El modelo permite estudiar cómo cambia la respuesta según las variables explicativas, separando la parte estructurada de la variabilidad residual.
Media condicional
En un modelo de regresión, una formulación usual es modelar el comportamiento esperado de la respuesta dadas las variables explicativas:
\[
\mu_i = E(Y_i \mid \mathbf{x}_i)
\]
donde:
\(\mu_i\): media condicional de la respuesta;
\(E(Y_i \mid \mathbf{x}_i)\): valor esperado de \(Y_i\) dados los valores de las variables explicativas.
A partir del modelo general:
\[
Y_i = m(\mathbf{x}_i) + \varepsilon_i
\]
si \(E(\varepsilon_i)=0\), entonces:
\[
\mu_i = m(\mathbf{x}_i)
\]
Por tanto, el componente sistemático representa el comportamiento esperado de la respuesta.
Explicar, estimar y predecir
A partir de un modelo de regresión, pueden distinguirse tres objetivos relacionados:
Explicar: describir cómo se relaciona la respuesta con las variables explicativas.
Estimar: obtener valores para los parámetros desconocidos del modelo.
Predecir: usar el modelo ajustado para anticipar valores de la respuesta bajo ciertas condiciones.
Estas tareas no son equivalentes.
Un mismo modelo puede ser útil para predicción, pero requerir cautela para interpretar efectos o establecer conclusiones sustantivas.
Tipos de respuesta en problemas de regresión
La variable respuesta no siempre tiene la misma naturaleza.
En aplicaciones reales puede ser:
continua;
binaria;
de conteo;
una proporción;
una tasa;
positiva y asimétrica.
El tipo de respuesta condiciona la forma del modelo, la distribución asumida, la estructura de la varianza y las herramientas de diagnóstico.
Necesidad de una clase más general de modelos
El modelo de regresión debe ser coherente con la naturaleza de la respuesta.
Cuando la respuesta no es continua o cuando su variabilidad cambia con el nivel esperado de la respuesta, una formulación normal con varianza constante puede ser insuficiente.
Por ello, se requiere una clase de modelos que permita:
mantener la lógica de regresión;
incorporar distintas distribuciones para la respuesta;
relacionar el comportamiento esperado de la respuesta con las variables explicativas;
adaptar la estimación, inferencia y diagnóstico al tipo de dato.
Elementos que se reutilizarán en GLM
Al pasar a modelos lineales generalizados se mantienen varios elementos de la lógica de regresión:
variable respuesta;
variables explicativas;
media condicional;
componente sistemático;
parámetros desconocidos;
estimación;
inferencia;
diagnóstico;
comparación de modelos.
Lo que cambia es la forma probabilística y la relación entre la media y el componente sistemático.
Pregunta de transición
La transición hacia los modelos lineales generalizados se organiza a partir de tres preguntas:
¿qué distribución es adecuada para la respuesta?
¿cómo se relaciona la media condicional con las variables explicativas?
¿cómo cambia la varianza según el comportamiento esperado de la respuesta?
Estas preguntas permiten pasar del modelo lineal normal a una familia más amplia de modelos de regresión.
Así, la respuesta condicionada a las variables explicativas sigue una distribución normal con media dependiente de las covariables y varianza constante.
Forma matricial del modelo
Para las \(n\) observaciones, el modelo puede escribirse como:
cada coeficiente estimado \(\widehat{\beta}_j\) representa el cambio esperado en la media de la respuesta asociado a una unidad adicional de \(x_{ij}\), manteniendo constantes las demás variables explicativas.
El \(R^2\) ajustado penaliza la incorporación de parámetros y permite comparar modelos con distinta complejidad.
Ejemplo 1: Venta de tejados
El objetivo es explicar el número medio de tejados vendidos en una red de tiendas de construcción, a partir de características comerciales de cada filial.
Se trabajará con el archivo vendas.txt, que contiene información de (n=26) filiales. Los datos corresponden a la venta anual de un tipo de tejado de madera, reportados originalmente por Neter et al. (1996, p. 449) y retomados en Paula, sección 1.14.1.
Variable respuesta:
telhados: total de tejados vendidos, en miles de metros cuadrados.
Variables explicativas:
clientes: número de clientes registrados en la tienda, en miles;
gastos: gastos de promoción del producto, en miles de dólares;
marcas: número de marcas competidoras;
potencial: potencial de la tienda; valores más altos indican mayor potencial.
Ejemplo 1: Exploración inicial de las variables
Antes de ajustar el modelo, se revisan las principales medidas descriptivas de las variables del ejemplo.
El valor de \(R^2 = 0.989\) indica que el modelo explica aproximadamente el 98.9% de la variabilidad observada en la venta de tejados entre filiales.
El \(R^2\) ajustado, igual a 0.987, sigue siendo muy alto después de penalizar por el número de parámetros incluidos en el modelo.
Por tanto, el modelo tiene una alta capacidad descriptiva para explicar las diferencias observadas en telhados a partir de gastos, clientes y marcas.
El error estándar residual de 9.491 indica que, en promedio, las diferencias típicas entre las ventas observadas y las ventas ajustadas son de aproximadamente 9.491 miles de m² de tejados.
Inferencia y predicción en el modelo lineal normal
Inferencia en el modelo lineal normal
Después de estimar el modelo, interesa evaluar la incertidumbre asociada a los parámetros.
La inferencia clásica se realiza bajo el supuesto de que el modelo está correctamente especificado y que sus supuestos principales son razonables.
En esta sección se revisan:
prueba global del modelo;
pruebas individuales para coeficientes;
restricciones lineales;
modelos anidados;
intervalos de confianza;
predicción.
El diagnóstico posterior evaluará si estos supuestos son compatibles con los datos.
Prueba global del modelo
La prueba global evalúa si el conjunto de variables explicativas aporta información para explicar la respuesta.
Para un modelo con intercepto, se contrasta:
\[
H_0:\beta_2=\beta_3=\cdots=\beta_p=0
\]
frente a:
\[
H_1:\text{al menos un } \beta_j \neq 0,\quad j=2,\ldots,p
\]
Bajo \(H_0\), el modelo se reduce a un modelo con intercepto.
Bajo \(H_1\), al menos una variable explicativa contribuye al modelo.
Estadístico F global
La prueba global se basa en comparar la variabilidad explicada por el modelo con la variabilidad residual:
\(SQReg\): suma de cuadrados explicada por la regresión;
\(SQRes\): suma de cuadrados residual;
\(p\): número de parámetros del modelo;
\(n\): tamaño de muestra.
Bajo \(H_0\):
\[
F \sim F_{p-1,n-p}
\] —
Tabla ANOVA del modelo lineal
La prueba global suele resumirse mediante la tabla ANOVA:
Fuente
Suma de cuadrados
gl
Cuadrado medio
Estadístico
Regresión
\(SQReg\)
\(p-1\)
\(QMReg=SQReg/(p-1)\)
\(F=QMReg/QMRes\)
Residual
\(SQRes\)
\(n-p\)
\(QMRes=SQRes/(n-p)\)
Total
\(SQT\)
\(n-1\)
La tabla ANOVA resume la descomposición de la variabilidad y permite evaluar si el modelo con covariables mejora respecto al modelo con solo intercepto.
\[
H_1:\text{al menos uno de } \beta_2,\beta_3,\beta_4 \text{ es distinto de cero}
\]
Ver código en R
library(olsrr)ols_anova(mod_tejados)
ANOVA
-----------------------------------------------------------------------
Sum of
Squares DF Mean Square F Sig.
-----------------------------------------------------------------------
Regression 176732.665 3 58910.888 654.059 0.0000
Residual 1981.534 22 90.070
Total 178714.198 25
-----------------------------------------------------------------------
Ejemplo 1: Interpretación de la prueba global
La prueba F global evalúa si el modelo con gastos, clientes y marcas mejora el ajuste respecto a un modelo con solo intercepto.
A partir de la tabla ANOVA:
la variabilidad explicada por la regresión se compara con la variabilidad residual;
el estadístico observado es \(F_{obs} = 654.06\), con \(gl_1 = 3\) y \(gl_2 = 22\);
el valor-p asociado es <2e-16.
Como el valor-p es muy pequeño, se rechaza la hipótesis nula de que las pendientes de gastos, clientes y marcas sean simultáneamente iguales a cero.
Por tanto, la prueba global indica que el conjunto de variables explicativas aporta información para explicar la venta media de tejados.
Antes de revisar coeficientes individuales, el modelo muestra evidencia global de utilidad explicativa.
En regresión, este caso es frecuente porque permite evaluar si la variable asociada al coeficiente aporta información al modelo, manteniendo constantes las demás variables.
Ejemplo 1: Pruebas individuales para coeficientes
Para el modelo de venta de tejados, se evalúa individualmente cada coeficiente asociado a las variables explicativas.
En el caso usual, para cada variable se contrasta:
La tabla presenta, para cada coeficiente, la estimación, su error estándar, el estadístico t y el valor-p asociado.
Ejemplo 1: Interpretación de las pruebas individuales
A partir de la salida del modelo, usando un nivel de significancia de \(\alpha=0.05\):
Para gastos, el valor-p es 0.1252. Como 0.1252 > 0.05, no se rechaza \(H_0:\beta_2=0\). No hay evidencia estadística suficiente para afirmar que gastos aporte individualmente al modelo, manteniendo constantes clientes y marcas.
Para clientes, el valor-p es 4.37e-17. Como 4.37e-17 < 0.05, se rechaza \(H_0:\beta_3=0\). Existe evidencia estadística de que clientes aporta individualmente al modelo, manteniendo constantes gastos y marcas.
Para marcas, el valor-p es 1.84e-18. Como 1.84e-18 < 0.05, se rechaza \(H_0:\beta_4=0\). Existe evidencia estadística de que marcas aporta individualmente al modelo, manteniendo constantes gastos y clientes.
Ejemplo 1: Lectura conjunta
La prueba global indicó que el conjunto de variables explicativas aporta información para explicar telhados.
Las pruebas individuales muestran que:
clientes tiene un coeficiente estimado positivo (3.3694) y evidencia estadística individual clara;
marcas tiene un coeficiente estimado negativo (-21.2165) y evidencia estadística individual clara;
gastos tiene un coeficiente estimado positivo (1.6772), pero no presenta evidencia estadística individual al nivel 0.05.
Por tanto, dentro del modelo ajustado, el aporte individual más claro corresponde a clientes y marcas.
La interpretación sigue siendo condicional al modelo múltiple: cada coeficiente se evalúa manteniendo constantes las demás variables incluidas.
Los intervalos se construyen al 95% de confianza para los coeficientes del modelo ajustado:
Para gastos, el intervalo es aproximadamente \([-0.505,\ 3.859]\).
Esto indica que, manteniendo constantes clientes y marcas, el efecto medio de un aumento de mil dólares en gastos de promoción podría estar entre una disminución de 0.505 y un aumento de 3.859 miles de m² de tejados vendidos. Como el intervalo incluye cero, no hay evidencia clara de un efecto lineal individual de gastos.
Para clientes, el intervalo es aproximadamente \([3.072,\ 3.666]\).
Esto indica que, manteniendo constantes gastos y marcas, por cada mil clientes registrados adicionales, la venta media de tejados aumenta entre 3.072 y 3.666 miles de m².
Para marcas, el intervalo es aproximadamente \([-22.828,\ -19.605]\).
Esto indica que, manteniendo constantes gastos y clientes, por cada marca competidora adicional, la venta media de tejados disminuye entre 19.605 y 22.828 miles de m².
Los intervalos de clientes y marcas no contienen cero, mientras que el intervalo de gastos sí lo contiene.
Hipótesis lineal general
Además de probar coeficientes individuales, puede ser necesario evaluar hipótesis simultáneas sobre varios coeficientes.
Una hipótesis lineal general puede escribirse como:
\[
H_0:R\boldsymbol{\beta}=\mathbf{r}
\]
frente a:
\[
H_1:R\boldsymbol{\beta}\neq\mathbf{r}
\]
donde:
\(R\): matriz que define las hipótesis lineales;
\(\boldsymbol{\beta}\): vector de parámetros del modelo;
\(\mathbf{r}\): vector de valores hipotéticos;
\(q\): número de hipótesis lineales independientes.
Si el modelo tiene \(p\) parámetros, entonces \(R\) es una matriz de dimensión \(q \times p\).
\(SQRes_R\): suma de cuadrados residual del modelo reducido, ajustado bajo \(H_0\);
\(SQRes_C\): suma de cuadrados residual del modelo completo;
\(p_R\): número de parámetros del modelo reducido;
\(p_C\): número de parámetros del modelo completo.
Bajo \(H_0\):
\[
F\sim F_{p_C-p_R,\ n-p_C}
\]
Lectura de la prueba
La hipótesis nula plantea que la hipótesis lineal general es compatible con los datos.
El numerador mide la pérdida promedio de ajuste al imponer \(H_0\):
\[
SQRes_R-SQRes_C
\]
El denominador corresponde al cuadrado medio residual del modelo completo:
\[
\frac{SQRes_C}{n-p_C}
\]
Si el estadístico \(F\) es grande y el valor-p es pequeño, se rechaza \(H_0\).
En ese caso, la hipótesis lineal planteada no es compatible con el modelo ajustado.
Si no se rechaza \(H_0\), el modelo reducido puede considerarse suficiente desde el punto de vista inferencial. Esta lógica será importante más adelante para selección de modelos.
\[
H_1:\text{al menos una de las dos restricciones no se cumple}
\]
Esta hipótesis es razonable porque evalúa conjuntamente dos variables comerciales cuyo aporte podría ser débil después de controlar por clientes registrados y marcas competidoras.
El modelo completo reduce la suma de cuadrados residual respecto al modelo reducido. La prueba F evaluará si esa reducción es suficientemente grande en relación con la variabilidad residual del modelo completo.
Ejemplo 1: Cálculo manual del estadístico F
Se contrasta si gastos y potencial aportan información adicional al modelo con clientes y marcas:
Debe coincidir con la comparación entre el modelo reducido y el modelo completo.
Ejemplo 1: Lectura del contraste
La prueba evalúa si gastos y potencial, considerados simultáneamente, mejoran el modelo que ya contiene clientes y marcas.
La hipótesis evaluada fue:
\[
H_0:\beta_2=\beta_5=0
\]
El estadístico obtenido fue:
\[
F=1.482
\]
con grados de libertad:
\[
gl_1=2,
\qquad
gl_2=21
\]
y valor-p:
\[
p\text{-valor}=0.250
\]
Como:
\[
0.250 > 0.05
\]
no se rechaza \(H_0\) al nivel de significancia de 5%.
Por tanto, no se encuentra evidencia estadística suficiente para afirmar que gastos y potencial mejoren conjuntamente el ajuste del modelo, una vez incluidas clientes y marcas.
Nueva observación y vector de covariables
Suponga una nueva observación que no pertenece a la muestra.
Sus valores para las variables explicativas se representan por:
La región sombreada representa la banda de predicción para nuevas filiales individuales.
Ejemplo 1: Lectura de la banda de predicción
La banda de predicción se interpreta sobre el rango de valores de clientes considerado.
La pregunta que responde es:
¿En qué región plausible podrían ubicarse nuevas filiales individuales?
Esta banda es más amplia que la banda de confianza porque incorpora la variabilidad propia de una nueva observación.
En resumen:
Resultado
Se presenta como
Interpretación
Intervalo
Tabla para un valor específico
Lectura puntual
Banda
Región sombreada
Lectura simultánea sobre un rango
Confianza
Valor esperado
Relación esperada
Predicción
Nueva observación
Filial individual
Referencias
Agresti, A. (2015). Foundations of linear and generalized linear models. Wiley.
Blitzstein, J. K., & Hwang, J. (2019). Introduction to probability (2nd ed.). Chapman; Hall/CRC.
Casella, G., & Berger, R. L. (2002). Statistical inference (2nd ed.). Duxbury.
DeGroot, M. H., & Schervish, M. J. (2012). Probability and statistics (4th ed.). Pearson.
Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models (4th ed.). Chapman; Hall/CRC.
Faraway, J. J. (2016). Extending the linear model with R: Generalized linear, mixed effects and nonparametric regression models (2nd ed.). Chapman; Hall/CRC.
Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to mathematical statistics (8th ed.). Pearson.
Larsen, R. J., & Marx, M. L. (2008). An introduction to mathematical statistics and its applications (4th ed.). Pearson.
McCullagh, P., & Nelder, J. A. (1989). Generalized linear models (2nd ed.). Chapman; Hall.
Pawitan, Y. (2001). In all likelihood: Statistical modelling and inference using likelihood. Oxford University Press.
Pitman, J. (1993). Probability. Springer.
Rice, J. A. (2006). Mathematical statistics and data analysis (3rd ed.). Duxbury Press.
Ross, S. (2014). A first course in probability (9th ed.). Pearson.
Wackerly, D. D., Mendenhall, W., & Scheaffer, R. L. (2008). Mathematical statistics with applications (7th ed.). Thomson Brooks/Cole.
Weisberg, S. (2014). Applied linear regression (4th ed.). Wiley.