En regresión paramétrica, la forma de la relación se especifica mediante un número finito de parámetros.
Por ejemplo:
\[
E(Y_i \mid x_i)=\beta_0+\beta_1x_i
\]
En regresión no paramétrica, la forma funcional es más flexible:
\[
E(Y_i \mid x_i)=m(x_i)
\]
En este curso se trabajará principalmente con modelos paramétricos de regresión, donde la media de la respuesta se relaciona con covariables mediante una estructura especificada.
Estructura general de un modelo de regresión
Un modelo de regresión puede representarse, de manera general, como:
\[
Y_i = m(\mathbf{x}_i) + \varepsilon_i, \quad i = 1, \ldots, n
\]
donde:
\(Y_i\): variable respuesta;
\(\mathbf{x}_i\): vector de variables explicativas;
\(m(\mathbf{x}_i)\): componente sistemático, explicado por las variables observadas;
\(\varepsilon_i\): componente aleatorio, no explicado por el modelo.
El modelo permite estudiar cómo cambia la respuesta según las variables explicativas, separando la parte estructurada de la variabilidad residual.
Media condicional
En un modelo de regresión, una formulación usual es modelar el comportamiento esperado de la respuesta dadas las variables explicativas:
\[
\mu_i = E(Y_i \mid \mathbf{x}_i)
\]
donde:
\(\mu_i\): media condicional de la respuesta;
\(E(Y_i \mid \mathbf{x}_i)\): valor esperado de \(Y_i\) dados los valores de las variables explicativas.
A partir del modelo general:
\[
Y_i = m(\mathbf{x}_i) + \varepsilon_i
\]
si \(E(\varepsilon_i)=0\), entonces:
\[
\mu_i = m(\mathbf{x}_i)
\]
Por tanto, el componente sistemático representa el comportamiento esperado de la respuesta.
Explicar, estimar y predecir
A partir de un modelo de regresión, pueden distinguirse tres objetivos relacionados:
Explicar: describir cómo se relaciona la respuesta con las variables explicativas.
Estimar: obtener valores para los parámetros desconocidos del modelo.
Predecir: usar el modelo ajustado para anticipar valores de la respuesta bajo ciertas condiciones.
Estas tareas no son equivalentes.
Un mismo modelo puede ser útil para predicción, pero requerir cautela para interpretar efectos o establecer conclusiones sustantivas.
Tipos de respuesta en problemas de regresión
La variable respuesta no siempre tiene la misma naturaleza.
En aplicaciones reales puede ser:
continua;
binaria;
de conteo;
una proporción;
una tasa;
positiva y asimétrica.
El tipo de respuesta condiciona la forma del modelo, la distribución asumida, la estructura de la varianza y las herramientas de diagnóstico.
Necesidad de una clase más general de modelos
El modelo de regresión debe ser coherente con la naturaleza de la respuesta.
Cuando la respuesta no es continua o cuando su variabilidad cambia con el nivel esperado de la respuesta, una formulación normal con varianza constante puede ser insuficiente.
Por ello, se requiere una clase de modelos que permita:
mantener la lógica de regresión;
incorporar distintas distribuciones para la respuesta;
relacionar el comportamiento esperado de la respuesta con las variables explicativas;
adaptar la estimación, inferencia y diagnóstico al tipo de dato.
Elementos que se reutilizarán en GLM
Al pasar a modelos lineales generalizados se mantienen varios elementos de la lógica de regresión:
variable respuesta;
variables explicativas;
media condicional;
componente sistemático;
parámetros desconocidos;
estimación;
inferencia;
diagnóstico;
comparación de modelos.
Lo que cambia es la forma probabilística y la relación entre la media y el componente sistemático.
Pregunta de transición
La transición hacia los modelos lineales generalizados se organiza a partir de tres preguntas:
¿qué distribución es adecuada para la respuesta?
¿cómo se relaciona la media condicional con las variables explicativas?
¿cómo cambia la varianza según el comportamiento esperado de la respuesta?
Estas preguntas permiten pasar del modelo lineal normal a una familia más amplia de modelos de regresión.
Así, la respuesta condicionada a las variables explicativas sigue una distribución normal con media dependiente de las covariables y varianza constante.
Forma matricial del modelo
Para las \(n\) observaciones, el modelo puede escribirse como:
cada coeficiente estimado \(\widehat{\beta}_j\) representa el cambio esperado en la media de la respuesta asociado a una unidad adicional de \(x_{ij}\), manteniendo constantes las demás variables explicativas.
El \(R^2\) ajustado penaliza la incorporación de parámetros y permite comparar modelos con distinta complejidad.
Ejemplo 1: Venta de tejados
El objetivo es explicar el número medio de tejados vendidos en una red de tiendas de construcción, a partir de características comerciales de cada filial.
Se trabajará con el archivo vendas.txt, que contiene información de (n=26) filiales. Los datos corresponden a la venta anual de un tipo de tejado de madera, reportados originalmente por Neter et al. (1996, p. 449) y retomados en Paula, sección 1.14.1.
Variable respuesta:
telhados: total de tejados vendidos, en miles de metros cuadrados.
Variables explicativas:
clientes: número de clientes registrados en la tienda, en miles;
gastos: gastos de promoción del producto, en miles de dólares;
marcas: número de marcas competidoras;
potencial: potencial de la tienda; valores más altos indican mayor potencial.
Ejemplo 1: Exploración inicial de las variables
Antes de ajustar el modelo, se revisan las principales medidas descriptivas de las variables del ejemplo.
El valor de \(R^2 = 0.989\) indica que el modelo explica aproximadamente el 98.9% de la variabilidad observada en la venta de tejados entre filiales.
El \(R^2\) ajustado, igual a 0.987, sigue siendo muy alto después de penalizar por el número de parámetros incluidos en el modelo.
Por tanto, el modelo tiene una alta capacidad descriptiva para explicar las diferencias observadas en telhados a partir de gastos, clientes y marcas.
El error estándar residual de 9.491 indica que, en promedio, las diferencias típicas entre las ventas observadas y las ventas ajustadas son de aproximadamente 9.491 miles de m² de tejados.
Inferencia y predicción en el modelo lineal normal
Inferencia en el modelo lineal normal
Después de estimar el modelo, interesa evaluar la incertidumbre asociada a los parámetros.
La inferencia clásica se realiza bajo el supuesto de que el modelo está correctamente especificado y que sus supuestos principales son razonables.
En esta sección se revisan:
prueba global del modelo;
pruebas individuales para coeficientes;
restricciones lineales;
modelos anidados;
intervalos de confianza;
predicción.
El diagnóstico posterior evaluará si estos supuestos son compatibles con los datos.
Prueba global del modelo
La prueba global evalúa si el conjunto de variables explicativas aporta información para explicar la respuesta.
Para un modelo con intercepto, se contrasta:
\[
H_0:\beta_2=\beta_3=\cdots=\beta_p=0
\]
frente a:
\[
H_1:\text{al menos un } \beta_j \neq 0,\quad j=2,\ldots,p
\]
Bajo \(H_0\), el modelo se reduce a un modelo con intercepto.
Bajo \(H_1\), al menos una variable explicativa contribuye al modelo.
Estadístico F global
La prueba global se basa en comparar la variabilidad explicada por el modelo con la variabilidad residual:
\(SQReg\): suma de cuadrados explicada por la regresión;
\(SQRes\): suma de cuadrados residual;
\(p\): número de parámetros del modelo;
\(n\): tamaño de muestra.
Bajo \(H_0\):
\[
F \sim F_{p-1,n-p}
\] —
Tabla ANOVA del modelo lineal
La prueba global suele resumirse mediante la tabla ANOVA:
Fuente
Suma de cuadrados
gl
Cuadrado medio
Estadístico
Regresión
\(SQReg\)
\(p-1\)
\(QMReg=SQReg/(p-1)\)
\(F=QMReg/QMRes\)
Residual
\(SQRes\)
\(n-p\)
\(QMRes=SQRes/(n-p)\)
Total
\(SQT\)
\(n-1\)
La tabla ANOVA resume la descomposición de la variabilidad y permite evaluar si el modelo con covariables mejora respecto al modelo con solo intercepto.
\[
H_1:\text{al menos uno de } \beta_2,\beta_3,\beta_4 \text{ es distinto de cero}
\]
Ver código en R
library(olsrr)ols_anova(mod_tejados)
ANOVA
-----------------------------------------------------------------------
Sum of
Squares DF Mean Square F Sig.
-----------------------------------------------------------------------
Regression 176732.665 3 58910.888 654.059 0.0000
Residual 1981.534 22 90.070
Total 178714.198 25
-----------------------------------------------------------------------
Ejemplo 1: Interpretación de la prueba global
La prueba F global evalúa si el modelo con gastos, clientes y marcas mejora el ajuste respecto a un modelo con solo intercepto.
A partir de la tabla ANOVA:
la variabilidad explicada por la regresión se compara con la variabilidad residual;
el estadístico observado es \(F_{obs} = 654.06\), con \(gl_1 = 3\) y \(gl_2 = 22\);
el valor-p asociado es <2e-16.
Como el valor-p es muy pequeño, se rechaza la hipótesis nula de que las pendientes de gastos, clientes y marcas sean simultáneamente iguales a cero.
Por tanto, la prueba global indica que el conjunto de variables explicativas aporta información para explicar la venta media de tejados.
Antes de revisar coeficientes individuales, el modelo muestra evidencia global de utilidad explicativa.
En regresión, este caso es frecuente porque permite evaluar si la variable asociada al coeficiente aporta información al modelo, manteniendo constantes las demás variables.
Ejemplo 1: Pruebas individuales para coeficientes
Para el modelo de venta de tejados, se evalúa individualmente cada coeficiente asociado a las variables explicativas.
En el caso usual, para cada variable se contrasta:
La tabla presenta, para cada coeficiente, la estimación, su error estándar, el estadístico t y el valor-p asociado.
Ejemplo 1: Interpretación de las pruebas individuales
A partir de la salida del modelo, usando un nivel de significancia de \(\alpha=0.05\):
Para gastos, el valor-p es 0.1252. Como 0.1252 > 0.05, no se rechaza \(H_0:\beta_2=0\). No hay evidencia estadística suficiente para afirmar que gastos aporte individualmente al modelo, manteniendo constantes clientes y marcas.
Para clientes, el valor-p es 4.37e-17. Como 4.37e-17 < 0.05, se rechaza \(H_0:\beta_3=0\). Existe evidencia estadística de que clientes aporta individualmente al modelo, manteniendo constantes gastos y marcas.
Para marcas, el valor-p es 1.84e-18. Como 1.84e-18 < 0.05, se rechaza \(H_0:\beta_4=0\). Existe evidencia estadística de que marcas aporta individualmente al modelo, manteniendo constantes gastos y clientes.
Ejemplo 1: Lectura conjunta
La prueba global indicó que el conjunto de variables explicativas aporta información para explicar telhados.
Las pruebas individuales muestran que:
clientes tiene un coeficiente estimado positivo (3.3694) y evidencia estadística individual clara;
marcas tiene un coeficiente estimado negativo (-21.2165) y evidencia estadística individual clara;
gastos tiene un coeficiente estimado positivo (1.6772), pero no presenta evidencia estadística individual al nivel 0.05.
Por tanto, dentro del modelo ajustado, el aporte individual más claro corresponde a clientes y marcas.
La interpretación sigue siendo condicional al modelo múltiple: cada coeficiente se evalúa manteniendo constantes las demás variables incluidas.
Los intervalos se construyen al 95% de confianza para los coeficientes del modelo ajustado:
Para gastos, el intervalo es aproximadamente \([-0.505,\ 3.859]\).
Esto indica que, manteniendo constantes clientes y marcas, el efecto medio de un aumento de mil dólares en gastos de promoción podría estar entre una disminución de 0.505 y un aumento de 3.859 miles de m² de tejados vendidos. Como el intervalo incluye cero, no hay evidencia clara de un efecto lineal individual de gastos.
Para clientes, el intervalo es aproximadamente \([3.072,\ 3.666]\).
Esto indica que, manteniendo constantes gastos y marcas, por cada mil clientes registrados adicionales, la venta media de tejados aumenta entre 3.072 y 3.666 miles de m².
Para marcas, el intervalo es aproximadamente \([-22.828,\ -19.605]\).
Esto indica que, manteniendo constantes gastos y clientes, por cada marca competidora adicional, la venta media de tejados disminuye entre 19.605 y 22.828 miles de m².
Los intervalos de clientes y marcas no contienen cero, mientras que el intervalo de gastos sí lo contiene.
Hipótesis lineal general
Además de probar coeficientes individuales, puede ser necesario evaluar hipótesis simultáneas sobre varios coeficientes.
Una hipótesis lineal general puede escribirse como:
\[
H_0:R\boldsymbol{\beta}=\mathbf{r}
\]
frente a:
\[
H_1:R\boldsymbol{\beta}\neq\mathbf{r}
\]
donde:
\(R\): matriz que define las hipótesis lineales;
\(\boldsymbol{\beta}\): vector de parámetros del modelo;
\(\mathbf{r}\): vector de valores hipotéticos;
\(q\): número de hipótesis lineales independientes.
Si el modelo tiene \(p\) parámetros, entonces \(R\) es una matriz de dimensión \(q \times p\).
\(SQRes_R\): suma de cuadrados residual del modelo reducido, ajustado bajo \(H_0\);
\(SQRes_C\): suma de cuadrados residual del modelo completo;
\(p_R\): número de parámetros del modelo reducido;
\(p_C\): número de parámetros del modelo completo.
Bajo \(H_0\):
\[
F\sim F_{p_C-p_R,\ n-p_C}
\]
Lectura de la prueba
La hipótesis nula plantea que la hipótesis lineal general es compatible con los datos.
El numerador mide la pérdida promedio de ajuste al imponer \(H_0\):
\[
SQRes_R-SQRes_C
\]
El denominador corresponde al cuadrado medio residual del modelo completo:
\[
\frac{SQRes_C}{n-p_C}
\]
Si el estadístico \(F\) es grande y el valor-p es pequeño, se rechaza \(H_0\).
En ese caso, la hipótesis lineal planteada no es compatible con el modelo ajustado.
Si no se rechaza \(H_0\), el modelo reducido puede considerarse suficiente desde el punto de vista inferencial. Esta lógica será importante más adelante para selección de modelos.
\[
H_1:\text{al menos una de las dos restricciones no se cumple}
\]
Esta hipótesis es razonable porque evalúa conjuntamente dos variables comerciales cuyo aporte podría ser débil después de controlar por clientes registrados y marcas competidoras.
El modelo completo reduce la suma de cuadrados residual respecto al modelo reducido. La prueba F evaluará si esa reducción es suficientemente grande en relación con la variabilidad residual del modelo completo.
Ejemplo 1: Cálculo manual del estadístico F
Se contrasta si gastos y potencial aportan información adicional al modelo con clientes y marcas:
Debe coincidir con la comparación entre el modelo reducido y el modelo completo.
Ejemplo 1: Lectura del contraste
La prueba evalúa si gastos y potencial, considerados simultáneamente, mejoran el modelo que ya contiene clientes y marcas.
La hipótesis evaluada fue:
\[
H_0:\beta_2=\beta_5=0
\]
El estadístico obtenido fue:
\[
F=1.482
\]
con grados de libertad:
\[
gl_1=2,
\qquad
gl_2=21
\]
y valor-p:
\[
p\text{-valor}=0.250
\]
Como:
\[
0.250 > 0.05
\]
no se rechaza \(H_0\) al nivel de significancia de 5%.
Por tanto, no se encuentra evidencia estadística suficiente para afirmar que gastos y potencial mejoren conjuntamente el ajuste del modelo, una vez incluidas clientes y marcas.
Nueva observación y vector de covariables
Suponga una nueva observación que no pertenece a la muestra.
Sus valores para las variables explicativas se representan por:
La banda de confianza se refiere a la relación esperada entre clientes y telhados.
La banda de predicción se refiere a nuevas filiales individuales.
Resultado
Se refiere a
Interpretación
Banda de confianza
Valor esperado
Región plausible para la relación media
Banda de predicción
Nueva observación
Región plausible para nuevas filiales individuales
La banda de predicción es más amplia porque incorpora la variabilidad propia de una nueva filial.
En regresión simple puede graficarse en dos dimensiones. En regresión múltiple dependería del vector completo de covariables.
Diagnóstico del modelo lineal normal
Propósito del diagnóstico
Después de ajustar el modelo, se debe evaluar si los datos son compatibles con los supuestos y la estructura asumida.
El diagnóstico permite revisar:
si los residuos muestran patrones sistemáticos;
si la variabilidad es aproximadamente constante;
si la normalidad de los errores es razonable;
si existen observaciones atípicas o influyentes;
si hay problemas en la estructura de las covariables.
El diagnóstico no busca eliminar observaciones automáticamente.
Su objetivo es evaluar la confiabilidad del modelo ajustado y de las conclusiones obtenidas.
Organización del diagnóstico
El diagnóstico del modelo lineal normal puede organizarse en tres bloques:
Bloque
Pregunta central
Diagnóstico de supuestos
¿Los residuos son compatibles con los supuestos del modelo?
Diagnóstico de estructura
¿La forma del modelo y las covariables son adecuadas?
Diagnóstico de observaciones influyentes
¿Algunas observaciones afectan de manera importante el ajuste?
Esta organización permite separar problemas de naturaleza distinta y evitar interpretar todos los gráficos diagnósticos como si respondieran la misma pregunta.
Diagnóstico de supuestos
El diagnóstico de supuestos se basa principalmente en el análisis de residuos.
En el modelo lineal normal se espera que los errores:
Por tanto, se revisa si los residuos son compatibles con:
media aproximadamente cero;
varianza constante;
normalidad;
independencia;
ausencia de patrones sistemáticos.
Los residuos no son los errores verdaderos, pero permiten aproximar su comportamiento.
Residuos ordinarios
El residuo ordinario de la observación \(i\) se define como:
\[
e_i=y_i-\widehat{y}_i
\]
donde:
\(y_i\): valor observado de la respuesta;
\(\widehat{y}_i\): valor ajustado por el modelo;
\(e_i\): diferencia entre lo observado y lo ajustado.
Los residuos ordinarios muestran la discrepancia básica entre los datos y el modelo ajustado.
Sin embargo, no son los residuos más adecuados para el diagnóstico, porque no todos tienen la misma variabilidad.
Limitación de los residuos ordinarios
En el modelo lineal normal, los residuos ordinarios tienen varianza:
\[
Var(e_i)=\sigma^2(1-h_{ii})
\]
donde \(h_{ii}\) es el valor de apalancamiento de la observación \(i\).
Por tanto, dos residuos ordinarios no necesariamente son comparables entre sí.
Una observación con alto apalancamiento puede tener un residuo ordinario pequeño, aun cuando tenga capacidad para afectar el ajuste.
Por esta razón, para diagnóstico se usan residuos corregidos por su variabilidad.
Residuos estandarizados
El residuo estandarizado corrige el residuo ordinario usando una estimación común de la desviación residual:
\[
e_i^*
=
\frac{e_i}
{s\sqrt{1-h_{ii}}}
\]
donde:
\(e_i\): residuo ordinario;
\(s\): desviación estándar residual estimada;
\(h_{ii}\): valor de apalancamiento de la observación \(i\).
Estos residuos permiten comparar observaciones en una escala más homogénea.
Valores grandes en valor absoluto sugieren observaciones con ajuste deficiente.
Residuos studentizados
El residuo studentizado eliminado usa una estimación de la escala calculada sin la observación \(i\):
\[
t_i
=
\frac{e_i}
{s_{(i)}\sqrt{1-h_{ii}}}
\]
donde:
\(s_{(i)}\): desviación estándar residual estimada excluyendo la observación \(i\);
\(h_{ii}\): valor de apalancamiento de la observación \(i\).
La diferencia con el residuo estandarizado es que la escala no usa la misma observación que se está evaluando.
Por eso, los residuos studentizados son especialmente útiles para detectar observaciones aberrantes.
Lectura diagnóstica de los residuos
En el diagnóstico no interesa solo el tamaño del residuo.
También importa si el residuo aparece asociado a:
valores ajustados altos o bajos;
alguna covariable específica;
cambios en la dispersión;
patrones curvos;
observaciones con alto apalancamiento.
Por eso el análisis de residuos debe hacerse mediante gráficos y no solo revisando una tabla de valores.
Residuos frente a valores ajustados
El gráfico de residuos frente a valores ajustados permite revisar si el modelo presenta patrones sistemáticos no explicados.
En el eje horizontal se colocan los valores ajustados:
\[
\widehat{y}_i
\]
En el eje vertical se colocan residuos corregidos, por ejemplo residuos studentizados:
\[
t_i
\]
Se espera observar:
puntos dispersos alrededor de cero;
ausencia de curvatura sistemática;
dispersión aproximadamente constante;
ausencia de observaciones extremadamente alejadas.
Lectura del gráfico de residuos
Una nube sin patrón claro es compatible con un modelo razonable.
En cambio, algunos patrones sugieren problemas:
Patrón observado
Posible problema
Curvatura
Falta de linealidad
Forma de embudo
Varianza no constante
Grupos separados
Variable omitida o estructura no modelada
Puntos muy alejados
Observaciones aberrantes
Este gráfico no prueba formalmente los supuestos, pero orienta la revisión del modelo.
Normalidad de los errores
La normalidad de los errores se revisa principalmente mediante el gráfico Q-Q normal de los residuos.
Si los errores son aproximadamente normales, los puntos deberían ubicarse cerca de una recta.
Desviaciones sistemáticas pueden indicar:
asimetría;
colas pesadas;
valores extremos;
incompatibilidad con el supuesto normal.
La normalidad es especialmente relevante para la inferencia en muestras pequeñas.
Gráfico Q-Q con envelope
El gráfico Q-Q normal puede complementarse con una banda empírica de confianza, conocida como envelope.
El envelope sirve como referencia visual para evaluar si las desviaciones respecto a la recta normal son compatibles con la variabilidad esperada bajo el modelo.
La lectura es:
si la mayoría de residuos cae dentro del envelope, no hay evidencia visual fuerte contra la normalidad;
si varios residuos quedan fuera, especialmente en las colas, puede haber alejamiento de la normalidad;
si la desviación es sistemática, conviene revisar la especificación del modelo.
La construcción detallada del envelope se retomará más adelante al discutir diagnóstico en MLG.
Varianza constante
El supuesto de varianza constante establece que:
\[
Var(\varepsilon_i)=\sigma^2
\]
para todas las observaciones.
Se revisa usando:
residuos frente a valores ajustados;
residuos frente a covariables;
gráfico escala-localización.
Una dispersión creciente o decreciente sugiere heterocedasticidad.
Si la varianza no es constante, los errores estándar, pruebas e intervalos pueden verse afectados.
Independencia
El supuesto de independencia depende del diseño de recolección de datos.
Puede ser especialmente relevante cuando los datos tienen:
orden temporal;
agrupamiento;
mediciones repetidas;
estructura espacial;
unidades relacionadas.
Una revisión inicial puede hacerse con residuos frente al orden de observación.
Patrones secuenciales, ciclos o bloques pueden sugerir dependencia no modelada.
Diagnóstico gráfico y pruebas formales
El diagnóstico del modelo no debe basarse solo en gráficos ni solo en pruebas formales.
Los gráficos permiten observar:
patrones;
curvaturas;
cambios de dispersión;
observaciones extremas;
comportamientos no esperados.
Las pruebas formales permiten contrastar hipótesis específicas, pero su lectura depende del tamaño muestral y de los supuestos de cada prueba.
Por ello, una estrategia razonable combina ambos enfoques:
revisar gráficos diagnósticos;
aplicar pruebas formales cuando correspondan;
interpretar los resultados en conjunto;
decidir si el modelo requiere ajustes.
Pruebas formales de normalidad
Para evaluar la normalidad de los errores pueden usarse pruebas como:
Prueba
Comentario
Shapiro-Wilk
Frecuente en muestras pequeñas y medianas
Anderson-Darling
Da mayor peso a las colas
Kolmogorov-Smirnov
Compara con una distribución teórica, pero requiere cuidado si los parámetros se estiman
Jarque-Bera
Basada en asimetría y curtosis
Estas pruebas contrastan una hipótesis de normalidad, pero deben interpretarse con cautela.
En muestras grandes, pueden detectar desviaciones pequeñas sin relevancia práctica.
En muestras pequeñas, pueden tener baja potencia para detectar desviaciones importantes.
Por eso, se recomienda usarlas junto con el gráfico Q-Q normal y, cuando corresponda, con envelopes.
Pruebas formales de homocedasticidad
Para evaluar varianza constante pueden usarse pruebas como:
Prueba
Idea general
Breusch-Pagan
Relaciona la varianza de los errores con las covariables
White
Permite formas más generales de heterocedasticidad
Goldfeld-Quandt
Compara varianzas en grupos ordenados
Estas pruebas evalúan si la variabilidad de los errores cambia sistemáticamente.
Sin embargo, también deben interpretarse junto con gráficos de residuos.
Un resultado significativo puede indicar heterocedasticidad, pero el gráfico ayuda a entender la forma del problema.
Pruebas de independencia
La independencia depende del diseño del estudio.
Cuando las observaciones tienen orden temporal, espacial o secuencial, pueden usarse pruebas como:
Prueba
Uso habitual
Durbin-Watson
Autocorrelación de primer orden
Breusch-Godfrey
Autocorrelación de orden superior
Ljung-Box
Dependencia serial en residuos
Estas pruebas no siempre son necesarias.
Tienen sentido cuando existe una estructura de orden o dependencia potencial en los datos.
Si los datos provienen de una muestra transversal sin orden natural, la independencia debe justificarse principalmente desde el diseño.
Limitaciones de las pruebas formales
Las pruebas formales son útiles, pero no deben aplicarse mecánicamente.
Algunas limitaciones son:
dependen del tamaño muestral;
pueden detectar desviaciones pequeñas sin importancia práctica;
pueden tener baja potencia en muestras pequeñas;
evalúan aspectos específicos del supuesto;
no explican por sí solas la causa del problema;
no indican automáticamente qué corrección aplicar.
Por eso, el diagnóstico debe integrar evidencia gráfica, pruebas formales y conocimiento del contexto.
Ejemplo 1: Diagnóstico de supuestos
Se retoma el modelo ajustado para explicar la venta de tejados:
Para este modelo, la prueba RESET produce aproximadamente:
\[
F = 1.272,
\qquad
p\text{-valor}=0.272
\]
Como 0.272 > 0.05, no se rechaza la hipótesis nula de especificación lineal.
Esto es coherente con el gráfico de residuos: no se observa evidencia suficiente de falta de linealidad.
Ejemplo 1: Normalidad de los errores
Ver código en R
qqnorm(rstudent(mod_tejados),main ="Q-Q plot de residuos studentizados",ylab ="Residuos studentizados")qqline(rstudent(mod_tejados),lty =2)
El gráfico Q-Q muestra puntos razonablemente alineados con la recta de referencia.
No se observa una desviación sistemática fuerte respecto a la normalidad.
Ejemplo 1: Q-Q plot con envelope
Además del Q-Q plot usual, se puede usar un envelope simulado para evaluar la normalidad de los residuos studentizados.
Ver código en R
# Cargar previamente la función envel.norm()# Puede guardarse en el archivo envel.norm.R y cargarse con:# source("envel.norm.R")source("envel.norm.R", encoding ="latin1")envel.norm(modelo = mod_tejados,sim =100,conf =0.95,res =TRUE,quad =FALSE)
Banda de 95 % de confianca, obtida por 100 simulacoes.
El gráfico muestra los residuos studentizados junto con una banda simulada de referencia bajo normalidad. En este ejemplo, los residuos se mantienen dentro del envelope de 95%, sin desviaciones sistemáticas importantes en las colas. Por tanto, el Q-Q plot con envelope no muestra evidencia visual fuerte contra la normalidad de los errores.
Ejemplo 1: Prueba formal de normalidad
Se aplica la prueba de Shapiro-Wilk sobre los residuos studentizados.
Ver código en R
shapiro.test(rstudent(mod_tejados))
Shapiro-Wilk normality test
data: rstudent(mod_tejados)
W = 0.9792, p-value = 0.8566
La prueba produce aproximadamente:
\[
W = 0.979,
\qquad
p\text{-valor}=0.857
\]
Como 0.857 > 0.05, no se rechaza la hipótesis de normalidad.
Por tanto, la evidencia gráfica y la prueba formal son compatibles con errores aproximadamente normales.
Ejemplo 1: Varianza constante
Ver código en R
ggplot(vendas_diag, aes(x = ajustado, y =abs(residuo_studentizado))) +geom_point() +geom_smooth(method ="loess", se =FALSE) +labs(x ="Valores ajustados",y ="|Residuos studentizados|",title ="Revisión visual de varianza constante" )
No se observa un patrón claro de aumento o disminución de la dispersión con los valores ajustados.
Visualmente, no hay evidencia fuerte de heterocedasticidad.
Ejemplo 1: Prueba formal de homocedasticidad
Se aplica la prueba de Breusch-Pagan.
Ver código en R
library(lmtest)bptest(mod_tejados)
studentized Breusch-Pagan test
data: mod_tejados
BP = 3.741, df = 3, p-value = 0.2908
La prueba produce aproximadamente:
\[
BP = 3.741,
\qquad
p\text{-valor}=0.291
\]
Como 0.291 > 0.05, no se rechaza la hipótesis de varianza constante.
La prueba formal y el gráfico no muestran evidencia suficiente de heterocedasticidad.
Ejemplo 1: Independencia
En este ejemplo, las observaciones corresponden a filiales de una red de tiendas.
No se ha definido un orden temporal, espacial o secuencial para las observaciones.
Por tanto, la independencia debe sostenerse principalmente por el diseño de recolección y por la interpretación de las unidades como filiales distintas.
En ausencia de un orden natural, no se usa una prueba de autocorrelación como criterio central.
No obstante, si existiera un orden relevante, se podría revisar el gráfico de residuos frente al orden y aplicar pruebas como Durbin-Watson o Ljung-Box.
Ejemplo 1: Conclusión del diagnóstico de supuestos
Para el modelo:
\[
telhados \sim gastos + clientes + marcas
\]
el diagnóstico inicial de supuestos muestra:
no se observa evidencia visual fuerte de falta de linealidad;
la prueba RESET no rechaza la especificación lineal al 5%;
el Q-Q plot y Shapiro-Wilk son compatibles con normalidad;
el gráfico de dispersión residual y Breusch-Pagan no muestran evidencia suficiente de heterocedasticidad;
la independencia debe justificarse desde el diseño, porque no existe un orden natural de observación.
En conjunto, el modelo no presenta señales importantes de violación de supuestos en esta revisión inicial.
Diagnóstico de estructura del modelo
Después de revisar los supuestos sobre los errores, se evalúa si la estructura del modelo es adecuada.
Este diagnóstico busca responder:
si la forma funcional de las covariables es razonable;
si faltan transformaciones;
si existen interacciones relevantes;
si hay variables omitidas;
si algunas covariables son redundantes;
si la interpretación individual de los coeficientes es estable.
A diferencia del diagnóstico de supuestos, aquí el foco no está solo en los residuos, sino en la especificación del modelo.
Forma funcional de las covariables
El modelo lineal normal supone que la respuesta esperada se relaciona linealmente con las covariables incluidas:
En este modelo, el efecto de \(x_{i2}\) sobre la respuesta depende del valor de \(x_{i3}\).
Las interacciones deben evaluarse cuando tengan sentido en el contexto del problema y cuando exista evidencia de que los efectos no son puramente aditivos.
Variables omitidas
Un modelo puede estar mal especificado si excluye variables relevantes asociadas con la respuesta.
La omisión de variables puede producir:
patrones sistemáticos en los residuos;
interpretación sesgada de algunos coeficientes;
aparente falta de linealidad;
cambios importantes al incorporar nuevas covariables;
conclusiones incompletas sobre el fenómeno estudiado.
El diagnóstico estadístico puede sugerir el problema, pero la decisión final depende también del conocimiento sustantivo del caso.
Redundancia entre covariables
En un modelo múltiple, puede ocurrir que dos o más covariables aporten información muy similar.
Esto no siempre implica que una variable sea inútil, pero sí puede dificultar la interpretación del modelo.
La redundancia entre covariables puede producir:
coeficientes difíciles de interpretar individualmente;
cambios importantes en los coeficientes al agregar o retirar variables;
aumento de la incertidumbre de algunas estimaciones;
modelos más complejos sin una ganancia clara de interpretación.
Por eso, antes de interpretar efectos individuales, conviene revisar si algunas variables explicativas están fuertemente relacionadas entre sí.
Multicolinealidad
La multicolinealidad aparece cuando una variable explicativa está fuertemente asociada con una o más variables explicativas del modelo.
No es un supuesto sobre los errores.
Es un problema de estructura entre covariables, porque afecta la estabilidad e interpretación de los coeficientes.
Sus efectos principales son:
aumenta la incertidumbre de algunos estimadores;
puede inflar errores estándar;
puede hacer inestables los signos o magnitudes de los coeficientes;
dificulta interpretar efectos individuales manteniendo constantes las demás variables.
Factor de inflación de varianza
Una medida usual para revisar multicolinealidad es el factor de inflación de varianza:
\[
VIF_j
=
\frac{1}{1-R_j^2}
\]
donde \(R_j^2\) se obtiene al ajustar una regresión auxiliar de la variable explicativa \(x_j\) sobre las demás variables explicativas.
La interpretación es:
si \(R_j^2\) es bajo, \(VIF_j\) será cercano a 1;
si \(R_j^2\) es alto, \(VIF_j\) aumenta;
valores altos de \(VIF_j\) indican que la varianza de \(\widehat{\beta}_j\) está inflada por la asociación con otras covariables.
El VIF no mide ajuste del modelo; mide redundancia entre variables explicativas.
Lectura práctica del VIF
No existe un único punto de corte universal para el VIF.
Como regla práctica, se suelen revisar con atención valores como:
La matriz permite identificar si dos covariables aportan información muy similar.
Ejemplo 1: Lectura de redundancia
En la matriz de correlaciones entre covariables:
gastos y clientes presentan correlación baja;
gastos y marcas presentan correlación prácticamente nula;
clientes y marcas presentan correlación negativa moderada, pero no extrema.
Por tanto, no se observa una redundancia fuerte entre las covariables usadas en el modelo.
Esto favorece la interpretación individual de los coeficientes, aunque no reemplaza una revisión más formal de multicolinealidad.
Ejemplo 1: Factor de inflación de varianza
Ver código en R
library(car)vif(mod_tejados)
gastos clientes marcas
1.031060 1.150545 1.117925
El VIF mide cuánto se infla la varianza estimada de cada coeficiente por la asociación con las demás covariables.
Ejemplo 1: Lectura del VIF
Los valores obtenidos son aproximadamente:
Covariable
VIF
gastos
1.031
clientes
1.151
marcas
1.118
Todos los VIF están muy cerca de 1.
Por tanto, no se observa evidencia de multicolinealidad problemática en el modelo.
En este caso, la falta de significancia individual de gastos no parece explicarse por inflación de varianza debida a colinealidad con clientes o marcas.
Ejemplo 1: Conclusión del diagnóstico de estructura
Para el modelo:
\[
telhados \sim gastos + clientes + marcas
\]
el diagnóstico de estructura indica:
no se observan patrones residuales claros frente a las covariables incluidas;
no se identifica una necesidad inmediata de transformaciones;
no hay evidencia de redundancia fuerte entre gastos, clientes y marcas;
los VIF son cercanos a 1, por lo que no se detecta multicolinealidad problemática.
En conjunto, la estructura del modelo parece razonable para continuar con el análisis diagnóstico posterior.
Diagnóstico de observaciones especiales
Después de revisar supuestos y estructura del modelo, se evalúa si algunas observaciones tienen un comportamiento particular dentro del ajuste.
Conviene distinguir tres situaciones:
Tipo de observación
Qué indica
Observación atípica
Presenta un residuo inusualmente grande
Punto de alto apalancamiento
Tiene una combinación inusual de covariables
Observación influyente
Cambia de forma importante el ajuste del modelo
Estos conceptos están relacionados, pero no son equivalentes.
Una observación puede ser atípica sin ser influyente, o puede tener alto apalancamiento sin presentar un residuo grande.
Observaciones atípicas
Una observación atípica es aquella cuyo valor observado de la respuesta se aleja considerablemente del valor ajustado por el modelo.
Se revisa principalmente mediante residuos studentizados:
\[
t_i
=
\frac{e_i}
{s_{(i)}\sqrt{1-h_{ii}}}
\]
donde:
\(e_i\): residuo ordinario;
\(s_{(i)}\): desviación estándar residual estimada excluyendo la observación \(i\);
\(h_{ii}\): valor de apalancamiento de la observación \(i\).
Valores grandes en valor absoluto indican observaciones con ajuste deficiente.
Lectura de observaciones atípicas
Como referencia práctica, suelen revisarse observaciones con:
\[
|t_i|>2
\]
o, de manera más estricta, valores cercanos o superiores a:
\[
|t_i|>3
\]
Estos criterios no implican eliminar la observación.
Solo indican que esa unidad debe revisarse con mayor detalle.
La revisión debe considerar si el valor corresponde a un error de registro, una unidad excepcional o una característica real del fenómeno.
Puntos de alto apalancamiento
Un punto de alto apalancamiento es una observación con una combinación inusual de valores en las covariables.
La matriz sombrero se define como:
\[
H=X(X^\top X)^{-1}X^\top
\]
El valor de apalancamiento de la observación \(i\) es:
\[
h_{ii}
\]
El apalancamiento depende de las covariables, no directamente de la respuesta.
Por tanto, una observación puede tener alto apalancamiento aunque su residuo no sea grande.
Lectura del apalancamiento
El promedio de los valores de apalancamiento es:
\[
\bar{h}=\frac{p}{n}
\]
donde:
\(p\): número de parámetros del modelo;
\(n\): número de observaciones.
Reglas prácticas comunes son revisar observaciones con:
\[
h_{ii}>\frac{2p}{n}
\]
o, con un criterio más exigente:
\[
h_{ii}>\frac{3p}{n}
\]
Un alto apalancamiento no implica necesariamente un problema, pero indica que la observación tiene un perfil inusual de covariables.
Observaciones influyentes
Una observación influyente es aquella que modifica de forma importante el ajuste del modelo.
Su presencia puede afectar:
coeficientes estimados;
errores estándar;
valores ajustados;
residuos;
valores-p;
intervalos de confianza;
conclusiones sustantivas.
Una observación influyente suele combinar dos elementos:
una posición inusual en las covariables;
un residuo suficientemente grande.
Por eso se analiza junto con los residuos y el apalancamiento.
Distancia de Cook
La distancia de Cook mide el cambio global en el ajuste cuando se retira una observación.
Valores grandes indican observaciones potencialmente influyentes.
Una regla práctica frecuente es revisar observaciones con:
\[
D_i>\frac{4}{n}
\]
También puede revisarse el gráfico de la distancia de Cook frente al índice de observación o frente a los valores ajustados.
La distancia de Cook no implica eliminación automática.
Indica que debe revisarse si la observación cambia las conclusiones del modelo.
Medidas complementarias de influencia
Además de la distancia de Cook, pueden usarse otras medidas diagnósticas:
Medida
Qué evalúa
DFFITS
Cambio en el valor ajustado al retirar una observación
DFBETAS
Cambio en cada coeficiente estimado
COVRATIO
Cambio en la matriz de varianzas y covarianzas
Influencia local
Sensibilidad del ajuste ante pequeñas perturbaciones
Estas medidas ayudan a identificar si la influencia afecta al modelo global, a un coeficiente específico o a la precisión de las estimaciones.
Análisis confirmatorio
Después de identificar observaciones potencialmente atípicas, de alto apalancamiento o influyentes, se realiza un análisis confirmatorio.
El procedimiento consiste en ajustar nuevamente el modelo retirando una o más observaciones señaladas y comparar los resultados con el modelo original.
No se trata de eliminar observaciones automáticamente.
El objetivo es evaluar si esas observaciones modifican de manera importante:
los coeficientes estimados;
los errores estándar;
los valores-p;
los intervalos de confianza;
las conclusiones sustantivas del análisis.
Variación porcentual de los coeficientes
Una forma de evaluar el impacto de retirar una observación es calcular la variación porcentual de cada coeficiente.
donde \(S\) es el conjunto de observaciones sospechosas.
Luego se compara \(MRC_s\) con el mismo resumen obtenido al retirar observaciones no destacadas.
Si el cambio producido por las observaciones sospechosas es mucho mayor, se tiene evidencia de que esas observaciones afectan de manera especial el ajuste.
Tratamiento de observaciones discrepantes
Cuando una observación genera preocupación diagnóstica, no necesariamente debe eliminarse.
Algunas alternativas son:
revisar si existe error de registro o medición;
aplicar transformaciones a variables explicativas;
incluir términos no lineales;
incluir o revisar interacciones;
considerar regresión lineal ponderada;
aplicar métodos robustos;
revisar si otra distribución de errores resulta más adecuada.
La decisión debe justificarse con evidencia estadística y conocimiento del contexto.
Criterio de decisión
El diagnóstico de observaciones especiales no debe aplicarse de forma mecánica.
Antes de modificar el modelo o retirar una observación, se debe revisar:
si existe error de digitación o medición;
si la observación pertenece realmente a la población de estudio;
si representa un caso excepcional pero válido;
si modifica las conclusiones principales;
si hay justificación sustantiva para tratarla de forma separada.
La decisión final debe combinar evidencia estadística y conocimiento del contexto.
La función diag.norm() genera seis gráficos: influencia en localización, influencia localización/escala, influencia local, apalancamiento, puntos atípicos y función de varianza. También devuelve residuos studentizados, distancia de Cook, medida modificada de Cook, influencia local y valores de apalancamiento.
Ejemplo 1: Lectura integrada
La revisión muestra tres observaciones relevantes:
Observación
Motivo principal
6
Alto apalancamiento
8
Mayor distancia de Cook
21
Residuo studentizado grande y distancia de Cook elevada
La observación 6 tiene covariables inusuales, pero no presenta residuo grande.
La observación 21 tiene el residuo studentizado más alto en valor absoluto.
La observación 8 presenta la mayor distancia de Cook, por lo que es la principal candidata a análisis confirmatorio.
El siguiente paso es revisar si retirar las observaciones 8 y 21 cambia las conclusiones del modelo.
Ejemplo 1: Análisis confirmatorio
El diagnóstico señaló dos observaciones que merecen revisión:
observación 8: mayor distancia de Cook;
observación 21: mayor residuo studentizado en valor absoluto y distancia de Cook elevada.
El análisis confirmatorio consiste en ajustar nuevamente el modelo retirando estas observaciones y comparar los resultados con el modelo original.
La comparación permite revisar si los coeficientes, sus errores estándar y los valores-p cambian de forma importante al retirar las observaciones señaladas.
Ejemplo 1: Variación porcentual de coeficientes
Además de comparar los coeficientes directamente, se calcula su variación porcentual respecto al modelo original:
El análisis confirmatorio muestra que las conclusiones no cambian de la misma manera para todas las variables.
Al retirar la observación 8, el coeficiente de gastos disminuye y su valor-p aumenta. Por tanto, su aporte individual se debilita.
Al retirar la observación 21, el coeficiente de gastos aumenta y su valor-p disminuye. En este caso, la evidencia individual para gastos se vuelve más favorable.
Al retirar simultáneamente las observaciones 8 y 21, el coeficiente de gastos vuelve a una situación intermedia y no muestra evidencia individual clara.
En cambio, clientes y marcas conservan su signo, magnitud relativa y evidencia estadística en todos los ajustes.
Por tanto, la conclusión sobre clientes y marcas es estable, mientras que la conclusión sobre gastos es sensible a las observaciones señaladas.
Ejemplo 1: Tratamiento de observaciones señaladas
Las observaciones 8 y 21 no deben eliminarse automáticamente.
Antes de tomar una decisión, se debe revisar:
si existe error de registro o medición;
si las observaciones pertenecen realmente a la población de estudio;
si representan casos excepcionales pero válidos;
si modifican conclusiones sustantivas del modelo;
si conviene ajustar un modelo alternativo o más robusto.
En este ejemplo, el modelo mantiene conclusiones estables para clientes y marcas.
La variable gastos requiere una interpretación más cautelosa porque su conclusión cambia según las observaciones consideradas.
Ejemplo 1: Conclusión del diagnóstico de influencia
El diagnóstico identificó las observaciones 8 y 21 como casos relevantes para revisión.
El análisis confirmatorio indica que:
clientes mantiene una asociación positiva clara con telhados;
marcas mantiene una asociación negativa clara con telhados;
gastos presenta una conclusión menos estable;
retirar las observaciones señaladas no invalida el modelo, pero sí afecta la lectura de gastos.
Por tanto, el modelo puede considerarse estable respecto a sus conclusiones principales, aunque la interpretación de gastos debe reportarse con cautela.
Gráfico de variable adicionada
El gráfico de variable adicionada permite evaluar el aporte parcial de una covariable dentro de un modelo múltiple.
Para una covariable \(x_j\), la idea es comparar:
la parte de \(Y\) que no es explicada por las demás covariables;
la parte de \(x_j\) que no es explicada por las demás covariables.
Así se analiza la relación parcial entre \(Y\) y \(x_j\), controlando por las otras variables del modelo.
Construcción conceptual
Para evaluar el efecto parcial de \(x_j\), se ajustan dos regresiones auxiliares.
Primero, se ajusta \(Y\) sobre todas las covariables excepto \(x_j\), y se obtienen residuos:
\[
e_Y
\]
Luego, se ajusta \(x_j\) sobre las demás covariables, y se obtienen residuos:
\[
e_{x_j}
\]
El gráfico de variable adicionada representa:
\[
e_Y
\quad \text{frente a} \quad
e_{x_j}
\]
La pendiente de esta relación coincide con el coeficiente estimado de \(x_j\) en el modelo múltiple.
Uso diagnóstico
El gráfico de variable adicionada ayuda a revisar:
si una covariable aporta información adicional;
si su relación parcial con la respuesta parece lineal;
si existen observaciones que dominan el efecto estimado;
si el coeficiente de una variable depende fuertemente de pocos casos.
Este gráfico no reemplaza la prueba individual del coeficiente.
Su utilidad es mostrar visualmente cómo se sostiene el efecto parcial dentro del modelo múltiple.
Ejemplo 1: Gráficos de variable adicionada
Para el modelo:
\[
telhados \sim gastos + clientes + marcas
\]
se revisa el aporte parcial de cada covariable mediante gráficos de variable adicionada.
Ver código en R
library(car)avPlots( mod_tejados,id =FALSE)
Ejemplo 1: Variable adicionada con adic.norm()
La función adic.norm() genera gráficos de variable adicionada para modelos lineales normales.
La función genera un gráfico de variable adicionada para cada covariable del modelo.
Ejemplo 1: Lectura de los gráficos
Los gráficos de variable adicionada permiten revisar el aporte parcial de cada covariable.
En el ejemplo:
clientes muestra una relación parcial positiva clara con telhados;
marcas muestra una relación parcial negativa clara con telhados;
gastos presenta una relación parcial más débil, coherente con su menor evidencia individual en el modelo.
Esta lectura coincide con las pruebas individuales de coeficientes.
Además, permite revisar visualmente si el efecto de alguna covariable parece depender de observaciones específicas.
Estrategia recomendada de diagnóstico
Una estrategia práctica es:
revisar gráficos de residuos;
identificar patrones, curvaturas o dispersión no constante;
complementar con pruebas formales cuando el supuesto sea relevante;
revisar multicolinealidad mediante VIF;
evaluar observaciones atípicas, apalancamiento e influencia;
verificar si las conclusiones cambian bajo modelos alternativos o análisis confirmatorio.
El objetivo no es aprobar o rechazar mecánicamente el modelo.
El objetivo es decidir si el modelo ajustado es suficientemente confiable para el propósito del análisis.
Cierre del diagnóstico
El diagnóstico del modelo lineal normal se puede resumir en tres niveles:
Nivel
Pregunta
Supuestos
¿Los residuos son compatibles con el modelo asumido?
Estructura
¿La forma del modelo y las covariables son adecuadas?
Observaciones especiales
¿Algunos casos afectan de forma importante el ajuste?
El objetivo no es aprobar o rechazar mecánicamente el modelo.
El objetivo es decidir si el modelo ajustado es suficientemente confiable para sostener la interpretación, la inferencia y las conclusiones del análisis.
Variable binaria e interacción
Variables explicativas cualitativas
Hasta ahora se han considerado principalmente covariables cuantitativas.
Sin embargo, en un modelo lineal normal también pueden incorporarse variables cualitativas.
Para ello, se representan mediante variables indicadoras.
Por ejemplo, si una variable tiene dos categorías, se puede definir:
\[
x_i =
\begin{cases}
0, & \text{si la unidad pertenece al grupo de referencia}\\
1, & \text{si la unidad pertenece al grupo de comparación}
\end{cases}
\]
De esta forma, una característica cualitativa puede incorporarse al predictor lineal.
Este modelo permite que el efecto de \(z_i\) cambie según el grupo definido por \(x_i\).
Variables explicativas cualitativas
En un modelo lineal normal también pueden incorporarse variables explicativas cualitativas.
Por ejemplo:
tipo de tienda;
región;
nivel educativo;
turno de atención;
método de venta;
categoría del producto.
Como estas variables no son numéricas de forma natural, deben representarse mediante variables indicadoras.
Codificación dummy
Suponga una variable cualitativa \(G\) con \(k\) categorías:
\[
G \in \{g_1,g_2,\ldots,g_k\}
\]
Se elige una categoría de referencia. Supongamos que la referencia es:
\[
g_1
\]
Entonces se construyen \(k-1\) variables dummy:
\[
D_{2i},D_{3i},\ldots,D_{ki}
\]
Para cada categoría \(g_j\), con \(j=2,\ldots,k\), se define:
\[
D_{ji}
=
\begin{cases}
1, & \text{si la observación } i \text{ pertenece a } g_j\\
0, & \text{si la observación } i \text{ no pertenece a } g_j
\end{cases}
\]
La categoría \(g_1\) no tiene dummy propia porque queda representada por el intercepto.
¿Por qué se usan \(k-1\) dummies?
Si una variable cualitativa tiene \(k\) categorías, se incluyen solo:
\[
k-1
\]
variables dummy.
La categoría omitida funciona como categoría de referencia.
Si se incluyeran las \(k\) dummies junto con el intercepto, se tendría una redundancia exacta, porque para cada observación:
\[
D_{1i}+D_{2i}+\cdots+D_{ki}=1
\]
Esto genera dependencia lineal perfecta entre las columnas de la matriz de diseño.
Por eso, en un modelo con intercepto, se omite una categoría.
Modelo con una variable cualitativa
Con \(g_1\) como categoría de referencia, el modelo queda:
La tabla permite revisar si los tres procedimientos conducen al mismo modelo o a modelos distintos.
Ejemplo 1: Lectura de la selección automática
Los métodos forward, backward y stepwise ayudan a explorar modelos candidatos.
Sin embargo, la decisión final no debe basarse solo en el procedimiento automático.
La lectura debe combinar:
modelo seleccionado por cada procedimiento;
AIC y BIC;
\(R^2\) ajustado;
diagnóstico del modelo;
estabilidad frente a observaciones influyentes;
interpretación sustantiva de las covariables.
Si los procedimientos automáticos seleccionan un modelo distinto al elegido por diagnóstico e interpretación, se debe justificar explícitamente la decisión final.
Ejemplo 1: Decisión final
La decisión final no debe basarse en un único número.
Si potencial no reduce claramente AIC/BIC ni mejora significativamente el ajuste, no habría razón fuerte para incluirlo.
Si gastos mejora poco el ajuste y además fue sensible al análisis de influencia, su inclusión debe justificarse con cautela.
Un modelo razonable para fines explicativos podría ser:
\[
telhados \sim clientes + marcas
\]
porque conserva las variables con evidencia más estable y mantiene una interpretación simple.
Sin embargo, si existe justificación comercial para conservar gastos, puede reportarse el modelo ampliado aclarando su menor estabilidad.
Cierre de la selección de modelos
La selección de modelos debe responder a una pregunta sustantiva, no solo optimizar indicadores.
Un buen modelo debe ser:
suficientemente explicativo;
parsimonioso;
interpretable;
compatible con los supuestos;
estable frente al diagnóstico;
coherente con el conocimiento del problema.
En este sentido, la selección de modelos es una decisión estadística y sustantiva a la vez.
Referencias
Agresti, A. (2015). Foundations of linear and generalized linear models. Wiley.
Blitzstein, J. K., & Hwang, J. (2019). Introduction to probability (2nd ed.). Chapman; Hall/CRC.
Casella, G., & Berger, R. L. (2002). Statistical inference (2nd ed.). Duxbury.
DeGroot, M. H., & Schervish, M. J. (2012). Probability and statistics (4th ed.). Pearson.
Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models (4th ed.). Chapman; Hall/CRC.
Faraway, J. J. (2016). Extending the linear model with R: Generalized linear, mixed effects and nonparametric regression models (2nd ed.). Chapman; Hall/CRC.
Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to mathematical statistics (8th ed.). Pearson.
Larsen, R. J., & Marx, M. L. (2008). An introduction to mathematical statistics and its applications (4th ed.). Pearson.
McCullagh, P., & Nelder, J. A. (1989). Generalized linear models (2nd ed.). Chapman; Hall.
Pawitan, Y. (2001). In all likelihood: Statistical modelling and inference using likelihood. Oxford University Press.
Pitman, J. (1993). Probability. Springer.
Rice, J. A. (2006). Mathematical statistics and data analysis (3rd ed.). Duxbury Press.
Ross, S. (2014). A first course in probability (9th ed.). Pearson.
Wackerly, D. D., Mendenhall, W., & Scheaffer, R. L. (2008). Mathematical statistics with applications (7th ed.). Thomson Brooks/Cole.
Weisberg, S. (2014). Applied linear regression (4th ed.). Wiley.