En muchos contextos empresariales y de investigación, las relaciones
entre variables no son estrictamente lineales ni independientes.
El efecto de una variable sobre la respuesta puede depender del nivel de
otra variable, o bien, una variable numérica puede mostrar un patrón
curvo (creciente a un ritmo no constante). Los modelos lineales se
pueden extender fácilmente para capturar estas situaciones mediante dos
estrategias complementarias:
Ambas extensiones se integran dentro del marco de la regresión lineal clásica, ya que la relación sigue siendo lineal en los parámetros, aunque se incluyan combinaciones o poyencias de las variables. Lo que cambia es la forma de interpretar los coeficientes y la lectura visual de los efectos combinados o no lineales.
Decimos que hay interacción cuando el efecto de una variable \(x\) depende del nivel/valor de otra
variable \(z\).
En un modelo lineal, esto se expresa añadiendo el término
producto \(x:z\).
Las interacciones permiten modelar cómo el efecto de una variable
depende de otra.
En términos prácticos, indican que el cambio esperado en \(Y\) no es constante, sino que
varía según otra variable.
A continuación se describen los tres tipos más comunes y cómo
interpretarlos.
Supongamos dos variables numéricas \(X_1\) y \(X_2\), cuyo efecto combinado sobre \(Y\) podría no ser aditivo. La interacción permite que el efecto de una cambie según el nivel de la otra.
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 (X_1 \times X_2) + e \]
Interpretación de los parámetros:
En R: este modelo se ajusta con:
lm(Y ~ X1c * X2c)
, equivalente alm(Y ~ X1c + X2c + X1c:X2c)
Ejemplo conceptual (Numérica × Numérica):
Supongamos que una empresa tecnológica desea analizar cómo las horas de capacitación (\(X_1\)) y los años de experiencia laboral (\(X_2\)) influyen en la productividad semanal (\(Y\)), medida en unidades producidas.
Los datos promedio observados son los siguientes:
Experiencia (años) | Capacitación (horas) | Productividad (Y) |
---|---|---|
1 | 10 | 40 |
1 | 20 | 55 |
5 | 10 | 60 |
5 | 20 | 90 |
donde:
Supongamos que se estimaron los siguientes coeficientes:
\[ \hat{\beta}_0 = 30, \quad \hat{\beta}_1 = 1.2, \quad \hat{\beta}_2 = 4, \quad \hat{\beta}_3 = 0.6 \]
Entonces, el modelo completo es:
\[ \hat{Y} = 30 + 1.2X_1 + 4X_2 + 0.6(X_1 \times X_2) \]
Para analizar el efecto de la capacitación (\(X_1\)) según la experiencia:
Interpretaciones:
- La productividad aumenta con las horas de capacitación y la
experiencia laboral, pero el efecto de la capacitación es mayor en
empleados con más experiencia.
- Existe una interacción positiva: la capacitación y la
experiencia se potencian mutuamente, aumentando la productividad más de
lo que producirían por separado.
Supongamos una variable numérica \(X\) y una variable categórica \(C\) con \(k\) niveles, donde el nivel \(C_1\) será la categoría de referencia.
\[ Y = \beta_0 + \beta_1 X + \sum_{i=2}^k \alpha_i C_i + \sum_{i=2}^k \gamma_i (X \times C_i ) + e \]
Interpretación de los parámetros:
En R: este modelo se ajusta con:
lm(Y ~ C * X)
Ejemplo conceptual (Numérica × Categórica):
Supongamos que una cadena de tiendas desea analizar cómo la inversión mensual en marketing digital (\(X\), en miles de dólares) influye en las ventas promedio (\(Y\), en miles de dólares), según el tipo de tienda: Urbana, Suburbana o Rural.
Los datos promedio observados son:
Tipo de tienda | Inversión (X) | Ventas promedio (Y) |
---|---|---|
Urbana | 10 | 120 |
Urbana | 20 | 160 |
Suburbana | 10 | 100 |
Suburbana | 20 | 140 |
Rural | 10 | 80 |
Rural | 20 | 110 |
Para incorporar esta variable en un modelo de regresión con interacción, se crean dos variables dummy, tomando Urbana como referencia:
\[ D_1 = \begin{cases} 1, & \text{si la tienda es Suburbana}\\ 0, & \text{en otro caso} \end{cases} \quad\text{y}\quad D_2 = \begin{cases} 1, & \text{si la tienda es Rural}\\ 0, & \text{en otro caso} \end{cases} \]
El modelo con interacción se expresa como:
\[ \hat{Y} = \beta_0 + \beta_1 X + \alpha_1 D_1 + \alpha_2 D_2 + \gamma_1 (X \times D_1) + \gamma_2 (X \times D_2) \]
donde:
Supongamos que se estimaron los siguientes coeficientes:
\[ \hat{\beta}_0 = 100, \quad \hat{\beta}_1 = 3, \quad \hat{\alpha}_1 = -20, \quad \hat{\alpha}_2 = -40, \quad \hat{\gamma}_1 = -1, \quad \hat{\gamma}_2 = -2 \]
Entonces, los modelos por tipo de tienda serían:
Interpretaciones:
La inversión en marketing digital impulsa las ventas en todos los tipos
de tienda, pero la magnitud del efecto depende del
contexto:
- Las tiendas urbanas tienen el mayor incremento por unidad
invertida (pendiente 3).
- En zonas suburbanas, el efecto es moderado (pendiente
2).
- En zonas rurales, el aumento es el más bajo (pendiente
1).
Esto indica una interacción negativa, donde el retorno de la inversión disminuye al pasar de áreas urbanas a rurales.
Supongamos dos variables categóricas \(A\) y \(B\), con \(k\) y \(m\) niveles respectivamente.
Cada una se codifica en variables dummy tomando un nivel de referencia
(\(A_1\) y \(B_1\)).
\[ Y = \beta_0 + \sum_{i=2}^{k} \alpha_i A_i + \sum_{j=2}^{m} \delta_j B_j + \sum_{i=2}^{k} \sum_{j=2}^{m} \gamma_{ij} (A_i \times B_j) + e \]
Interpretación de los parámetros:
En R: este modelo se ajusta con:
lm(Y ~ A * B)
, equivalente alm(Y ~ A + B + A:B)
Ejemplo conceptual (Categórica × Categórica):
Una cadena hotelera estudia la satisfacción (\(Y\), 0–100) según:
Promedios observados:
Programa | Motivo | Satisfacción \(Y\) |
---|---|---|
Básico | Placer | 80 |
Plata | Placer | 84 |
Oro | Placer | 86 |
Básico | Negocios | 78 |
Plata | Negocios | 82 |
Oro | Negocios | 90 |
Definimos dummies \(A_2=\mathbf{1}\{\text{Plata}\},\;
A_3=\mathbf{1}\{\text{Oro}\},\;
B_2=\mathbf{1}\{\text{Negocios}\}\).
Modelo con interacción: \[
\hat Y \;=\; \beta_0 \;+\; \alpha_2 A_2 \;+\; \alpha_3 A_3 \;+\; \delta
B_2 \;+\;
\gamma_{2} (A_2B_2) \;+\; \gamma_{3} (A_3B_2).
\]
Supongamos que se estimaron los siguientes coeficientes: \[ \hat\beta_0=80,\quad \hat\alpha_2=4,\quad \hat\alpha_3=6,\quad \hat\delta=-2,\quad \hat\gamma_2=0,\quad \hat\gamma_3=6. \]
Modelos por combinación:
Interpretaciones: