Relaciones No Lineales

Autor

Dr. Víctor Chung

Modelo Polinomial

Ejemplo 1: Ampliación del modelo de venta de hamburguesas

La dirección de la cadena de hamburgueserías que llamamos Big Andy’s Burger Barn toma decisiones sobre su política de precios para los diferentes productos y cuánto gastar en publicidad. Para evaluar el efecto de diferentes estructuras de precios y diferentes niveles de gasto en publicidad, Big Andy’s Burger Barn fija diferentes precios y gasta diferentes cantidades en publicidad en diferentes ciudades. A la dirección le interesa saber cómo cambian los ingresos por ventas cuando varía el nivel de gasto en publicidad. El modelo econométrico planteado es el siguiente

\[ VENTAS = \beta_0 + \beta_1 PRECIO + \beta_2 PUBLICIDAD + e \]

donde VENTAS representa los ingresos mensuales por ventas (totales) en una ciudad determinada, PRECIO representa el precio en esa ciudad y PUBLICIDAD es el gasto mensual en publicidad en esa ciudad. Tanto VENTAS como PUBLICIDAD se miden en términos de miles de dólares.

library('foreign')
andy <- read.dta('andy.dta')
head(andy)
  ventas precio publicidad
1   73.2   5.69        1.3
2   71.8   6.49        2.9
3   62.4   5.63        0.8
4   67.4   6.22        0.7
5   89.3   5.02        1.5
6   70.3   6.41        1.3

En el modelo planteado inicialmente, cabe preguntarse si la relación lineal entre los ingresos por ventas, el precio y el gasto en publicidad es una buena aproximación a la realidad. Tener un modelo lineal implica que el aumento de los gastos de publicidad seguirá aumentando los ingresos por ventas al mismo ritmo, independientemente de los niveles existentes de ingresos por ventas y gastos de publicidad, es decir, que el coeficiente \(\beta_2\), que mide la respuesta de \(E(VENTAS|PRECIO, PUBLICIDAD )\) a un cambio en la publicidad, es constante; no depende del nivel de publicidad. En realidad, a medida que aumenta el nivel de gasto publicitario, cabe esperar que se produzcan rendimientos decrecientes. Para ilustrar lo que se entiende por rendimientos decrecientes, consideremos la relación entre las ventas y la publicidad (suponiendo un precio fijo) representada en la siguiente figura

library('ggplot2')
b <- ggplot(andy,aes(publicidad,ventas)) 
b + geom_point()

b + geom_point() + geom_smooth()
`geom_smooth()` using method = 'loess' and formula 'y ~ x'

La figura muestra el efecto en las ventas de un aumento de 200 dólares en el gasto publicitario cuando el nivel original de publicidad es (a) de 600 dólares y (b) de 1.600 dólares. Tenga en cuenta que las unidades del gráfico son miles de dólares, por lo que estos puntos aparecen como 0.6 y 1.6. En el nivel más bajo de publicidad, las ventas aumentan de 72,400 a 74,000 dólares, mientras que en el nivel más alto de publicidad, el aumento es mucho menor, de 78,500 a 79,000 dólares. El modelo lineal con la pendiente constante \(\beta_2\) no capta los rendimientos decrecientes. Lo que se necesita es un modelo en el que la pendiente cambie a medida que el nivel de Publicidad. Un modelo de este tipo con esta característica característica se obtiene incluyendo el valor cuadrado de la publicidad como otra variable explicativa, haciendo que el nuevo modelo

\[ VENTAS = \beta_0 + \beta_1 PRECIO + \beta_2 PUBLICIDAD + \beta_3 PUBLICIDAD^2 + e \]

Añadiendo el término \(\beta_3Publicidad\) a nuestra especificación original se obtiene un modelo en el que la respuesta de los ingresos esperados a un cambio en el gasto publicitario depende del nivel de publicidad. En concreto, aplicando la regla de derivación polinómica, y manteniendo constante el PRECIO, la respuesta de \(E(VENTAS|PRECIO, PUBLICIDAD )\) a un cambio en la publicidad es

\[ \frac{\Delta E(VENTAS|PRECIO, PUBLICIDAD)}{\Delta PUBLICIDAD}|_{Precio \ permanece \ constante} = \]

\[ \frac{\delta E(VENTAS|PRECIO, PUBLICIDAD)}{\delta PUBLICIDAD} = \beta_2+2\beta_3PUBLICIDAD \]

El signo de la derivada parcial “\(\delta\)” se utiliza en lugar del signo de la derivada “d” porque las VENTAS dependen de dos variables, el PRECIO y la PUBLICIDAD, y estamos manteniendo el PRECIO constante.

Nos referimos a \(\delta E(VENTAS|PRECIO, PUBLICIDAD)/\delta PUBLICIDAD\) como el efecto marginal de la publicidad en las ventas. En las funciones lineales, la pendiente o el efecto marginal es constante. En las funciones no lineales, varía con una o más de las variables. Para hallar los signos esperados de \(\beta_2\) y \(\beta_3\), observe que esperamos la respuesta de los ingresos por ventas a un cambio en la publicidad sea positiva cuando \(PUBLICIDAD = 0\). Es decir, esperamos que \(\beta_2 > 0\). Además para conseguir rendimientos decrecientes, la respuesta debe disminuir a medida que PUBLICIDAD aumenta. Es decir, esperamos que \(\beta_3 < 0\).

Usando los mínimos cuadrados para estimar la ecuación obtenemos

library('knitr')
library('xtable')
modelo1 <- lm(ventas~precio+publicidad+I(publicidad^2),data=andy)
smodelo1 <- summary(modelo1)
tabla1 <- data.frame(xtable(smodelo1))
names(tabla1) <- c("Estimador", 
                 "Error Estándar", "t", "Valor-p")
kable(tabla1, digits=3, align='c',
  caption="Modelo Cuadrático del modelo de $Big Andy's$")
Modelo Cuadrático del modelo de \(Big Andy's\)
Estimador Error Estándar t Valor-p
(Intercept) 109.719 6.799 16.137 0.000
precio -7.640 1.046 -7.304 0.000
publicidad 12.151 3.556 3.417 0.001
I(publicidad^2) -2.768 0.941 -2.943 0.004

\[ \hat{VENTAS} = 109.719 - 7.640 PRECIO + 12.151 PUBLICIDAD - 2.768PUBLICIDAD^2 \]

¿Qué podemos decir de la adición de \(PUBLICIDAD^2\) a la ecuación? Su coefciente tiene el signo negativo esperado y es significativamente distinto de cero a un nivel de significancia del 5%. Además, el coefficiente de \(PUBLICIDAD\) ha conservado su signo positivo y sigue siendo significativo. La respuesta estimada de las ventas a la publicidad es

\[ = \frac{\delta \hat{VENTAS}}{\delta PUBLICIDAD} = 12.151 - 5.536PUBLICIDAD \]

nivel_publ <- c(0.5, 2)
b2 <- coef(modelo1)[[3]]
b3 <- coef(modelo1)[[4]]
DvDp <- b2+2*b3*nivel_publ
DvDp
[1] 9.383273 1.079383

Sustituyendo en esta expresión encontramos que cuando la publicidad está en su valor mínimo en la muestra de 500 dólares (\(PUBLICIDAD = 0.5\)), el efecto marginal de la publicidad en las ventas es de 9.383. Cuando la publicidad se sitúa en un nivel de 2,000 dólares (\(PUBLICIDAD = 2\)), el efecto marginal es de 1.079. Así pues, el hecho de tener en cuenta los rendimientos decrecientes del gasto en publicidad ha mejorado nuestro modelo tanto desde el punto de vista estadístico como desde el punto de vista del cumplimiento de nuestras expectativas sobre cómo responderán las ventas a los cambios en la publicidad.

Interacción entre Variables

Ejemplo 2: Una variable de interacción en una ecuación salarial

En el último ejemplo, vimos cómo la inclusión de \(PUBLICIDAD^2\) en el modelo de regresión para las \(VENTAS\) tiene el efecto de hacer que el efecto marginal de \(PUBLICIDAD\) sobre las \(VENTAS\) dependa del nivel de \(PUBLICIDAD\). ¿Qué pasa si el efecto marginal de una variable depende del nivel de otra variable? ¿Cómo lo modelamos? Para ilustrarlo, considere una ecuación salarial que relaciona el SALARIO ($ de ganancia por hora) con los años de educación (\(EDUC\)) y los años de experiencia (\(EXPER\)) de la siguiente manera:

\[ SALARIO = \beta_0 + \beta_1EDUC + \beta_2EXPER + \beta_3(EDUC \times EXPER) + e \]

Aquí estamos sugiriendo que el efecto de un año más de experiencia sobre el salario puede depender del nivel de educación de un trabajador y, de manera similar, el efecto de un año más de educación puede depender del número de años de experiencia. Específicamente,

\[ \frac{\delta E(SALARIO|EDUC, EXPER)}{\delta EXPER} = \beta_2 + 2\beta_3EDUC \]

\[ \frac{\delta E(SALARIO|EDUC, EXPER)}{\delta EDUC} = \beta_1 + 2\beta_3EXPER \]

Utilizando los datos de una Encuesta poblacional actual (cps5_small) para estimar el modelo, obtenemos:

encuesta <- read.csv('enc_salario.csv')
head(encuesta)
  black educ exper faminc female metro midwest south  wage west
1     0   13    45      0      1     1       0     0 44.44    1
2     0   14    25  45351      1     1       1     0 16.00    0
3     0   18    27  91946      1     1       0     0 15.38    0
4     0   13    42  48370      0     1       1     0 13.54    0
5     0   13    41  10000      1     1       0     0 25.00    1
6     0   16    26 151308      1     1       0     0 24.05    0
modelo2 <- lm(wage ~  educ*exper,data=encuesta)
smodelo2 <- summary(modelo2)
tabla2 <- data.frame(xtable(smodelo2))
names(tabla2) <- c("Estimador", 
                 "Error Estándar", "t", "Valor-p")
kable(tabla2, digits=3, align='c',
  caption="Modelo Salarial con Interacción")
Modelo Salarial con Interacción
Estimador Error Estándar t Valor-p
(Intercept) -18.759 4.162 -4.507 0.000
educ 2.656 0.283 9.376 0.000
exper 0.238 0.134 1.785 0.074
educ:exper -0.003 0.009 -0.292 0.770

La estimación negativa \(\beta_3 = -0,003\) sugiere que cuanto mayor es el número de años de educación, menos valioso es un año extra de experiencia. Del mismo modo, cuanto mayor es el número de años de experiencia, menos valioso es un año más de educación. Para una persona con ocho años de educación, estimamos que un año adicional de experiencia conlleva un aumento del salario medio de \(0.238 - 0.003 \times 8 = 0.214\) dólares, mientras que para una persona con 16 años de educación, el aumento aproximado del salario por un año adicional de experiencia es de \(0.238 - 0.003 \times 16 = 0.19\) dólares. Para una persona sin experiencia, el salario medio adicional de un año más de formación es de 2.66 dólares. El valor de un año más de educación cae a \(2.656 - 0.003 \times 20 = 2.60\) dólares para alguien con 20 años de experiencia. Estas diferencias no son grandes. Tal vez no haya un efecto de interacción, su coeficiente estimado no es significativamente distinto de cero, o tal vez podamos mejorar la especificación del modelo.

Ejemplo 3: Una ecuación salarial logarítmica y cuadrática

En la ecuación planteada en el ejemplo anterior, utilizamos el \(SALARIO\) como variable dependiente. Los economistas laborales tienden a preferir \(ln(SALARIO)\), ya que creen que es más probable que un cambio en los años de educación o experiencia conduzca a un cambio porcentual constante en el \(SALARIO\) que a un cambio absoluto constante. Además, una distribución salarial suele estar muy sesgada hacia la derecha. Si se toman logaritmos, se obtiene una distribución más parecida a una distribución normal.

En el presente ejemplo, hacemos dos cambios en el modelo del Ejemplo 2. Sustituimos \(SALARIO\) por \(ln(SALARIO)\) y añadimos la variable \(EXPER^2\). La adición de \(EXPER^2\) tiene por objeto captar los rendimientos decrecientes de los años de experiencia adicionales. Es probable que un año más de experiencia para un veterano con muchos años de experiencia sea menos valioso que para un novato con poca o ninguna experiencia. Por ello, especificamos el modelo

\[ ln(SALARIO) = \beta_0 + \beta_1EDUC + \beta_2EXPER + \beta_3(EDUC \times EXPER) + \beta_4EXPER^2 + e \]

En este caso, los dos efectos marginales que, multiplicados por 100, dan los cambios porcentuales aproximados en los salarios de los años de experiencia y educación, respectivamente, son

\[ \frac{\delta E(ln(SALARIO)|EDUC, EXPER)}{\delta EXPER} = \beta_2 + \beta_3EDUC + 2\beta_4EXPER \]

\[ \frac{\delta E(ln(SALARIO)|EDUC, EXPER)}{\delta EDUC} = \beta_1 + \beta_3EXPER \]

El hecho de tener tanto el término de interacción como el cuadrado de \(EXPER\) en la ecuación significa que el efecto marginal de la experiencia dependerá tanto del nivel de educación como del número de años de experiencia. La estimación de la ecuación planteada con los datos de la base de encuesta da como resultado

modelo3 <- lm(log(wage) ~ educ*exper + I(exper^2),data=encuesta)
smodelo3 <- summary(modelo3)
tabla3 <- data.frame(xtable(smodelo3))
names(tabla3) <- c("Estimador", 
                 "Error Estándar", "t", "Valor-p")
kable(tabla3, digits=4, align='c',
  caption="Modelo Salarial logarítmico")
Modelo Salarial logarítmico
Estimador Error Estándar t Valor-p
(Intercept) 0.6792 0.1561 4.3503 0e+00
educ 0.1359 0.0101 13.5128 0e+00
exper 0.0489 0.0068 7.1452 0e+00
I(exper^2) -0.0005 0.0001 -6.2409 0e+00
educ:exper -0.0013 0.0003 -3.7045 2e-04

\[ ln(SALARIO) = 0.6792 + 0.1359EDUC + 0.0489EXPER - 0.0013(EDUC \times EXPER) - 0.0005EXPER^2 \]