Introducción

En este ejercicio se hará una regresión múltiple con el ejemplo de Carter-Hill et. al. (2011) de las ventas de la tienda Andy’s, dado el precio promedio de los artículos vendidos y el gasto en publicidad. Todo medido en dólares de los Estados Unidos. Se exponen las primeras 10 filas de la tabla de datos:

Tabla de datos de las ventas mensuales de Andy’s
Ventas Precio Publicidad
73.2 5.69 1.3
71.8 6.49 2.9
62.4 5.63 0.8
67.4 6.22 0.7
89.3 5.02 1.5
a Cifras en miles de USD.

La idea es hacer una ecuación que estime la media condicionada de las ventas:

\[\begin{equation} \widehat{ventas}_t=\alpha+\beta_1\cdot precio_t+\beta_2 \cdot publicidad_t \end{equation}\]

Análisis

Como punto de partida, se hace la primera ecuación del modelo de regresión con todas sus variables:

Dependent variable:
Ventas
Precio -7.908***
(1.096)
Publicidad 1.863***
(0.683)
Constant 118.914***
(6.352)
Observations 75
R2 0.448
Adjusted R2 0.433
Residual Std. Error 4.886 (df = 72)
F Statistic 29.248*** (df = 2; 72)
Note: p<0.1; p<0.05; p<0.01

Como se puede apreciar todos los coeficientes, en lo individual (p-values) y en conjunto (estadístico F) son significativos. A su vez, se cumple la relación estadística esperada. Es decir, existe una relación inversa y significativa entre el precio promedio ponderado de los artículos y el nivel de ventas (en miles de dólares). De manera complementaria, se cumple la expectativa de que existe una relación positiva y significativa entre el gasto en publicidad y el nivel de ventas.

El modelo tiene un nivel de explicación de 43.2931589%.

Sin embargo, cabe una pregunta: se está trabajando con ventas y gasto en publicidad en miles de dólares, así como incrementos unitarios del precio promedio. ¿Qué sucedería si se trabaja con logaritmos (logaritmos naturales) de estas variables? Estos, se interpretan como una potencial variación porcentual de las variables. Dicho esto, se correrá el modelo, con los logaritmos de las variables y se verá si se cumplen las hipótesis del modelo y si es un mejor modelo que el anterior.

=============================================== Dependent variable:
————————— log(Ventas)
———————————————– log(Precio) -0.575***
(0.079)

log(Publicidad) 0.045***
(0.014)

Constant 5.320***
(0.138)


Observations 75
R2 0.469
Adjusted R2 0.454
Residual Std. Error 0.062 (df = 72)
F Statistic 31.810*** (df = 2; 72)
=============================================== Note: p<0.1; p<0.05; p<0.01

Explicación del modelo

Primeramente, de acuerdo con los resultados de la regresión es la esperada, ya que existe una relación negativa entre el precio y ventas (-7.908) y positiva entre publicidad y ventas (1.863) y de acuerdo con el valor probabilístico los coeficientes son significativos al 99%; así mismo, con el coeficiente de determinación (Adjunted R2) el primer modelo explica en un 43.29% a las ventas y el valor estadístico F nos dice que en conjunto los coeficientes son distintos de 0 (cero) lo que significa que ambas regresoras deben considerarse dentro del modelo. Por lo que, en la interacción conjunta e individual de las variables precio y publicidad, hay evidencia de que el modelo es significativo ya que dichas variables inciden en las ventas.

Ahora bien, corriendo un segundo modelo y transformando las variables a logaritmos (log), podemos observar que si se cumple la hipótesis y es un mejor modelo; ya que los resultados de la regresión la relación entre las variables es la esperada, pues existe una relación negativa entre el precio y las ventas (-0.575) y una relación positiva entre publicidad y ventas (0.045) y de acuerdo con el valor probabilístico los coeficientes son significativos al 99%.

La interpretación de los coeficientes es como una elasticidad ya que se aplicó logaritmos en las variables, al incrementar 1% en el precio disminuyen la ventas en 0.575% y al incrementar 1% en publicidad incrementan las ventas en 0.045%.

De acuerdo con el coeficiente de determinación (Adjusted R2) el segundo modelo explica en un 45.43% a las ventas. El valor del estadístico F indica que en conjunto los coeficientes son distintos de 0 (cero), 1% en publicidad por lo que ambas regresoras deben considerarse dentro del modelo.

Por lo que, tanto en la interección conjunta como en lo individual de las variables, se confirma que existe evidencia de que el modelo es significativo, ya que las variables de precio y publicidad inciden en las ventas.

Conclusiones

El resultado del comparativo de ambos modelos nos permite concluir que, el modelo que se trabajó con logaritmos brinda una mejor explicación del comportamiento de las variaciones de las ventas y presenta un mejor ajuste en conjunto Estadístico F (función de probabilidad F) que mide la división de una varianza entre otra varianza con la diferencia que tienen diferentes grados de libertad.

La transformación de variables cuantitativas con logaritmo en un modelo de regresión es una herramienta que permite mejorar el desempeño del modelo y su interpretación cuando se tienen variables con distintas unidades de medida y permite que se cumplan los supuestos de normalidad, homecedasticidad e independencia. La homecedasticidad es una característica del modelo de regresión lineal que implica que la varianza de los errores es constante a lo largo del tiempo.