Introducción

En este ejercicio se hará una regresión múltiple con el ejemplo de Carter-Hill et. al. (2011) de las ventas de la tienda Andy’s, dado el precio promedio de los artículos vendidos y el gasto en publicidad. Todo medido en dólares de los Estados Unidos. Se exponen las primeras 10 filas de la tabla de datos:

Tabla de datos de las ventas mensuales de Andy’s
Ventas Precio Publicidad
73.2 5.69 1.3
71.8 6.49 2.9
62.4 5.63 0.8
67.4 6.22 0.7
89.3 5.02 1.5
a Cifras en miles de USD.

La idea es hacer una ecuación que estime la media condicionada de las ventas:

\[\begin{equation} \widehat{ventas}_t=\alpha+\beta_1\cdot precio_t+\beta_2 \cdot publicidad_t \end{equation}\]

Análisis

Como punto de partida, se hace la primera ecuación del modelo de regresión con todas sus variables:

Dependent variable:
Ventas
Precio -7.908***
(1.096)
Publicidad 1.863***
(0.683)
Constant 118.914***
(6.352)
Observations 75
R2 0.448
Adjusted R2 0.433
Residual Std. Error 4.886 (df = 72)
F Statistic 29.248*** (df = 2; 72)
Note: p<0.1; p<0.05; p<0.01

Como se puede apreciar todos los coeficientes, en lo individual (p-values) y en conjunto (estadístico F) son significativos. A su vez, se cumple la relación estadística esperada. Es decir, existe una relación inversa y significativa entre el precio promedio ponderado de los artículos y el nivel de ventas (en miles de dólares). De manera complementaria, se cumple la expectativa de que existe una relación positiva y significativa entre el gasto en publicidad y el nivel de ventas.

El modelo tiene un nivel de explicación de 43.2931589%.

Sin embargo, cabe una pregunta: se está trabajando con ventas y gasto en publicidad en miles de dólares, así como incrementos unitarios del precio promedio. ¿Qué sucedería si se trabaja con logaritmos (logaritmos naturales) de estas variables? Estos, se interpretan como una potencial variación porcentual de las variables. Dicho esto, se correrá el modelo, con los logaritmos de las variables y se verá si se cumplen las hipótesis del modelo y si es un mejor modelo que el anterior.

#Conversión de variables a logaritmos

Convertimos las 3 variablesoriginales a logaritmos naturales, en la siguiente tabla podemos apreciar sus valores:

Tabla de datos de las ventas mensuales de Andy’s en miles de USD y sus logaritmos naturales
Ventas Precio Publicidad lVentas lPrecio lPublicidad
73.2 5.69 1.3 4.293195 1.738710 0.2623643
71.8 6.49 2.9 4.273885 1.870262 1.0647107
62.4 5.63 0.8 4.133565 1.728109 -0.2231436
67.4 6.22 0.7 4.210645 1.827770 -0.3566749
89.3 5.02 1.5 4.492001 1.613430 0.4054651
70.3 6.41 1.3 4.252772 1.857859 0.2623643
73.2 5.85 1.8 4.293195 1.766442 0.5877867
86.1 5.41 2.4 4.455509 1.688249 0.8754687
81.0 6.24 0.7 4.394449 1.830980 -0.3566749
76.4 6.20 3.0 4.335983 1.824549 1.0986123
Dependent variable:
log(Ventas)
log(Precio) -0.575***
(0.079)
log(Publicidad) 0.045***
(0.014)
Constant 5.320***
(0.138)
Observations 75
R2 0.469
Adjusted R2 0.454
Residual Std. Error 0.062 (df = 72)
F Statistic 31.810*** (df = 2; 72)
Note: p<0.1; p<0.05; p<0.01

Podemos apreciar que los coeficientes son significativos en los 3 niveles de significancia, tanto de manera individual (P-values) como de manera conjunta (Estadístico F). Podemos observar que, el estadístico F tiene un valor de 31.810, lo que implica que, la variabilidad de la regresada explicada por el modelo de regresión es 31.810 veces más grande que la no explicada o σεi, dada la SRC. Existe la evidencia para afirmar que existe relación lineal significativa entre la variable dependiente y el conjunto de variables independientes.

Conclusiones

Para concluir el ejercicio es conveniente hacer una comparación entre ambos modelos y sus estadísticos, en el siguiente cuadro podemos apreciar cada uno de los resultados de ambos modelos:

Cuadro Comparativo
Dependent variable:
Ventas log(Ventas)
(1) (2)
Precio -7.908***
(1.096)
Publicidad 1.863***
(0.683)
log(Precio) -0.575***
(0.079)
log(Publicidad) 0.045***
(0.014)
Constant 118.914*** 5.320***
(6.352) (0.138)
Observations 75 75
R2 0.448 0.469
Adjusted R2 0.433 0.454
Residual Std. Error 4.886 0.062
F Statistic 29.248*** 31.810***
Note: p<0.1; p<0.05; p<0.01

Criterios de información:

Función de log-verosimilitud

Veamos la tabla comparativa:

========================================================== Dependent variable:
—————————- Ventas log(Ventas) (1) (2)
———————————————————- Precio -7.908***

Publicidad 1.863***

log(Precio) -0.575***

log(Publicidad) 0.045***

Constant 118.914*** 5.320***

LFF -223.8695 103.2063 Observations 75 75 R2 0.448 0.469 Adjusted R2 0.433 0.454 Residual Std. Error (df = 72) 4.886 0.062 F Statistic (df = 2; 72) 29.248*** 31.810 ========================================================== Note: p<0.1; p<0.05; ***p<0.01
Precio -7.908***
Publicidad 1.863***
log(Precio) -0.575***
log(Publicidad) 0.045***
Constant 118.914*** 5.320***

LFF -223.8695 103.2063
Akaike 455.739 -198.4125
Observations 75 75
R2 0.448 0.469
Adjusted R2 0.433 0.454
Residual Std. Error (df = 72) 4.886 0.062
F Statistic (df = 2; 72) 29.248*** 31.810***
========================================================== Note: p<0.1; p<0.05; p<0.01

Criterio de información de Schwarz (criterio de información bayesiana)

Ahora se calcula el criterio de información de Schwarz:

========================================================== Dependent variable:
—————————- Ventas log(Ventas) (1) (2)
———————————————————- Precio -7.908***

Publicidad 1.863***

log(Precio) -0.575***

log(Publicidad) 0.045***

Constant 118.914*** 5.320***

LFF -223.8695 103.2063 Akaike 455.739 -198.4125 BIC 465.009 -189.1426 Observations 75 75 R2 0.448 0.469 Adjusted R2 0.433 0.454 Residual Std. Error (df = 72) 4.886 0.062 F Statistic (df = 2; 72) 29.248*** 31.810 ========================================================== Note: p<0.1; p<0.05; ***p<0.01
Precio -7.908***
Publicidad 1.863***
log(Precio) -0.575***
log(Publicidad) 0.045***
Constant 118.914*** 5.320***

LFF -223.8695 103.2063
Akaike 455.739 -198.4125
BIC 465.009 -189.1426
Hannan-Quinn 456.5151 -197.6365
Observations 75 75
R2 0.448 0.469
Adjusted R2 0.433 0.454
Residual Std. Error (df = 72) 4.886 0.062
F Statistic (df = 2; 72) 29.248*** 31.810***
========================================================== Note: p<0.1; p<0.05; p<0.01

Nuevos modelos

Se formularon nuevos mondelos, donde se eliminó la variable de precio y únicamente se trabajó con las variables de ventas y publicidad. EL primer modelo se trabajo con las variables a nivel, mientras que el segundo se trabajó con logaritmos naturales.

Dependent variable:
Ventas
Publicidad 1.733*
(0.890)
Constant 74.180***
(1.799)
Observations 75
R2 0.049
Adjusted R2 0.036
Residual Std. Error 6.370 (df = 73)
F Statistic 3.787* (df = 1; 73)
Note: p<0.1; p<0.05; p<0.01
Dependent variable:
log(Ventas)
log(Publicidad) 0.046**
(0.018)
Constant 4.323***
(0.013)
Observations 75
R2 0.082
Adjusted R2 0.069
Residual Std. Error 0.081 (df = 73)
F Statistic 6.518** (df = 1; 73)
Note: p<0.1; p<0.05; p<0.01

Función de log-verosimilitud

A las nuevas regresiones les aplicamos la función de “logLik” para calcular esta función.Posteriormente a los nuevos modelos se les aplicaron los 3 criterios de información para poder tomar una decisión.

Comparación de modelos

                    Dependent variable:     
                ----------------------------
                    Ventas      log(Ventas) 
                     (1)            (2)     
Publicidad 1.733*
log(Publicidad) 0.046**
Constant 74.180*** 4.323***

LFFPu -244.2731 82.6687
AkaikePu 494.5463 -159.3375
BICPu 501.4988 -152.385
Hannan-QuinnPu 494.397 -159.4868
Observations 75 75
R2 0.049 0.082
Adjusted R2 0.036 0.069
Residual Std. Error 6.370 0.081
F Statistic 3.787* 6.518**
================================================ Note: p<0.1; p<0.05; p<0.01 # CONCLUSIONES

Podemos observar en una primera instancia que el modelo trabajado con logaritmos se ajusta con un nivel de significacia mayor, además analizando los resultados, al considerar coeficiente R2 podría pensarse que el modelo que utiliza logarítmos explica de mejor forma las variaciones en las ventas respecto de la publicidad;Como se puede apreciar todos los coeficientes, en lo individual (p-values) y en conjunto (estadístico F) son significativos. Se cumple la relación estadística esperada entre las ventas y la publicidad. Podemos expresar esta relación afirmando que un incremento en 1% en el gasto de la publicidad aumenta en 4.6% las ventas.

Ahora bien, en una primera instancia se sugeriría elegir el modelo trabajado con logarítmos, sin embargo al momento de aplicarles los criterios de información podemos observar que el modelo que explica la relación entre la ventas y la publicidad es aque trabajado con las variables a nivel.