1. Introducción

En este ejercicio se trabajará con el ejemplo de Carter-Hill et. al. (2011) de las ventas de la tienda Andy’s, dado el precio promedio de los artículos vendidos y el gasto en publicidad. Todo medido en dólares de los Estados Unidos. Se exponen las primeras 4 filas de la tabla de datos:

Tabla de datos de las ventas mensuales de Andy’s
Ventas Precio Publicidad
73.2 5.69 1.3
71.8 6.49 2.9
62.4 5.63 0.8
67.4 6.22 0.7
a Cifras en miles de USD.

2. Modelo de regresión múltiple

La idea es hacer una ecuación que estime la media condicionada de las ventas:

\[\begin{equation} \widehat{ventas}_t=\alpha+\beta_1\cdot precio_t+\beta_2 \cdot publicidad_t \end{equation}\]

Como punto de partida, se hace la primera ecuación del modelo de regresión con todas sus variables:

Dependent variable:
Ventas
Precio -7.908***
(1.096)
Publicidad 1.863***
(0.683)
Constant 118.914***
(6.352)
Observations 75
R2 0.448
Adjusted R2 0.433
Residual Std. Error 4.886 (df = 72)
F Statistic 29.248*** (df = 2; 72)
Note: p<0.1; p<0.05; p<0.01

Análisis de Resultados

Como se puede apreciar todos los coeficientes, en lo individual (p-values) y en conjunto (estadístico F) son significativos. A su vez, se cumple la relación estadística esperada. Es decir, existe una relación inversa y significativa entre el precio promedio ponderado de los artículos y el nivel de ventas (en miles de dólares). De manera complementaria, se cumple la expectativa de que existe una relación positiva y significativa entre el gasto en publicidad y el nivel de ventas.

El modelo tiene un nivel de explicación de 43.2931589%. El valor del estadístico F indica que en conjunto los coeficientes son distintos de cero, por tanto ambas regresoras deben ser consideradas dentro del modelo; tanto en lo individual como en la interacción conjunta de variables, es posible confirmar que existe evidencia de que nuestro modelo es significativo, se encuentra debidamente especificado y que ambas variables (precio y publicidad) inciden en el nivel de ventas.

Sin embargo, cabe una pregunta: se está trabajando con ventas y gasto en publicidad en miles de dólares, así como incrementos unitarios del precio promedio. ¿Qué sucedería si se trabaja con logaritmos (logaritmos naturales) de estas variables? Estos, se interpretan como una potencial variación porcentual de las variables.

Dicho esto, se correrá el modelo, con los logaritmos de las variables y se verá si se cumplen las hipótesis del modelo y si es un mejor modelo que el anterior.

2.1 Modelo de regresión múltiple con logarítmos

Sin embargo, cabe una pregunta: se está trabajando con ventas y gasto en publicidad en miles de dólares, así como incrementos unitarios del precio promedio. ¿Qué sucedería si se trabaja con logaritmos (logaritmos naturales) de estas variables? Estos, se interpretan como una potencial variación porcentual de las variables.

Dicho esto, se correrá un segundo modelo, con los logaritmos de las variables y se verá si se cumplen las hipótesis del modelo y si es un mejor modelo que el anterior.

\[\begin{equation} \widehat{Ventas}_t=\alpha+\beta_1\cdot LogPrecio_t+\beta_2 \cdot LogPublicidad_t \end{equation}\]

Es necesario hacer una trasnformación de las variables a “log”. A continuación se presentan los resultados del segundo modelo.

Dependent variable:
log(Ventas)
log(Precio) -0.575***
(0.079)
log(Publicidad) 0.045***
(0.014)
Constant 5.320***
(0.138)
Observations 75
R2 0.469
Adjusted R2 0.454
Residual Std. Error 0.062 (df = 72)
F Statistic 31.810*** (df = 2; 72)
Note: p<0.1; p<0.05; p<0.01

Análisis de Resultados

Como se puede apreciar y de acuerdo a los resultados de la regresión, la relación entre variables es la esperada, existiendo una relación inversa y significativa entre el precio promedio ponderado de los artículos y el nivel de ventas, afectanto un incremento del 1% del precio en un decremento del 57.5% en las ventas, y el mismo incremento del 1% en publicidad incrementará en un 4.5% las ventas; cumpliendose la expectativa de que existe una relación positiva y significativa entre el gasto en publicidad y el nivel de ventas.

El modelo con logarimos tiene un nivel de explicación de 45.4358416%. El valor del estadístico F indica que en conjunto los coeficientes son distintos de cero, por tanto ambas regresoras deben ser consideradas dentro del modelo; tanto en lo individual como en la interacción conjunta de variables, es posible confirmar que existe evidencia de que nuestro modelo es significativo, se encuentra debidamente especificado y que ambas variables (precio y publicidad) inciden en el nivel de ventas.

De acuerdo con los resultados de la regresión la relación entre variables es la esperada: existe una relación negativa entre el precio y las ventas, y una relación positiva entre la publicidad y las ventas. Para ambas variables, de acuerdo con el valór probabilístico, es posible indicar que los coeficiences son significativos al 99%.

Adicionalmente se presenta una tabla comparativa

Comparación

Finalmente se presenta una tabla comparativa con ambos modelos:

Comparación de modelos
Dependent variable:
Ventas log(Ventas)
Original Logaritmos
(1) (2)
Precio -7.908***
(1.096)
Publicidad 1.863***
(0.683)
log(Precio) -0.575***
(0.079)
log(Publicidad) 0.045***
(0.014)
Constant 118.914*** 5.320***
(6.352) (0.138)
Observations 75 75
R2 0.448 0.469
Adjusted R2 0.433 0.454
Residual Std. Error 4.886 0.062
F Statistic 29.248*** 31.810***
Note: p<0.1; p<0.05; p<0.01

Comparando los resultados de ambos modelos es posible deducir que el modelo trabajado con logaritmos explica de mejor forma las variaciones en las ventas;

El modelo inicial tiene un nivel de explicación de 43.2931589%., mientras que…

El modelo con logarimos tiene un nivel de explicación de 45.4358416%.

Además de que presenta un mejor ajuste en conjunto (Estadístico F).

El uso de logaritmos facilita la interpretación cuando se tienen distantas unidades de medida en las variables.

De acuerdo con los resultados de la tabla comparativa entre los dos modelos, podría pensarse que el modelo trabajado con logaritmos explica de mejor forma las variaciones en las ventas además de que presenta un mejor ajuste en conjunto (Estadístico F); sin embargo este criterio es insuficiente para indicar cuál es el mejor modelo.

2.2 Criterios de información

Las medidas de bondad en general resumen la discrepancia entre los valores observados y los valores esperados en el modelo de estudio; es decir, nos permiten identificar el modelo que presente los resultados más cercanos a los valores observados.

Debido a que el uso del coeficiente R2 únicamente mide el grado de explicación, no es adecuando su uso como criterio de bondad de ajuste.

##Función de Log-Verosimilitud

Nos indica el modelo que mejor representa los datos, en el cual ε~ N (0,σ2εi).

[1] “LLF” “-223.8695” “103.2063”

Veamos la tabla comparativa entre modelos, en la cual se agrega el cálculo de la función de Log-Verosimilitud:

========================================================== Dependent variable:
—————————- Ventas log(Ventas) (1) (2)
———————————————————- Precio -7.908***

Publicidad 1.863***

log(Precio) -0.575***

log(Publicidad) 0.045***

Constant 118.914*** 5.320***

LLF -223.8695 103.2063 Observations 75 75 R2 0.448 0.469 Adjusted R2 0.433 0.454 Residual Std. Error (df = 72) 4.886 0.062 F Statistic (df = 2; 72) 29.248*** 31.810 ========================================================== Note: p<0.1; p<0.05; ***p<0.01
Precio -7.908***
Publicidad 1.863***
log(Precio) -0.575***
log(Publicidad) 0.045***
Constant 118.914*** 5.320***

LLF -223.8695 103.2063
Akaike 455.739 -198
Observations 75 75
R2 0.448 0.469
Adjusted R2 0.433 0.454
Residual Std. Error (df = 72) 4.886 0.062
F Statistic (df = 2; 72) 29.248*** 31.810***
========================================================== Note: p<0.1; p<0.05; p<0.01 Un valor de Akaike más bajo indicará mayor precisión.

b) Criterio de información de Schwarz (criterio de información Bayesiana)

Ahora se calcula el criterio de información de Schwarz:

\[ BIC=kLLF(n)-2LLF(L) \]

stargazer(regresion1,regresion2,
          report="vc*",
          type="text",
          add.lines=list(vectorLLF,vectorakaike,vectorBIC))
## 
## ==========================================================
##                                   Dependent variable:     
##                               ----------------------------
##                                   Ventas      log(Ventas) 
##                                    (1)            (2)     
## ----------------------------------------------------------
## Precio                          -7.908***                 
##                                                           
## Publicidad                       1.863***                 
##                                                           
## log(Precio)                                    -0.575***  
##                                                           
## log(Publicidad)                                0.045***   
##                                                           
## Constant                        118.914***     5.320***   
##                                                           
## ----------------------------------------------------------
## LLF                             -223.8695      103.2063   
## Akaike                           455.739         -198     
## Schwarz                          465.009       -189.143   
## Observations                        75            75      
## R2                                0.448          0.469    
## Adjusted R2                       0.433          0.454    
## Residual Std. Error (df = 72)     4.886          0.062    
## F Statistic (df = 2; 72)        29.248***      31.810***  
## ==========================================================
## Note:                          *p<0.1; **p<0.05; ***p<0.01

Un valor de Schwarz más bajo indica un modelo más sencillo.

c) Criterio de información de Hannan Quinn

Ahora se estimará el criterio de información de Hannan-Quinn:

\[ HQC=-2 L~max~ +2kLLF(LLF(n)) \]

HQC1=HQC(regresion1)
HQC2=HQC(regresion2)
vectorHQC=c("HannanQuinn",round(HQC1,3),round(HQC2,3))

========================================================== Dependent variable:
—————————- Ventas log(Ventas) (1) (2)
———————————————————- Precio -7.908***

Publicidad 1.863***

log(Precio) -0.575***

log(Publicidad) 0.045***

Constant 118.914*** 5.320***


LLF -223.8695 103.2063
Akaike 455.739 -198
Schwarz 465.009 -189.143
HannanQuinn 456.515 -197.637
Observations 75 75
R2 0.448 0.469
Adjusted R2 0.433 0.454
Residual Std. Error (df = 72) 4.886 0.062
F Statistic (df = 2; 72) 29.248*** 31.810***
========================================================== Note: p<0.1; p<0.05; p<0.01 Este cálculo combina la sencillez y la parsimonia, un valor menor de Hannan Quinn indica un modelo más sencillo y preciso.

Tabla compartiva

A continuación se presenta una tabla comparativa entre los modelos de regresión original y modelo calculado con logaritmos, en el cual se agregan los tres criterios de información que generalmente son utilizados para identificar el modelo que más se ajusta a los valores observados.

Dependent variable:
Ventas log(Ventas)
(1) (2)
Precio -7.908***
Publicidad 1.863***
log(Precio) -0.575***
log(Publicidad) 0.045***
Constant 118.914*** 5.320***
LLF -223.8695 103.2063
Akaike 455.739 -198
Schwarz 465.009 -189.143
HannanQuinn 456.515 -197.637
Observations 75 75
R2 0.448 0.469
Adjusted R2 0.433 0.454
Residual Std. Error (df = 72) 4.886 0.062
F Statistic (df = 2; 72) 29.248*** 31.810***
Note: p<0.1; p<0.05; p<0.01

Conclusiones

De acuerdo con la tabla comparativa y los resultados de los criterios de información Akaike, Schwarz y Hannan Quinn, el modelo calculado en Logaritmos es el modelo más sencillo, más preciso y que presenta una menor diferencia entre los valores observados y los valores esperados.

3. Modelo de regresión Ventas = f (Precio)

En este ejercicio se elimina la variable de publicidad:

\[\begin{equation} \widehat{ventas}_t=\alpha+\beta_1\cdot precio_t \end{equation}\]

En la siguiente tabla se presentan los resultados del modelo de regresión original y el modelo calculado con logaritmos:

Comparación de modelos
Dependent variable:
Ventas log(Ventas)
Original Logaritmos
(1) (2)
Precio -7.829***
(1.143)
log(Precio) -0.575***
(0.085)
Constant 121.900*** 5.343***
(6.526) (0.147)
Observations 75 75
R2 0.391 0.387
Adjusted R2 0.383 0.379
Residual Std. Error 5.097 0.067
F Statistic 46.928*** 46.182***
Note: p<0.1; p<0.05; p<0.01

De acuerdo con los resultados, tanto en el modelo original como el que utiliza logartimos la relación entre las variables es la esperada: existe una relación negativa entre el precio y las ventas. Ambos modelos presentan coeficientes significativos con el 99% de confianza.

En el modelo Original con el incremento de un dolar en el precio se tiene una disminución de 7829 USD; mientras que en el modelo en Logaritmos se encuentra que con el incrementa de un 1% en el precio se tiene una disminución del 0.575% en las ventas.

De acuerdo con el coeficiente de determinación R2 Ajustada nuestro primer modelo explica en 38.2962612% a las ventas y el segundo en 37.9100313%. El valor del estadístico F alto en ambos modelos indica que la variable Precio si debe considerarse en el modelo, aunque este estadístico es de mayor utilidad cuando se tienen al menos dos regresoras.

Analizando los resultados, al considerar coeficiente de determinación R2 Ajustada podría pensarse que el modelo original explica de mejor forma las variaciones en las ventas; sin embargo este criterio es insuficiente para indicar cuál es el mejor modelo y para ello se utilizan los criterios de información.

3.1 Criterios de información

De forma inicial se calcula la Función de Log-Verosimilitud, que servirá para la posterior estimación de los tres criterios de información más comunes: Akaike, Schwarz y Hannan Quinn

En la siguiente tabla se presentan los modelos de regresión original y modelo calculado con logaritmos y se agregan los tres criterios de información calculados anteriormente.

Comparación de modelos (con criterios de información)
Dependent variable:
Ventas log(Ventas)
Original Logaritmos
(1) (2)
Precio -7.829***
log(Precio) -0.575***
Constant 121.900*** 5.343***
LogVerosimilitud -227.554 97.844
Akaike 461.107 -189.687
Schwarz 468.06 -182.735
Hannan-Quinn 460.958 -189.837
Observations 75 75
R2 0.391 0.387
Adjusted R2 0.383 0.379
Residual Std. Error 5.097 0.067
F Statistic 46.928*** 46.182***
Note: p<0.1; p<0.05; p<0.01

De acuerdo con la tabla comparativa y los resultados de los criterios de información Akaike, Schwarz y Hannan Quinn, el modelo calculado en Logaritmos es el modelo más sencillo, y mayor parsimonia y que presenta una menor diferencia entre los valores observados y los valores esperados. Lo anterior contrario a las conclusiones iniciales basadas en el valor de R2.

4. Modelo de regresión Ventas = f (Publicidad)

En este ejercicio se elimina la influencia de la publicidad:

\[\begin{equation} \widehat{Ventas}_t=\alpha+\beta_1\cdot Publicidad_t \end{equation}\]

En la siguiente tabla se presentan los resultados del modelo de regresión original y el modelo calculado con logaritmos:

Comparación de modelos
Dependent variable:
Ventas log(Ventas)
Original Logaritmos
(1) (2)
Publicidad 1.733*
(0.890)
log(Publicidad) 0.046**
(0.018)
Constant 74.180*** 4.323***
(1.799) (0.013)
Observations 75 75
R2 0.049 0.082
Adjusted R2 0.036 0.069
Residual Std. Error 6.370 0.081
F Statistic 3.787* 6.518**
Note: p<0.1; p<0.05; p<0.01

De acuerdo con los resultados, tanto en el modelo original como el que utiliza logartimos la relación entre las variables es la esperada: existe una relación positiva entre la publicidad y las ventas. Ambos modelos presentan coeficientes significativos, el modelo original con el 90% de confianza y el modelo logarítmico con el 95%.

En el modelo Original con el incremento de un dolar en la publicidad se tiene un incremento de 1,733 USD; mientras que en el modelo en Logaritmos se encuentra que con el incremento de un 1% en la publicidad se tiene un aumento del 0.046% en las ventas.

De acuerdo con el coeficiente de determinación R2 Ajustada nuestro primer modelo explica en 3.6296678% a las ventas y el segundo en 6.9393997%. El valor del estadístico F bajo en ambos modelos indica que la variable Publicidad podría no considerarse en el modelo, aunque este estadístico es de mayor utilidad cuando se tienen al menos dos regresoras.

Analizando los resultados, al considerar coeficiente de determinación R2 Ajustada podría pensarse que el modelo que utiliza logarítmos explica de mejor forma las variaciones en las ventas; sin embargo este criterio es insuficiente para indicar cuál es el mejor modelo y para ello se utilizan los criterios de información.

4.1 Criterios de información

De forma inicial se calcula la Función de Log-Verosimilitud, que servirá para la posterior estimación de los tres criterios de información más comunes: Akaike, Schwarz y Hannan Quinn

En la siguiente tabla se presentan los modelos de regresión original y modelo calculado con logaritmos y se agregan los tres criterios de información calculados anteriormente.

Comparación de modelos (con criterios de información)
Dependent variable:
Ventas log(Ventas)
Original Logaritmos
(1) (2)
Publicidad 1.733*
log(Publicidad) 0.046**
Constant 74.180*** 4.323***
LogVerosimilitud -244.273 82.669
Akaike 494.546 -159.337
Schwarz 501.499 -152.385
Hannan-Quinn 494.397 -159.487
Observations 75 75
R2 0.049 0.082
Adjusted R2 0.036 0.069
Residual Std. Error 6.370 0.081
F Statistic 3.787* 6.518**
Note: p<0.1; p<0.05; p<0.01

De acuerdo con la tabla comparativa y los resultados de los criterios de información Akaike, Schwarz y Hannan Quinn, el modelo calculado en Logaritmos es el modelo más sencillo, y mayor parsimonia y que presenta una menor diferencia entre los valores observados y los valores esperados.

Conclusiones generales Tarea 2

Se presenta la siguiente tabla en la cual se conjuntan los cuatro modelos: (1) Modelo Original Ventas = f(Precio) (2) Modelo LogVentas = f (LogPrecio) (3) Modelo Original Ventas = f(Publicidad) (4) Modelo LogVentas = f(LogPublicidad)

Comparación de modelos (con criterios de información)
Dependent variable:
Ventas log(Ventas) Ventas log(Ventas)
Original Logaritmos Original Logaritmos
(1) (2) (3) (4)
Precio -7.829***
log(Precio) -0.575***
Publicidad 1.733*
log(Publicidad) 0.046**
Constant 121.900*** 5.343*** 74.180*** 4.323***
LogVerosimilitud -227.5536 97.8437 -244.2731 82.6687
Akaike 461.1073 -189.6875 494.5463 -159.3375
Schwarz 468.0597 -182.735 501.4988 -152.385
Hannan-Quinn 460.958 -189.8368 494.397 -159.4868
Observations 75 75 75 75
R2 0.391 0.387 0.049 0.082
Adjusted R2 0.383 0.379 0.036 0.069
Residual Std. Error 5.097 0.067 6.370 0.081
F Statistic 46.928*** 46.182*** 3.787* 6.518**
Note: p<0.1; p<0.05; p<0.01

El modelo que explica de una mejor forma las variaciones en las Ventas es el que tiene como variable independiente a los Precios cuando se trabaja con los Logarítmos. Lo anterior considerando primeramente el estadístico R2 Ajustada y F ; y definitivamente con los criterios de Akaike, Schwarz y Hannan Quinn.