Objetivos

Introducci?n

La Disquera Rockola, l?der en el mercado musical, ha solicitado a su departamento de marketing, un estudio que permita evaluar el desempe?o de las ventas de los discos de rock, que se efectuaron el a?o 2017, a nivel nacional.

Para este fin, el ?rea de marketing cuenta con una base de datos que contiene la siguiente informaci?n:

Sin embargo, para realizar un estudio m?s robusto, el departamento de marketing, ha pedido a las principales radios del pa?s, un informe donde se evidencie el tiempo que cada estaci?n radial dedica al rock y en especial a los grupos de rock que la Disquera Rockola est? promocionando. Asimismo, otro elemento que se ha tomado en consideraci?n al momento de elaborar el estudio, es la construcci?n de una encuesta, donde se ha consultado a las personas (en especial a aquellas en el rango de edad de los 15 hasta los 35 a?os) el nivel de agrado que tienen sobre ciertos grupos de rock.

Informe

Con todos estos elementos antes mencionados, el ?rea de Marketing elaborar? un modelo de regresi?n lineal m?ltiple, en el cual se desea observar el comportamiento de las ventas de los discos de rock, por medio de las variables explicativas: Gasto en publicidad, tiempo en que cada disco ha estado en el aire y nivel de agrado por los grupos de rock.

A continuaci?n, se describir? cada variable con su respectiva unidad de medida, denotando a la variable dependiente, ventas de discos, con la letra \(y_{i}\), mientras que a cada variable independiente con la letra \(x_{i}\).

\(y_{i}\)=Venta de discos de rock,expresada en miles de discos

\(x_{1}\)=Gasto en publicidad de cada disco de rock,expresado en miles de d?lares

\(x_{2}\)=N?mero de veces que las canciones fueron puestas en el aire en las principales radios del pa?s

\(x_{3}\)=Nivel de preferencia por los grupos de rock,clasificado de la escala del 1 al 10, donde 1 es clasificado como desagradable,mientras que 10 como atractivo.

De este modo la ecuaci?n que se requiere estimar por medio del modelo de regresi?n lineal m?ltiple tiene la siguiente forma funcional:

\(y_{i}\)=\(\beta_{0}\)+\(\beta_{1}\).\(x_{1i}\)+\(\beta_{2}\).\(x_{2i}\)+\(\beta_{3}\).\(x_{3i}\)+\(\mu_{i}\) (1)

Donde:

\(\beta_{0}\)= representa el intercepto

\(\beta_{1}\)= el coeficiente del predictor \(x_{1i}\)

\(\beta_{2}\)= el coeficiente del predictor \(x_{2i}\)

\(\beta_{3}\)= el coeficiente del predictor \(x_{3i}\)

\(\mu_{i}\) = t?rmino de error inobservable

Una vez que se ha identificado tanto la variable dependiente como las variables explicativas, se proceder? a efectuar el modelo de regresi?n lineal m?ltiple por medio del software estad?stico R-studio. Cabe resaltar que el estudio analiza una muestra de 200 bandas de rock, en el periodo comprendido entre enero hasta diciembre del a?o 2017.

Interpretaci?n de Resultados

El primer estad?stico a examinar ser? el R cuadrado y el R cuadrado ajustado; ambos estad?sticos proporcionan informaci?n acerca de la variaci?n de la variable dependiente (en este caso la venta de los discos), que es explicada por el conjunto de variables explicativas. En el presente estudio, tanto el R cuadrado como el R cuadrado ajustado superan el 65%, lo cual indica que el 65% de la variaci?n de las ventas, es explicado por el gasto en publicidad, tiempo en que las emisoras colocan al aire a los grupos musicales de rock que promociona la disquera y el nivel de preferencias que las personas tienen sobre dichos grupos.

En t?rminos generales, se aconseja elegir como medida de bondad de ajuste al R cuadrado ajustado sobre el R cuadrado, debido a que este ?ltimo suele tener un comportamiento optimista al ajuste de la regresi?n lineal, es decir, a medida que se agregan m?s variables explicativas al modelo, el estad?stico R cuadrado tambi?n se incrementa, sin importar si las variables explicativas adicionales tengan alg?n grado de correlaci?n con la variable dependiente. En este sentido, el R cuadrado ajustado corrige la estimaci?n excesiva producida por el R cuadrado.

Tabla No1: Modelo de Regresi?n Lineal M?ltiple

## 
## Call:
## lm(formula = ventas ~ gastos + tiempo + preferencias, data = ventas)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -121.324  -28.336   -0.451   28.967  144.132 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -26.612958  17.350001  -1.534    0.127    
## gastos         0.084885   0.006923  12.261  < 2e-16 ***
## tiempo         3.367425   0.277771  12.123  < 2e-16 ***
## preferencias  11.086335   2.437849   4.548 9.49e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 47.09 on 196 degrees of freedom
## Multiple R-squared:  0.6647, Adjusted R-squared:  0.6595 
## F-statistic: 129.5 on 3 and 196 DF,  p-value: < 2.2e-16

Por otra parte, los coeficientes estimados se presentan en la tabla No1, donde como se puede observar todos los coeficientes tienen valores mayores a cero, lo cual indica una relaci?n positiva entre los predictores y la variable dependiente, es decir a medida que el gasto en publicidad se incrementa, las ventas de los discos tambi?n aumentan; el an?lisis es an?logo para el resto de variables.

Cabe definir ahora, la interpretaci?n de dichos par?metros. En este aspecto, en relaci?n a los gastos en publicidad, un incremento de un d?lar en el presupuesto destinado a la publicidad, provoca un incremento de 0.085 unidades de discos vendidos, manteniendo tanto las variables de tiempo y preferencias constantes. Es preciso recordar, que, al inicio del informe, se estableci? que tanto la venta de discos como el gasto de publicidad est? expresado en miles de discos y d?lares respectivamente, por lo tanto, para tener una interpretaci?n m?s realista, se podr? manifestar que, a medida que el gasto en publicidad se incrementa en 1000 d?lares, la venta de discos se incrementa en 85 unidades, manteniendo el resto de variables constantes.

En cuanto al n?mero de veces que las emisoras radiales ponen las canciones al aire, el n?mero de discos vendidos ascienden a 3.367 unidades. Sin embargo, al tratarse de ventas expresadas en miles, esto implica un increment? igual a 3 367 unidades vendidas, manteniendo el resto de variables constantes.

Para finalizar, si una banda obtiene una calificaci?n m?s alta en relaci?n al nivel de preferencia que recae sobre ellos, el n?mero de ventas de los discos se incrementa en 11086 ?lbumes, y al igual que los casos anteriores, manteniendo el resto de variables constates.

De este modo la ecuaci?n descrita en la ecuaci?n No1, ahora tiene la siguiente estructura:

\(ventas_{i}\)=\(\beta_{0}\)+\(\beta_{1}\).\(gastos_{1i}\)+\(\beta_{2}\).\(tiempo_{2i}\)+\(\beta_{3}\).\(preferencias_{3i}\)+\(\mu_{i}\)

\(ventas_{i}\)=\(-26.61\)+\(0.08\).\(gastos_{i}\)+\(3.37\).\(tiempo_{i}\)+\(11.09\).\(preferencias_{i}\)+\(\mu_{i}\)

Adem?s, cada estimador est? asociado a un error est?ndar, el cual es un indicador de cuan representativa la muestra ser? de la poblaci?n. En este sentido, un peque?o error est?ndar revela que gran parte de la media muestral representa un comportamiento similar a la media poblacional. En el caso del presente estudio, los errores est?ndares son peque?os, lo cual es una se?al de que la muestra es representativa.

Otro indicador que es preciso revisar, es el estad?stico t; el cual indica si los valores de los par?metros \(\beta\) estimados son diferentes de cero (o desde otra perspectiva, este estad?stico se?ala si los predictores realmente producen una contribuci?n al modelo).

Por lo tanto, si el estad?stico t asociado con los valores de \(\beta\) es significativo (esto se produce cuando la probabilidad asociada al estadistico t es menor que 0.05), se concluye que los predictores son estad?sticamente significativos.

En el caso del gasto en publicidad, el valor del estad?stico t es igual a 12.261 con una probabilidad menor a 0.01, un valor similar del estad?stico t presenta la variable tiempo, con un valor igual a 12.123 y probabilidad menor al 0.01. Por otro lado, la variable preferencia por los grupos de rock, tambi?n es estad?sticamente significativo, con valor del estad?stico t igual a 4.548 y una probabilidad menor a 0.01.

Con la magnitud del estad?stico t se puede observar que tanto el gasto en publicidad como el tiempo, tienen un impacto similar sobre la venta de discos, mientras que las preferencias tienen un impacto menor.

Los resultados de los intervalos de confianza se ilustran en la tabla No2, donde al 95% del nivel de confianza estos intervalos contendr?n el verdadero valor de los Betas estimados. Por otro lado, se asegura que un buen modelo est? caracterizado por tener intervalos de confianza peque?os, por el contrario, un modelo mal especificado tendr?, intervalos de confianza muy grandes, as? como tambi?n, intervalos de confianza que crucen el valor de cero. Esto es un indicio de que, en algunas muestras, el predictor tendr? una relaci?n negativa con el resultado, mientras que en otras muestras tendr? un valor positivo.

En relaci?n al modelo analizado, tanto el gasto en publicidad, como el tiempo que las emisoras radiales destinan en colocar las canciones de rock al aire, poseen intervalos de confianza cortos, se?al de que las estimaciones son representativas de los verdaderos valores poblacionales. Sin embargo, el intervalo de confianza para la variable “preferencia” es bastante amplio, lo cual demuestra lo que se hab?a expresado previamente, en que esta variable era la menos representativa de las dos variables anteriores.

Tabla No2: Intervalos de confianza

##                     2.5 %      97.5 %
## (Intercept)  -60.82960967  7.60369295
## gastos         0.07123166  0.09853799
## tiempo         2.81962186  3.91522848
## preferencias   6.27855218 15.89411823

Evaluaci?n el modelo de regresi?n

Una vez que se ha efectuado el an?lisis de regresi?n lineal m?ltiple para determinar el comportamiento de la variable venta de discos, en funci?n de un conjunto de variables explicativas (gasto en publicidad, tiempo y preferencias), se deber? ahora, examinar si los supuestos detr?s del modelo de regresi?n se cumplan: No multicolinealidad, homocedasticidad, independencia de los errores, distribuci?n normal de los errores,independencia y linealidad. La importancia del cumplimiento de los supuestos antes mencionados, implicar?a que los resultados arrojados por el modelo puedan aplicarse con mucha precisi?n a la poblaci?n de inter?s.

Supuesto No1: Independencia

Para verificar que los errores son independientes entre observaciones, se aplica el test Durbin- Watson. Este test puede variar entre 0 y 4, donde un valor cercano a 2 significa que los residuos no est?n correlacionados, por otro lado, un valor superior a 2 indica una correlaci?n positiva entre errores subyacentes, mientras que un valor menor a 2 representa una correlaci?n negativa entre errores. Revisando la informacion desplegada en la tabla No3, se observa que el valor del estad?stico Durbin Watson es cercano a 2, informaci?n confirmada con el p-valor de 0.748

Tabla No3:Test Durbin-Watson

## Warning: package 'car' was built under R version 3.4.4
## Loading required package: carData
## Warning: package 'carData' was built under R version 3.4.4
##  lag Autocorrelation D-W Statistic p-value
##    1       0.0026951      1.949819   0.744
##  Alternative hypothesis: rho != 0

Supuesto No2: Multicolinealidad

La multicolinealidad se produce cuando existe una fuerte correlaci?n entre las variables explicativas o cuando existe una perfecta combinaci?n lineal entre ellas. Una de las consecuencias de la multicolinealidad radica en la dificultad de efectuar una evaluaci?n de la importancia que tiene cada predictor.

El m?todo para detectar la presencia de multicolinealidad es por medio del factor de inflaci?n de la varianza (VIF por sus siglas en ingl?s). Dicho estad?stico, indica si un predictor tiene una fuerte relaci?n lineal con otro predictor. La literatura especializada, considera que, si el valor del VIF es mayor a 10, probablemente exista un problema de multicolinealidad, asimismo considerando el promedio de este indicador, si el mismo es mayor que 1, la multicolinealidad posiblemente genera un problema de sesgo en el modelo de regresi?n.

Adem?s, un estad?stico adicional, que est? relacionado con los anteriores, es el estad?stico de la tolerancia, que se lo representa como la raz?n entre 1/VIF. Si este valor se encuentra por debajo 0.1, existir?a un problema de multicolinealidad.

Revisando la informaci?n de la tabla No4, se evidencia que tanto los valores VIF como del estad?stico de tolerancia cumple los par?metros establecidos, por lo cual se concluye que no existe multicolinealidad.

Tabla No4:Test para detectar multicolinealidad

##       gastos       tiempo preferencias 
##     1.014593     1.042504     1.038455
##       gastos       tiempo preferencias 
##    0.9856172    0.9592287    0.9629695
## [1] 1.03185

Supuesto No3: Residuos

Para finalizar con el an?lisis de los supuestos subyacentes al modelo de regresi?n lineal m?ltiple, se deber? considerar el supuesto de la distribuci?n normal de los residuos (errores). Para este fin, se deber? graficar los residuos estandarizados (en el eje y) versus los valores ajustados (en el eje x), con esto se determinar? si el supuesto de errores aleatorios y de homocedasticidad se cumple. En el gr?fico No1 se puede observar la dispersi?n de los puntos distribuidos uniformemente alrededor del cero, siendo esta una se?al de que tanto los supuestos de linealidad (la relaci?n existente entre la variable dependiente e independiente son lineales) y homocedasticidad (varianza de los errores constantes) se cumple.

Gr?fico No1:Residuos versus los valores ajustados del modelo

## Registering fonts with R

Otro gr?fico que nos permite visualizar y examinar si una variable tiene una distribuci?n normal, es el gr?fico Q-Q plot, el cual grafica los valores acumulados de la variable versus la probabilidad acumulada de la distribuci?n normal. En este sentido, cada valor es contrastado con el valor esperado de que el resultado sea una distribuci?n normal. En el caso del presente estudio, se analiza los residuos observados y se los grafica por medio del diagrama Q-Q plot. En esencia si los errores tienen una distribuci?n normal, los mismos formaran una l?nea diagonal recta, misma que se evidencia en el gr?fico No2, por lo tanto, los errores tienen una distribuci?n normal.

Gr?fico No2: Q-Q plot

## Warning: `stat` is deprecated

Una vez que se ha revisado que todos los supuestos inherentes al modelo de regresi?n lineal m?ltiple se han cumplido, se puede concluir que el modelo previsto para la muestra puede ser generalizable para la poblaci?n. Asimismo, y a la luz de los resultados visto en las secciones anteriores, se concluye que el gasto en publicidad, y el tiempo que las emisoras colocan las canciones al aire son igual de importantes para predecir las ventas de los discos. Por otro lado, a pesar de que la variable, preferencia por los grupos de rock, fue estad?sticamente significativo, tuvo un menor impacto en relaci?n a las dos variables antes mencionadas.