Marca | Inversión en publicidad (USD) | Impresiones por semanas (Millones) |
---|---|---|
Miller Lite | 50.1 | 32.10 |
Pepsi | 74.1 | 59.21 |
Stroh’s | 19.3 | 21.70 |
FedEx | 22.9 | 26.90 |
Burger King | 82.4 | 61.80 |
Coca Cola | 40.1 | 26.60 |
MacDonald’s | 185.9 | 92.40 |
MCI | 26.9 | 32.60 |
Diet Cola | 22.4 | 21.40 |
Ford | 166.2 | 96.45 |
Levi’s | 27.0 | 43.80 |
Bud Lite | 45.6 | 22.68 |
ATT Bell | 154.9 | 88.90 |
Calvin Klein | 5.0 | 12.00 |
Wendy’s | 49.7 | 29.20 |
Polaroid | 26.9 | 38.00 |
Shasta | 5.7 | 7.60 |
Meow Mix | 7.6 | 12.30 |
Oscar Meyer | 9.2 | 13.40 |
Crest | 32.4 | 44.59 |
Kibbles NBits | 6.1 | 4.40 |
Taller estimación de parámetros e inferencias sobre el modelo de regresión lineal simple
1 Introduccion
En el presente taller se aplica el modelo de regresión lineal simple para analizar la relación entre la inversión en publicidad y el número de millones de impresiones retenidas por semana. A partir de un conjunto de datos reales, se estiman los coeficientes del modelo utilizando R, se realizan pruebas de hipótesis para evaluar su significancia estadística y se calculan intervalos de confianza al 95%. El procedimiento incluye la interpretación de los resultados obtenidos y la verificación de si existe una relación lineal significativa entre las variables.
2 Problema
El Wall Street Journal publicó una encuesta sobre anuncios de televisión realizada por Video Board Tests, Inc, una empresa neoyorquina de pruebas publicitarias. La encuesta se realizó sobre personas usuarios habituales de productos a los que se pidió que citaran un anuncio que hubieran visto de esa categoría de productos en la última semana. En este caso, la respuesta es el número de millones de impresiones retenidas por semana. El regresor es la cantidad de dinero gastada por la empresa en publicidad. Los datos son los siguientes.
3 Estimacion de los coeficientes \(\beta_1\) y \(\beta_0\) del modelo
Para la estimacion de los coeficientes \(\beta_1\) y \(\beta_0\) realizamos los calculos con el siguiente codigo realizado en R studio con el lenguaje de programacion R.
<-c(50.1, 74.1, 19.3, 22.9, 82.4, 40.1, 185.9, 26.9,
inversion 22.4, 166.2, 27, 45.6, 154.9, 5, 49.7, 26.9, 5.7, 7.6, 9.2, 32.4, 6.1)
<- c(32.1, 59.21, 21.7, 26.9, 61.8, 26.6, 92.4, 32.6, 21.4,
impresiones 96.45, 43.8, 22.68, 88.9, 12, 29.2, 38, 7.6, 12.3, 13.4, 44.59, 4.4)
#Modelo
<- lm(impresiones~inversion)
modelo summary(modelo)
Call:
lm(formula = impresiones ~ inversion)
Residuals:
Min 1Q Median 3Q Max
-12.482 -5.907 -2.561 6.466 17.618
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.14711 2.77161 4.743 0.000141 ***
inversion 0.48278 0.03795 12.720 9.62e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9.175 on 19 degrees of freedom
Multiple R-squared: 0.8949, Adjusted R-squared: 0.8894
F-statistic: 161.8 on 1 and 19 DF, p-value: 9.624e-11
<- modelo$coefficients
coeficientes coeficientes
(Intercept) inversion
13.1471102 0.4827807
Con el respectivo codigo realizado en R script se estima que los coefiecntes \(\beta_1\) y \(\beta_0\) son:
- \(\beta_0\): 13.1471102
- \(\beta_1\): 0.4827807
4 Inferencias sobre coeficientes
4.1 Inferencia sobre \(\beta_1\)
Prueba de hipotesis \(\beta_1\)
Las hipótesis a plantear cuando se realiza una prueba de hipótesis de dos colas para \(\beta_1\)
\[H_0: \beta_1=0\]
\[H_1: \beta_1 \neq 0\]
Estadistico de prueba
Para calcular el estadistico de prueba \(t_0\) se debera usar la formula:
\[t_0=\frac{\hat\beta_1}{S(\hat\beta1)}\]
Continuando con el codigo mostrado anteriormente para la estimacion de los coeficientes \(\beta_1\) y \(\beta_0\) se procede a calcular el estadistico de prueba \(t_0\) para beta 1 de la siguiente manera
<-c(50.1, 74.1, 19.3, 22.9, 82.4, 40.1, 185.9, 26.9,
inversion 22.4, 166.2, 27, 45.6, 154.9, 5, 49.7, 26.9, 5.7, 7.6, 9.2, 32.4, 6.1)
<- c(32.1, 59.21, 21.7, 26.9, 61.8, 26.6, 92.4, 32.6, 21.4,
impresiones 96.45, 43.8, 22.68, 88.9, 12, 29.2, 38, 7.6, 12.3, 13.4, 44.59, 4.4)
#Modelo
<- lm(impresiones~inversion)
modelo summary(modelo)
Call:
lm(formula = impresiones ~ inversion)
Residuals:
Min 1Q Median 3Q Max
-12.482 -5.907 -2.561 6.466 17.618
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.14711 2.77161 4.743 0.000141 ***
inversion 0.48278 0.03795 12.720 9.62e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9.175 on 19 degrees of freedom
Multiple R-squared: 0.8949, Adjusted R-squared: 0.8894
F-statistic: 161.8 on 1 and 19 DF, p-value: 9.624e-11
El estadistico de prueba es \(t_0=12.720\), se puede observar en la posicion entre la columna “t value” y la fila “inversion”
Cuantil teorico para \(\beta_1\)
El calculo del cuantil teorico para estadistico teorico de \(\beta_1\) se calculo con el siguiente codigo:
<- qt(1-(0.05/2),19)
cuantil_teorico cuantil_teorico
[1] 2.093024
\[t_{1-\frac{\alpha}{2},n-2}\] \[t_{0.975,19} = 2.093024\]
Por lo tanto
\[t_0= 12.720 > t_{0.975,19} = 2.093024\] Por lo que existe evidencia estadística suficiente para rechazar \(H_0\), por lo que \(\beta_1\neq 0\) existe relación lineal entre la cantidad de dinero gastada por la empresa en publicidad y el número de millones de impresiones retenidas por semana.
4.2 Inferencia sobre \(\beta_0\)
Prueba de hipotesis \(\beta_0\)
Las hipótesis a plantear cuando se realiza una prueba de hipótesis de dos colas para \(\beta_0\)
\[H_0: \beta_0=0\]
\[H_1: \beta_0 \neq 0\]
Estadistico de prueba
Para calcular el estadistico de prueba \(t_0\) se debera usar la formula:
\[t_0=\frac{\hat\beta_1}{S(\hat\beta_1)}\]
Continuando con el codigo mostrado anteriormente para la estimacion de los coeficientes \(\beta_1\) y \(\beta_0\) se procede a calcular el estadistico de prueba \(t_0\) para \(\beta_0\) de la siguiente manera
<-c(50.1, 74.1, 19.3, 22.9, 82.4, 40.1, 185.9, 26.9,
inversion 22.4, 166.2, 27, 45.6, 154.9, 5, 49.7, 26.9, 5.7, 7.6, 9.2, 32.4, 6.1)
<- c(32.1, 59.21, 21.7, 26.9, 61.8, 26.6, 92.4, 32.6, 21.4,
impresiones 96.45, 43.8, 22.68, 88.9, 12, 29.2, 38, 7.6, 12.3, 13.4, 44.59, 4.4)
#Modelo
<- lm(impresiones~inversion)
modelo summary(modelo)
Call:
lm(formula = impresiones ~ inversion)
Residuals:
Min 1Q Median 3Q Max
-12.482 -5.907 -2.561 6.466 17.618
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.14711 2.77161 4.743 0.000141 ***
inversion 0.48278 0.03795 12.720 9.62e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9.175 on 19 degrees of freedom
Multiple R-squared: 0.8949, Adjusted R-squared: 0.8894
F-statistic: 161.8 on 1 and 19 DF, p-value: 9.624e-11
El estadistico de prueba para \(\beta_0\) es \(t_0=4.743\) se puede observar en la posicion entre la columna “t value” y la fila “(intercept)”
Cuantil teorico para \(\beta_0\)
El calculo del cuantil teorico para estadistico teorico de \(\beta_0\) se hizo de la siguiente forma:
<- qt(1-(0.05/2),19)
cuantil_teorico cuantil_teorico
[1] 2.093024
\[t_{1-\frac{\alpha}{2},n-2}\] \[t_{0.975,19} = 2.093024\]
Por lo tanto
\[t_0= 4.743496 > t_{0.975,19} = 2.093024\] Por lo que existe evidencia estadística suficiente para rechazar \(H_0\), por lo que \(\beta_0\neq 0\) existe relación lineal entre la cantidad de dinero gastada por la empresa en publicidad y el número de millones de impresiones retenidas por semana.
5 Intervalos de confianza
Para calcular los intervalos de confianza para \(\beta_1\) y beta 0 utiliza la siguiente expresion:
\[\hat{\beta}_{1} \pm t_{1 - \frac{\alpha}{2}, n - 2} \; S(\hat{\beta}_{1})\]
<-c(50.1, 74.1, 19.3, 22.9, 82.4, 40.1, 185.9, 26.9,
inversion 22.4, 166.2, 27, 45.6, 154.9, 5, 49.7, 26.9, 5.7, 7.6, 9.2, 32.4, 6.1)
<- c(32.1, 59.21, 21.7, 26.9, 61.8, 26.6, 92.4, 32.6, 21.4,
impresiones 96.45, 43.8, 22.68, 88.9, 12, 29.2, 38, 7.6, 12.3, 13.4, 44.59, 4.4)
#Modelo
<- lm(impresiones~inversion)
modelo summary(modelo)
Call:
lm(formula = impresiones ~ inversion)
Residuals:
Min 1Q Median 3Q Max
-12.482 -5.907 -2.561 6.466 17.618
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.14711 2.77161 4.743 0.000141 ***
inversion 0.48278 0.03795 12.720 9.62e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9.175 on 19 degrees of freedom
Multiple R-squared: 0.8949, Adjusted R-squared: 0.8894
F-statistic: 161.8 on 1 and 19 DF, p-value: 9.624e-11
# Intervalos de confianza
<- confint(modelo, level = 0.95)
intervalos_confianza intervalos_confianza
2.5 % 97.5 %
(Intercept) 7.3460681 18.9481523
inversion 0.4033414 0.5622201
Se pudo estimar que los intervalos de confianza para \(\beta_1\) y \(\beta_0\) con un nivel de significancia de \(\alpha=0.05\) son:
intervalo para beta 1: esta entre [0.4033414,0.5622201]
Intervalo para beta 0: esta entre [7.3460681,18.9481523]
Se puede interpretar que ambos coeficientes \(\beta_1\) y \(\beta_0\) son significativos para el modelo ya que sus intervalos no contienen a 0.