Taller estimación de parámetros e inferencias sobre el modelo de regresión lineal simple

Autores/as

Oscar David Maturana Muñoz

Angel Luis Durango Padilla

Alan David Petro Hernandez

Jovvanis Andres Petro Maldonado

Jose Julian Pacheco Diaz

1 Introduccion

En el presente taller se aplica el modelo de regresión lineal simple para analizar la relación entre la inversión en publicidad y el número de millones de impresiones retenidas por semana. A partir de un conjunto de datos reales, se estiman los coeficientes del modelo utilizando R, se realizan pruebas de hipótesis para evaluar su significancia estadística y se calculan intervalos de confianza al 95%. El procedimiento incluye la interpretación de los resultados obtenidos y la verificación de si existe una relación lineal significativa entre las variables.

2 Problema

El Wall Street Journal publicó una encuesta sobre anuncios de televisión realizada por Video Board Tests, Inc, una empresa neoyorquina de pruebas publicitarias. La encuesta se realizó sobre personas usuarios habituales de productos a los que se pidió que citaran un anuncio que hubieran visto de esa categoría de productos en la última semana. En este caso, la respuesta es el número de millones de impresiones retenidas por semana. El regresor es la cantidad de dinero gastada por la empresa en publicidad. Los datos son los siguientes.

Tabla 1: Demanda (en unidades) de cada cliente
Marca Inversión en publicidad (USD) Impresiones por semanas (Millones)
Miller Lite 50.1 32.10
Pepsi 74.1 59.21
Stroh’s 19.3 21.70
FedEx 22.9 26.90
Burger King 82.4 61.80
Coca Cola 40.1 26.60
MacDonald’s 185.9 92.40
MCI 26.9 32.60
Diet Cola 22.4 21.40
Ford 166.2 96.45
Levi’s 27.0 43.80
Bud Lite 45.6 22.68
ATT Bell 154.9 88.90
Calvin Klein 5.0 12.00
Wendy’s 49.7 29.20
Polaroid 26.9 38.00
Shasta 5.7 7.60
Meow Mix 7.6 12.30
Oscar Meyer 9.2 13.40
Crest 32.4 44.59
Kibbles NBits 6.1 4.40

3 Estimacion de los coeficientes \(\beta_1\) y \(\beta_0\) del modelo

Para la estimacion de los coeficientes \(\beta_1\) y \(\beta_0\) realizamos los calculos con el siguiente codigo realizado en R studio con el lenguaje de programacion R.

inversion <-c(50.1, 74.1, 19.3, 22.9, 82.4, 40.1, 185.9, 26.9,
              22.4, 166.2, 27, 45.6, 154.9, 5, 49.7, 26.9, 5.7, 7.6, 9.2, 32.4, 6.1)

impresiones <- c(32.1, 59.21, 21.7, 26.9, 61.8, 26.6, 92.4, 32.6, 21.4,
            96.45, 43.8, 22.68, 88.9, 12, 29.2, 38, 7.6, 12.3, 13.4, 44.59, 4.4)

#Modelo
modelo <- lm(impresiones~inversion)
summary(modelo)

Call:
lm(formula = impresiones ~ inversion)

Residuals:
    Min      1Q  Median      3Q     Max 
-12.482  -5.907  -2.561   6.466  17.618 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 13.14711    2.77161   4.743 0.000141 ***
inversion    0.48278    0.03795  12.720 9.62e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.175 on 19 degrees of freedom
Multiple R-squared:  0.8949,    Adjusted R-squared:  0.8894 
F-statistic: 161.8 on 1 and 19 DF,  p-value: 9.624e-11
coeficientes <- modelo$coefficients
coeficientes
(Intercept)   inversion 
 13.1471102   0.4827807 

Con el respectivo codigo realizado en R script se estima que los coefiecntes \(\beta_1\) y \(\beta_0\) son:

  • \(\beta_0\): 13.1471102
  • \(\beta_1\): 0.4827807

4 Inferencias sobre coeficientes

4.1 Inferencia sobre \(\beta_1\)

Prueba de hipotesis \(\beta_1\)

Las hipótesis a plantear cuando se realiza una prueba de hipótesis de dos colas para \(\beta_1\)

\[H_0: \beta_1=0\]

\[H_1: \beta_1 \neq 0\]

Estadistico de prueba

Para calcular el estadistico de prueba \(t_0\) se debera usar la formula:

\[t_0=\frac{\hat\beta_1}{S(\hat\beta1)}\]

Continuando con el codigo mostrado anteriormente para la estimacion de los coeficientes \(\beta_1\) y \(\beta_0\) se procede a calcular el estadistico de prueba \(t_0\) para beta 1 de la siguiente manera

inversion <-c(50.1, 74.1, 19.3, 22.9, 82.4, 40.1, 185.9, 26.9,
              22.4, 166.2, 27, 45.6, 154.9, 5, 49.7, 26.9, 5.7, 7.6, 9.2, 32.4, 6.1)

impresiones <- c(32.1, 59.21, 21.7, 26.9, 61.8, 26.6, 92.4, 32.6, 21.4,
            96.45, 43.8, 22.68, 88.9, 12, 29.2, 38, 7.6, 12.3, 13.4, 44.59, 4.4)

#Modelo
modelo <- lm(impresiones~inversion)
summary(modelo)

Call:
lm(formula = impresiones ~ inversion)

Residuals:
    Min      1Q  Median      3Q     Max 
-12.482  -5.907  -2.561   6.466  17.618 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 13.14711    2.77161   4.743 0.000141 ***
inversion    0.48278    0.03795  12.720 9.62e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.175 on 19 degrees of freedom
Multiple R-squared:  0.8949,    Adjusted R-squared:  0.8894 
F-statistic: 161.8 on 1 and 19 DF,  p-value: 9.624e-11

El estadistico de prueba es \(t_0=12.720\), se puede observar en la posicion entre la columna “t value” y la fila “inversion”

Cuantil teorico para \(\beta_1\)

El calculo del cuantil teorico para estadistico teorico de \(\beta_1\) se calculo con el siguiente codigo:

cuantil_teorico <- qt(1-(0.05/2),19)
cuantil_teorico
[1] 2.093024

\[t_{1-\frac{\alpha}{2},n-2}\] \[t_{0.975,19} = 2.093024\]

Por lo tanto

\[t_0= 12.720 > t_{0.975,19} = 2.093024\] Por lo que existe evidencia estadística suficiente para rechazar \(H_0\), por lo que \(\beta_1\neq 0\) existe relación lineal entre la cantidad de dinero gastada por la empresa en publicidad y el número de millones de impresiones retenidas por semana.

4.2 Inferencia sobre \(\beta_0\)

Prueba de hipotesis \(\beta_0\)

Las hipótesis a plantear cuando se realiza una prueba de hipótesis de dos colas para \(\beta_0\)

\[H_0: \beta_0=0\]

\[H_1: \beta_0 \neq 0\]

Estadistico de prueba

Para calcular el estadistico de prueba \(t_0\) se debera usar la formula:

\[t_0=\frac{\hat\beta_1}{S(\hat\beta_1)}\]

Continuando con el codigo mostrado anteriormente para la estimacion de los coeficientes \(\beta_1\) y \(\beta_0\) se procede a calcular el estadistico de prueba \(t_0\) para \(\beta_0\) de la siguiente manera

inversion <-c(50.1, 74.1, 19.3, 22.9, 82.4, 40.1, 185.9, 26.9,
              22.4, 166.2, 27, 45.6, 154.9, 5, 49.7, 26.9, 5.7, 7.6, 9.2, 32.4, 6.1)

impresiones <- c(32.1, 59.21, 21.7, 26.9, 61.8, 26.6, 92.4, 32.6, 21.4,
            96.45, 43.8, 22.68, 88.9, 12, 29.2, 38, 7.6, 12.3, 13.4, 44.59, 4.4)

#Modelo
modelo <- lm(impresiones~inversion)
summary(modelo)

Call:
lm(formula = impresiones ~ inversion)

Residuals:
    Min      1Q  Median      3Q     Max 
-12.482  -5.907  -2.561   6.466  17.618 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 13.14711    2.77161   4.743 0.000141 ***
inversion    0.48278    0.03795  12.720 9.62e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.175 on 19 degrees of freedom
Multiple R-squared:  0.8949,    Adjusted R-squared:  0.8894 
F-statistic: 161.8 on 1 and 19 DF,  p-value: 9.624e-11

El estadistico de prueba para \(\beta_0\) es \(t_0=4.743\) se puede observar en la posicion entre la columna “t value” y la fila “(intercept)”

Cuantil teorico para \(\beta_0\)

El calculo del cuantil teorico para estadistico teorico de \(\beta_0\) se hizo de la siguiente forma:

cuantil_teorico <- qt(1-(0.05/2),19)
cuantil_teorico
[1] 2.093024

\[t_{1-\frac{\alpha}{2},n-2}\] \[t_{0.975,19} = 2.093024\]

Por lo tanto

\[t_0= 4.743496 > t_{0.975,19} = 2.093024\] Por lo que existe evidencia estadística suficiente para rechazar \(H_0\), por lo que \(\beta_0\neq 0\) existe relación lineal entre la cantidad de dinero gastada por la empresa en publicidad y el número de millones de impresiones retenidas por semana.

5 Intervalos de confianza

Para calcular los intervalos de confianza para \(\beta_1\) y beta 0 utiliza la siguiente expresion:

\[\hat{\beta}_{1} \pm t_{1 - \frac{\alpha}{2}, n - 2} \; S(\hat{\beta}_{1})\]

inversion <-c(50.1, 74.1, 19.3, 22.9, 82.4, 40.1, 185.9, 26.9,
              22.4, 166.2, 27, 45.6, 154.9, 5, 49.7, 26.9, 5.7, 7.6, 9.2, 32.4, 6.1)

impresiones <- c(32.1, 59.21, 21.7, 26.9, 61.8, 26.6, 92.4, 32.6, 21.4,
            96.45, 43.8, 22.68, 88.9, 12, 29.2, 38, 7.6, 12.3, 13.4, 44.59, 4.4)

#Modelo
modelo <- lm(impresiones~inversion)
summary(modelo)

Call:
lm(formula = impresiones ~ inversion)

Residuals:
    Min      1Q  Median      3Q     Max 
-12.482  -5.907  -2.561   6.466  17.618 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 13.14711    2.77161   4.743 0.000141 ***
inversion    0.48278    0.03795  12.720 9.62e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.175 on 19 degrees of freedom
Multiple R-squared:  0.8949,    Adjusted R-squared:  0.8894 
F-statistic: 161.8 on 1 and 19 DF,  p-value: 9.624e-11
# Intervalos de confianza 
intervalos_confianza <- confint(modelo, level = 0.95)
intervalos_confianza
                2.5 %     97.5 %
(Intercept) 7.3460681 18.9481523
inversion   0.4033414  0.5622201

Se pudo estimar que los intervalos de confianza para \(\beta_1\) y \(\beta_0\) con un nivel de significancia de \(\alpha=0.05\) son:

intervalo para beta 1: esta entre [0.4033414,0.5622201]

Intervalo para beta 0: esta entre [7.3460681,18.9481523]

Se puede interpretar que ambos coeficientes \(\beta_1\) y \(\beta_0\) son significativos para el modelo ya que sus intervalos no contienen a 0.