Taller 1: Regresión Lineal Simple

Librerias

#limpiar la memoria de RStudio
rm(list = ls())
library(knitr)
library(kableExtra)
library(ggplot2)

Ejercicio 1

La supervisora de una compañía de buses quiere analizar el efecto que tiene el paso de los años sobre el costo de mantenimiento de los autobuses. Para esto recopila los siguientes datos:

costo edad
859 8
682 5
471 3
708 9
1094 11
224 2
320 1
651 8
1049 12
#se cargan los datos
datos <- data.frame(
  costo = c(859, 682, 471, 708, 1094, 224, 320, 651, 1049),
  edad = c(8, 5, 3, 9, 11, 2, 1, 8, 12)
)
attach(datos)

Gráfico de Dispersión

  1. Grafique un diagrama de dispersión.
ggplot(datos, aes(x = edad, y = costo), axes = FALSE ) +
  geom_point(colour = "blue") + 
  ggtitle("Gráfico de Dispersión Costo del Mantenimiento vs Edad de los Autobuses")

Relación entre las variables

  1. Que clase de relación existe entre estas variables?

La relación que existe es lineal y creciente que en términos del negocio se traduce en que, a mayor edad de los buses, mayor será el costo del mantenimiento que habrá que pagar por ellos. Por lo anterior se espera un: \(β_1 > 0\)

Recta de Mínimos Cuadrados

\[ Costo_i = β_0 + β_1*Edad_i + \mu_i \]

  1. Estime la recta de mínimos cuadrados.
modelo <- lm(formula = costo~edad, data = datos)
modelo
## 
## Call:
## lm(formula = costo ~ edad, data = datos)
## 
## Coefficients:
## (Intercept)         edad  
##      208.20        70.92
print("--------------")
## [1] "--------------"
summary(modelo)
## 
## Call:
## lm(formula = costo ~ edad, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -138.47 -124.55   40.88   83.45  119.21 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  208.203     75.002   2.776 0.027457 *  
## edad          70.918      9.934   7.139 0.000187 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 111.6 on 7 degrees of freedom
## Multiple R-squared:  0.8792, Adjusted R-squared:  0.862 
## F-statistic: 50.96 on 1 and 7 DF,  p-value: 0.0001872

La recta estimada sería

\[ \widehat{Costo_i} = β_0 + β_1*Edad_i \]

El modelo medio seria

\[ \widehat{Costo_i} = 208.20 + 70.92*Edad_i + \mu_i\]

Valor t de la Edad

  1. Tiene la edad un efecto estadísticamente significativo sobre el costo de mantenimiento de los autobuses?

Como \(|t \text{-value}| = 7.13\) y \(|t \text{-value}| > 2\) entonces la edad es estadísticamente significativo e implica que, por cada año adicional de los autobuses el costo del mantenimiento se incrementa en 70.92 unidades

Predicción e Intervalo de confianza

  1. Cual es el costo esperado para un autobús de 5 años? Construya un intervalo de confianza para este pronóstico

Predicción puntual

p <- predict (modelo, newdata = data.frame(edad=5), se.fit=TRUE)
p
## $fit
##       1 
## 562.794 
## 
## $se.fit
## [1] 40.28504
## 
## $df
## [1] 7
## 
## $residual.scale
## [1] 111.6097

El valor puntual predicho es de 562.794, es decir que, para un autobus de 5 años, en promedio el costo de su mantenimiento será de 562.794 unidades.

Intervalo de confianza

Utlizando un \(\alpha = 0.05\) se construye el intervalo de confianza para el pronóstico anterior:

c(p$fit - 1.96*p$se.fit, p$fit+1.96*p$se.fit)
##        1        1 
## 483.8353 641.7527

Entonces, si la edad del autobus es de 5 años, con una confiabilidad del 95%, se espera que los costos de mantenimiento estén entre 483.8353 y 641.7527

Variabilidad explicada por el modelo

  1. Que cantidad de variabilidad en el costo de mantenimiento de los autobuses es explicada por la variabilidad en su edad?

De acuerdo a las estadísticas del modelo, \(R^2 = 0.8792\), lo que indica que 87,92% la variabilidad del costo del mantenimiento de los autobuses es explicada por la edad de los mismos.

Ejercicio 3

Para cierto producto fabricado en un taller, un contador desea saber si el costo de la mano de obra directa (y) es influenciado por el tamaño del lote (x). Los datos de 12 plantas se dan a continuación:

Cost Tamaño
71 5
663 62
381 35
138 12
861 83
145 14
493 46
548 52
251 23
1024 100
435 41
772 75
#se cargan los datos
datos3 <- data.frame(
  cost = c(71, 663, 381, 138, 861, 145, 493, 548, 251, 1024, 435, 772),
  tamaño = c(5, 62, 35, 12, 83, 14, 46, 52, 23, 100, 41, 75)
)
attach(datos3)

Relación entre las variables

  1. ¿Existe una relación lineal entre los costos de la mano de obra directa y el tamaño del lote?
ggplot(datos3, aes(x = tamaño, y = cost), axes = FALSE ) +
  geom_point(colour = "red") + 
  ggtitle("Gráfico de Dispersión: Costo de la mano de obra y tamaño de los lotes")

Gracias al gráfico se puede observar una relación lineal positiva, indicando que a medida que aumenta el tamaño del lote (producción), también se incrementa el costo de la mano de obra. Por lo anterior se espera un: \(β_1 > 0\)

Estimación del modelo e interpretación

b). Estime el modelo, interprételo y también interprete el coeficiente de determinación.

El modelo a estimar sería:

\[ Costo_i = β_0 + β_1*Tamaño + \mu_i \]

Estimación

modelo3 <- lm(formula = cost~tamaño, data = datos3)
modelo3
## 
## Call:
## lm(formula = cost ~ tamaño, data = datos3)
## 
## Coefficients:
## (Intercept)       tamaño  
##       18.49        10.15
print("--------------")
## [1] "--------------"
summary(modelo3)
## 
## Call:
## lm(formula = cost ~ tamaño, data = datos3)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -15.5351  -3.5462   0.4444   3.2786  15.4444 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 18.48751    4.67658   3.953  0.00272 ** 
## tamaño      10.14626    0.08662 117.134  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.642 on 10 degrees of freedom
## Multiple R-squared:  0.9993, Adjusted R-squared:  0.9992 
## F-statistic: 1.372e+04 on 1 and 10 DF,  p-value: < 2.2e-16

Interpretación

Se encontró significancia estadística tanto para el intercepto como para la variable ‘tamaño’ (tamaño del lote o producción), ya que \(|t \text{-value}| > 2\) en ambos casos. Adicionalmente el \(p \text{-value} < 0.05\) para el intercepto y la variable ‘tamaño’.

Lo anterior nos lleva al modelo medio que sería: \[ \widehat{Costo_i} = 18.49 + 10.15*Tamaño_i + \mu_i\]

Entonces, cuando el tamaño (producción) se incrementa en una unidad, el costo de la mano de obra se incrementa en 10.15 unidades (salario en x unidad monetaria).

Coeficiente de determinación

El R cuadrado de este modelo es igual a \(R^2 = 0.9993\), lo que indica que 99.93% de la variabilidad del costo del producto es explicada por el tamaño del lote (producción). Nota: Es un modelo casi perfecto pues el \(R^2\) es casi 1 lo que indica además que la variable tamaño del lote (producción) está explicando casi en su totalida la variación del costo.

Significancia del coeficiente de pendiente estimado

  1. Pruebe la significancia del coeficiente de pendiente estimado. Use una significancia de 0.05.

Hipótesis

  • (\(H_0\)): \(\beta_2 = 0\) (El tamaño del lote no afecta los gastos operativos)
  • (\(H_1\)): \(\beta_2 \neq 0\) (El tamaño del lote afecta los gastos operativos)

Nivel de significancia

\(\alpha = 0.05\)

Resultados

  • \(|t_{\beta2}| = 117.134 > 2\), se rechaza \(H_0: \beta_2 = 0\)
  • \(p_{\beta2} = 2 \times 10^{-16} < \alpha = 0.05\), rechazo \(H_0: \beta_2 = 0\)

Como se rechaza \(H_0\) entonces se puede inferir que el tamaño del lote tiene un efecto estadísticamente significativo sonbre el costo.

Predicción con tamaño de lote de 120 metros cuadrados

Predicción puntual

p <- predict (modelo3, newdata = data.frame(tamaño=120), se.fit=TRUE)
p
## $fit
##        1 
## 1236.039 
## 
## $se.fit
## [1] 6.905157
## 
## $df
## [1] 10
## 
## $residual.scale
## [1] 8.641541

El valor puntual predicho es de 1,236.039, es decir que, para un lote de 120 metros cuadrados, en promedio el costo de su producción será de 1,236.039 unidades.

Intervalo de confianza

Utlizando un \(\alpha = 0.05\) se construye el intervalo de confianza para el pronóstico anterior:

c(p$fit - 1.96*p$se.fit, p$fit+1.96*p$se.fit)
##        1        1 
## 1222.504 1249.573

Entonces, si el lote de producción es de 120 metros cuadrados, con una confiabilidad del 95%, se espera que los costos de producción estén entre 1,222.504 y 1,249.573