#limpiar la memoria de RStudio
rm(list = ls())
library(knitr)
library(kableExtra)
library(ggplot2)
La supervisora de una compañía de buses quiere analizar el efecto que tiene el paso de los años sobre el costo de mantenimiento de los autobuses. Para esto recopila los siguientes datos:
| costo | edad |
|---|---|
| 859 | 8 |
| 682 | 5 |
| 471 | 3 |
| 708 | 9 |
| 1094 | 11 |
| 224 | 2 |
| 320 | 1 |
| 651 | 8 |
| 1049 | 12 |
#se cargan los datos
datos <- data.frame(
costo = c(859, 682, 471, 708, 1094, 224, 320, 651, 1049),
edad = c(8, 5, 3, 9, 11, 2, 1, 8, 12)
)
attach(datos)
ggplot(datos, aes(x = edad, y = costo), axes = FALSE ) +
geom_point(colour = "blue") +
ggtitle("Gráfico de Dispersión Costo del Mantenimiento vs Edad de los Autobuses")
La relación que existe es lineal y creciente que en términos del negocio se traduce en que, a mayor edad de los buses, mayor será el costo del mantenimiento que habrá que pagar por ellos. Por lo anterior se espera un: \(β_1 > 0\)
\[ Costo_i = β_0 + β_1*Edad_i + \mu_i \]
modelo <- lm(formula = costo~edad, data = datos)
modelo
##
## Call:
## lm(formula = costo ~ edad, data = datos)
##
## Coefficients:
## (Intercept) edad
## 208.20 70.92
print("--------------")
## [1] "--------------"
summary(modelo)
##
## Call:
## lm(formula = costo ~ edad, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -138.47 -124.55 40.88 83.45 119.21
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 208.203 75.002 2.776 0.027457 *
## edad 70.918 9.934 7.139 0.000187 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 111.6 on 7 degrees of freedom
## Multiple R-squared: 0.8792, Adjusted R-squared: 0.862
## F-statistic: 50.96 on 1 and 7 DF, p-value: 0.0001872
\[ \widehat{Costo_i} = β_0 + β_1*Edad_i \]
\[ \widehat{Costo_i} = 208.20 + 70.92*Edad_i + \mu_i\]
Como \(|t \text{-value}| = 7.13\) y \(|t \text{-value}| > 2\) entonces la edad es estadísticamente significativo e implica que, por cada año adicional de los autobuses el costo del mantenimiento se incrementa en 70.92 unidades
p <- predict (modelo, newdata = data.frame(edad=5), se.fit=TRUE)
p
## $fit
## 1
## 562.794
##
## $se.fit
## [1] 40.28504
##
## $df
## [1] 7
##
## $residual.scale
## [1] 111.6097
El valor puntual predicho es de 562.794, es decir que, para un autobus de 5 años, en promedio el costo de su mantenimiento será de 562.794 unidades.
Utlizando un \(\alpha = 0.05\) se construye el intervalo de confianza para el pronóstico anterior:
c(p$fit - 1.96*p$se.fit, p$fit+1.96*p$se.fit)
## 1 1
## 483.8353 641.7527
Entonces, si la edad del autobus es de 5 años, con una confiabilidad del 95%, se espera que los costos de mantenimiento estén entre 483.8353 y 641.7527
De acuerdo a las estadísticas del modelo, \(R^2 = 0.8792\), lo que indica que 87,92% la variabilidad del costo del mantenimiento de los autobuses es explicada por la edad de los mismos.
Para cierto producto fabricado en un taller, un contador desea saber si el costo de la mano de obra directa (y) es influenciado por el tamaño del lote (x). Los datos de 12 plantas se dan a continuación:
| Cost | Tamaño |
|---|---|
| 71 | 5 |
| 663 | 62 |
| 381 | 35 |
| 138 | 12 |
| 861 | 83 |
| 145 | 14 |
| 493 | 46 |
| 548 | 52 |
| 251 | 23 |
| 1024 | 100 |
| 435 | 41 |
| 772 | 75 |
#se cargan los datos
datos3 <- data.frame(
cost = c(71, 663, 381, 138, 861, 145, 493, 548, 251, 1024, 435, 772),
tamaño = c(5, 62, 35, 12, 83, 14, 46, 52, 23, 100, 41, 75)
)
attach(datos3)
ggplot(datos3, aes(x = tamaño, y = cost), axes = FALSE ) +
geom_point(colour = "red") +
ggtitle("Gráfico de Dispersión: Costo de la mano de obra y tamaño de los lotes")
Gracias al gráfico se puede observar una relación lineal positiva, indicando que a medida que aumenta el tamaño del lote (producción), también se incrementa el costo de la mano de obra. Por lo anterior se espera un: \(β_1 > 0\)
b). Estime el modelo, interprételo y también interprete el coeficiente de determinación.
El modelo a estimar sería:
\[ Costo_i = β_0 + β_1*Tamaño + \mu_i \]
modelo3 <- lm(formula = cost~tamaño, data = datos3)
modelo3
##
## Call:
## lm(formula = cost ~ tamaño, data = datos3)
##
## Coefficients:
## (Intercept) tamaño
## 18.49 10.15
print("--------------")
## [1] "--------------"
summary(modelo3)
##
## Call:
## lm(formula = cost ~ tamaño, data = datos3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.5351 -3.5462 0.4444 3.2786 15.4444
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 18.48751 4.67658 3.953 0.00272 **
## tamaño 10.14626 0.08662 117.134 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.642 on 10 degrees of freedom
## Multiple R-squared: 0.9993, Adjusted R-squared: 0.9992
## F-statistic: 1.372e+04 on 1 and 10 DF, p-value: < 2.2e-16
Se encontró significancia estadística tanto para el intercepto como para la variable ‘tamaño’ (tamaño del lote o producción), ya que \(|t \text{-value}| > 2\) en ambos casos. Adicionalmente el \(p \text{-value} < 0.05\) para el intercepto y la variable ‘tamaño’.
Lo anterior nos lleva al modelo medio que sería: \[ \widehat{Costo_i} = 18.49 + 10.15*Tamaño_i + \mu_i\]
Entonces, cuando el tamaño (producción) se incrementa en una unidad, el costo de la mano de obra se incrementa en 10.15 unidades (salario en x unidad monetaria).
El R cuadrado de este modelo es igual a \(R^2 = 0.9993\), lo que indica que 99.93% de la variabilidad del costo del producto es explicada por el tamaño del lote (producción). Nota: Es un modelo casi perfecto pues el \(R^2\) es casi 1 lo que indica además que la variable tamaño del lote (producción) está explicando casi en su totalida la variación del costo.
Hipótesis
Nivel de significancia
\(\alpha = 0.05\)
Resultados
Como se rechaza \(H_0\) entonces se puede inferir que el tamaño del lote tiene un efecto estadísticamente significativo sonbre el costo.
p <- predict (modelo3, newdata = data.frame(tamaño=120), se.fit=TRUE)
p
## $fit
## 1
## 1236.039
##
## $se.fit
## [1] 6.905157
##
## $df
## [1] 10
##
## $residual.scale
## [1] 8.641541
El valor puntual predicho es de 1,236.039, es decir que, para un lote de 120 metros cuadrados, en promedio el costo de su producción será de 1,236.039 unidades.
Utlizando un \(\alpha = 0.05\) se construye el intervalo de confianza para el pronóstico anterior:
c(p$fit - 1.96*p$se.fit, p$fit+1.96*p$se.fit)
## 1 1
## 1222.504 1249.573
Entonces, si el lote de producción es de 120 metros cuadrados, con una confiabilidad del 95%, se espera que los costos de producción estén entre 1,222.504 y 1,249.573