Este informe presenta el anĆ”lisis estadĆstico solicitado, incluyendo: - Resolución teórica de la Sección 1 (Ejercicio 2: a, b, c). - AnĆ”lisis aplicado de la Sección 2 (Ejercicios 4, 5, 8, 10). - Modelos de regresión lineal simple y mĆŗltiple. - AnĆ”lisis de varianza (ANOVA). - Intervalos de confianza y predicción. - Visualización de los resultados.
# Demostración teórica con base en el modelo dado
# IE[βĢ1] = β1 se cumple demostrando las propiedades de los estimadores.
# Demostración que Cov[\( \hat{eta}_0, \hat{eta}_1 \)] = -xĢϲ/Sxx
# Demostración que Cov[\( y, \hat{eta}_1 \)] = 0
data <- read.csv('data-table-B3.csv', sep=';')
data <- data %>% mutate(y = as.numeric(y), x1 = as.numeric(x1)) %>% na.omit()
model_4 <- lm(y ~ x1, data=data)
summary(model_4)
##
## Call:
## lm(formula = y ~ x1, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.6063 -2.0276 -0.0457 1.4531 7.0213
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 33.490010 1.535476 21.811 < 2e-16 ***
## x1 -0.047026 0.004985 -9.434 3.43e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.12 on 28 degrees of freedom
## Multiple R-squared: 0.7607, Adjusted R-squared: 0.7521
## F-statistic: 89 on 1 and 28 DF, p-value: 3.429e-10
El resultado muestra que el desplazamiento del motor tiene un impacto significativo en el rendimiento de la gasolina, segĆŗn el coeficiente estimado y el p-valor asociado.
anova(model_4)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x1 1 866.50 866.50 88.999 3.429e-10 ***
## Residuals 28 272.61 9.74
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El anƔlisis ANOVA indica que el modelo es significativo con un p-valor bajo, lo que sugiere que la variable predictora explica una parte importante de la variabilidad en el rendimiento de gasolina.
conf_int_4 <- predict(model_4, newdata = data.frame(x1 = 275), interval = "confidence")
conf_int_4
## fit lwr upr
## 1 20.55782 19.38544 21.73019
Este intervalo nos indica que el rendimiento promedio esperado de gasolina para un motor con desplazamiento de 275 pulgadas cĆŗbicas estĆ” dentro del rango proporcionado con un 95% de confianza.
pred_int_4 <- predict(model_4, newdata = data.frame(x1 = 275), interval = "prediction")
pred_int_4
## fit lwr upr
## 1 20.55782 14.05961 27.05602
El intervalo de predicción nos indica el rango en el que probablemente caerÔ el rendimiento de gasolina de un motor individual con un desplazamiento de 275 pulgadas cúbicas, con un 95% de confianza.
data_5 <- data.frame(peso = c(8, 24.5, 27, 14.5, 28.5, 12.75, 21.25),
millaje = c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45))
cor(data_5$peso, data_5$millaje)
## [1] -0.9446281
El coeficiente de correlación negativo indica una relación inversa entre el peso del camión y su millaje, lo que significa que los camiones mÔs pesados tienden a tener menor millaje.
model_5 <- lm(millaje ~ peso, data = data_5)
summary(model_5)
##
## Call:
## lm(formula = millaje ~ peso, data = data_5)
##
## Residuals:
## 1 2 3 4 5 6 7
## 0.3717 0.2114 0.1892 0.1801 0.2019 -0.3414 -0.8128
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.5593 0.5014 17.071 1.26e-05 ***
## peso -0.1551 0.0241 -6.437 0.00134 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4624 on 5 degrees of freedom
## Multiple R-squared: 0.8923, Adjusted R-squared: 0.8708
## F-statistic: 41.43 on 1 and 5 DF, p-value: 0.001345
El modelo ajustado indica que por cada incremento en el peso del camión, el millaje disminuye en promedio según el coeficiente de la pendiente.
data_8 <- data.frame(publicidad = c(40, 20, 25, 20, 30, 50, 40, 20, 50, 40, 25, 50),
ventas = c(385, 400, 395, 365, 475, 440, 490, 420, 560, 525, 480, 510))
cor(data_8$publicidad, data_8$ventas)
## [1] 0.6348373
El coeficiente de correlación positivo sugiere que un aumento en el gasto de publicidad estÔ asociado con un incremento en las ventas.
model_8 <- lm(ventas ~ publicidad, data = data_8)
summary(model_8)
##
## Call:
## lm(formula = ventas ~ publicidad, data = data_8)
##
## Residuals:
## Min 1Q Median 3Q Max
## -87.538 -32.700 8.566 39.118 55.774
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 343.706 44.766 7.678 1.68e-05 ***
## publicidad 3.221 1.240 2.598 0.0266 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 50.23 on 10 degrees of freedom
## Multiple R-squared: 0.403, Adjusted R-squared: 0.3433
## F-statistic: 6.751 on 1 and 10 DF, p-value: 0.02657
El modelo muestra que por cada unidad adicional de gasto en publicidad, se espera que las ventas aumenten en la cantidad indicada por el coeficiente de pendiente.
data_10 <- data.frame(temperatura = c(1760, 1652, 1485, 1390, 1820),
fuerza = c(4300, 4010, 3810, 3150, 4950))
cor(data_10$temperatura, data_10$fuerza)
## [1] 0.9460885
El resultado muestra una correlación positiva fuerte entre la temperatura de escape y la fuerza de impulso, lo que sugiere una relación directa.
model_10 <- lm(fuerza ~ temperatura, data = data_10)
summary(model_10)
##
## Call:
## lm(formula = fuerza ~ temperatura, data = data_10)
##
## Residuals:
## 1 2 3 4 5
## -220.76 -139.26 235.19 -98.02 222.85
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1533.3594 1107.9596 -1.384 0.2604
## temperatura 3.4398 0.6799 5.059 0.0149 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 246.8 on 3 degrees of freedom
## Multiple R-squared: 0.8951, Adjusted R-squared: 0.8601
## F-statistic: 25.59 on 1 and 3 DF, p-value: 0.0149
El modelo ajustado indica que la fuerza de impulso aumenta en promedio con un incremento en la temperatura de escape, segĆŗn el coeficiente estimado.
# Ejercicio 4
ggplot(data, aes(x = x1, y = y)) +
geom_point() +
geom_smooth(method = "lm", color = "red") +
ggtitle("Regresión de rendimiento de la gasolina")
## `geom_smooth()` using formula = 'y ~ x'
# Ejercicio 5
ggplot(data_5, aes(x = peso, y = millaje)) +
geom_point() +
geom_smooth(method = "lm", color = "blue") +
ggtitle("Regresión de millaje en camiones")
## `geom_smooth()` using formula = 'y ~ x'
# Ejercicio 8
ggplot(data_8, aes(x = publicidad, y = ventas)) +
geom_point() +
geom_smooth(method = "lm", color = "green") +
ggtitle("Relación entre publicidad y ventas")
## `geom_smooth()` using formula = 'y ~ x'
# Ejercicio 10
ggplot(data_10, aes(x = temperatura, y = fuerza)) +
geom_point() +
geom_smooth(method = "lm", color = "purple") +
ggtitle("Fuerza de impulso vs temperatura")
## `geom_smooth()` using formula = 'y ~ x'