Introducción

Este informe presenta el anÔlisis estadístico solicitado, incluyendo: - Resolución teórica de la Sección 1 (Ejercicio 2: a, b, c). - AnÔlisis aplicado de la Sección 2 (Ejercicios 4, 5, 8, 10). - Modelos de regresión lineal simple y múltiple. - AnÔlisis de varianza (ANOVA). - Intervalos de confianza y predicción. - Visualización de los resultados.

Sección 1: Ejercicio Teórico

Ejercicio 2

a) Demostración de insesgadez para \(\hat{eta}_1\)

# Demostración teórica con base en el modelo dado
# IE[β̂1] = β1 se cumple demostrando las propiedades de los estimadores.

b) Covarianza entre \(\hat{eta}_0\) y \(\hat{eta}_1\)

# Demostración que Cov[\( \hat{eta}_0, \hat{eta}_1 \)] = -xĢ„ĻƒĀ²/Sxx

c) Covarianza entre \(y\) y \(\hat{eta}_1\)

# Demostración que Cov[\( y, \hat{eta}_1 \)] = 0

Sección 2: Ejercicios Aplicados

Ejercicio 4

a) Modelo de regresión lineal simple

data <- read.csv('data-table-B3.csv', sep=';')
data <- data %>% mutate(y = as.numeric(y), x1 = as.numeric(x1)) %>% na.omit()
model_4 <- lm(y ~ x1, data=data)
summary(model_4)
## 
## Call:
## lm(formula = y ~ x1, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.6063 -2.0276 -0.0457  1.4531  7.0213 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 33.490010   1.535476  21.811  < 2e-16 ***
## x1          -0.047026   0.004985  -9.434 3.43e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.12 on 28 degrees of freedom
## Multiple R-squared:  0.7607, Adjusted R-squared:  0.7521 
## F-statistic:    89 on 1 and 28 DF,  p-value: 3.429e-10

El resultado muestra que el desplazamiento del motor tiene un impacto significativo en el rendimiento de la gasolina, segĆŗn el coeficiente estimado y el p-valor asociado.

b) Tabla ANOVA

anova(model_4)
## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## x1         1 866.50  866.50  88.999 3.429e-10 ***
## Residuals 28 272.61    9.74                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El anƔlisis ANOVA indica que el modelo es significativo con un p-valor bajo, lo que sugiere que la variable predictora explica una parte importante de la variabilidad en el rendimiento de gasolina.

c) Intervalo de confianza para \(\mu\) cuando \(x = 275\)

conf_int_4 <- predict(model_4, newdata = data.frame(x1 = 275), interval = "confidence")
conf_int_4
##        fit      lwr      upr
## 1 20.55782 19.38544 21.73019

Este intervalo nos indica que el rendimiento promedio esperado de gasolina para un motor con desplazamiento de 275 pulgadas cĆŗbicas estĆ” dentro del rango proporcionado con un 95% de confianza.

d) Intervalo de predicción para \(y\) cuando \(x = 275\)

pred_int_4 <- predict(model_4, newdata = data.frame(x1 = 275), interval = "prediction")
pred_int_4
##        fit      lwr      upr
## 1 20.55782 14.05961 27.05602

El intervalo de predicción nos indica el rango en el que probablemente caerÔ el rendimiento de gasolina de un motor individual con un desplazamiento de 275 pulgadas cúbicas, con un 95% de confianza.

Ejercicio 5

a) Diagrama de dispersión y correlación

data_5 <- data.frame(peso = c(8, 24.5, 27, 14.5, 28.5, 12.75, 21.25),
                      millaje = c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45))
cor(data_5$peso, data_5$millaje)
## [1] -0.9446281

El coeficiente de correlación negativo indica una relación inversa entre el peso del camión y su millaje, lo que significa que los camiones mÔs pesados tienden a tener menor millaje.

b) Modelo de regresión lineal

model_5 <- lm(millaje ~ peso, data = data_5)
summary(model_5)
## 
## Call:
## lm(formula = millaje ~ peso, data = data_5)
## 
## Residuals:
##       1       2       3       4       5       6       7 
##  0.3717  0.2114  0.1892  0.1801  0.2019 -0.3414 -0.8128 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   8.5593     0.5014  17.071 1.26e-05 ***
## peso         -0.1551     0.0241  -6.437  0.00134 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4624 on 5 degrees of freedom
## Multiple R-squared:  0.8923, Adjusted R-squared:  0.8708 
## F-statistic: 41.43 on 1 and 5 DF,  p-value: 0.001345

El modelo ajustado indica que por cada incremento en el peso del camión, el millaje disminuye en promedio según el coeficiente de la pendiente.

Ejercicio 8

a) Diagrama de dispersión y correlación

data_8 <- data.frame(publicidad = c(40, 20, 25, 20, 30, 50, 40, 20, 50, 40, 25, 50),
                      ventas = c(385, 400, 395, 365, 475, 440, 490, 420, 560, 525, 480, 510))
cor(data_8$publicidad, data_8$ventas)
## [1] 0.6348373

El coeficiente de correlación positivo sugiere que un aumento en el gasto de publicidad estÔ asociado con un incremento en las ventas.

b) Modelo de regresión lineal

model_8 <- lm(ventas ~ publicidad, data = data_8)
summary(model_8)
## 
## Call:
## lm(formula = ventas ~ publicidad, data = data_8)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -87.538 -32.700   8.566  39.118  55.774 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  343.706     44.766   7.678 1.68e-05 ***
## publicidad     3.221      1.240   2.598   0.0266 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 50.23 on 10 degrees of freedom
## Multiple R-squared:  0.403,  Adjusted R-squared:  0.3433 
## F-statistic: 6.751 on 1 and 10 DF,  p-value: 0.02657

El modelo muestra que por cada unidad adicional de gasto en publicidad, se espera que las ventas aumenten en la cantidad indicada por el coeficiente de pendiente.

Ejercicio 10

a) Diagrama de dispersión y correlación

data_10 <- data.frame(temperatura = c(1760, 1652, 1485, 1390, 1820),
                       fuerza = c(4300, 4010, 3810, 3150, 4950))
cor(data_10$temperatura, data_10$fuerza)
## [1] 0.9460885

El resultado muestra una correlación positiva fuerte entre la temperatura de escape y la fuerza de impulso, lo que sugiere una relación directa.

b) Modelo de regresión lineal

model_10 <- lm(fuerza ~ temperatura, data = data_10)
summary(model_10)
## 
## Call:
## lm(formula = fuerza ~ temperatura, data = data_10)
## 
## Residuals:
##       1       2       3       4       5 
## -220.76 -139.26  235.19  -98.02  222.85 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)  
## (Intercept) -1533.3594  1107.9596  -1.384   0.2604  
## temperatura     3.4398     0.6799   5.059   0.0149 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 246.8 on 3 degrees of freedom
## Multiple R-squared:  0.8951, Adjusted R-squared:  0.8601 
## F-statistic: 25.59 on 1 and 3 DF,  p-value: 0.0149

El modelo ajustado indica que la fuerza de impulso aumenta en promedio con un incremento en la temperatura de escape, segĆŗn el coeficiente estimado.

Visualizaciones

# Ejercicio 4
ggplot(data, aes(x = x1, y = y)) +
  geom_point() +
  geom_smooth(method = "lm", color = "red") +
  ggtitle("Regresión de rendimiento de la gasolina")
## `geom_smooth()` using formula = 'y ~ x'

# Ejercicio 5
ggplot(data_5, aes(x = peso, y = millaje)) +
  geom_point() +
  geom_smooth(method = "lm", color = "blue") +
  ggtitle("Regresión de millaje en camiones")
## `geom_smooth()` using formula = 'y ~ x'

# Ejercicio 8
ggplot(data_8, aes(x = publicidad, y = ventas)) +
  geom_point() +
  geom_smooth(method = "lm", color = "green") +
  ggtitle("Relación entre publicidad y ventas")
## `geom_smooth()` using formula = 'y ~ x'

# Ejercicio 10
ggplot(data_10, aes(x = temperatura, y = fuerza)) +
  geom_point() +
  geom_smooth(method = "lm", color = "purple") +
  ggtitle("Fuerza de impulso vs temperatura")
## `geom_smooth()` using formula = 'y ~ x'