Tarea_ Regresión Lineal

Introducción

Este informe presenta el análisis estadístico solicitado, incluyendo: - Resolución teórica de la Sección 1 (Ejercicio 2: a, b, c). - Análisis aplicado de la Sección 2 (Ejercicios 4, 5, 8, 10). - Modelos de regresión lineal simple y múltiple. - Análisis de varianza (ANOVA). - Intervalos de confianza y predicción. - Visualización de los resultados.

Sección 1: Ejercicio Teórico

Ejercicio 2

a) Demostración de insesgadez para \(\hat{eta}_1\)

# Demostración teórica con base en el modelo dado
# IE[β̂1] = β1 se cumple demostrando las propiedades de los estimadores.

b) Covarianza entre \(\hat{eta}_0\) y \(\hat{eta}_1\)

# Demostración que Cov[\( \hat{eta}_0, \hat{eta}_1 \)] = -x̄σ²/Sxx

c) Covarianza entre \(y\) y \(\hat{eta}_1\)

# Demostración que Cov[\( y, \hat{eta}_1 \)] = 0

Sección 2: Ejercicios Aplicados

Ejercicio 4

a) Modelo de regresión lineal simple

data <- read.csv('data-table-B3.csv', sep=';')
data <- data %>% mutate(y = as.numeric(y), x1 = as.numeric(x1)) %>% na.omit()
model_4 <- lm(y ~ x1, data=data)
summary(model_4)

## 
## Call:
## lm(formula = y ~ x1, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.6063 -2.0276 -0.0457  1.4531  7.0213 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 33.490010   1.535476  21.811  < 2e-16 ***
## x1          -0.047026   0.004985  -9.434 3.43e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.12 on 28 degrees of freedom
## Multiple R-squared:  0.7607, Adjusted R-squared:  0.7521 
## F-statistic:    89 on 1 and 28 DF,  p-value: 3.429e-10

El resultado muestra que el desplazamiento del motor tiene un impacto significativo en el rendimiento de la gasolina, según el coeficiente estimado y el p-valor asociado.

b) Tabla ANOVA

anova(model_4)

## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## x1         1 866.50  866.50  88.999 3.429e-10 ***
## Residuals 28 272.61    9.74                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El análisis ANOVA indica que el modelo es significativo con un p-valor bajo, lo que sugiere que la variable predictora explica una parte importante de la variabilidad en el rendimiento de gasolina.

c) Intervalo de confianza para \(\mu\) cuando \(x = 275\)

conf_int_4 <- predict(model_4, newdata = data.frame(x1 = 275), interval = "confidence")
conf_int_4

##        fit      lwr      upr
## 1 20.55782 19.38544 21.73019

Este intervalo nos indica que el rendimiento promedio esperado de gasolina para un motor con desplazamiento de 275 pulgadas cúbicas está dentro del rango proporcionado con un 95% de confianza.

d) Intervalo de predicción para \(y\) cuando \(x = 275\)

pred_int_4 <- predict(model_4, newdata = data.frame(x1 = 275), interval = "prediction")
pred_int_4

##        fit      lwr      upr
## 1 20.55782 14.05961 27.05602

El intervalo de predicción nos indica el rango en el que probablemente caerá el rendimiento de gasolina de un motor individual con un desplazamiento de 275 pulgadas cúbicas, con un 95% de confianza.

Ejercicio 5

a) Diagrama de dispersión y correlación

data_5 <- data.frame(peso = c(8, 24.5, 27, 14.5, 28.5, 12.75, 21.25),
                      millaje = c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45))
cor(data_5$peso, data_5$millaje)

## [1] -0.9446281

El coeficiente de correlación negativo indica una relación inversa entre el peso del camión y su millaje, lo que significa que los camiones más pesados tienden a tener menor millaje.

b) Modelo de regresión lineal

model_5 <- lm(millaje ~ peso, data = data_5)
summary(model_5)

## 
## Call:
## lm(formula = millaje ~ peso, data = data_5)
## 
## Residuals:
##       1       2       3       4       5       6       7 
##  0.3717  0.2114  0.1892  0.1801  0.2019 -0.3414 -0.8128 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   8.5593     0.5014  17.071 1.26e-05 ***
## peso         -0.1551     0.0241  -6.437  0.00134 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4624 on 5 degrees of freedom
## Multiple R-squared:  0.8923, Adjusted R-squared:  0.8708 
## F-statistic: 41.43 on 1 and 5 DF,  p-value: 0.001345

El modelo ajustado indica que por cada incremento en el peso del camión, el millaje disminuye en promedio según el coeficiente de la pendiente.

Ejercicio 8

a) Diagrama de dispersión y correlación

data_8 <- data.frame(publicidad = c(40, 20, 25, 20, 30, 50, 40, 20, 50, 40, 25, 50),
                      ventas = c(385, 400, 395, 365, 475, 440, 490, 420, 560, 525, 480, 510))
cor(data_8$publicidad, data_8$ventas)

## [1] 0.6348373

El coeficiente de correlación positivo sugiere que un aumento en el gasto de publicidad está asociado con un incremento en las ventas.

b) Modelo de regresión lineal

model_8 <- lm(ventas ~ publicidad, data = data_8)
summary(model_8)

## 
## Call:
## lm(formula = ventas ~ publicidad, data = data_8)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -87.538 -32.700   8.566  39.118  55.774 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  343.706     44.766   7.678 1.68e-05 ***
## publicidad     3.221      1.240   2.598   0.0266 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 50.23 on 10 degrees of freedom
## Multiple R-squared:  0.403,  Adjusted R-squared:  0.3433 
## F-statistic: 6.751 on 1 and 10 DF,  p-value: 0.02657

El modelo muestra que por cada unidad adicional de gasto en publicidad, se espera que las ventas aumenten en la cantidad indicada por el coeficiente de pendiente.

Ejercicio 10

a) Diagrama de dispersión y correlación

data_10 <- data.frame(temperatura = c(1760, 1652, 1485, 1390, 1820),
                       fuerza = c(4300, 4010, 3810, 3150, 4950))
cor(data_10$temperatura, data_10$fuerza)

## [1] 0.9460885

El resultado muestra una correlación positiva fuerte entre la temperatura de escape y la fuerza de impulso, lo que sugiere una relación directa.

b) Modelo de regresión lineal

model_10 <- lm(fuerza ~ temperatura, data = data_10)
summary(model_10)

## 
## Call:
## lm(formula = fuerza ~ temperatura, data = data_10)
## 
## Residuals:
##       1       2       3       4       5 
## -220.76 -139.26  235.19  -98.02  222.85 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)  
## (Intercept) -1533.3594  1107.9596  -1.384   0.2604  
## temperatura     3.4398     0.6799   5.059   0.0149 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 246.8 on 3 degrees of freedom
## Multiple R-squared:  0.8951, Adjusted R-squared:  0.8601 
## F-statistic: 25.59 on 1 and 3 DF,  p-value: 0.0149

El modelo ajustado indica que la fuerza de impulso aumenta en promedio con un incremento en la temperatura de escape, según el coeficiente estimado.

Visualizaciones

# Ejercicio 4
ggplot(data, aes(x = x1, y = y)) +
  geom_point() +
  geom_smooth(method = "lm", color = "red") +
  ggtitle("Regresión de rendimiento de la gasolina")

## `geom_smooth()` using formula = 'y ~ x'

# Ejercicio 5
ggplot(data_5, aes(x = peso, y = millaje)) +
  geom_point() +
  geom_smooth(method = "lm", color = "blue") +
  ggtitle("Regresión de millaje en camiones")

## `geom_smooth()` using formula = 'y ~ x'

# Ejercicio 8
ggplot(data_8, aes(x = publicidad, y = ventas)) +
  geom_point() +
  geom_smooth(method = "lm", color = "green") +
  ggtitle("Relación entre publicidad y ventas")

## `geom_smooth()` using formula = 'y ~ x'

# Ejercicio 10
ggplot(data_10, aes(x = temperatura, y = fuerza)) +
  geom_point() +
  geom_smooth(method = "lm", color = "purple") +
  ggtitle("Fuerza de impulso vs temperatura")

## `geom_smooth()` using formula = 'y ~ x'

Tarea_ Regresión Lineal

Alexandra Falla

2024-12-14

Introducción

Sección 1: Ejercicio Teórico

Ejercicio 2

a) Demostración de insesgadez para \(\hat{eta}_1\)

b) Covarianza entre \(\hat{eta}_0\) y \(\hat{eta}_1\)

c) Covarianza entre \(y\) y \(\hat{eta}_1\)

Sección 2: Ejercicios Aplicados

Ejercicio 4

a) Modelo de regresión lineal simple

b) Tabla ANOVA

c) Intervalo de confianza para \(\mu\) cuando \(x = 275\)

d) Intervalo de predicción para \(y\) cuando \(x = 275\)

Ejercicio 5

a) Diagrama de dispersión y correlación

b) Modelo de regresión lineal

Ejercicio 8

a) Diagrama de dispersión y correlación

b) Modelo de regresión lineal

Ejercicio 10

a) Diagrama de dispersión y correlación

b) Modelo de regresión lineal

Visualizaciones

Tarea_ Regresión Lineal

Alexandra Falla

2024-12-14

Introducción

Sección 1: Ejercicio Teórico

Ejercicio 2

a) Demostración de insesgadez para \(\hat{eta}_1\)

b) Covarianza entre \(\hat{eta}_0\) y \(\hat{eta}_1\)

c) Covarianza entre \(y\) y \(\hat{eta}_1\)

Sección 2: Ejercicios Aplicados

Ejercicio 4

a) Modelo de regresión lineal simple

b) Tabla ANOVA

c) Intervalo de confianza para \(\mu\) cuando \(x = 275\)

d) Intervalo de predicción para \(y\) cuando \(x = 275\)

Ejercicio 5

a) Diagrama de dispersión y correlación

b) Modelo de regresión lineal

Ejercicio 8

a) Diagrama de dispersión y correlación

b) Modelo de regresión lineal

Ejercicio 10

a) Diagrama de dispersión y correlación

b) Modelo de regresión lineal

Visualizaciones

a) Demostración de insesgadez para \(\hat{eta}_1\)

b) Covarianza entre \(\hat{eta}_0\) y \(\hat{eta}_1\)

c) Covarianza entre \(y\) y \(\hat{eta}_1\)