# 2025-05-30

# 문제 1: mtcars 데이터셋
# [데이터 설명]
# mpg: 연비 (종속변수)
# wt: 차량 무게
# hp: 마력
# drat: 리어 액슬 기어비
# mtcars 데이터셋을 이용하여 mpg를 종속변수로 하고, wt, hp, drat를 독립변수로 하여 다중
# 선형회귀모형을 적합하였다. 분석 결과, wt와 hp 변수의 회귀계수에 대한 p-value는 0.01보
# 다 작았고, drat 변수는 0.2 이상이었다. 결정계수(R²)는 약 0.84로 나타났으며, F-검정의 유
# 의확률은 0.001 이하였다

# 데이터 확인
data(mtcars)
# 다중 선형회귀모형 적합
model <- lm(mpg ~ wt + hp + drat, data = mtcars)
# 회귀 결과 요약
summary(model)
## 
## Call:
## lm(formula = mpg ~ wt + hp + drat, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3598 -1.8374 -0.5099  0.9681  5.7078 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 29.394934   6.156303   4.775 5.13e-05 ***
## wt          -3.227954   0.796398  -4.053 0.000364 ***
## hp          -0.032230   0.008925  -3.611 0.001178 ** 
## drat         1.615049   1.226983   1.316 0.198755    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.561 on 28 degrees of freedom
## Multiple R-squared:  0.8369, Adjusted R-squared:  0.8194 
## F-statistic: 47.88 on 3 and 28 DF,  p-value: 3.768e-11
# 문제 1 질의
# 1) wt, hp, drat 중 어떤 변수가 통계적으로 유의미한가? 이유를 설명하시오.
# → wt와 hp는 유의수준 0.05보다 작으므로 통계적으로 유의미
# → drat은 p > 0.2로 유의하지 않음
# 2) 결정계수 0.84는 모형의 적합도를 어떻게 나타내는가?
# → R² = 0.84는 mpg의 변동 중 약 84%가 wt, hp, drat에 의해 설명된다는 의미
# 3) F-검정 결과를 바탕으로 이 회귀모형의 전반적인 설명력을 해석하시오
# → p < 0.001 적어도 하나 이상의 설명변수가 종속변수에 유의미한 영향을 준다고 해석 가능

# 문제 2: iris 데이터셋
# [데이터 설명]
# Sepal.Length: 꽃받침 길이 (종속변수)
# Sepal.Width, Petal.Length, Petal.Width: 꽃의 다른 측정값
# iris 데이터셋을 이용하여 Sepal.Length를 종속변수로, Sepal.Width, Petal.Length, 
# Petal.Width를 독립변수로 하는 다중선형회귀모형을 적합하였다. 회귀계수 분석 결과, 
# Petal.Length와 Petal.Width의 p-value는 0.001 이하였으며, Sepal.Width는 0.05보다 약간 
# 높았다. 결정계수는 약 0.76으로 나타났고, F-통계량의 유의확률은 매우 작았다

# 데이터 확인
data(iris)
# 다중 선형회귀모형 적합
model <- lm(Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width, data = iris)
# 회귀 결과 요약
summary(model)
## 
## Call:
## lm(formula = Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width, 
##     data = iris)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.82816 -0.21989  0.01875  0.19709  0.84570 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1.85600    0.25078   7.401 9.85e-12 ***
## Sepal.Width   0.65084    0.06665   9.765  < 2e-16 ***
## Petal.Length  0.70913    0.05672  12.502  < 2e-16 ***
## Petal.Width  -0.55648    0.12755  -4.363 2.41e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3145 on 146 degrees of freedom
## Multiple R-squared:  0.8586, Adjusted R-squared:  0.8557 
## F-statistic: 295.5 on 3 and 146 DF,  p-value: < 2.2e-16
# 문제 2 질의
# 1. Petal.Length, Petal.Width 변수는 어떤 점에서 유의미한가?
# → Petal.Length와 Petal.Width는 p < 0.05로 유의미
# 2. R² = 0.76은 이 회귀모형에 대해 어떤 해석을 가능하게 하는가?
# →  R² = 0.76은 Sepal.Length의 변동 중 76%가 설명된다는 뜻
# 3. 모형의 F-검정이 유의하다면, 이 회귀모형이 데이터에 얼마나 잘 맞는지 설명하시오.
# → 종속변수(Sepal.Length)에 영향을 주는 설명변수가 존재한다는 것을 의미합니다.

# 문제 3: airquality 데이터셋
# [데이터 설명]
# Ozone: 오존 농도 (종속변수)
# Solar.R: 태양 복사량
# Wind: 풍속
# Temp: 기온
# airquality 데이터셋을 이용하여 Ozone을 종속변수로 하고, Solar.R, Wind, Temp를 독립변
# 수로 하여 다중선형회귀모형을 적합하였다. 분석 결과, Wind의 회귀계수는 음(-)의 방향성을 
# 보였고, Temp는 양(+)의 방향성이었다. 세 변수의 회귀계수는 모두 p-value < 0.05였으며, 
# 결정계수는 0.60, F-검정의 유의확률은 0.001 이하였다

# 결측치 제거
data(airquality)
airquality_clean <- na.omit(airquality)
# 다중 선형회귀모형 적합
model <- lm(Ozone ~ Solar.R + Wind + Temp, data = airquality_clean)
# 회귀 결과 요약
summary(model)
## 
## Call:
## lm(formula = Ozone ~ Solar.R + Wind + Temp, data = airquality_clean)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -40.485 -14.219  -3.551  10.097  95.619 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -64.34208   23.05472  -2.791  0.00623 ** 
## Solar.R       0.05982    0.02319   2.580  0.01124 *  
## Wind         -3.33359    0.65441  -5.094 1.52e-06 ***
## Temp          1.65209    0.25353   6.516 2.42e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 21.18 on 107 degrees of freedom
## Multiple R-squared:  0.6059, Adjusted R-squared:  0.5948 
## F-statistic: 54.83 on 3 and 107 DF,  p-value: < 2.2e-16
# 문제 3 질의
# 1. Wind의 음의 회귀계수는 어떤 의미를 가지는가?
# → Wind의 계수가 음수 → 풍속이 클수록 오존 농도는 낮아지는 경향
# → Temp는 양수 → 기온이 높을수록 오존 농도가 높아짐
# 2. 결정계수 0.60은 회귀모형의 설명력을 어떻게 해석해야 하는가?
# → R² = 0.60 → 오존 농도의 60%를 세 독립변수가 설명함
# 3. F-검정이 유의하다면, 이 모형의 유효성은 어떻게 판단할 수 있는가?
# →  p < 0.001 → 적어도 하나의 설명변수가 종속변수에 유의한 영향을 미친다는 것을 의미함