# 6.16(월)
# 2025-06-16
# 일반회귀분석 vs 로지스틱 회귀분석 차이점 이해
# 1. 일반 선형회귀분석 예시
# 목표: mpg를 hp, am으로 예측
# 적어도 회귀분석은 독립, 종속변수 모두 int float 형태되어 있어야만 한다. 즉 연속형 데이터이어야 한다.
# 독립변수가 범주형일 때 더미변수 변환해서 회귀분석이 가능함
# 데이터 준비
data(mtcars)
# 선형회귀모형 적합
model_lm <- lm(mpg ~ hp + am, data = mtcars)
# 결과 요약 출력
summary(model_lm)
##
## Call:
## lm(formula = mpg ~ hp + am, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.3843 -2.2642 0.1366 1.6968 5.8657
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 26.584914 1.425094 18.655 < 2e-16 ***
## hp -0.058888 0.007857 -7.495 2.92e-08 ***
## am 5.277085 1.079541 4.888 3.46e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.909 on 29 degrees of freedom
## Multiple R-squared: 0.782, Adjusted R-squared: 0.767
## F-statistic: 52.02 on 2 and 29 DF, p-value: 2.55e-10
##
## Call:
## lm(formula = mpg ~ hp + am, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.3843 -2.2642 0.1366 1.6968 5.8657
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 26.584914 1.425094 18.655 < 2e-16 ***
## hp -0.058888 0.007857 -7.495 2.92e-08 ***
## am 5.277085 1.079541 4.888 3.46e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.909 on 29 degrees of freedom
## Multiple R-squared: 0.782, Adjusted R-squared: 0.767
## F-statistic: 52.02 on 2 and 29 DF, p-value: 2.55e-10
# 해석
# 다른 조건(am)이 동일할 때,
# 마력(hp)이 1단위 증가하면
# 평균 연비(mpg)는 0.0589 감소합니다.
# 즉, 마력이 클수록 연비가 낮아지는 경향이 있습니다.
#마력이 동일할 때,
#수동 변속기(am=1) 차량은 자동 변속기(am=0)보다
# am == 범주형 변수, 더미변수 역할임
#평균 연비(mpg)가 약 5.28 단위 더 높다는 의미입니다.
#즉, 수동 변속기 차량이 평균적으로 연비가 더 좋습니다.
# 2. 로지스틱 회귀분석 예시
# 목표: vs (0: V형, 1: 직렬형)를 mpg, am으로 예측
# 로지스틱 회귀분석 종속변수(타겟변수)가 0,1인 범주형변수(이진변수)이어야함
# 로지스틱 회귀모형 적합 (이진분류)
model_logit <- glm(vs ~ mpg + am, data = mtcars, family = binomial())
# 결과 요약 출력
summary(model_logit)
##
## Call:
## glm(formula = vs ~ mpg + am, family = binomial(), data = mtcars)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -12.7051 4.6252 -2.747 0.00602 **
## mpg 0.6809 0.2524 2.698 0.00697 **
## am -3.0073 1.5995 -1.880 0.06009 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 43.860 on 31 degrees of freedom
## Residual deviance: 20.646 on 29 degrees of freedom
## AIC: 26.646
##
## Number of Fisher Scoring iterations: 6
##
## Call:
## glm(formula = vs ~ mpg + am, family = binomial(), data = mtcars)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -12.7051 4.6252 -2.747 0.00602 **
## mpg 0.6809 0.2524 2.698 0.00697 **
## am -3.0073 1.5995 -1.880 0.06009 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 43.860 on 31 degrees of freedom
## Residual deviance: 20.646 on 29 degrees of freedom
## AIC: 26.646
##
## Number of Fisher Scoring iterations: 6
# mpg 0.6809 해석
# 로그 오즈로 해석: 선형관계 설명이 직관적 (선형 회귀와 유사)->로짓변환환
# 로그 오즈 증가량: mpg가 1단위 증가할 때,
# 직렬형 엔진(vs = 1)일 로그 오즈가 +0.6809만큼 증가
# 오즈비로 해석 : 배수로 해석
# 연비(mpg)가 1단위 증가할 때,
# vs = 1(직렬형 엔진)일 오즈(odds)는
# 기존보다 약 1.975배 증가합니다.
# 연비가 높을수록 직렬형 엔진일 가능성이 커진다고 해석할 수 있습니다.