Chapter 2 - Fundamentals of Linear Regression Analysis


2.1 Correlation and Prediction

  • correlation을 Z score를 사용해서 설명하고, 상관과 예측(prediction)은 연관되어 있는 개념임.
  • 예시로 사용하는 data는 기후변화의 위협을 줄이기 위한 정부의 다양한 정책을 지지하는 정도, 기후변화 예측의 부정적 정서반응정도임.
setwd("C:/Users/LG/Documents/Mediation,Moderation")
GLBWARM<-read.csv(file = "glbwarm.csv", header = T, sep=",")
head(GLBWARM)
##   govact posemot negemot ideology age sex partyid
## 1    3.6    3.67    4.67        6  61   0       2
## 2    5.0    2.00    2.33        2  55   0       1
## 3    6.6    2.33    3.67        1  85   1       1
## 4    1.0    5.00    5.00        1  59   0       1
## 5    4.0    2.33    1.67        4  22   1       1
## 6    7.0    1.00    6.00        3  34   0       2
  • govact = 기후변화의 위협을 줄이기 위한 정부의 다양한 정책을 지지하는 정도
  • negemot = 기후변화 예측의 부정적 정서반응정도
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 3.5.3
ggplot(data=GLBWARM, aes(x=negemot, y=govact))+geom_point(size=2, shape=1)+coord_cartesian(xlim = c(0,7), ylim = c(0,8))+labs(title="Figure2.1", x="NEGEMOT", y="GOVACT")

  • Figure2.1을 보면 확실히 연관성이 가지는 경향이 분명하게 나타남.

  • Pearson’s r (Pearson’s product moment correlation)
    • Pearson’s r은 연관성을 측정하는 가장 기본적인 방법임.
    • 2개의 양적변수, 양적변수와 이분변수, 2개의 이분변수 사이 선형적 연관성을 수량화하기 위해서 사용할 수 있음.
    • r
    • x,y의 표준화 값인 Zx, Zy를 곱하고 평균을 내면 r이됨.
    • r은 상대적 위치만 파악함.
    • r의 범위는 -1 ~ 1임.
      • 이분변수간 pearson’s r은 파이 계수, 실제값을 반영하지 못하고 값이 낮음. -> 교정이 필요함(테트라 코릭상관)
      • 테트라 코릭상관은 이분변수 기저의 연속점수의 상관을 나타냄.
      • 구조방정식은 테트라 상관, 콜릭코리 상관을 사용함.
    • r이 1에 가까워지면 부호에 상관 없이 선형적 연관성이 강함.
    • r의 부호는 연관성의 방향과 일치함.
      • (+) = 높은 x값이 높은 y값과, 낮은 x값이 낮은 y값과 연관 됨.
      • (-) = 높은 x값이 낮은 y값과, 낮은 x값이 높은 y값과 연관 됨.
    • Pearson’s r이 0에 가까워 지는 경우
      1. X,Y 값이 명백한 순서가 없을 때,
      • X,Y 값이 어떤 연관성이 없다면, 0에 가까워짐.
      1. 연관선이 비선형적 특징을 나타낼 때,
      • Pearson’s r은 어떤 연관성이든 측정하는 것이 아니라 선형적 연관성을 측정함.
Figure2.2<-cor.test(GLBWARM$govact, GLBWARM$negemot, method = "pearson")
Figure2.2
## 
##  Pearson's product-moment correlation
## 
## data:  GLBWARM$govact and GLBWARM$negemot
## t = 20.183, df = 813, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.5301050 0.6217505
## sample estimates:
##       cor 
## 0.5777458
  • Figure2.2는 NEGEMOT와 GOVACT의 상관을 나타냄.
  • 상관 = 0.5777 -> 0.578
  • 상관 값의 부호가 (+)인것은 Figure2.1 scatterplot을 보면 알 수 있음.
  • 기후변화에 상대적으로 더 강력한 부적정서를 보고한 참가자들은 상대적으로 더 정부를 지지함.

    • Pearson’s r
    • X,Y가 상관이 있다 : X의 측정정보를 사용해서 Y의 측정정보를 추정한다면, Y를 Y의 평균으로 추정하는 것보다 더 정확한 추정치를 제공함.
      • 상관이 0이라면 무엇으로 연관성을 추정할 수 있는가?
      • 평균으로 추정할 수 있음.
      • X,Y의 Pearson’s r 해석
      • X에 있는 case에서 표본평균으로부터 얼마나 많은 표준편차를 가지는지 주어졌을때, Y의 표본평균으로부터 얼마나 많은 표준편차를 가지는 추정치를 제공함.
      • 즉, 상관을 Z score로 설명함.
      • 상관계수를 가지고 Zx로 Zy를 예측할 때, 상관이 작아지면 Zy값이 Y의 평균에 가까워짐. : 평균으로 회귀

        • Zy = rxyZx
        • X,Y를 표준화하면 표준화된 X로 표준화된 Y를 추정하면 회귀계수는 X,Y의 상관값과 같음.
        • Zy = 0.578Zx (X,Y의 상관 값이 0.578)
          • 부적정서(X)에서 1/2표준편차 위에 있는 사람은 정부정책 지지(Y)에서 0.289표준편차를 가진다고 추정됨.
          • Zy = 0.578(0.5) = 0.289
          • 표본평균 위에 있다고 추정됨. 즉, 평균보다 더 정부를 지지함.

2.2 The Simple Linear Regression Model

  • Linear regression model

    • Linear regression model : 하나 또는 그 이상의 input변수들과 하나의 output변수를 연결하는 방정식임.
    • input은 predictor, independent, explanatory, antecedent라 불리고, 쓰임.
    • output은 criterion, outcome, dependent variable, consequent variable로 불리고 쓰임.
    • Linear regression analysis를 사용하는 목적
      • 회귀모형의 다양한 parameter를 추정하기 위함.
      • 독립변수를 ‘잘’ 정의해야하고, 변수들 사이 연관성이 선형이라는 가정이 주어짐.
    • 회귀모형에서 나오는 정보는 독립변수와 종속변수 연결에 관한 가설검증을 위해 사용됨.
  • Simple linear regression model

    • Simple linear regression model : 가장 기본적인 회귀모형의 형태임.
      • 단지 한 개의 독립변수만을 가지고 있음.
    • 2.1
      • (Yj = 실제 데이터 값.)
      • Simple linear regression model 방정식
      • (2.1)에서 iy + bXj는 회귀선을 만듬.
      • 회귀선은 running mean으로 X값이 주어졌을 때 변하는 Y임. 즉 변하는 평균.
      • 편차의 합이 0이 되는 지점이 평균임.
      • 각 data point에서 오차가 생김.
      • 잔차제곱합 평균 (SS residual / n)은 추정의 표준오차이며 회귀선의 표준편차임.

      • Yj, Xj : 각 종속변수, 독립변수를 case j에서 측정한 것.
      • b : 독립변수 X의 회귀계수, 회귀가중치, (상관계수가 영향을 줌.)
      • iy : 회귀절편
      • ej : case j의 X에서 case j의 Y값을 추정하고 남은 오차

    • 회귀모형을 사용해서 Data를 분석할때, Xj Yj를 알고 있음.
    • Linear regression model의 목적
      • 우리가 알지 못하는 iy, b를 찾는것 -> 절편과 회귀계수를 찾는것
      • 회귀모델이 생성하는 정보를 해석하는 것.
    • iy, b를 알고 있다면 X로부터 Y의 추정치를 생성할 수 있음.
    • 2.2
      • HYj는 case j의 X값이 주어졌을 때, case j의 estimated, fitted, predicted 된 Y값임.
    • 방정식 (2.1), (2.2)를 합쳐서 새로운 방정식을 생성함.
      • Yj = HYj + ej
      • ej = Yj - HYj (HYj = 회귀식에서 나온 값.)
    • 방정식 (2.1)의 잔차 ej (residual ej) : case j의 추정된 Y값과 case j의 실제 Y값의 차이임.
    • iy, b를 알고 있다면 추정치 HYj를 만들 수 있음.
      • 하지만 추정치 HYj가 정확히 Yj와 일치하지 않음.
    • Yj와 HYj의 차이는 case j의 residual임.
      • 실제 Yj값과 X가 주어졌을때 추정된 HYj값의 차이를 나타냄.
    • 방정식 (2.2)에서 X로부터 Y의 추정치를 생성하기 위해서 iy, b의 값이 무한히 많이 있음.
      • 수 많은 (iy, b)의 값이 있고 OLS로 iy, b의 값을 결정함.
    • Ordinary least squares criterion로 생성한 회귀절편과 회귀계수는 잔차제곱합을 최소화함.
    • 2.3
      • ss residual은 음수일 수 없음.
      • Data에 있는 모든 n개의 case에 대해서 Yj = HYj 라면, ss residual = 0임. -> 즉, 실제데이터와 모델로 추정한 값이 동일하다면, 잔차는 0이됨.
      • 실제 Y값과 추정된 Y값의 차이가 커지면 ss residual도 커짐.
    • Dataset에서 ss residual이 가장 크다면 ss residual이 total suam of squares가 될 수도 있음.
    • SS total
      • 아무것도 모를 때, 상관이 0일 때, 가장합리적인 추정치는 평균임.
      • Y - Y(평균) 일 때, 편차가 최대, 분산이 최대임.
    • OLS regression으로 방정식 (2.1), (2.2)에서 iy, b값을 얻음. -> OLS를 사용해서 Data에 가장 잘 맞는 model을 만듬.
    • Least squares criterion : ss residual을 가능한 최소로하고, ss residual의 값음 0과 ss total 사이에 있음.
    • iy, b중 하나라도 바뀌면 ss residual이 커짐.
    • 최대값 = ss total = 전체분산, 설명해야할 최대분산
    • 최소값 = ss residual
    • Y(평균)으로 추정하는 model이 최악의 모델 vs 잔차가 최소인 최고모델이 ss residual이 최소가 되는 model
    • 회귀모델로 설명되는 분산을 알기위해서 전체분산 - ss residual로 계산함.

Figure2.3

simple<-lm(formula = govact ~ negemot, data=GLBWARM)
summary(simple)
## 
## Call:
## lm(formula = govact ~ negemot, data = GLBWARM)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.3285 -0.6731  0.1018  0.7554  3.2142 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.75732    0.09866   27.95   <2e-16 ***
## negemot      0.51424    0.02548   20.18   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.111 on 813 degrees of freedom
## Multiple R-squared:  0.3338, Adjusted R-squared:  0.333 
## F-statistic: 407.3 on 1 and 813 DF,  p-value: < 2.2e-16
Figure 2.3

Figure 2.3

  • Simple linear regression model

    • Simple regression model 추정결과가 Figure 2.3에 나타남.
      • 절편, 계수는 ’unstandardized coeffeicient:B’아래에 나타남.
    • OLS regression model의 best fitting은 2.4
      • iy = 2.757
      • b = 0.514
    • Hyj = iy + bXj 형태의 model에서 ss residual을 가장 작게 만드는 값이 iy = 2.757, b = 0.514임.
    • Figure 2.3에서 ss residual = 1003.673임.
      • 방정식 2.1에서 더 작은 ss residual을 만드는 model은 없음.
    • 방정식 2.4를 사용하여 X가 주어졌을 때, HY를 추정할 수 있음.
      • 기후변화에 관한 부적정서 : X, 정부정책 지지 : HY
    • Example
      • 부정적 정서 점수가 4인 사람의 model 추정치
        • HY = 2.757 + 0.514(4) = 4.813
      • 이 사람의 실제 정부정책 지지 값 Y가 3.6이라고 가정함.
      • Y의 실제값 - 추정된 Y값 = e
        • 3.6 - 4.813 = -1.213
      • 즉, model이 정부정책 지지정도를 1.213정도 과대추정(overestimates)함.

Figure2.4

library(ggplot2)
ggplot(data=GLBWARM, aes(x=negemot, y=govact))+geom_point(size=2, shape=1)+coord_cartesian(xlim = c(0,7), ylim = c(0,8))+labs(title="Figure2.4", x="NEGEMOT", y="GOVACT")+geom_smooth(method = lm)

Figure 2.4

Figure 2.4

  • Simple linear regression model

    • Simple regression 방정식은 2차원 평명에 직선형태로 표현할 수 있음.
      • Data의 scatterplot위에 regression line이 겹쳐져 있음.
    • 수평축에서 (X축에서) 값을 선택하면 대략적인 HY를 얻을 수 있음.
    • X축에서 수직으로 regression line과 만나는 지점까지 올라가고 Y축으로 수평으로 움직이면 HY값을 알 수 있음.
      • regression line에서 Y축으로 수평이동해서 만나는 지점이 HY값임.
    • Figure 2.4에서 X = 3일때, HY는 4와 4.5사이에 위치함.
      • X = 3일때, HY는 4.299임.
  • Interpretation of the constant and regression coefficient

    • simple linear regression model : X,Y가 가지는 연관성을 직선 방정식 형태로 표현함.
    • 직선방정식은 2가지 요소를 가지고 있음.
      1. 기울기
      2. 절편
    • Linear regression방정식에서 회귀계수는 직선의 기울기와 일치함.
      • 회귀계수는 회귀기울기라 부름.
    • 회귀기울기 (Regression slope)
      • X에서 한 단위 변화할 때, Y의 변화량을 나타냄.
      • X가 0 -> 1로 변화할 때, Y의 변화량을 나타냄.
    • 2.5
      • b = (X=x)일 때, Y의 추정값 - (X=x-1)일 때, Y의 추정값임. (어떤 X에서든 모두 성립되어야함.)
      • 기후변화 예시에 적용하면, 기후변화에 관한 부적정서가 한 단위 차이나면, 정부정책 지지에서 변하는 정도는 b = 0.514임. (X가 어디서 시작하든지 변화의 정도는 동일함.)
      • X에서 한 단위 변화하면, Y에서 0.514만큼 변화함.
    • b의 부호는 Y에서 상대적 차이에 관한 정보를 나타냄.
      • b = (+), X에서 한 단위 높아지면 Y에서 b만큼 높아짐.
      • b = (-), X에서 한 단위 높아지면 Y에서 b만큼 낮아짐.
    • 기후변화에서 b는 (+)이기 때문에 부적정서에서 한 단위 증가한 사람은 0.514 더 정부를 지지함.
    • Regression constant는 개념적으로 Y-intercept와 동일함.
      • X = 0일 때, Y의 추정값임.
    • Figure 2.4에서 regression constant는 regression line이 수직축(Y축)과 만나는 지점과 일치함.
      • 항상 일치하는 것은 아님.
    • Regression line과 Y축이 만나는 점은 어떻게 그림을 그리는지와 연관됨.
      • 수직축이 X = 0인 지점에서 그려지면 constant는 Y-intercept와 같지만, 수직축이 X scale의 다른 지점에서 시작하면 regression line은 regression constant와 다른 지점에서 수직축과 만나게됨.
    • 기후변화 model에서 iy = 2.757임.
      • 부적정서 = 0인 사람이 정부정책 지지 추정값이 2.757임.
      • 수학적으로 의미를 가지더라도 실질적으로 의미가 없음.
      • 부정적 정서 scale = 1 ~ 6이기 때문에 X = 0인 것은 의미가 없음.
    • Regression constant는 종종 실질적인 해석이 없을 때가 있음.
    • Regression constant의 해석은 X에 달려있음.
      1. X의 scale
      2. X = 0일 때, 어떤 실질적인 의미를 가지는지
    • 회귀모형을 추정하기 전에 mean-centering X를 통해 iy를 실질적으로 의미 있게 만들 수 있음.
    • 변수의 mean-centering을 위해서 변수의 모든 측정에서 표본평균을 뺌.
      • 2.6
    • X’j는 Xj를 mean-centering한 것임.
    • X’에서 Y를 추정한 model은 ss residual로 정의된 model과 정확하게 fit이 같음.
    • b는 X가 독립변수로 사용되었을 때와 같음.
    • Regression constant는 X의 새로운 scale을 반영하는 것으로 바뀜.
    • constant는 여전히 X’ = 0일 때, 추정된 Y값으로 해석함.
      • 방정식 2.6을 보면 X = x(x의 평균)일 때, X’ = 0임.
    • 기후변화예시에 적용하면, 기후변화에 관한 부적정서를 mean-centering하면 회귀모형이 달라짐.
      • HYj = 4.587 + 0.514X’j
    • b는 X의 mean-centering영향을 받지 않음.
    • mean-centering 적용 후에 constant는 기후변화의 부적정서가 평균일 때, 정부정책 지지의 평균임.
      • iy = Y(y의 평균) = 4.587
  • The standardized regression model

    • 지금까지 회귀모델에서 회귀계수의 해석은 비표준화 또는 raw metric형식임.
      • 표준화된 형태도 제공함.
    • 표준화된 회귀모델(standardized regression model) : 모든 변수들이 모델 추정 전에 표준화되고, 각 측정은 표본평균에서 표준편차 단위로 표현됨.
      • 모든 변수들이 표준화되고 모델을 추정하기 때문에 표본평균으로부터 표준편차의 단위로 이해할 수 있음.
    • 2.7
      • Zy, Zx : Y, X의 표준화된 형태임.
      • b : 표준화된 회귀계수임.
    • 표준화된 회귀모델은 상수를 포함하지 않음.
      • 표준화된 회귀모델에서 상수는 항상 0이기 때문에 방정식 2.7에 포함시킬 필요가 없음.
      • 표준화하면 평균은 0으로 고정됨.
    • 대부분의 통계 프로그램이 OLS회귀를 실행하면 표준화된 회귀모형을 결과로 보여줌.
    • Figure 2.3을 보면 표준화된 회귀계수는 ’standardized coefficients’아래에서 볼 수 있음.
    • 기후변화 모델에서 표준화된 회귀방정식
      • HZyj = 0.578Zxj
        • Zy, Zx : 표준화된 정부정책 지지, 표준화된 부적정서
    • 표준화된 회귀계수 : X에서 한 표준편차 변하면 Y에서 변하는 표준편차로 해석할 수 있음.
      • X에서 1표준편차 차이일 때, Y에서 0.578표준편차 차이가 난다고 추정됨.
    • 정적 계수는 X가 높아질수록 Y값이 더 높아진다는 것을 의미함.
      • 표준화된 회귀계수 : X, Y의 Pearson’s 상관과 동일함.
      • X가 오직 하나인 모델에서만 Pearson’s 상관과 동일함.
  • Simple regression with a Dichotomous antecedent variable

    • 회귀방정식에서 선행변수는 양적차원 또는 이분변수(dichotomous variables)일 수 있음.
    • 이분변수 예시
      • 실험, 임상시험에서 남녀
      • 약물연구에서 실험약을 받는지 아니면 위약을 받는지 여부
    • 이분변수를 선행변수로 사용할 때, 수학적인 수정이 필요하지 않음.
    • 기후변화 예시에서 X가 남녀, 기후변화완화를 위한 정부정책에서 남녀의 지지가 Y임.
    • GLBWARM data file에서 성별 변수는 남자가 1, 여자가 0으로 코딩됨.
    • 정부정책 지지의 남녀 평균을 계산하면 남자가 여자보다 정부정책 지지 평균이 낮음.
      • 남자평균 = 4.450, SD = 1.528 / 여자평균 = 4.718, SD = 1.528
    • 회귀방정식
      • HYj = 4.718 - 0.268Xj
Figure 2.5

Figure 2.5

  • Simple regression with a Dichotomous antecedent variable

    • 회귀상수인 iy는 X = 0일 때, Y의 추정값임.
      • 여자일 때 X = 0 이기 때문에, 여자의 Y값 평균을 나타냄 -> HY = 4.718임.
    • 여자의 정부정책 지지 추정값이 4.718임.
      • 여자의 표본평균과 일치함.
    • Y(남자의 평균) - Y(여자의 평균) = 4.450 - 4.718 = -0.268 임.
      • 평균차이가 0.268임. (남자의 평균 = 4.450 / 여자의 평균 = 4.718)
    • 회귀계수는 집단 평균의 차이를 나타냄.
      • 선행변수가 이분형일 때, 단순회귀 모형에서 모델이 생성하는 추정된 Y값은 두 집단의 평균과 일치함.
    • 여자 (X = 0)
      • model : HY = 4.718 - 0.268(0) = 4.718 (여자의 Y평균)
      • model : HY = 4.718 - 0.268(1) = 4.450 (남자의 Y평균)
    • Model이 항상 집단평균을 생성하더라도 회귀계수, 회귀절편은 두 집단을 어떻게 코딩했는지에 따라 다름.
      • X = -1(여자), X = 1(남자)로 입력하면 회귀모델은 HY = 4.584 - 0.134X 임.
      • b = - 0.134로 평균차이의 1/2임. (평균차이 = - 0.268) -> X가 -1에서 1로 2단위 변화함.
      • iy = unweighted mean of the means = (Y 남자평균 + Y 여자평균)/2 = (4.450 + 4.718)/2 = 4.584
        • iy는 전체평균으로 두 집단의 사례수가 같아야함.
        • 비가중평균은 각 집단 n수를 고려하지 않음.
    • 여전히 Model은 집단차이를 재현하고 있음.
      • 여자일 때, HY = 4.584 - 0.134(-1) = 4.718
      • 남자일 때, HY = 4.584 - 0.134(1) = 4.450
    • X가 이분형일 때, 회귀계수는 집단을 코드화하고 코드값의 차이를 함수로 표현한 것임.
    • 큰 수를 XL, 작은 수를 XS로 코드화하면 b를 계산할 수 있음
      • b = Y(평균)XL - Y(평균)XS / XL - XS
        • Y(평균)XL, Y(평균)XS : X를 XL, XS로 코드화 했을 때, 집단평균을 나타냄.
        • X에서 2단위 차이나면, b는 집단평균차이의 1/2임.
        • X에서 3단위 차이나면, b는 집단평균차이의 1/3임.
        • X에서 1단위 차이나면, b는 집단평균차이로 해석할 수 있음.
    • 표준화된 회귀계수의 주의점
      • 성별에서 정부정책 지지를 추정한 표준화된 회귀모델은 아래와 같음.
        • Zyj = -0.099Zxj
        • iy = 0, b = -0.099임.
      • b는 수학적으로 해석할 수 있지만 실질적인 의미는 없음.
    • 이분변수에서 두 집단차이에 의한 표준편차의 수는 두 집단 사이 case분포에 기반함.
      • 분산, 표준편차는 사례수에 영향을 받음. 즉, 남녀 집단에서 남녀의 비율에 따라 분산, 표준편차가 달라짐.
      • 남녀를 0,1로 코딩하고 표준화하면 1표준편차 증가가 무엇을 의미하는지 애매함. -> 1표준편차가 어떤 의미인지 불명확함.
    • Data 표본의 48.8%는 여자(X = 0), 51.2%는 남자(X = 1)임.
    • X의 표준편차는 0.499임.
      • 남자와 여자의 차이는 X에서 2표준편차 이상임.
      • b : Y의 표준편차 단위에서 남녀의 평균차이 1/2임.
    • b에 2를 곱해서 Y의 표준편차에서 평균차이로 해석할 수 있음.
    • X에서 집단차이 표준편차 수는 두 집단 사이 cases분포의 함수임.
      • 집단을 40:60으로 나누면 X에서 2.04표준편차 차이가 나고 b는 표준화된 Y에서 평균차이 1/2보다 작음.
      • 30:70로 나누면, 2.17표준편차 차이가 나고 b는 더 작아짐.
      • 20:80로 나누면, 2.5표준편차 차이가 나고 b는 여진히 작음.
    • X가 많으면 한 집단을 선호하고, 더 많은 표준편차가 X에서 다르고 b는 더 작아짐.
    • 선행변수가 이분형일 때, 주요 관심사는 Y에서 집단간 차이임.
    • 만약 집단들이 X에서 한 단위 다르면, b는 항상 Y에서 집단간 평균차이임.
    • 표준화된 회귀계수는 평균차이와 집단간 case분포의 함수임.
      • 이런 성질은 X가 이분형일 때 생기는 b의 성질로 연구자가 원하지 않음.
    • 이분형 선행변수의 표준화된 회귀계수는 해석하거나 보고하지 않는 것을 추천함.
    • 표준편차 단위에서 평균차이 index를 원하면 Y만 표준화 하는 것을 추천함. -> 부분표준화를 시행하는 것이 좋음.
      • X로부터 추저오딘 Zy의 모델추정에서 비표준화된 회귀계수를 해석하는 것을 추천함.
      • b : partially standardized regression coefficient임. -> 부분표준화 계수
        • Y가 이분형일 때, 로지스틱 회귀를 사용함.
    • 부적정서가 단일 선행변수인 단순회귀에서 HZyj = 0.096 - 0.197Xj
      • 상수 iy는 여자의 표준화된 Y평균임.
      • b는 Y의 표준편차에서 남자와 여자의 평균차이임.
      • 정부정책 지지에서 남자는 여자와 0.197표준편차 차이남.
      • b가 음수인 의미는 남자가 여자보다 정부정책 지지평균이 낮음.
      • partially standardized regression coefficient는 X로 정의되는 두 집단 case분포에 기반하지 않음.
    • X가 이분형인 경우 X를 표준화하지 않는게 좋고, 표준화된 결과가 필요하다면 Y만 표준화하는 부분표준화를 추천함.

2.3 Alternative Explanations for Association

  • ‘X,Y가 상관이 있다’ -> X가 Y의 원인 또는 Y가 X의 원인이라는 것을 의미하지 않음.
  • 인과효과를 추정하기 위한 능력은 통계적 문제가 아님. (이론적인 근거가 있어야함.)
  • 연구 디자인, 데이터 수집절차, 이론적 타당성이 인과효과와 신뢰정도에 직접적인 영향을 줌.
    • 통계적 index의 부호나 크기가 영향을 주지 않음.
  • 디자인 특징없이 체계적이고 우연한 수 많은 프로세스가 두 변수들 사이 연관성을 유도할 수 있음.
    • 이런 프로세스가 연관성의 대안적 설명으로 가능함.
    • 연구자의 인과적 주장 능력을 방해함.
  • 이런 대안적 설명이 많을수록 인과효과를 변수간 연관성보다는 무에서 시작해야함.
  • 2.2를 보면 기후변화의 부적정서와 정부정책 지지가 긍정적인 연관성이 있음.
    • 기후변화에 대해 더 걱정하게 만들면 정부정책 지지를 더 많이 하는가? 그럴수도 있지만 두 변수 사이 연관성을 추론하기에는 부족함.
    • 대안적 설명이 많음.
  • X, Y변수의 인과효과는 이론적 배경이 필요하고 X,Y의 인과효과에 영향을 주는 다른 변수들, 대안적 설명들, 즉 공변량이 존재 함.
  • 기후변화의 부적정서는 참가자의 반응으로 구성됨.
    • 기후변화를 생각할 때, 얼마나 자주 고려, 걱정, 경고를 느끼는지 응답함.
  • 동시에 참가자들은 기후변화에 대해서 얼마나 자주 희망, 격려, 낙관 같은 정서를 느꼈는지 1 ~ 6점 척도로 응답함.
  • 기후변화의 정적정서 측정은 3가지 항목에 대한 참가자의 평균 응답임.
    • 부적정서와 같이 정적정서가 높을수록 기후변화에 관해 더 많은 정적정서를 느끼는 것을 반영함.
  • 참가자들은 자신들의 정치적 관념을 1 ~ 7점으로 응답함.
    • 1점 매우 민주적, 7점 매우 보수적
  • 부적정서와 정부정책 지지 연관성에 대해 타당한 대안적 설명을 고려함.
    • 남녀의 정서적차이, 정부능력을 믿는 남녀차이가 연관성에 반영될 수 있음.
  • 즉, 어떻게 남녀가 사회화 되는지에 따라 남녀의 차이를 가져옴.
    • 남자는 부정정서가 덜 강력함 (r = -0.117)
    • 남자는 정부정책 지지도 여자보다 낮음. (r = -0.099)
  • 기후변화에 대한 정서적반응과 정부정책지지는 어떤 인과효과 메커니즘이 아니라 거짓으로 연관된 것일 수 있음.
  • 만약 연관성이 공통된 원인의 결과로 유도된 것이라면, 두 변수들이 거짓으로 연관됨.
    • X,Y의 연관성을 만드는 공통된 다른 원인이 있을 수 있음.
  • 미국에서 보줏적인 사람은 정부가 제한된 역할을 가져야 한다고 믿음.
    • 보수적이면 낮은 세금, 사업의 최소한의 규제, 정부가 제공하는 사회적 서비스를 덜 지지하는 경향이 있음.
    • 민주적인 사람은 보수적인 사람과 대조적임.
  • 정부정책 지지에서 사람들간 개인차는 정치적 관념 차이에 기인함.
    • 보수적인 사람들이 정부정책 지지가 상대적으로 낮음. (r = -0.418)
  • 보수적, 민주적에 따라 정서적 삶과 경험이 다름.
    • 기후변화에 대한 정서적 반응과 정부정책 지지의 연관성은 정치적 관념효과의 부수현상일 수 있음.
  • X가 Y의 원인과 상관이 있고, Y에 인과적 영향이 없다면 X와 Y의 연관성은 부수적임.
  • Y의 원인과 상관이 있는 많은 변수들이 Y와 상관이 있을 수 있음.
    • 하지만 원인과 상관이 있는 많은 변수들이 모두 Y의 원인일 수 없음.
  • 정치적 관념은 기후변화의 부적정서 반응과 상관이 있음. (r = -0.349)
    • 보수적 반응이 민주적 반응보다 덜 부정적임.
  • 기후변화의 부적반응과 정부정책 지지 연관성이 부수현상으로 가능하지만, 정치적 관념이 부수현상을 유도하기 위해서 인과적 영향을 주었다고 가정할 필요는 없음.
  • 부적정서가 아니라 일반적으로 정서가 정부정책 지지를 일으킬 수 있음.
    • Data에서 기후변화에 관해 정적정서와 부적정서가 정적 연관성이 있음. (r = 0.128)
  • 기후변화에 더 걱정하고 신경쓰는 사람이 더 긍정적인 정서를 보고한다면, 부적정서의 고유한 역할이 애매함.
  • 두 변수 사이 연관성 해석에서 문제에 부딪침.
    • 연관성을 설명할 수 있는 많은 프로세스가 있음.
  • 어떤 대안적 설명은 논리적으로 또는 이론적으로 제외됨.
    • 다른 대안적 설명은 데이터수집 이전에 처리될 수 있음.
  • 만약 부적정서가 실험적으로 조작되고, 사람들이 기후변화에 부적정서를 느끼거나 느끼지 않게 무선할당 된다면, 이런 실험에 의한 결과는 인과적 해석이 명확함.
    • 조작할 수 있다면 명확하게 인과적으로 해석가능함.
  • 실험적 조작이 불가능하다면, multiple linear regression이 연관성의 대안적 설명으로 사용될 수 있음.
  • X,Y의 연관성을 애매하게 만드는 것은 X,Y에서 사람들의 차이 때문임.
  • 다중회귀는 X,Y의 연관성이 회귀모델에 있는 다른 선행변수에서 사람들 차이가 없다고 추정함.
  • 변수에서 사람들이 ‘수학적으로 동등함’
    • 이런 동등 프로세스를 X,Y 연관성에서 다른 변수를 partialing out, statistically controlling했다고 부름.
    • 즉, 다른 변수들을 공변량(covariates)으로 부름.
  • predictor는 Y를 설명하기 위해서 사용함.
  • 공변량은 통제하고 싶은 변수들을 나타냄.

2.4 Multiple Linear Regression

  • 단순 선형회귀 모델은 하나 이상의 선행변수를 사용하는 결과변수 추정으로 쉽게 확장됨.
  • 하나 이상의 선행변수를 포함하는 것은 결과변수에서 다중 영향의 역할을 조사하게 함.
  • 다중 회귀모델의 장점 : 결과변수 & 선행변수 연관성에 영향을 주는 요소들을 수향화하는 partial association의 다양한 측정을 제공함.
    • partial association은 연관성에서 다른 변수들과 다르게 선행변수가 가지는 고유한 요소를 나타냄.
  • 다중회귀는 두 변수 연관성에 관한 타당성을 조사할 수 있음.
  • 대안적 설명은 연관성의 인과적 해석을 방해함.
    • 즉, 공변량이 많으면 인과적으로 해석하기 힘듬.
  • 다중회귀는 연관성이 인과적이라고 주장할 수 있게 도와줄 뿐, 연과성의 인과적 관계를 정당화할 수 없음.
  • k개의 선행변수를 가지는 다중회귀 모델의 방정식
    • 2.8
    • Xkj : 선행변수 k에서 case j의 측정
    • bk : 선행변수 Xk의 회귀계수
  • residual을 제거하여 Y의 fitted value형태로 모델을 표현할 수 있음.
    • 2.9
  • 단순회귀는 방정식 (2.8), (2.9)의 특별한 경우임. (k = 1)
  • OLS회귀는 다중회귀에 상수(iy), k개의 회귀계수를 가지고 ss residual을 최소화함.
  • 방정식 (2.8), (2.9)는 subscript k,j를 가짐.
    • k는 선행변수 수, j는 case
  • 단순화를 위해서 j를 제거함.
    • 어떤 회귀분석이든 하나 또는 그 이상의 선행변수들이 결과변수에 회귀하는 것과 연관됨.
  • 다중회귀의 해석과 추정을 설명하기 위해서 기후변화에 대한 부적정서, 정적정서, 정치적 관념, 성별, 나이를 정부정책 지지로 회귀함.
  • 선행변수 5개로 Y에 대한 회귀식을 나타냄.
    • 2.10
  • 결과는 Figure 2.6에 나타남.
    • 2.11
  • Figure 2.6
  • 실제 Y와 추정된 Y값의 상관이 \({R}^{2}\)
    • 상관계수가 높을수록 추정이 잘 된것임.
    • 상관계수의 제곱 = \({R}^{2}\)
    • 일반적으로 \({R}^{2}\) = 0.3이면 충분함.
    • \({R}^{2}\) 은 변수를 추가하면 증가함. -> 모집단에서 \({R}^{2}\) 가 의미 있는지 판단가능함. -> 유의하지 않으면 오차에 의한 증가임.
    • \({R}^{2}\) 를 높이기 위해서 변수를 많이 추가하면 Adjusted \({R}^{2}\) 에서 어느정도 변화하는지 나타남.
  • Model Summary 아래 R square는 설명된 분산의 비율이 나타남.
  • Std.Error of the Estimate
    1. Y의 단위와 같아서 직접비교 가능.
    2. 회귀식이 평균이고 회귀식으로부터 표준편차를 나타냄. -> 회귀식을 기준으로 각 점들의 표준편차를 나타냄.
    3. 추정의 오차는 Y에서 차이를 나타내며 리커트척도에서 나타나는 차이임.
  • 통제하고 싶은 변수는 같은 값을 주고 주요변수만 값의 차이를 주어 회귀분석을 실행함.
    • 통제하고 싶은 변수를 어떤 값에 고정하든 Y에서 효과는 같다고 가정함.
    • 통제변수는 어떤 값을 가지든 Y와의 연관성, 효과는 같다고 가정함. -> 통제변수값을 고정하고 주요변수와 Y의 관계를 회귀로 파악함.
  • Interpretation of the constant and partial regression coefficients

    • 다중회귀에서 회귀상수는 모든 선행변수가 0일 때, HY임.
      • iy = 4.064임.
      • Y의 추정치는 X가 0일 때 값임.
      • 정서, 정치적 관념, 나이의 측정 scale의 범위가 1 ~ 7인데 변수들이 0이라는 것은 실질적으로 의미가 없음.
    • 다중회귀에서 해석의 초점은 상수가 아니라 회귀계수임.
    • 회귀계수 해석을 이해하기 위한 예시
      • 부적정서=3, 정적정서=4, 정치적관념=2, 남자=1, 나이=30일 때, 회귀식은 아래와 같음
        • HY = 4.064 + 0.441(3) - 0.027(4) - 0.218(2) - 0.010(1) - 0.001(30) = 4.803
    • 부적정서 값 = 4인 다른 예시
      • HY = 4.064 + 0.441(4) - 0.027(4) - 0.218(2) - 0.010(1) - 0.001(30) = 5.244
    • X1 값이 다른 두 사람의 차이 = 5.244 - 4.803 = 0.441
      • 정부정책 지지에서 0.441차이가 남.
    • X1만 다르고 나머지가 고정되면 X1에서 한 단위 차이가 Y에서 b1만큼 차이가 나는 것으로 추정됨.
      • 이런 해석이 다중회귀의 모든 partial regression coefficients에 적용됨.
    • 다른 선행변수는 모두 고정하고 하나의 X에서만 한 단위 차이날 때, 추정된 Y의 차이가 X에 해당되는 b로 나타남.
    • 공변량을 제외하고 부적정서에서 한 단위 차이가 나는 두 사람은 정부정책 지지에서 0.441차이남.
    • 선행변수 X와 Y의 연관성을 수량화 할 때, 공변량을 statistically control하기 위해서 공변량을 모델에 포함해야함.
    • 명확한 인과적 해석을 위해서 최적의 방법은 공변량을 통제하는 것임.

    • 중다회귀에서 남녀차이가 없음. 남녀에 해당하는 계수는 남녀차이 상관없이 모두 동일함. -> 기울기가 같아야함.
    • 더미변수는 평균차이를 나타냄. 더미를 사용하면 나타나는 차이는 평균차이임.
    • ‘다른 변수를 고정한다’ 의 의미는 다른 변수에서 모두 같은 값을 가진다는 의미임.
    • 다중회귀는 남자따로 여자따로 모아서 분석하는 것이 아니라 남녀차이가 없다고 가정함. -> 남녀의 scatterplot 기울기가 같음. 남자가 정적기울기, 여자가 부적기울기라면 합쳐서 상쇄될 수 있음.
    • 공변량의 설명량을 제거하고 싶다면 공변량 변수를 X로 넣어 회귀모델을 실행하고 공변량 계수는 해석하지 않음.
    • 공변량 값은 고정하고 주요변수가 1단위 변화하면 Y가 얼마나 달라지는지 보는것.
    • 공변량 통제후 부호가 변할 수 있음.

  • The standardized regression model

    • 다중회귀가 표준화되면 ’한 단위 변화’의 의미가 달라짐.
    • 단순회귀 모델과 다르게 다중회귀 모델에서 표준화된 회귀계수 b는 X,Y의 Pearson 상관과 동일하지 않음.
    • 표준화된 회귀모델
      • HZy = 0.495Zx1 - 0.027Zx2 - 0.243Zx3 - 0.004Zx4 - 0.016Zx5
      • b1 = 0.495는 다른변수들은 모두 같고 X1에서 1표준편차 차이가 나는 두 사람은 정부정책 지지에서 0.495표준편차 차이가 남. -> 높은 부적정서를 가지는 사람은 정부정책을 더 지지함.
      • b3 = - 0.243 다른 변수들은 모두 같고 X3에서 1표준편차 차이가 나는 두 사람은 정부정책 지지에서 0.243표준편차 차이가 남. -> 더 보수적일수록 정부정책을 덜 지지함.
      • X4는 성별로 다중회귀에서도 이분형 변수의 표준화된 계수는ㄴ 해석하거나 보고하면 안됨.
    • 다중회귀 모델에서 특정 선행변수만 표준화 할 수 있음. -> 비표준화 회귀계수를 만들고 해석함.
      • 표준화된 선행변수의 계수는 표준화 형태가 됨.
      • 비표준화된 선행변수의 계수는 partially standardized 형태가 됨. -> 선행변수가 표준화된 단위가 아니기 때문임.
    • Y가 표준화되고 X가 표준화 되지 않으면 b는 표준편차의 수로 해석됨.
    • Y와 다른 모든 X변수를 표준화 할 수 있음.
      • 성별변수는 표준화 하지 않음.
      • 성별변수만 표준화 하지 않고 나머지 변수들과 Y를 표준화하면 Y와 성별사이 partial관계를 더 정확하게 측정함.
        • 비표준화된 선행변수의 partially standardized regression coefficient에 관심이 있다면, 다른 선행변수를 표준화 할 필요가 없음. -> 다른 선행변수들의 표준화 여부는 비표준화된 선행변수의 partially standardized regression coefficient에 영향을 주지 않음.
      • 성별을 제외한 다른 변수를 표준화한 결과
        • HZy = 0.004 + 0.495Zx1 - 0.027Zx2 - 0.243Zx3 - 0.007X4 - 0.016Zx5
          • 표준화하면 평균은 0이됨. -> 다른변수들은 평균값을 가지고 X4가 0일 때, Y값이 0.004임.
          • b4 = -0.007로 남녀는 정부정책 지지에서 0.007표준편차 차이가 난다고 말할 수 있음.
          • spss에서 표준화 변수를 따로 만들고 비표준화 변수와 함께 다중회귀하면됨. -> X1,X2,X3,X5는 표준화, X4는 비표준화 한 상태에서 다중회귀를 실행하면됨.
            • 0.007에서 음수의 의미는 남자가 여자보다 정부정책을 덜 지지한다는 것을 나타냄.
      • 표준화된 회귀계수를 계산할 수 있음.
        • 2.12
          • bi = 비표준화된 계수
          • SDx = 선행변수의 표준편차
          • SDy = 결과변수의 표준편차
      • partially standardized regression coefficient는 X를 원래 단위로 두고 ~bi/SDx로 나누면 됨.
    • 변수를 표준화하기 전에 missing data효과를 고려해야함.
      • 많은 회귀프로그램이 listwise deletion을 사용함. -> missing data가 있으면 그 case를 지우는 방식임.
    • OLS는 missing data를 지우므로 missing data가 있는 변수가 가지는 원래 평균, 표준화와 다를 수 있음.
      • X1을 표준화 할 때, X2와 Y에서 missing data가 있다면 Zx1은 X1의 표준화 형태가 아님. -> OLS가 missing data case를 지웠기 때문에 원래 X1 표준화 값과 OLS가 만드는 표준화 값이 다름.
      • 왜 missing data가 발생하는지 파악해야함.

2.5 Measures of Model Fit

  • 회귀식은 SS residual을 최소화함. -> 최소제곱 판정법을 통해 모형 적합도를 판단함.
  • SS residual
    • 적합도 측정에 SS residual 크기를 사용함.
    • 크기가 크다면, 실제Y와 추정된Y의 차이가 크다고 볼 수 있음.
    • SS residual은 표본크기가 클수록 증가하기 때문에 표본크기와 측정척도를 모두 고려해야함.
      • Ss residual의 절대적 크기 그 자체는 의미가 없음.
    • SS residual은 선행변수가 같더라도 다른 결과변수를 나타내는 모형이라면 두 모형의 Ss residual은 서로 비교될 수 없음. -> SS residual에서 이끌어낸 다른 측정치를 사용함.
  • Mean squared residual (MS residual)
    • 2.13
      • 표본크기를 고려한 측정치임.
      • SS residual과 마찬가지로 값이 작을수록 좋은 적합도를 나타냄.
      • Ss residual, MS residual은 Y의 측정 metric의 영향을 받음.
      • 잔차제곱이기 때문에 해석가능성이 낮아짐.
      • n-k-1에서 1은 절편값을 나타냄.
  • Standard error of estimate
    • Standard error of estimate
      • Standard error of estimate은 앞에서 언급한 MS residual의 해석가능성 문제에서 자유로움.
      • 잔차의 표준편차에 근사하며 Y와 HY가 평균적으로 얼마나 차이 나는지 나타냄.
  • SS residual, MS residual, Standard error of estimate은 scale-bound 측정임.
    • Y의 metrics이 달라지면 SS residual, MS residual, Standard error of estimate의 값은 달라짐.
  • 다중상관계수 R, \({R}^{2}\)
    • \({R}^{2}\) : 적합도가 가장 좋은 모형이 naive reference model과 poerfectly fitting model 이동할 때의 거리
    • 2.14
      • 모형으로 설명되는 Y분산비율
      • 1 : poerfectly fitting model
      • SS total : naive reference model의 적합도
      • \({R}^{2}\) : SS regression으로 설명되는 분산임.
      • SS residual이 최소제곱 판정법에 따라 최소화 되면 R, \({R}^{2}\)는 최대가 됨.
  • R은 실제 Y와 추정한 Y의 Pearson 상관계수임.
    • 적합도가 높은 모형이라면 상관이 높아야함.
    • R은 scale-free metrics임.
      • 모형간 결과변수가 서로 달라도 각 모형의 R, \({R}^{2}\) 끼리 비교가능함.
      • 선행변수의 갯수가 다른 모형끼리 비교가 불가능함. -> 비교가 공정하지 않음, 선행변수가 추가되면 R 값은 증가함.
      • \({R}^{2}\) 으로 모형적합을 보기에는 한계가 있음.

2.6 Statistical Inference

  • 통계적 추론은 smaple로 모집단 값을 추론하는 것임.
  • 표집분포가 모집단 값을 가질 확률이 높다고 가정함.
  • GLBWARM데이터에서 815명이 지구전체 인구를 대표한다고 가정하면 해당 데이터는 전체 모집단이 됨.
    • 2.15
      • T : 모집단 회귀계수를 의미함.
  • 연구자가 모집단 815명에서 50명으로 구성된 표본을 무선추출하여 동일한 선행변수를 가지는 모형을 설정했다고 가정함.
  • Tb값은 변하지 않지만 추정치인 b값은 sampling variance 때문에 표본을 추출할 때마다 값이 달라짐.
  • Figure 2.7
    • 50명씩 무작위 추출을 하면 첫번째 b = 0.467, 두번째 b = 0.392, 세번째 b = 0.467 임.
    • 1000번을 반복해서 얻은 b값을 히스토그램으로 표현하면 Figure 2.7과 같음.
    • 0.02 ~ 0.85의 범위를 가짐고 대부분 0.30 ~ 0.60사이에 몰려있음.
    • sampling variance로 인해 b값이 표본마다 달라짐.
    • Figure 2.7은 표집분포임.
      • 표집분포는 모수를 알고 있을 때만 실제로 구할 수 있음.
      • 모집단회귀계수가 0.441일 때, 1000개의 표본에서 표본크기 50으로 얻은 표집분포임. -> ‘영가설 : 모집단 회귀계수가 0.441’ 인 영가설 아래에서 얻어지는 분포임.
      • 기각역과 채택역을 구분하는 X축의 값 = critical value임. -> 분포면적에서 5%를 찾고 그 지점을 나타내는 값임.
      • 영가설이 참일 때, 영가설 아래에서 내 자료를 얻을 확률 = p-value
      • p-value가 작은지 큰지 기준으로 둘 수 있는 확률 = alpha-level(임의로 alpha를 정함)
    • 모집단 전체를 측정한다면 추정은 불필요하지만 일반적으로 연구는 표본 단위로 이루어짐.
      • 관측데이터를 통해 모집단의 회귀계수를 추정하게 됨.
      • 추정된 회귀계수값이 모집단 회귀계수값과 얼마나 가까운지 정확히 알 수 없으나 추정한 회귀계수값이 근사값이길 바라는 것임.
  • Testing a Null Hypothesis

    • 영가설
      • 단순선형회귀에서 영가설 : X와 Y가 선형적으로 상관이 없다.
      • 다중회귀에서 영가설 : 나머지 선행변수들이 상수로 고정되어 있을때, 남은 하나의 선행변수가 Y와 상관이 없다.
      • 영가설과 대립가설중에 무엇을 기각하고 채택할지 결정하기 위해서 p-value가 필요함.
        • p-value : X와 Y가 관계가 있다고 나타날 확률
        • 추정된 회귀계수 b를 영가설 아래에서 나온 표준편차값으로 전환(표준오차 단위)한 후, 영가설 분포에서 해당값이 어디에 위치하는지 확률로 계산한값.
        • 영가설 아래에서 p-value의 확률이 alpha-level보다 크지 않다면 영가설을 기각함.
        • type 1 error : 영가설이 참일때, 기각하는 것. 영가설을 기각해야 일어남.
        • alpha-level : 유의수준 빈도로 영가설을 기가하므로 type 1 error가 일어날 확률도 alpha-level과 같음.
          • alpha-level과 type 1 error는 다르지만 값이 같게 설정함.
        • 영가설에서는 값이 지정되어야 표집분포가 정해지고, p-value를 구할 수 있음.
          • 값을 지정하기 위해서 표준오차가 필요함.
    • 신뢰구간
      • 단일표본에서 b가 Tb의 가장 좋은 추정치라면 이때, b는 Tb의 점추정임.
        • 표본크기가 충분히크고 무선표집과 유사한 방법으로 표집되었다면 b가 Tb에 신뢰롭게 근사한다고 말할 수 있음.
      • b와 Tb가 동일한 값을 가지지 않는 것이 일반적임. -> 이런 불일치, 불확실성을 Tb가 특정 신뢰도에 기반했을 시 존재할 거라고 생각되는 범위를 신뢰구간이라 지칭함.
      • 2.16
        • 95% 확률구간 & 95% 신뢰구간
          • 95% 확률구간 : 절차, 과정, estimator임.
          • 95% 신뢰구간 : 내가가진 자료를 절차, 과정으로 구하면 나타나는 내 자료에 대한 구간임.
          • 각 분포에 대한 구간이 있고 95% 신뢰구간은 95% 확률구간 중에 내가 가진 데이터로 구한 신뢰구간임.
          • 신뢰구간은 100개를 뽑으면 95개는 모수를 포함한다는 95%의 확률구간임.
          • 95% 확률구간에 대한 신뢰로 95% 확률구간 중 하나가 신뢰구간임.
    • \({R}^{2}\) 을 추정하기 위한 두가지 모형
      • model 1 : 성별,나이, 이데올리기만 선행변수로 넣은 model -> \({R}^{2}\) = 0.177
      • model 2 : 모든변수를 선행변수에 넣은 model -> \({R}^{2}\) = 0.388
    • 두 model의 \({R}^{2}\) 값 차이를 비교해서 F-ratio와 F값을 구하고 p-value를 계산함.
      • 2.17
        • model 1과 model 2의 \({R}^{2}\) 값을 사용한 F값이 139.632로 p<0.001 유의함.
        • 즉, 정서변수를 포함한 모형이 정서변수를 제외한 모형보다 적합도가 더 좋음.
  • Process Inference

    • Sampling variation이 관측된 표본에서 두 변수 관계와 실제 모집단에서 진짜관계 사이에 차이를 생성함.
      • 표본크기가 무한히 크거나 모집단만큼 크다면 실제 상관관계에 더 근사한 값을 관측할 것이라고 개념적으로 말할 수 있음.
      • 대부분 연구자들은 표본을 무선으로 표집하지 않음.
      • 모집단 추론을 목표로 하지도 않음.
      • 관찰된 관계의 패턴을 찾기 위해 추론을 만드는게 연구자들의 주 관심사임.
        • 이런 과정은 sample-specific이기 때문에 일반적으로 일반화가 불가능
        • 대신 표본이 모집단을 잘 대표한다면 일반화 가능함.

2.7 Multicategorical Antecedent Variables

  • 두 집단 이상을 가지는 multicategorical 변수코딩
    • Table 2.1
      • 세개의 집단을 가지는 변수를 단순히 0,1,2로 코딩하면 수적인 양으로 받아들임. -> 다른 방식의 코딩방법이 필요함.
  • Indicator coding(Dummy coding)
    • g - 1개의 indicator variable은 해당 case가 어느 집단(g)에 속하는지에 따라 각각 0 또는 1의 값을 가짐.
    • indicator variable은 회귀모형에서 선행변수로 사용됨.
    • 모두 0으로 된 집단은 reference 또는 baseline group(준거집단)임.
    • 집단은 Democrat, Independent, Republican 3개이며, Independent가 참조집단임.
    • 각 집단의 평균은 순서대로 5.064, 4.605, 3.925임.
    • 방정식
      • 4.605는 준거집단의 평균, D1의 계수 0.459는 Democrat - Independent 값(5.064 - 4.605), D2의 계수 0.680는 Republican - Independent 값(3.925 - 4.605)임.
      • \({R}^{2}\) = 0.131, F(2,812) = 61.243, p<0.0005
      • D1, D2회귀계수 모두 통계적으로 유의미함. -> 대응되는 짝끼리 평균차이가 유의미함.
  • Multicategorical 변수가 2개 이상인 경우
    • 검증하고자하는 선행변수를 제외한 모든효과를 고정된 공변량으로 취급함.
      • Multicategorical변수를 제외하고 나머지 선행변수들만 포함한 모형의 \({R}^{2}\)를 추정함.
      • 앞서 제외한 변수를 추가했을 때, \({R}^{2}\) 가 얼마나 달라지는지 추정함.
  • dummy, categorical변수는 함께 제거하거나 함께 추가함.
  • 범주형변수를 제거한 model과 포함한 model의 \({R}^{2}\) 을 비교하는 것으로 model을 판단함.

2.8 Assumption for Interpretation and Statistical Inference

  • 선형성
    • 변수들간 관계까 선형임.
    • 다른 모든 선행변수가 동일할 때 X의 회귀계수는 X값이 한 단위 다른 두 case의 추정된 Y값이 얼마나 다른지 수량화 한 값임.
    • 선형성 가정이 위반되면 회귀계수 해석이 위태로움.
    • OLS회귀분석을 사용해서 데이터가 선형성 가정을 충족하는지 확인 가능함.
  • 정규성
    • 오차가 정규분포를 따름
    • 정규성이 위반되면 검증력이 낮아짐.
    • 정규성이 위반되는 원인, 상황
      1. 척도가 0에 제한되는 경우. 즉, 양의 점수만 있는 경우.
      2. 일반적으로 사용되는 척도는 discrete 데이터를 만듬.
      3. 대부분의 연구와 그에 사용되는 측정이 정규본포를 따르지 않음.
      4. discrete 변수를 OLS회귀분석에 사용
    • Y가 이분형인 경우 로지스틱 회귀분석을 사용함.
    • Y = B0 + B1X + e
      • 절편은 fixed, 계수는 parameter이기 때문에 오차 e가 정규분포 가정이 필요함.
  • 등분산성
    • X값에 대응하는 Y의 분산이 모든 X값에 대해서 동일하다는 가정
    • 등분산성 때문에 공변량 고정이 가능해짐.
    • 등분산성이 위반될 때, 발생하는 일
      1. 타당도, 통계적 검증력, 신뢰구간 정확성에 영향을 줌
      2. 표본크기를 늘리는 것은 도움이 되지 않음
      3. 등분산이 가정되지 않을 때는 다른 추론 방법 사용 -> heteroscedasticity-consistent covariate estimatiors
  • 독립성
    • 측정오차가 통계적으로 독립임
    • OLS 회귀분석은 독립성을 가정하기 때문에 비독립성은 추정의 정확성에 영향을 줌.
    • 독립성 가정 위반시 표준오차가 과대, 과소 추정될 수 있으며 일반적으로 과소 추정됨.
    • 가설검증이 무효화 될 수 있고, 신뢰구간이 원래 나와야하는 것보다 좁게 나올 수 있음.