입학사정관은 고등학교에서 받은 성적과 그 외 활동이 어땠는지를 보고
그러한 활동이 대학교 성과에 어떤 영향을 주는지 고려하여 신입생을 선발한다
고등학교 내신을 좀 더 비중있게 보아야 할지
전국 단위의 시험을 더 비중있게 보아야 할지 고민이 되기 마련이다.
그렇다면 고등학교 내신이 좋았던 학생들이 대학 입학 후에도
좋은 성적을 올리고 있는지 회귀분석을 통해서 분석해보겠다
가설 : 고등학교 내신이 좋은 학생이 대학교 성적도 좋을 것이다.
고등학교 내신과 대학교 학점의 상관관계를 알기 위한 산포도를 그려보면
산포도를 보면 고등학교 내신과 대학교 학점간의 양의 상관관계가 있으며
남학생보다 여학생의 경우가 더 높은 양의 상관관계를 보인다.
ACT는 미국의 대학입학 시험으로 한국의 수능과 비슷하다 볼 수 있다
그렇다면 전국단위의 시험인 ACT는 대학성적과 관련이 있을까?
ACT와 대학 학점의 상관관계를 알기위해 산포도를 그려보았다.
고등학교 내신과 마찬가지로 대학 학점과 양의 상관관계를 보이고 있음을 볼 수 있다.
고등학교 내신의 순효과를 추정하기 위해서는 다른 조건들은 배제하고
고등학교 내신이 대학교 학점에 미치는 한계효과를 추정해야 한다
이를 위해서는 다른 효과들은 통제한 후에 추정을 해야 하는데
통제변수를 추가한 회귀분석을 통해 이를 가능하게 한다
그렇다면 회귀식의 추정을 통해 고등학교 내신은 대학 성적에 얼마나 영향을 끼치는지 알아보자
기본 회귀식 추정 \[ colGPA_i = β_0 + β_1 hsGPA_i + e_i \]
##
## Call:
## lm(formula = colGPA ~ hsGPA, data = gpa)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.85220 -0.26274 -0.04868 0.28902 0.88551
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.41543 0.30694 4.611 8.98e-06 ***
## hsGPA 0.48243 0.08983 5.371 3.21e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.34 on 139 degrees of freedom
## Multiple R-squared: 0.1719, Adjusted R-squared: 0.1659
## F-statistic: 28.85 on 1 and 139 DF, p-value: 3.211e-07
ACT를 통제변수로 추가한 회귀식 추정
\[ colGPA_i = β_0 + β_1 hsGPA_i + β_2ACT_i + e_i \]
##
## Call:
## lm(formula = colGPA ~ hsGPA + ACT, data = gpa)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.85442 -0.24666 -0.02614 0.28127 0.85357
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.286328 0.340822 3.774 0.000238 ***
## hsGPA 0.453456 0.095813 4.733 5.42e-06 ***
## ACT 0.009426 0.010777 0.875 0.383297
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3403 on 138 degrees of freedom
## Multiple R-squared: 0.1764, Adjusted R-squared: 0.1645
## F-statistic: 14.78 on 2 and 138 DF, p-value: 1.526e-06
ACT 통제 이전에는 고등학교 내신 점수가 1만큼 높아졌을 때
대학교 학점은 0.48 높아지게 된다.
하지만 ACT가 대학 학점에 미치는 효과를 통제한 이후에는
고등학교 내신점수가 1만큼 높아졌을 때 학점이 0.45 높아지며 그 효과가 소폭 감소하게 된다.
## Warning: package 'stargazer' was built under R version 4.0.3
##
## =========================================
## Dependent variable:
## ----------------------------
## colGPA
## (1) (2)
## -----------------------------------------
## hsGPA 0.482*** 0.453***
## (0.090) (0.096)
##
## ACT 0.009
## (0.011)
##
## Constant 1.415*** 1.286***
## (0.307) (0.341)
##
## -----------------------------------------
## Observations 141 141
## R2 0.172 0.176
## Adjusted R2 0.166 0.164
## =========================================
## Note: *p<0.1; **p<0.05; ***p<0.01
하지만 회귀식의 설명정도를 보여주는 R2를 보면 통제변수를 추가했을때 증가하며 변화를 더 잘 설명했다고 볼 수 있다.
하지만 R2는 변수가 늘어나면 증가하는 현상을 보이기에 이를 보완한 Adjust R2를 사용하게 된다
Adjust R2보면 감소함을 볼 수 있는데 이는 통제변수로 추가한 ACT는 그리 좋은 통제변수가 아님을 알 수 있다,
따라서 고등학교 내신이 대학교 학점에 얼마나 영향을 끼치는지 정확히 알아보기 위한 통제변수를 찾아보겠다.
주어진 데이터에는 학년, 전공, 자동차보유, 형제자매 등 여러 변수가 있지만 그 중 이성친구 유무와 음주정도를 통제변수로 추가해보겠다.
이성친구가 있다면 성적이 떨어질 것이고 이에 미치는 효과를 통제한다면 좀 더 정확한 분석이 가능할 것이다.
또한 음주정도가 높다면 성적이 낮을것으로 예상하고 이를 통제해 더 정확한 분석을 해보겠다.
\[ colGPA_i = β_0 + β_1 hsGPA_i + β_2bgfriend_i + e_i \]
##
## Call:
## lm(formula = colGPA ~ hsGPA + bgfriend, data = gpa)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.81385 -0.29404 -0.01639 0.24961 0.92726
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.35957 0.30816 4.412 2.05e-05 ***
## hsGPA 0.48730 0.08954 5.442 2.33e-07 ***
## bgfriend 0.08273 0.05716 1.447 0.15
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3387 on 138 degrees of freedom
## Multiple R-squared: 0.1842, Adjusted R-squared: 0.1724
## F-statistic: 15.58 on 2 and 138 DF, p-value: 7.902e-07
이성친구 유무를 통제하면 고등학교 내신이 1만큼 높아졌을때 올라가는 학점이 매우 소폭 증가함을 볼 수 있다.
##
## =========================================
## Dependent variable:
## ----------------------------
## colGPA
## (1) (2)
## -----------------------------------------
## hsGPA 0.482*** 0.487***
## (0.090) (0.090)
##
## bgfriend 0.083
## (0.057)
##
## Constant 1.415*** 1.360***
## (0.307) (0.308)
##
## -----------------------------------------
## Observations 141 141
## R2 0.172 0.184
## Adjusted R2 0.166 0.172
## =========================================
## Note: *p<0.1; **p<0.05; ***p<0.01
그리고 설명정도를 보여주는 Adjusted R2 또한 통제변수 추가 이전보다 잘 설명하는 좋은 통제변수로 볼 수 있다.
\[ colGPA_i = β_0 + β_1 hsGPA_i + β_2alcohol_i + e_i \]
##
## Call:
## lm(formula = colGPA ~ hsGPA + alcohol, data = gpa)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.84373 -0.26024 -0.04373 0.27212 0.85605
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.390195 0.312495 4.449 1.76e-05 ***
## hsGPA 0.484367 0.090174 5.371 3.23e-07 ***
## alcohol 0.009818 0.020986 0.468 0.641
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.341 on 138 degrees of freedom
## Multiple R-squared: 0.1732, Adjusted R-squared: 0.1612
## F-statistic: 14.45 on 2 and 138 DF, p-value: 2.004e-06
음주정도를 통제변수로 추가했으나 유의미한 변화를 보여주지 않는다.
##
## =========================================
## Dependent variable:
## ----------------------------
## colGPA
## (1) (2)
## -----------------------------------------
## hsGPA 0.482*** 0.484***
## (0.090) (0.090)
##
## alcohol 0.010
## (0.021)
##
## Constant 1.415*** 1.390***
## (0.307) (0.312)
##
## -----------------------------------------
## Observations 141 141
## R2 0.172 0.173
## Adjusted R2 0.166 0.161
## =========================================
## Note: *p<0.1; **p<0.05; ***p<0.01
설명정도도 이전에 비해 떨어지는 좋은 통제변수가 아님을 볼 수 있다.
전공들이 유의미한 결과를 가질지 추가로 의문이 들어 추가적으로 추정을 해보았다.
경영학 전공과 공학 전공, 전공을 통제변수로 추가했다.
\[ colGPA_i = β_0 + β_1 hsGPA_i + β_2busuness_i +β_3engineer_i + e_i \]
##
## Call:
## lm(formula = colGPA ~ hsGPA + business + engineer, data = gpa)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.87467 -0.27467 -0.02655 0.27420 0.87269
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.32743 0.31389 4.229 4.27e-05 ***
## hsGPA 0.49623 0.08973 5.530 1.56e-07 ***
## business 0.06079 0.07614 0.798 0.426
## engineer -0.20410 0.16675 -1.224 0.223
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3384 on 137 degrees of freedom
## Multiple R-squared: 0.1915, Adjusted R-squared: 0.1738
## F-statistic: 10.82 on 3 and 137 DF, p-value: 2.001e-06
고등학교 내신이 1만큼 증가할 때 약 0.5만큼 대학 학점이 증가할 정도로 유의미한 증가치를 보였다.
##
## =========================================
## Dependent variable:
## ----------------------------
## colGPA
## (1) (2)
## -----------------------------------------
## hsGPA 0.482*** 0.496***
## (0.090) (0.090)
##
## business 0.061
## (0.076)
##
## engineer -0.204
## (0.167)
##
## Constant 1.415*** 1.327***
## (0.307) (0.314)
##
## -----------------------------------------
## Observations 141 141
## R2 0.172 0.192
## Adjusted R2 0.166 0.174
## =========================================
## Note: *p<0.1; **p<0.05; ***p<0.01
전공을 추가하자 Adjust R2 또한 증가한것으로 보아 적절한 통제변수로 볼 수 있다.
고등학교 내신이 높으면 대학 입학 이후 학점도 우수한 경향을 보인다.
이는 통제변수로 이성친구 유무, 전공을 추가하면 더 확실하게 알 수 있다.