12회차 과제

11주 강의 대학성적에 미치는 요인들에서 통제변수를 몇 개를 추가하고 왜 그 변수들을 추가해야 하는지 설명을 쓰고 추정 결과를 제시하시오.

데이터 불러오기

setwd("C:/Users/Hyunhee/Desktop/R/data")
gpa <- read.csv("gpa1.csv", header = T, sep = '\t')

기본 회귀분석

lm.hsGPA <- lm(colGPA ~ hsGPA, data = gpa)
summary(lm.hsGPA)
## 
## Call:
## lm(formula = colGPA ~ hsGPA, data = gpa)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.85220 -0.26274 -0.04868  0.28902  0.88551 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.41543    0.30694   4.611 8.98e-06 ***
## hsGPA        0.48243    0.08983   5.371 3.21e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.34 on 139 degrees of freedom
## Multiple R-squared:  0.1719, Adjusted R-squared:  0.1659 
## F-statistic: 28.85 on 1 and 139 DF,  p-value: 3.211e-07

변수 추가 회귀분석: ACT와 age 추가. 고등학교 내에서 성적을 매기던 내신과 달리 전국을 대상으로 성적을 매기는 수능 점수를 변수로 추가, 수능점수 높을수록 대학 성적도 좋을 것이라 기대. 나이가 많아질수록 대학에 오래다녔을 것이라 가정한다면 나이가 많을수록 대학 환경에 익숙해져 성적을 더 높게 받았을 것이라 기대

lm.act <- lm(colGPA ~ hsGPA + ACT + age, data = gpa)
summary(lm.act)
## 
## Call:
## lm(formula = colGPA ~ hsGPA + ACT + age, data = gpa)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.86311 -0.25428 -0.02158  0.26336  0.83756 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.617758   0.663456   0.931    0.353    
## hsGPA       0.482092   0.098742   4.882 2.88e-06 ***
## ACT         0.009319   0.010763   0.866    0.388    
## age         0.027469   0.023399   1.174    0.242    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3399 on 137 degrees of freedom
## Multiple R-squared:  0.1846, Adjusted R-squared:  0.1668 
## F-statistic: 10.34 on 3 and 137 DF,  p-value: 3.524e-06

고등학교 내신 성적이 1점(1단위)높아지면 대학 성적은 0.482092 높아짐. t값이 2를 초과하므로 hsGPA 변수의 계수는 통계적으로 유의 수능성적이 1점 높아지면 대학 성적은 0.009319 높아짐. 하지만 t값이 0.866으로 통계적으로 유의하지 않음 나이가 1살 많아지면 대학성적은 0.027469 높아짐, 그러나 이 계수 t값이 1.174로 통계적으로 유의하지 않음