edu 데이터 불러오기

dat<- read.csv("../Desktop/edu2018.csv")
str(dat)
## 'data.frame':    75785 obs. of  12 variables:
##  $ 시도                   : int  11 11 11 11 11 11 11 11 11 11 ...
##  $ 학교급                 : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ 사교육참여시간_주당평균: num  0.333 0.333 0.333 0.333 0.333 ...
##  $ 사교육비연간금액       : num  157.4 25.4 39.3 39.3 49.5 ...
##  $ 국어                   : num  0 13.9 0 0 13.9 ...
##  $ 영어                   : num  0 0 0 0 13.9 ...
##  $ 수학                   : num  0 0 0 0 13.9 ...
##  $ 총자녀수               : int  3 2 2 2 2 2 2 2 2 2 ...
##  $ 학생성적               : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ 부의연령               : int  3 3 3 3 2 3 3 3 3 3 ...
##  $ 모의연령               : int  3 2 2 3 2 3 3 2 3 3 ...
##  $ 월평균가구소득         : int  4 2 4 2 5 6 8 8 3 4 ...
dat$시도 <- as.factor(dat$시도)
dat$학교급 <- as.factor(dat$학교급)
str(dat)
## 'data.frame':    75785 obs. of  12 variables:
##  $ 시도                   : Factor w/ 17 levels "11","21","22",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ 학교급                 : Factor w/ 4 levels "1","2","3","4": 1 1 1 1 1 1 1 1 1 1 ...
##  $ 사교육참여시간_주당평균: num  0.333 0.333 0.333 0.333 0.333 ...
##  $ 사교육비연간금액       : num  157.4 25.4 39.3 39.3 49.5 ...
##  $ 국어                   : num  0 13.9 0 0 13.9 ...
##  $ 영어                   : num  0 0 0 0 13.9 ...
##  $ 수학                   : num  0 0 0 0 13.9 ...
##  $ 총자녀수               : int  3 2 2 2 2 2 2 2 2 2 ...
##  $ 학생성적               : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ 부의연령               : int  3 3 3 3 2 3 3 3 3 3 ...
##  $ 모의연령               : int  3 2 2 3 2 3 3 2 3 3 ...
##  $ 월평균가구소득         : int  4 2 4 2 5 6 8 8 3 4 ...

시도별 사교육투자(평균) 비교 시각화

sido = c("서울","부산","대구","인천","광주",'대전',"울산","세종","경기","강원","충북","충남","전북","전남","경북","경남","제주")
levels(dat$시도) = sido

dat1<-group_by(dat,시도)%>%
  summarise(사교육참여시간=mean(사교육참여시간_주당평균),사교육연간금액=mean(사교육비연간금액))
ggplot(dat1, aes(x=사교육참여시간, y=사교육연간금액,color=시도))+
  geom_point()+geom_text(aes(label=시도), size=3,vjust=-1)

사교육에 투자하는 연간금액의 평균과 사교육참여시간의 평균을 통해 시도별 비교해본 결과 서울이 사교육에 가장많이 투자를 하며 충남지역이 가장 적게 투자하는 것을 알 수 있었다.

학교 수준별 사교육비연간금액 비교 시각화

level = c("초등학교","중학교","일반고","특성화고")
levels(dat$학교급) =level
head(dat)
##   시도   학교급 사교육참여시간_주당평균 사교육비연간금액     국어     영어
## 1 서울 초등학교                0.333333        157.38539  0.00000  0.00000
## 2 서울 초등학교                0.333333         25.35667 13.86693  0.00000
## 3 서울 초등학교                0.333333         39.34635  0.00000  0.00000
## 4 서울 초등학교                0.333333         39.34635  0.00000  0.00000
## 5 서울 초등학교                0.333333         49.52476 13.86693 13.86693
## 6 서울 초등학교                0.333333         51.50575  0.00000  0.00000
##       수학 총자녀수 학생성적 부의연령 모의연령 월평균가구소득
## 1  0.00000        3       NA        3        3              4
## 2  0.00000        2       NA        3        2              2
## 3  0.00000        2       NA        3        2              4
## 4  0.00000        2       NA        3        3              2
## 5 13.86693        2       NA        2        2              5
## 6  0.00000        2       NA        3        3              6
dat2 <-group_by(dat,학교급)
ggplot(dat2, aes(x=학교급, y=사교육비연간금액))+
  geom_boxplot()

고등학교수준이 사교육비연간금액이 월등히 높을 것 이라고 예상하였지만 초등학교,중학교,고등학교의 차이가 크지 않았고 특성화고는 사교육비에 소비하는 금액이 가장 적음을 알 수 있다.

사교육비 투자와 고등학생성적 간의 관계

dat3<-filter(dat,학교급=="일반고"|학교급=="특성화고")
head(dat3)
##   시도 학교급 사교육참여시간_주당평균 사교육비연간금액 국어     영어
## 1 서울 일반고                0.333333          11.8039    0   0.0000
## 2 서울 일반고                0.333333         118.0390    0 118.0390
## 3 서울 일반고                0.333333         137.7122    0   0.0000
## 4 서울 일반고                0.333333         148.8594    0   0.0000
## 5 서울 일반고                0.333333         158.4792    0 158.4792
## 6 서울 일반고                0.333333         396.1981    0   0.0000
##       수학 총자녀수 학생성적 부의연령 모의연령 월평균가구소득
## 1   0.0000        2        3        4        4              8
## 2   0.0000        1        3        4        3              4
## 3   0.0000        2        5        4        4              4
## 4 118.8594        3        3        3        3              8
## 5   0.0000        2        3        3        3              4
## 6   0.0000        2        5        4        3              2
fit<-lm(학생성적~사교육비연간금액, dat3)
summary(fit)
## 
## Call:
## lm(formula = 학생성적 ~ 사교육비연간금액, data = dat3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.3134 -1.0599 -0.1344  0.8688  3.0287 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       3.313e+00  8.174e-03  405.38   <2e-16 ***
## 사교육비연간금액 -3.764e-04  1.392e-05  -27.04   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.237 on 36477 degrees of freedom
## Multiple R-squared:  0.01965,    Adjusted R-squared:  0.01963 
## F-statistic: 731.2 on 1 and 36477 DF,  p-value: < 2.2e-16

학생성적=3.313e+00-3.764e-04*사교육비연간금액

월평균가구소득과 사교육비와의 관계

fit1<-lm(사교육비연간금액~월평균가구소득,dat3)
summary(fit1)
## 
## Call:
## lm(formula = 사교육비연간금액 ~ 월평균가구소득, data = dat3)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -631.1 -278.3 -110.9  245.5 4743.0 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      36.589      5.136   7.124 1.07e-12 ***
## 월평균가구소득   74.318      1.062  69.980  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 436.7 on 36477 degrees of freedom
## Multiple R-squared:  0.1184, Adjusted R-squared:  0.1183 
## F-statistic:  4897 on 1 and 36477 DF,  p-value: < 2.2e-16

사교육비연간금액=36.589+74.318*월평균가구소득