dat<- read.csv("../Desktop/edu2018.csv")
str(dat)
## 'data.frame': 75785 obs. of 12 variables:
## $ 시도 : int 11 11 11 11 11 11 11 11 11 11 ...
## $ 학교급 : int 1 1 1 1 1 1 1 1 1 1 ...
## $ 사교육참여시간_주당평균: num 0.333 0.333 0.333 0.333 0.333 ...
## $ 사교육비연간금액 : num 157.4 25.4 39.3 39.3 49.5 ...
## $ 국어 : num 0 13.9 0 0 13.9 ...
## $ 영어 : num 0 0 0 0 13.9 ...
## $ 수학 : num 0 0 0 0 13.9 ...
## $ 총자녀수 : int 3 2 2 2 2 2 2 2 2 2 ...
## $ 학생성적 : int NA NA NA NA NA NA NA NA NA NA ...
## $ 부의연령 : int 3 3 3 3 2 3 3 3 3 3 ...
## $ 모의연령 : int 3 2 2 3 2 3 3 2 3 3 ...
## $ 월평균가구소득 : int 4 2 4 2 5 6 8 8 3 4 ...
dat$시도 <- as.factor(dat$시도)
dat$학교급 <- as.factor(dat$학교급)
str(dat)
## 'data.frame': 75785 obs. of 12 variables:
## $ 시도 : Factor w/ 17 levels "11","21","22",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ 학교급 : Factor w/ 4 levels "1","2","3","4": 1 1 1 1 1 1 1 1 1 1 ...
## $ 사교육참여시간_주당평균: num 0.333 0.333 0.333 0.333 0.333 ...
## $ 사교육비연간금액 : num 157.4 25.4 39.3 39.3 49.5 ...
## $ 국어 : num 0 13.9 0 0 13.9 ...
## $ 영어 : num 0 0 0 0 13.9 ...
## $ 수학 : num 0 0 0 0 13.9 ...
## $ 총자녀수 : int 3 2 2 2 2 2 2 2 2 2 ...
## $ 학생성적 : int NA NA NA NA NA NA NA NA NA NA ...
## $ 부의연령 : int 3 3 3 3 2 3 3 3 3 3 ...
## $ 모의연령 : int 3 2 2 3 2 3 3 2 3 3 ...
## $ 월평균가구소득 : int 4 2 4 2 5 6 8 8 3 4 ...
sido = c("서울","부산","대구","인천","광주",'대전',"울산","세종","경기","강원","충북","충남","전북","전남","경북","경남","제주")
levels(dat$시도) = sido
dat1<-group_by(dat,시도)%>%
summarise(사교육참여시간=mean(사교육참여시간_주당평균),사교육연간금액=mean(사교육비연간금액))
ggplot(dat1, aes(x=사교육참여시간, y=사교육연간금액,color=시도))+
geom_point()+geom_text(aes(label=시도), size=3,vjust=-1)
사교육에 투자하는 연간금액의 평균과 사교육참여시간의 평균을 통해 시도별 비교해본 결과 서울이 사교육에 가장많이 투자를 하며 충남지역이 가장 적게 투자하는 것을 알 수 있었다.
level = c("초등학교","중학교","일반고","특성화고")
levels(dat$학교급) =level
head(dat)
## 시도 학교급 사교육참여시간_주당평균 사교육비연간금액 국어 영어
## 1 서울 초등학교 0.333333 157.38539 0.00000 0.00000
## 2 서울 초등학교 0.333333 25.35667 13.86693 0.00000
## 3 서울 초등학교 0.333333 39.34635 0.00000 0.00000
## 4 서울 초등학교 0.333333 39.34635 0.00000 0.00000
## 5 서울 초등학교 0.333333 49.52476 13.86693 13.86693
## 6 서울 초등학교 0.333333 51.50575 0.00000 0.00000
## 수학 총자녀수 학생성적 부의연령 모의연령 월평균가구소득
## 1 0.00000 3 NA 3 3 4
## 2 0.00000 2 NA 3 2 2
## 3 0.00000 2 NA 3 2 4
## 4 0.00000 2 NA 3 3 2
## 5 13.86693 2 NA 2 2 5
## 6 0.00000 2 NA 3 3 6
dat2 <-group_by(dat,학교급)
ggplot(dat2, aes(x=학교급, y=사교육비연간금액))+
geom_boxplot()
고등학교수준이 사교육비연간금액이 월등히 높을 것 이라고 예상하였지만 초등학교,중학교,고등학교의 차이가 크지 않았고 특성화고는 사교육비에 소비하는 금액이 가장 적음을 알 수 있다.
dat3<-filter(dat,학교급=="일반고"|학교급=="특성화고")
head(dat3)
## 시도 학교급 사교육참여시간_주당평균 사교육비연간금액 국어 영어
## 1 서울 일반고 0.333333 11.8039 0 0.0000
## 2 서울 일반고 0.333333 118.0390 0 118.0390
## 3 서울 일반고 0.333333 137.7122 0 0.0000
## 4 서울 일반고 0.333333 148.8594 0 0.0000
## 5 서울 일반고 0.333333 158.4792 0 158.4792
## 6 서울 일반고 0.333333 396.1981 0 0.0000
## 수학 총자녀수 학생성적 부의연령 모의연령 월평균가구소득
## 1 0.0000 2 3 4 4 8
## 2 0.0000 1 3 4 3 4
## 3 0.0000 2 5 4 4 4
## 4 118.8594 3 3 3 3 8
## 5 0.0000 2 3 3 3 4
## 6 0.0000 2 5 4 3 2
fit<-lm(학생성적~사교육비연간금액, dat3)
summary(fit)
##
## Call:
## lm(formula = 학생성적 ~ 사교육비연간금액, data = dat3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.3134 -1.0599 -0.1344 0.8688 3.0287
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.313e+00 8.174e-03 405.38 <2e-16 ***
## 사교육비연간금액 -3.764e-04 1.392e-05 -27.04 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.237 on 36477 degrees of freedom
## Multiple R-squared: 0.01965, Adjusted R-squared: 0.01963
## F-statistic: 731.2 on 1 and 36477 DF, p-value: < 2.2e-16
학생성적=3.313e+00-3.764e-04*사교육비연간금액
fit1<-lm(사교육비연간금액~월평균가구소득,dat3)
summary(fit1)
##
## Call:
## lm(formula = 사교육비연간금액 ~ 월평균가구소득, data = dat3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -631.1 -278.3 -110.9 245.5 4743.0
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 36.589 5.136 7.124 1.07e-12 ***
## 월평균가구소득 74.318 1.062 69.980 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 436.7 on 36477 degrees of freedom
## Multiple R-squared: 0.1184, Adjusted R-squared: 0.1183
## F-statistic: 4897 on 1 and 36477 DF, p-value: < 2.2e-16
사교육비연간금액=36.589+74.318*월평균가구소득