높은 사교육비 지출이 의미하는 바 분석 - 부모의 배경 변인을 중심으로

1. 연구 목적 및 배경 설명

대한민국에서 교육은 늘 뜨거운 감자로 화두에 오른다. 수십년간 교육에 대한 높은 열정을 보여왔으며, 2023년 3월 7일 교육부에서 발표한 [2022년 초중고 사교육비조사]에 따르면 초중고 학생 사교육비 총액이 역대 최고인 ’26조원’으로 전년 대비 10.8%p 만큼 증가했다고 한다. 더불어 학생 1인당 월평균 사교육비 또한 전년 대비 10.2%p 증가하여 ’역대 최고 사교육비 총액’에 힘을 불어넣었다. 대한민국은 OECD 국가들 중에서도 교육 수준이 높은 편에 속하는 국가로, 수많은 논문들은 이미 교육비를 종속변수화하여 교육비에 영향을 주는 수많은 독립 변수들을 제시하여 발표하고 있다. 하지만 교육비 자체를 독립 변수로 설정한 논문은 많지 않다. 이제는 교육비 지출이 만연한 사회에서 교육비 지출을 전제로 하여 얼마나 높은 교육비를 지출하는지가 고려 대상이 되었다. 따라서 교육비 지출을 독립변수화하여 다른 변수들 간의 상관관계를 알고자 주제로 선정하고 데이터를 분석하였다.

경제적 자립 능력이 없는 학생의 사교육비 지출 비용은 모두 부모의 판단과 선택에 기반한다. 따라서 학부모의 사교육비 지출에 영향을 미치는 ‘배경’ 변인들을 종속 변수로 설정하였다. 배경 변인에는 부모의 사회 경제적변인 뿐 만 아니라 지역변인, 부모의 학력변인 등이 있다. 사회 경제적 변인에는 부모의 경상 소득, 정치에 대한 관심도를 선택하였고, 지역 변인에는 현재 거주지를 선택하여 종속 변수로 설정하였다. 학력 변인은 부모의 최종학력 변수로 설정하였다. 사교육비에 대한 지출이 높을수록 경제적 여건이 충분할 수 있으며, 도시 지역에 살기 때문에 높은 학군 조성과 더불어 높은 사교육비를 지출하고 교육시키는 경우도 있을 것이다. 그리고 부모의 학습 경험으로 인해 교육비를 지출하는 것이 좋다고 판단될 수도 있다. 이 모든 가능성이 실효성 있는 것인가에 대해 실제 데이터를 가지고 그래프를 만들어 직관적으로 판단하고 결과를 도출해보려 한다.

2. 데이터에 대한 개괄적인 설명

연구에서 사용한 데이터는 한국복지패널데이터이다. 한국복지패널에서는 매년 가구용, 가구원용, 부가 조사를 진행하여 누적시키면서 데이터를 제공한다. 이렇게 제공된 한국복지패널 데이터를 토대로 매년 변화되는 것과 거의 변화되지 않는 내용을 확인할 수 있다. 조사에는 가장 최근인 2022년에 시행된 17차 데이터를 사용하였다. 사교육비는 물가 상승이 반영되는 매년 변화되는 비용 변수이기 때문이다.

17차 한국복지패널 데이터에서 사교육비, 경상소득, 현재 거주지, 정치 관심도, 최종학력만을 선택하였다. 부모의 배경 변인 중 높은 사교육비 지출과 연관 있는 가장 직관적인 변수들이라고 판단되었기 때문이다. 해당 데이터를 우선적으로 정체하고 가공한 뒤, 처음으로는 사교육비와 경상소득 간의 관계를 분석할 것이다. 그 다음 차례대로 사교육비와 현재 거주지 간의 상관관계, 사교육비와 최종학력 간의 상관관계, 사교육비와 정치 관심도 간의 상관관계를 분석하고 각각 적절한 그래프로 표현할 계획이다.

3. 데이터 정제 및 가공 과정

3-1. 데이터 불러오기 및 저장

raw_wel <- read.spss(file = "Koweps_hpwc17_2022_beta1.sav",
                         to.data.frame = T)

## Warning in read.spss(file = "Koweps_hpwc17_2022_beta1.sav", to.data.frame = T):
## Koweps_hpwc17_2022_beta1.sav: Compression bias (0) is not the usual value of
## 100

## Warning in read.spss(file = "Koweps_hpwc17_2022_beta1.sav", to.data.frame = T):
## Koweps_hpwc17_2022_beta1.sav: Very long string record(s) found (record type 7,
## subtype 14), each will be imported in consecutive separate variables

wel1 <- raw_wel    # 복사본 만들기

원본 데이터인 “Koweps_hpwc17_2022_beta1.sav”를 raw_wel에 분석할 수 있는 형태로 저장시켰다. 더불어 복사본을 만들어 분석에 이용하기 위해 새로운 데이터 wel1에 저장시켰다.

3-2. 필요한 변수 선택 및 변수명 저장

welf <- raw_wel %>% 
  select(income = h17_cin,                   #경상소득
         educational_expenses = h1707_3aq10, #사교육비
         region = h17_reg7,                  #현재 거주지
         interest_policy = wc17_5aq4,        #정치관심도
         last_education = p1707_3aq1         #최종학력
)

데이터 분석 시 필요한 변수, 경상소득, 사교육비, 거주지, 정치 관심도, 최종학력만을 원본 데이터 상의 코드를 확인한 후, 각각 알맞는 데이터 명으로 대치시켜 welf 데이터에 저장하였다.

3-3. 코드북 기반 불연속 변수 내용 지정

1) 코드북 기반 변수 내용 지정 - 현재 거주지

코드북의 내용에 기반하여 1, 2, 3, 4, 5, 6, 7로 구성된 거주지 데이터와 해당 데이터가 실질적으로 의미하는 지역을 연결하여 변수 내용을 지정하여 저장한다.

table(welf$region)

## 
##    1    2    3    4    5    6    7 
## 1957 3617 2842 1969 1783 1435 2988

welf$region = ifelse(welf$region == 1, "서울",
                           ifelse(welf$region == 2, "수도권(인천/경기)",
                                  ifelse(welf$region == 3, "부산/경남/울산",
                                         ifelse(welf$region == 4, "대구/경북",
                                                ifelse(welf$region == 5, "대전/충남/세종",
                                                       ifelse(welf$region == 6, "강원/충북", "광주/전남/전북/제주"))))))


table(is.na(welf$region))  #거주지 변수 결측치 확인 -> 모든 값이 존재함을 확인

## 
## FALSE 
## 16591

welf %>% 
  count(region)            #거주지 변수 빈도수 확인

##                region    n
## 1           강원/충북 1435
## 2 광주/전남/전북/제주 2988
## 3           대구/경북 1969
## 4      대전/충남/세종 1783
## 5      부산/경남/울산 2842
## 6                서울 1957
## 7   수도권(인천/경기) 3617

2) 코드북 기반 변수 내용 지정 - 최종 학력

1)의 내용과 마찬가지로 코드북의 내용에 기반하여 1부터 5로 구성된 최종학력 데이터와 해당 데이터가 실질적으로 의미하는 바를 연결하여 변수 내용을 지정하여 저장한다. 다만 결측치가 존재하는 데이터이기 때문에 결측처리를 유지한 상태로 데이터를 정제하였따.

다만, ’출신’은 재학, 중퇴, 졸업 이 세가지 요소를 모두 포함한다.

table(is.na(welf$last_education))

## 
## FALSE  TRUE 
##  3678 12913

table(welf$last_education)

## 
##    1    2    3    4    5 
## 1647  941  252  755   83

welf$last_education = ifelse(welf$last_education == 1, "중학교 졸업 이하",
                           ifelse(welf$last_education == 2, "고등학교 출신",
                                  ifelse(welf$last_education == 3, "전문대학 출신",
                                         ifelse(welf$last_education == 4, "대학교(4년제) 출신",
                                                ifelse(welf$last_education == 5, "대학원 이상", NA)))))

welf %>% 
  count(last_education)    # 최종학력 변수 빈도수 확인

##       last_education     n
## 1      고등학교 출신   941
## 2 대학교(4년제) 출신   755
## 3        대학원 이상    83
## 4      전문대학 출신   252
## 5   중학교 졸업 이하  1647
## 6               <NA> 12913

3) 코드북 기반 변수 내용 지정 - 정치 관심도

1)의 내용과 마찬가지로 코드북의 내용에 기반하여 1부터 5로 구성된 정치 관심도 데이터와 해당 데이터가 실질적으로 의미하는 바를 연결하여 변수 내용을 지정하여 저장한다.

table(is.na(welf$interest_policy))

## 
## FALSE  TRUE 
##  2829 13762

table(welf$interest_policy)

## 
##    1    2    3    4    5    6 
##  182  326  938 1082  292    9

welf$interest_policy = ifelse(welf$interest_policy == 1, "매우 높은 관심",
                           ifelse(welf$interest_policy == 2, "상당한 관심",
                                  ifelse(welf$interest_policy == 3, "다소 관심",
                                         ifelse(welf$interest_policy == 4, "별로 관심 없음",
                                                ifelse(welf$interest_policy == 5, "전혀 관심 없음", "선택할 수 없음")))))

welf %>% 
  count(interest_policy)    # 정치 관심도 변수 빈도수 확인

##   interest_policy     n
## 1       다소 관심   938
## 2  매우 높은 관심   182
## 3  별로 관심 없음  1082
## 4     상당한 관심   326
## 5  선택할 수 없음     9
## 6  전혀 관심 없음   292
## 7            <NA> 13762

4. 데이터 분석

우선 분석에 사용되는 5가지 변수의 특성을 알아보자.

class(welf$educational_expenses)

## [1] "numeric"

class(welf$income)

## [1] "numeric"

사교육비와 경상소득은 모두 돈을 나타내기 때문에 연속적인 numeric 변수인 것을 알 수 있다.

class(welf$region)

## [1] "character"

class(welf$last_education)

## [1] "character"

class(welf$interest_policy)

## [1] "character"

반면 거주지와 정치 관심도, 최종 학력은 모두 불연속적인 character 변수임을 알 수 있다.

변수의 특성에 따라 다른 분석 기법을 이용하여 다른 용도의 그래프로 표현해야할 것이다. 따라서 변수의 특성을 고려하여 사교육비를 기준으로 독립 변수에 따른 4가지의 종속 변수 간의 관계를 각각 알아보자.

4-1. 사교육비 - 경상소득

첫번째로 교육비 지출에 따른 경상소득의 상관관계다. 둘 다 연속변수이므로 상관관계 분석법을 통해 데이터를 분석하였다.

boxplot(welf$income)$stats # 이상치 확인

##         [,1]
## [1,] -5775.0
## [2,]  2373.5
## [3,]  5146.0
## [4,]  8328.0
## [5,] 17249.0

table(is.na(welf$income))  # 결측치 없음을 확인

## 
## FALSE 
## 16591

exp_income0 <- welf %>% 
  filter(!is.na(income) & income > 0 & income <= 17249)             # 이상치, 결측치 제거 후 새로운 데이터에 저장

cor.test(welf$educational_expenses, welf$income)                    # 경상소득 이상치를 제거하지 않은 상관관계

## 
##  Pearson's product-moment correlation
## 
## data:  welf$educational_expenses and welf$income
## t = 52.147, df = 16589, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.3621301 0.3882781
## sample estimates:
##       cor 
## 0.3752787

상관계수는 약 0.38의 값을 가졌다. 이상치를 포함시켜 분석했기 때문에 이상치를 제거하여서도 상관관계 분석을 진행하였다.

cor.test(exp_income0$educational_expenses, exp_income0$income)      # 경상소득 이상치를 제거한 상관관계

## 
##  Pearson's product-moment correlation
## 
## data:  exp_income0$educational_expenses and exp_income0$income
## t = 56.302, df = 16213, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.3914448 0.4171954
## sample estimates:
##       cor 
## 0.4044002

이상치를 제거했을 때는 약 0.4의 값을 도출하였다. 일반적으로 피어슨 상관계수는 절댓값 0부터 1까지 범위에서 값을 가지며, 절댓값 0.3 이하는 약한 상관관계, 0.3과 0.7 사이의 값은 강한 상관관계, 0.7보다 크면 매우 강한 상관관계를 갖는다고 표현한다. 앞서 도출한 상관계수는 0.38과 0.4이므로 사교육비와 경상소득 간에는 강한 양의 상관관계가 있음을 알 우 있다.

이 결과를 그래프로 나타내보자.

Figure 1

exp_income0 %>% 
  select(income, educational_expenses) %>% 
  filter(educational_expenses > 0) %>% 
  ggplot(aes(x=educational_expenses, y=income)) +
  geom_point() +     # 연속 변수간의 상관관계이므로 개개의 데이터들의 추이가 돋보이도록 선택
  geom_smooth() +    # 데이터들간의 상관관계 정도를 자연스럽게 보이기 위해 추가
  ggtitle("사교육비 증가에 따른 경상소득 분포 추이") +
  theme(plot.title = element_text(size = 25))

## `geom_smooth()` using method = 'gam' and formula = 'y ~ s(x, bs = "cs")'

두 변수는 모두 연속변수라는 것을 감안했을 때 산점도가 대체성을 가시적으로 보여주기에 적합하다는 생각을 하여 선택하게 되었다. 산점도와 함께 geom_smooth()를 사용하여 대체로 양의 상관관계 경향을 따름을 알 수 있었다. 즉, 사교육비를 지출한다고 가정했을 때 많이 지출할 수록 경상소득이 높은 사람일 가능성이 있다는 것으로 해석할 수 있었다. 실제로 높은 사교육비 지출은 높은 경상소득과 관련이 있다. 전체 경상 소득에서의 사교육비 비율이 비슷하다고 가정해도 경상소득의 절대적 값이 작용하기 때문이다.

하지만 그래프 상에서도 나타나듯 양의 상관관계가 나타나지만, 상관계수 값이 경계와 비슷한 값을 가짐으로써 매우 강한 상관관계가 아니라는 점을 통해 사교육비 지출은 소득으로 인한 확연한 불평등이 나타나는 지점이 아니라는 것을 알 수 있었다.

4-2. 사교육비 - 거주지

두 번째로는 사교육비 지출이 거주지와 깊은 연관이 있는지 알아보겠다.

table(is.na(welf$region))  # 결측치 유무 확인 -> 결측치가 존재하지 않는 변수

## 
## FALSE 
## 16591

table(welf$region)

## 
##           강원/충북 광주/전남/전북/제주           대구/경북      대전/충남/세종 
##                1435                2988                1969                1783 
##      부산/경남/울산                서울   수도권(인천/경기) 
##                2842                1957                3617

앞서 했던 것과 마찬가지로 거주지 변수에 결측치가 존재하는지 확인한 결과, 결측치가 존재하지 않고, 모든 변수에 값이 할당되었음을 확인할 수 있다.

1) 지역별 사교육비 평균 분석

exp_region1_1 <- welf %>% 
  group_by(region) %>% 
  summarise(mean_expense = mean(educational_expenses)) %>% 
  arrange(desc(mean_expense))
exp_region1_1

## # A tibble: 7 × 2
##   region              mean_expense
##   <chr>                      <dbl>
## 1 서울                        20.5
## 2 대전/충남/세종              20.5
## 3 수도권(인천/경기)           20.4
## 4 부산/경남/울산              16.8
## 5 광주/전남/전북/제주         12.4
## 6 대구/경북                   11.5
## 7 강원/충북                   10.7

우선 지역별 사교육비의 평균을 분석하였다. 분석한 평균 데이터를 지역별로 가시화하기 위해 지도를 사용하면 적합하겠다는 생각을 하여 지도 그래프로 표현하였다.

figure 2

library(kormaps2014)

kormap <- kormap1 %>% 
  select(name, long, lat, region) 

kormap_new <- kormap %>%
  mutate(name = ifelse(name == "서울특별시", "서울",
                ifelse(name %in% c("경기도","인천광역시"), "수도권(인천/경기)",
                       ifelse(name %in% c("대전광역시", "충청남도", "세종특별자치시"), "대전/충남/세종",
                              ifelse(name %in% c("대구광역시", "경상북도"), "대구/경북",
                                     ifelse(name %in% c("부산광역시", "경상남도", "울산광역시"), "부산/경남/울산", 
                                            ifelse(name %in% c("광주광역시", "전라남도", "전라북도", "제주특별자치도"), "광주/전남/전북/제주", "강원/충북"))))))) 

exp_region1 <- welf %>% 
  group_by(region) %>% 
  summarise(mean_expense = mean(educational_expenses)) %>% 
  arrange(desc(mean_expense))


exp_region1 <- exp_region1 %>% 
  rename(name = region) %>% 
  left_join(kormap_new)

## Joining with `by = join_by(name)`

kormap1의 데이터에서 필요한 데이터들만 골랐으며 exp_region1 데이터와 합치기 위해 지역 명칭을 통일시키는 작업을 하고, 새롭게 변수명을 지정하여 하나의 데이터 exp_region1로 합쳤다.

library(ggiraphExtra)

devtools::install_github("cardiomoon/kormaps2014")

## WARNING: Rtools is required to build R packages, but is not currently installed.
## 
## Please download and install Rtools 4.2 from https://cran.r-project.org/bin/windows/Rtools/ or https://www.r-project.org/nosvn/winutf8/ucrt3/.

## Skipping install of 'kormaps2014' from a github remote, the SHA1 (873f3c5d) has not changed since last install.
##   Use `force = TRUE` to force installation

library(kormaps2014)


ggChoropleth(data = exp_region1,       # 지도에 표현할 데이터
             aes(fill = mean_expense,  # 색깔로 표현할 변수
                 map_id = region,
                 tooltip = name),      # 지도 위에 표시할 지역명
                 map = kormap1,        # 지도 데이터
                 interactive = T)      # 인터랙티브

인터랙티브 그래프를 활용해 지도 상에서 직접적으로 데이터를 확인할 수 있게끔 하여 분석한 결과, 평균 사교육비가 높았던 지역은 서울이었고 그 뒤를 이어 작은 차이로 대전/충남/세종, 수도권(인천/경기) 순이었다. 상위권 상에서는 수도권(서울과 가까운 지역)일수록 평균적으로 더 높은 교육 지출비를 지출한다는 것을 지도 그래프 상에서의 색상 진하기를 통해 직관적으로 알 수 있었다. 더불어 수도권인 경기/인천이 3위 지역과 차이가 나며 평균값을 가질 것이라 예상했는데, 미묘한 값 차이로 대전/충남/세종의 평균 사교육비보다 낮게 계산되었다. 이에 대해 고민을 한 후, 세부적으로 지역을 나눴을 때 학군에 따라 크게 차이나는 경우도 있기에 이가 평균값에 영향을 미쳐 대전/충남/세종보다 낮은 값을 보인 것으로 판단하였다. 즉, 평균의 함정을 배제할 수 없는 데이터로 결과를 분석한 것이다.

해당 데이터 분석만으로 사교육비 지출과 거주지 간의 관계를 일반화시키에는 개개의 표본을 고려하지 못한다는 한계를 지닌다고 판단하여, 지역별 데이터 평균이 아닌 데이터 표본 하나하나에 집중하여 분석해보기로 하였다. 교육비 지출이 높은 가정의 거주지를 높은 순대로 나열하여 100개 표본을 구한 후 사교육비 지출 상위 100 가구는 어느 지역에 거주하고 있는지 파악하였다.

2) 교육비 지출 높은 가정의 거주지 top 100

exp_region2 <- welf %>%
  select(region, educational_expenses) %>% 
  arrange(desc(educational_expenses)) %>% 
  head(100)

exp_region2 %>% 
  count(region) %>% 
  arrange(desc(n))

##                region  n
## 1                서울 43
## 2   수도권(인천/경기) 27
## 3      대전/충남/세종 13
## 4      부산/경남/울산 13
## 5 광주/전남/전북/제주  4

우선 높은 사교육비를 지출하는 순서대로 정렬하여 총 100개의 데이터를 선택해주었으며 100개 데이터들의 거주지를 지역별로 세어보았다. 가장 높은 지출을 보인 지역은 대전/충남/세종이었지만, 높은 지출 상위 100개의 데이터 중에 대부분을 차지한 곳은 서울(43%)이었다. 서울이 압도적으로 많은 비율을 가져갔으며, 100개 데이터들의 지역을 분석하는 것이므로 비율과 연관지어 원 그래프가 적합하다고 판단하여 그래프로 가시화하였다.

Figure 3

exp_region2_1 <- exp_region2 %>% 
  count(region)

exp_region2_2 <- exp_region2_1 %>% 
  ggplot(aes(x = "", y = n, fill = region)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y") +
  theme_void() +
  labs(fill = "region") +
   geom_text(aes(label=paste0(round(n,1), '%')),
            position=position_stack(vjust=0.5),
            color='black', size=5) +
  ggtitle("교육비 지출 높은 top 100의 거주지 비율") +
  theme(plot.title = element_text(size = 25))
exp_region2_2

원 그래프를 통해 서울이 대부분의 비율을 가져간다는 것을 직관적으로 확인할 수 있었다. 더불어 수도권(인천/경기)가 이어서 나머지의 반 정도 비율(27%)을 차지하였다. 그 뒤로는 대전/충남/세종, 부산/경남/울산이 각각 13%씩 가져갔으며 광주/전남/전북/제주가 4%로 가장 낮은 비율을 차지했고, 대구/경북과 강원/충북은 사교육비 지출 상위 100개 안에 들지 못했다. 해당 그래프를 통한 결과를 보고 앞서 인터랙티브 지도 그래프를 통해 나타낸 지역별 평균 사교육비 지출 순위와 크게 차이가 나지 않음을 알 수 있었다.

지역별 평균 사교육비 지출 순위 : 서울 - 대전/충남/세종 - 수도권(인천/경기) - 부산/경남/울산 - 광주/전남/전북/제주 - 대구/경북 - 강원/충북

이를 통해 사교육비를 많이 지출하는 것과 사는 거주지 지역 간의 관계가 있음을 알 수 있었다. 사교육비를 많이 지출할 수록 서울에 거주할 ’확률’이 높다는 것이다. 교육을 이야기하면서 빠질 수 없는 학군이 현실에서도 적용되는 현상을 직접적으로 확인할 수 있었다.

4-3. 사교육비 - 부모의 최종학력

그 다음, 세번째로는 사교육비 지출이 부모의 최종학력과 연관이 있는지 알아보겠다.

table(is.na(welf$last_education))  # 결측치 유무 확인 -> 결측치가 존재하는 변수

## 
## FALSE  TRUE 
##  3678 12913

결측치가 존재하는 최종학력 데이터이기 때문에 결측치를 제거하고 사교육비와 상관관계를 분석할 필요가 있다.

exp_last1 <- welf %>% 
  filter(!is.na(last_education)) %>%   # 결측치 제거
  group_by(last_education) %>%         # 최종학력끼리 그룹화하기
  summarise(mean_expense = mean(educational_expenses)) %>%   # 최종학력이 같은 그룹 간의 사교육비 평균 구하기
  arrange(desc(mean_expense))          # 사교육비 평균이 높은 순으로 정렬하기
exp_last1

## # A tibble: 5 × 2
##   last_education     mean_expense
##   <chr>                     <dbl>
## 1 대학원 이상               24.1 
## 2 전문대학 출신             20.0 
## 3 대학교(4년제) 출신        18.4 
## 4 고등학교 출신              7.25
## 5 중학교 졸업 이하           1.04

우선 데이터의 결측치를 제거해준 후, 최종학력이 같은 사람들끼리 그룹화하였다. 그리고 최종학력이 같은 그룹 간의 사교육비의 평균을 구한 후, 평균이 높은 순대로 나열해보았다. 해당 데이터 분석을 통해 사교육비 높은 순대로 정렬한 결과, 대학원 이상의 학력 소유자가 가장 사교육비를 평균적으로 많이 지출한다는 것을 알 수 있었다.

평균 지출 사교육비의 최종학력 간 차이를 시각화하여 알아보기 위해 최종학력별 평균 사교육비를 나타낸 막대그래프가 적합하다고 판단하여 사용하였다.

Figure 4

exp_last1 <- exp_last1 %>% 
  mutate(level = ifelse(last_education %in% c("중학교 졸업 이하", "고등학교 출신"), "고등학교 이하",
                "대학 이상"))
exp_last1 %>% 
  ggplot(aes(x = last_education, y = mean_expense, fill = level)) +
  geom_col() +
  scale_x_discrete(limits = c("중학교 졸업 이하", "고등학교 출신", "전문대학 출신", "대학교(4년제) 출신", "대학원 이상")) +
  geom_text(aes(label = round(mean_expense)), vjust = -0.5) +
  ggtitle("부모의 최종학력에 따른 평균 지출 사교육비") +
  theme(plot.title = element_text(size = 25))

처음 데이터를 분석하면서 흥미로웠던 사실은 전문대학, 4년제 등 대학과 대학원 이상의 학력 소유자의 평균 지출 사교육비와 고등학교 이하(고등학교 출신, 중학교 졸업 이하)의 학력 소유자의 평균 지출 사교육비가 크게 차이난다는 것이었다. 따라서 고등학교 이하 / 대학 이상으로 학력을 이분법적으로 분리하여 색을 다르게 지정해 최종적인 그래프를 도출한 결과, 최종학력별 평균 사교육비 지출의 확연한 차이를 확인할 수 있었다. 따라서 대학교를 기준으로 최종학력에 따른 사교육비 지출에 대한 관심이 유의미한 차이를 보인다는 결론을 내릴 수 있었다. 즉, 사교육비를 평균적으로 많이 지출할 수록 부모는 대학 이상의 학력을 가졌을 확률이 높다는 것이다.

4-4. 사교육비 - 부모의 정치 관심도

마지막 네번째로 볼 종속 변수는 정치 관심도이다. 교육비에 돈을 투자하고 있다는 것은 교육에 관한 관심이 많다는 것으로 해석하기에 충분하다. 교육에 관해 어떻게 정책을 펼쳐나가는지에 대한 관심이 곧 교육 정책을 전개하는 정치에 대한 관심이기 때문에 사교육비를 많이 지출할 수록 부모의 정치 관심도가 비례하여 높을 것으로 추정하고 ’정치에 대한 관심도가 높을수록 높은 사교육비를 지출할 것이다’라는 가설을 세워 데이터를 분석 시도하였다.

table(is.na(welf$interest_policy))  # 결측치 유무 확인 -> 결측치가 존재하는 변수

## 
## FALSE  TRUE 
##  2829 13762

효과적으로 데이터를 분석하기에 정치 관심도별 사교육비 분포 분석을 나타낸 boxplot 그래프가 적절할 것이라 판단하여 시각화하였다.

figure 5

exp_policy0 <- welf %>% 
   filter(!is.na(interest_policy) & interest_policy != "선택할 수 없음" & educational_expenses > 0) # 분석에 유의미하지 않은 데이터들을 제외하였다. 사교육비 지출이 있는 데이터만 고려하여 분석하기 위해 사교육비 지출이 0보다 큰 데이터만을 추출하여 새로운 데이터인 exp_policy0에 저장하였다. 

boxplot(exp_policy0$educational_expenses)$stats   # 새롭게 만든 데이터 exp_policy0에서 이상치 확인

##       [,1]
## [1,]   0.8
## [2,]  26.0
## [3,]  53.0
## [4,]  93.0
## [5,] 190.0

exp_policy2 <- exp_policy0 %>% 
  filter(educational_expenses >= 0.8 & educational_expenses <= 190) %>%   # 이상치 제거 후 그래프화
  ggplot(aes(x = educational_expenses, y = interest_policy, fill = interest_policy)) +
  geom_boxplot() +
  ggtitle("사교육비 지출에 따른 정치 관심도 분포") +
  scale_y_discrete(limits = c("전혀 관심 없음", "별로 관심 없음", "다소 관심", "상당한 관심", "매우 높은 관심"))+  # 관심이 높을수록 나타나는 현상에 집중하기 위해 관심도별로 지정 정렬
  theme(plot.title = element_text(size = 25))
exp_policy2

분석과정에서 데이터 간의 상관관계 분석에서 불필요한 데이터들을 우선적으로 제거하였다. 사교육비 지출이 있는 데이터만 고려하여 분석하기 위해 사교육비 지출이 0보다 큰 데이터만을 추출하여 새로운 데이터인 exp_policy0에 저장하였다. 더불어 사교육비의 boxplot 분석을 통해 이상치를 제거하여 정제해주었다.

x축에는 사교육비, y축에는 정치 관심도를 지정하여 관계를 파악하였으며, 정치에 대한 관심도가 같은 군집별로 다른 색을 지정하여 가시적으로 파악할 수 있게끔 하였다.

박스 가운데 검은 실선인 평균값과 사교육비 분포를 나타내는 박스 크기와 모양으로 보아, “매우 높은 관심” 항목을 제외하고는 대체로 사교육비 지출이 높을수록 정치에 대한 관심도가 높음을 알 수 있었다. 정치에 대한 관심이 있는지 없는지를 기준으로 이분법적으로 분석해본다면 좀 더 교육비와 정치 관심도 간의 관계를 파악할 수 있을 것이라 생각했기에 다시 한 번 분석을 진행하였다.

exp_policy3 <- exp_policy0 %>% 
  filter(educational_expenses >= 0.8 & educational_expenses <= 190) %>%
  mutate(interest = ifelse(interest_policy %in% c("매우 높은 관심", "상당한 관심", "다소 관심"), "YES",
                "NO"))


exp_policy3_1 <- exp_policy3 %>% 
  ggplot(aes(x = educational_expenses, y = interest, fill = interest)) +
  geom_boxplot() +
  ggtitle("사교육비 지출에 따른 정치 관심 유무 분포") +
  theme(plot.title = element_text(size = 25))

exp_policy3_1

exp_policy3 %>% 
  group_by(interest) %>% 
  summarise(mean_expense = mean(educational_expenses))

## # A tibble: 2 × 2
##   interest mean_expense
##   <chr>           <dbl>
## 1 NO               58.0
## 2 YES              62.2

정치에 대한 관심도 유무별로 사교육비 분포를 분석한 결과, 그래프 상에서도 정치에 대한 관심이 있는 사람들의 지출하는 사교육비의 분포도가 높게 포진되어 있었으며, 평균 또한 약 62만원 정도로 정치에 대한 관심이 없는 집단의 평균 지출 사교육비인 58만원보다 약 4만원 높았다. 정치에 대한 관심 정도별, 정치에 대한 관심 유무별 총 2번의 데이터를 분석한 결과, 높은 사교육비를 지출할수록 정치에 대한 관심을 지닐 확률이 높음을 알 수 있었지만, 앞서 세운 가설 ’정치에 대한 관심도가 높을수록 높은 사교육비를 지출할 것이다’는 일반화하기에 어긋나는 데이터도 존재했다. 따라서 높은 사교육비 지출이 정치에 대한 관심도와 비례하는 것은 아니지만, 대체적으로 높은 사교육비를 지출할수록 정치에 대한 관심이 존재할 가능성이 높다고 검증내릴 수 있었다.

5. 결론

5-1. 정리

앞서 사교육비에 따른 총 4가지 종속변수와의 관계를 분석하였다.

첫번째로 진행했던 경상소득과의 상관관계 분석에서 내린 결론은 다음과 같다. 사교육비를 지출한다고 가정했을 때 많이 지출할 수록 경상소득이 높은 사람일 가능성이 있다. 하지만 매우 강한 상관관계가 아니기 때문에 사교육비 지출은 소득으로 인한 확연한 불평등이 나타나는 지점이 아니다.

두번째로 진행했던 거주지와의 관계 분석에서 내린 결론은 다음과 같다. 사교육비를 많이 지출하는 것과 사는 거주지 지역 간의 관계가 있다. 사교육비를 많이 지출할 수록 서울에 가깝게 거주할 ’확률’이 높다. 학군이 현실에서 적용되는 것은 어느정도 맞는 이야기지만, 지역 내에서도 세분화한다면 차이가 존재하기 때문에 이를 고려할 필요가 있다.

세번째로 진행했던 부모의 최종학력과의 관계 분석에서 내린 결론은 다음과 같다. 대학교를 기준으로 최종학력에 따른 사교육비 지출에 대한 관심이 유의미한 차이를 보인다. 사교육비를 평균적으로 많이 지출할 수록 부모는 대학 이상의 학력을 가졌을 확률이 높다.

네번째로 진행했던 부모의 정치 관심도와의 관계 분석에서 내린 결론은 다음과 같다. 높은 사교육비 지출이 정치에 대한 관심도와 비례하는 것은 아니지만, 대체적으로 높은 사교육비를 지출할수록 정치에 대한 관심이 존재할 가능성이 높다.

5-2. 한계 및 논의점

기존 추정과 맞는 부분도 맞지 않는 부분도 있었지만, 분석 보고서를 작성하며 가장 조심해야된다고 느낀 지점은 해당 데이터들은 모든 군집을 일반화하기에는 세부적으로 나눠져 있지 않는다는 한계였다. 또한 평균을 이용해 구한 분석 또한 평균이 해당 군집의 데이터들을 대표할 수 있는지 의심해 볼 필요도 있다. 앞서 잠깐 언급한 ‘지역별 사교육비 지출’ part에서도 크게 - 서울 / 수도권(인천/경기) 등 - 으로 나눴지만 같은 지역으로 분류된 곳에서도 차이가 크게 나타나는 학군이 조성되어 있는 경우도 있다. 예를 들어, 수도권(인천/경기) 중에서도 분당과 같이 높은 교육열을 자랑하는 서울의 지역과 가까운 지역은 교육열 높은 학군이 조성되어 있지만, 서울에서부터 거리가 있는 경기도 어떤 지역의 경우 같은 경기도 내에서도 차이나는 학군이 조성되었기 때문이다. 따라서 해당 평균 데이터가 그 지역을 완전히 대표한다고 볼 순 없다. 그러나 데이터 분석의 편리성과 효율성, 확률성을 고려하였을 때 한계점을 어느 정도로 생각해야하는지 결정내릴 수 있기 때문에 분석자 본인의 판단 능력이 요구된다는 점을 알게 되었다.

5-3. 최종결론

결론적으로 해당 연구를 통해 높은 사교육비 지출이 부모의 배경 변인과 관련이 있음을 알 수 있었다. 결론을 정리할 때 ‘가능성’, ’확률’이라는 단어를 사용하며 정리한 것을 볼 수 있다. 이는 데이터의 한계를 고려한 것도 있지만 빠르게 변화하는 대한민국 사회에서 앞으로 교육의 입지가 어떻게 변화될지 가능성을 열어두는 차원도 포함하고 있다. 처음 분석 시도할 때도 가능성의 실효성을 판단해보겠다고 선언했기 때문에 실효성이 있음 자체를 데이터 분석과 그래프 표현을 통해 확인할 수 있었다. 2023년 현재를 기준으로 계속해서 증가하는 사교육비 총액 추이를 보여왔기 때문에 부모의 배경 변인에서 완전히 자유로울 수 없는 사교육비 지출이 앞으로도 어떻게 분포를 가지며 변화해갈지 지켜볼 필요가 있다.