review.utf8

9 복습

패키지 불러오기

library(haven)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(ggplot2)
library(readxl)

데이터 불러오기

raw_welfare<-read_sav("Koweps_hpc10_2015_beta1.sav")
welfare<-raw_welfare

변수이름 수정하기

welfare <- rename(welfare,
 sex = h10_g3, # 성별
 birth = h10_g4, # 태어난 연도
 marriage = h10_g10, # 혼인 상태
 religion = h10_g11, # 종교
 income = p1002_8aq1, # 월급
 code_job = h10_eco9, # 직종 코드
 code_region = h10_reg7)

class(welfare$sex) #변수검토

## [1] "numeric"

table(welfare$sex)

## 
##    1    2 
## 7578 9086

이름 설정

welfare$sex<-ifelse(welfare$sex==1, "male", "female") #이름

table(welfare$sex)

## 
## female   male 
##   9086   7578

qplot(welfare$sex) #표

월급 변수 검토

class(welfare$income)

## [1] "numeric"

summary(welfare$income)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##     0.0   122.0   192.5   241.6   316.6  2400.0   12030

qplot(welfare$income)+xlim(0,1000)

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## Warning: Removed 12051 rows containing non-finite values (stat_bin).

## Warning: Removed 2 rows containing missing values (geom_bar).

이상 결측 처리

welfare$income<-ifelse(welfare$income %in% c(0,9999), NA, welfare$income)
table(is.na(welfare$income))

## 
## FALSE  TRUE 
##  4620 12044

성별에 따른 월급차이

sex_income<- welfare %>% filter(!is.na(income)) %>% group_by(sex) %>% summarise(mean_income=mean(income))

## `summarise()` ungrouping output (override with `.groups` argument)

sex_income

## # A tibble: 2 x 2
##   sex    mean_income
##   <chr>        <dbl>
## 1 female        163.
## 2 male          312.

그래프

ggplot(data = sex_income, aes(x=sex, y=mean_income))+geom_col()

나이와 월급

class(welfare$birth)

## [1] "numeric"

qplot(welfare$birth)

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

결측치 확인

table(is.na(welfare$birth))

## 
## FALSE 
## 16664

파생변수 만들기

welfare$age<-2015-welfare$birth+1 #파생변수 나이
summary(welfare$age)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   28.00   50.00   48.43   70.00  109.00

qplot(welfare$age)

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

나이별 월급 평균표

age_income <- welfare %>% 
        filter(!is.na(income)) %>% 
        group_by(age) %>% 
        summarise(mean_income = mean(income)) #나이별 월급

## `summarise()` ungrouping output (override with `.groups` argument)

head(age_income)

## # A tibble: 6 x 2
##     age mean_income
##   <dbl>       <dbl>
## 1    20        121.
## 2    21        106.
## 3    22        130.
## 4    23        142.
## 5    24        134.
## 6    25        145.

그래프

ggplot(data = age_income, aes(x=age, y=mean_income)) + geom_line()#x축나이, y 축 월급

연령대별 월급 차이

welfare <- welfare %>% 
        mutate(ageg = ifelse(age<30, "young",
                             ifelse(age<=59, "middle", "old")))#파생변수

table(welfare$ageg)

## 
## middle    old  young 
##   6049   6281   4334

qplot(welfare$ageg)

연령대별 월급차이 분석하기

ageg_income <- welfare %>% filter(!is.na(income)) %>% 
        group_by(ageg) %>% 
        summarise(mean_income=mean(income))

## `summarise()` ungrouping output (override with `.groups` argument)

ageg_income

## # A tibble: 3 x 2
##   ageg   mean_income
##   <chr>        <dbl>
## 1 middle        282.
## 2 old           125.
## 3 young         164.

그래프

ggplot(data=ageg_income, aes(x=ageg, y=mean_income))+geom_col()

ggplot(data=ageg_income, aes(x=ageg, y=mean_income)) + geom_col() +
        scale_x_discrete(limits=c("young", "middle", "old"))

연령대, 성별 월급 평균표

sex_income <- welfare %>% filter(!is.na(income)) %>% 
        group_by(ageg, sex) %>% 
        summarise(mean_income=mean(income))

## `summarise()` regrouping output by 'ageg' (override with `.groups` argument)

sex_income

## # A tibble: 6 x 3
## # Groups:   ageg [3]
##   ageg   sex    mean_income
##   <chr>  <chr>        <dbl>
## 1 middle female       188. 
## 2 middle male         353. 
## 3 old    female        81.5
## 4 old    male         174. 
## 5 young  female       160. 
## 6 young  male         171.

그래프 만들기

ggplot(data=sex_income, aes(x=ageg, y=mean_income, fill=sex))+ geom_col()+
        scale_x_discrete(limits=c("young", "middle", "old"))

남녀 분리

ggplot(data=sex_income, aes(x=ageg, y=mean_income, fill=sex))+ geom_col(position="dodge")+
        scale_x_discrete(limits=c("young", "middle", "old"))

성별 연령별 월급 평균표

sex_age <-welfare %>% filter(!is.na(income)) %>% group_by(age,sex) %>% 
        summarise(mean_income=mean(income))

## `summarise()` regrouping output by 'age' (override with `.groups` argument)

head(sex_age)

## # A tibble: 6 x 3
## # Groups:   age [3]
##     age sex    mean_income
##   <dbl> <chr>        <dbl>
## 1    20 female        147.
## 2    20 male           69 
## 3    21 female        107.
## 4    21 male          102.
## 5    22 female        140.
## 6    22 male          118.

그래프 만들기

ggplot(data=sex_age, aes(x=age, y=mean_income, col=sex))+geom_line()

직업별 월급차이 변수검토

class(welfare$code_job)

## [1] "numeric"

table(welfare$code_job)

## 
##  111  120  131  132  133  134  135  139  141  149  151  152  153  159  211  212 
##    2   16   10   11    9    3    7   10   35   20   26   18   15   16    8    4 
##  213  221  222  223  224  231  232  233  234  235  236  237  239  241  242  243 
##    3   17   31   12    4   41    5    3    6   48   14    2   29   12    4   63 
##  244  245  246  247  248  251  252  253  254  259  261  271  272  273  274  281 
##    4   33   59   77   38   14  111   24   67  109    4   15   11    4   36   17 
##  283  284  285  286  289  311  312  313  314  320  330  391  392  399  411  412 
##    8   10   26   16    5  140  260  220   84   75   15    4   13   87   47   12 
##  421  422  423  429  431  432  441  442  510  521  522  530  611  612  613  620 
##  124   71    5   14   20   33  154  197  192  353    5  106 1320   11   40    2 
##  630  710  721  722  730  741  742  743  751  752  753  761  762  771  772  773 
##   20   29   30   22   16   27    3   34   34    5   49   69   27   11   61   86 
##  774  780  791  792  799  811  812  819  821  822  823  831  832  841  842  843 
##    7   17    5   21   45   16    1    6    9    9   23    5   17   32   10    4 
##  851  852  853  854  855  861  862  863  864  871  873  874  875  876  881  882 
##   19   13    7   33    9    3   14   17   31    2  257   34   37    2    2    3 
##  891  892  899  910  921  922  930  941  942  951  952  953  991  992  999 1011 
##    8   19   16  102   31   74  289  325   99  125  122   73   45   12  141    2 
## 1012 
##   17

전처리

library(readxl)
list_job<-read_excel("Koweps_Codebook.xlsx", col_names = T, sheet = 2)
head(list_job)

## # A tibble: 6 x 2
##   code_job job                                
##      <dbl> <chr>                              
## 1      111 의회의원 고위공무원 및 공공단체임원
## 2      112 기업고위임원                       
## 3      120 행정 및 경영지원 관리자            
## 4      131 연구 교육 및 법률 관련 관리자      
## 5      132 보험 및 금융 관리자                
## 6      133 보건 및 사회복지 관련 관리자

변수 결합하기

welfare<-left_join(welfare, list_job, id="code_job")

## Joining, by = "code_job"

welfare %>% filter(!is.na(code_job)) %>% select(code_job,job) %>% 
        head(10)

## # A tibble: 10 x 2
##    code_job job                               
##       <dbl> <chr>                             
##  1      942 경비원 및 검표원                  
##  2      762 전기공                            
##  3      530 방문 노점 및 통신 판매 관련 종사자
##  4      999 기타 서비스관련 단순 종사원       
##  5      312 경영관련 사무원                   
##  6      254 문리 기술 및 예능 강사            
##  7      510 영업 종사자                       
##  8      530 방문 노점 및 통신 판매 관련 종사자
##  9      286 스포츠 및 레크레이션 관련 전문가  
## 10      521 매장 판매 종사자

직업별 평균 월급표 만들기

job_income<- welfare %>% filter(!is.na(job) & !is.na(income)) %>% group_by(job) %>% summarise(mean_income=mean(income))

## `summarise()` ungrouping output (override with `.groups` argument)

head(job_income)

## # A tibble: 6 x 2
##   job                           mean_income
##   <chr>                               <dbl>
## 1 가사 및 육아 도우미                  80.2
## 2 간호사                              241. 
## 3 건설 및 광업 단순 종사원            190. 
## 4 건설 및 채굴 기계운전원             358. 
## 5 건설 전기 및 생산 관련 관리자       536. 
## 6 건설관련 기능 종사자                247.

월급 내림차순으로 정렬

top10 <- job_income %>% arrange(desc(mean_income)) %>% head(10)
top10

## # A tibble: 10 x 2
##    job                                  mean_income
##    <chr>                                      <dbl>
##  1 금속 재료 공학 기술자 및 시험원             845.
##  2 의료진료 전문가                             844.
##  3 의회의원 고위공무원 및 공공단체임원         750 
##  4 보험 및 금융 관리자                         726.
##  5 제관원 및 판금원                            572.
##  6 행정 및 경영지원 관리자                     564.
##  7 문화 예술 디자인 및 영상 관련 관리자        557.
##  8 연구 교육 및 법률 관련 관리자               550.
##  9 건설 전기 및 생산 관련 관리자               536.
## 10 석유 및 화학물 가공장치 조작원              532.

그래프 만들기

ggplot(data=top10, aes(x=reorder(job, mean_income), y= mean_income))+geom_col()+coord_flip()

하위 10위

bottom10 <- job_income %>% arrange(mean_income) %>% head(10)
bottom10

## # A tibble: 10 x 2
##    job                          mean_income
##    <chr>                              <dbl>
##  1 가사 및 육아 도우미                 80.2
##  2 임업관련 종사자                     83.3
##  3 기타 서비스관련 단순 종사원         88.2
##  4 청소원 및 환경 미화원               88.8
##  5 약사 및 한약사                      89  
##  6 작물재배 종사자                     92  
##  7 농립어업관련 단순 종사원           102. 
##  8 의료 복지 관련 서비스 종사자       104. 
##  9 음식관련 단순 종사원               108. 
## 10 판매관련 단순 종사원               117.

그래프 만들기

ggplot(data=bottom10, aes(x=reorder(job,-mean_income), y=mean_income))+geom_col()+coord_flip()+ylim(0,850)

성별 직업 빈도표

job_male<-welfare %>% 
        filter(!is.na(job)&sex=="male") %>% group_by(job) %>% 
        summarise(n=n()) %>% arrange(desc(n)) %>% head(10)

## `summarise()` ungrouping output (override with `.groups` argument)

job_male #남성직업 빈도

## # A tibble: 10 x 2
##    job                          n
##    <chr>                    <int>
##  1 작물재배 종사자            640
##  2 자동차 운전원              251
##  3 경영관련 사무원            213
##  4 영업 종사자                141
##  5 매장 판매 종사자           132
##  6 제조관련 단순 종사원       104
##  7 청소원 및 환경 미화원       97
##  8 건설 및 광업 단순 종사원    95
##  9 경비원 및 검표원            95
## 10 행정 사무원                 92

job_female <- welfare %>% 
        filter(!is.na(job)&sex=="female") %>% group_by(job) %>% 
        summarise(n=n()) %>% arrange(desc(n)) %>%  head(10)

## `summarise()` ungrouping output (override with `.groups` argument)

job_female #여성직업 빈도

## # A tibble: 10 x 2
##    job                              n
##    <chr>                        <int>
##  1 작물재배 종사자                680
##  2 청소원 및 환경 미화원          228
##  3 매장 판매 종사자               221
##  4 제조관련 단순 종사원           185
##  5 회계 및 경리 사무원            176
##  6 음식서비스 종사자              149
##  7 주방장 및 조리사               126
##  8 가사 및 육아 도우미            125
##  9 의료 복지 관련 서비스 종사자   121
## 10 음식관련 단순 종사원           104

그래프 만들기

ggplot(data=job_male, aes(x=reorder(job,n), y=n))+geom_col()+coord_flip()#남성

ggplot(data=job_female, aes(x=reorder(job,n), y=n))+geom_col()+coord_flip() #여성

종교 유무에 따른 이혼율

종교변수 검토

class(welfare$religion)

## [1] "numeric"

table(welfare$religion)

## 
##    1    2 
## 8047 8617

전처리

welfare$religion<-ifelse(welfare$religion==1, "yes", "no")
table(welfare$religion)

## 
##   no  yes 
## 8617 8047

qplot(welfare$religion)

혼인변수 검토

class(welfare$marriage)

## [1] "numeric"

table(welfare$marriage)

## 
##    0    1    2    3    4    5    6 
## 2861 8431 2117  712   84 2433   26

이혼여부 변수 만들기

welfare$group_marriage <- ifelse(welfare$marriage==1, "marriage", 
                        ifelse(welfare$marriage==3, "divorce", NA))
table(welfare$group_marriage)

## 
##  divorce marriage 
##      712     8431

table(is.na(welfare$group_marriage))

## 
## FALSE  TRUE 
##  9143  7521

qplot(welfare$group_marriage)

종교유무에 따른 이혼율 분석

religion_marriage<-welfare %>% filter(!is.na(group_marriage)) %>% 
        group_by(religion, group_marriage) %>% 
        summarise(n=n()) %>% mutate(tot_group=sum(n)) %>% 
        mutate(pct=round(n/tot_group*100,1))

## `summarise()` regrouping output by 'religion' (override with `.groups` argument)

religion_marriage

## # A tibble: 4 x 5
## # Groups:   religion [2]
##   religion group_marriage     n tot_group   pct
##   <chr>    <chr>          <int>     <int> <dbl>
## 1 no       divorce          384      4602   8.3
## 2 no       marriage        4218      4602  91.7
## 3 yes      divorce          328      4541   7.2
## 4 yes      marriage        4213      4541  92.8

이혼만 추출

divorce<-religion_marriage %>% filter(group_marriage=="divorce") %>% 
        select(religion, pct)
divorce

## # A tibble: 2 x 2
## # Groups:   religion [2]
##   religion   pct
##   <chr>    <dbl>
## 1 no         8.3
## 2 yes        7.2

#그래프 만들기
ggplot(data=divorce, aes(x=religion, y= pct))+geom_col()

연령대에 따른 이혼율 분석

ageg_marriage<-welfare %>% filter(!is.na(group_marriage)) %>% 
        group_by(ageg, group_marriage) %>% summarise(n=n()) %>% 
        mutate(tot_group=sum(n)) %>% 
        mutate(pct=round(n/tot_group*100,1))

## `summarise()` regrouping output by 'ageg' (override with `.groups` argument)

ageg_marriage

## # A tibble: 6 x 5
## # Groups:   ageg [3]
##   ageg   group_marriage     n tot_group   pct
##   <chr>  <chr>          <int>     <int> <dbl>
## 1 middle divorce          437      4918   8.9
## 2 middle marriage        4481      4918  91.1
## 3 old    divorce          273      4165   6.6
## 4 old    marriage        3892      4165  93.4
## 5 young  divorce            2        60   3.3
## 6 young  marriage          58        60  96.7

연령대별 이혼율 그래프 만들기

#young 제외, 이혼 추출
ageg_divorce<-ageg_marriage %>% 
        filter(ageg !="young"&group_marriage=="divorce") %>% select(ageg, pct)
ageg_divorce

## # A tibble: 2 x 2
## # Groups:   ageg [2]
##   ageg     pct
##   <chr>  <dbl>
## 1 middle   8.9
## 2 old      6.6

ggplot(data=ageg_divorce, aes(x=ageg,y=pct))+geom_col()

연령, 종교유무, 결혼 상태별 비율

ageg_religion_marriage <- welfare %>% 
        filter(!is.na(group_marriage)&ageg !="young") %>% 
        group_by(ageg, religion,group_marriage) %>% 
        summarise(n=n()) %>% 
        mutate(tot_group=sum(n)) %>% 
        mutate(pct=round(n/tot_group*100, 1))

## `summarise()` regrouping output by 'ageg', 'religion' (override with `.groups` argument)

ageg_religion_marriage

## # A tibble: 8 x 6
## # Groups:   ageg, religion [4]
##   ageg   religion group_marriage     n tot_group   pct
##   <chr>  <chr>    <chr>          <int>     <int> <dbl>
## 1 middle no       divorce          260      2681   9.7
## 2 middle no       marriage        2421      2681  90.3
## 3 middle yes      divorce          177      2237   7.9
## 4 middle yes      marriage        2060      2237  92.1
## 5 old    no       divorce          123      1884   6.5
## 6 old    no       marriage        1761      1884  93.5
## 7 old    yes      divorce          150      2281   6.6
## 8 old    yes      marriage        2131      2281  93.4

그래프 만들기

df_divorce<-ageg_religion_marriage %>% 
        filter(group_marriage=="divorce") %>% select(ageg, religion, pct)
df_divorce

## # A tibble: 4 x 3
## # Groups:   ageg, religion [4]
##   ageg   religion   pct
##   <chr>  <chr>    <dbl>
## 1 middle no         9.7
## 2 middle yes        7.9
## 3 old    no         6.5
## 4 old    yes        6.6

ggplot(data=df_divorce, aes(x=ageg, y=pct, fill=religion))+
        geom_col(position="dodge")

지역별 연령대 비율 변수 검토

class(welfare$code_region)

## [1] "numeric"

table(welfare$code_region)

## 
##    1    2    3    4    5    6    7 
## 2486 3711 2785 2036 1467 1257 2922

전처리 지역코드 목록 만들기

list_region<-data.frame(code_region=c(1:7),
                        region=c("서울",
                                 "수도권(인천.경기)",
                                 "부산/경남/울산",
                                 "대구/경북",
                                 "대전/충남",
                                 "강원/충북",
                                 "광주/전남/전북/제주도"))

list_region

##   code_region                region
## 1           1                  서울
## 2           2     수도권(인천.경기)
## 3           3        부산/경남/울산
## 4           4             대구/경북
## 5           5             대전/충남
## 6           6             강원/충북
## 7           7 광주/전남/전북/제주도

지역명 변수 추가

welfare<-left_join(welfare, list_region, id="code_region")

## Joining, by = "code_region"

welfare %>% select(code_region, region) %>%  head

## # A tibble: 6 x 2
##   code_region region
##         <dbl> <fct> 
## 1           1 서울  
## 2           1 서울  
## 3           1 서울  
## 4           1 서울  
## 5           1 서울  
## 6           1 서울

지역별 연령대 비율

region_ageg<-welfare %>% group_by(region, ageg) %>% 
        summarise(n=n()) %>% mutate(tot_group=sum(n)) %>% 
        mutate(pct=round(n/tot_group*100,2))

## `summarise()` regrouping output by 'region' (override with `.groups` argument)

head(region_ageg)

## # A tibble: 6 x 5
## # Groups:   region [2]
##   region                ageg       n tot_group   pct
##   <fct>                 <chr>  <int>     <int> <dbl>
## 1 강원/충북             middle   417      1257  33.2
## 2 강원/충북             old      555      1257  44.2
## 3 강원/충북             young    285      1257  22.7
## 4 광주/전남/전북/제주도 middle   947      2922  32.4
## 5 광주/전남/전북/제주도 old     1233      2922  42.2
## 6 광주/전남/전북/제주도 young    742      2922  25.4

그래프 만들기

ggplot(data=region_ageg, aes(x=region, y=pct, fill= ageg))+
        geom_col()+coord_flip()

노년층 비율 높은 순으로 막대 정렬

list_order_old<-region_ageg %>% filter(ageg=="old") %>% arrange(pct)

list_order_old

## # A tibble: 7 x 5
## # Groups:   region [7]
##   region                ageg      n tot_group   pct
##   <fct>                 <chr> <int>     <int> <dbl>
## 1 수도권(인천.경기)     old    1109      3711  29.9
## 2 서울                  old     805      2486  32.4
## 3 대전/충남             old     527      1467  35.9
## 4 부산/경남/울산        old    1124      2785  40.4
## 5 광주/전남/전북/제주도 old    1233      2922  42.2
## 6 강원/충북             old     555      1257  44.2
## 7 대구/경북             old     928      2036  45.6

지역명 순서 변수

order<-list_order_old$region
order

## [1] 수도권(인천.경기)     서울                  대전/충남            
## [4] 부산/경남/울산        광주/전남/전북/제주도 강원/충북            
## [7] 대구/경북            
## 7 Levels: 강원/충북 광주/전남/전북/제주도 대구/경북 ... 수도권(인천.경기)

그래프 만들기

ggplot(data=region_ageg, aes(x=region, y=pct, fill=ageg))+geom_col()+
        coord_flip()+scale_x_discrete(limits=order)

연령대 순으로 나열하기

region_ageg$ageg<-factor(region_ageg$ageg, level=c("old","middle","young"))
class(region_ageg$ageg)

## [1] "factor"

levels(region_ageg$ageg)

## [1] "old"    "middle" "young"

ggplot(data=region_ageg, aes(x=region, y=pct, fill=ageg))+geom_col()+
        coord_flip()+scale_x_discrete(limits=order)