출처: Do it! 쉽게 배우는 R 데이터 분석
Github Code: Jun4871 Github
라이브러리 활성화
전처리 및 시각화에 필요한 패키지들을 불러오는 단계.
데이터 불러오기
분석하고자 하는 데이터를 불러온다. 이 때 파일이 SPSS에서 만들어진 것이므르 불러온 후 데이터 프레임화 시켰다.
탐색적 데이터 분석
ROW 데이터의 구조를 파악하고 어떻게 가공하여 분석해나갈 것인지를 판단하는 과정.
1) 성별에 따른 월급 차이
근대화가 이루어지면서 미래발전의 발목을 잡는 과거의 녹슨 것들은 많이 사라졌다. 그리고 그 중 하나가 ‘신분제’이다. 현재 우리는 보다 자유롭고 평등한 시대에 살고 있는 셈이다. 하지만 아직까지 차별에 대한 논쟁은 끊기지 않고 있다. 그것을 반증하는 사례로 최근에도 ’82년생 김지영’과 같은 여성이 겪는 시대적 불평등을 이야기하는 영화가 개봉한 바 있고, ’백분토론’ 등과 같은 시사 프로그램에서도 심심찮게 볼 수 있는 소재가 ‘남녀 성평등 문제’ 이다. 그렇기 때문에 성별로 무언가를 나누고 규정하는 것은 민감한 문제이다. 여기서는 특정 성별의 소득이 더 높게 나온다고 하여 그것을 성별에 따른 사회적 불평등이 있다고 이야기하려는 것이 아니다. 순수하게 데이터의 분석과정에서 요인별 관계를 확인하는 과정일 뿐인 것이다.
성별에 따른 월급의 차이를 막대 그래프로 시각화 해보았다. 결과를 보면 알 수 있듯이, 남성의 월급이 여성의 월급에 보다 2배정도 높은 것을 확인할 수 있는데, 이것은 성별이 남성이기때문에 여성에 비해 많이 받는 것은 아닐 것이고, 이공계열 전공자들의 상당수가 남성으로 이루어져 있기 때문일 것이다. 이는 일반적으로 타분야의 지식과 기술 습득의 난이도에 비해 있어서 어려움이 있고, 관련된 업무 역시 특정 스킬을 필요로 하는 경우가 많기 때문에 받는 월급이 차이가 나는 것으로 해석이 가능해보인다.
2) 나이와 연령대 구분을 통한 월급의 관계
보통 대학을 졸업하고 일을 시작할 때, 책정되는 연봉이 그리 많지 않다. 관련 분야에 대한 실무적 경험이 없기때문에 ’신입’이라는 꼬리표를 달고 입사하게 된다. 지속적으로 근속하고 경험이 쌓이게 되면 이를 참작하여 연봉이 오르게 된다. (성과가 없을 때는 오히려 삭감되기도 한다는데, 여기서는 일반적인 상황을 기준으로 생각해보자.) 그렇다면 평균적으로 몇 살에 월급을 가장 많이 받게 될까?
먼저 나이에 따른 월급 그래프를 보자. 출력된 그래프에서 알 수 있듯이 나이에 따라 월급이 올라가는 것을 확인할 수 있다. 40대 ~ 50대 사이에 가장 많은 월급을 받다가 60대를 기점으로 다시 떨어지는 것을 확인할 수 있다.
이번에는 연령대에 따른 월급 차이 그래프를 보자.
이번에는 연령대 별 월급의 차이에 대해 확인해보도록 하자. 30 세 미만을 ‘young’, 30~59세를 ‘middle’, 60세 이상을 ’old’로 각각 나누고 어느 집단이 가장 많은 월급을 받는지 보자.
위 그래프를 보면 ‘middle’ 집단이 280만원 정도로 가장 많은 월급을 받았고 그 다음 ‘young’과 ’old’ 의 순으로 월급을 많이 받는 다는 것을 알 수 있다. 이는 나이에 따른 월급 차이의 그래프에서 어느정도 예상할 수 있었던 결괏값이다.
3) 연령대 및 성별 월급 차이
그렇다면 연령대 데이터를 성별을 기준으로 다시 나눈다면 어떤 결과가 나올까?
왼쪽 그래프를 보면 사회 초년생때는 남녀 월급의 차이가 크게 없다가 중년기에 들어서면서 격차가 발생하는 것을 확인할 수 있다. 연령대별 월급차이에서 확인했듯이, 남녀 모두 중년기때 가장 많은 월급을 받으나, 여성의 경우 그 편차가 그리 크지 않다는 것을 확인할 수 있다. 오른쪽 그래프는 연령대로 구분하지 않고 나이 및 성별 월급 평균표를 만들어 그래프로 표현해 보았다.
출력된 그래프를 보면 남성의 월급은 50세 전후까지 지속적으로 증가하다가 급격하게 감소하는 반면, 여성은 30세 전후까지 약간 상승하다가 그 이후로는 지속적으로 완만하게 감소한다는 것을 알 수 있다.
4) 직업별 월급 차이
이번에는 직업별로 받는 월급의 차이를 확인해보자. 흔히 습듭이 어려운 기술을 보유했을 경우 돈을 많이 받게 된다. 그리고 보통 이러한 직군은 ’전문직’이라고 불리는 특정 직업들이 있는데 보편적인 인식과 결과가 일치하는지 확인해보자.
- 상위 10개 직군
예상했던 결과와 크게 벗어나지 않는 결과가 나왔다. ‘금속 재료 공학 기술자’, ‘의료 전문가’, ‘금융 관술자’ 등과 같이 진입장벽이 있는 분야의 직군들 위주로 나왔음을 알 수 있다.
- 하위 10개 직군
가사 및 육아 도우미가 가장 낮았고, 임업, 기타 서비스 관련 단순 종사원이 그 뒤를 이었다.
5) 성별 직업 빈도
어떤 성별이 어떤 직군에 종사하고 있는지를 분석을 통해 알아보자. 남성의 작물재배 종사자가 1위, 자동차 운전원이 2위 경영관련 사무원이 3위이다. 여성의 경우 작물재배 종사자가 1위, 청소원이 2위, 매장 판매 종사자가 3위이다.
6) 종교 유무에 따른 이혼율
과거와 다르게 모종의 이유로 이혼을 하는 가구들이 많이 늘었다. 이유야 정말 다양하겠지만, 여기서는 종교 유무에 따른 이혼률을 분석해보았다. 출력된 결괏값을 보면 노년은 종교 유무에 따른 이혼율 차이가 0.1%로 작고, 오히려 종교가 있는 사람들의 이혼율이 더 높다는 것을 확인할 수 있었다.