빅데이터 분석론 기말고사

반드시 quarto 파일로 작성하되, 파일 이름은 “학번_이름”으로 하시오.

1. (30점) 다음 데이터를 이용해서 회귀분석을 하시오.

nlsw88.csv

    1. 임금 wage과 노동시간 hour의 산포도와 추세선을 그리시오.
    1. 노조가입 여부 union 변수를 이용하여 산포도와 추세선을 그리고, 임금과 노동시간의 관계가 노조가입 여부에 따라 어떻게 변하는지 간단히 설명하시오.
    1. 회귀분석을 이용하여 노동시간의 임금탄력성을 추정하시오.
    1. 노조가입 여부에 따라 임금탄력성을 각각 추정하고, 그 차이점에 대해서 간략히 설명하시오.

2. Question 3 (30점)

AER 패키지를 설치하고 로딩하시오.

그리고 “CPS1988” 데이터를 불러들이시오. 추정할 모형의 수식을 분명히 밝히시오. 변수들은 다음과 같다.

  • married: Married

  • never_married: Never married

  • grade: grade completed

  • collgrad: College graduate

  • south: Lives in the south

  • smsa: Lives in SMSA

  • c_city: Lives in a central city

  • industry: Industry

  • occupation: Occupation

  • union: Union worker

  • wage: wage

  • hours: hours worked

  • ttl_exp: work experience (years)

  • tenure: tenure (years)

A. (15점) 교육수익률을 추정하시오.

B. (15점) 파트타임 결정에 미치는 모형을 구성하고, 추정하시오.

3. (40점) 열린재정의 open API를 이용해서 다음의 과제를 해결하시오.

A. (5점) 열린재정>재정연구분석>재정분석통계>월간재정동향>수입>국세수입 자료를 불러들이고 이를 df 에 저장하시오. 그리고 다음과 같이 변수 이름을 새로 정의하고, 이 변수들만 남기시오.

year:OJ_YY, month: OJ_M, cat: ISMOK_NM, pro: OUT_RT

B. (5점) cat 중에서 “법인세”를 남기고, year와 pro는 numeric 으로, month는 factor로 속성을 바꾸시오. 특히, month의 경우에는 level이 잘 정의되도록 유의하시오.

C. (10점) 2023년 까지의 월별 진도율의 산포도를 그리고, 2023년의 경우에는 추세선을 그리시오. 아래 그림을 참조하시오(법인세의 경우에는 11월까지 밖에 없음).

D. (20점) ggridges 패키지를 설치하고 아래와 같이 월별 진도의 분포를 분포함수로 그리고, 2023년의 진도율을 표시해 보시오. 색을 적절히 선택해서 그리시오.