빅데이터 분석론 기말고사
반드시 quarto 파일로 작성하되, 파일 이름은 “학번_이름”으로 하시오.
1. (30점) 엄마의 흡연이 태아의 건강에 어떤 영향을 주는지를 검정하는 프로젝트입니다.
“baby.csv” 자료를 불러들이시오(변수 특성은 문제 끝 설명 참조)
엄마의 흡연(mbsmoke) 여부에 따라
1) (10점) 아동의 몸무게(bweight)가 얼마나 다른지 탐색적 분석을 통해 살펴보고
2) (5점) 회귀분석 결과는 어떤지 보고하세요.
3) (15점) 산모의 연령에 따라 아동의 몸무게가 어떻게 다른지 산포도를 그리되 엄마의 흡연 여부에 따라 어떻게 다른지 산포도에 반영하시오.
**변수설명 참조**
bweight: infant birthweight (grams)
mmarried: 1 if mother married
mhisp: 1 if mother hispanic
fhisp: 1 if father hispanic
foreign: 1 if mother born abroad
alcohol: 1 if alcohol consumed during pregnancy
deadkids: previous births where newborn died
mage: mother’s age
medu: mother’s education attainment
fage: father’s age
fedu: father’s education attainment
nprenatal: number of prenatal care visits
monthslb: months since last birth
order: order of birth of the infant
msmoke: cigarettes smoked during pregnancy
mbsmoke: 1 if mother smoked
mrace: 1 if mother is white
frace: 1 if father is white
prenatal: trimester of first prenatal care visit
birthmonth: month of birth
lbweight: 1 if low birthweight baby
fbaby: 1 if first baby
prenatal1: 1 if first prenatal visit in 1 trimester
2. (30점) 다음 데이터를 이용해서 회귀분석을 하시오.
AER 패키지를 설치하고 로딩하시오.
그리고 “CPS1988” 데이터를 불러들이시오. 추정할 모형의 수식을 분명히 밝히시오. 변수들은 다음과 같다.
A. (15점) 교육수익률을 추정하시오.
B. (15점) 파트타임 결정에 미치는 모형을 구성하고, 추정하시오.
3. (40점) 열린재정의 open API를 이용해서 다음의 과제를 해결하시오.
A. (5점) 열린재정>재정연구분석>재정분석통계>월간재정동향>수입>국세수입 자료를 불러들이고 이를 df 에 저장하시오. 그리고 다음과 같이 변수 이름을 새로 정의하고, 이 변수들만 남기시오.
year:OJ_YY, month: OJ_M, cat: ISMOK_NM, pro: OUT_RT
B. (5점) cat 중에서 “소득세”를 남기고, year와 pro는 numeric 으로, month는 factor로 속성을 바꾸시오. 특히, month의 경우에는 level이 잘 정의되도록 유의하시오.
C. (10점) 2023년 까지의 월별 진도율의 산포도를 그리고, 2023년의 경우에는 추세선을 그리시오. 아래 그림을 참조하시오(소득세의 경우에는 11월까지 밖에 없음).
D. (20점) ggridges 패키지를 설치하고 아래와 같이 월별 진도의 분포를 분포함수로 그리고, 2023년의 진도율을 표시해 보시오. 색을 적절히 선택해서 그리시오.