이번 레포트의 주제로 나는 흡연과 성별, 그리고 흡연상태와 혈색소 사이의 상관관계를 조사해보고자 한다.

성별과 흡연상태간 상관관계

2016년 국민 건강정보 데이터를 기반으로 먼저 남자와 여자의 흡연상태를 알아보고자 했다. 먼저 2016년 국민 건강정보 데이터의 기준에 따라 1(피우지 않는다), 2(이전에 피웠으나 끊었다), 3(현재도 피우고 있다) 의 기준으로 나누었다

read.csv('./data/hi.csv', header=TRUE)
install.packages("tidyverse", repos="http://cran.us.r-project.org")
## Installing package into 'C:/Users/ohsan/Documents/R/win-library/3.5'
## (as 'lib' is unspecified)
## package 'tidyverse' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\ohsan\AppData\Local\Temp\RtmpaAGiSA\downloaded_packages
library(tidyverse)
## -- Attaching packages ----------------------- tidyverse 1.2.1 --
## √ ggplot2 3.1.0     √ purrr   0.2.5
## √ tibble  1.4.2     √ dplyr   0.7.7
## √ tidyr   0.8.2     √ stringr 1.3.1
## √ readr   1.1.1     √ forcats 0.3.0
## -- Conflicts -------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
ggplot2::ggplot()

atp<- read.csv('./data/hi.csv', header=TRUE)

adp<- ggplot(data=atp)

amp1<-filter(atp, 성별코드==1)

ggplot(data=amp1)+geom_bar(mapping=aes(x=흡연상태), color="red")
## Warning: Removed 57 rows containing non-finite values (stat_count).

amp2<-filter(atp, 성별코드==2)

ggplot(data=amp2)+geom_bar(mapping=aes(x=흡연상태))
## Warning: Removed 156 rows containing non-finite values (stat_count).

처음 표는 남자의 데이터이고, 두번째 표는 여자의 데이터이다.
일반적으로 생각할 수 있듯이, 결과적으로 남자가 여자보다 훨씬 담배를 많이 핀다는 사실을 알 수 있다.
먼저 남자의 그래프를 보면, 전체의 2/3이 흡연경협이 있다는 사실을 알 수 있고 1/3이 이상이 현재도 피고있다는 사실을 알 수 있다.
반면에, 여자의 경우 대다수의 사람이 1, 즉 흡연 경험이 없다는 사실을 알 수 있다.

혈색소란 혈액이나 혈구 속에 존재하여 산소의 운반에 관여하는 물질이다. 이번 보고서에서 흡연이 혈색소에 영향을 미치는 안 미치는지 알아보고 싶어 1(흡연을 안하는 남자), 2 (흡연을 하다가 끊은 남자), 3(흡연을 하고있는 남자)로 나누어 혈색소수치를 대입해 보았다.

amp1<-filter(atp, 성별코드==1)

gtp1<-filter(amp1, 흡연상태==1)
ggplot(data=gtp1)+geom_bar(mapping=aes(x=혈색소))
## Warning: Removed 14 rows containing non-finite values (stat_count).

gtp2<-filter(amp1, 흡연상태==2)
ggplot(data=gtp2)+geom_bar(mapping=aes(x=혈색소))
## Warning: Removed 5 rows containing non-finite values (stat_count).

gtp3<-filter(amp1, 흡연상태==3)
ggplot(data=gtp3)+geom_bar(mapping=aes(x=혈색소))
## Warning: Removed 6 rows containing non-finite values (stat_count).

생각하던 것과 결과가 다르게 나왔는데 먼저 y축의 count는 사람 수를 의미하고 x축이 혈색수 수치이다.
신기하게도 1그래프, 2그래프, 3그래프 셋 다 혈색소 수치에 따른 형태변화는 없고 높이 변화만 있을 뿐이다. 그 변화는 단순히 3번 그룹 즉 담배를 피는 사람의 숫자가 더 많아 1, 2번 그래프 보다 더 높게 나온 것 뿐이다 .즉 담배를 피든 안 피든 혈색소 수치가 나빠진다라는 결론을 이 그래프를 보고서는 알아 낼 수 없다는 뜻이다.

남자와 여자의 흡연상태를 알아보고 흡연상태가 다양한 남자를 기준으로 흡연상태에 따른 혈색소 수치를 비교해 보았다.