2016년 국민 건강정보 데이터를 기반으로 먼저 남자와 여자의 흡연상태를 알아보고자 했다. 먼저 2016년 국민 건강정보 데이터의 기준에 따라 1(피우지 않는다), 2(이전에 피웠으나 끊었다), 3(현재도 피우고 있다) 의 기준으로 나누었다
read.csv('./data/hi.csv', header=TRUE)
install.packages("tidyverse", repos="http://cran.us.r-project.org")
## Installing package into 'C:/Users/ohsan/Documents/R/win-library/3.5'
## (as 'lib' is unspecified)
## package 'tidyverse' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\ohsan\AppData\Local\Temp\RtmpaAGiSA\downloaded_packages
library(tidyverse)
## -- Attaching packages ----------------------- tidyverse 1.2.1 --
## √ ggplot2 3.1.0 √ purrr 0.2.5
## √ tibble 1.4.2 √ dplyr 0.7.7
## √ tidyr 0.8.2 √ stringr 1.3.1
## √ readr 1.1.1 √ forcats 0.3.0
## -- Conflicts -------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
ggplot2::ggplot()
atp<- read.csv('./data/hi.csv', header=TRUE)
adp<- ggplot(data=atp)
amp1<-filter(atp, 성별코드==1)
ggplot(data=amp1)+geom_bar(mapping=aes(x=흡연상태), color="red")
## Warning: Removed 57 rows containing non-finite values (stat_count).
amp2<-filter(atp, 성별코드==2)
ggplot(data=amp2)+geom_bar(mapping=aes(x=흡연상태))
## Warning: Removed 156 rows containing non-finite values (stat_count).
처음 표는 남자의 데이터이고, 두번째 표는 여자의 데이터이다.
일반적으로 생각할 수 있듯이, 결과적으로 남자가 여자보다 훨씬 담배를 많이 핀다는 사실을 알 수 있다.
먼저 남자의 그래프를 보면, 전체의 2/3이 흡연경협이 있다는 사실을 알 수 있고 1/3이 이상이 현재도 피고있다는 사실을 알 수 있다.
반면에, 여자의 경우 대다수의 사람이 1, 즉 흡연 경험이 없다는 사실을 알 수 있다.
amp1<-filter(atp, 성별코드==1)
gtp1<-filter(amp1, 흡연상태==1)
ggplot(data=gtp1)+geom_bar(mapping=aes(x=혈색소))
## Warning: Removed 14 rows containing non-finite values (stat_count).
gtp2<-filter(amp1, 흡연상태==2)
ggplot(data=gtp2)+geom_bar(mapping=aes(x=혈색소))
## Warning: Removed 5 rows containing non-finite values (stat_count).
gtp3<-filter(amp1, 흡연상태==3)
ggplot(data=gtp3)+geom_bar(mapping=aes(x=혈색소))
## Warning: Removed 6 rows containing non-finite values (stat_count).
생각하던 것과 결과가 다르게 나왔는데 먼저 y축의 count는 사람 수를 의미하고 x축이 혈색수 수치이다.
신기하게도 1그래프, 2그래프, 3그래프 셋 다 혈색소 수치에 따른 형태변화는 없고 높이 변화만 있을 뿐이다. 그 변화는 단순히 3번 그룹 즉 담배를 피는 사람의 숫자가 더 많아 1, 2번 그래프 보다 더 높게 나온 것 뿐이다 .즉 담배를 피든 안 피든 혈색소 수치가 나빠진다라는 결론을 이 그래프를 보고서는 알아 낼 수 없다는 뜻이다.