이번 장에서는 boxplot을 그리는 방법은 배운다. 최종 목표는 다음 그림과 같이 notch가 있고 종류에따라 색깔이 다른 boxplot에 평균값을 넣은 그래프를 만들고자 한다.
예제갤러리에서 성악가의 키(1)을 불러온 후 변수/옵션 초기화를 눌러 변수와 옵션을 초기화한다.
singer 데이타는 뉴욕합창단 성악가의 235명의 키에 관한 데이타로 lattice 패키지에 포함되어 있다. 데이타는 성악가의 part(8개)와 키(inch)의 두개의 열로 구성되어 있다.
그래프를 그리기 위해 x축변수에 voice.part를 선택하고(1) y축변수에 height를 선택한 후(2) boxplot 체크박스를 선택한다(3).
그래프가 너무 밋밋하므로 색깔을 채우기 위해 fill 변수에 voice.part를 할당한다.
이 그래프의 경우 범례가 필요 없다. 범례를 없애려면 범례 위치를 none으로 선택하면 된다.
채운 색을 없애고 박스의 테두리 색을 지정해주려면 fill 변수는 None을 선택하여 할당을 해제하고 대신 color변수에 voice.part를 할당하면 된다.
박스플롯에 notch를 넣고 싶으면 boxplot 옵션에 있는 notch 체크박스를 선택하면 된다. notch는 각 변수의 중앙값(median value)을 표시해주므로 각 범주별로 중앙값을 비교하는데 유용하다.
이상치(outlier)는 디폴트 값으로 까만 점으로 표시된다. 이상치의 색깔(outlier color, 기본값 black) , 크기(out.size, 기본값 2), 모양(out.shape, 기본값 16) 등을 조절할 수 있는데 이상치를 표시하고 싶지 않은 경우는 outlier color에 NA를 설정하면 된다.
박스플롯에 평균 값을 넣으려면 stat_summary()를 사용하면 된다. 평균은 대개 마름모 모양으로 표시하므로 stat_summary 체크박스를 선택하고 모양(shape)을 마름모 모양(23), 크기(size)를 3으로 약간 키운다.
화면을 아래로 내려 그림을 확인한 후 테마를 bw를 선택한다(주홍색사각형). 필요할 경우 download figure 또는 download as PDF버튼을 눌러 저정할 수 있다(화살표). 그림 위에는 R 명령어를 확인 할 수 있다(녹색사각형).
R 명령어를 써서 이 그래프를 그리기 위해서는 다음 명령어를 사용하면 된다.
library(lattice) # singer 데이타 사용을 위해
library(ggplot2) # ggplot() 사용을 위해
ggplot(aes(x=voice.part,y=height,colour=voice.part),data=singer)+ #변수의 할당
geom_boxplot(outlier.colour=NA,notch=TRUE)+ #outlier표시 안함, notch선택
stat_summary(geom='point',fun.y=mean,shape=23,size=3)+ #평균을 마름모꼴로 표시
theme_bw(base_family='Helvetica')+ #테마 선택 및 기본 글꼴 선택
theme(legend.position='none') # 범례표시안함