boxplot 그리기

목표

이번 장에서는 boxplot을 그리는 방법은 배운다. 최종 목표는 다음 그림과 같이 notch가 있고 종류에따라 색깔이 다른 boxplot에 평균값을 넣은 그래프를 만들고자 한다.

2-4-0.png

웹R의 방법

step 1: 데이타 불러오기

예제갤러리에서 성악가의 키(1)을 불러온 후 변수/옵션 초기화를 눌러 변수와 옵션을 초기화한다.

2-4-1.png

step 2: 데이타 살펴보기

singer 데이타는 뉴욕합창단 성악가의 235명의 키에 관한 데이타로 lattice 패키지에 포함되어 있다. 데이타는 성악가의 part(8개)와 키(inch)의 두개의 열로 구성되어 있다.

2-4-2.png

step 3: 변수의 할당 및 boxplot선택

그래프를 그리기 위해 x축변수에 voice.part를 선택하고(1) y축변수에 height를 선택한 후(2) boxplot 체크박스를 선택한다(3).

2-4-3.png

step 4: 색깔채우기: fill 변수의 할당

그래프가 너무 밋밋하므로 색깔을 채우기 위해 fill 변수에 voice.part를 할당한다.

2-4-4.png

step 5: 범례 없애기

이 그래프의 경우 범례가 필요 없다. 범례를 없애려면 범례 위치none으로 선택하면 된다.

2-4-5.png

step 6: 색깔 정하기

채운 색을 없애고 박스의 테두리 색을 지정해주려면 fill 변수는 None을 선택하여 할당을 해제하고 대신 color변수에 voice.part를 할당하면 된다.

2-4-6.png

step 7: 박스에 notch넣기

박스플롯에 notch를 넣고 싶으면 boxplot 옵션에 있는 notch 체크박스를 선택하면 된다. notch는 각 변수의 중앙값(median value)을 표시해주므로 각 범주별로 중앙값을 비교하는데 유용하다.

2-4-7.png

step 8: 이상치(outlier) 표시하지 않기

이상치(outlier)는 디폴트 값으로 까만 점으로 표시된다. 이상치의 색깔(outlier color, 기본값 black) , 크기(out.size, 기본값 2), 모양(out.shape, 기본값 16) 등을 조절할 수 있는데 이상치를 표시하고 싶지 않은 경우는 outlier color에 NA를 설정하면 된다.

2-4-8.png

step 9: 박스플롯에 평균값 넣기

박스플롯에 평균 값을 넣으려면 stat_summary()를 사용하면 된다. 평균은 대개 마름모 모양으로 표시하므로 stat_summary 체크박스를 선택하고 모양(shape)을 마름모 모양(23), 크기(size)를 3으로 약간 키운다.

2-4-10.png

step 10: 테마 선택

화면을 아래로 내려 그림을 확인한 후 테마를 bw를 선택한다(주홍색사각형). 필요할 경우 download figure 또는 download as PDF버튼을 눌러 저정할 수 있다(화살표). 그림 위에는 R 명령어를 확인 할 수 있다(녹색사각형).

2-4-12.png

R의 표준방법

R 명령어를 써서 이 그래프를 그리기 위해서는 다음 명령어를 사용하면 된다.

library(lattice)   # singer 데이타 사용을 위해
library(ggplot2)   # ggplot() 사용을 위해
ggplot(aes(x=voice.part,y=height,colour=voice.part),data=singer)+ #변수의 할당 
 geom_boxplot(outlier.colour=NA,notch=TRUE)+ #outlier표시 안함, notch선택
 stat_summary(geom='point',fun.y=mean,shape=23,size=3)+  #평균을 마름모꼴로 표시
 theme_bw(base_family='Helvetica')+   #테마 선택 및 기본 글꼴 선택
 theme(legend.position='none')        # 범례표시안함