개인과제2. 162STG26조현선

과제 소개:

library(ggplot2)
library(grid)
library(gridExtra)
library(dplyr)
mpg

Q1.

What happens if you try to facet by a continuous variable like hwy? What about cyl? What’s the key difference?

문제를 진행하기에 앞서, x축은 displ변수를, y축은 cty변수를 넣어 그래프를 그려보았다.

ggplot(data=mpg, aes(x=displ, y=cty)) + geom_point()

전반적인 트랜드는 볼 수 있었으나, 면분할 기능을 이용하여 다른 변수를 추가하여 좀 더 자세한 비교를 해보고자 한다.

ggplot(data=mpg, aes(x=displ, y=cty)) + geom_point() + facet_wrap( ~hwy, nrow=4) 

위의 그래프는 연속형 변수인 hwy를 기준으로 면을 분할하였다. 그러자 집단들간의 비교가 한 눈에 들어오지 않고 전반적인 트랜드를 파악하기가 더 어려워짐을 확인하였다. 따라서 이런 경우에는 이 연속형 변수를 하나의 그래프에 넣고 분류하고자 하는 변수에 대해 색상같은 에스테틱에 대입하는 것이, 분할하는 방법보다 나을 것이다. 즉, 아래처럼 수정한 플랏이 더 알맞다고 생각된다.

ggplot(data=mpg) + geom_point(mapping=aes(x=displ, y=cty, color=hwy )) 

다음으로 범주형 변수를 기준으로 면을 분할해보고자 한다. 면을 분할하는 방향은 비교를 할 때 무엇을 강조하고자 하느냐에 따라 달라진다. 예를 들어 막대의 높이를 비교하고 싶다면 면을 아래와 같이 수평으로 분할하는 게 낫다. 다음의 코드를 실행한 결과를 보자.

ggplot(data=mpg, aes(x=displ, y=cty)) + geom_point() + facet_wrap( ~cyl, nrow=1) 

cyl의 값에 따른 cty분포를 비교하기가 용이해졌다. 정리하자면, facet을 이용하여 비교를 하고자 할 때는 분할하는 기준이 되는 변수는 범주형 변수가 적절함을 확인하였다.

Q2.

Use facetting to explore the 3-way relationship between fuel economy,engine size, and number of cylinders. How does facetting by number of cylinders change your assessement of the relationship between engine size and fuel economy?

hwy는 연료의 경제성, displ은 엔진의 사이즈를 의미하고, cyl은 실린더의 개수이다. 먼저 엔진의 사이즈와 연료경제성만을 가지고 그래프를 그려보면, 엔진의 크기가 커질 수록 연료의 경제성이 줄어드는 모습을 볼 수 있다.

ggplot(data=mpg, aes(x=displ, y=hwy)) + geom_point() 

연비에 영향을 미치는 요인이 엔진의 크기 때문이라고 결론을 내리기 전에, 실린더의 개수도 고려하여 그래프를 그려보았다.

ggplot(data=mpg, aes(x=displ, y=hwy)) + geom_point() + facet_grid(.~cyl) 

그러자 위와 같이, 실린더의 갯수가 많을 수록 엔진의 크기가 큰 값을 가진다는것을 볼 수 있었다. 따라서, 실린더의 갯수에 따라 엔진의 크기가 영향을 받을 것이고, 연비를 낮추는 요인으로 작용할 것이라는 걸 파악할 수 있게 되었다.

Q3.

What does the scales argument to facet_wrap() do? When might you use it?

축의 범위 또는 항목이 다른 하위 그래프들을 그리고 싶을 때가 있다. 이럴 때는 scales를 “free_x”,“free_y”또는 “free”로 설정한다. scale에 대한 조정을 하지 않은 class로 분할된 기본 그래프를 먼저 그려보았다.

ggplot(mpg, aes(x=displ, y=hwy))+geom_point()+facet_wrap(~class, nrow=2)

위의 그림을 보면, 축의 기준이 같으므로 전반적인 트랜드는 확인 할 수 있다. 그러나 그래프 개개인의 분포가 뭉개진듯이 특성이 보이지 않고 뭉쳐서 보이므로, 각 도표마다의 특성을 확인 하고 싶을 수 있다. 그럴 때는 아래와 같이 scales에 free라고 옵션을 주어 x 및 y 축 눈금을 자유롭게 해보았다.

ggplot(mpg, aes(x=displ, y=hwy))+geom_point()+facet_wrap(~class, nrow=2, scales="free")

이제 x와 y눈금이 자유롭게 만들어져서 적용됨을 확인할 수 있었다. 그리고 전의 그래프에서는 보이지 않던 각 class 에 따른 수준의 특성들이 보임을 알 수 있다. 과제 1번부터 3번 문항을 정리해보면, “이산” 값 축을 사용하면서 “눈금을 자유롭게” 변경하여 면 분할 하는 방법을 살펴보았다.

Q4.

What’s the problem with the plot created by ggplot(mpg, aes(cty, hwy)) + geom_point()? Which of the geoms described above is most effective at remedying the problem?

nrow(mpg)
[1] 234
ggplot(mpg, aes(cty, hwy)) + geom_point()

위의 그림의 문제점은, 234개정도의 데이터 점들이 서로 겹쳐서 그래프를 볼 때 데이터의 분포를 정확히 가늠하기가 어렵고, 상대적인 밀도를 알아보기 어렵다는 것이다. 이것을 ’overplot’이라고 표현하는데, 이해 대한 해결책이 몇 가지를 제시해보면 다음과 같다.

데이터의 x축과 y축을 연속형으로 보고, 앞의 두가지 방법에 대해 실행해보고자 한다. 먼저 반투명하게 점을 그리는 과정이다.

ggplot(mpg, aes(cty, hwy)) + geom_point(alpha=0.2)

조금 경향이 잘 보이기는 하나, gray scale이므로 여전히 모호한 부분이 있다. 다음으로 점들을 정사각형으로 bin을 주고, 점들의 밀도에 따라 색상을 준다.

ggplot(mpg, aes(cty, hwy)) + stat_bin2d() + scale_fill_gradient(low="lightblue", high="red")

Q5.

One challenge with ggplot(mpg, aes(class, hwy)) + geom_boxplot() is that the ordering of class is alphabetical, which is not terribly useful. How could you change the factor levels to be more informative?

p1 = ggplot(mpg, aes(class, hwy)) + geom_boxplot()
p2 = ggplot(mpg, aes(x=reorder(class,hwy,FUN = median ),y=hwy)) + geom_boxplot()+labs(x= 'class')
grid.arrange(p1, p2, ncol = 2)

왼쪽의 그래프처럼 알파벳 순으로 박스플랏을 그린 경우, 보기도 어렵고 한 눈에 데이터 파악이 쉽지않다. 따라서 오른쪽의 그림처럼 median의 값이 작은 순서대로 차례로 박스플랏을 그려주는 것이 보기 좋다. reorder option을 사용하여 x와 y에 대해 재정렬을 해주었음을 코드를 통해 확인할 수 있다.

Q6.

Using the techniques already discussed in this chapter, come up with three ways to visualize a 2d categorical distribution. Try them out by visualising the distribution of model and manufacturer, trans and class, and cyl and trans.

CASE.1 model and manufacturer

model과 manufacturer에 대해 그래프를 그리기 전에 데이터를 정리하였다.

df1<-as.data.frame(cbind(mpg$manufacturer,mpg$model))
colnames(df1) <- c("manufacturer","model")
df2<-as.data.frame(table(mpg$model))
colnames(df2) <- c("model","freq")
new_tables<-as.data.frame(unique(merge(x=df1,y=df2,by="model")))[,c("manufacturer","model","freq")]
new_tables<-arrange(new_tables,manufacturer,desc(freq),model)
nameorder <- new_tables$model[order(new_tables$manufacturer,new_tables$freq)]
new_tables$model <- factor(new_tables$model,levels =nameorder)
new_tables

이렇게 정리한 데이터를 이용하여 그래프를 그리고자 한다. 이 데이터를 표현하기 위해 “크리블랜드 점 그래프(Cleveland dot plot)”을 만들고자 한다. 클리블랜드 점 그래프는 보기에 덜 어수선하고 보기 쉬워 막대 그래프 대신에 사용되곤 한다. 자동차 제조사별로 묶어서 구분을 하고, 그 안에서 많이 조사된 모델별로 sort하여 그림을 나타내면 다음과 같이 표현할 수 있다.

ggplot(new_tables, aes(x=freq,y=model))+
  geom_segment(aes(yend=model),xend=0,colour="grey50")+
  geom_point(size=3, aes(colour=manufacturer))+
  theme_bw()+
  theme(panel.grid.major.y = element_blank())+
  facet_grid(manufacturer~.,scale="free_y",space="free_y")+
  theme(strip.text.y = element_text(angle=0,face="bold"))

CASE.2 trans and class

범주형 변수인 trans와 class를 도식화하기 전에 두 변수를 정리하고 해당하는 빈도에 대해 다음과 같이 표로 정리해보았다.

df3<-as.data.frame(cbind(mpg$trans,mpg$class))
colnames(df3)<-c("trans","class")
trans_class<-arrange(df3,factor(trans),class)
table(trans_class)
            class
trans        2seater compact midsize minivan pickup subcompact suv
  auto(av)         0       2       3       0      0          0   0
  auto(l3)         0       1       0       1      0          0   0
  auto(l4)         1       8      14       8     12         11  29
  auto(l5)         0       4       5       0      8          4  18
  auto(l6)         0       0       0       2      0          0   4
  auto(s4)         0       2       1       0      0          0   0
  auto(s5)         0       2       0       0      0          0   1
  auto(s6)         1       5       6       0      0          1   3
  manual(m5)       0      18       9       0      8         16   7
  manual(m6)       3       5       3       0      5          3   0

이 table을 이용하여 data frame을 정의하고 이를 이용하여 heatmap을 도식화하면 아래와 같고, 그림을 보면 위의 table을 그대로 잘 표현해냈음을 확인할 수 있다.

tr_cl<-as.data.frame(table(trans_class))
ggplot(tr_cl,aes(x=class, y=trans, fill=Freq)) + geom_raster() + ylim(rev(levels(tr_cl$trans)))+
  scale_fill_gradient(low="#FFCCFF", high="#660066")

CASE.3 cyl and trans

마지막으로 실린더수(cyl)과 변속기(trans) 사이의 관계에 대해 그림으로 나타내고자 한다. 변속기 변수를 살펴 보면 크게 auto와 manual로 명칭이 나누어져 있음을 알 수 있다. 이를 고려하여 새로운 데이터 프레임 형태를 만들어 보았다.

big_trans <- NULL
for (i in 1:length(trans)){
  if(grepl(auto,trans[i])==TRUE){
    big_trans[i] <- "auto"
  }else{
    big_trans[i] <- "manual"
  }
}
trdf<-as.data.frame(cbind(mpg$trans, mpg$cyl, big_trans))
colnames(trdf)<-c("trans","cyl","auto_manual")
autogroup<-table(arrange(trdf,factor(trans),cyl,auto_manual))[,,1][-c(9:10),]
manualgroup<-table(arrange(trdf,factor(trans),cyl,auto_manual))[,,2][-c(1:8),]
auto_df<-as.data.frame(autogroup)
manual_df<-as.data.frame(manualgroup)
print(autogroup)
          cyl
trans       4  5  6  8
  auto(av)  2  0  3  0
  auto(l3)  2  0  0  0
  auto(l4) 24  0 29 30
  auto(l5)  6  0 16 17
  auto(l6)  0  0  2  4
  auto(s4)  2  0  0  1
  auto(s5)  1  0  1  1
  auto(s6)  4  2  5  5
print(manualgroup)
            cyl
trans         4  5  6  8
  manual(m5) 33  2 18  5
  manual(m6)  7  0  5  7

위처럼 변속기의 구성이 자동과 수동으로 크게 두 개의 테이블로 나누었다. 이제 이를 이용하여 heatmap처럼 도식화하여 표현하면 다음과 같다.

a1<-ggplot(auto_df,aes(x=cyl, y=trans, fill=Freq)) + geom_raster() + ylim(rev(levels(auto_df$trans)))+
  scale_fill_gradient(low="#CCCCCC", high="#CC0000",limits=c(1,35),breaks=c(0,10,20,30))+
  ggtitle("Auto transmission distribution")
a2<-ggplot(manual_df,aes(x=cyl, y=trans, fill=Freq)) + geom_raster() + ylim(rev(levels(manual_df$trans)))+
  scale_fill_gradient(low="#CCCCCC", high="#CC0000",limits=c(0,35),breaks=c(0,10,20,30))+
  ggtitle("Manual transmission distribution")
grid.arrange(a1, a2, nrow = 2)

위의 그래프를 보면 자동변속기에서는 cyl개수가 5개인 차량은 거의 없었고, 대부분의 cyl개수와 상관없이 auto(I4)라는 변속기 종류가 관측이 많이 되었음을 볼 수 있었다. 수동변속기에서는 cyl개수가 4개인 경우가 많았고, m5종류가 m6보다 많음을 시각적으로 확인할 수 있었다.

