对一个连续变量进行分箱,因此这个连续变量的作用就相当于分类变量。接下来就可以使用前面学过的对分类变量和连续变量的组合进行可视化的技术了。例如,你可以对carat进行分箱,然后为每个组生成一个箱线图:
ggplot(data = diamonds, mapping = aes(x=carat,y=price))+
geom_boxplot(mapping = aes(group = cut_width(carat,0.1)))
以上示例使用了cut_width(x,width)函数将x变量分成宽度为width的分箱。默认情况下,不管其中有多少个观测,箱线图看上去都差不多(除了离群点的数量不同),因此很难分辨出每个箱线图是对不同数量的观测进行摘要统计的。如果想要体现这种信息,可以使用参数varwidth = TREU让箱线图的宽度与观测数量成正比。
另一种方法是近似地显示每个分箱中地数据点地数量,此时可以使用cut_number()函数:
ggplot(data = diamonds,mapping = aes(x=carat,y=price))+
geom_boxplot(mapping = aes(group = cut_number(carat,20)))