第三章 类别数据可视化

Author

kaka

1 解释原始数据

  • Titanic数据集是datasets包的配套案例数据,可以通过as.data.frame将其转化为数据框。解析数据包含哪些变量,如果是分类变量分别有哪些类别?

    有class、sex、age、survived、freq这些变量,class分别有1st,2nd,3rd,crew四个类别,sex分别有male,female两个类别,age分别有child,adult两个类别,survived分别有no,yes两个类别

data = as.data.frame(Titanic)
DT::datatable(data,rownames = FALSE)

2 条形图

绘制Sex和 Survived的并列条形图和堆叠条形图,并为条形图添加频数标签。

df <- data %>% select(Sex,Survived,Freq) %>% 
  summarise(n=sum(Freq),.by=c(Sex,Survived))

DT::datatable(df,rownames = FALSE)
# 图(a)垂直并列条形图
p1<-ggplot(df,aes(x=Sex,y=n,fill=Survived))+
  geom_col(width=0.8,    # 设置条形宽度
  position="dodge",      # 绘制并列条形图
  color="gray50")+       # 设置条形图的边框颜色
  scale_fill_brewer(palette="Set2")+  # 设置填充颜色
  geom_text(aes(label=n),position=position_dodge(0.9),vjust=-0.5,size=3)+          # 设置标签垂直位置和字体大小
  ylim(0,1.1*max(df$n))+      # 设置y轴范围
  ggtitle("(a) 垂直并列条形图")

# 图(b) 水平并列条形图
p2<-ggplot(df,aes(x=Sex,y=n,fill=Survived))+
  geom_col(width=0.7,color="gray50")+ # 绘制堆叠条形图(默认)
  geom_text(aes(label=n),position=position_stack(0.5),size=3)+
  scale_fill_brewer(palette="Set2")+
  ggtitle("(b) 垂直堆叠条形图")

grid.arrange(p1,p2,ncol=2)           # 按2列组合图形

2.1 数据准备

  • 下面代码作了什么数据处理?为什么要这样处理?

    原始数据data中只保留三列:Sex、Survived、Freq,将Sex和Survived分组,计算每组的频数总和,存储在新列”n”中,将英文列名改为中文:Sex改为性别,Survived改为生还,n改为人数,这样处理可以聚焦于性别和生还,改成中文更好阅读

# 数据准备
df <- data %>% select(Sex,Survived,Freq) %>% 
  summarise(n=sum(Freq),.by=c(Sex,Survived)) %>% 
  rename(性别=Sex,生还=Survived,人数=n)

DT::datatable(df,rownames = FALSE)

2.2 利用geom_col函数作图

# 图(a)垂直并列条形图
p1<-ggplot(df,aes(x=性别,y=人数,fill=生还))+
  geom_col(width=0.8,    # 设置条形宽度
  position="dodge",      # 绘制并列条形图
  color="gray50")+       # 设置条形图的边框颜色
  scale_fill_brewer(palette="Set2")+  # 设置填充颜色
  geom_text(aes(label=人数),position=position_dodge(0.9),vjust=-0.5,size=3)+          # 设置标签垂直位置和字体大小
  ylim(0,1.1*max(df$人数))+      # 设置y轴范围
  ggtitle("(a) 垂直并列条形图")

# 图(b) 水平并列条形图
p2<-ggplot(df,aes(x=性别,y=人数,fill=生还))+
  geom_col(width=0.7,color="gray50")+ # 绘制堆叠条形图(默认)
  geom_text(aes(label=人数),position=position_stack(0.5),size=3)+
  scale_fill_brewer(palette="Set2")+
  ggtitle("(b) 垂直堆叠条形图")

grid.arrange(p1,p2,ncol=2)           # 按2列组合图形

  • 你可以通过修改数据或者修改刻度标签将图中性别和生还的类别标签改为中文,请给出代码完成修改。
# 图(a)垂直并列条形图
p1<-ggplot(df,aes(x=性别,y=人数,fill=生还))+
  geom_col(width=0.8,    # 设置条形宽度
  position="dodge",      # 绘制并列条形图
  color="gray50")+       # 设置条形图的边框颜色
  scale_fill_brewer(palette="Set2")+  # 设置填充颜色
  geom_text(aes(label=人数),position=position_dodge(0.9),vjust=-0.5,size=3)+          # 设置标签垂直位置和字体大小
  ylim(0,1.1*max(df$人数))+      # 设置y轴范围
  ggtitle("(a) 垂直并列条形图")+
  scale_x_discrete("性别",labels = c("Male" = "女","Female" = "男"))+ 
  scale_fill_discrete("生还",labels = c("Yes" = "是","No" = "否"))


# 图(b) 水平并列条形图
p2<-ggplot(df,aes(x=性别,y=人数,fill=生还))+
  geom_col(width=0.7,color="gray50")+ # 绘制堆叠条形图(默认)
  geom_text(aes(label=人数),position=position_stack(0.5),size=3)+
  scale_fill_brewer(palette="Set2")+
  ggtitle("(b) 垂直堆叠条形图")+
  scale_x_discrete("性别",labels = c("Male" = "女","Female" = "男"))+ 
  scale_fill_discrete("生还",labels = c("Yes" = "是","No" = "否"))

grid.arrange(p1,p2,ncol=2)           # 按2列组合图形

2.3 介绍图形特点和信息

  • 垂直并列条形图将不同组别的条形并列排列在同一分类下,便于直接对比,垂直堆叠条形图将不同组别的条形堆叠在同一分类上,形成整体

3 帕累托图

绘制Class 的帕累托图。

3.1 数据准备

df<-data |> 
  select(Class,Freq) |> 
  summarise(n=sum(Freq),.by=Class) |> 
  rename(乘客舱位=Class,人数=n ) |> 
  arrange(desc(人数)) |> 
  mutate(累积百分比 = cumsum(人数*100/sum(人数)), #计算累积百分比
         累积百分比 = round(累积百分比,1),        #保留一位小数 
         乘客舱位 = fct_inorder(乘客舱位)         #按字符出现顺序定义因子水平
         )

datatable(df,rownames = FALSE)

3.2 利用geom_col()+geom_line()+geom_point()等函数作图

palette<-rev(brewer.pal(4,"Reds"))        # 设置调色板
# 绘制条形图
p<-ggplot(df)+aes(x=乘客舱位,y=人数)+                
  geom_col(width=0.8,fill=palette,color="grey50")+# 绘制条形图
  geom_text(aes(x=乘客舱位,y=人数,label=人数,vjust=-0.5),size=3,color="gray50")+                      # 添加数值标签,垂直调整标签位置
   ylab("人数\n(人)")+               # 设置y轴标签 
  theme(axis.text.y=element_text(angle=90,hjust=0.5,vjust=0.5))+     # 调整y轴标签角度
  theme(legend.position="none")         # 删除图例

# 绘制折线和点
p1<-p+geom_line(aes(x=as.numeric(乘客舱位),y=累积百分比*max(人数/100)))+     # 绘制累积百分比曲线
  geom_point(aes(x=as.numeric(乘客舱位),y=累积百分比*max(人数/100)),
             size=2.5,shape=23,fill="white")+                     # 绘制点
  geom_text(aes(label=累积百分比,x=乘客舱位,y=1*累积百分比*max(人数/100),
    hjust=0.6,vjust=-0.95),size=3,colour="blue3")+                # 添加百分比数值标签
  scale_y_continuous(sec.axis = sec_axis(~./max(df$人数/100)))# 添加坐标轴
p1+annotate("text",x=4.5,y=800,label="百分比(%)",angle=90,size=3.5)+
   annotate("text",x=4,y=500,label="累积百分比曲线",size=3.5)   # 添加注释文本

3.3 介绍图形特点和信息

  • 帕累托图结合了条形图和折线图,条形图按降序排列显示各类别的频数或影响程度。折线图叠加显示累积百分比,帮助快速定位主要因素。

4 脊形图

绘制Class和 Survived 的脊形图。

4.1 数据准备

df<-data |> 
  select(Class,Survived,Freq) |> 
  summarise(n=sum(Freq),.by=c(Class,Survived)) |> #生成列联表并转化成数据框
  mutate(percent=n*100/sum(n),.by="Class")

datatable(df)

4.2 利用geom_col() 作图

ggplot(df)+aes(x=Class,y=percent,fill=Survived)+ylab("百分比(%)")+
  geom_bar(stat="identity",width=0.8,color="grey50")+
  scale_fill_brewer(palette="Blues")

4.3 利用ggiraphExtra包ggSpine()

ggSpine(data=df,aes(x=Survived,fill=Class,facet=Class),
  palette="Reds",labelsize=3,reverse=TRUE)  # 反转调色板颜色

4.4 介绍图形特点和信息

  • 脊形图将条形图沿中心轴(脊柱)对称排列,便于直观比较不同类别的构成比例。

5 树状图和旭日图

绘制Class、Sex、Age和Survived4个变量的矩形树状图和旭日图

5.1 利用treemap::treemap()函数作树状图

df<-data |> 
  select(Class,Sex,Age,Survived,Freq) |> 
  summarise(n=sum(Freq),.by=c(Class,Sex,Age,Survived))  #生成列联表并转化成数据框
  
datatable(df)
treemap(df,index=c("Class","Sex","Age","Survived"),  # 设置聚合索引的列名称
  vSize="n",                                  # 设置指定矩形大小的列名称
  vColor="n",                                 # 确定矩形颜色的列名称
  type="value",                                  # 设置矩形的着色方式
  #fontsize.labels=9,                             # 设置标签字体大小
  title="(b) 分层顺序:Class-Sex-Age-Survived")

5.2 利用sunburstR::sunburst() 函数作旭日图

  • 通过d3r::d3_nest将数据框转化为层次数据“d3.js”作为绘图输入
library(d3r)
df<-data%>%select(Class,Sex,Age,Survived,Freq)  # 根据需要调整列变量的位置
df_tree<-d3_nest(df,value_cols="Freq")          # 将数据框转换为“d3.js”层次结构
datatable(df,rownames = FALSE)
library(sunburstR)
sunburst(data=df_tree,           # 绘制旭日图
   valueField="Freq",    # 计算大小字段的字符为vSize
   count=TRUE,                   # 在解释中包括计数和总数
   sumNodes=TRUE)                # 默认总和节点=TRUE
Legend

5.3 介绍图形特点和信息

6 热图和南丁格尔玫瑰图

绘制Class和Survived 的点阵图、热图和南丁格尔玫瑰图。

6.1 数据准备

df<-data |> 
  select(Class,Survived,Freq) |> 
  summarise(n=sum(Freq),.by=c(Class,Survived))  #生成列联表并转化成数据框
  
datatable(df)
palette<-rev(brewer.pal(11,"RdYlGn"))       # 设置调色板
library(ggpubr)
p1<-ggballoonplot(df,x="Class",y="Survived",   # 设置图形的x轴和y轴
   shape=21,                    # 设置形状,默认21,可选22,23,24,25
   size="n",fill="n",                 # 设置点的大小和填充颜色变量
   size.range = c(1,12),                    # 设置最小点和最大点的范围
   rotate.x.text=FALSE,                     # x轴文本标签不旋转
   ggtheme=scale_fill_gradientn(colors=palette))+  # 设置渐变颜色
   theme(axis.text.y=element_text(angle=90))+      # y轴标签旋转90度
   ggtitle("(a)  Class和Survived的点阵图")

p2<-ggballoonplot(df,x="Class",y="Survived",
   size="n",fill="n",shape=22,        # 用正方形表示数据点
   size.range = c(1,12),                    # 设置最小点和最大点的范围
   rotate.x.text=FALSE,                     # x轴文本标签不旋转
   facet.by=c("n"),                      # 按人数分面
   ggtheme=scale_fill_gradientn(colors=palette))+
   theme(axis.text.y=element_text(angle=90))+
   ggtitle("(b)  按人数分面的点阵图")

ggarrange(p1,p2,ncol=2)    # 按2列组合图形p1和p2

6.2 利用ggiraphExtra::ggHeatmap()作热力图

分别作矩形热图和极坐标热图

df<-data |> 
  select(Class,Survived,Freq) |> 
  summarise(n=sum(Freq),.by=c(Class,Survived))  #生成列联表并转化成数据框
  
datatable(df)
library(ggiraphExtra)
p1<-ggHeatmap(data,aes(x=Class,y=Survived,fill = Freq),          # 绘制矩形热图
   addlabel=TRUE,                                      # 添加数值标签
   palette="Reds")+                                    # 使用红色调色板
   ggtitle("(a1) 矩形热图")    
print(p1)

6.3 利用ggiraphExtra::ggRose() 作玫瑰图

library(ggrepel)
df1<-data.frame(data)  # 构建新的数据框

df1 <- data%>%                                # 提取北京数据,构建新的数据框
  select(Class, Survived, Freq)%>%
  mutate(Class=fct_inorder(Class))        # 将支出项目按出现先后顺序排序

myangle<-seq(-20,-340,length.out=8)       # 设置标签角度,使之垂直于坐标轴
palette<-brewer.pal(8,"Set3")            # 设置离散型调色板
# 绘制玫瑰图
p1 <- ggplot(df1, aes(x = Class, y = Survived, fill = Class)) +  # 修改fill映射为Class      
  geom_col(width = 1, colour = "grey20") +  # 移除fill参数,因为已经在aes中设置
  scale_fill_manual(values = palette) +     # 使用手动设置的调色板
  coord_polar(theta = "x", start = 0) +     # 转化成极坐标图
  theme(axis.text.x = element_text(size = 10, angle = myangle)) + # 设置坐标轴标签字体大小和角度
  ylab("Survived") +                       # 设置y轴标签
  ggtitle("(a) ")

print(p1)

6.4 介绍图形特点和信息

  • 点阵图用点的大小或位置表示数值,适合比较不同类别之间的数值差异,热力图用颜色深浅表示数值大小,适合展示二维数据矩阵,玫瑰图用扇形区域的半径和角度表示数据,视觉冲击力强

7 饼环图

绘制Class和 Sex的饼环图。

7.1 数据准备

df<-data |> 
  select(Class,Sex,Freq) |> 
  summarise(n=sum(Freq),.by=c(Class,Sex)) |> #生成列联表并转化成数据框
  mutate(percent=n*100/sum(n),.by="Class")

datatable(df)

7.2 利用ggiraphExtra::ggPieDonut()作饼环图

library(ggiraphExtra)

p1<-ggPieDonut(data=data,aes(pies=Class,donuts=Sex),
  title="(a) Class为饼图,Sex为环形图")
p2<-ggPieDonut(data=data,aes(pies=Sex,donuts=Freq),
  title="(b) Sex为饼图,Freq为环形图")
grid.arrange(p1,p2,ncol=2)

7.3 介绍图形特点和信息

  • 饼状图用扇形的面积表示各类别在整体中的占比,适合显示部分与整体的关系