data = as.data.frame(Titanic)
DT::datatable(data,rownames = FALSE)第三章 类别数据可视化
1 解释原始数据
Titanic数据集是datasets包的配套案例数据,可以通过as.data.frame将其转化为数据框。解析数据包含哪些变量,如果是分类变量分别有哪些类别?- 答:数值变量Freq,分类变量Class有1st 2nd 3rd Crew类别,分类变量Sex有Male Female类别,分类变量Age有Child Adult类别,分类变量Survived有Yes No类别。
2 条形图
绘制Sex和 Survived的并列条形图和堆叠条形图,并为条形图添加频数标签。
2.1 数据准备
- 下面代码作了什么数据处理?为什么要这样处理?答:做了数据预处理,将不需要的变量过滤掉
# 数据准备
df <- data %>% select(Sex,Survived,Freq) %>%
summarise(n=sum(Freq),.by=c(Sex,Survived)) %>%
rename(性别=Sex,生还=Survived,人数=n)
DT::datatable(df,rownames = FALSE)2.2 利用geom_col函数作图
# 图(a)垂直并列条形图
p1<-ggplot(df,aes(x=性别,y=人数,fill=生还))+
geom_col(width=0.8, # 设置条形宽度
position="dodge", # 绘制并列条形图
color="gray50")+ # 设置条形图的边框颜色
scale_fill_brewer(palette="Set2")+ # 设置填充颜色
geom_text(aes(label=人数),position=position_dodge(0.9),vjust=-0.5,size=3)+ # 设置标签垂直位置和字体大小
ylim(0,1.1*max(df$人数))+ # 设置y轴范围
ggtitle("(a) 垂直并列条形图")
# 图(b) 水平并列条形图
p2<-ggplot(df,aes(x=性别,y=人数,fill=生还))+
geom_col(width=0.7,color="gray50")+ # 绘制堆叠条形图(默认)
geom_text(aes(label=人数),position=position_stack(0.5),size=3)+
scale_fill_brewer(palette="Set2")+
ggtitle("(b) 垂直堆叠条形图")
grid.arrange(p1,p2,ncol=2) # 按2列组合图形- 你可以通过修改数据或者修改刻度标签将图中性别和生还的类别标签改为中文,请给出代码完成修改。
# 图(a)垂直并列条形图
p1<-ggplot(df,aes(x=性别,y=人数,fill=生还))+
geom_col(width=0.8, # 设置条形宽度
position="dodge", # 绘制并列条形图
color="gray50")+ # 设置条形图的边框颜色
scale_fill_brewer(palette="Set2")+ # 设置填充颜色
geom_text(aes(label=人数),position=position_dodge(0.9),vjust=-0.5,size=3)+ # 设置标签垂直位置和字体大小
ylim(0,1.1*max(df$人数))+ # 设置y轴范围
ggtitle("(a) 垂直并列条形图")+
scale_x_discrete(
"性别",
labels=c("男","女")
)+
scale_fill_discrete(
"生还",
labels=c("否","是")
)
# 图(b) 水平并列条形图
p2<-ggplot(df,aes(x=性别,y=人数,fill=生还))+
geom_col(width=0.7,color="gray50")+ # 绘制堆叠条形图(默认)
geom_text(aes(label=人数),position=position_stack(0.5),size=3)+
scale_fill_brewer(palette="Set2")+
ggtitle("(b) 垂直堆叠条形图")+
scale_x_discrete(
"性别",
labels=c("男","女")
)+
scale_fill_discrete(
"生还",
labels=c("否","是")
)
grid.arrange(p1,p2,ncol=2) # 按2列组合图形#修改数据
# 修改 "性别" 列:将 "male" 改为 "男性","female" 改为 "女性"
df$性别 <- factor(df$性别,
levels = c("Male", "Female"),
labels = c("男性", "女性"))
# 修改 "生还" 列:将 "Yes" 改为 "生还","No" 改为 "未生还"
df$生还 <- factor(df$生还,
levels = c("Yes", "No"),
labels = c("生还", "未生还"))
# 查看修改后的数据
print(df) 性别 生还 人数
1 男性 未生还 1364
2 女性 未生还 126
3 男性 生还 367
4 女性 生还 344
# 图(a)垂直并列条形图
p1<-ggplot(df,aes(x=性别,y=人数,fill=生还))+
geom_col(width=0.8, # 设置条形宽度
position="dodge", # 绘制并列条形图
color="gray50")+ # 设置条形图的边框颜色
scale_fill_brewer(palette="Set2")+ # 设置填充颜色
geom_text(aes(label=人数),position=position_dodge(0.9),vjust=-0.5,size=3)+ # 设置标签垂直位置和字体大小
ylim(0,1.1*max(df$人数))+ # 设置y轴范围
ggtitle("(a) 垂直并列条形图")
# 图(b) 水平并列条形图
p2<-ggplot(df,aes(x=性别,y=人数,fill=生还))+
geom_col(width=0.7,color="gray50")+ # 绘制堆叠条形图(默认)
geom_text(aes(label=人数),position=position_stack(0.5),size=3)+
scale_fill_brewer(palette="Set2")+
ggtitle("(b) 垂直堆叠条形图")
grid.arrange(p1,p2,ncol=2) # 按2列组合图形2.3 介绍图形特点和信息
图(a) 适合比较“性别内”不同生还情况的差异;
图(b) 更适合比较“性别间”总体人数和生还比例的对比
两者结合可全面理解在性别维度上生还情况的分布特征。
3 帕累托图
绘制Class 的帕累托图。
3.1 数据准备
df<-data |>
select(Class,Freq) |>
summarise(n=sum(Freq),.by=Class) |>
rename(乘客舱位=Class,人数=n ) |>
arrange(desc(人数)) |>
mutate(累积百分比 = cumsum(人数*100/sum(人数)), #计算累积百分比
累积百分比 = round(累积百分比,1), #保留一位小数
乘客舱位 = fct_inorder(乘客舱位) #按字符出现顺序定义因子水平
)
datatable(df,rownames = FALSE)3.2 利用geom_col()+geom_line()+geom_point()等函数作图
palette<-rev(brewer.pal(4,"Reds")) # 设置调色板
# 绘制条形图
p<-ggplot(df)+aes(x=乘客舱位,y=人数)+
geom_col(width=0.8,fill=palette,color="grey50")+# 绘制条形图
scale_x_discrete(labels=c("Crew","1st","2nd","3rd"))+ # 将x轴的长标签折行
geom_text(aes(x=乘客舱位,y=人数,label=人数,vjust=-0.5),size=3,color="gray50")+ # 添加数值标签,垂直调整标签位置
ylab("人数\n(人)")+ # 设置y轴标签
theme(axis.text.y=element_text(angle=90,hjust=0.5,vjust=0.5))+ # 调整y轴标签角度
theme(legend.position="none") # 删除图例
# 绘制折线和点
p1<-p+geom_line(aes(x=as.numeric(乘客舱位),y=累积百分比*max(人数/100)))+ # 绘制累积百分比曲线
geom_point(aes(x=as.numeric(乘客舱位),y=累积百分比*max(人数/100)),
size=2.5,shape=23,fill="white")+ # 绘制点
geom_text(aes(label=累积百分比,x=乘客舱位,y=1*累积百分比*max(人数/100),
hjust=0.6,vjust=-0.95),size=3,colour="blue3")+ # 添加百分比数值标签
scale_y_continuous(sec.axis = sec_axis(~./max(df$人数/100)))# 添加坐标轴
p1+annotate("text",x=4.3,y=800,label="百分比(%)",angle=90,size=3.5)+
annotate("text",x=3,y=700,label="累积百分比曲线",size=3.5) # 添加注释文本3.3 介绍图形特点和信息
分布不均衡性明显:前两个类别(Crew 和 3rd)人数占总人数的72.3%,说明这两类是主要构成人群。1st 和 2nd 类别人数较少,仅占总人数的27.7%。
累计百分比曲线(帕累托原理):体现“二八法则”:少数类别贡献了大多数人数。有助于聚焦前几个主要类别(如Crew、3rd)进行资源或策略优化。
4 脊形图
绘制Class和 Survived 的脊形图。
4.1 数据准备
# 数据处理
df <- data %>%
group_by(Class, Survived) %>%
summarise(人数 = sum(Freq), .groups = "drop") %>%
mutate(
百分比 = 人数 * 100 / sum(人数),
.by = "Class" # 按舱位分组计算
) %>%
rename(
舱位等级 = Class,
生存状态 = Survived
)
datatable(df,rownames = FALSE)4.2 利用geom_col() 作图
ggplot(df)+aes(x=生存状态,y=百分比,fill=舱位等级)+ylab("百分比(%)")+
geom_bar(stat="identity",width=0.8,color="grey50")+
scale_fill_brewer(palette="Blues")4.3 利用ggiraphExtra包ggSpine()
ggSpine(data=df,aes(x=舱位等级,fill=生存状态,facet=生存状态),
palette="Reds",labelsize=3,reverse=TRUE) # 反转调色板颜色4.4 介绍图形特点和信息
- 一等舱乘客存活率最高,未存活率最低,显示出社会地位或舱位等级对存活率的影响。
- 船员虽然未存活比例最高,但存活比例也不低,可能与职责或救援优先级有关。
- 三等舱乘客未存活比例较高,存活率较低,可能反映了资源分配或逃生机会的不平等。
5 树状图和旭日图
绘制Class、Sex、Age和Survived4个变量的矩形树状图和旭日图
5.1 利用treemap::treemap()函数作树状图
data = as.data.frame(Titanic)
DT::datatable(data,rownames = FALSE)# 图(a)分层顺序:Sex—Class—Age-Survived
treemap(data,index=c("Sex","Class","Age","Survived"), # 设置聚合索引的列名称
vSize="Freq", # 指定矩形大小的列名称
fontsize.labels=9, # 设置标签字体大小
position.legend="bottom", # 设置图例位置
title="(a) 分层顺序:Sex—Class—Age-Survived")5.2 利用sunburstR::sunburst() 函数作旭日图
- 通过
d3r::d3_nest将数据框转化为层次数据“d3.js”作为绘图输入
library(d3r)
df<-data%>%select(Class,Sex,Age,Survived) # 根据需要调整列变量的位置
df_tree<-d3_nest(df,value_cols="Survived") # 将数据框转换为“d3.js”层次结构
datatable(df,rownames = FALSE)library(sunburstR)
sunburst(data=df_tree, # 绘制旭日图
valueField="Freq", # 计算大小字段的字符为vSize
count=TRUE, # 在解释中包括计数和总数
sumNodes=TRUE) # 默认总和节点=TRUE5.3 介绍图形特点和信息
6 热图和南丁格尔玫瑰图
绘制Class和Survived 的点阵图、热图和南丁格尔玫瑰图。
6.1 数据准备
library(dplyr)
library(DT)
df <- as.data.frame(Titanic) %>%
select(Class, Survived, Freq) %>%
group_by(Class, Survived) %>%
summarise(人数 = sum(Freq), .groups = "drop") %>%
rename(乘客舱位 = Class, 生还情况 = Survived)
datatable(df, rownames = FALSE)6.2 利用ggiraphExtra::ggHeatmap()作热力图
分别作矩形热图和极坐标热图
library(ggiraphExtra)
library(ggplot2)
p1 <- ggHeatmap(df,
aes(x = 乘客舱位, y = 生还情况, fill = 人数),
color = "white") +
scale_fill_gradient(low = "white", high = "red") +
ggtitle("泰坦尼克号生还情况矩形热图") +
theme_minimal()
p2 <- ggHeatmap(df,
aes(x = 乘客舱位, y = 生还情况, fill = 人数),
polar = TRUE) +
scale_fill_gradient(low = "white", high = "blue") +
ggtitle("泰坦尼克号生还情况极坐标热图") +
theme_minimal()
library(gridExtra)
grid.arrange(p1, p2, ncol = 2)6.3 利用ggiraphExtra::ggRose() 作玫瑰图
6.4 介绍图形特点和信息
- 该玫瑰图清晰展示了泰坦尼克号乘客按舱位和生存情况的人数分布。
7 饼环图
绘制Class和 Sex的饼环图。
7.1 数据准备
# 加载必要的包
library(dplyr)
library(ggiraphExtra)
library(gridExtra)
# 加载 Titanic 数据
data <- as.data.frame(Titanic)
# 按 Class 和 Sex 分组汇总人数,并排序
df <- data %>%
group_by(Class, Sex) %>%
summarise(人数 = sum(Freq), .groups = "drop") %>%
mutate(Class = factor(Class, levels = c("1st", "2nd", "3rd", "Crew")),
Sex = factor(Sex, levels = c("Male", "Female"))) %>%
arrange(Class, Sex) # 确保 Class 和 Sex 按顺序排列
# 为 p2 准备按 Sex 和 Class 排序的数据
df_alt <- df %>%
arrange(Sex, Class)
datatable(df,rownames = FALSE)7.2 利用ggiraphExtra::ggPieDonut()作饼环图
# 绘制第一个饼环图:Class 为饼图,Sex 为环图
p1 <- ggPieDonut(
data = df,
mapping = aes(pies = Class, donuts = Sex, count = 人数), # 明确指定 count
title = "(a) 舱位分布(饼图)与性别分布(环图)",
interactive = FALSE, # 禁用交互(避免标签重叠)
labelposition = 1 # 标签在外侧
) +
scale_fill_brewer(palette = "Set1") # 使用多彩调色板
# 绘制第二个饼环图:Sex 为饼图,Class 为环图
p2 <- ggPieDonut(
data = df_alt, # 使用按 Sex 和 Class 排序的数据
mapping = aes(pies = Sex, donuts = Class, count = 人数),
title = "(b) 性别分布(饼图)与舱位分布(环图)",
interactive = FALSE,
labelposition = 1
) +
scale_fill_brewer(palette = "Set1")
# 组合图形
grid.arrange(p1, p2, ncol = 2)7.3 介绍图形特点和信息
- 并排布局便于比较,突出了性别和舱位之间的关系。