<-read_csv("221527207刘润钿期末数据.csv")
dfdatatable(df,rownames = FALSE)
数据可视化期末报告
1 报告要求
期末实验报告由5章节5个图形组成,每个章节需要作一个图形。
每个章节选择作什么图自主选择,作图前补充完整图形标题名称,例如:图形1——多变量条形图。
案例数据自主收集,不同章节可以公用一个数据集。但同学间不允许使用相同数据集。
每个章节的数据集合需要通过
datatable
函数展示,并简要解释数据来源和变量意义。每个输出图形后需要对图形作简要解读,最少需针对图形提出一个观点。
渲染html文件保留代码展示,6月22日前将发布网址提交至共享文档
“8、期末报告”
列中。评分标准:
每章节图形各20分
能有效输出图形和合理解释75%
数据独特性强10%
图形个性化强15%
2 类别数据可视化
2.1 案例数据解释与展示
- 数据来自国家统计年鉴,从中国宏观经济数据库获取后经过整理得到。
# 数据处理
<- "广东"
city
<- df %>%
data1filter(年份 == 2016, 地区 == city) %>%
select(地区, 劳动者报酬, 生产税净额, 固定资产折旧, 营业盈余) %>%
pivot_longer(-地区, names_to = "指标", values_to = "值") %>%
arrange(desc(值)) %>%
mutate(累计百分比 = cumsum(值)/sum(值)*100,
= factor(指标, levels = 指标)) 指标
2.2 图形1——帕累托图
# 帕累托图
ggplot(data1, aes(x = 指标)) +
geom_col(aes(y = 值), fill = "#2CA25F") +
geom_line(aes(y = 累计百分比*max(值)/100, group = 1),
color = "#FC8D62", linewidth = 1) +
geom_point(aes(y = 累计百分比*max(值)/100),
color = "#FC8D62", size = 3) +
scale_y_continuous(
name = "经济指标值(亿元)",
sec.axis = sec_axis(~ .*100/max(data1$值),
name = "累计百分比(%)")
+
) labs(title = paste0("2016年", city, "GDP构成的帕累托图"),
subtitle = "折线显示累计贡献比例",
x = "经济指标") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 0, hjust = 1),
plot.title = element_text(size = 14, face = "bold"),
plot.subtitle = element_text(size = 10))
- 图形解读:该帕累托图展示了2016年广东省GDP的四个核心构成要素:劳动者报酬、营业盈余、固定资产折旧、生产税净额。从条形图可以看出,劳动者报酬显著高于其他三项,营业盈余位居第二,约为劳动者报酬的50%,四项总和为100%。从折线图也可以看出,折线起点呈现近45°的急剧上升,劳动者报酬单指标贡献近一半的GDP占比,形成最陡峭的上升段。这表明2016年劳动要素是广东省经济增长的绝对核心驱动力,即2016年的广东经济仍以劳动密集型产业为主,劳动力成本在经济结构中占重要地位。
3 数据分布可视化
3.1 案例数据解释与展示
- 该题案例数据与第一题相同
#设置主题
<-theme(plot.title=element_text(size="11"),
mythemeaxis.title=element_text(size=10),
axis.text=element_text(size=9),
legend.text=element_text(size="8"))
# 数据处理
<- df %>%
data2select(地区, 年份, 劳动者报酬, 生产税净额, 固定资产折旧, 营业盈余) %>%
pivot_longer(cols = c(劳动者报酬, 生产税净额, 固定资产折旧, 营业盈余),
names_to = "指标",
values_to = "值")
3.2 图形2——小提琴图
<- brewer.pal(8, "Set2")
palette ggplot(data2 %>% filter(指标 == "劳动者报酬"),
aes(x = 地区, y = 值/10000, fill = 地区)) +
geom_violin(trim = FALSE, alpha = 0.7, scale = "width") +
geom_boxplot(width = 0.2, fill = "white", outlier.shape = NA) +
stat_summary(fun = mean, geom = "point", shape = 23, size = 3, fill = "red") +
labs(title = "五个地区劳动者报酬分布(2004-2017)",
y = "劳动者报酬(万亿元)") +
scale_fill_manual(values = palette) +
theme_classic() +
mytheme
- 图形解读:该图形展示了2004-2017年间五个地区(北京、江苏、广东、重庆、西藏)劳动者报酬的分布特征。从图中可以看出,广东和江苏的劳动者报酬水平显著高于其他地区,表明这两个经济大省存在较多高报酬就业机会。而西藏的报酬水平明显最低,反映出该地区劳动者报酬分布区间最小。各地区的箱线图均显示出右偏特征,中位数均低于平均值,说明各地区都存在部分高收入群体拉高了整体平均水平。广东报酬分布的离散程度最大,反映省内不同城市和行业间的显著收入差异。
4 变量关系可视化
4.1 案例数据解释与展示
- 该题案例数据与第一题相同
# 计算各指标占比
<- df %>%
data3mutate(across(c(劳动者报酬, 生产税净额, 固定资产折旧, 营业盈余), ~ ./GDP, .names = "{.col}_占比"))
4.2 图形3——3D气泡图
ggplot(data3, aes(x = 劳动者报酬, y = 生产税净额,
size = GDP, color = 地区)) +
geom_point(alpha = 0.6) +
scale_size(range = c(2, 12), name = "GDP") +
labs(title = "劳动者报酬与生产税净额关系",
x = "劳动者报酬(亿元)", y = "生产税净额(亿元)") +
theme_minimal() +
theme(legend.position = "bottom")+
guides(size = "none")
- 图形解读:从气泡图中可以看出,不同地区的劳动者报酬与生产税净额呈现出明显的正相关关系,且GDP差异显著。经济发达地区如江苏、广东的气泡较大且集中在右上方,表明这些地区不仅劳动者报酬和生产税净额较高,GDP总量也领先。北京虽然劳动者报酬较高,但生产税净额相对偏低,可能与北京经济结构如服务业占比高、税收政策差异有关。重庆和西藏的气泡较小且位于左下方,反映其经济规模和税收能力相对较弱。
5 样本相似性可视化
5.1 案例数据解释与展示
- 该题案例数据与第一题相同
# 准备数据
<- df %>%
data4filter(地区 %in% c("北京", "广东", "重庆","江苏", "西藏"), 年份 == 2016) %>%
select(地区, 劳动者报酬, 生产税净额, 固定资产折旧, 营业盈余)
<- seq(-20, -340, length.out = 4)
myangle <- theme_bw() +
mytheme theme(legend.position = "bottom",
axis.text.x = element_text(size = 9, color = "blue4", angle = myangle),
plot.title = element_text(hjust = 0.5))
5.2 图形4——雷达图
# 3. 绘制雷达图
ggRadar(data4,
aes(group = 地区),
rescale = FALSE,
ylim = c(0, max(df[, -1]) * 0.2),
alpha = 0.2,
size = 1.5,
interactive = FALSE) +
+
mytheme xlab("GDP构成项目") +
ylab("金额(亿元)") +
ggtitle("2016年五地区GDP构成雷达图") +
scale_color_brewer(palette = "Set1")
- 图形解读:从雷达图可以看出,广东和江苏在GDP构成上呈现明显差异:2016年广东的劳动者报酬占比高于江苏,而江苏在营业盈余维度上相对占优,高于广东。这反映出广东劳动者薪酬水平较高,而江苏企业的盈利能力更强。两地区在生产税净额和固定资产折旧维度上差异较小。整体来看,广东的GDP构成更偏向劳动要素分配,江苏则更侧重资本回报,这种差异与两省不同的产业结构和发展模式相关。
6 时间序列可视化
6.1 案例数据解释与展示
- 该题案例数据与第一题相同
6.2 图形5——折线图
ggplot(df, aes(x = 年份, y = GDP, color = 地区, group = 地区)) +
geom_line(linewidth = 1) +
geom_point(size = 2) +
labs(title = "各地区GDP变化(2004-2017年)",
x = "年份", y = "GDP(亿元)") +
scale_color_brewer(palette = "Dark2") +
theme_minimal() +
theme(legend.position = "bottom")
- 图形解读:该折线图清晰展示了2004-2017年间中国主要地区GDP的增长轨迹。北京、江苏、广东、重庆和西藏五地呈现出显著的分化趋势:广东和江苏始终处于领先梯队,两条曲线几乎平行上升;北京保持稳定第三位,增长曲线斜率均匀,体现首都经济的稳健性;重庆作为西部代表,2010年后增速明显加快;西藏基数最小但增长持续,曲线平稳上扬。所有地区在2008-2009年间均出现增长放缓,可能反映全球金融危机的影响。