数据可视化期末报告

Author

221527207刘润钿

1 报告要求

  • 期末实验报告由5章节5个图形组成,每个章节需要作一个图形。

  • 每个章节选择作什么图自主选择,作图前补充完整图形标题名称,例如:图形1——多变量条形图。

  • 案例数据自主收集,不同章节可以公用一个数据集。但同学间不允许使用相同数据集。

  • 每个章节的数据集合需要通过datatable 函数展示,并简要解释数据来源和变量意义。

  • 每个输出图形后需要对图形作简要解读,最少需针对图形提出一个观点。

  • 渲染html文件保留代码展示,6月22日前将发布网址提交至共享文档“8、期末报告” 列中。

  • 评分标准:

    • 每章节图形各20分

    • 能有效输出图形和合理解释75%

    • 数据独特性强10%

    • 图形个性化强15%

2 类别数据可视化

2.1 案例数据解释与展示

  • 数据来自国家统计年鉴,从中国宏观经济数据库获取后经过整理得到。
df<-read_csv("221527207刘润钿期末数据.csv")
datatable(df,rownames = FALSE)
# 数据处理
city<- "广东"

data1<- df %>%
  filter(年份 == 2016, 地区 == city) %>% 
  select(地区, 劳动者报酬, 生产税净额, 固定资产折旧, 营业盈余) %>%
  pivot_longer(-地区, names_to = "指标", values_to = "值") %>%
  arrange(desc(值)) %>% 
  mutate(累计百分比 = cumsum(值)/sum(值)*100,
         指标 = factor(指标, levels = 指标)) 

2.2 图形1——帕累托图

# 帕累托图
ggplot(data1, aes(x = 指标)) +
  geom_col(aes(y = 值), fill = "#2CA25F") +
  geom_line(aes(y = 累计百分比*max(值)/100, group = 1), 
            color = "#FC8D62", linewidth = 1) +
  geom_point(aes(y = 累计百分比*max(值)/100), 
             color = "#FC8D62", size = 3) +
  scale_y_continuous(
    name = "经济指标值(亿元)",
    sec.axis = sec_axis(~ .*100/max(data1$值), 
                        name = "累计百分比(%)")
  ) +
  labs(title = paste0("2016年", city, "GDP构成的帕累托图"),
       subtitle = "折线显示累计贡献比例",
       x = "经济指标") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 0, hjust = 1),
        plot.title = element_text(size = 14, face = "bold"),
        plot.subtitle = element_text(size = 10))

  • 图形解读:该帕累托图展示了2016年广东省GDP的四个核心构成要素:劳动者报酬、营业盈余、固定资产折旧、生产税净额。从条形图可以看出,劳动者报酬显著高于其他三项,营业盈余位居第二,约为劳动者报酬的50%,四项总和为100%。从折线图也可以看出,折线起点呈现近45°的急剧上升,劳动者报酬单指标贡献近一半的GDP占比,形成最陡峭的上升段。这表明2016年劳动要素是广东省经济增长的绝对核心驱动力,即2016年的广东经济仍以劳动密集型产业为主,劳动力成本在经济结构中占重要地位。

3 数据分布可视化

3.1 案例数据解释与展示

  • 该题案例数据与第一题相同
#设置主题
mytheme<-theme(plot.title=element_text(size="11"),
   axis.title=element_text(size=10),
   axis.text=element_text(size=9),
   legend.text=element_text(size="8"))

# 数据处理
data2<- df %>%
  select(地区, 年份, 劳动者报酬, 生产税净额, 固定资产折旧, 营业盈余) %>%
  pivot_longer(cols = c(劳动者报酬, 生产税净额, 固定资产折旧, 营业盈余),
               names_to = "指标",
               values_to = "值")

3.2 图形2——小提琴图

palette <- brewer.pal(8, "Set2") 
ggplot(data2 %>% filter(指标 == "劳动者报酬"), 
       aes(x = 地区, y =/10000, fill = 地区)) +
  geom_violin(trim = FALSE, alpha = 0.7, scale = "width") +
  geom_boxplot(width = 0.2, fill = "white", outlier.shape = NA) +
  stat_summary(fun = mean, geom = "point", shape = 23, size = 3, fill = "red") +
  labs(title = "五个地区劳动者报酬分布(2004-2017)", 
       y = "劳动者报酬(万亿元)") +
  scale_fill_manual(values = palette) +
  theme_classic() +
  mytheme

  • 图形解读:该图形展示了2004-2017年间五个地区(北京、江苏、广东、重庆、西藏)劳动者报酬的分布特征。从图中可以看出,广东和江苏的劳动者报酬水平显著高于其他地区,表明这两个经济大省存在较多高报酬就业机会。而西藏的报酬水平明显最低,反映出该地区劳动者报酬分布区间最小。各地区的箱线图均显示出右偏特征,中位数均低于平均值,说明各地区都存在部分高收入群体拉高了整体平均水平。广东报酬分布的离散程度最大,反映省内不同城市和行业间的显著收入差异。

4 变量关系可视化

4.1 案例数据解释与展示

  • 该题案例数据与第一题相同
# 计算各指标占比
data3<- df %>% 
  mutate(across(c(劳动者报酬, 生产税净额, 固定资产折旧, 营业盈余), ~ ./GDP, .names = "{.col}_占比"))

4.2 图形3——3D气泡图

ggplot(data3, aes(x = 劳动者报酬, y = 生产税净额, 
                     size = GDP, color = 地区)) +
  geom_point(alpha = 0.6) +
  scale_size(range = c(2, 12), name = "GDP") +
  labs(title = "劳动者报酬与生产税净额关系",
       x = "劳动者报酬(亿元)", y = "生产税净额(亿元)") +
  theme_minimal() +
  theme(legend.position = "bottom")+
  guides(size = "none")

  • 图形解读:从气泡图中可以看出,不同地区的劳动者报酬与生产税净额呈现出明显的正相关关系,且GDP差异显著。经济发达地区如江苏、广东的气泡较大且集中在右上方,表明这些地区不仅劳动者报酬和生产税净额较高,GDP总量也领先。北京虽然劳动者报酬较高,但生产税净额相对偏低,可能与北京经济结构如服务业占比高、税收政策差异有关。重庆和西藏的气泡较小且位于左下方,反映其经济规模和税收能力相对较弱。

5 样本相似性可视化

5.1 案例数据解释与展示

  • 该题案例数据与第一题相同
# 准备数据
data4<- df %>% 
  filter(地区 %in% c("北京", "广东", "重庆","江苏", "西藏"), 年份 == 2016) %>%
  select(地区, 劳动者报酬, 生产税净额, 固定资产折旧, 营业盈余)

myangle <- seq(-20, -340, length.out = 4)
mytheme <- theme_bw() +
  theme(legend.position = "bottom",
        axis.text.x = element_text(size = 9, color = "blue4", angle = myangle),
        plot.title = element_text(hjust = 0.5))

5.2 图形4——雷达图

# 3. 绘制雷达图
ggRadar(data4,
        aes(group = 地区),
        rescale = FALSE,
        ylim = c(0, max(df[, -1]) * 0.2),
        alpha = 0.2,    
        size = 1.5, 
        interactive = FALSE) +
  mytheme +
  xlab("GDP构成项目") +
  ylab("金额(亿元)") +
  ggtitle("2016年五地区GDP构成雷达图") +
  scale_color_brewer(palette = "Set1") 

  • 图形解读:从雷达图可以看出,广东和江苏在GDP构成上呈现明显差异:2016年广东的劳动者报酬占比高于江苏,而江苏在营业盈余维度上相对占优,高于广东。这反映出广东劳动者薪酬水平较高,而江苏企业的盈利能力更强。两地区在生产税净额和固定资产折旧维度上差异较小。整体来看,广东的GDP构成更偏向劳动要素分配,江苏则更侧重资本回报,这种差异与两省不同的产业结构和发展模式相关。

6 时间序列可视化

6.1 案例数据解释与展示

  • 该题案例数据与第一题相同

6.2 图形5——折线图

ggplot(df, aes(x = 年份, y = GDP, color = 地区, group = 地区)) +
  geom_line(linewidth = 1) +
  geom_point(size = 2) +
  labs(title = "各地区GDP变化(2004-2017年)", 
       x = "年份", y = "GDP(亿元)") +
  scale_color_brewer(palette = "Dark2") +
  theme_minimal() +
  theme(legend.position = "bottom")

  • 图形解读:该折线图清晰展示了2004-2017年间中国主要地区GDP的增长轨迹。北京、江苏、广东、重庆和西藏五地呈现出显著的分化趋势:广东和江苏始终处于领先梯队,两条曲线几乎平行上升;北京保持稳定第三位,增长曲线斜率均匀,体现首都经济的稳健性;重庆作为西部代表,2010年后增速明显加快;西藏基数最小但增长持续,曲线平稳上扬。所有地区在2008-2009年间均出现增长放缓,可能反映全球金融危机的影响。