数据可视化期末报告

Author

221527125shencanbiao

1 报告要求

  • 期末实验报告由5章节5个图形组成,每个章节需要作一个图形。

  • 每个章节选择作什么图自主选择,作图前补充完整图形标题名称,例如:图形1——多变量条形图。

  • 案例数据自主收集,不同章节可以公用一个数据集。但同学间不允许使用相同数据集。

  • 每个章节的数据集合需要通过datatable 函数展示,并简要解释数据来源和变量意义。

  • 每个输出图形后需要对图形作简要解读,最少需针对图形提出一个观点。

  • 渲染html文件保留代码展示,6月22日前将发布网址提交至共享文档“8、期末报告” 列中。

  • 评分标准:

    • 每章节图形各20分

    • 能有效输出图形和合理解释75%

    • 数据独特性强10%

    • 图形个性化强15%

2 类别数据可视化

2.1 案例数据解释与展示

  • 数据来源:国家统计局年度数据

    变量意义:

    • Year: 年份(2015-2024)

    • Wage: 工资性收入(元)

    • Business: 经营净收入(元)

    • Property: 财产净收入(元)

    • Transfer: 转移净收入(元)

# 加载必要的库
library(ggplot2)
library(tidyr)
library(dplyr)

# 创建数据框
income_data <- data.frame(
  Year = c(2024, 2023, 2022, 2021, 2020, 2019, 2018, 2017, 2016, 2015),
  Wage = c(23327, 22053, 20590, 19629, 17917, 17186, 15829, 14620, 13455, 12459),
  Business = c(6908, 6542, 6175, 5893, 5307, 5247, 4852, 4502, 4218, 3956),
  Property = c(3435, 3362, 3227, 3076, 2791, 2619, 2379, 2107, 1889, 1740),
  Transfer = c(7644, 7261, 6892, 6531, 6173, 5680, 5168, 4744, 4259, 3812)
)

# 转换为长格式
income_long <- income_data %>%
  pivot_longer(cols = -Year, names_to = "Income_Type", values_to = "Amount")

# 绘制多变量条形图
ggplot(income_long, aes(x = factor(Year), y = Amount, fill = Income_Type)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "图形1——居民可支配收入构成比较(2015-2024)",
       x = "年份",
       y = "金额(元)",
       fill = "收入类型") +
  theme_minimal() +
  scale_fill_brewer(palette = "Set2") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

2.2 图形1——多变量条形图:居民可支配收入构成比较

# 绘制多变量条形图
ggplot(income_long, aes(x = factor(Year), y = Amount, fill = Income_Type)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "图形1——居民可支配收入构成比较(2015-2024)",
       x = "年份",
       y = "金额(元)",
       fill = "收入类型") +
  theme_minimal() +
  scale_fill_brewer(palette = "Set2") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

  1. 图形解读:该多变量条形图展示了2015-2024年居民可支配收入的四种构成部分。从图中可以看出,工资性收入始终是居民收入的主要来源,其次是转移净收入和经营净收入,财产净收入占比最小。值得注意的是,2020年各项收入增长放缓,可能与疫情影响有关。转移净收入在疫情期间(2020-2022)保持相对稳定增长,可能反映了政府社会保障政策的加强。

3 数据分布

3.1 案例数据解释与展示

  • 数据来源:国家统计局年度数据

    变量意义:

    • Year: 年份(2015-2024)

    • Total: 人均可支配收入增长率(%)

    • Median: 人均可支配收入中位数增长率(%)

    • Wage: 工资性收入增长率(%)

    • Business: 经营净收入增长率(%)

    • Property: 财产净收入增长率(%)

    • Transfer: 转移净收入增长率(%)

3.2 图形2——箱线图:居民收入增长分布

# 准备增长率数据
growth_data <- data.frame(
  Year = c(2024, 2023, 2022, 2021, 2020, 2019, 2018, 2017, 2016, 2015),
  Total = c(5.1, 6.1, 2.9, 8.1, 2.1, 5.8, 6.5, 7.3, 6.3, 7.4),
  Median = c(5.1, 5.3, 4.7, 8.8, 3.8, 9.0, 8.6, 7.3, 8.3, 9.7),
  Wage = c(5.8, 7.1, 4.9, 9.6, 4.3, 8.6, 8.3, 8.7, 8.0, 9.1),
  Business = c(5.6, 6.0, 4.8, 11.0, 1.1, 8.1, 7.8, 6.7, 6.6, 6.0),
  Property = c(2.2, 4.2, 4.9, 10.2, 6.6, 10.1, 12.9, 11.6, 8.6, 9.6),
  Transfer = c(5.3, 5.4, 5.5, 5.8, 8.7, 9.9, 8.9, 11.4, 11.7, 11.2)
)

# 转换为长格式
growth_long <- growth_data %>%
  pivot_longer(cols = -Year, names_to = "Type", values_to = "Growth_Rate")

# 绘制箱线图
ggplot(growth_long, aes(x = Type, y = Growth_Rate, fill = Type)) +
  geom_boxplot() +
  labs(title = "图形2——居民收入增长分布(2015-2024)",
       x = "收入类型",
       y = "增长率(%)",
       fill = "收入类型") +
  theme_minimal() +
  scale_fill_brewer(palette = "Pastel1") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

  1. 图形解读:该箱线图展示了2015-2024年各类收入增长率的分布情况。从图中可以看出,转移净收入的增长率中位数最高,但波动也较大;财产净收入的增长率范围最广,从最低的2.2%到最高的12.9%,显示其受经济环境影响较大;工资性收入和经营净收入的增长率分布相对集中,稳定性较好。2021年经营净收入增长率异常高(11%),可能与疫情后经济复苏有关

  2. 4 变量关系可视化

4.1 案例数据解释与展示

  • 数据来源:国家统计局年度数据

    变量意义:

    • Wage: 工资性收入(元)

    • Business: 经营净收入(元)

    • Property: 财产净收入(元)

    • Transfer: 转移净收入(元)

    • Total: 总收入(元)

4.2 图形3——散点图矩阵:收入构成关系

# 加载GGally包
library(GGally)

# 准备数据
relation_data <- income_data %>%
  select(-Year) %>%
  mutate(Total = Wage + Business + Property + Transfer)

# 绘制散点图矩阵
ggpairs(relation_data,
        title = "图形3——居民收入构成关系分析",
        lower = list(continuous = "smooth"),
        progress = FALSE) +
  theme_minimal()

  • 图形解读:该散点图矩阵展示了各类收入之间的相关性。从图中可以看出,工资性收入与总收入呈现最强的正相关性,这与工资性收入占总收入比重最大有关。转移净收入与总收入也呈现较强的正相关,而财产净收入与其他收入类型的相关性相对较弱。值得注意的是,经营净收入和工资性收入之间存在一定程度的正相关,表明经济发展对这两类收入都有积极影响

5 样本相似性可视化

5.1 案例数据解释与展示

  • 数据来源:国家统计局年度数据

    变量意义:

    • Total: 人均可支配收入增长率(%)

    • Median: 人均可支配收入中位数增长率(%)

    • Wage: 工资性收入增长率(%)

    • Business: 经营净收入增长率(%)

    • Property: 财产净收入增长率(%)

    • Transfer: 转移净收入增长率(%)

5.2 图形4——热力图:收入增长率相关性

# 计算相关系数矩阵
cor_matrix <- cor(growth_data[,-1])

# 转换为长格式
cor_long <- as.data.frame(as.table(cor_matrix))
names(cor_long) <- c("Var1", "Var2", "Correlation")

# 绘制热力图
ggplot(cor_long, aes(x = Var1, y = Var2, fill = Correlation)) +
  geom_tile() +
  scale_fill_gradient2(low = "blue", high = "red", mid = "white", 
                       midpoint = 0, limit = c(-1,1), space = "Lab") +
  geom_text(aes(label = round(Correlation, 2)), color = "black", size = 4) +
  labs(title = "图形4——各类收入增长率相关性热力图",
       x = "收入类型",
       y = "收入类型",
       fill = "相关系数") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

  • 图形解读:该热图展示了北京、上海和广州三个城市一年中各月的平均温度变化。颜色从蓝色低温到红色高温渐变,直观地显示了温度变化。可以看出,广州全年温度最高,冬季温度也较为温和;北京冬季寒冷,夏季炎热,温差最大;上海则介于两者之间。三个城市都在7-8月达到最高温,1月前后温度最低。这种可视化方式非常适合展示地理和时间两个维度上的温度变化模式。

6 时间序列可视化

6.1 案例数据解释与展示

  • 数据来源:国家统计局年度数据

    变量意义:

    • Year: 年份(2015-2024)

    • Type: 收入类型(工资性、经营净、财产净、转移净)

    • Amount: 金额(元)

6.2 图形5——折线图:收入变化趋势

# 准备数据
trend_data <- income_data %>%
  select(Year, Wage, Business, Property, Transfer) %>%
  pivot_longer(cols = -Year, names_to = "Type", values_to = "Amount")

# 绘制折线图
ggplot(trend_data, aes(x = Year, y = Amount, color = Type, group = Type)) +
  geom_line(size = 1.2) +
  geom_point(size = 2) +
  labs(title = "图形5——居民各类收入变化趋势(2015-2024)",
       x = "年份",
       y = "金额(元)",
       color = "收入类型") +
  theme_minimal() +
  scale_color_brewer(palette = "Set1") +
  scale_x_continuous(breaks = seq(2015, 2024, 1)) +
  theme(legend.position = "bottom")

  • 图形解读:

该折线图清晰地展示了2015-2024年各类收入的变化趋势。所有收入类型都呈现稳定增长态势,但增长速度有所不同。工资性收入增长最为显著,从2015年的12459元增长到2024年的23327元,几乎翻倍。转移净收入增长也较为明显,反映了社会保障体系的不断完善。2020年所有收入类型的增长都有所放缓,但转移净收入受影响最小,显示了其在经济波动中的稳定性。2021年后各类收入恢复较快增长,尤其是经营净收入反弹明显。