第五章 变量间关系可视化
1 解释原始数据
1.1 mtcars
mtcars
是R自带的数据集,该数据集摘自 1974年《美国汽车趋势》杂志,包括32款汽车(1973~74款)的油耗、汽车设计和性能等共11个指标。根据该数据集绘制本次练习图形。
指标解释:cyl、vs、am、gear和carb作为因子变量,其余可看作数值变量。
mpg: 燃油效率(英里/加仑),数值越高越省油。
cyl: 发动机气缸数(4/6/8缸),缸数越多通常动力越强。
disp: 发动机排量(立方英寸),排量越大动力越强,油耗越高。
hp: 发动机马力(马力),数值越高动力越强。
drat: 后轴传动比(比值),影响加速和燃油经济性。
wt: 车重(千磅),重量轻的车通常更省油。
qsec: 1/4英里加速时间(秒),时间越短动力越强。
vs: 发动机类型(0=V型,1=直列),V型多见于高性能车。
am: 变速器类型(0=自动,1=手动),手动挡通常更省油。
gear: 前进挡位数(3/4/5挡),挡位多可能更平顺省油。
carb: 化油器数量(1-8个),数量多可能提升动力。
1.2 diamonds
diamonds
是R中ggplot2包内置的经典数据集,记录了约 54,000 颗钻石的物理属性和价格信息。数据集包含 10 个变量,4个分类变量,6个数值变量。
- 指标解释:cut、color、clarity为因子变量,其余可看作数值变量。
- carat: 钻石重量,单位是克拉(1克拉=0.2克),数值越大钻石越大越贵。
- cut: 切工质量,分为5个等级:Fair(一般)、Good(良好)、Very Good(很好)、Premium(优质)、Ideal(完美),切工越好钻石光泽越强。
- color: 颜色等级,从D(无色,最佳)到J(浅黄色),颜色越接近无色价值越高。
- clarity: 净度等级,分为8级:I1(内含物明显)、SI1-SI2(小内含物)、VS1-VS2(极小内含物)、VVS1-VVS2(极微小内含物)、IF(内部无瑕),净度越高钻石越纯净。
- depth: 总深度百分比(%),计算公式为z/(x+y)/2*100,影响钻石的光反射效果。
- table: 台面宽度百分比(%),指钻石顶部平面相对于平均宽度的比例,影响钻石的外观比例。
- x: 钻石长度(毫米),物理尺寸之一。
- y: 钻石宽度(毫米),物理尺寸之一。
- z: 钻石高度(毫米),物理尺寸之一。
- price: 钻石价格(美元),反映其综合价值,受carat、cut、color、clarity等因素影响。
2 两变量散点图
2.1 绘图要求
利用
ggplot(data,aes(x,y))+geom_point()
绘制燃油效率(mpg,横轴)和车重(wt,纵轴)两个变量的散点图;利用
geom_rug()
为横轴和纵轴绘制地毯图;利用
stat_smooth()
为散点图添加拟合直线;利用
geom_point()
为散点图添加均值点;利用
ggMarginal(type="densigram")
为散点图添加边际核密度直方图;利用
ggtitle()
将图标题改为散点图+地毯图+线性拟合+边际图
。
2.2 作图代码
2.3 图形观察和代码编写的心得体会
- 在绘制这张散点图的过程中,我深刻体会到数据可视化不仅是代码的堆砌,更是对数据关系的直观探索。通过ggplot2的图层叠加,我逐步构建出完整的图形:散点图展示分布,地毯图增强边缘信息,线性拟合揭示趋势,均值点标记中心位置,边际图补充单变量分布。每一步调整都让我更理解数据背后的故事,也让我意识到良好的可视化应该平衡信息量与美观性,用最简洁的方式传递核心洞察。这次实践让我更加熟悉ggplot2的灵活性和强大功能,也让我明白代码只是工具,关键是如何用它讲好数据的故事。
3 散点图矩阵和相关系数矩阵图
3.1 绘图要求
利用
GGally::ggpairs(columns)
绘制除cyl、vs、am、gear和carb外6个变量的散点图矩阵;修改参数
upper=list(continuous = "density")
,将上三角图形改为二维核密度等高线图;利用
ggiraphExtra::ggCor()
绘制除cyl、vs、am、gear和carb外6个变量的相关系数矩阵图。
3.2 散点图矩阵
3.3 相关系数矩阵图代码
3.4 图形观察和代码编写的心得体会
- 通过这次数据可视化实践,我深刻体会到选择合适的图表类型对展现数据关系的重要性。散点图矩阵能直观展示变量间的分布模式,而核密度等高线图则更优雅地呈现了数据聚集趋势。相关系数矩阵通过热力图形式,让复杂的多变量关系一目了然。在代码实现过程中,我学会了如何通过调整参数来优化图表表现,比如用theme_bw()提升可读性,用interactive参数控制交互性。这些经验让我明白,好的可视化不仅是技术实现,更是对数据故事的精心讲述,需要在信息准确性和视觉表达之间找到平衡点。
4 大数据集的散点图
4.1 绘图要求
利用
diamonds
数据,绘制carat
: 钻石重量
和price
: 钻石价格
两个变量的散点图;利用geom_hex(bins=30,size=0.3,color="black")
,将散点图转化为六边形分箱散点图;利用
stat_density_2d(geom="raster",aes(fill=..density..),contour=FALSE)
,将散点图转化为二维核密度图;利用
geom_density_2d()
,在散点图上添加核密度等高线;利用
geom_density_2d_filled(alpha=0.8)
,对核密度等高线区域填充颜色。
4.2 六边形分箱散点图
4.3 二维核密度图
4.4 散点图+密度等高线
4.5 散点图+密度等高线带
4.6 图形观察和代码编写的心得体会
- 在探索diamonds数据集的可视化过程中,我深刻体会到数据密度可视化对理解大规模数据分布的重要性。六边形分箱图通过几何抽象既保留了数据分布特征,又解决了过度绘制问题;核密度图则用平滑梯度揭示了变量间的概率关系,而等高线填充图通过层次化的色彩区域,将抽象的密度概念转化为直观视觉表达。在代码实现上,我学会了如何通过图层叠加和参数微调来平衡计算效率与视觉效果,比如采样数据提升性能,调整bins和alpha参数优化呈现。这些实践让我明白,优秀的数据可视化需要同时考虑数学准确性和视觉表现力,在技术实现和美学表达之间找到最佳平衡点,最终让数据自己讲述它的故事。
5 3D散点图和气泡图
5.1 绘图要求
绘制hp发动机马力、mpg燃油效率和wt车重三个变量的 3D 散点图和气泡图。
采用
scatterplot3d(x=hp,y=wt,z=mpg)
绘制3D散点图,并添加回归平面。采用
ggplot(df,aes(x=hp,y=mpg,color=wt,size=wt))
绘制气泡图
5.2 3D散点图代码
5.3 气泡图代码
5.4 图形观察和代码编写的心得体会
- 在完成3D散点图和气泡图的绘制过程中,我深刻体会到多维数据可视化的魅力与挑战。3D散点图通过立体空间直观展现了三个变量的复杂关系,而回归平面的添加则巧妙揭示了数据背后的线性趋势;气泡图则通过二维平面上的大小和颜色双重编码,实现了三维数据的有效表达。在代码实现上,我学会了如何平衡图形的信息量与可读性——调整透明度避免重叠、选择渐变色增强对比、优化图例位置提升可读性。这些实践让我明白,好的可视化不仅是技术的实现,更是对数据关系的深度思考,需要用最恰当的视觉元素讲清楚数据故事。同时,不同图表各有优劣:3D图虽直观但存在视角局限,气泡图虽信息丰富但需谨慎处理重叠问题,这提醒我在实际分析中要根据具体需求灵活选择可视化方案。
6 分组散点图
6.1 绘图要求
以气缸数(cy1)为因子,绘制车重(wt)和燃油效率(mpg)的分组散点图,添加回归直线;
利用
facet_grid(~cy1,scale="free_x")
,按因子变量分面;利用
ggplot(data=df,aes(x=wt,y=mpg,shape=cyl,color=cyl))
,按形状和颜色分组
6.2 按因子变量分面代码
- 注意分组变量cyl需要转化为因子
6.3 按形状和颜色分组代码
6.4 图形观察和代码编写的心得体会
- 在绘制分组散点图的过程中,我深刻体会到数据分组可视化的强大表现力。通过将气缸数转换为因子变量,实现了数据从连续到分类的质变,这为后续的分面和分组操作奠定了基础。分面绘图通过多面板并置的方式,清晰展现了不同组别的数据特征和趋势差异,而形状颜色双重编码的分组方式则在同一空间内实现了多维信息的融合表达。回归线的添加不仅揭示了各组内部的线性关系,更通过对比展现了组间差异。在代码实现上,我学会了如何通过scale参数精细控制图形元素的美学映射,以及如何通过theme调整提升图表的专业性和可读性。这次实践让我明白,优秀的可视化需要同时考虑数据特性和读者认知习惯,在信息准确传递和视觉友好呈现之间找到平衡点。