第五章 变量间关系可视化
1 解释原始数据
1.1 mtcars
mtcars是R自带的数据集,该数据集摘自 1974年《美国汽车趋势》杂志,包括32款汽车(1973~74款)的油耗、汽车设计和性能等共11个指标。根据该数据集绘制本次练习图形。
指标解释:cyl、vs、am、gear和carb作为因子变量,其余可看作数值变量。
mpg: 燃油效率(英里/加仑),数值越高越省油。
cyl: 发动机气缸数(4/6/8缸),缸数越多通常动力越强。
disp: 发动机排量(立方英寸),排量越大动力越强,油耗越高。
hp: 发动机马力(马力),数值越高动力越强。
drat: 后轴传动比(比值),影响加速和燃油经济性。
wt: 车重(千磅),重量轻的车通常更省油。
qsec: 1/4英里加速时间(秒),时间越短动力越强。
vs: 发动机类型(0=V型,1=直列),V型多见于高性能车。
am: 变速器类型(0=自动,1=手动),手动挡通常更省油。
gear: 前进挡位数(3/4/5挡),挡位多可能更平顺省油。
carb: 化油器数量(1-8个),数量多可能提升动力。
1.2 diamonds
diamonds是R中ggplot2包内置的经典数据集,记录了约 54,000 颗钻石的物理属性和价格信息。数据集包含 10 个变量,4个分类变量,6个数值变量。
- 指标解释:cut、color、clarity为因子变量,其余可看作数值变量。
- carat: 钻石重量,单位是克拉(1克拉=0.2克),数值越大钻石越大越贵。
- cut: 切工质量,分为5个等级:Fair(一般)、Good(良好)、Very Good(很好)、Premium(优质)、Ideal(完美),切工越好钻石光泽越强。
- color: 颜色等级,从D(无色,最佳)到J(浅黄色),颜色越接近无色价值越高。
- clarity: 净度等级,分为8级:I1(内含物明显)、SI1-SI2(小内含物)、VS1-VS2(极小内含物)、VVS1-VVS2(极微小内含物)、IF(内部无瑕),净度越高钻石越纯净。
- depth: 总深度百分比(%),计算公式为z/(x+y)/2*100,影响钻石的光反射效果。
- table: 台面宽度百分比(%),指钻石顶部平面相对于平均宽度的比例,影响钻石的外观比例。
- x: 钻石长度(毫米),物理尺寸之一。
- y: 钻石宽度(毫米),物理尺寸之一。
- z: 钻石高度(毫米),物理尺寸之一。
- price: 钻石价格(美元),反映其综合价值,受carat、cut、color、clarity等因素影响。
2 两变量散点图
2.1 绘图要求
利用
ggplot(data,aes(x,y))+geom_point()绘制燃油效率(mpg,横轴)和车重(wt,纵轴)两个变量的散点图;利用
geom_rug()为横轴和纵轴绘制地毯图;利用
stat_smooth()为散点图添加拟合直线;利用
geom_point()为散点图添加均值点;利用
ggMarginal(type="densigram")为散点图添加边际核密度直方图;利用
ggtitle()将图标题改为散点图+地毯图+线性拟合+边际图。
2.2 作图代码
2.3 图形观察和代码编写的心得体会
2.3.1 图形观察:
- 负相关趋势:散点图显示
mpg(燃油效率)与wt(车重)呈明显负相关,即车重越轻,燃油效率越高。红色拟合直线强化了这一趋势。 - 分布特征:
- 地毯图(
geom_rug())表明mpg多集中在 15-25,wt集中在 2.5-4.5。
- 边际核密度直方图(
ggMarginal())显示mpg右偏,wt接近正态分布。
- 地毯图(
- 均值点位置:蓝色三角形标记的均值点位于拟合线附近,验证了线性关系的合理性。
2.3.2 代码编写心得:
- 模块化设计:通过
+叠加图层(如geom_point()、stat_smooth()),逻辑清晰且易于扩展。
- 高效统计:
stat_smooth(method = "lm")自动拟合直线,避免手动计算。
- 边际图简化:
ggMarginal()一行代码添加分布图,提升可视化信息量。
- 可读性优先:注释和分步骤编写(如先基础散点图,再逐步添加元素)增强代码维护性。
核心收获:ggplot2 的图层思想与扩展包(如 ggExtra)结合,能以简洁代码实现专业可视化,关键在于平衡信息传达与图形简洁性。
3 散点图矩阵和相关系数矩阵图
3.1 绘图要求
利用
GGally::ggpairs(columns)绘制除cyl、vs、am、gear和carb外6个变量的散点图矩阵;修改参数
upper=list(continuous = "density"),将上三角图形改为二维核密度等高线图;利用
ggiraphExtra::ggCor()绘制除cyl、vs、am、gear和carb外6个变量的相关系数矩阵图。
3.2 散点图矩阵
3.3 相关系数矩阵图代码
3.4 图形观察和代码编写的心得体会
3.4.1 图形观察
- 散点图矩阵:
- 下三角散点图直观展示变量间关系,如mpg与wt呈现明显负相关趋势
- 上三角核密度图通过等高线清晰显示变量联合分布密度
- 对角线单变量密度曲线揭示各变量的分布特征
- 相关系数矩阵:
- 颜色梯度与数值结合,一目了然呈现相关性强弱
- 如mpg与wt的深红色块(r=-0.87)表示强负相关
- hp与disp的深蓝色块(r=0.79)表示强正相关
3.4.2 代码心得
- 高效探索:
- ggpairs()一键生成多维关系矩阵,极大提升探索效率
- 参数化设计(upper/lower/diag)实现图形灵活配置
- 可视化优化:
- 核密度图替代散点图,有效解决数据重叠问题
- 相关系数矩阵将抽象数值转化为直观色彩
- 实践价值:
- 两种图形优势互补,全面覆盖数据探索需求
- 简洁的代码实现专业级可视化效果
总结:通过合理选择可视化工具和参数设置,既能快速把握数据特征,又能深入分析变量关系,体现了R语言在数据探索中的强大优势。
4 大数据集的散点图
4.1 绘图要求
利用
diamonds数据,绘制carat: 钻石重量和price: 钻石价格两个变量的散点图;利用geom_hex(bins=30,size=0.3,color="black"),将散点图转化为六边形分箱散点图;利用
stat_density_2d(geom="raster",aes(fill=..density..),contour=FALSE),将散点图转化为二维核密度图;利用
geom_density_2d(),在散点图上添加核密度等高线;利用
geom_density_2d_filled(alpha=0.8),对核密度等高线区域填充颜色。
4.2 六边形分箱散点图
4.3 二维核密度图
4.4 散点图+密度等高线
4.5 散点图+密度等高线带
4.6 图形观察和代码编写的心得体会
4.6.1 图形观察
- 散点图:克拉与价格呈非线性正相关,高克拉区域价格离散度大。
- 六边形分箱图:低克拉(<1.5)区域密度最高,价格集中(<5000)。
- 核密度图:高密度区(黄色)集中在低克拉/低价区,大克拉数据稀疏。
- 等高线图:低克拉区等高线密集,高克拉区分散,反映数据分布不均。
4.6.2 代码心得
- 数据:直接使用
diamonds数据集,适合密度分析。
- 绘图:
- 分层叠加(如散点+等高线)提升表现力。
- 六边形分箱和核密度解决散点重叠问题。
- 分层叠加(如散点+等高线)提升表现力。
- 优化:
- 采用
viridis配色,清晰美观。
- 分步绘图后组合(
grid.arrange),便于调整。
- 采用
- 改进:大数据时可采样或调整分箱数/带宽以平衡效率与细节。
总结:多角度可视化揭示非线性关系,代码需兼顾准确性、效率与可读性。
5 3D散点图和气泡图
5.1 绘图要求
绘制hp发动机马力、mpg燃油效率和wt车重三个变量的 3D 散点图和气泡图。
采用
scatterplot3d(x=hp,y=wt,z=mpg)绘制3D散点图,并添加回归平面。采用
ggplot(df,aes(x=hp,y=mpg,color=wt,size=wt))绘制气泡图
5.2 3D散点图代码
5.3 气泡图代码
5.4 图形观察和代码编写的心得体会
5.4.1 图形观察
- 3D散点图:
- 直观呈现hp、wt与mpg的三维关系,可见马力越大或车重越重,燃油效率越低
- 红色回归平面清晰显示三个变量的联合线性趋势
- 气泡图:
- 通过气泡大小和颜色(黄小→红大)双重编码车重数据
- 明确展示出:大马力+重车=低效率(右下红大泡),小马力+轻车=高效率(左上黄小泡)
5.4.2 代码心得
- 工具选择:
- scatterplot3d适合空间关系初探,配合回归平面强化趋势解读
- ggplot气泡图用二维平面巧妙展示三维数据,避免3D图形的视角局限
- 视觉优化:
- 气泡图通过size/color映射第三维度,alpha参数解决重叠问题
- 颜色梯度(scale_color_gradient)和大小范围(scale_size)提升可读性
- 分析效率:
- 3D图与气泡图优势互补,10行内代码即可完成专业级多维分析
- 回归平面(lm模型)快速验证变量间线性假设
总结:两种可视化方式各有所长,3D图全局把控,气泡图聚焦细节,配合使用能全面把握复杂变量关系。代码简洁但通过参数微调可适应不同分析场景。
6 分组散点图
6.1 绘图要求
以气缸数(cy1)为因子,绘制车重(wt)和燃油效率(mpg)的分组散点图,添加回归直线;
利用
facet_grid(~cy1,scale="free_x"),按因子变量分面;利用
ggplot(data=df,aes(x=wt,y=mpg,shape=cyl,color=cyl)),按形状和颜色分组
6.2 按因子变量分面代码
- 注意分组变量cyl需要转化为因子
6.3 按形状和颜色分组代码
6.4 图形观察和代码编写的心得体会
6.4.1 图形观察
气缸数与燃油效率的关系
4缸车最轻且最省油(
mpg20-35),8缸车最重且最耗油(mpg10-20),6缸居中。所有分组的回归直线均呈下降趋势,表明车重增加会降低燃油效率。
分面效果
- 通过
facet_grid分面,不同气缸数的数据分布更清晰,避免了因数据范围差异导致的图形压缩问题。
- 通过
6.4.2 代码编写心得
数据预处理是关键
- 将
cyl转换为因子(factor),确保分组正确,避免被误判为连续变量。
- 将
ggplot2 的分层逻辑清晰
- 先定义数据映射(
aes),再叠加几何对象(geom_point、geom_smooth),最后调整分面和主题,逻辑流畅。
- 先定义数据映射(
细节提升可读性
- 通过颜色和形状双编码分组变量,图例置顶,避免遮挡数据,标题和轴标签明确,使图表一目了然。