第五章 变量间关系可视化

Author

学号+姓名

1 解释原始数据

1.1 mtcars

  • mtcars 是R自带的数据集,该数据集摘自 1974年《美国汽车趋势》杂志,包括32款汽车(1973~74款)的油耗、汽车设计和性能等共11个指标。根据该数据集绘制本次练习图形。
  • 指标解释:cyl、vs、am、gear和carb作为因子变量,其余可看作数值变量。

    • mpg: 燃油效率(英里/加仑),数值越高越省油。

    • cyl: 发动机气缸数(4/6/8缸),缸数越多通常动力越强。

    • disp: 发动机排量(立方英寸),排量越大动力越强,油耗越高。

    • hp: 发动机马力(马力),数值越高动力越强。

    • drat: 后轴传动比(比值),影响加速和燃油经济性。

    • wt: 车重(千磅),重量轻的车通常更省油。

    • qsec: 1/4英里加速时间(秒),时间越短动力越强。

    • vs: 发动机类型(0=V型,1=直列),V型多见于高性能车。

    • am: 变速器类型(0=自动,1=手动),手动挡通常更省油。

    • gear: 前进挡位数(3/4/5挡),挡位多可能更平顺省油。

    • carb: 化油器数量(1-8个),数量多可能提升动力。

1.2 diamonds

  • diamondsRggplot2包内置的经典数据集,记录了约 54,000 颗钻石的物理属性和价格信息。数据集包含 10 个变量,4个分类变量,6个数值变量。
  • 指标解释:cut、color、clarity为因子变量,其余可看作数值变量。
    • carat: 钻石重量,单位是克拉(1克拉=0.2克),数值越大钻石越大越贵。
    • cut: 切工质量,分为5个等级:Fair(一般)、Good(良好)、Very Good(很好)、Premium(优质)、Ideal(完美),切工越好钻石光泽越强。
    • color: 颜色等级,从D(无色,最佳)到J(浅黄色),颜色越接近无色价值越高。
    • clarity: 净度等级,分为8级:I1(内含物明显)、SI1-SI2(小内含物)、VS1-VS2(极小内含物)、VVS1-VVS2(极微小内含物)、IF(内部无瑕),净度越高钻石越纯净。
    • depth: 总深度百分比(%),计算公式为z/(x+y)/2*100,影响钻石的光反射效果。
    • table: 台面宽度百分比(%),指钻石顶部平面相对于平均宽度的比例,影响钻石的外观比例。
    • x: 钻石长度(毫米),物理尺寸之一。
    • y: 钻石宽度(毫米),物理尺寸之一。
    • z: 钻石高度(毫米),物理尺寸之一。
    • price: 钻石价格(美元),反映其综合价值,受carat、cut、color、clarity等因素影响。

2 两变量散点图

2.1 绘图要求

  • 利用ggplot(data,aes(x,y))+geom_point()绘制燃油效率(mpg,横轴)和车重(wt,纵轴)两个变量的散点图;

  • 利用geom_rug()为横轴和纵轴绘制地毯图;

  • 利用stat_smooth()为散点图添加拟合直线;

  • 利用geom_point()为散点图添加均值点;

  • 利用ggMarginal(type="densigram") 为散点图添加边际核密度直方图;

  • 利用ggtitle() 将图标题改为散点图+地毯图+线性拟合+边际图

2.2 作图代码

2.3 图形观察和代码编写的心得体会

  • 通过观察散点图可以发现,车重(wt)和燃油效率(mpg)之间存在明显的负相关关系,即车重越轻的汽车燃油效率越高,这与常理一致。

  • 参考代码中的图形元素设置非常完整,包括点的形状、颜色、大小,拟合线的样式,以及边际图的设置,这些都使得图形更加专业和美观。

  • 在代码编写过程中,我注意到需要保持图形元素的一致性,如颜色方案的选择、点的大小和形状等,这有助于提高图形的可读性。

  • 添加均值点可以帮助快速识别数据的中心位置,而地毯图则可以显示变量在坐标轴上的分布情况。

  • 边际核密度直方图可以同时展示两个变量的分布情况,这在探索性数据分析中非常有用。

  • 通过调整各种参数(如alpha透明度、fill填充色等),可以使图形更加清晰美观,避免元素重叠造成的视觉混乱。

  • 这种复合图形(散点图+拟合线+地毯图+边际图)非常适合展示两个连续变量之间的关系,能够在一张图中呈现丰富的信息。

3 散点图矩阵和相关系数矩阵图

3.1 绘图要求

  • 利用GGally::ggpairs(columns)绘制除cyl、vs、am、gear和carb外6个变量的散点图矩阵;

  • 修改参数upper=list(continuous = "density") ,将上三角图形改为二维核密度等高线图;

  • 利用ggiraphExtra::ggCor() 绘制除cyl、vs、am、gear和carb外6个变量的相关系数矩阵图。

3.2 散点图矩阵

3.3 相关系数矩阵图代码

3.4 图形观察和代码编写的心得体会

  • 散点图矩阵观察

    • 对角线上的核密度图清晰地展示了每个变量的分布形态

    • 下三角的散点图直观展示了变量间的两两关系

    • 上三角的二维核密度等高线图能更好地展示变量间的密度分布

  • 相关系数矩阵观察

    • 通过颜色深浅和数值大小可以快速识别强相关变量对

    • 半角矩阵的展示方式节省空间且不影响信息获取

    • P值的显示帮助判断相关性的统计显著性

4 大数据集的散点图

4.1 绘图要求

  • 利用diamonds数据,绘制carat: 钻石重量price: 钻石价格两个变量的散点图;

  • 利用geom_hex(bins=30,size=0.3,color="black"),将散点图转化为六边形分箱散点图;

  • 利用stat_density_2d(geom="raster",aes(fill=..density..),contour=FALSE) ,将散点图转化为二维核密度图;

  • 利用geom_density_2d() ,在散点图上添加核密度等高线;

  • 利用geom_density_2d_filled(alpha=0.8) ,对核密度等高线区域填充颜色。

4.2 六边形分箱散点图

4.3 二维核密度图

4.4 散点图+密度等高线

4.5 散点图+密度等高线带

4.6 图形观察和代码编写的心得体会

  • 数据特征观察

    • 钻石价格与重量呈现明显的非线性关系,普通散点图存在严重重叠

    • 价格分布呈现明显的分层现象,可能与钻石品质等级有关

    • 在1克拉和2克拉附近有明显的价格跃升点

  • 可视化技术应用

    • 六边形分箱有效展示了大数据集的分布密度

    • 二维核密度图清晰呈现了价格-重量的概率分布

    • 等高线图帮助识别价格分布的层级结构

    • 填充的等高线带增强了可视化的层次感

5 3D散点图和气泡图

5.1 绘图要求

  • 绘制hp发动机马力、mpg燃油效率和wt车重三个变量的 3D 散点图和气泡图。

  • 采用scatterplot3d(x=hp,y=wt,z=mpg)绘制3D散点图,并添加回归平面。

  • 采用ggplot(df,aes(x=hp,y=mpg,color=wt,size=wt)) 绘制气泡图

5.2 3D散点图代码

5.3 气泡图代码

5.4 图形观察和代码编写的心得体会

  • D散点图观察

    • 发动机马力(hp)与燃油效率(mpg)呈现明显的负相关关系

    • 车重(wt)增加时,燃油效率(mpg)普遍降低

    • 回归平面清晰地展示了两个自变量对燃油效率的综合影响

  • 气泡图观察

    • 气泡大小和颜色的渐变直观展示了车重的影响

    • 高马力、低燃油效率的区域通常对应较大的气泡(较重车辆)

    • viridis颜色方案确保了颜色过渡的自然和可辨识性

6 分组散点图

6.1 绘图要求

  • 以气缸数(cy1)为因子,绘制车重(wt)和燃油效率(mpg)的分组散点图,添加回归直线;

  • 利用facet_grid(~cy1,scale="free_x") ,按因子变量分面;

  • 利用ggplot(data=df,aes(x=wt,y=mpg,shape=cyl,color=cyl)) ,按形状和颜色分组

6.2 按因子变量分面代码

  • 注意分组变量cyl需要转化为因子

6.3 按形状和颜色分组代码

6.4 图形观察和代码编写的心得体会

  • 数据特征观察

    • 4缸、6缸和8缸车辆在车重和燃油效率上呈现明显分层

    • 气缸数越少,燃油效率普遍越高,车重普遍越轻

    • 每种气缸数组内,车重与燃油效率都呈现负相关关系

  • 可视化技术应用

    • 分面图清晰展示了不同气缸数组的独立分布模式

    • 形状和颜色分组在同一图中直观比较了各组差异

    • 回归线帮助识别各组内的线性关系强度

    • 自由缩放的x轴优化了各分面的显示效果

  • 代码实现要点

    • 使用factor()确保气缸数被正确识别为分类变量

    • 保持与参考代码一致的回归线绘制方法(se=FALSE)

    • 精心选择形状和颜色方案确保各组可区分性

    • 采用theme_bw()保持图形简洁专业