第六章样本相似性可视化课堂练习

Author

kaka

1 案例数据

1.1 iris：鸢尾花数据集

R语言内置的 iris 数据集（鸢尾花数据集）是统计学和机器学习领域最经典的案例数据集之一，由英国统计学家 Ronald Fisher 在1936年首次提出。它包含了3种鸢尾花的测量数据，每个类别有50个样本，共150行数据。

变量名	数据类型	单位	说明
Sepal.Length	numeric	cm	花萼（萼片）长度，即花朵最外层绿色叶状结构的长度
Sepal.Width	numeric	cm	花萼（萼片）宽度
Petal.Length	numeric	cm	花瓣长度，即花朵内部彩色叶状结构的长度
Petal.Width	numeric	cm	花瓣宽度
Species	factor	-	鸢尾花种类（分类标签），包含3个水平： • `setosa`山鸢尾 • `versicolor`变色鸢尾 • `virginica`维吉尼亚鸢尾

setosa 类的花通常较小，花瓣短而宽，与其他两类差异明显；versicolor 和 virginica 在部分特征上有重叠，分类难度更高。

2 平行坐标图和雷达图

2.1 平行坐标图

ggplot(group=id)+geom_line+geom_point 绘图
Species 映射为颜色

2.1.1 图形观察和代码编写的心得体会

平行坐标图非常适合展示多维数据，可以直观比较不同类别的特征
从图中可以明显看出setosa与其他两个物种在花瓣测量值上有明显差异
versicolor和virginica在某些指标上有重叠但在花瓣长度和宽度上可以区分
数据处理时保持因子顺序很重要，fct_inorder可以保持原始列顺序
对于多线条图形，适当调整透明度可以提高可视化效果
图例和标签的精心设计可以大大提高图形的可读性

2.2 雷达图

采用ggiraphExtra::ggRadar 绘图

2.2.1 图形观察和代码编写的心得体会

雷达图能直观展示多维数据中各物种的特征差异
从归一化后的雷达图可以更清晰地比较各物种的相对特征
setosa的花瓣尺寸明显小于其他两类，花萼特征也有差异
versicolor和virginica在归一化后显示出更清晰的差异模式
分面展示可以避免图形过度重叠，提高可读性
合理设置alpha透明度可以改善重叠部分的视觉效果
ylim参数的调整对图形展示效果影响很大，需要根据数据范围合理设置

3 星图和脸谱图

3.1 星图

采用stars 函数，对标准化数据绘制圆弧星图
需要先将四个数值变量转化为矩阵，并将Species 作为矩阵的行名；
设置图例在合适位置，能完整显示；将图形分为10行。

3.1.1 图形观察和代码编写的心得体会

圆弧星图能清晰显示各测量指标的比例关系
多边形星图则更强调各物种的整体形态差异
明显可见setosa的花瓣尺寸（Petal.Length/Width）显著小于其他两类
versicolor和virginica在花萼指标上较为相似

3.2 脸谱图

采用aplpack::faces 函数，作Species 三个类别的脸谱图
需要先将四个数值变量转化为矩阵，并将Species 作为矩阵的行名；
设置图例在合适位置，能完整显示；将图形分为3列。

effect of variables:
 modified item       Var           
 "height of face   " "Sepal.Length"
 "width of face    " "Sepal.Width" 
 "structure of face" "Petal.Length"
 "height of mouth  " "Petal.Width" 
 "width of mouth   " "Sepal.Length"
 "smiling          " "Sepal.Width" 
 "height of eyes   " "Petal.Length"
 "width of eyes    " "Petal.Width" 
 "height of hair   " "Sepal.Length"
 "width of hair   "  "Sepal.Width" 
 "style of hair   "  "Petal.Length"
 "height of nose  "  "Petal.Width" 
 "width of nose   "  "Sepal.Length"
 "width of ear    "  "Sepal.Width" 
 "height of ear   "  "Petal.Length"

3.2.1 图形观察和代码编写的心得体会

三种鸢尾花的脸部特征有明显差异
setosa的脸型（可能对应花萼指标）最为”圆润”
virginica的脸部特征（可能对应花瓣指标）最为”夸张”
脸谱的嘴巴、眼睛等部位差异反映了各测量指标的大小关系

4 聚类图和热图

4.1 系统聚类树状图

采用factoextra::fviz_dend 函数，对标准化后数据作图；
需要先将四个数值变量转化为矩阵，并将Species 作为矩阵的行名；
要求分为3类，观察分类结果和Species 的差异；树状图的外观为圆形。

        真实类别
聚类结果 setosa versicolor virginica
       1     49          0         0
       2      1         27         2
       3      0         23        48

4.1.1 图形观察和代码编写的心得体会

树状图清晰显示setosa与其他两类明显分离
versicolor和virginica存在部分重叠
圆形布局适合展示中等规模数据集（150个样本）

4.2 K-menas聚类主成分图

采用factoextra::fviz_cluster 函数，对标准化后数据作图；
需要先将四个数值变量转化为矩阵，并将1：150 作为矩阵的行名；
要求分为3类，类别轮廓为正态分布，观察哪些观察值比较异常。

最异常的5个样本编号: 132, 118, 61, 110, 119

4.2.1 图形观察和代码编写的心得体会

主成分图显示三个簇的分离情况
正态椭圆显示versicolor和virginica有部分重叠区域
异常点多位于两类交界处

4.3 热图

采用gplots::heatmap.2 函数，对原始数据绘制热力图
需要先将四个数值变量转化为矩阵，并将Species 作为矩阵的行名；
要求横轴和纵轴均添加聚类树状图

4.3.1 图形观察和代码编写的心得体会

关键参数设置：
- dendrogram="both"同时显示行列聚类树
- col=bluered(100)提供直观的温度图效果
- margins=c(8,8)适应长标签显示
可视化发现：
- 行聚类清晰分离三个物种（setosa明显独立）
- 列聚类显示花萼和花瓣指标各自聚为两类
- 颜色梯度揭示virginica的花瓣尺寸普遍较大