第六章样本相似性可视化课堂练习

Author

221527210刘念佳音

1 案例数据

1.1 iris：鸢尾花数据集

R语言内置的 iris 数据集（鸢尾花数据集）是统计学和机器学习领域最经典的案例数据集之一，由英国统计学家 Ronald Fisher 在1936年首次提出。它包含了3种鸢尾花的测量数据，每个类别有50个样本，共150行数据。

变量名	数据类型	单位	说明
Sepal.Length	numeric	cm	花萼（萼片）长度，即花朵最外层绿色叶状结构的长度
Sepal.Width	numeric	cm	花萼（萼片）宽度
Petal.Length	numeric	cm	花瓣长度，即花朵内部彩色叶状结构的长度
Petal.Width	numeric	cm	花瓣宽度
Species	factor	-	鸢尾花种类（分类标签），包含3个水平： • `setosa`山鸢尾 • `versicolor`变色鸢尾 • `virginica`维吉尼亚鸢尾

setosa 类的花通常较小，花瓣短而宽，与其他两类差异明显；versicolor 和 virginica 在部分特征上有重叠，分类难度更高。

2 平行坐标图和雷达图

2.1 平行坐标图

ggplot(group=id)+geom_line+geom_point 绘图
Species 映射为颜色

2.1.1 图形观察和代码编写的心得体会

平行坐标图通过平行纵轴展示多维数据，每条折线代表一个样本，可直观比较鸢尾花各指标（如花萼长宽、花瓣长宽）的分布及聚类关系，适用于分类数据对比分析。

2.2 雷达图

采用ggiraphExtra::ggRadar 绘图

2.2.1 图形观察和代码编写的心得体会

雷达图通过多轴放射状排列展示多维数据，每个多边形代表一个类别（如鸢尾花品种），可直观对比不同品种在花萼/花瓣尺寸上的差异，突出各指标分布模式及物种特征。

3 星图和脸谱图

3.1 星图

采用stars 函数，对标准化数据绘制圆弧星图
需要先将四个数值变量转化为矩阵，并将Species 作为矩阵的行名；
设置图例在合适位置，能完整显示；将图形分为10行。

3.1.1 图形观察和代码编写的心得体会

星图通过放射状轴线展示多维数据，每个观测（鸢尾花样本）用一颗”星形”表示，轴线长度对应指标值（如花瓣/花萼尺寸），适合快速对比个体特征差异和整体分布模式。

3.2 脸谱图

采用aplpack::faces 函数，作Species 三个类别的脸谱图
需要先将四个数值变量转化为矩阵，并将Species 作为矩阵的行名；
设置图例在合适位置，能完整显示；将图形分为12列。

effect of variables:
 modified item       Var           
 "height of face   " "Sepal.Length"
 "width of face    " "Sepal.Width" 
 "structure of face" "Petal.Length"
 "height of mouth  " "Petal.Width" 
 "width of mouth   " "Sepal.Length"
 "smiling          " "Sepal.Width" 
 "height of eyes   " "Petal.Length"
 "width of eyes    " "Petal.Width" 
 "height of hair   " "Sepal.Length"
 "width of hair   "  "Sepal.Width" 
 "style of hair   "  "Petal.Length"
 "height of nose  "  "Petal.Width" 
 "width of nose   "  "Sepal.Length"
 "width of ear    "  "Sepal.Width" 
 "height of ear   "  "Petal.Length"

3.2.1 图形观察和代码编写的心得体会

脸谱图将多维数据映射为人脸特征（如嘴形、眼眉等），每个鸢尾花种类用一张脸表示，通过面部差异直观展现类别间的特征分布差异。

4 聚类图和热图

4.1 系统聚类树状图

采用factoextra::fviz_dend 函数，对标准化后数据作图；
需要先将四个数值变量转化为矩阵，并将Species 作为矩阵的行名；
要求分为3类，观察分类结果和Species 的差异；树状图的外观为圆形。

4.1.1 图形观察和代码编写的心得体会

系统聚类树状图通过分支结构展示样本间相似性，垂直高度代表距离尺度，清晰呈现鸢尾花三类的自然分群及样本间亲疏关系，适用于层次聚类分析。

4.2 K-menas聚类主成分图

采用factoextra::fviz_cluster 函数，对标准化后数据作图；
需要先将四个数值变量转化为矩阵，并将1：150 作为矩阵的行名；
要求分为3类，类别轮廓为正态分布，观察哪些观察值比较异常。

4.2.1 图形观察和代码编写的心得体会

该图通过主成分降维（Dim1-73%, Dim2-22.9%）展示K-means聚类结果（3类），散点分布反映鸢尾花样本在降维空间的分类情况，直观呈现数据集的聚类结构和方差解释度。

4.3 热图

采用gplots::heatmap.2 函数，对原始数据绘制热力图
需要先将四个数值变量转化为矩阵，并将Species 作为矩阵的行名；
要求横轴和纵轴均添加聚类树状图

4.3.1 图形观察和代码编写的心得体会

热图通过颜色梯度展示数值大小，行/列分别对应鸢尾花样本和特征（花萼/花瓣尺寸），能直观呈现数据矩阵模式、聚类趋势及特征间相关性。色键标明数值-颜色映射关系。