setwd("D:\\Rdownload\\lianxi\\dazuoye")
data<-read.csv("dazuoye.csv",header=T) #将dazuoye.csv数据读入到data中
data=data[,-1] #data的第一列不是数值先去掉
rownames(data)=data[,1] #用data的第一列为data的行重新命名
colnames(data) <- c( "y","x1", "x2", "x3", "x4", "x5")
R=round(cor(data),3)
R #求样本相关系数矩阵,保留三位小数
## y x1 x2 x3 x4 x5
## y 1.000 0.091 0.334 0.068 0.393 0.374
## x1 0.091 1.000 0.941 0.196 0.809 0.799
## x2 0.334 0.941 1.000 0.193 0.895 0.891
## x3 0.068 0.196 0.193 1.000 0.274 0.306
## x4 0.393 0.809 0.895 0.274 1.000 0.988
## x5 0.374 0.799 0.891 0.306 0.988 1.000
PCAdata=princomp(data,cor=T) #用样本相关系数矩阵做主成分分析
summary(PCAdata,loadings=T) #列出主成分分析结果
## Importance of components:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## Standard deviation 1.9688035 0.9766037 0.9591095 0.46503157 0.155693853
## Proportion of Variance 0.6460312 0.1589591 0.1533152 0.03604239 0.004040096
## Cumulative Proportion 0.6460312 0.8049903 0.9583055 0.99434786 0.998387952
## Comp.6
## Standard deviation 0.098347792
## Proportion of Variance 0.001612048
## Cumulative Proportion 1.000000000
##
## Loadings:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
## y 0.207 0.822 0.437 0.263 0.137
## x1 0.453 -0.234 -0.300 0.529 0.576 0.195
## x2 0.489 -0.180 0.364 -0.740 -0.218
## x3 0.168 -0.518 0.828 0.127
## x4 0.493 -0.483 0.288 -0.663
## x5 0.492 -0.520 -0.135 0.686
###相关系数矩阵:展示了变量地区生产总值、城镇非私营单位就业人员平均工资、城镇私营单位就业人员平均工资、居民消费价格指数、居民人均可支配收入、居民人均消费支出之间的相关系数。例如,地区生产总值与城镇非私营单位就业人员平均工资的相关系数为0.091,地区生产总值与城镇私营单位就业人员平均工资的相关系数为0.334等;可以看出一些变量之间存在较强的相关性,如城镇非私营单位就业人员平均工资与城镇私营单位就业人员平均工资的相关系数为0.941,说明这两个变量高度相关,可能存在信息重叠。
###主成分的重要性
####标准差(Standard deviation):第一主成分(Comp.1)的标准差为1.9688035,是所有主成分中最大的,说明第一主成分包含了最多的信息。随着主成分序号的增加,标准差逐渐减小,表明后续主成分包含的信息逐渐减少。
####方差贡献率(Proportion of Variance):第一主成分的方差贡献率为0.6460312,即它解释了原始数据总方差的64.60%,这是一个较高的比例,说明第一主成分在数据降维中起到了重要作用;第二主成分的方差贡献率为0.1589591,解释了总方差的15.90%;前两个主成分的累计方差贡献率(Cumulative Proportion)为0.8049903,即前两个主成分共解释了原始数据总方差的80.50%,这表明仅用前两个主成分就可以保留大部分原始数据的信息,达到了较好的数据降维效果。
###载荷(Loadings):对于第一主成分(Comp.1),城镇私营单位就业人员平均工资、居民人均可支配收入、居民人均消费支出的载荷值较大(分别为0.489、0.493、0.492),说明这些变量在第一主成分上有较大的贡献,可能代表了数据的一个主要特征或维度;对于第二主成分(Comp.2),地区生产总值的载荷值较大(0.822),表明地区生产总值在第二主成分上的作用较为突出,可能反映了数据的另一个重要方面。
screeplot (PCAdata, type="barplot") # 画碎石图,用直方图类型
###整体趋势:从图中可以明显看出,主成分的方差呈现出快速下降的趋势。第一个主成分(Comp.1)的方差最大,远远高于其他主成分,说明它包含了原始数据中最多的信息或变异。
###主成分对比
####Comp.1:其方差值显著高于其他主成分,可能是原始数据中最重要的综合维度,能够解释数据的大部分变异。例如,如果这是对学生成绩的主成分分析,Comp.1可能综合了多个学科成绩的主要特征,如整体学习能力或学业水平等。
####Comp.2和Comp.3:这两个主成分的方差相对较小,但明显高于Comp.4、Comp.5和Comp.6。它们也包含了一定的信息,可能代表了数据中一些次要但仍然重要的维度或特征。比如,Comp.2可能与某种特定的学习风格或学科组合相关,Comp.3可能与其他特定因素有关。
####Comp.4、Comp.5和Comp.6:方差值非常小,说明它们对原始数据变异的解释能力很弱,可能包含的信息较少,在实际分析中可以考虑忽略这些主成分,以达到数据降维的目的。
###决策依据:根据这幅图,可以结合前面提到的确定主成分个数的方法来决定保留几个主成分。例如,按照特征值大于1原则,由于Comp.1的方差明显大于1,而Comp.2和Comp.3的方差接近1,可能会考虑保留前3个主成分;按照累计方差贡献率,如果前3个主成分的累计方差贡献率达到了一个可接受的阈值(如70%或更高),也可以选择保留3个主成分;此外,还可以结合实际业务背景和数据的具体含义来进一步判断。如果Comp.2和Comp.3在实际业务中有明确的、重要的解释,即使它们的方差相对较小,也可能会被保留。总体而言,这张图直观地展示了主成分分析中各个主成分的相对重要性,为选择合适的主成分个数以及进一步理解数据结构提供了重要的参考依据。
load=loadings(PCAdata) #提取主成分载荷矩阵
plot(load[,1:2],xlim=c(0.1,0.8),ylim=c(-0.6,1)) #作散点图
rnames=c("地区生产总值(亿元)","城镇非私营单位就业人员平均工资(元)","城镇私营单位就业人员平均工资(元)","居民消费价格指数", "居民人均可支配收入(元)","居民人均消费支出(元)") #用中文命名行
text(load[,1],load[,2],labels=rnames,adj=c(-0.2, 0.1),cex=0.7)
abline(h=0,v=0) #划分象限
###主成分的含义与变量分布
####Comp.1和Comp.2:这是通过主成分分析得到的两个主成分。Comp.1在水平轴上,Comp.2在垂直轴上。主成分是原始变量的线性组合,它们试图捕捉原始数据中的主要变异模式。
####变量位置:
#####地区生产总值(亿元):位于图的左上方,Comp.2的值相对较高(接近0.5),Comp.1的值较小(约0.2)。这表明地区生产总值在Comp.2上有较大的正载荷,可能意味着地区生产总值与Comp.2所代表的维度有较强的正相关关系,而与Comp.1的关系相对较弱。
#####居民人均可支配收入(元)和城镇私营单位就业人员平均工资(元):这两个变量位置较为接近,都在Comp.1值较大(约0.5 - 0.6),Comp.2值接近0的区域。说明它们在Comp.1上有较大的正载荷,与Comp.1所代表的维度相关性较强,而与Comp.2的相关性较弱。
#####城镇非私营单位就业人员平均工资(元):位于Comp.1值较大(约0.5),Comp.2值较小(接近-0.5)的位置,表明它在Comp.1上有较大正载荷,在Comp.2上有较大的负载荷,与前两个变量在Comp.2上的表现不同,可能反映了非私营单位就业人员工资的一些独特特征。
#####居民消费价格指数:在Comp.2上有较大的负载荷(约-0.5),Comp.1值较小(约0.2),说明它与Comp.2所代表的维度有较强的负相关关系,与Comp.1的关系较弱。
###变量间关系与聚类趋势
####变量间关系:从图中可以看出,居民人均可支配收入和城镇私营单位就业人员平均工资较为接近,可能暗示这两个变量在某些方面具有相似性,例如都与居民的收入水平和生活质量相关。而城镇非私营单位就业人员平均工资与它们在Comp.2上的差异,可能反映了不同就业单位类型在工资结构或其他相关因素上的不同。
####聚类趋势:这些变量在图中的分布没有明显形成紧密的聚类,但可以大致看出一些分组趋势。例如,居民人均可支配收入和城镇私营单位就业人员平均工资可以看作一个小的分组,地区生产总值单独在一个区域,居民消费价格指数在另一个区域,城镇非私营单位就业人员平均工资则处于相对独立的位置。这可能为进一步分析这些经济指标之间的关系和差异提供一些线索,例如在后续的聚类分析或回归分析中,可以考虑这些变量的分组和相关性。
###实际应用与解释:在实际应用中,这张图可以帮助我们理解不同经济指标在主成分空间中的位置和关系。例如,在研究地区经济发展时,可以根据这些变量在主成分上的载荷情况,综合考虑多个指标来评估地区的经济状况。如果要构建经济发展指数或进行经济结构分析,可以参考这些变量在主成分上的贡献,选择合适的变量组合或权重。同时,也可以根据图中的信息,进一步探索这些经济指标背后的影响因素和相互作用机制,为政策制定和经济研究提供参考依据。总体而言,这张主成分分析载荷图为我们提供了一个直观的视角,帮助我们理解原始经济变量在主成分空间中的分布和关系,从而更好地挖掘数据中的信息和潜在模式。
A=round(PCAdata$scores,3) #计算主成分得分,取3位小数
B=round(apply(A[,1:3],1,crossprod),2) #按行加总前三个主成分上的载荷平方的综合得分
cbind(A,"得分"=B,"排名"=rank(B)) #按列合并主成分得分、综合得分和排序
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 得分 排名
## 43760.7 5.900 -0.921 -0.796 -0.068 0.109 -0.096 36.29 30.0
## 16737.3 1.829 -1.112 0.018 -0.749 -0.127 0.170 4.58 21.0
## 43944.1 -0.851 -0.576 1.702 0.000 0.128 -0.012 3.95 19.0
## 25698.2 -1.621 0.336 -0.750 -0.318 0.149 -0.070 3.30 16.0
## 24627 -0.089 -1.147 1.230 -0.265 0.045 0.001 2.84 14.0
## 30209.4 -0.485 0.077 -0.119 -0.946 0.118 0.109 0.26 1.0
## 13531.2 -1.486 0.033 -0.923 -0.596 0.043 0.035 3.06 15.0
## 15883.9 -1.155 -1.297 1.364 -0.312 0.219 0.031 4.88 24.0
## 47218.7 6.452 -0.706 -1.235 -0.037 0.052 0.036 43.65 31.0
## 128222.2 2.018 1.804 1.619 0.431 0.040 -0.045 9.95 28.0
## 82553.2 2.344 0.816 0.613 -0.484 0.155 -0.141 6.54 27.0
## 47050.6 -0.645 0.230 0.295 0.141 -0.089 -0.024 0.56 3.5
## 54355.1 0.407 0.814 -0.393 -0.419 -0.257 -0.042 0.98 6.0
## 32200.1 -1.060 -0.267 0.563 -0.126 -0.103 -0.208 1.51 10.0
## 92068.7 0.032 1.570 0.529 0.200 0.201 -0.096 2.75 13.0
## 59132.4 -1.685 1.463 -0.492 -0.307 0.177 -0.014 5.22 25.0
## 55803.6 -0.362 0.619 0.030 0.102 0.027 0.021 0.52 2.0
## 50012.9 -0.531 0.360 0.387 -0.092 -0.229 -0.006 0.56 3.5
## 135673.2 2.346 1.941 1.596 0.724 -0.183 0.190 11.82 29.0
## 27202.4 -1.665 0.561 -1.069 -0.266 0.118 -0.057 4.23 20.0
## 7551.2 -0.452 -1.052 -0.108 0.206 -0.377 -0.223 1.32 9.0
## 30145.8 -0.518 0.727 -1.665 -0.237 -0.155 0.065 3.57 18.0
## 60132.9 -0.540 0.906 -0.251 0.348 -0.081 0.148 1.18 8.0
## 20913.3 -1.784 0.542 -1.553 -0.020 -0.011 0.095 5.89 26.0
## 30021.1 -1.227 -0.441 0.423 0.365 0.135 -0.058 1.88 11.0
## 2392.7 -0.607 -0.794 -1.955 1.620 0.229 -0.012 4.82 23.0
## 33786.1 -0.918 0.060 -0.212 0.124 -0.021 -0.006 0.89 5.0
## 11863.8 -1.485 -1.251 0.917 0.197 -0.035 0.074 4.61 22.0
## 3799.1 -0.737 -1.604 0.536 0.300 0.108 0.170 3.40 17.0
## 5315 -0.609 -1.336 0.208 0.271 -0.162 -0.031 2.20 12.0
## 19125.9 -0.813 -0.355 -0.511 0.214 -0.224 -0.003 1.05 7.0
###数据结构与内容:第一行观测值为43760.7,其在Comp.1上的得分为5.900,Comp.2上为-0.921,以此类推,总得分是36.29,排名为30.0。
###主成分得分分析
####Comp.1得分分布:得分有正有负,范围较广。如43760.7对应的Comp.1得分为5.900较高,而25698.2对应的得分为-1.621较低。这表明不同观测值在第一主成分所代表的维度上表现差异较大。第一主成分通常解释了原始数据中较大比例的方差,可能综合了多个原始变量的主要信息,得分的正负和大小反映了观测值在这个综合维度上的位置和程度。
####Comp.2得分分布:同样有正有负,如128222.2对应的Comp.2得分为1.804,16737.3对应的得分为-1.112。说明观测值在第二主成分所代表的维度上也存在差异,第二主成分可能捕捉了与第一主成分不同的信息,是对数据变异的另一种重要解释。
####其他主成分(Comp.3 - Comp.6):得分情况类似,虽然它们解释的方差比例相对较小,但也反映了观测值在这些维度上的特征。例如,43944.1在Comp.3上的得分为1.702较高,而25698.2在Comp.3上得分为-0.750较低,显示出不同观测值在这些维度上的差异。
###总得分与排名
####总得分:通过对六个主成分得分的某种组合(可能是简单相加或加权相加等)得到总得分。总得分的范围从0.89到43.65不等,如47218.7的总得分是43.65,33786.1的总得分是0.89。总得分可以用于对观测值进行整体比较和排序。
####排名:根据总得分进行的排名,从1.0到35.0。排名靠前的观测值(如30209.4排名为1.0)在整体上表现较好(根据总得分的计算方式),而排名靠后的观测值(如43760.7排名为30.0)相对较差。
###实际应用与意义:在实际应用中,这些主成分得分和总得分可以用于多种分析和决策。例如,在经济研究中,如果这些数据代表不同地区的经济指标,那么可以通过主成分得分和排名来比较地区经济发展的综合水平和在不同维度上的表现,为政策制定、资源分配等提供参考。在企业绩效评估中,如果这些是企业的相关数据,可用于评估企业的综合竞争力和各方面的优势与劣势,以便企业制定改进策略。总体而言,这些数据提供了关于观测值在多个主成分维度上的详细信息,以及基于这些维度的综合评价(总得分和排名),有助于深入了解数据的结构和特征,并进行进一步的分析和决策。
biplot(PCAdata,scale = 0.5) #绘制31个地区的双坐标散点图
###数据点分布与变量关系
####数据点(地区)分布:图中有多个黑色的数据点,每个点代表一个地区。这些点在Comp.1和Comp.2构成的二维空间中分布较为分散,没有明显的聚集趋势。例如,点1135673.2、128222.2等分布在不同的位置,说明这些地区在由主成分所代表的维度上具有不同的特征和差异。
####变量向量(粉色箭头):图中还有几个粉色的箭头,分别标y、x1、x2、x3等,这些箭头代表了原始变量在主成分空间中的方向和相对重要性。
####变量方向:箭头的方向表示变量与主成分之间的相关性方向。例如,x1箭头的方向大致指向Comp.1的正方向和Comp.2的负方向,说明x1变量与Comp.1正相关,与Comp.2负相关。
####变量重要性:箭头的长度可以大致反映变量在主成分中的重要性(载荷大小)。较长的箭头(如x2)表示该变量在主成分空间中的影响较大,对主成分的贡献较多;较短的箭头(如x3)则表示该变量的影响相对较小。
###地区与变量的关系解读:通过观察数据点与变量箭头的相对位置,可以推测地区与变量之间的关系。例如,如果某个地区的数据点靠近x1箭头的方向,那么该地区在x1变量上的值可能相对较高,并且在主成分所代表的维度上具有与x1相关的特征;同时,数据点在Comp.1和Comp.2轴上的位置也反映了该地区在这两个主成分上的综合表现。例如,位于Comp.1正值区域且Comp.2正值区域的数据点(如某些靠近x2箭头方向的数据点),在这两个主成分所代表的综合维度上具有较高的得分,可能具有一些共同的特征或优势。
###实际应用与意义:在实际应用中,这种双坐标散点图可以帮助我们直观地理解多个地区在多个变量综合影响下的差异和相似性。例如,在区域经济研究中,可以根据地区在主成分上的位置和与变量的关系,分析不同地区的经济发展模式、优势产业等;在市场调研中,可以用于分析不同市场区域在各种市场因素(如消费者偏好、产品价格等)影响下的特点和差异,为市场细分、营销策略制定等提供依据。总体而言,该双坐标散点图提供了一个直观的可视化工具,帮助我们从多个维度(主成分)和多个变量的角度来分析和解读数据,揭示数据背后的潜在结构和关系。