##由于计算机算力不足和频繁报错,不得不在Excel中进行数据预处理,处理数据包括: ##1.提取State为NY的数据 2.保留product/tags/Submitted via/Company response to consumer/Timely response列,其余删去 ##3.将上列数据中的元素分别转换为数值 4.删去存在空白的列 ##5.单拉Consumer complaint narrative 为一个cvs作为文件2,并将该行名称改为X
df<-read.csv("E:/计算传播期中/Consumer Complaints NA处理.csv")
#导入文件1
cor=cor(df, use='everything', method='pearson')
print(cor)
## Product Tags Submitted.via
## Product 1.00000000 0.047581681 0.06630745
## Tags 0.04758168 1.000000000 0.08389851
## Submitted.via 0.06630745 0.083898506 1.00000000
## Company.response.to.consumer -0.06044528 0.007167132 0.01289726
## Timely.response. 0.03118129 -0.006513342 0.00433958
## Company.response.to.consumer Timely.response.
## Product -0.060445276 0.031181287
## Tags 0.007167132 -0.006513342
## Submitted.via 0.012897256 0.004339580
## Company.response.to.consumer 1.000000000 0.126896918
## Timely.response. 0.126896918 1.000000000
##使用协方差分析的统计方法,判断以下五个变量的相关性关系
##协方差分析的结果在-1-1之间,数据越接近∣1∣,说明二者相关性越强
##以下结果说明,5个元素之间的相关关系很弱
library(corrplot)
## Warning: 程辑包'corrplot'是用R版本4.2.2 来建造的
## corrplot 0.92 loaded
##运行程序,做协方差可视化图
##颜色越深,圆圈越大,说明二者相关性越强
corrplot(cor)
#作主成分分析
##主成分分析是一种常用的数据分析方法。通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。PCA是将已存在的特征进行压缩,降维完毕后的特征不是原本的特征矩阵中的任何一个特征,而是通过某些方式组合起来的新特征。
princomp1.pr <- princomp(df,cor = TRUE)
#显示分析结果,loadings(载荷)
summary(princomp1.pr,loadings = TRUE)
## Importance of components:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## Standard deviation 1.0663839 1.0622274 0.9915718 0.9559504 0.9151189
## Proportion of Variance 0.2274349 0.2256654 0.1966429 0.1827682 0.1674885
## Cumulative Proportion 0.2274349 0.4531003 0.6497433 0.8325115 1.0000000
##
## Loadings:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## Product 0.535 0.146 0.692 0.111 0.449
## Tags 0.492 0.278 -0.483 0.662
## Submitted.via 0.516 0.341 -0.243 -0.728 -0.169
## Company.response.to.consumer -0.385 0.614 -0.241 0.644
## Timely.response. -0.241 0.639 0.413 0.126 -0.588
#画出主成分的碎石图,主成分特征值的大小构成的陡坡图
screeplot(princomp1.pr,type = "lines")
#画出数据关于前两个主成分的散点图和原坐标在主成分下的方向(比如,倾向第一主成分,可选择4、9、8等编号。箭头代表xi在主成分下的方向)
biplot(princomp1.pr)