R Markdown

##由于计算机算力不足和频繁报错,不得不在Excel中进行数据预处理,处理数据包括: ##1.提取State为NY的数据 2.保留product/tags/Submitted via/Company response to consumer/Timely response列,其余删去 ##3.将上列数据中的元素分别转换为数值 4.删去存在空白的列 ##5.单拉Consumer complaint narrative 为一个cvs作为文件2,并将该行名称改为X

df<-read.csv("E:/计算传播期中/Consumer Complaints NA处理.csv")
#导入文件1
cor=cor(df, use='everything', method='pearson')
print(cor)
##                                  Product         Tags Submitted.via
## Product                       1.00000000  0.047581681    0.06630745
## Tags                          0.04758168  1.000000000    0.08389851
## Submitted.via                 0.06630745  0.083898506    1.00000000
## Company.response.to.consumer -0.06044528  0.007167132    0.01289726
## Timely.response.              0.03118129 -0.006513342    0.00433958
##                              Company.response.to.consumer Timely.response.
## Product                                      -0.060445276      0.031181287
## Tags                                          0.007167132     -0.006513342
## Submitted.via                                 0.012897256      0.004339580
## Company.response.to.consumer                  1.000000000      0.126896918
## Timely.response.                              0.126896918      1.000000000
##使用协方差分析的统计方法,判断以下五个变量的相关性关系
##协方差分析的结果在-1-1之间,数据越接近∣1∣,说明二者相关性越强
##以下结果说明,5个元素之间的相关关系很弱
library(corrplot)
## Warning: 程辑包'corrplot'是用R版本4.2.2 来建造的
## corrplot 0.92 loaded
##运行程序,做协方差可视化图
##颜色越深,圆圈越大,说明二者相关性越强
corrplot(cor)

#作主成分分析
##主成分分析是一种常用的数据分析方法。通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。PCA是将已存在的特征进行压缩,降维完毕后的特征不是原本的特征矩阵中的任何一个特征,而是通过某些方式组合起来的新特征。
princomp1.pr <- princomp(df,cor = TRUE)
#显示分析结果,loadings(载荷)
summary(princomp1.pr,loadings = TRUE)
## Importance of components:
##                           Comp.1    Comp.2    Comp.3    Comp.4    Comp.5
## Standard deviation     1.0663839 1.0622274 0.9915718 0.9559504 0.9151189
## Proportion of Variance 0.2274349 0.2256654 0.1966429 0.1827682 0.1674885
## Cumulative Proportion  0.2274349 0.4531003 0.6497433 0.8325115 1.0000000
## 
## Loadings:
##                              Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## Product                       0.535  0.146  0.692  0.111  0.449
## Tags                          0.492  0.278 -0.483  0.662       
## Submitted.via                 0.516  0.341 -0.243 -0.728 -0.169
## Company.response.to.consumer -0.385  0.614 -0.241         0.644
## Timely.response.             -0.241  0.639  0.413  0.126 -0.588
#画出主成分的碎石图,主成分特征值的大小构成的陡坡图
screeplot(princomp1.pr,type = "lines")

#画出数据关于前两个主成分的散点图和原坐标在主成分下的方向(比如,倾向第一主成分,可选择4、9、8等编号。箭头代表xi在主成分下的方向)
biplot(princomp1.pr)