以100位網球選手在各個狀況下的勝率來訂定成為殺手級選手的能力指標
由下面呈現的table可得知第一及第二主成份的 sd > 1 ,並且解釋了67%的變異,故挑出這兩個主成份。
library(sem)
library('psych')
setwd('/Users/apple/Documents/多變量分析教材')
data = read.csv(file="網球苡容王子.csv",header=T)
data = data[,c(-1,-2)]
colnames(data)=c("搶七","前十勝率","決勝盤勝率","輸首勝勝率","硬地比賽勝率","紅土比賽勝率","草地比賽勝率","優質發球數","身高","慣用手","出生地")
data$慣用手=as.factor(data$慣用手)
data$出生地=as.factor(data$出生地)
levels(data$慣用手)=c("右手","左手")
levels(data$出生地)=c("歐洲","美洲","亞洲","其他")
fit <- princomp(data[,1:9], cor=TRUE)
summary(fit) # print variance accounted for
## Importance of components:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
## Standard deviation 2.1755 1.1721 0.88000 0.7777 0.73769 0.62512
## Proportion of Variance 0.5259 0.1526 0.08604 0.0672 0.06047 0.04342
## Cumulative Proportion 0.5259 0.6785 0.76455 0.8318 0.89222 0.93564
## Comp.7 Comp.8 Comp.9
## Standard deviation 0.50991 0.47896 0.299782
## Proportion of Variance 0.02889 0.02549 0.009985
## Cumulative Proportion 0.96453 0.99001 1.000000
陡坡圖如下:
plot(fit,type="lines") # scree plot
各主成份權重
第一主成份各個變數的權重皆分布平均,並且擁有最大變異,故推斷全方位程度較高所以命名為殺手級選手。
第三主成份在搶七及決勝盤兩變數的比重遠高於其他,故推斷抗壓性程度高所以命名為高抗壓選手。
第五主成份在地形變數上皆佔最高權重,故推斷地形掌握程度高所以命名為環境型選手。
loadings(fit) # pc loadings
##
## Loadings:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
## 搶七 -0.284 0.733 0.346 0.472 0.111 -0.120
## 前十勝率 -0.385 -0.187 -0.256 -0.474 0.717
## 決勝盤勝率 -0.331 -0.155 -0.554 0.543 0.143
## 輸首勝勝率 -0.416 -0.160 -0.207 0.206 0.101 -0.140 -0.194 -0.190
## 硬地比賽勝率 -0.388 0.165 -0.186 -0.449 -0.238 -0.413 -0.498
## 紅土比賽勝率 -0.315 -0.254 -0.158 -0.642 0.407 0.426 0.129 -0.173
## 草地比賽勝率 -0.360 0.138 0.160 0.127 -0.474 0.680 0.333
## 優質發球數 -0.312 0.505 -0.155 -0.227 0.722 -0.179
## 身高 -0.106 0.759 -0.133 0.362 -0.489 0.116
## Comp.9
## 搶七 -0.108
## 前十勝率
## 決勝盤勝率 -0.491
## 輸首勝勝率 0.783
## 硬地比賽勝率 -0.330
## 紅土比賽勝率
## 草地比賽勝率 0.102
## 優質發球數
## 身高
##
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
## SS loadings 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
## Proportion Var 0.111 0.111 0.111 0.111 0.111 0.111 0.111 0.111
## Cumulative Var 0.111 0.222 0.333 0.444 0.556 0.667 0.778 0.889
## Comp.9
## SS loadings 1.000
## Proportion Var 0.111
## Cumulative Var 1.000
library(ggplot2)
library(dplyr)
data %>% ggplot(aes(x=硬地比賽勝率,y=紅土比賽勝率,color=慣用手))+geom_point()+theme_grey(base_family="STHeiti")+
coord_cartesian(xlim = c(0,max(data$搶七)+0.05),ylim=c(0,0.75))+stat_smooth(method=lm, level=.95)+
labs(title ="散布圖", x = "紅土比賽勝率", y = "硬地比賽勝率")+
theme_grey(base_family="STHeiti")+theme(axis.text.x=element_text(angle=10,size=20),
axis.text.y=element_text(size=20),
axis.title.x=element_text(size=20),
axis.title.y=element_text(size=20),
plot.title = element_text(size = rel(2)))