探討議題1.1

主成份分析

以100位網球選手在各個狀況下的勝率來訂定成為殺手級選手的能力指標

由下面呈現的table可得知第一及第二主成份的 sd > 1 ,並且解釋了67%的變異,故挑出這兩個主成份。

library(sem)
library('psych')
setwd('/Users/apple/Documents/多變量分析教材')
data = read.csv(file="網球苡容王子.csv",header=T)
data = data[,c(-1,-2)]
colnames(data)=c("搶七","前十勝率","決勝盤勝率","輸首勝勝率","硬地比賽勝率","紅土比賽勝率","草地比賽勝率","優質發球數","身高","慣用手","出生地")
data$慣用手=as.factor(data$慣用手)
data$出生地=as.factor(data$出生地)
levels(data$慣用手)=c("右手","左手")
levels(data$出生地)=c("歐洲","美洲","亞洲","其他")
fit <- princomp(data[,1:9], cor=TRUE)
summary(fit) # print variance accounted for 
## Importance of components:
##                        Comp.1 Comp.2  Comp.3 Comp.4  Comp.5  Comp.6
## Standard deviation     2.1755 1.1721 0.88000 0.7777 0.73769 0.62512
## Proportion of Variance 0.5259 0.1526 0.08604 0.0672 0.06047 0.04342
## Cumulative Proportion  0.5259 0.6785 0.76455 0.8318 0.89222 0.93564
##                         Comp.7  Comp.8   Comp.9
## Standard deviation     0.50991 0.47896 0.299782
## Proportion of Variance 0.02889 0.02549 0.009985
## Cumulative Proportion  0.96453 0.99001 1.000000

陡坡圖如下:

plot(fit,type="lines") # scree plot 

plot of chunk unnamed-chunk-2


各主成份權重

  • 第一主成份各個變數的權重皆分布平均,並且擁有最大變異,故推斷全方位程度較高所以命名為殺手級選手

  • 第三主成份在搶七決勝盤兩變數的比重遠高於其他,故推斷抗壓性程度高所以命名為高抗壓選手

  • 第五主成份在地形變數上皆佔最高權重,故推斷地形掌握程度高所以命名為環境型選手

loadings(fit) # pc loadings 
## 
## Loadings:
##              Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
## 搶七         -0.284         0.733  0.346  0.472         0.111 -0.120
## 前十勝率     -0.385 -0.187        -0.256        -0.474         0.717
## 決勝盤勝率   -0.331 -0.155 -0.554  0.543  0.143                     
## 輸首勝勝率   -0.416 -0.160 -0.207  0.206  0.101 -0.140 -0.194 -0.190
## 硬地比賽勝率 -0.388         0.165 -0.186 -0.449 -0.238 -0.413 -0.498
## 紅土比賽勝率 -0.315 -0.254 -0.158 -0.642  0.407  0.426  0.129 -0.173
## 草地比賽勝率 -0.360  0.138  0.160  0.127 -0.474  0.680         0.333
## 優質發球數   -0.312  0.505               -0.155 -0.227  0.722 -0.179
## 身高         -0.106  0.759 -0.133         0.362        -0.489  0.116
##              Comp.9
## 搶七         -0.108
## 前十勝率           
## 決勝盤勝率   -0.491
## 輸首勝勝率    0.783
## 硬地比賽勝率 -0.330
## 紅土比賽勝率       
## 草地比賽勝率  0.102
## 優質發球數         
## 身高               
## 
##                Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
## SS loadings     1.000  1.000  1.000  1.000  1.000  1.000  1.000  1.000
## Proportion Var  0.111  0.111  0.111  0.111  0.111  0.111  0.111  0.111
## Cumulative Var  0.111  0.222  0.333  0.444  0.556  0.667  0.778  0.889
##                Comp.9
## SS loadings     1.000
## Proportion Var  0.111
## Cumulative Var  1.000

library(ggplot2)
library(dplyr)
data %>% ggplot(aes(x=硬地比賽勝率,y=紅土比賽勝率,color=慣用手))+geom_point()+theme_grey(base_family="STHeiti")+
  coord_cartesian(xlim = c(0,max(data$搶七)+0.05),ylim=c(0,0.75))+stat_smooth(method=lm, level=.95)+
  labs(title ="散布圖", x = "紅土比賽勝率", y = "硬地比賽勝率")+
  theme_grey(base_family="STHeiti")+theme(axis.text.x=element_text(angle=10,size=20),
                                          axis.text.y=element_text(size=20),
                                          axis.title.x=element_text(size=20),
                                          axis.title.y=element_text(size=20),
                                          plot.title = element_text(size = rel(2)))

plot of chunk unnamed-chunk-4