ランキングの計算について
修学支援新制度では,GPA等下位1/4に該当する場合は警告対象とし,2回連続して警告対象となった場合は支援打ち切りとなります.したがって,大学は学部や学科等の学年ごとにGPA下位1/4の対象者を毎年選定する必要があります.
ここで問題になるのが,対象集団の学生数が4の倍数ではない場合です.以下,実際にシミュレーションしてみます.
まず,以下の4パターンを考えます.ここでnは対象集団の学生数です. \[
n = 4k
\] \[
n = 4k + 1
\] \[
n = 4k + 2
\] \[
n = 4k + 3
\]
\[
これらに,今回は k=20として,n = 80,81,82,83の4パターンを使いシミュレーションすることにします
\]
## Warning: `as.tibble()` is deprecated, use `as_tibble()` (but mind the new semantics).
## This warning is displayed once per session.
これで各パターンのデータ生成ができました.ここで問題になるのが,各パターンにおける最大警告対象者数です.
\[
n = 4k であれば,割り切れますので当然最大対象者数は20名ということになります.しかしながら,他のパターンを用いると余りが出るので
\]
であれば,割り切れますので当然最大対象者数は20名ということになります.しかしながら,他のパターンを用いると余りが出るので,
## [1] 20.25
## [1] 20.5
## [1] 20.75
## [1] 20
以上のような結果になります.ですがヒト1人は割れません・・・.なので学生優位で考えるといずれの場合も最大対象者数は20名としたい.(ここは大学ごとに判断が分かれるかもしれません)
次に各関数を使って,どのようになるのか計算してみます
実際の計算(四分位数,ヒンジ数,%ランク,累積ランク)
まずこの問題を解く方法として一番はじめに思いつくのが,四分位数を用いた方法です.以下,下側ヒンジ,パーセントランク,累積割合に対応する関数を確認します.
## 0% 25% 50% 75% 100%
## 0.190 1.770 2.525 3.040 4.620
## [1] 0.190 1.750 2.525 3.040 4.620
## [1] 1.00000000 0.98734177 0.96202532 0.96202532 0.94936709 0.93670886
## [7] 0.92405063 0.91139241 0.89873418 0.88607595 0.86075949 0.86075949
## [13] 0.84810127 0.83544304 0.81012658 0.81012658 0.79746835 0.78481013
## [19] 0.77215190 0.74683544 0.74683544 0.73417722 0.72151899 0.70886076
## [25] 0.69620253 0.68354430 0.67088608 0.65822785 0.63291139 0.63291139
## [31] 0.62025316 0.60759494 0.59493671 0.56962025 0.56962025 0.54430380
## [37] 0.54430380 0.53164557 0.51898734 0.50632911 0.49367089 0.48101266
## [43] 0.45569620 0.45569620 0.44303797 0.43037975 0.41772152 0.40506329
## [49] 0.39240506 0.37974684 0.36708861 0.35443038 0.32911392 0.32911392
## [55] 0.30379747 0.30379747 0.29113924 0.27848101 0.26582278 0.25316456
## [61] 0.24050633 0.22784810 0.21518987 0.20253165 0.18987342 0.16455696
## [67] 0.16455696 0.15189873 0.13924051 0.12658228 0.11392405 0.10126582
## [73] 0.08860759 0.07594937 0.06329114 0.05063291 0.03797468 0.02531646
## [79] 0.01265823 0.00000000
## [1] 1.0000 0.9875 0.9750 0.9750 0.9500 0.9375 0.9250 0.9125 0.9000 0.8875
## [11] 0.8750 0.8750 0.8500 0.8375 0.8250 0.8250 0.8000 0.7875 0.7750 0.7625
## [21] 0.7625 0.7375 0.7250 0.7125 0.7000 0.6875 0.6750 0.6625 0.6500 0.6500
## [31] 0.6250 0.6125 0.6000 0.5875 0.5875 0.5625 0.5625 0.5375 0.5250 0.5125
## [41] 0.5000 0.4875 0.4750 0.4750 0.4500 0.4375 0.4250 0.4125 0.4000 0.3875
## [51] 0.3750 0.3625 0.3500 0.3500 0.3250 0.3250 0.3000 0.2875 0.2750 0.2625
## [61] 0.2500 0.2375 0.2250 0.2125 0.2000 0.1875 0.1875 0.1625 0.1500 0.1375
## [71] 0.1250 0.1125 0.1000 0.0875 0.0750 0.0625 0.0500 0.0375 0.0250 0.0125
quantile,fivenumを使用した場合は代表値が算出され,percent_rankおよびcume_distを使用した場合は一つのデータごとにランクの割合が計算結果として得られます.
次は各データセットに対して,上記4つの方法を用いて下位1/4の対象者を計算させます
#sample_0に対して
sample_0 %>%
mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>%
mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>%
mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>%
mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>%
gather(key = funcs, value = target,-GPA) %>%
group_by(funcs) %>%
summarise(n_target = sum(target),cutline = max(GPA[target==1]))
## # A tibble: 4 x 3
## funcs n_target cutline
## <chr> <dbl> <dbl>
## 1 cs 20 1.71
## 2 hs 20 1.71
## 3 ps 20 1.71
## 4 qs 20 1.71
#sample_1に対して
sample_1 %>%
mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>%
mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>%
mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>%
mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>%
gather(key = funcs, value = target,-GPA) %>%
group_by(funcs) %>%
summarise(n_target = sum(target),cutline = max(GPA[target==1]))
## # A tibble: 4 x 3
## funcs n_target cutline
## <chr> <dbl> <dbl>
## 1 cs 19 1.66
## 2 hs 21 1.74
## 3 ps 21 1.74
## 4 qs 21 1.74
#sample_2に対して
sample_2 %>%
mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>%
mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>%
mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>%
mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>%
gather(key = funcs, value = target,-GPA) %>%
group_by(funcs) %>%
summarise(n_target = sum(target),cutline = max(GPA[target==1]))
## # A tibble: 4 x 3
## funcs n_target cutline
## <chr> <dbl> <dbl>
## 1 cs 20 1.85
## 2 hs 21 1.87
## 3 ps 21 1.87
## 4 qs 21 1.87
#sample_3に対して
sample_3 %>%
mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>%
mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>%
mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>%
mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>%
gather(key = funcs, value = target,-GPA) %>%
group_by(funcs) %>%
summarise(n_target = sum(target),cutline = max(GPA[target==1]))
## # A tibble: 4 x 3
## funcs n_target cutline
## <chr> <dbl> <dbl>
## 1 cs 20 1.74
## 2 hs 21 1.78
## 3 ps 21 1.78
## 4 qs 21 1.78
最初に指摘したように,すべてのデータセットのパターンで,警告対象者は20名になるようにしたいところですが,すべてのパターンで対象者が20名になっているものがありません....ちょっと見やすく整理します.
rbind(
sample_0 %>%
mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>%
mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>%
mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>%
mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>%
gather(key = funcs, value = target,-GPA) %>%
mutate(dataset = "sample_0"),
sample_1 %>%
mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>%
mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>%
mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>%
mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>%
gather(key = funcs, value = target,-GPA) %>%
mutate(dataset = "sample_1"),
sample_2 %>%
mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>%
mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>%
mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>%
mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>%
gather(key = funcs, value = target,-GPA) %>%
mutate(dataset = "sample_2"),
sample_3 %>%
mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>%
mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>%
mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>%
mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>%
gather(key = funcs, value = target,-GPA) %>%
mutate(dataset = "sample_3")
) %>%
mutate(funcs = fct_inorder(funcs)) %>%
group_by(funcs, dataset) %>%
summarise(n_target = sum(target)) %>%
spread(key = funcs, value = n_target)
## # A tibble: 4 x 5
## dataset qs hs ps cs
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 sample_0 20 20 20 20
## 2 sample_1 21 21 21 19
## 3 sample_2 21 21 21 20
## 4 sample_3 21 21 21 20
上記の計算結果デーブルから方法cs,つまり累積割合を求める“cume_dist”関数を使った結果だけが,n <=20となっています.sample_1の結果はn = 19となっており,最大警告対象者を下回ってしますが,おそらくカットラインに同点者がいたためであると考えられます.以下で確認してみます.
## # A tibble: 11 x 6
## rowname GPA qs hs ps cs
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 55 1.94 0 0 0 0
## 2 56 1.9 0 0 0 0
## 3 57 1.88 0 0 0 0
## 4 58 1.84 0 0 0 0
## 5 59 1.78 0 0 0 0
## 6 60 1.77 0 0 0 0
## 7 61 1.74 1 1 1 0
## 8 62 1.74 1 1 1 0
## 9 63 1.66 1 1 1 1
## 10 64 1.6 1 1 1 1
## 11 65 1.59 1 1 1 1
予想通り,カットラインにGPA1.74の学生が2名いました.この学生たちを2名とも警告対象者とすると,合計の警告対象者は21名となってしまいますので,これで目的に合致した対象者計算が行われていることが確認できました.
注意点
以上のように,cume_dist関数を使用すると,簡単に計算ができたわけですが,ひとつ注意点があります.それはこの関数のバグのようなもので,上記のようにif_elseのカッコ内で計算すれば問題ないのですが,一度計算結果を新規列に追加してから,if_elseで対象者の二値計算をすると,割り切れたはずの数値が対象とならないという問題です.
わかりにくいので以下に例示します.
## # A tibble: 11 x 5
## rowname GPA cs_inc cum_ratio cs_out
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 55 2.13 0 0.325 0
## 2 56 2.13 0 0.325 0
## 3 57 2.12 0 0.3 0
## 4 58 1.88 0 0.288 0
## 5 59 1.87 0 0.275 0
## 6 60 1.79 0 0.263 0
## 7 61 1.71 1 0.25 0
## 8 62 1.51 1 0.238 1
## 9 63 1.48 1 0.225 1
## 10 64 1.47 1 0.213 1
## 11 65 1.41 1 0.2 1
このように一度cum_ratio列にcume_distの結果を追加してから,if_elseでcs_outに対象者を計算すると,0.25以下の条件のはずが,0.25の累積割合を持つレコードが対象となりません.おそらくバグだと思われます.
ここに記載したプログラム等は2次利用していただいてOKです.ただし,実際の大学業務に使用する際には,自己責任でお願いします.プログラムを使用したことによる不利益等は責任を負いかねますので予めご了承ください.
また,不備等もあろうかと思いますので,ご質問等は西山(k.nis80[at]gmail.com)までお願いします.
---
title: "Rank functions comparison"
author: "Keita Nishiyama"
date: "12/7/2019"
output:
  html_document:
    code_download: yes
    # code_folding: hide
    highlight: zenburn
    theme: flatly
    toc: yes
    toc_float: yes
  word_document:
    toc: yes
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)

#関数を自作して定義----
accumrank <- function (x) 
{
  rank(x, ties.method = "max", na.last = "keep")/sum(!is.na(x))
}

library(tidyverse)
```

## ランキングの計算について

　修学支援新制度では，GPA等下位1/4に該当する場合は警告対象とし，２回連続して警告対象となった場合は支援打ち切りとなります．したがって，大学は学部や学科等の学年ごとにGPA下位1/4の対象者を毎年選定する必要があります．  
　ここで問題になるのが，対象集団の学生数が4の倍数ではない場合です．以下，実際にシミュレーションしてみます．  
まず，以下の４パターンを考えます．ここでnは対象集団の学生数です．
$$
n = 4k 
$$
$$
n = 4k + 1
$$
$$
n = 4k + 2
$$
$$
n = 4k + 3
$$

$$
これらに，今回は k=20として，n = 80,81,82,83の４パターンを使いシミュレーションすることにします 
$$
```{r samlple data}
#正規分布を使ったサンプルデータの生成と並び替えなど----

##80
rnorm(80,2.5,1) %>% round(digits =2) %>% 
  as.tibble() %>% 
  rename(GPA = value) %>% 
  arrange(desc(GPA))-> sample_0

##81
rnorm(81,2.5,1) %>% round(digits =2) %>% 
  as.tibble() %>% 
  rename(GPA = value) %>% 
  arrange(desc(GPA))-> sample_1

##82
rnorm(82,2.5,1) %>% round(digits =2) %>% 
  as.tibble() %>% 
  rename(GPA = value) %>% 
  arrange(desc(GPA))-> sample_2

##83
rnorm(83,2.5,1) %>% round(digits =2) %>% 
  as.tibble() %>% 
  rename(GPA = value) %>% 
  arrange(desc(GPA))-> sample_3

#このファイルでの計算結果を安定させるために，上記4つのデータセットをローカルからダウンロード．個別環境で再現を行う際はコメントアウトしてください．
load("sample.RData")

```

これで各パターンのデータ生成ができました．ここで問題になるのが，各パターンにおける最大警告対象者数です．

$$
n = 4k であれば，割り切れますので当然最大対象者数は20名ということになります．しかしながら，他のパターンを用いると余りが出るので
$$

であれば，割り切れますので当然最大対象者数は20名ということになります．しかしながら，他のパターンを用いると余りが出るので，

```{r division}
81/4
82/4
83/4
80/4
```

以上のような結果になります．ですがヒト１人は割れません・・・．なので学生優位で考えるといずれの場合も最大対象者数は20名としたい．（ここは大学ごとに判断が分かれるかもしれません）  
次に各関数を使って，どのようになるのか計算してみます


## 実際の計算（四分位数，ヒンジ数，％ランク，累積ランク）

　まずこの問題を解く方法として一番はじめに思いつくのが，四分位数を用いた方法です．以下，下側ヒンジ，パーセントランク，累積割合に対応する関数を確認します．

```{r functions}
#quantilesを用いた計算
quantile(sample_0$GPA)

#ヒンジ数
fivenum(sample_0$GPA)

#%ランク
percent_rank(sample_0$GPA)

#累積
cume_dist(sample_0$GPA)
```

quantile，fivenumを使用した場合は代表値が算出され，percent_rankおよびcume_distを使用した場合は一つのデータごとにランクの割合が計算結果として得られます．  
　次は各データセットに対して，上記４つの方法を用いて下位1/4の対象者を計算させます
```{r compared}
#sample_0に対して
sample_0 %>% 
  mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>% 
  mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>% 
  mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>% 
  mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>% 
  gather(key = funcs, value = target,-GPA) %>% 
  group_by(funcs) %>% 
  summarise(n_target = sum(target),cutline = max(GPA[target==1]))

#sample_1に対して
sample_1 %>% 
  mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>% 
  mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>% 
  mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>% 
  mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>% 
  gather(key = funcs, value = target,-GPA) %>% 
  group_by(funcs) %>% 
  summarise(n_target = sum(target),cutline = max(GPA[target==1]))

#sample_2に対して
sample_2 %>% 
  mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>% 
  mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>% 
  mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>% 
  mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>% 
  gather(key = funcs, value = target,-GPA) %>% 
  group_by(funcs) %>% 
  summarise(n_target = sum(target),cutline = max(GPA[target==1]))

#sample_3に対して
sample_3 %>% 
  mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>% 
  mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>% 
  mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>% 
  mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>% 
  gather(key = funcs, value = target,-GPA) %>% 
  group_by(funcs) %>% 
  summarise(n_target = sum(target),cutline = max(GPA[target==1]))

```

最初に指摘したように，すべてのデータセットのパターンで，警告対象者は20名になるようにしたいところですが，すべてのパターンで対象者が20名になっているものがありません．．．．ちょっと見やすく整理します．

```{r table}
rbind(
sample_0 %>% 
  mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>% 
  mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>% 
  mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>% 
  mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>% 
  gather(key = funcs, value = target,-GPA) %>% 
  mutate(dataset = "sample_0"),
sample_1 %>% 
  mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>% 
  mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>% 
  mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>% 
  mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>% 
  gather(key = funcs, value = target,-GPA) %>% 
  mutate(dataset = "sample_1"),
sample_2 %>% 
  mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>% 
  mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>% 
  mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>% 
  mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>% 
  gather(key = funcs, value = target,-GPA) %>% 
  mutate(dataset = "sample_2"),
sample_3 %>% 
  mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>% 
  mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>% 
  mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>% 
  mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>% 
  gather(key = funcs, value = target,-GPA) %>% 
  mutate(dataset = "sample_3")
) %>% 
  mutate(funcs = fct_inorder(funcs)) %>% 
  group_by(funcs, dataset) %>% 
  summarise(n_target = sum(target)) %>% 
  spread(key = funcs, value = n_target)
```


上記の計算結果デーブルから方法cs，つまり累積割合を求める"cume_dist"関数を使った結果だけが，n <=20となっています．sample_1の結果はn = 19となっており，最大警告対象者を下回ってしますが，おそらくカットラインに同点者がいたためであると考えられます．以下で確認してみます．

```{r check}
sample_1 %>% 
    mutate(qs = if_else(GPA <= quantile(GPA)[2],1,0)) %>% 
  mutate(hs = if_else(GPA <= fivenum(GPA)[2],1,0)) %>% 
  mutate(ps = if_else(percent_rank(GPA)<=0.25,1,0)) %>% 
  mutate(cs = if_else(cume_dist(GPA)<=0.25,1,0)) %>%
  rownames_to_column() %>% 
  filter(row_number()>=55 & row_number() <=65 )
```
予想通り，カットラインにGPA1.74の学生が２名いました．この学生たちを２名とも警告対象者とすると，合計の警告対象者は21名となってしまいますので，これで目的に合致した対象者計算が行われていることが確認できました．

## 注意点　
以上のように，cume_dist関数を使用すると，簡単に計算ができたわけですが，ひとつ注意点があります．それはこの関数のバグのようなもので，上記のようにif_elseのカッコ内で計算すれば問題ないのですが，一度計算結果を新規列に追加してから，if_elseで対象者の二値計算をすると，割り切れたはずの数値が対象とならないという問題です．  
わかりにくいので以下に例示します．

```{r problem}
sample_0 %>% 
  mutate(cs_inc = if_else(cume_dist(GPA)<=0.25,1,0)) %>% 
  mutate(cum_ratio = cume_dist(GPA)) %>% 
  mutate(cs_out = if_else(cum_ratio <= 0.25,1,0)) %>% 
  rownames_to_column() %>% 
  filter(row_number()>=55 & row_number() <=65 )
```

このように一度cum_ratio列にcume_distの結果を追加してから，if_elseでcs_outに対象者を計算すると，0.25以下の条件のはずが，0.25の累積割合を持つレコードが対象となりません．おそらくバグだと思われます．

 ここに記載したプログラム等は２次利用していただいてOKです．ただし，実際の大学業務に使用する際には，自己責任でお願いします．プログラムを使用したことによる不利益等は責任を負いかねますので予めご了承ください．  
　
　また，不備等もあろうかと思いますので，ご質問等は西山(k.nis80[at]gmail.com)までお願いします．