0.はじめに
以下はMJIR2019にて発表予定の「R言語を用いた再生可能な教学IR情報の分析と可視化」(発表者:専修大学西山慶太)の事例紹介において作成したRスクリプトです.
使用するデータはダミーデータを読み込み,“dat”というオブジェクトに格納されていることを前提に進めます.
1.データセットの確認
## sID school department grade GPA credit
## 1 工機1-1 工学部 機会工学科 1 2.05 29
## 2 工機1-1049 工学部 機会工学科 1 3.04 39
## 3 工機1-105 工学部 機会工学科 1 0.42 17
## 4 工機1-1060 工学部 機会工学科 1 2.44 29
## 5 工機1-1101 工学部 機会工学科 1 1.45 9
## 6 工機1-1121 工学部 機会工学科 1 2.50 27
これをみると,sID,school,department,grade,GPA,creditという6つの列にデータが格納させていることがわかります.
それではもう少し詳しく見ていきます.
## 'data.frame': 12000 obs. of 6 variables:
## $ sID : chr "工機1-1" "工機1-1049" "工機1-105" "工機1-1060" ...
## $ school : Factor w/ 7 levels "工学部","社会科学部",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ department: Factor w/ 23 levels "応用ファイナンス学科",..: 4 4 4 4 4 4 4 4 4 4 ...
## $ grade : num 1 1 1 1 1 1 1 1 1 1 ...
## $ GPA : num 2.05 3.04 0.42 2.44 1.45 2.5 2.4 1.16 1.12 2.93 ...
## $ credit : int 29 39 17 29 9 27 25 21 23 34 ...
まずstr()の結果です,12000行6列のデータフレームであることがわかります.また,GPAはnumericつまり数値としてデータが格納されています.creditとgradeはintegerつまり整数値,schoolとdepartmentはFactor型(要素),sIDはcharactorつまり文字列として格納されています.
## sID school department grade
## Length:12000 工学部 :1250 国際法学科:1000 Min. :1.00
## Class :character 社会科学部:3000 法律学科 :1000 1st Qu.:1.75
## Mode :character 情報学部 : 750 経営学科 : 800 Median :2.50
## 人間科学部: 500 経済学科 : 800 Mean :2.50
## 人文学部 :2000 商学科 : 800 3rd Qu.:3.25
## 農学部 :1000 政治学科 : 800 Max. :4.00
## 法学部 :3500 (Other) :6800
## GPA credit
## Min. :0.010 Min. : 1.00
## 1st Qu.:1.690 1st Qu.: 36.00
## Median :2.280 Median : 66.00
## Mean :2.242 Mean : 70.31
## 3rd Qu.:2.830 3rd Qu.:100.00
## Max. :4.000 Max. :159.00
##
つづいてsummary()の結果はそれぞれの変数ごとに,最小値,1/4位点,中央値,平均値,3/4位点,最大値が表示されます.またFactorや文字列などの計算が出来ない変数については属性とデータ数が表示されます.
2.グループごとのGPA順位(ランク)の計算
データの構造等が把握できたので,早速ですがGPA順位の計算に移ります.
文部科学省から出されている修学支援新制度の支援打切りや警告に関する基準の内,「GPA(平均成績)等が下位1/4に属すること」という基準があります.よって特定のグループ内でGPAの順位づけをする必要があります.
まずは,学部,学科,学年の3要因をグループとして用いて計算してみます.
必要なコードはたったこれだけです.計算結果は下の表の通りです.
このようにR言語ではこうしたデータの前処理がとても簡単に,そして高速に実行できます.
3.「警告」ボーダーラインの計算とデータテーブルの作成
上の例では各グループごとのGPA順位を全データが格納されているデータテーブルに列として追加し,保存までしました.
しかし,グループごとの統計量を求められることもありますし,次項から説明する可視化のコードを書く際にも,グループごとの統計量テーブルがあると便利なので,この章の最後にこれを作成しておきます.
#GPA1/4&1/2点の計算
GPArank %>%
group_by(school, department, grade) %>%
mutate(GPA_ec = if_else(GPARank <=0.25,"(2)下位1/4",
if_else(GPARank>=0.5,"(1)上位1/2","(3)中間"))) %>%
group_by(school, department, grade, GPA_ec) %>%
summarize(GPA_under = max(GPA),GPA_upper = min(GPA)) -> GPA_sep
作成したデータテーブルは以下の様になっています
データの前処理はここまでです.グルーピングと順位の計算はRでの処理が圧倒的に楽です.
4.データの可視化
4−1.ヒストグラム
今回のケースでヒストグラムを作成するには前処理したデータすら必要ありません.基データであるdat変数を使用して書いてみます.



4−2.散布図
しかし,高等教育の修学支援新制度には,GPAの下位1/4の警告要件の他に,標準単位数の5割以下で打切り,6割以下で警告という要件もあります.これらの基準値を念頭に,GPAと修得単位数の二変数を用いて,散布図を書いてみます.ただし,グラフの数が膨大になるため,学年ごとに分けて描写します.
##1年次
GPArank %>%
filter(grade==1) %>%
ggplot(aes(GPA, credit))+
geom_point(size = 1)+
geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(2)下位1/4"),
mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
geom_hline(yintercept = ((124/4)*1)*0.6, linetype="dashed", color = "blue")+
geom_hline(yintercept = ((124/4)*1)*0.5, linetype="solid", color = "red")+
facet_wrap(~department,nrow = 5, ncol = 5)+
ggtitle("2018年度 1年次")+xlab("年度内GPA")+ylab("修得単位数")+
labs(caption = "赤実線:支援打ち切り,青点線:警告")+
theme_gray (base_family = "HiraKakuPro-W3")

##2年次
GPArank %>%
filter(grade==2) %>%
ggplot(aes(GPA, credit))+
geom_point(size = 1)+
geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(2)下位1/4"),
mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
geom_hline(yintercept = ((124/4)*2)*0.6, linetype="dashed", color = "blue")+
geom_hline(yintercept = ((124/4)*2)*0.5, linetype="solid", color = "red")+
facet_wrap(~department,nrow = 5, ncol = 5)+
ggtitle("2018年度 2年次")+xlab("年度内GPA")+ylab("修得単位数")+
labs(caption = "赤実線:支援打ち切り,青点線:警告")+
theme_gray (base_family = "HiraKakuPro-W3")

##3年次
GPArank %>%
filter(grade==3) %>%
ggplot(aes(GPA, credit))+
geom_point(size = 1)+
geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(2)下位1/4"),
mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
geom_hline(yintercept = ((124/4)*3)*0.6, linetype="dashed", color = "blue")+
geom_hline(yintercept = ((124/4)*3)*0.5, linetype="solid", color = "red")+
facet_wrap(~department,nrow = 5, ncol = 5)+
ggtitle("2018年度 3年次")+xlab("年度内GPA")+ylab("修得単位数")+
labs(caption = "赤実線:支援打ち切り,青点線:警告")+
theme_gray (base_family = "HiraKakuPro-W3")

##4年次
GPArank %>%
filter(grade==4) %>%
ggplot(aes(GPA, credit))+
geom_point(size = 1)+
geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(2)下位1/4"),
mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
geom_hline(yintercept = ((124/4)*4)*0.6, linetype="dashed", color = "blue")+
geom_hline(yintercept = ((124/4)*4)*0.5, linetype="solid", color = "red")+
facet_wrap(~department,nrow = 5, ncol = 5)+
ggtitle("2018年度 4年次")+xlab("年度内GPA")+ylab("修得単位数")+
labs(caption = "赤実線:支援打ち切り,青点線:警告")+
theme_gray (base_family = "HiraKakuPro-W3")

5.まとめ
R言語でデータ処理をすると,このように基データから前処理,統計処理,可視化,レポーティングまで,すべてRstudio上で行う事ができます.
加えて,このようなデータ処理はルーチンワークとして毎年行う必要がありますが,Rscriptとして保存しておくと,inputするデータを変えるだけで同じ処理を行うことができます.Excelで処理を行った場合,毎年グループ数×学年の処理が必要となり,業務量が増えるだけでなく,ヒューマンエラーの原因にもなります.
Rを使って業務の効率化を図り,データ処理の再生性を高めることは,大学事務組織にとって有益であると考えられます. ここに記載したプログラム等は2次利用していただいてOKです.ただし,実際の大学業務に使用する際には,自己責任でお願いします.プログラムを使用したことによる不利益等は責任を負いかねますので予めご了承ください.
また,不備等もあろうかと思いますので,ご質問等は西山(k.nis80[at]gmail.com)までお願いします.
---
title: "Rmarkdown Reporting Script"
author: "Keita Nishiyama"
date: "10/2/2019"
output:
  html_document:
    code_download: yes
    # code_folding: hide
    highlight: zenburn
    theme: flatly
    toc: yes
    toc_float: yes
  word_document:
    toc: yes
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
load("MJIR2019.RData")
library(tidyverse)
library(DT)
```

#  <span style = "color:red">改訂版があります（2019/12/09）</span>   
percent_rank関数を利用して行うランキング計算では，学修支援新制度に対応できない事項が判明したため，以下のリンクに改訂版を作成しました．利用の際は以下のリンクの方を御覧ください．

 <span style = "color:red"> 改訂版URL  </span>  
<http://rpubs.com/keita_nishiyama/557433>


# ０．はじめに  
　以下はMJIR2019にて発表予定の「R言語を用いた再生可能な教学IR情報の分析と可視化」（発表者：専修大学西山慶太）の事例紹介において作成したRスクリプトです．  
　使用するデータはダミーデータを読み込み，"dat"というオブジェクトに格納されていることを前提に進めます．

 




# １．データセットの確認　

```{r, error=FALSE, message = FALSE, warning= FALSE}
#datの先頭行を表示させる
dat %>% 
  head()
```
　これをみると，sID,school,department,grade,GPA,creditという６つの列にデータが格納させていることがわかります．  
　
　それではもう少し詳しく見ていきます．

```{r, error=FALSE, message = FALSE, warning= FALSE}
#datの構造をみる
dat %>% 
  str()
```
　まずstr()の結果です，12000行6列のデータフレームであることがわかります．また，GPAはnumericつまり数値としてデータが格納されています．creditとgradeはintegerつまり整数値，schoolとdepartmentはFactor型（要素）,sIDはcharactorつまり文字列として格納されています．  
　
```{r, error=FALSE, message = FALSE, warning= FALSE}
#datの要約統計量をみる
dat %>% 
  summary()
```
　つづいてsummary()の結果はそれぞれの変数ごとに，最小値，1/4位点，中央値，平均値，3/4位点，最大値が表示されます．またFactorや文字列などの計算が出来ない変数については属性とデータ数が表示されます．  

# ２．グループごとのGPA順位（ランク）の計算　

　データの構造等が把握できたので，早速ですがGPA順位の計算に移ります．  
　  
　文部科学省から出されている修学支援新制度の支援打切りや警告に関する基準の内，「GPA（平均成績）等が下位1/4に属すること」という基準があります．よって特定のグループ内でGPAの順位づけをする必要があります．  
　まずは，学部，学科，学年の３要因をグループとして用いて計算してみます．
　
```{r, error=FALSE, message = FALSE, warning= FALSE}
#学部，学年ごとのGPAランクを付与
dat %>% #datというデータフレームから
  group_by(school,department,grade) %>% #schoolとgradeでグループ化し
  mutate(GPARank = percent_rank(GPA)) ->GPArank #グループごとにGPAのパーセントランクを計算し，新しく定義したGPARank列に格納
```
  
　必要なコードはたったこれだけです．計算結果は下の表の通りです．
　
```{r, error=FALSE, message = FALSE, warning= FALSE}
#結果の表示  
GPArank %>% 
  mutate(GPARank = round(GPARank,digits = 4)) %>% 
  datatable(filter =  "top", 
          extensions = 'Scroller', options = list(
  deferRender = TRUE,
  dom = "frtiS",
  scrollY = 200,
  scrollCollapse = TRUE
))
```

　このようにR言語ではこうしたデータの前処理がとても簡単に，そして高速に実行できます．  


# ３．「警告」ボーダーラインの計算とデータテーブルの作成
　上の例では各グループごとのGPA順位を全データが格納されているデータテーブルに列として追加し，保存までしました．  
　しかし，グループごとの統計量を求められることもありますし，次項から説明する可視化のコードを書く際にも，グループごとの統計量テーブルがあると便利なので，この章の最後にこれを作成しておきます．  

```{r, error=FALSE, message = FALSE, warning= FALSE}
#GPA1/4＆1/2点の計算
GPArank %>% 
  group_by(school, department, grade) %>% 
  mutate(GPA_ec = if_else(GPARank <=0.25,"(2)下位1/4",
                          if_else(GPARank>=0.5,"(1)上位1/2","(3)中間"))) %>% 
  group_by(school, department, grade, GPA_ec) %>% 
  summarize(GPA_under = max(GPA),GPA_upper = min(GPA)) ->　GPA_sep 
```

　作成したデータテーブルは以下の様になっています
```{r, error=FALSE, message = FALSE, warning= FALSE}
#結果の表示  
GPA_sep %>% 
  datatable(filter =  "top", 
          extensions = 'Scroller', options = list(
  deferRender = TRUE,
  dom = "frtiS",
  scrollY = 200,
  scrollCollapse = TRUE
))
```
 
 
  データの前処理はここまでです．グルーピングと順位の計算はRでの処理が圧倒的に楽です．
  
  
# ４．データの可視化 

## ４−１．ヒストグラム
　今回のケースでヒストグラムを作成するには前処理したデータすら必要ありません．基データであるdat変数を使用して書いてみます．

```{r, error=FALSE, message = FALSE, warning= FALSE}

#全体の分布
dat %>% 
  ggplot(aes(x = GPA))+
  geom_histogram()+
  theme_gray (base_family = "HiraKakuPro-W3") 

#学部ごとの分布
dat %>% 
  ggplot(aes(x = GPA, fill = school))+
  geom_histogram()+
  facet_grid( ~ school)+
  theme_gray (base_family = "HiraKakuPro-W3") 

#学部・学科ごとの分布
dat %>% 
  ggplot(aes(x = GPA, fill = school))+
  geom_histogram()+
  facet_wrap(~department, nrow = 5, ncol = 5)+
  theme_gray (base_family = "HiraKakuPro-W3") 
```



## ４−２．散布図　
　しかし，高等教育の修学支援新制度には，GPAの下位1/4の警告要件の他に，標準単位数の５割以下で打切り，６割以下で警告という要件もあります．これらの基準値を念頭に，GPAと修得単位数の二変数を用いて，散布図を書いてみます．ただし，グラフの数が膨大になるため，学年ごとに分けて描写します．
　

```{r, error=FALSE, message = FALSE, warning= FALSE}
##1年次
GPArank %>% 
  filter(grade==1) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(2)下位1/4"),
             mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*1)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*1)*0.5, linetype="solid", color = "red")+
  facet_wrap(~department,nrow = 5, ncol = 5)+
  ggtitle("2018年度　1年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告")+
  theme_gray (base_family = "HiraKakuPro-W3") 

##2年次
GPArank %>% 
  filter(grade==2) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(2)下位1/4"),
             mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*2)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*2)*0.5, linetype="solid", color = "red")+
  facet_wrap(~department,nrow = 5, ncol = 5)+
  ggtitle("2018年度　2年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告")+
  theme_gray (base_family = "HiraKakuPro-W3") 

##3年次
GPArank %>% 
  filter(grade==3) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(2)下位1/4"),
             mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*3)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*3)*0.5, linetype="solid", color = "red")+
  facet_wrap(~department,nrow = 5, ncol = 5)+
  ggtitle("2018年度　3年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告")+
  theme_gray (base_family = "HiraKakuPro-W3") 

##4年次
GPArank %>% 
  filter(grade==4) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(2)下位1/4"),
             mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*4)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*4)*0.5, linetype="solid", color = "red")+
  facet_wrap(~department,nrow = 5, ncol = 5)+
  ggtitle("2018年度　4年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告")+
  theme_gray (base_family = "HiraKakuPro-W3") 
```



# ５．まとめ  
　R言語でデータ処理をすると，このように基データから前処理，統計処理，可視化，レポーティングまで，すべてRstudio上で行う事ができます．  
　加えて，このようなデータ処理はルーチンワークとして毎年行う必要がありますが，Rscriptとして保存しておくと，inputするデータを変えるだけで同じ処理を行うことができます．Excelで処理を行った場合，毎年グループ数×学年の処理が必要となり，業務量が増えるだけでなく，ヒューマンエラーの原因にもなります．  
　Rを使って業務の効率化を図り，データ処理の再生性を高めることは，大学事務組織にとって有益であると考えられます．
　
 ここに記載したプログラム等は２次利用していただいてOKです．ただし，実際の大学業務に使用する際には，自己責任でお願いします．プログラムを使用したことによる不利益等は責任を負いかねますので予めご了承ください．  
　
　また，不備等もあろうかと思いますので，ご質問等は西山(k.nis80[at]gmail.com)までお願いします．