0.はじめに

 以下はMJIR2019にて発表予定の「R言語を用いた再生可能な教学IR情報の分析と可視化」(発表者:専修大学西山慶太)の事例紹介において作成したRスクリプトです.
 使用するデータはダミーデータを読み込み,“dat”というオブジェクトに格納されていることを前提に進めます.ダミーデータを生成したRスクリプトは以下のリンクから見れます.

ダミーデータ生成スクリプト http://rpubs.com/keita_nishiyama/534598

また,今回のランク計算に用いたcume_dist関数の説明と,他の関数ではうまく行かないというシミュレーション結果とともに載せています.

ランキング関数の比較 http://rpubs.com/keita_nishiyama/557416

1.データセットの確認 

##          sID school department grade  GPA credit
## 1    工機1-1 工学部 機会工学科     1 2.05     29
## 2 工機1-1049 工学部 機会工学科     1 3.04     39
## 3  工機1-105 工学部 機会工学科     1 0.42     17
## 4 工機1-1060 工学部 機会工学科     1 2.44     29
## 5 工機1-1101 工学部 機会工学科     1 1.45      9
## 6 工機1-1121 工学部 機会工学科     1 2.50     27

 これをみると,sID,school,department,grade,GPA,creditという6つの列にデータが格納させていることがわかります.
   それではもう少し詳しく見ていきます.

## 'data.frame':    12000 obs. of  6 variables:
##  $ sID       : chr  "工機1-1" "工機1-1049" "工機1-105" "工機1-1060" ...
##  $ school    : Factor w/ 7 levels "工学部","社会科学部",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ department: Factor w/ 23 levels "応用ファイナンス学科",..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ grade     : num  1 1 1 1 1 1 1 1 1 1 ...
##  $ GPA       : num  2.05 3.04 0.42 2.44 1.45 2.5 2.4 1.16 1.12 2.93 ...
##  $ credit    : int  29 39 17 29 9 27 25 21 23 34 ...

 まずstr()の結果です,12000行6列のデータフレームであることがわかります.また,GPAはnumericつまり数値としてデータが格納されています.creditとgradeはintegerつまり整数値,schoolとdepartmentはFactor型(要素),sIDはcharactorつまり文字列として格納されています.
 

##      sID                   school          department       grade     
##  Length:12000       工学部    :1250   国際法学科:1000   Min.   :1.00  
##  Class :character   社会科学部:3000   法律学科  :1000   1st Qu.:1.75  
##  Mode  :character   情報学部  : 750   経営学科  : 800   Median :2.50  
##                     人間科学部: 500   経済学科  : 800   Mean   :2.50  
##                     人文学部  :2000   商学科    : 800   3rd Qu.:3.25  
##                     農学部    :1000   政治学科  : 800   Max.   :4.00  
##                     法学部    :3500   (Other)   :6800                 
##       GPA            credit      
##  Min.   :0.010   Min.   :  1.00  
##  1st Qu.:1.690   1st Qu.: 36.00  
##  Median :2.280   Median : 66.00  
##  Mean   :2.242   Mean   : 70.31  
##  3rd Qu.:2.830   3rd Qu.:100.00  
##  Max.   :4.000   Max.   :159.00  
## 

 つづいてsummary()の結果はそれぞれの変数ごとに,最小値,1/4位点,中央値,平均値,3/4位点,最大値が表示されます.またFactorや文字列などの計算が出来ない変数については属性とデータ数が表示されます.

2.グループごとのGPA順位(ランク)の計算 

 データの構造等が把握できたので,早速ですがGPA順位の計算に移ります.
 
 文部科学省から出されている修学支援新制度の支援打切りや警告に関する基準の内,「GPA(平均成績)等が下位1/4に属すること」という基準があります.よって特定のグループ内でGPAの順位づけをする必要があります(在学生採用のの基準もあり下位1/2なのでそれも一緒に).
 まずは,学部,学科,学年の3要因をグループとして用いて計算してみます.  

 必要なコードはたったこれだけです.計算結果は下の表の通りです.  

 このようにR言語ではこうしたデータの前処理がとても簡単に,そして高速に実行できます.

3.「警告」ボーダーラインの計算とデータテーブルの作成

 上の例では各グループごとの警告対象者が加えられた全データが格納されているデータテーブルに列として追加し,保存までしました.
 しかし,グループごとの統計量を求められることもありますし,次項から説明する可視化のコードを書く際にも,グループごとの統計量テーブルがあると便利なので,この章の最後にこれを作成しておきます.

 作成したデータテーブルは以下の様になっています

データの前処理はここまでです.グルーピングと順位の計算はRでの処理が圧倒的に楽です.

4.データの可視化

4−2.散布図 

 しかし,高等教育の修学支援新制度には,GPAの下位1/4の警告要件の他に,標準単位数の5割以下で打切り,6割以下で警告という要件もあります.これらの基準値を念頭に,GPAと修得単位数の二変数を用いて,散布図を書いてみます.ただし,グラフの数が膨大になるため,学年ごとに分けて描写します.  

5.まとめ

 R言語でデータ処理をすると,このように基データから前処理,統計処理,可視化,レポーティングまで,すべてRstudio上で行う事ができます.
 加えて,このようなデータ処理はルーチンワークとして毎年行う必要がありますが,Rscriptとして保存しておくと,inputするデータを変えるだけで同じ処理を行うことができます.Excelで処理を行った場合,毎年グループ数×学年の処理が必要となり,業務量が増えるだけでなく,ヒューマンエラーの原因にもなります.
 Rを使って業務の効率化を図り,データ処理の再生性を高めることは,大学事務組織にとって有益であると考えられます.   ここに記載したプログラム等は2次利用していただいてOKです.ただし,実際の大学業務に使用する際には,自己責任でお願いします.プログラムを使用したことによる不利益等は責任を負いかねますので予めご了承ください.
   また,不備等もあろうかと思いますので,ご質問等は西山(k.nis80[at]gmail.com)までお願いします.

---
title: "Rmarkdown Reporting Script(Revised version)"
author: "Keita Nishiyama"
date: "11/28/2019"
output:
  html_document:
    code_download: yes
    # code_folding: hide
    highlight: zenburn
    theme: flatly
    toc: yes
    toc_float: yes
  word_document:
    toc: yes
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
load("MJIR2019.RData")
library(tidyverse)
library(DT)
```


# ０．はじめに  
　以下はMJIR2019にて発表予定の「R言語を用いた再生可能な教学IR情報の分析と可視化」（発表者：専修大学西山慶太）の事例紹介において作成したRスクリプトです．  
　使用するデータはダミーデータを読み込み，"dat"というオブジェクトに格納されていることを前提に進めます．ダミーデータを生成したRスクリプトは以下のリンクから見れます．  

ダミーデータ生成スクリプト
<http://rpubs.com/keita_nishiyama/534598>  

また，今回のランク計算に用いたcume_dist関数の説明と，他の関数ではうまく行かないというシミュレーション結果とともに載せています．

ランキング関数の比較
 <http://rpubs.com/keita_nishiyama/557416>


# １．データセットの確認　

```{r, error=FALSE, message = FALSE, warning= FALSE}
#datの先頭行を表示させる
dat %>% 
  head()
```
　これをみると，sID,school,department,grade,GPA,creditという６つの列にデータが格納させていることがわかります．  
　
　それではもう少し詳しく見ていきます．

```{r, error=FALSE, message = FALSE, warning= FALSE}
#datの構造をみる
dat %>% 
  str()
```
　まずstr()の結果です，12000行6列のデータフレームであることがわかります．また，GPAはnumericつまり数値としてデータが格納されています．creditとgradeはintegerつまり整数値，schoolとdepartmentはFactor型（要素）,sIDはcharactorつまり文字列として格納されています．  
　
```{r, error=FALSE, message = FALSE, warning= FALSE}
#datの要約統計量をみる
dat %>% 
  summary()
```
　つづいてsummary()の結果はそれぞれの変数ごとに，最小値，1/4位点，中央値，平均値，3/4位点，最大値が表示されます．またFactorや文字列などの計算が出来ない変数については属性とデータ数が表示されます．  

# ２．グループごとのGPA順位（ランク）の計算　

　データの構造等が把握できたので，早速ですがGPA順位の計算に移ります．  
　  
　文部科学省から出されている修学支援新制度の支援打切りや警告に関する基準の内，「GPA（平均成績）等が下位1/4に属すること」という基準があります．よって特定のグループ内でGPAの順位づけをする必要があります（在学生採用のの基準もあり下位1/2なのでそれも一緒に）．  
　まずは，学部，学科，学年の３要因をグループとして用いて計算してみます．
　
```{r, error=FALSE, message = FALSE, warning= FALSE}
#学部，学年ごとのGPAランクを付与
dat %>% #datというデータフレームから
  group_by(school,department,grade) %>% #schoolとdepartment,gradeでグループ化し
  mutate(quarter_target = if_else(cume_dist(GPA)<= 0.25,1,0)) %>% 
  mutate(half_target = if_else(cume_dist(GPA)<= 0.5,1,0)) ->GPArank #グループごとにGPAの累積ランク割合を計算し，新しく定義したtarget列に格納
```
  
　必要なコードはたったこれだけです．計算結果は下の表の通りです．
　
```{r, error=FALSE, message = FALSE, warning= FALSE}
#結果の表示  
GPArank %>% 
  datatable(filter =  "top", 
          extensions = 'Scroller', options = list(
  deferRender = TRUE,
  dom = "frtiS",
  scrollY = 200,
  scrollCollapse = TRUE
))
```

　このようにR言語ではこうしたデータの前処理がとても簡単に，そして高速に実行できます．  


# ３．「警告」ボーダーラインの計算とデータテーブルの作成
　上の例では各グループごとの警告対象者が加えられた全データが格納されているデータテーブルに列として追加し，保存までしました．  
　しかし，グループごとの統計量を求められることもありますし，次項から説明する可視化のコードを書く際にも，グループごとの統計量テーブルがあると便利なので，この章の最後にこれを作成しておきます．  

```{r, error=FALSE, message = FALSE, warning= FALSE}
#各基準の対象者数とカットライン（対象者のうちもっとも高いGPA）を算出し，保存
GPArank %>% 
  group_by(school, department, grade) %>% #グルーピング
  summarise(total_student = n(), #対象グループの学生数
            n_quarter_target = sum(quarter_target), #下位1/4に該当する学生の合計数
            quarter_cutline = max(GPA[quarter_target==1]), #下位1/4のカットライン
            n_half_targer = sum(half_target), #下位1/2に該当する学生の合計数
            half_cutline = max(GPA[half_target==1]) #下位1/2のカットライン
            )->　GPA_sep  #計算結果をGPA_sepに保存
  
```

　作成したデータテーブルは以下の様になっています
```{r, error=FALSE, message = FALSE, warning= FALSE}
#結果の表示  
GPA_sep %>% 
  datatable(filter =  "top", 
          extensions = 'Scroller', options = list(
  deferRender = TRUE,
  dom = "frtiS",
  scrollY = 200,
  scrollCollapse = TRUE
))
```
 

 

  データの前処理はここまでです．グルーピングと順位の計算はRでの処理が圧倒的に楽です．
  
  
# ４．データの可視化 

## ４−１．ヒストグラム
　今回のケースでヒストグラムを作成するには前処理したデータすら必要ありません．基データであるdat変数を使用して書いてみます．

```{r, error=FALSE, message = FALSE, warning= FALSE}

#全体の分布
dat %>% 
  ggplot(aes(x = GPA))+
  geom_histogram()+
  theme_gray (base_family = "HiraKakuPro-W3") 

#学部ごとの分布
dat %>% 
  ggplot(aes(x = GPA, fill = school))+
  geom_histogram()+
  facet_grid( ~ school)+
  theme_gray (base_family = "HiraKakuPro-W3") 

#学部・学科ごとの分布
dat %>% 
  ggplot(aes(x = GPA, fill = school))+
  geom_histogram()+
  facet_wrap(~department, nrow = 5, ncol = 5)+
  theme_gray (base_family = "HiraKakuPro-W3") 
```



## ４−２．散布図　
　しかし，高等教育の修学支援新制度には，GPAの下位1/4の警告要件の他に，標準単位数の５割以下で打切り，６割以下で警告という要件もあります．これらの基準値を念頭に，GPAと修得単位数の二変数を用いて，散布図を書いてみます．ただし，グラフの数が膨大になるため，学年ごとに分けて描写します．
　

```{r, error=FALSE, message = FALSE, warning= FALSE}
##1年次
GPArank %>% 
  filter(grade==1) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==1 ),
             mapping = aes(xintercept = quarter_cutline), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*1)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*1)*0.5, linetype="solid", color = "red")+
  facet_wrap(~department,nrow = 5, ncol = 5)+
  ggtitle("2018年度　1年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告")+
  theme_gray (base_family = "HiraKakuPro-W3") 

##2年次
GPArank %>% 
  filter(grade==2) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==2 ),
             mapping = aes(xintercept = quarter_cutline), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*2)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*2)*0.5, linetype="solid", color = "red")+
  facet_wrap(~department,nrow = 5, ncol = 5)+
  ggtitle("2018年度　2年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告")+
  theme_gray (base_family = "HiraKakuPro-W3") 

##3年次
GPArank %>% 
  filter(grade==3) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==3 ),
             mapping = aes(xintercept = quarter_cutline), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*3)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*3)*0.5, linetype="solid", color = "red")+
  facet_wrap(~department,nrow = 5, ncol = 5)+
  ggtitle("2018年度　3年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告")+
  theme_gray (base_family = "HiraKakuPro-W3") 

##4年次
GPArank %>% 
  filter(grade==4) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==4 ),
             mapping = aes(xintercept = quarter_cutline), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*4)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*4)*0.5, linetype="solid", color = "red")+
  facet_wrap(~department,nrow = 5, ncol = 5)+
  ggtitle("2018年度　4年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告")+
  theme_gray (base_family = "HiraKakuPro-W3") 
```



# ５．まとめ  
　R言語でデータ処理をすると，このように基データから前処理，統計処理，可視化，レポーティングまで，すべてRstudio上で行う事ができます．  
　加えて，このようなデータ処理はルーチンワークとして毎年行う必要がありますが，Rscriptとして保存しておくと，inputするデータを変えるだけで同じ処理を行うことができます．Excelで処理を行った場合，毎年グループ数×学年の処理が必要となり，業務量が増えるだけでなく，ヒューマンエラーの原因にもなります．  
　Rを使って業務の効率化を図り，データ処理の再生性を高めることは，大学事務組織にとって有益であると考えられます．
　
 ここに記載したプログラム等は２次利用していただいてOKです．ただし，実際の大学業務に使用する際には，自己責任でお願いします．プログラムを使用したことによる不利益等は責任を負いかねますので予めご了承ください．  
　
　また，不備等もあろうかと思いますので，ご質問等は西山(k.nis80[at]gmail.com)までお願いします．