0.はじめに
この資料は「大学評価・IR担当者集会2019(R24 IR実務担当者セッション)」にて西山が発表予定の「R言語を用いた教学IRデータの分析と可視化」の補助資料です.
この資料はR言語のレポーティングパッケージであるRmarkdownを使用して作られています.背景が黒色の部分はRscriptとなっており,これを実行して得られた結果がその下に表示されてます.
また,この資料にあるRscriptはtidyverseパッケージにある関数を使用して書かれています.Rの記法にはBase関数によるものと,Hadley Wickhamを筆頭とするRstudioのチームによって開発されたtidyverseがありますが,後者の方がデータを直感的に扱うことができ,SQLなどのデータベース言語とも似ているため使いやすいと思います.もし,Rに関する書籍や,web上にあるTipsを参照する際にはこのことを念頭において見るようにしてください.
まず最初に使用するパッケージを呼び出します.
これらのパッケージがインストールされていない場合には,事前にインストールを行ってください.
1.データの確認と前処理(初級者向け)
それではまず使用するデータを確認します.
使用するデータは「3.疑似データの作成」の部分にで発生させた疑似データです.疑似データの生成はやや複雑なコードを必要としますので,R言語に初めて触れる方や初級者の方についてはその過程は一度無視して,ここからのドキュメントを見てください.まずはデータセットその内容を確認します.
使用するデータは“dat”というオブジェクトに格納されています.
1−1.データセットの確認
## GPA credit grade school department sID
## 1 3.655970 39.33727 1 法学部 国際法学科 法国1-1
## 2 1.080138 24.95090 1 情報学部 人間情報学科 情人1-2
## 3 2.123896 27.62155 1 農学部 環境保全学科 農環1-3
## 4 3.276074 25.15632 1 人間科学部 心理学科 人心1-4
## 5 1.363549 21.01430 1 情報学部 応用情報学科 情応1-5
## 6 1.912534 26.47703 1 人文学部 言語学科 人言1-6
これをみると,GPA,credit,grade,school,department,sIDという6つの列にデータが格納させていることがわかります.(creditは修得単位数,schoolは学部,departmentは学科,sIDは学籍番号としてデータを生成しています)
それではもう少し詳しく見ていきます.
## 'data.frame': 12000 obs. of 6 variables:
## $ GPA : num 3.66 1.08 2.12 3.28 1.36 ...
## $ credit : num 39.3 25 27.6 25.2 21 ...
## $ grade : num 1 1 1 1 1 1 1 1 1 1 ...
## $ school : chr "法学部" "情報学部" "農学部" "人間科学部" ...
## $ department: chr "国際法学科" "人間情報学科" "環境保全学科" "心理学科" ...
## $ sID : chr "法国1-1" "情人1-2" "農環1-3" "人心1-4" ...
まずstr()の結果です,12000行6列のデータフレームであることがわかります.また,GPAはnumericつまり数値としてデータが格納されています.creditとgradeはintegerつまり整数値,schoolとdepartment,sIDはcharactorつまり文字列として格納されています.
## GPA credit grade school
## Min. :0.004584 Min. : 0.4743 Min. :1.00 Length:12000
## 1st Qu.:1.701858 1st Qu.: 35.9624 1st Qu.:1.75 Class :character
## Median :2.289248 Median : 67.0436 Median :2.50 Mode :character
## Mean :2.247746 Mean : 70.8189 Mean :2.50
## 3rd Qu.:2.831419 3rd Qu.:100.6758 3rd Qu.:3.25
## Max. :3.999394 Max. :159.9896 Max. :4.00
## department sID
## Length:12000 Length:12000
## Class :character Class :character
## Mode :character Mode :character
##
##
##
つづいてsummary()の結果はそれぞれの変数ごとに,最小値,1/4位点,中央値,平均値,3/4位点,最大値が表示されます.また文字列などの計算が出来ない変数については属性とデータ数が表示されます.
1−2.グループごとのGPA順位(ランク)の計算
データの構造等が把握できたので,早速ですがGPA順位の計算に移ります.
文部科学省から出されている修学支援新制度の支援打切りや警告に関する基準の内,「GPA(平均成績)等が下位1/4に属すること」という基準があります.よって特定のグループ内でGPAの順位づけをする必要があります.
まずは,学部,学年の2要因で計算してみます.
| 3.655970 |
39.33727 |
1 |
法学部 |
国際法学科 |
法国1-1 |
0.9690367 |
| 1.080138 |
24.95090 |
1 |
情報学部 |
人間情報学科 |
情人1-2 |
0.0659898 |
| 2.123896 |
27.62155 |
1 |
農学部 |
環境保全学科 |
農環1-3 |
0.4115226 |
| 3.276074 |
25.15632 |
1 |
人間科学部 |
心理学科 |
人心1-4 |
0.8782609 |
| 1.363549 |
21.01430 |
1 |
情報学部 |
応用情報学科 |
情応1-5 |
0.1370558 |
| 1.912534 |
26.47703 |
1 |
人文学部 |
言語学科 |
人言1-6 |
0.3571429 |
結果は上の通りです.必要なコードはたったこれだけです.
実場面ではカリキュラムと学年ごとにこれを計算する必要があるため,次は学部,学科,学年の3要因で計算してみます.
| 3.655970 |
39.33727 |
1 |
法学部 |
国際法学科 |
法国1-1 |
0.9729730 |
| 1.080138 |
24.95090 |
1 |
情報学部 |
人間情報学科 |
情人1-2 |
0.0550459 |
| 2.123896 |
27.62155 |
1 |
農学部 |
環境保全学科 |
農環1-3 |
0.4000000 |
| 3.276074 |
25.15632 |
1 |
人間科学部 |
心理学科 |
人心1-4 |
0.8205128 |
| 1.363549 |
21.01430 |
1 |
情報学部 |
応用情報学科 |
情応1-5 |
0.1149425 |
| 1.912534 |
26.47703 |
1 |
人文学部 |
言語学科 |
人言1-6 |
0.3739837 |
結果は上記のとおりです.一つ前のコードからgroup_by()の中にdepartmentを追加しただけです.
このようにR言語ではこうしたデータの前処理がとても簡単に,そして高速に実行できます.
1−3.前処理済みデータの保存
以上のようにGPAの順位を計算出来たので,処理した結果を新たなオブジェクトに保存します.ここでは“dat_2”という名前に格納しておきます.
また,作成したデータセットをファイル出力することも可能です.
1−4.境界線スコアの算出と保存
上の例では各グループごとのGPA順位を全データが格納されているデータテーブルに列として追加し,保存までしました.
しかし,グループごとの統計量を求められることもありますし,次項から説明する可視化のコードを書く際にも,グループごとの統計量テーブルがあると便利なので,この章の最後にこれを作成しておきます.
このままだと見にくいので,ヘッダー名を変えたり,基データから必要情報をくっつけたりして,データを整えます
#統計量テーブルの作成
dat_2 %>%
mutate(war = if_else(GPARank<=0.25,1,0)) %>%
group_by(school,grade) %>%
summarize(サンプルサイズ= n(),
GPA警告対象者= sum(war),
年度内GPAの平均値=mean(GPA),
年度内GPAの標準偏差=sd(GPA),
累積修得単位の平均値=mean(credit),
累積修得単位の標準偏差=sd(credit)) %>%
left_join(GPA_sep %>% filter(GPA_ec=="(1)上位1/2") %>% select(school,grade,GPA_upper),
by = c("school","grade")) %>% rename("GPA上位1/2境界スコア" = GPA_upper) %>%
left_join(GPA_sep %>% filter(GPA_ec=="(2)下位1/4") %>% select(school,grade,GPA_under),
by = c("school","grade")) %>% rename("GPA下位1/4境界スコア" = GPA_under) -> result
結果をresult変数に格納しました.中身は↓
DTパッケージのdatatable関数でインタラクティブな表を作成しています.
内容を確かめたら,csvファイルで保存しておきます.文科省への提出書類で使ったりすることが出来るかと思います.
データの前処理はここまでです.細かい部分はRでやらなくてもOKです.ただ,グルーピングと順位の計算はRでの処理が圧倒的に楽です.
2.データの可視化(中級者向け)
2−1.ヒストグラム
ここからは,一章で作成したデータを可視化します.文部科学省から示された参考例ではじょうごグラフが使用されていましたが,連続値の分布を確認する場合,通常はヒストグラムを使用します.
これを作成するには一章で前処理したデータすら必要ありません.基データであるdat変数を使用して書いてみます.



ここに1/4線を引いてやれば,分布と境界線の可視化はOKになります.
2−2.散布図
しかし,高等教育の修学支援新制度には,GPAの下位1/4の警告要件の他に,標準単位数の5割以下で打切り,6割以下で警告という要件もあります.また,在学生採用にはGPAの上位1/2という要件もあるので,これらの基準値を念頭に,GPAと修得単位数の二変数を用いて,散布図を書いてみます.
2−2−1.1年次のGPAと取得単位数の分布と基準点(散布図)
##1年次
dat_2 %>%
filter(grade==1) %>%
ggplot(aes(GPA, credit))+
geom_point(size = 1)+
geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(1)上位1/2"),
mapping = aes(xintercept = GPA_upper), linetype="twodash", color="green")+
geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(2)下位1/4"),
mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
geom_hline(yintercept = ((124/4)*1)*0.6, linetype="dashed", color = "blue")+
geom_hline(yintercept = ((124/4)*1)*0.5, linetype="solid", color = "red")+
facet_wrap(~school,nrow = 5, ncol = 4)+
ggtitle("2018年度 1年次")+xlab("年度内GPA")+ylab("修得単位数")+
labs(caption = "赤実線:支援打ち切り,青点線:警告,緑ダッシュ:GPA1/2")+
theme_gray (base_family = "HiraKakuPro-W3")

2−2−2.2年次のGPAと取得単位数の分布と基準点(散布図)
##2年次
dat_2 %>%
filter(grade==2) %>%
ggplot(aes(GPA, credit))+
geom_point(size = 1)+
geom_vline(data = GPA_sep %>% filter(grade==2 & GPA_ec=="(1)上位1/2"),
mapping = aes(xintercept = GPA_upper), linetype="twodash", color="green")+
geom_vline(data = GPA_sep %>% filter(grade==2 & GPA_ec=="(2)下位1/4"),
mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
geom_hline(yintercept = ((124/4)*2)*0.6, linetype="dashed", color = "blue")+
geom_hline(yintercept = ((124/4)*2)*0.5, linetype="solid", color = "red")+
facet_wrap(~school,nrow = 5, ncol = 4)+
ggtitle("2018年度 2年次")+xlab("年度内GPA")+ylab("修得単位数")+
labs(caption = "赤実線:支援打ち切り,青点線:警告,緑ダッシュ:GPA1/2") +
theme_gray (base_family = "HiraKakuPro-W3")

2−2−3.3年次のGPAと取得単位数の分布と基準点(散布図)
##3年次
dat_2 %>%
filter(grade==3) %>%
ggplot(aes(GPA, credit))+
geom_point(size = 1)+
geom_vline(data = GPA_sep %>% filter(grade==3 & GPA_ec=="(1)上位1/2"),
mapping = aes(xintercept = GPA_upper), linetype="twodash", color="green")+
geom_vline(data = GPA_sep %>% filter(grade==3 & GPA_ec=="(2)下位1/4"),
mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
geom_hline(yintercept = ((124/4)*3)*0.6, linetype="dashed", color = "blue")+
geom_hline(yintercept = ((124/4)*3)*0.5, linetype="solid", color = "red")+
facet_wrap(~school,nrow = 5, ncol = 4)+
ggtitle("2018年度 3年次")+xlab("年度内GPA")+ylab("修得単位数")+
labs(caption = "赤実線:支援打ち切り,青点線:警告,緑ダッシュ:GPA1/2") +
theme_gray (base_family = "HiraKakuPro-W3")

2−2−4.4年次のGPAと取得単位数の分布と基準点(散布図)
##4年次
dat_2 %>%
filter(grade==4) %>%
ggplot(aes(GPA, credit))+
geom_point(size = 1)+
geom_vline(data = GPA_sep %>% filter(grade==4 & GPA_ec=="(1)上位1/2"),
mapping = aes(xintercept = GPA_upper), linetype="twodash", color="green")+
geom_vline(data = GPA_sep %>% filter(grade==4 & GPA_ec=="(2)下位1/4"),
mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
geom_hline(yintercept = ((124/4)*4)*0.6, linetype="dashed", color = "blue")+
geom_hline(yintercept = ((124/4)*4)*0.5, linetype="solid", color = "red")+
facet_wrap(~school,nrow = 5, ncol = 4)+
ggtitle("2018年度 4年次")+xlab("年度内GPA")+ylab("修得単位数")+
labs(caption = "赤実線:支援打ち切り,青点線:警告,緑ダッシュ:GPA1/2") +
theme_gray (base_family = "HiraKakuPro-W3")

これで,学部,学年ごとの可視化ができました.
R言語でデータ処理をすると,このように基データから前処理,統計処理,可視化,レポーティングまで,すべてRstudio上で行う事ができます.
加えて,このようなデータ処理はルーチンワークとして毎年行う必要がありますが,Rscriptとして保存しておくと,inputするデータを変えるだけで同じ処理を行うことができます.Excelで処理を行った場合,毎年グループ数×学年の処理が必要となり,業務量が増えるだけでなく,ヒューマンエラーの原因にもなります.
Rを使って業務の効率化を図り,データ処理の再生性を高めることは,大学事務組織にとって有益であると考えられます.
3.疑似データの生成(上級者向け)
以下は,上記1.2.で使用した疑似データの作成スクリプト
#ライブラリの読み込み
library(tidyverse) #tidyverseパッケージの読込
library(knitr) #knitrパッケージの読込
library(MASS) #MASSパッケージの読込
###擬似データの作成
#GPAの平均値と標準偏差(GPA疑似データのパラメタ)
gpa <- c(2.5,1)
#二変数間の相関係数(GPAと修得単位の相関係数を0.8に設定して,疑似データを発生させる)
r <- c(0.8)
#1~4年次の標準修得単位数とその標準偏差,CAPを1年40単位にそれぞれ設定
f <- c(31,10,40)
s <- c(62,20,80)
j <- c(93,30,120)
g <- c(124,30,160)
#GPAと修得単位の疑似データを学年ごとに作成
##1年次
# 平均値ベクタ
Mu <- c(gpa[1], f[1])
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
r*gpa[2]*f[2],
r*gpa[2]*f[2],
f[2]^2), ncol=2)
# 疑似データを1万サンプル生成(ガウス分布で)
dat <- mvrnorm(10000, Mu, Si)
#GPA範囲とCAP範囲でフィルタをかけて,3000人分のデータを保存
dat_1 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>%
filter(GPA<=4 & GPA >=0 & credit <= f[3] & credit >=0) %>%
sample_n(size = 3000)
##2年次
# 平均値ベクタ
Mu <- c(gpa[1], s[1])
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
r*gpa[2]*s[2],
r*gpa[2]*s[2],
s[2]^2), ncol=2)
# 疑似データを1万サンプル生成(ガウス分布で)
dat <- mvrnorm(10000, Mu, Si)
#GPA範囲とCAP範囲でフィルタをかけて,3000人分のデータを保存
dat_2 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>%
filter(GPA<=4 & GPA >=0 & credit <= s[3] & credit >=0) %>%
sample_n(size = 3000)
##3年次
# 平均値ベクタ
Mu <- c(gpa[1], j[1])
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
r*gpa[2]*j[2],
r*gpa[2]*j[2],
j[2]^2), ncol=2)
# 疑似データを1万サンプル生成(ガウス分布で)
dat <- mvrnorm(10000, Mu, Si)
#GPA範囲とCAP範囲でフィルタをかけて,3000人分のデータを保存
dat_3 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>%
filter(GPA<=4 & GPA >=0 & credit <= j[3] & credit >=0) %>%
sample_n(size = 3000)
##4年次
# 平均値ベクタ
Mu <- c(gpa[1], g[1])
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
r*gpa[2]*g[2],
r*gpa[2]*g[2],
g[2]^2), ncol=2)
# 疑似データを1万サンプル生成(ガウス分布で)
dat <- mvrnorm(10000, Mu, Si)
#GPA範囲とCAP範囲でフィルタをかけて,3000人分のデータを保存
dat_4 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>%
filter(GPA<=4 & GPA >=0 & credit <= g[3] & credit >=0) %>%
sample_n(size = 3000)
#dplyrの関数を邪魔することがあるので,MASSパッケージを無効にしておく
detach("package:MASS", unload=TRUE)
##データの確認
#1年次
dat_1 %>%
ggplot(aes(x = GPA, y = credit))+
geom_point()




##生成された疑似データに学年列を追加し,データを結合
rbind(
dat_1 %>% mutate(grade = 1),
dat_2 %>% mutate(grade = 2),
dat_3 %>% mutate(grade = 3),
dat_4 %>% mutate(grade = 4)
) -> dat
##学部名の文字列を作成
#7つの学部とそれぞれの学部定員が合計1.2万人になるように作成
school <- rep(c("人文学部", "情報学部", "工学部",
"社会科学部","農学部","法学部","人間科学部"),
times = c(2000,750,1250,
3000,1000,3500,500)) %>%
as.tibble() %>% rename(school = value) #列名をschoolに
##学科名の文字列を作成
#7つの学部の下に学科名を作成
department <- rep(c("哲学科", "言語学科", "歴史学科", "地理学科","芸術学科",
"人間情報学科","応用情報学科",
"機会工学科","建築学科","土木工学科",
"経済学科","経営学科","商学科","応用ファイナンス学科",
"森林学科","水産学科","環境保全学科",
"法律学科","政治学科","国際法学科","新領域法学科",
"心理学科","社会学科"),
times = c(300,500,500,500,200,
400,350,
500,500,250,
800,800,800,600,
300,300,400,
1000,800,1000,700,
150,350)) %>%
as.tibble() %>% rename(department = value) #列名をdepartmentに
##学部名と学科名のデータを結合して,ランダムに並べかえる
school <- cbind(school, department) %>%
mutate(no = rnorm(12000,10,5)) %>%
arrange(no) %>% select(-no)
##GPA情報・修得単位の疑似データと,学部・学科データを結合
dat <- cbind(dat, school)
##ダミーの学籍番号を追加
dat %>%
mutate(sID = str_c(str_sub(school,1,1),
str_sub(department,1,1),
grade,
"-",
row_number())) -> dat
##学部,学年ごとの統計量を確認
dat %>%
select(-sID) %>%
group_by(school, grade,department) %>%
summarise_all(funs(mean,sd)) %>% datatable(filter = "top",
extensions = 'Scroller', options = list(
deferRender = TRUE,
dom = "frtiS",
scrollY = 200,
scrollCollapse = TRUE
))
補助資料は以上で終了です.
ここに記載したプログラム等は2次利用していただいてOKです.ただし,実際の大学業務に使用する際には,自己責任でお願いします.プログラムを使用したことによる不利益等は責任を負いかねますので予めご了承ください.
また,不備等もあろうかと思いますので,ご質問等は西山(k.nis80[at]gmail.com)までお願いします.
---
title: "R言語を用いた教学IRデータの分析と可視化_補助資料"
author: "専修大学教務課　西山慶太"
date: "Wed Jul 31 15:56:19 2019"
output:
  html_document:
    code_download: yes
    # code_folding: hide
    highlight: zenburn
    theme: flatly
    toc: yes
    toc_float: yes
  word_document:
    toc: yes
---
```{r setup, error=FALSE, message = FALSE, warning= FALSE,include=FALSE}
#library(tidyverse)
#library(knitr)
#library(DT)
#load("dataset.RData")
#注意！！：本来は上記のload関数で前処理済みのデータを読み込んだ方がコードはスッキリする．
#しかしこのrmdファイルでは疑似データの生成をドキュメントの最後に設定してしまったため，
#ここに”３．疑似データの生成（上級者向け） ”と同じコードを置いておく．
#こうすることで，htmlファイルの右上部のタブからRmdファイルをダウンロードし，各自のR環境から
#この結果を完全に再生出来るようになる．
#もっとスマートな方法があると思われるが，時間がなく私はここまで．詳しい人がいたら教えて下さい
#ライブラリの読み込み
library(DT)
library(tidyverse) #tidyverseパッケージの読込
library(knitr) #knitrパッケージの読込
library(MASS)	#MASSパッケージの読込



###擬似データの作成
#GPAの平均値と標準偏差（GPA疑似データのパラメタ）
gpa <- c(2.5,1)
#二変数間の相関係数（GPAと修得単位の相関係数を0.8に設定して，疑似データを発生させる）
r <- c(0.8)

#１～４年次の標準修得単位数とその標準偏差，CAPを1年40単位にそれぞれ設定
f <- c(31,10,40)
s <- c(62,20,80)
j <- c(93,30,120)
g <- c(124,30,160)

#GPAと修得単位の疑似データを学年ごとに作成
##１年次
# 平均値ベクタ
Mu <- c(gpa[1], f[1])	
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*f[2],
               r*gpa[2]*f[2],
               f[2]^2), ncol=2)	

# 疑似データを1万サンプル生成（ガウス分布で）
dat <- mvrnorm(10000, Mu, Si)	

#GPA範囲とCAP範囲でフィルタをかけて，3000人分のデータを保存
dat_1 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= f[3] & credit >=0) %>% 
  sample_n(size = 3000)	

##２年次
# 平均値ベクタ
Mu <- c(gpa[1], s[1])	
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*s[2],
               r*gpa[2]*s[2],
               s[2]^2), ncol=2)	
# 疑似データを1万サンプル生成（ガウス分布で）
dat <- mvrnorm(10000, Mu, Si)	
#GPA範囲とCAP範囲でフィルタをかけて，3000人分のデータを保存
dat_2 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= s[3] & credit >=0) %>% 
  sample_n(size = 3000)	

##３年次
# 平均値ベクタ
Mu <- c(gpa[1], j[1])	
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*j[2],
               r*gpa[2]*j[2],
               j[2]^2), ncol=2)	

# 疑似データを1万サンプル生成（ガウス分布で）
dat <- mvrnorm(10000, Mu, Si)
#GPA範囲とCAP範囲でフィルタをかけて，3000人分のデータを保存
dat_3 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= j[3] & credit >=0) %>% 
  sample_n(size = 3000)	

##４年次
# 平均値ベクタ
Mu <- c(gpa[1], g[1])	
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*g[2],
               r*gpa[2]*g[2],
               g[2]^2), ncol=2)	
# 疑似データを1万サンプル生成（ガウス分布で）
dat <- mvrnorm(10000, Mu, Si)	
#GPA範囲とCAP範囲でフィルタをかけて，3000人分のデータを保存
dat_4 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= g[3] & credit >=0) %>% 
  sample_n(size = 3000)	

#dplyrの関数を邪魔することがあるので，MASSパッケージを無効にしておく
detach("package:MASS", unload=TRUE)

##データの確認
#1年次
dat_1 %>% 
  ggplot(aes(x = GPA, y = credit))+
  geom_point()
#2年次
dat_2 %>% 
  ggplot(aes(x = GPA, y = credit))+
  geom_point()
#3年次
dat_3 %>% 
  ggplot(aes(x = GPA, y = credit))+
  geom_point()
#4年次
dat_4 %>% 
  ggplot(aes(x = GPA, y = credit))+
  geom_point()


##生成された疑似データに学年列を追加し，データを結合
rbind(
  dat_1 %>% mutate(grade = 1),
  dat_2 %>% mutate(grade = 2),
  dat_3 %>% mutate(grade = 3),
  dat_4 %>% mutate(grade = 4)
) -> dat

##学部名の文字列を作成
#7つの学部とそれぞれの学部定員が合計1.2万人になるように作成
school <- rep(c("人文学部", "情報学部", "工学部",
                "社会科学部","農学部","法学部","人間科学部"), 
              times = c(2000,750,1250,
                        3000,1000,3500,500)) %>% 
  as.tibble() %>% rename(school = value) #列名をschoolに

##学科名の文字列を作成
#７つの学部の下に学科名を作成
department <- rep(c("哲学科", "言語学科", "歴史学科", "地理学科","芸術学科",
                    "人間情報学科","応用情報学科",
                    "機会工学科","建築学科","土木工学科",
                    "経済学科","経営学科","商学科","応用ファイナンス学科",
                    "森林学科","水産学科","環境保全学科",
                    "法律学科","政治学科","国際法学科","新領域法学科",
                    "心理学科","社会学科"), 
                  times = c(300,500,500,500,200,
                            400,350,
                            500,500,250,
                            800,800,800,600,
                            300,300,400,
                            1000,800,1000,700,
                            150,350)) %>% 
  as.tibble() %>% rename(department = value) #列名をdepartmentに

##学部名と学科名のデータを結合して，ランダムに並べかえる
school <- cbind(school, department) %>% 
  mutate(no = rnorm(12000,10,5)) %>% 
  arrange(no) %>% select(-no)

##GPA情報・修得単位の疑似データと，学部・学科データを結合
dat <- cbind(dat, school)

##ダミーの学籍番号を追加
dat %>% 
  mutate(sID = str_c(str_sub(school,1,1),
                     str_sub(department,1,1),
                     grade,
                     "-",
                     row_number())) -> dat

##学部，学年ごとの統計量を確認
dat %>% 
  select(-sID) %>% 
  group_by(school, grade,department) %>% 
  summarise_all(funs(mean,sd)) %>% datatable(filter =  "top", 
          extensions = 'Scroller', options = list(
  deferRender = TRUE,
  dom = "frtiS",
  scrollY = 200,
  scrollCollapse = TRUE
))

```

# ０．はじめに  
　この資料は「大学評価・IR担当者集会2019（R24 IR実務担当者セッション）」にて西山が発表予定の「R言語を用いた教学IRデータの分析と可視化」の補助資料です．  
　この資料はR言語のレポーティングパッケージであるRmarkdownを使用して作られています．背景が黒色の部分はRscriptとなっており，これを実行して得られた結果がその下に表示されてます．  
　また，この資料にあるRscriptはtidyverseパッケージにある関数を使用して書かれています．Rの記法にはBase関数によるものと，Hadley Wickhamを筆頭とするRstudioのチームによって開発されたtidyverseがありますが，後者の方がデータを直感的に扱うことができ，SQLなどのデータベース言語とも似ているため使いやすいと思います．もし，Rに関する書籍や，web上にあるTipsを参照する際にはこのことを念頭において見るようにしてください．  
　まず最初に使用するパッケージを呼び出します．

```{r, error=FALSE, message = FALSE, warning= FALSE}
#tidyverseパッケージの呼び出し
library(tidyverse)
#knitrパッケージの呼び出し
library(knitr)
#DTパッケージの呼び出し
library(DT)
```
　これらのパッケージがインストールされていない場合には，事前にインストールを行ってください．


# １．データの確認と前処理（初級者向け）  

　それではまず使用するデータを確認します．  
　使用するデータは「３．疑似データの作成」の部分にで発生させた疑似データです．疑似データの生成はやや複雑なコードを必要としますので，R言語に初めて触れる方や初級者の方についてはその過程は一度無視して，ここからのドキュメントを見てください．まずはデータセットその内容を確認します．  
　使用するデータは"dat"というオブジェクトに格納されています．  

## １−１．データセットの確認　

```{r, error=FALSE, message = FALSE, warning= FALSE}
#datの先頭行を表示させる
dat %>% 
  head()
```
　これをみると，GPA，credit，grade,school,department,sIDという６つの列にデータが格納させていることがわかります．（creditは修得単位数，schoolは学部，departmentは学科，sIDは学籍番号としてデータを生成しています）  
　それではもう少し詳しく見ていきます．

```{r, error=FALSE, message = FALSE, warning= FALSE}
#datの構造をみる
dat %>% 
  str()
```
　まずstr()の結果です，12000行6列のデータフレームであることがわかります．また，GPAはnumericつまり数値としてデータが格納されています．creditとgradeはintegerつまり整数値，schoolとdepartment，sIDはcharactorつまり文字列として格納されています．  
　
```{r, error=FALSE, message = FALSE, warning= FALSE}
#datの要約統計量をみる
dat %>% 
  summary()
```
　つづいてsummary()の結果はそれぞれの変数ごとに，最小値，1/4位点，中央値，平均値，3/4位点，最大値が表示されます．また文字列などの計算が出来ない変数については属性とデータ数が表示されます．  

## １−２．グループごとのGPA順位（ランク）の計算　

　データの構造等が把握できたので，早速ですがGPA順位の計算に移ります．  
　  
　文部科学省から出されている修学支援新制度の支援打切りや警告に関する基準の内，「GPA（平均成績）等が下位1/4に属すること」という基準があります．よって特定のグループ内でGPAの順位づけをする必要があります．  
　まずは，学部，学年の２要因で計算してみます．
　
```{r, error=FALSE, message = FALSE, warning= FALSE}
#学部，学年ごとのGPAランクを付与
dat %>% #datというデータフレームから
  group_by(school,grade) %>% #schoolとgradeでグループ化し
  mutate(GPARank = percent_rank(GPA)) %>% #グループごとにGPAのパーセントランクを計算し，新しく定義したGPARank列に格納
  head() %>% kable() #先頭６行のみ表示
```
  
　結果は上の通りです．必要なコードはたったこれだけです．  
　実場面ではカリキュラムと学年ごとにこれを計算する必要があるため，次は学部，学科，学年の３要因で計算してみます．
　
```{r, error=FALSE, message = FALSE, warning= FALSE}
#学部，学科，学年ごとのGPAランクを付与
dat %>% #datというデータフレームから
  group_by(school,department,grade) %>% #schoolとdepartmentとgradeでグループ化し
  mutate(GPARank = percent_rank(GPA)) %>% #グループごとにGPAのパーセントランクを計算し，新しく定義したGPARank列に格納
  head() %>% kable() #先頭６行のみ表示

```
  
　結果は上記のとおりです．一つ前のコードからgroup_by()の中にdepartmentを追加しただけです．  
   
　このようにR言語ではこうしたデータの前処理がとても簡単に，そして高速に実行できます．

## １−３．前処理済みデータの保存  
　以上のようにGPAの順位を計算出来たので，処理した結果を新たなオブジェクトに保存します．ここでは"dat_2"という名前に格納しておきます．

```{r, error=FALSE, message = FALSE, warning= FALSE}
#学部，学科，学年ごとのGPAランクを付与
dat %>% 
  group_by(school,department,grade) %>% 
  mutate(GPARank = percent_rank(GPA)) -> dat_2 #dat_2に結果を保存
```

　また，作成したデータセットをファイル出力することも可能です．
```{r, error=FALSE, message = FALSE, warning= FALSE}
#result.csvという名前をつけてデータをcsvファイルとして保存
dat_2 %>% write_csv("result.csv")
```

## １−４．境界線スコアの算出と保存  
　上の例では各グループごとのGPA順位を全データが格納されているデータテーブルに列として追加し，保存までしました．  
　しかし，グループごとの統計量を求められることもありますし，次項から説明する可視化のコードを書く際にも，グループごとの統計量テーブルがあると便利なので，この章の最後にこれを作成しておきます．  

```{r, error=FALSE, message = FALSE, warning= FALSE}
#GPA1/4＆1/2点の計算
dat_2 %>% 
  group_by(school,grade) %>% 
  mutate(GPA_ec = if_else(GPARank <=0.25,"(2)下位1/4",
                          if_else(GPARank>=0.5,"(1)上位1/2","(3)中間"))) %>% 
  group_by(school,grade,GPA_ec) %>% 
  summarize(GPA_under = max(GPA),GPA_upper = min(GPA)) ->　GPA_sep 
```
  
  このままだと見にくいので，ヘッダー名を変えたり，基データから必要情報をくっつけたりして，データを整えます

```{r, error=FALSE, message = FALSE, warning= FALSE}
#統計量テーブルの作成
dat_2 %>% 
  mutate(war = if_else(GPARank<=0.25,1,0)) %>% 
  group_by(school,grade) %>% 
  summarize(サンプルサイズ= n(),
                   GPA警告対象者= sum(war),
                   年度内GPAの平均値=mean(GPA),
                   年度内GPAの標準偏差=sd(GPA),
                   累積修得単位の平均値=mean(credit),
                   累積修得単位の標準偏差=sd(credit)) %>% 
  left_join(GPA_sep %>% filter(GPA_ec=="(1)上位1/2") %>% select(school,grade,GPA_upper), 
            by = c("school","grade")) %>% rename("GPA上位1/2境界スコア" = GPA_upper) %>% 
  left_join(GPA_sep %>% filter(GPA_ec=="(2)下位1/4") %>% select(school,grade,GPA_under), 
            by = c("school","grade")) %>% rename("GPA下位1/4境界スコア" = GPA_under) -> result
```
  
  結果をresult変数に格納しました．中身は↓  
  DTパッケージのdatatable関数でインタラクティブな表を作成しています． 


```{r, error=FALSE, message = FALSE, warning= FALSE}
datatable(result, filter = "top", 
          extensions = 'Scroller', options = list(
  deferRender = TRUE,
  dom = "frtiS",
  scrollY = 200,
  scrollCollapse = TRUE
))
```
  
  内容を確かめたら，csvファイルで保存しておきます．文科省への提出書類で使ったりすることが出来るかと思います．

```{r, error=FALSE, message = FALSE, warning= FALSE}
#result.csvへ書き出し
write.csv(result, "result.csv")
```
  
  データの前処理はここまでです．細かい部分はRでやらなくてもOKです．ただ，グルーピングと順位の計算はRでの処理が圧倒的に楽です．
  
  
# ２．データの可視化（中級者向け）  

## ２−１．ヒストグラム
　ここからは，一章で作成したデータを可視化します．文部科学省から示された参考例ではじょうごグラフが使用されていましたが，連続値の分布を確認する場合，通常はヒストグラムを使用します．  
　これを作成するには一章で前処理したデータすら必要ありません．基データであるdat変数を使用して書いてみます．
　

```{r, error=FALSE, message = FALSE, warning= FALSE}

#全体の分布
dat %>% 
  ggplot(aes(x = GPA))+
  geom_histogram()+
  theme_gray (base_family = "HiraKakuPro-W3") 

#学部ごとの分布
dat %>% 
  ggplot(aes(x = GPA, fill = school))+
  geom_histogram()+
  facet_grid( ~ school)+
  theme_gray (base_family = "HiraKakuPro-W3") 

#学部・学科ごとの分布
dat %>% 
  ggplot(aes(x = GPA, fill = school))+
  geom_histogram()+
  facet_wrap(~department, nrow = 5, ncol = 5)+
  theme_gray (base_family = "HiraKakuPro-W3") 
```

　ここに1/4線を引いてやれば，分布と境界線の可視化はOKになります．

```{r, error=FALSE, message = FALSE, warning= FALSE}

```

## ２−２．散布図　
　しかし，高等教育の修学支援新制度には，GPAの下位1/4の警告要件の他に，標準単位数の５割以下で打切り，６割以下で警告という要件もあります．また，在学生採用にはGPAの上位1/2という要件もあるので，これらの基準値を念頭に，GPAと修得単位数の二変数を用いて，散布図を書いてみます．  
　


### ２−２−１．１年次のGPAと取得単位数の分布と基準点（散布図） 
```{r, error=FALSE, message = FALSE, warning= FALSE}
##1年次
dat_2 %>% 
  filter(grade==1) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(1)上位1/2"),
             mapping = aes(xintercept = GPA_upper), linetype="twodash", color="green")+
  geom_vline(data = GPA_sep %>% filter(grade==1 & GPA_ec=="(2)下位1/4"),
             mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*1)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*1)*0.5, linetype="solid", color = "red")+
  facet_wrap(~school,nrow = 5, ncol = 4)+
  ggtitle("2018年度　1年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告，緑ダッシュ：GPA1/2")+
  theme_gray (base_family = "HiraKakuPro-W3") 
```


### ２−２−２．２年次のGPAと取得単位数の分布と基準点（散布図）  
```{r, error=FALSE, message = FALSE, warning= FALSE}
##2年次
dat_2 %>%  
  filter(grade==2) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==2 & GPA_ec=="(1)上位1/2"),
             mapping = aes(xintercept = GPA_upper), linetype="twodash", color="green")+
  geom_vline(data = GPA_sep %>% filter(grade==2 & GPA_ec=="(2)下位1/4"),
             mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*2)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*2)*0.5, linetype="solid", color = "red")+
  facet_wrap(~school,nrow = 5, ncol = 4)+
  ggtitle("2018年度　2年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告，緑ダッシュ：GPA1/2") +
  theme_gray (base_family = "HiraKakuPro-W3") 
```


### ２−２−３．３年次のGPAと取得単位数の分布と基準点（散布図）  
```{r, error=FALSE, message = FALSE, warning= FALSE}
##3年次
dat_2 %>%  
  filter(grade==3) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==3 & GPA_ec=="(1)上位1/2"),
             mapping = aes(xintercept = GPA_upper), linetype="twodash", color="green")+
  geom_vline(data = GPA_sep %>% filter(grade==3 & GPA_ec=="(2)下位1/4"),
             mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*3)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*3)*0.5, linetype="solid", color = "red")+
  facet_wrap(~school,nrow = 5, ncol = 4)+
  ggtitle("2018年度　3年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告，緑ダッシュ：GPA1/2") +
  theme_gray (base_family = "HiraKakuPro-W3") 
```


### ２−２−４．４年次のGPAと取得単位数の分布と基準点（散布図）  
```{r, error=FALSE, message = FALSE, warning= FALSE}
##4年次
dat_2 %>%  
  filter(grade==4) %>% 
  ggplot(aes(GPA, credit))+
  geom_point(size = 1)+
  geom_vline(data = GPA_sep %>% filter(grade==4 & GPA_ec=="(1)上位1/2"),
             mapping = aes(xintercept = GPA_upper), linetype="twodash", color="green")+
  geom_vline(data = GPA_sep %>% filter(grade==4 & GPA_ec=="(2)下位1/4"),
             mapping = aes(xintercept = GPA_under), linetype="dashed", color="blue")+
  geom_hline(yintercept = ((124/4)*4)*0.6, linetype="dashed", color = "blue")+
  geom_hline(yintercept = ((124/4)*4)*0.5, linetype="solid", color = "red")+
  facet_wrap(~school,nrow = 5, ncol = 4)+
  ggtitle("2018年度　4年次")+xlab("年度内GPA")+ylab("修得単位数")+
  labs(caption = "赤実線：支援打ち切り，青点線：警告，緑ダッシュ：GPA1/2") +
  theme_gray (base_family = "HiraKakuPro-W3") 
```
  
　これで，学部，学年ごとの可視化ができました．  
　R言語でデータ処理をすると，このように基データから前処理，統計処理，可視化，レポーティングまで，すべてRstudio上で行う事ができます．  
　加えて，このようなデータ処理はルーチンワークとして毎年行う必要がありますが，Rscriptとして保存しておくと，inputするデータを変えるだけで同じ処理を行うことができます．Excelで処理を行った場合，毎年グループ数×学年の処理が必要となり，業務量が増えるだけでなく，ヒューマンエラーの原因にもなります．  
　Rを使って業務の効率化を図り，データ処理の再生性を高めることは，大学事務組織にとって有益であると考えられます．
　

# ３．疑似データの生成（上級者向け）  

　以下は，上記１．２．で使用した疑似データの作成スクリプト




```{r, error=FALSE, message = FALSE, warning= FALSE}

```
```{r, error=FALSE, message = FALSE, warning= FALSE}

```
```{r, error=FALSE, message = FALSE, warning= FALSE}
#ライブラリの読み込み
library(tidyverse) #tidyverseパッケージの読込
library(knitr) #knitrパッケージの読込
library(MASS)	#MASSパッケージの読込



###擬似データの作成
#GPAの平均値と標準偏差（GPA疑似データのパラメタ）
gpa <- c(2.5,1)
#二変数間の相関係数（GPAと修得単位の相関係数を0.8に設定して，疑似データを発生させる）
r <- c(0.8)

#１～４年次の標準修得単位数とその標準偏差，CAPを1年40単位にそれぞれ設定
f <- c(31,10,40)
s <- c(62,20,80)
j <- c(93,30,120)
g <- c(124,30,160)

#GPAと修得単位の疑似データを学年ごとに作成
##１年次
# 平均値ベクタ
Mu <- c(gpa[1], f[1])	
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*f[2],
               r*gpa[2]*f[2],
               f[2]^2), ncol=2)	

# 疑似データを1万サンプル生成（ガウス分布で）
dat <- mvrnorm(10000, Mu, Si)	

#GPA範囲とCAP範囲でフィルタをかけて，3000人分のデータを保存
dat_1 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= f[3] & credit >=0) %>% 
  sample_n(size = 3000)	

##２年次
# 平均値ベクタ
Mu <- c(gpa[1], s[1])	
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*s[2],
               r*gpa[2]*s[2],
               s[2]^2), ncol=2)	
# 疑似データを1万サンプル生成（ガウス分布で）
dat <- mvrnorm(10000, Mu, Si)	
#GPA範囲とCAP範囲でフィルタをかけて，3000人分のデータを保存
dat_2 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= s[3] & credit >=0) %>% 
  sample_n(size = 3000)	

##３年次
# 平均値ベクタ
Mu <- c(gpa[1], j[1])	
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*j[2],
               r*gpa[2]*j[2],
               j[2]^2), ncol=2)	

# 疑似データを1万サンプル生成（ガウス分布で）
dat <- mvrnorm(10000, Mu, Si)
#GPA範囲とCAP範囲でフィルタをかけて，3000人分のデータを保存
dat_3 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= j[3] & credit >=0) %>% 
  sample_n(size = 3000)	

##４年次
# 平均値ベクタ
Mu <- c(gpa[1], g[1])	
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*g[2],
               r*gpa[2]*g[2],
               g[2]^2), ncol=2)	
# 疑似データを1万サンプル生成（ガウス分布で）
dat <- mvrnorm(10000, Mu, Si)	
#GPA範囲とCAP範囲でフィルタをかけて，3000人分のデータを保存
dat_4 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= g[3] & credit >=0) %>% 
  sample_n(size = 3000)	

#dplyrの関数を邪魔することがあるので，MASSパッケージを無効にしておく
detach("package:MASS", unload=TRUE)

##データの確認
#1年次
dat_1 %>% 
  ggplot(aes(x = GPA, y = credit))+
  geom_point()
#2年次
dat_2 %>% 
  ggplot(aes(x = GPA, y = credit))+
  geom_point()
#3年次
dat_3 %>% 
  ggplot(aes(x = GPA, y = credit))+
  geom_point()
#4年次
dat_4 %>% 
  ggplot(aes(x = GPA, y = credit))+
  geom_point()


##生成された疑似データに学年列を追加し，データを結合
rbind(
  dat_1 %>% mutate(grade = 1),
  dat_2 %>% mutate(grade = 2),
  dat_3 %>% mutate(grade = 3),
  dat_4 %>% mutate(grade = 4)
) -> dat

##学部名の文字列を作成
#7つの学部とそれぞれの学部定員が合計1.2万人になるように作成
school <- rep(c("人文学部", "情報学部", "工学部",
                "社会科学部","農学部","法学部","人間科学部"), 
              times = c(2000,750,1250,
                        3000,1000,3500,500)) %>% 
  as.tibble() %>% rename(school = value) #列名をschoolに

##学科名の文字列を作成
#７つの学部の下に学科名を作成
department <- rep(c("哲学科", "言語学科", "歴史学科", "地理学科","芸術学科",
                    "人間情報学科","応用情報学科",
                    "機会工学科","建築学科","土木工学科",
                    "経済学科","経営学科","商学科","応用ファイナンス学科",
                    "森林学科","水産学科","環境保全学科",
                    "法律学科","政治学科","国際法学科","新領域法学科",
                    "心理学科","社会学科"), 
                  times = c(300,500,500,500,200,
                            400,350,
                            500,500,250,
                            800,800,800,600,
                            300,300,400,
                            1000,800,1000,700,
                            150,350)) %>% 
  as.tibble() %>% rename(department = value) #列名をdepartmentに

##学部名と学科名のデータを結合して，ランダムに並べかえる
school <- cbind(school, department) %>% 
  mutate(no = rnorm(12000,10,5)) %>% 
  arrange(no) %>% select(-no)

##GPA情報・修得単位の疑似データと，学部・学科データを結合
dat <- cbind(dat, school)

##ダミーの学籍番号を追加
dat %>% 
  mutate(sID = str_c(str_sub(school,1,1),
                     str_sub(department,1,1),
                     grade,
                     "-",
                     row_number())) -> dat

##学部，学年ごとの統計量を確認
dat %>% 
  select(-sID) %>% 
  group_by(school, grade,department) %>% 
  summarise_all(funs(mean,sd)) %>% datatable(filter =  "top", 
          extensions = 'Scroller', options = list(
  deferRender = TRUE,
  dom = "frtiS",
  scrollY = 200,
  scrollCollapse = TRUE
))
```

　補助資料は以上で終了です．  
　ここに記載したプログラム等は２次利用していただいてOKです．ただし，実際の大学業務に使用する際には，自己責任でお願いします．プログラムを使用したことによる不利益等は責任を負いかねますので予めご了承ください．  
　
　また，不備等もあろうかと思いますので，ご質問等は西山(k.nis80[at]gmail.com)までお願いします．  

