ダミーデータの生成

 以下はMJIR2019にて発表予定の「R言語を用いた再生可能な教学IR情報の分析と可視化」(発表者:専修大学西山慶太)で使用したダミーデータを生成するスクリプトである.    

#ライブラリの読み込み
library(tidyverse) #tidyverseパッケージの読込
library(knitr) #knitrパッケージの読込
library(MASS)   #MASSパッケージの読込
library(DT) #DTパッケージの読込



###擬似データの作成
#GPAの平均値と標準偏差(GPA疑似データのパラメタ)
gpa <- c(2.5,1)
#二変数間の相関係数(GPAと修得単位の相関係数を0.8に設定して,疑似データを発生させる)
r <- c(0.8)

#1~4年次の標準修得単位数とその標準偏差,CAPを1年40単位にそれぞれ設定
f <- c(31,10,40)
s <- c(62,20,80)
j <- c(93,30,120)
g <- c(124,30,160)

#GPAと修得単位の疑似データを学年ごとに作成
##1年次
# 平均値ベクタ
Mu <- c(gpa[1], f[1])   
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*f[2],
               r*gpa[2]*f[2],
               f[2]^2), ncol=2) 

# 疑似データを1万サンプル生成(ガウス分布で)
dat <- mvrnorm(10000, Mu, Si)   

#GPA範囲とCAP範囲でフィルタをかけて,3000人分のデータを保存
dat_1 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= f[3] & credit >=0) %>% 
  sample_n(size = 3000) 

##2年次
# 平均値ベクタ
Mu <- c(gpa[1], s[1])   
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*s[2],
               r*gpa[2]*s[2],
               s[2]^2), ncol=2) 
# 疑似データを1万サンプル生成(ガウス分布で)
dat <- mvrnorm(10000, Mu, Si)   
#GPA範囲とCAP範囲でフィルタをかけて,3000人分のデータを保存
dat_2 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= s[3] & credit >=0) %>% 
  sample_n(size = 3000) 

##3年次
# 平均値ベクタ
Mu <- c(gpa[1], j[1])   
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*j[2],
               r*gpa[2]*j[2],
               j[2]^2), ncol=2) 

# 疑似データを1万サンプル生成(ガウス分布で)
dat <- mvrnorm(10000, Mu, Si)
#GPA範囲とCAP範囲でフィルタをかけて,3000人分のデータを保存
dat_3 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= j[3] & credit >=0) %>% 
  sample_n(size = 3000) 

##4年次
# 平均値ベクタ
Mu <- c(gpa[1], g[1])   
# 分散共分散行列
Si <- matrix(c(gpa[2]^2,
               r*gpa[2]*g[2],
               r*gpa[2]*g[2],
               g[2]^2), ncol=2) 
# 疑似データを1万サンプル生成(ガウス分布で)
dat <- mvrnorm(10000, Mu, Si)   
#GPA範囲とCAP範囲でフィルタをかけて,3000人分のデータを保存
dat_4 <- data.frame(GPA=dat[,1], credit=dat[,2]) %>% 
  filter(GPA<=4 & GPA >=0 & credit <= g[3] & credit >=0) %>% 
  sample_n(size = 3000) 

#dplyrの関数を邪魔することがあるので,MASSパッケージを無効にしておく
detach("package:MASS", unload=TRUE)

##データの確認
#1年次
dat_1 %>% 
  ggplot(aes(x = GPA, y = credit))+
  geom_point()

##生成された疑似データに学年列を追加し,データを結合
rbind(
  dat_1 %>% mutate(grade = 1),
  dat_2 %>% mutate(grade = 2),
  dat_3 %>% mutate(grade = 3),
  dat_4 %>% mutate(grade = 4)
) -> dat

##学部名の文字列を作成
#7つの学部とそれぞれの学部定員が合計1.2万人になるように作成
school <- rep(c("人文学部", "情報学部", "工学部",
                "社会科学部","農学部","法学部","人間科学部"), 
              times = c(2000,750,1250,
                        3000,1000,3500,500)) %>% 
  as.tibble() %>% rename(school = value) #列名をschoolに

##学科名の文字列を作成
#7つの学部の下に学科名を作成
department <- rep(c("哲学科", "言語学科", "歴史学科", "地理学科","芸術学科",
                    "人間情報学科","応用情報学科",
                    "機会工学科","建築学科","土木工学科",
                    "経済学科","経営学科","商学科","応用ファイナンス学科",
                    "森林学科","水産学科","環境保全学科",
                    "法律学科","政治学科","国際法学科","新領域法学科",
                    "心理学科","社会学科"), 
                  times = c(300,500,500,500,200,
                            400,350,
                            500,500,250,
                            800,800,800,600,
                            300,300,400,
                            1000,800,1000,700,
                            150,350)) %>% 
  as.tibble() %>% rename(department = value) #列名をdepartmentに

##学部名と学科名のデータを結合して,ランダムに並べかえる
school <- cbind(school, department) %>% 
  mutate(no = rnorm(12000,10,5)) %>% 
  arrange(no) %>% select(-no)

##GPA情報・修得単位の疑似データと,学部・学科データを結合
dat <- cbind(dat, school)

##ダミーの学籍番号を追加
dat %>% 
  mutate(sID = str_c(str_sub(school,1,1),
                     str_sub(department,1,1),
                     grade,
                     "-",
                     row_number())) -> dat

#GPAを小数点第二位まで,取得単位数を整数値にする.
#ついでに学部,学科名をfactor型にしておく
dat %>% 
  mutate(credit = as.integer(credit)) %>% 
  mutate(GPA = round(GPA, digits = 2)) %>% 
  mutate(school = factor(school)) %>% 
  mutate(department = factor(department)) -> dat

#列の順番を並び替え,学部,学科,学年,学生番号でソート
dat %>% 
  select(sID,school, department, grade, GPA, credit) %>% 
  arrange(school, department, grade, sID) -> dat

##学部,学年ごとの統計量を確認
dat %>% 
  select(-sID) %>% 
  group_by(school, grade,department) %>% 
  summarise_all(funs(mean,sd)) %>% 
  mutate(GPA_mean = round(GPA_mean, digits = 2)) %>% 
  mutate(GPA_sd = round(GPA_sd, digits = 2)) %>% 
  mutate(credit_mean = round(GPA_mean, digits = 2)) %>% 
  mutate(credit_sd = round(credit_sd, digits = 2)) %>% 
  datatable(filter =  "top", 
          extensions = 'Scroller', options = list(
  deferRender = TRUE,
  dom = "frtiS",
  scrollY = 200,
  scrollCollapse = TRUE
))

 以上でダミーデータの生成は終了です.
 ここに記載したプログラム等は2次利用していただいてOKです.ただし,実際の大学業務に使用する際には,自己責任でお願いします.プログラムを使用したことによる不利益等は責任を負いかねますので予めご了承ください.
   また,不備等もあろうかと思いますので,ご質問等は西山(k.nis80[at]gmail.com)までお願いします.  

