I.はずれ値を考える

平均や標準偏差、偏差値はずれ値の影響を大きく受けます。

例えば、出席率や平均点が低いクラスは勉強に前向きではない、、、これは経験上誤りですが、、、だと考えるとすると、クラスの出席率や平均点と実際に授業をしての印象が異なる場合がよくあります。

この違和感の原因はいろいろ考えられますが、統計的には、出席率や平均点の算出におけるはずれ値の扱いに原因があるかもしれません。

II.データの取得とたて型データへの変換

出席データを取得します。

学生のID、第1回授業から第6回までの出席とクラスを示した表です。1が出席で0が欠席です。

library(tidyverse)
df <- read_csv("https://pastebin.com/raw/SfF7QiwE")
head(df)
## # A tibble: 6 x 8
##      id    l1    l2    l3    l4    l5    l6 class
##   <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1     1     0     1     1     0     0     0 w1   
## 2     2     0     1     0     0     0     0 w1   
## 3     3     1     1     1     1     1     1 w1   
## 4     4     1     1     1     1     1     1 w1   
## 5     5     1     1     1     1     1     1 w1   
## 6     6     1     1     1     1     1     1 w1

ggplot2で扱えるようにデータを縦型に変換します。

# import a library
library(tidyverse)
# sample 1
df %>%
pivot_longer(
l1:l6,
names_to = "lecture", # 出血列をlecuture列にまとめる
names_prefix = "l", # 列名のgoiを除く
values_to = "attendance") -> df_long # 得点をscore列にまとめる
head(df_long, 10)
## # A tibble: 10 x 4
##       id class lecture attendance
##    <dbl> <chr> <chr>        <dbl>
##  1     1 w1    1                0
##  2     1 w1    2                1
##  3     1 w1    3                1
##  4     1 w1    4                0
##  5     1 w1    5                0
##  6     1 w1    6                0
##  7     2 w1    1                0
##  8     2 w1    2                1
##  9     2 w1    3                0
## 10     2 w1    4                0

To be continued.