1 データ

2 csv形式のデータの読み込み(2019–2023)

  • 毎年7月時点の情報
# 全てのファイルを削除する
#rm(list = ls())

# 2023年の役員データを読み込む
# yakuin_data_2023 <- read.csv("Data_raw/yakuin_data_2023.csv" , header = T, fileEncoding = "cp932")

# 2019年から2023年の役員データを読み込む
for (i in 2019:2023) {
  # Construct file names
  file_name <- paste0("Data_raw/yakuin_data_", i, ".csv")
  file_name_new <- paste0("yakuin_data_", i, ".RData")
  
  # Read the data
  yakuin_data <- read.csv(file_name, header = T, fileEncoding = "Shift-JIS")
  
  # Assign data to a variable with its original name
  assign(paste0("yakuin_data", i), yakuin_data)
  rm(yakuin_data)
}

3 csv形式のデータの読み込み(2016, 2017, 2018)

  • 毎年3月決算までの情報

まず、csvファイルの名前を変更しておく。 - yakuin_data(H27.4-H28.3).csv ==> yakuin_data_2016.csv - yakuin_data(H28.4-H29.3).csv ==> yakuin_data_2017.csv - yakuin_data(H29.4-H30.3).csv ==> yakuin_data_2018.csv

さらに、テキストエディタで、SHift-JISからUTF-8に変換しておく。

library(readr)
yakuin_data2016 <- read_csv("Data_raw/yakuin_data_2016.csv")
yakuin_data2017 <- read_csv("Data_raw/yakuin_data_2017.csv")
yakuin_data2018 <- read_csv("Data_raw/yakuin_data_2018.csv")

4 変数名の変更と調整(1)2019〜2023年

# 2019〜2023年のyakuin_dataのcolumn nameを確認する
colnames(yakuin_data2019)
## [1] "提出者名"      "提出者業種"    "証券コード"    "X.男性役員数."
## [5] "X.女性役員数." "女性比率"      "X"             "X.1"          
## [9] "X.2"
colnames(yakuin_data2020)
## [1] "企業名"        "業種"          "証券コード"    "X.男性役員数."
## [5] "X.女性役員数." "女性比率"
colnames(yakuin_data2021)
## [1] "企業名"        "業種"          "証券コード"    "X.男性役員数."
## [5] "X.女性役員数." "女性比率"
colnames(yakuin_data2022)
## [1] "企業名"        "業種"          "証券コード"    "X.男性役員数."
## [5] "X.女性役員数." "女性比率"
colnames(yakuin_data2023)
## [1] "企業名"        "業種"          "証券コード"    "X.男性役員数."
## [5] "X.女性役員数." "女性比率"
# 2019年のyakuin_dataの"提出者名"を"企業名"に変更する
colnames(yakuin_data2019)[1] <- "企業名"

# 2019年のyakuin_dataの"提出者業種"を"業種"に変更する
colnames(yakuin_data2019)[2] <- "業種"

# 2019年のyakuin_dataの変数を"企業名"と"業種"、"証券コード"、"X.男性役員数."、"X.女性役員数."、"女性比率"だけにする
yakuin_data2019 <- yakuin_data2019[, c("企業名", "業種", "証券コード", "X.男性役員数.", "X.女性役員数.", "女性比率")]

# 2019--2023年ののyakuin_dataの"X.男性役員数."と"X.女性役員数."の変数名からX.を除去する
# 2019--2023年のデータのX.男性役員数.を男性役員数に変更
colnames(yakuin_data2019)[4] <- "男性役員数"
colnames(yakuin_data2020)[4] <- "男性役員数"
colnames(yakuin_data2021)[4] <- "男性役員数"
colnames(yakuin_data2022)[4] <- "男性役員数"
colnames(yakuin_data2023)[4] <- "男性役員数"

# 2019--2023年のデータのX.女性役員数.を女性役員数に変更
colnames(yakuin_data2019)[5] <- "女性役員数"
colnames(yakuin_data2020)[5] <- "女性役員数"
colnames(yakuin_data2021)[5] <- "女性役員数"
colnames(yakuin_data2022)[5] <- "女性役員数"
colnames(yakuin_data2023)[5] <- "女性役員数"

5 変数名の変更と調整(2)2016〜2018年

# 2019〜2023年のyakuin_dataのcolumn nameを確認する
colnames(yakuin_data2016)
## [1] "会社名"             "会社名(ヨミ)"     "EDINETコード"
## [4] "業種"               "証券コード"         "男性役員数"        
## [7] "女性役員数"         "女性比率"
colnames(yakuin_data2017)
## [1] "会社名"             "会社名(ヨミ)"     "EDINETコード"
## [4] "業種"               "証券コード"         "男性役員数"        
## [7] "女性役員数"         "女性比率"
colnames(yakuin_data2018)
## [1] "会社名"             "会社名(ヨミ)"     "EDINETコード"
## [4] "業種"               "証券コード"         "男性役員数"        
## [7] "女性役員数"         "女性比率"
# yakuin_dataの"会社名"を"企業名"に変更する
colnames(yakuin_data2016)[1] <- "企業名"
colnames(yakuin_data2017)[1] <- "企業名"
colnames(yakuin_data2018)[1] <- "企業名"

# yakuin_dataの"会社名(ヨミ)"と"EDINETコード"を削除する。
yakuin_data2016 <- yakuin_data2016[, -c(2, 3)]
yakuin_data2017 <- yakuin_data2017[, -c(2, 3)]
yakuin_data2018 <- yakuin_data2018[, -c(2, 3)]

6 年次変数yearの追加

# 2016〜2023年のyakuin_dataにyearを追加する
yakuin_data2016$year <- 2016
yakuin_data2017$year <- 2017
yakuin_data2018$year <- 2018
yakuin_data2019$year <- 2019
yakuin_data2020$year <- 2020
yakuin_data2021$year <- 2021
yakuin_data2022$year <- 2022
yakuin_data2023$year <- 2023

7 データの結合

# 2019〜2023年のyakuin_dataを結合する
yakuin_data <- rbind(yakuin_data2016, yakuin_data2017, yakuin_data2018, 
                     yakuin_data2019, yakuin_data2020, yakuin_data2021, 
                     yakuin_data2022, yakuin_data2023)

# 結合する前の2019〜2023年のyakuin_dataを削除する
rm(yakuin_data2016, yakuin_data2017, yakuin_data2018,
   yakuin_data2019, yakuin_data2020, yakuin_data2021, 
   yakuin_data2022, yakuin_data2023)

8 データの観測数の確認

# 2019〜2023年のyakuin_dataの観測数を確認する
table(yakuin_data$year)
## 
## 2016 2017 2018 2019 2020 2021 2022 2023 
## 3617 3697 3697 3740 3780 3831 3860 3915
barplot(table(yakuin_data$year))

9 データの保存

# 2019〜2023年のyakuin_dataをエクセルファイルに保存する
write.csv(yakuin_data, "Data_output/yakuin_data.csv", row.names = F)