邪智暴虐なエクセル王を倒そう

e-statが提供しているデータはエクセル形式です。このデータをRユーザーが使ってごにょごびょする際には、いくつかテコ入れをしてtidyなデータに作りなおす必要があります。その際、闇の深さに心が折れるとえくせるで操作し、データを作りなおすという事態に陥ってしまうので、なんとかデータの整形もRでやりたいです。

というわけで邪智暴虐なエクセルシートと格闘してみます。

今回はRPubs - 朝食抜きすぎでは？で使用しているデータと同じファイルを整形してみます。元リンク同様、e-statのデータを統計表一覧　政府統計の総合窓口- 朝食欠食率の年次推移（性・年齢階級別）からダウンロード（~/Downloadディレクトリに保存しました）

でははじめます。

# 使用するパッケージの読み込み
library("xlsx")

## Loading required package: rJava
## Loading required package: xlsxjars

library("dplyr")

## 
## Attaching package: 'dplyr'
## 
## The following object is masked from 'package:stats':
## 
##     filter
## 
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library("DT")

xlsファイルの読み込みにはxlsxパッケージを使用しました。えくせるでファイルを開いて、どの行からどの行を読みこめば良いかを把握しておきます（こういう行政データは上にも下にもデータ以外の無駄な文字があったりする）。今回は8行目から23行目がデータ部分になります。

df <- read.xlsx("~/Downloads/60-1.xlsx", sheetIndex = 1, startRow = 8, endRow = 23) # データ行を選択
names(df)

##  [1] "NA."          "NA..1"        "昭和50年1975" "X55年.1980"  
##  [5] "X60年.1985"   "平成2年.1990" "X7年.1995"    "X12年.2000"  
##  [9] "X13年.2001"   "X14年.2002"   "X15年.2003"   "X16年.2004"  
## [13] "X17年.2005"   "X18年.2006"   "X19年.2007"   "X20年.2008"  
## [17] "X21年.2009"   "X22年.2010"   "X23年.2011"   "X24年.2012"  
## [21] "NA..2"        "NA..3"

Rは列名のはじめに数字がくるとXをつける可愛い子ですが、今回の場合はそのせいもあって列名がカオス（データがない列もあるし）なのでなんとかします。

df <- df[2:nrow(df), ] %>% 
  select(-1, -21, -22) # 無駄な部分を切り捨てる
colnames(df) <- c("年齢", substr(colnames(df), 6, 10)[2:19])
names(df)

##  [1] "年齢" "1975" "1980" "1985" "1990" "995"  "2000" "2001" "2002" "2003"
## [11] "2004" "2005" "2006" "2007" "2008" "2009" "2010" "2011" "2012"

colnamesで列名をつけなおしているのですが、元の列名の後ろが西暦で統一されていたので、そちらを利用しました（５年ごとのデータならseqでいけるなと思いきやそうでもないというワナ）。

最後に、いくつかの行に共通の値な「性別」列を付加します。

df$性別 <- rep(c("男性", "女性"), each = 7)
df <- select(df, 性別, 年齢, 2:20)え
df[, 3:20] %<>% round(3)

というわけで右葉曲折ありましたが、R上でデータの整形を行いました。えくせるの使用はデータの閲覧だけでおしまい！

datatable(df)

\n "options": { "columnDefs": [ { "className": "dt-right", "targets": [ } ], "order": [] }, "callback": "function(table) {}", "colnames": },"evals": [ ] } style="width:100%;height:auto;" class="datatables">

data-for="htmlwidget-5922">{ "x": { "男性", "男性", "男性", "男性", "男性", "男性", "女性", "女性", "女性", "女性", "女性", "女性", "女性" ], "15～19歳", "20～29歳", "30～39歳", "40～49歳", "50～59歳", "60歳以上", "総数", "15～19歳", "20～29歳", "30～39歳", "40～49歳", "50～59歳", "60歳以上" ], 10.7, 15.5, 8.5, 4.9, 4.6, 3.4, 5.9, 14.1, 11.7, 5.3, 5.8, 4.5, 4.1 ], 12.7, 19.5, 11.6, 6.6, 4.6, 2.8, 5.9, 8.300000000000001, 12.9, 8.1, 5.7, 4.3, 3.1 ], 10.3, 23.5, 13.8, 8.699999999999999, 6.1, 3.5, 5.9, 13.1, 14.7, 6.4, 6.7, 5.3, 3.4 ], 14.1, 25.5, 17.8, 11.1, 6.5, 2, 6.1, 10.1, 14.3, 6.5, 7.5, 5.1, 2.8 ], 13.4, 30.8, 16.6, 11.6, 5.1, 1.7, 6.1, 8.9, 18.2, 5.6, 6.1, 4, 2.5 ], 13.3, 30.5, 20.1, 10.5, 9.199999999999999, 2.9, 5.8, 9.199999999999999, 16.3, 7.5, 6.6, 5.3, 2.1 ], 12.3, 27.9, 23.6, 14.4, 9.1, 2.5, 6.9, 8.199999999999999, 16.9, 11.8, 7.9, 6.8, 2.3 ], 14.4, 26.5, 24.7, 14.3, 10.8, 3.4, 7.9, 11.4, 20.6, 12.1, 9, 6.3, 3.7 ], 14, 29.52, 23, 15.9, 10, 3.7, 8.5, 17.2, 23.6, 12.7, 7.6, 6.7, 4.1 ], 14.2, 34.3, 25.9, 19, 10.6, 3.6, 8.699999999999999, 10.2, 22, 15, 7.8, 9.1, 4 ], 18.8, 33.1, 27, 16.2, 11.7, 4.2, 8.6, 10.4, 23.5, 15, 10.3, 8.300000000000001, 4.1 ], 14.6, 30.5, 22.8, 20.8, 13.1, 3.9, 8.5, 13.2, 22.5, 13.9, 11, 7.7, 3.2 ], 13.4, 28.6, 30.2, 17.9, 11.8, 5.4, 10.1, 11.5, 24.9, 16.3, 12.8, 9.699999999999999, 4.4 ], 18.4, 30, 27.7, 25.7, 15.1, 6.3, 11.9, 10, 26.2, 21.7, 14.8, 13.4, 6.8 ], 15.5, 33, 29.2, 19.3, 12.4, 7, 10.1, 10.2, 23.2, 18.1, 12.1, 10.6, 5.8 ], 14.5, 29.7, 27, 20.5, 13.7, 6.7, 10.3, 14, 28.6, 15.1, 15.2, 10.4, 5 ], 8.718, 34.082, 31.535, 23.457, 15.048, 4.857, 11.101, 13.298, 28.829, 18.147, 16.014, 11.21, 5.475 ], 12.299, 29.539, 25.784, 19.552, 13.054, 5.83, 9.032, 10.67, 22.129, 14.785, 12.131, 9.249000000000001, 5.3 ] \n \n 性別\n 年齢\n 1975\n 1980\n 1985\n 1990\n 995\n 2000\n 2001\n 2002\n 2003\n 2004\n 2005\n 2006\n 2007\n 2008\n 2009\n 2010\n 2011\n 2012\n \n \n", 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ] [ "性別", "年齢", "1975", "1980", "1985", "1990", "995", "2000", "2001", "2002", "2003", "2004", "2005", "2006", "2007", "2008", "2009", "2010", "2011", "2012" ]

邪智暴虐なエクセル王を倒そう

Shinya Uryu

2015年3月23日