第一章 Rと統計学

Rは基本REPLみたいな入力していくのがよくある感じみたい。

3 + 5
## [1] 8

.R のファイルも作って食わせて実行出来る。

ちなみにこれはRStudioを使ってRMarkdownで書いてます。

1.4.2 基本的な操作の概要

平方根を求める関数 sqrt .

sqrt(16)
## [1] 4

累乗は ^ を使って書ける

2^2
## [1] 4

1.5 Rを使った統計

summary 関数で最小、最大、中央値等を一括で出してくれる。

summary(c(173, 178, 180, 183, 182, 174, 179, 179, 174, 192))
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     173     175     179     179     182     192

Min.は最小値を、Medianは中央値を、Meanは平均を、Max.は最大値を表 しています。1st Qu.は第一四分位数、3rd Qu.は第三四分位数を表し、それ ぞれ下から数えて 25%、75%の順位にあたるデータの値

1.5

Rだと代入は = じゃなくて <- を使う。

この書籍だと日本語の変数名も普通に使えることを利用して、既存のRネイティブな関数と区別するために日本語変数を中心にしてる。

身長 <- c(173, 178, 180, 183, 182, 174, 179, 179, 174, 192)

この c()combines の事で、渡した引数をまとめて ベクトル という表現にする(vector)

配列っぽいのだけじゃなくて2次元のもの、数学的な行列で表現するのには matrix() を使えて、以下のような縦横がそのまま並ぶ微妙な感じで使える

ホークス <- matrix(c(173, 178, 180, 183, 182, 174, 179, 179, 174, 192, 17000, 
    14000, 9000, 50000, 30000, 12000, 900, 2100, 1000, 25000), 10, 2)
print(ホークス)
##       [,1]  [,2]
##  [1,]  173 17000
##  [2,]  178 14000
##  [3,]  180  9000
##  [4,]  183 50000
##  [5,]  182 30000
##  [6,]  174 12000
##  [7,]  179   900
##  [8,]  179  2100
##  [9,]  174  1000
## [10,]  192 25000

1.6.2 外部データファイルを読み込んでみよう

直入力は辛いのでcsvとかから読み込める。

read.csv("hawks.csv")

1.6.3 関数を作ってみよう

標本分散

不偏分散

詳細は2章でー

varp <- function(x) {
    標本分散 <- var(x) * (length(x) - 1/length(x))
    標本分散
}

1.6.4 他の人の作った関数を利用する

Rスクリプトは source() でインポートして使える

source("varp.R")

この書籍の方針