2019 Biostat Class 1:Grafan & Hails
2019 Biostat Class 1:Grafan & Hails
- 今日
- 基本操作 とりあえずデータで遊ぶ(1)
- 基本操作 とりあえずデータで遊ぶ(2)
- 基本操作 とりあえずデータで遊ぶ(3)
- 基本操作 とりあえずデータで遊ぶ(4)
- 基本操作 とりあえずデータで遊ぶ(5)
- 基本操作 とりあえずデータで遊ぶ(6)
- 基本操作 とりあえずデータで遊ぶ(7)
- 基本操作 とりあえずデータで遊ぶ(8)
- 基本の図の作成(1)
- 基本の図の作成(2)
- 基本の図の作成(3)
- 基本の図の作成(4)
- データの読み込み(1) デスクトップへのフォルダーの作成
- データの読み込み(2) データのダウンロードと名前の変更
- データの読み込み(3) working ディレクトリーの設定
- データの読み込み(4) tidyverse パッケージのインストールと読み込み
- データの読み込み(5) working ディレクトリーの確認
- データの読み込み(6) データを読み込む
今日
基本の操作
基本の図の作成
線形モデルの作成
基本操作 とりあえずデータで遊ぶ(1)
(1)cars dataをみてみる
speed dist
1 4 2
2 4 10
3 7 4
4 7 22
5 8 16
6 9 10
7 10 18
8 10 26
9 10 34
10 11 17
11 11 28
12 12 14
13 12 20
14 12 24
15 12 28
16 13 26
17 13 34
18 13 34
19 13 46
20 14 26
21 14 36
22 14 60
23 14 80
24 15 20
25 15 26
26 15 54
27 16 32
28 16 40
29 17 32
30 17 40
31 17 50
32 18 42
33 18 56
34 18 76
35 18 84
36 19 36
37 19 46
[ reached 'max' / getOption("max.print") -- omitted 13 rows ]
基本操作 とりあえずデータで遊ぶ(2)
(2)carsはどういうデータ?
Description
The data give the speed of cars and the distances taken to stop. Note that the data were recorded in the 1920s.
基本操作 とりあえずデータで遊ぶ(3)
- carsの一部を取り出す。 全データを見るにはスプレッドシート(エクセル等)が良い。また、View(cars) でRstudioでウイドウでデータ表示可能。
speed dist
1 4 2
2 4 10
3 7 4
speed dist
49 24 120
50 25 85
基本操作 とりあえずデータで遊ぶ(4)
- carsの一部を取り出す。
Return the First or Last Part of an Object
基本操作 とりあえずデータで遊ぶ(5)
- carsの一部を取り出す。
[1] 50 2
[1] 4 4 7 7 8 9 10 10 10 11 11 12 12 12 12 13 13 13 13 14 14 14 14
[24] 15 15 15 16 16 17 17 17 18 18 18 18 19 19 19 20 20 20 20 20 22 23 24
[47] 24 24 24 25
speed dist
20 14 26
[1] 16
基本操作 とりあえずデータで遊ぶ(6)
- carsの全体像の把握
[1] "speed" "dist"
[1] "data.frame"
'data.frame': 50 obs. of 2 variables:
$ speed: num 4 4 7 7 8 9 10 10 10 11 ...
$ dist : num 2 10 4 22 16 10 18 26 34 17 ...
基本操作 とりあえずデータで遊ぶ(7)
- carsの特徴付け 統計値
mean(x) 平均 > sd(x) 標準偏差 var(x) 分散
median(x) 中央値 > range(x) 範囲 min(x) 最小値 max(x) 最大値
[1] 15.4
[1] 2
[1] 2 120
基本操作 とりあえずデータで遊ぶ(8)
- carsの特徴付け 統計値 もっと簡単に
mean(x) 平均 sd(x) 標準偏差 var(x) 分散
median(x) 中央値 range(x) 範囲
min(x) 最小値 max(x) 最大値
speed dist
Min. : 4.0 Min. : 2.00
1st Qu.:12.0 1st Qu.: 26.00
Median :15.0 Median : 36.00
Mean :15.4 Mean : 42.98
3rd Qu.:19.0 3rd Qu.: 56.00
Max. :25.0 Max. :120.00
基本の図の作成(3)
- carsのデータの可視化+ (6)線形モデルの作成 2変数の関係
基本の図の作成(4)
+(6)線形モデルの作成 2変数の関係
Call:
lm(formula = dist ~ speed, data = cars)
Residuals:
Min 1Q Median 3Q Max
-29.069 -9.525 -2.272 9.215 43.201
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
speed 3.9324 0.4155 9.464 1.49e-12 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 15.38 on 48 degrees of freedom
Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438
F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12
データの読み込み(1) デスクトップへのフォルダーの作成
デスクトップに“Biostat2019”という名前のフォルダーを作ってください。
データの読み込み(2) データのダウンロードと名前の変更
- “Biostat2019”フォルダーに i assistantの第二回講義から2つのデータ,“2B023_02_01.csv”と“2B023_02_02.xls”をダウンロードしてください。
この二つは同じデータですが、データのファイルフォーマットが異なります。一つはカンマ「,」で区切ったテキスト形式データで、ファイルの拡張子が「.csv」。もう一つは、MSエクセルでの形式でファイルの拡張しが「.xlsx」です。 - この2つのファイルの名前を“Biostat2019_Data_1.csv”と“Biostat2019_Data_1.xls”にそれぞれ変更してください。
データの読み込み(3) working ディレクトリーの設定
(1) “R”が今、参照している場所(ディレクトリーもしくはフォルダー)の確認
[1] "/Users/gakugaku/Dropbox/#_2 授業/2019生物統計学/2019Biostat_Class_1"
(2) “R” が参照している場所(ディレクトリーもしくはフォルダー)を“Biostat2019”に変更
[1] "/Users/gakugaku/Dropbox/#_2 授業/2019生物統計学/2019Biostat_Class_1"
[1] "/Users/gakugaku/Desktop/Biostat2019"
データの読み込み(4) tidyverse パッケージのインストールと読み込み
- tiyverse パッケージを“Tools”⇒ “Install Packages”でインストール
- 現在のワーキングスペースに“library”コマンドで読み込み
データの読み込み(5) working ディレクトリーの確認
- “R”が今、参照している場所(ディレクトリーもしくはフォルダー)の確認
- “Biostat2019”にはいっているファイルの確認
[1] "/Users/gakugaku/Dropbox/#_2 授業/2019生物統計学/2019Biostat_Class_1"
[1] "2019Biostat_Class_1_cache" "2019Biostat_Class_1_files"
[3] "2019Biostat_Class_1.html" "2019Biostat_Class_1.Rmd"
[5] "2019Biostat_Class_1.Rproj" "Data"
[7] "Untitled.Rmd"
データの読み込み(6) データを読み込む
setwd("/Users/gakugaku/Desktop/Biostat2019/")
Working_Data <- read.csv("Biostat2019_Data_1.csv")
# データをみてみる
print(Working_Data) FERTIL YIELD
1 1 6.27
2 1 5.36
3 1 6.39
4 1 4.85
5 1 5.99
6 1 7.14
7 1 5.08
8 1 4.07
9 1 4.35
10 1 4.95
11 2 3.07
12 2 3.29
13 2 4.04
14 2 4.19
15 2 3.41
16 2 3.75
17 2 4.87
18 2 3.94
19 2 6.28
20 2 3.15
21 3 4.04
22 3 3.79
23 3 4.56
24 3 4.55
25 3 4.55
26 3 4.53
27 3 3.53
28 3 3.71
29 3 7.00
30 3 4.61
'data.frame': 30 obs. of 2 variables:
$ FERTIL: int 1 1 1 1 1 1 1 1 1 1 ...
$ YIELD : num 6.27 5.36 6.39 4.85 5.99 7.14 5.08 4.07 4.35 4.95 ...