2019 Biostat Class 1:Grafan & Hails

今日

  • 基本の操作

  • 基本の図の作成

  • 線形モデルの作成

基本操作 とりあえずデータで遊ぶ(1)

(1)cars dataをみてみる

   speed dist
1      4    2
2      4   10
3      7    4
4      7   22
5      8   16
6      9   10
7     10   18
8     10   26
9     10   34
10    11   17
11    11   28
12    12   14
13    12   20
14    12   24
15    12   28
16    13   26
17    13   34
18    13   34
19    13   46
20    14   26
21    14   36
22    14   60
23    14   80
24    15   20
25    15   26
26    15   54
27    16   32
28    16   40
29    17   32
30    17   40
31    17   50
32    18   42
33    18   56
34    18   76
35    18   84
36    19   36
37    19   46
 [ reached 'max' / getOption("max.print") -- omitted 13 rows ]

基本操作 とりあえずデータで遊ぶ(2)

(2)carsはどういうデータ?

Description

The data give the speed of cars and the distances taken to stop. Note that the data were recorded in the 1920s.

基本操作 とりあえずデータで遊ぶ(3)

  1. carsの一部を取り出す。 全データを見るにはスプレッドシート(エクセル等)が良い。また、View(cars) でRstudioでウイドウでデータ表示可能。
  speed dist
1     4    2
2     4   10
3     7    4
   speed dist
49    24  120
50    25   85

基本操作 とりあえずデータで遊ぶ(4)

  1. carsの一部を取り出す。

Return the First or Last Part of an Object

基本操作 とりあえずデータで遊ぶ(5)

  1. carsの一部を取り出す。
[1] 50  2
 [1]  4  4  7  7  8  9 10 10 10 11 11 12 12 12 12 13 13 13 13 14 14 14 14
[24] 15 15 15 16 16 17 17 17 18 18 18 18 19 19 19 20 20 20 20 20 22 23 24
[47] 24 24 24 25
   speed dist
20    14   26
[1] 16

基本操作 とりあえずデータで遊ぶ(6)

  1. carsの全体像の把握
[1] "speed" "dist" 
[1] "data.frame"
'data.frame':   50 obs. of  2 variables:
 $ speed: num  4 4 7 7 8 9 10 10 10 11 ...
 $ dist : num  2 10 4 22 16 10 18 26 34 17 ...

基本操作 とりあえずデータで遊ぶ(7)

  1. carsの特徴付け 統計値

mean(x) 平均 > sd(x) 標準偏差 var(x) 分散

median(x) 中央値 > range(x) 範囲 min(x) 最小値 max(x) 最大値

[1] 15.4
[1] 2
[1]   2 120

基本操作 とりあえずデータで遊ぶ(8)

  1. carsの特徴付け 統計値 もっと簡単に

mean(x) 平均 sd(x) 標準偏差 var(x) 分散

median(x) 中央値 range(x) 範囲

min(x) 最小値 max(x) 最大値

     speed           dist       
 Min.   : 4.0   Min.   :  2.00  
 1st Qu.:12.0   1st Qu.: 26.00  
 Median :15.0   Median : 36.00  
 Mean   :15.4   Mean   : 42.98  
 3rd Qu.:19.0   3rd Qu.: 56.00  
 Max.   :25.0   Max.   :120.00  

基本の図の作成(1)

  1. carsのデータの可視化

基本の図の作成(2)

  1. carsのデータの可視化

基本の図の作成(3)

  1. carsのデータの可視化+ (6)線形モデルの作成 2変数の関係

基本の図の作成(4)

+(6)線形モデルの作成 2変数の関係


Call:
lm(formula = dist ~ speed, data = cars)

Residuals:
    Min      1Q  Median      3Q     Max 
-29.069  -9.525  -2.272   9.215  43.201 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -17.5791     6.7584  -2.601   0.0123 *  
speed         3.9324     0.4155   9.464 1.49e-12 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 15.38 on 48 degrees of freedom
Multiple R-squared:  0.6511,    Adjusted R-squared:  0.6438 
F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12

データの読み込み(1) デスクトップへのフォルダーの作成

デスクトップに“Biostat2019”という名前のフォルダーを作ってください。

データの読み込み(2) データのダウンロードと名前の変更

  1. “Biostat2019”フォルダーに i assistantの第二回講義から2つのデータ,“2B023_02_01.csv”と“2B023_02_02.xls”をダウンロードしてください。
    この二つは同じデータですが、データのファイルフォーマットが異なります。一つはカンマ「,」で区切ったテキスト形式データで、ファイルの拡張子が「.csv」。もう一つは、MSエクセルでの形式でファイルの拡張しが「.xlsx」です。
  2. この2つのファイルの名前を“Biostat2019_Data_1.csv”と“Biostat2019_Data_1.xls”にそれぞれ変更してください。

データの読み込み(3) working ディレクトリーの設定

(1) “R”が今、参照している場所(ディレクトリーもしくはフォルダー)の確認

[1] "/Users/gakugaku/Dropbox/#_2 授業/2019生物統計学/2019Biostat_Class_1"

(2) “R” が参照している場所(ディレクトリーもしくはフォルダー)を“Biostat2019”に変更

[1] "/Users/gakugaku/Dropbox/#_2 授業/2019生物統計学/2019Biostat_Class_1"
[1] "/Users/gakugaku/Desktop/Biostat2019"

データの読み込み(4) tidyverse パッケージのインストールと読み込み

  1. tiyverse パッケージを“Tools”⇒ “Install Packages”でインストール
  2. 現在のワーキングスペースに“library”コマンドで読み込み

データの読み込み(5)  working ディレクトリーの確認

  1. “R”が今、参照している場所(ディレクトリーもしくはフォルダー)の確認
  2. “Biostat2019”にはいっているファイルの確認
[1] "/Users/gakugaku/Dropbox/#_2 授業/2019生物統計学/2019Biostat_Class_1"
[1] "2019Biostat_Class_1_cache" "2019Biostat_Class_1_files"
[3] "2019Biostat_Class_1.html"  "2019Biostat_Class_1.Rmd"  
[5] "2019Biostat_Class_1.Rproj" "Data"                     
[7] "Untitled.Rmd"             

データの読み込み(6) データを読み込む

   FERTIL YIELD
1       1  6.27
2       1  5.36
3       1  6.39
4       1  4.85
5       1  5.99
6       1  7.14
7       1  5.08
8       1  4.07
9       1  4.35
10      1  4.95
11      2  3.07
12      2  3.29
13      2  4.04
14      2  4.19
15      2  3.41
16      2  3.75
17      2  4.87
18      2  3.94
19      2  6.28
20      2  3.15
21      3  4.04
22      3  3.79
23      3  4.56
24      3  4.55
25      3  4.55
26      3  4.53
27      3  3.53
28      3  3.71
29      3  7.00
30      3  4.61
'data.frame':   30 obs. of  2 variables:
 $ FERTIL: int  1 1 1 1 1 1 1 1 1 1 ...
 $ YIELD : num  6.27 5.36 6.39 4.85 5.99 7.14 5.08 4.07 4.35 4.95 ...

19/10/11