Mencari dataset pada package datasets

library(datasets)
data("swiss")
swiss <- tibble::as_tibble(swiss)
str(swiss)
## tibble [47 x 6] (S3: tbl_df/tbl/data.frame)
##  $ Fertility       : num [1:47] 80.2 83.1 92.5 85.8 76.9 76.1 83.8 92.4 82.4 82.9 ...
##  $ Agriculture     : num [1:47] 17 45.1 39.7 36.5 43.5 35.3 70.2 67.8 53.3 45.2 ...
##  $ Examination     : int [1:47] 15 6 5 12 17 9 16 14 12 16 ...
##  $ Education       : int [1:47] 12 9 5 7 15 7 7 8 7 13 ...
##  $ Catholic        : num [1:47] 9.96 84.84 93.4 33.77 5.16 ...
##  $ Infant.Mortality: num [1:47] 22.2 22.2 20.2 20.3 20.6 26.6 23.6 24.9 21 24.4 ...

dataset yang digunakan yaitu swiss yang memiliki 47 observasi dan 6 peubah, yaitu: fertility (tingkat kelahiran), agriculture (% laki" yang bekerja dalam pertanian), examination (% peserta wajib militer yang menerima nilai tertinggi pada ujian militer), education (% pendidikan setelah SD untuk wajib militer), catholic (% penduduk beragama katolik),infant.mortality (% bayi yang meninggal sebelum berumur 1 tahun). peubah-peubah tersebut memiliki tipe data numerik dan integer.

Penggunaan fungsi

- summarise

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
swiss %>% summarise(mean=mean(Fertility), median=median(Fertility))
## # A tibble: 1 x 2
##    mean median
##   <dbl>  <dbl>
## 1  70.1   70.4

summarise di atas merupakan contoh ringkasan dari pemusatan data, yaitu rata-rata/mean dan median dari peubah Fertility. summarise dapat digunakan pula untuk ukuran spread seperti standar deviasi (sd), range seperti kuantil (quantile), position seperti nilai yang berada diposisi terakhir (last), count seperti menghitung banyaknya data (n), dan logical seperti apakah terdapat suatu unsur pada data (any).

- arrange

swiss %>% arrange(Agriculture)
## # A tibble: 47 x 6
##    Fertility Agriculture Examination Education Catholic Infant.Mortality
##        <dbl>       <dbl>       <int>     <int>    <dbl>            <dbl>
##  1      35           1.2          37        53    42.3              18  
##  2      65.7         7.7          29        11    13.8              20.5
##  3      54.3        15.2          31        20     2.15             10.8
##  4      72.7        16.7          22        13    11.2              18.9
##  5      80.2        17            15        12     9.96             22.2
##  6      64.4        17.6          35        32    16.9              23  
##  7      67.6        18.7          25         7     8.65             19.5
##  8      55.7        19.4          26        28    12.1              20.2
##  9      58.3        26.8          25        19    18.5              20.9
## 10      42.8        27.7          22        29    58.3              19.3
## # ... with 37 more rows

arrange digunakan untuk mengurutkan observasi berdasarkan nilai peubah yang dipilih (Agriculture) dari nilai terkecil hingga terbesar (default R mengurutkan secara ascending).

- filter

a <- swiss %>% filter(Examination==16)
nrow(a)
## [1] 4

filter terhadap Examination yang bernilai 16 terdapat 4 observasi yang sesuai kriteria tersebut.

head(a)
## # A tibble: 4 x 6
##   Fertility Agriculture Examination Education Catholic Infant.Mortality
##       <dbl>       <dbl>       <int>     <int>    <dbl>            <dbl>
## 1      83.8        70.2          16         7    92.8              23.6
## 2      82.9        45.2          16        13    91.4              24.4
## 3      60.5        60.8          16        10     7.72             16.3
## 4      44.7        46.6          16        29    50.4              18.2

kita dapat membandingkan nilai-nilai peubah lain yang memiliki nilai examination yang sama, namun dapat dilihat tidak terdapat kemiripan nilai-nilai peubah lainnya.

- mutate

swiss %>% mutate(score = Examination + Education)
## # A tibble: 47 x 7
##    Fertility Agriculture Examination Education Catholic Infant.Mortality score
##        <dbl>       <dbl>       <int>     <int>    <dbl>            <dbl> <int>
##  1      80.2        17            15        12     9.96             22.2    27
##  2      83.1        45.1           6         9    84.8              22.2    15
##  3      92.5        39.7           5         5    93.4              20.2    10
##  4      85.8        36.5          12         7    33.8              20.3    19
##  5      76.9        43.5          17        15     5.16             20.6    32
##  6      76.1        35.3           9         7    90.6              26.6    16
##  7      83.8        70.2          16         7    92.8              23.6    23
##  8      92.4        67.8          14         8    97.2              24.9    22
##  9      82.4        53.3          12         7    97.7              21      19
## 10      82.9        45.2          16        13    91.4              24.4    29
## # ... with 37 more rows

mutate digunakan untuk membuat peubah baru yang merupakan kombinasi dari peubah yang sudah ada. pada contoh di atas mutate digunakan untuk membuat peubah score yang merupakan penjumlahan dari nilai Examination dan Education.

- select

swiss %>% select(Fertility, Infant.Mortality)
## # A tibble: 47 x 2
##    Fertility Infant.Mortality
##        <dbl>            <dbl>
##  1      80.2             22.2
##  2      83.1             22.2
##  3      92.5             20.2
##  4      85.8             20.3
##  5      76.9             20.6
##  6      76.1             26.6
##  7      83.8             23.6
##  8      92.4             24.9
##  9      82.4             21  
## 10      82.9             24.4
## # ... with 37 more rows

select digunakan untuk menampilkan subset data dengan peubah tertentu yang dipilih. pada contoh di atas hanya peubah Fertility dan Infant.Mortality saja yang ditampilkan.

Penggunaan fungsi secara bersama-sama

Contoh 1

swissc <- swiss %>% mutate(evaluation = (Examination + Education)/2)
b <- swissc %>% filter(evaluation > 25)
b %>% arrange(desc(evaluation)) %>% select(evaluation, Examination,Education) 
## # A tibble: 5 x 3
##   evaluation Examination Education
##        <dbl>       <int>     <int>
## 1       45            37        53
## 2       33.5          35        32
## 3       27            26        28
## 4       25.5          31        20
## 5       25.5          22        29

contoh di atas merupakan contoh penggunaan fungsi secara bersama-sama yaitu menggunakan mutate, filter, arrange, dan select. mutate digunakan untuk membentuk variabel baru yaitu evaluation, filter digunakan untuk memilih observasi yang memenuhi kriteria yaitu nilai evaluation > 25, arrange digunakan untuk mengurutkan observasi yang memiliki nilai evaluation > 25 dari yang terbesar hingga terkecil (karena menggunakan format descending), select digunakan untuk memilih peubah yang ditampilkan yaitu peubah evaluation, Examination, dan Education.

Contoh 2

swissc <- swiss %>% mutate(evaluation = (Examination + Education)/2)
swissc %>% summarise(mean_eval=mean(evaluation), mean_exam=mean(Examination), mean_edu=mean(Education))
## # A tibble: 1 x 3
##   mean_eval mean_exam mean_edu
##       <dbl>     <dbl>    <dbl>
## 1      13.7      16.5     11.0

contoh di atas merupakan contoh penggunaan fungsi secara bersama-sama yaitu menggunakan mutate dan summarise. mutate digunakan untuk membentuk variabel baru yaitu evaluation sementara summarise digunakan untuk melihat ukuran pemusatan (mean) dari peubah yang dipilih yaitu peubah evaluation, Examination, dan Education.