Memuat Data

Data perlu dimuat terlebih dahulu sebelum dapat digunakan pada RStudio. Jika data dalam format Excel, maka perlu paket tambahan (add-on package) untuk memuatnya.

# Instal paket tambahan
install.packages("readxl")

# Memuat paket tambahan
library("readxl")

# Memuat file
csv <- read.csv("file_csv.csv")
excel <- read_xlsx("file_excel.xlsx")

# Mengecek data
head(csv) #enam data teratas
##   variabel1 variabel2 variabel3 variabel4
## 1        48        25        22        35
## 2        38        26        47        41
## 3        47        29        39        49
## 4        31        27        45        54
## 5        35        39        23        60
## 6        19        18        25        34
tail(csv) #enam data terbawah
##    variabel1 variabel2 variabel3 variabel4
## 21        43        26        32        39
## 22        46        40        35        49
## 23        17        23        31        55
## 24        12        34        29        36
## 25        28        27        37        43
## 26        19        28        32        60
head(excel)
## # A tibble: 6 × 4
##   variabel1 variabel2 variabel3 variabel4
##       <dbl>     <dbl>     <dbl>     <dbl>
## 1        48        25        22        35
## 2        38        26        47        41
## 3        47        29        39        49
## 4        31        27        45        54
## 5        35        39        23        60
## 6        19        18        25        34
tail(excel)
## # A tibble: 6 × 4
##   variabel1 variabel2 variabel3 variabel4
##       <dbl>     <dbl>     <dbl>     <dbl>
## 1        43        26        32        39
## 2        46        40        35        49
## 3        17        23        31        55
## 4        12        34        29        36
## 5        28        27        37        43
## 6        19        28        32        60

Proses instal install.packages() hanya perlu dilakukan sekali, tetapi proses memuat paket tambahan library() harus dilakukan setiap saat sebelum bekerja dengan data yang ada.

Data yang sudah dimuat dapat langsung digunakan. Tetapi kita bisa memodifikasi data yang ada di RStudio jika diperlukan.

Modifikasi Data

Modifikasi data dapat dilakukan di RStudio, modifikasi data yang umum dilakukan adalah mengganti nama kolom (header) dan menambahkan kolom baru.

# Mengganti nama kolom
names(csv)[names(csv)=="variabel2"] <- "dua" #satu kolom
head(csv)
##   variabel1 dua variabel3 variabel4
## 1        48  25        22        35
## 2        38  26        47        41
## 3        47  29        39        49
## 4        31  27        45        54
## 5        35  39        23        60
## 6        19  18        25        34
# atau
names(excel)[3] <- "tiga" #satu kolom
head(excel)
## # A tibble: 6 × 4
##   variabel1 variabel2  tiga variabel4
##       <dbl>     <dbl> <dbl>     <dbl>
## 1        48        25    22        35
## 2        38        26    47        41
## 3        47        29    39        49
## 4        31        27    45        54
## 5        35        39    23        60
## 6        19        18    25        34
# atau
names(csv) <- c("var1", "var2", "var3", "var4") #semua (empat) kolom sekaligus
head(csv)
##   var1 var2 var3 var4
## 1   48   25   22   35
## 2   38   26   47   41
## 3   47   29   39   49
## 4   31   27   45   54
## 5   35   39   23   60
## 6   19   18   25   34
# atau
colnames(excel) <- c("var_1", "var_2", "var_3", "var_4") #semua (empat) kolom sekaligus
head(excel)
## # A tibble: 6 × 4
##   var_1 var_2 var_3 var_4
##   <dbl> <dbl> <dbl> <dbl>
## 1    48    25    22    35
## 2    38    26    47    41
## 3    47    29    39    49
## 4    31    27    45    54
## 5    35    39    23    60
## 6    19    18    25    34
# Menambahkan kolom baru
csv$var5 <- csv$var1+csv$var2
head(csv)
##   var1 var2 var3 var4 var5
## 1   48   25   22   35   73
## 2   38   26   47   41   64
## 3   47   29   39   49   76
## 4   31   27   45   54   58
## 5   35   39   23   60   74
## 6   19   18   25   34   37
# atau
excel["var_5"] <- sample(100, size = nrow(csv), replace = TRUE)
head(excel)
## # A tibble: 6 × 5
##   var_1 var_2 var_3 var_4 var_5
##   <dbl> <dbl> <dbl> <dbl> <int>
## 1    48    25    22    35    83
## 2    38    26    47    41    73
## 3    47    29    39    49    47
## 4    31    27    45    54    33
## 5    35    39    23    60    92
## 6    19    18    25    34    89

Penggantian nama header dan penambahan kolom baru juga dapat dilakukan dengan menggunakan paket tambahan "dplyr", seperti di bawah ini.

# Instal paket tambahan
install.packages("dplyr")

# Memuat paket tambahan
library("dplyr")

# Mengganti nama kolom
csv <- rename(csv, c("variabel1"="var1", "variabel5"="var5"))
head(csv)
##   variabel1 var2 var3 var4 variabel5
## 1        48   25   22   35        73
## 2        38   26   47   41        64
## 3        47   29   39   49        76
## 4        31   27   45   54        58
## 5        35   39   23   60        74
## 6        19   18   25   34        37
# Menambahkan kolom baru
excel <-  excel %>% mutate(var_6 = var_2+var_4)
tail(excel)
## # A tibble: 6 × 6
##   var_1 var_2 var_3 var_4 var_5 var_6
##   <dbl> <dbl> <dbl> <dbl> <int> <dbl>
## 1    43    26    32    39    37    65
## 2    46    40    35    49    89    89
## 3    17    23    31    55    33    78
## 4    12    34    29    36    49    70
## 5    28    27    37    43    50    70
## 6    19    28    32    60    53    88

Banyak cara yang dapat digunakan untuk mendapatkan hasil yang sama, oleh karena itu pilihlah cara yang menurut anda mudah dipahami.

Jika data sudah sesuai dengan kebutuhan, maka data siap digunakan untuk analisis lebih lanjut.

Session Info:

## R version 4.3.2 (2023-10-31 ucrt)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 10 x64 (build 19045)
## 
## Matrix products: default
## 
## 
## locale:
## [1] LC_COLLATE=English_United States.utf8 
## [2] LC_CTYPE=English_United States.utf8   
## [3] LC_MONETARY=English_United States.utf8
## [4] LC_NUMERIC=C                          
## [5] LC_TIME=English_United States.utf8    
## 
## time zone: Asia/Jakarta
## tzcode source: internal
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
## [1] dplyr_1.1.4  readxl_1.4.3
## 
## loaded via a namespace (and not attached):
##  [1] vctrs_0.6.5       cli_3.6.2         knitr_1.45        rlang_1.1.3      
##  [5] xfun_0.42         generics_0.1.3    jsonlite_1.8.8    glue_1.7.0       
##  [9] htmltools_0.5.7   sass_0.4.8        fansi_1.0.6       rmarkdown_2.25   
## [13] cellranger_1.1.0  evaluate_0.23     jquerylib_0.1.4   tibble_3.2.1     
## [17] fastmap_1.1.1     yaml_2.3.8        lifecycle_1.0.4   compiler_4.3.2   
## [21] pkgconfig_2.0.3   rstudioapi_0.15.0 digest_0.6.34     R6_2.5.1         
## [25] tidyselect_1.2.0  utf8_1.2.4        pillar_1.9.0      magrittr_2.0.3   
## [29] bslib_0.6.1       withr_3.0.0       tools_4.3.2       cachem_1.0.8