Terhubung dengan data adalah hal paling mendasar dalam proses olah data (Data Science). Pada bagian ini akan dibahas bagaimana proses antarmuka data yang paling sederhana dengan menggunakan R. Secara garis besar R dapat membaca data dari file yang disimpan di dalam maupun di luar direktorinya. Selain itu, sistem operasi R juga dapat menyimpan dan membaca data dalam format file seperti csv, excel, txt, rds, xml, json, dll.
Impor/Ekspor CSV
Terdapat beberapa cara yang dapat dilakukan untuk impor/ekspor data dengan R. Berikut ini diperlihatkan 3 cara yang paling sering digunakan dalam proses antarmuka data.
Cara 1
Pertama - tama, pastikan direktori kerja anda dalam koneksi yang benar, periksalah dengan menggunakan fungsi getwd(). Kemudian anda dapat mengaturdirektori baru menggunakan fungsi setwd().
print(getwd())
## [1] "D:/Fisika Medis/Algoritma dan Struktur Data/Tugas 10"
getwd()
## [1] "D:/Fisika Medis/Algoritma dan Struktur Data/Tugas 10"
setwd(getwd())# Impor Data csvdf1 <-read.csv("Input/input1.csv",sep =",") # format pemisah komadf2 <-read.csv("Input/input2.csv",sep =";") # format pemisah titik koma# Ekpor Data csvwrite.csv(df1,"Output/output1.csv", row.names =FALSE)write.csv(df2,"Output/output2.csv", row.names =FALSE)
Cara 2
Bagi anda yang lebih menyukai koneksi direktori secara otomatis, cara ini adalah pilihan yang lebih bijak dan praktis
(Ya <-getwd())
## [1] "D:/Fisika Medis/Algoritma dan Struktur Data/Tugas 10"
Cara ini adalah cara alternatif bagi anda yang lebih nyaman untuk memilih data yang tersimpan di komputer (PC) tanpa harus melakukan pengaturan direktori terlebih dahulu sebelum melakukan proses impor data.
df<-read.csv(file.choose())
Impor/Ekspor Excel
Microsoft Excel adalah program spreadsheet yang paling banyak digunakan yang mwnyimpan data dalam format .xls atau .xlsx. R dapat membaca langsung dari file-file ini menggunakan paket readxl
Format data paling umum yang sering digunakan untuk impor/ekspor data adalah file csv dan xlsx. Namun ukuran file CSV dan XLSX cenderung lebih besar dibandingkan format yang lainnya seperti TXT atau file binEr R (RDS). Sehingga ini akan membutuhkan tambahan waktu pada saat anda melakukan impor/ekspor data. Tips yang sangat saya rekomendasikan dalam hal ini adalah mengimpor dan eksper data tersebut dengan dengan format TXT atau binary
XML adalah kumpulan berbagai format file dan data di World Wide Web, internet, dan di tempat lain menggunakan teks ASCII standar. XML adalah singkatan dari eXtensible Markup Language.
Sebenarnya XML sangat mirip dengan HTML, dimana sintak-sintaknya berisi markup. Tetapi, perlu dicatat bahwa XML tidak sama dengan hal tag markup HTML yang menjelaskan laman struktur datanya terdapat dalam file tersebut.
Selanjutnya, mari kita lakukan impor/ekspor data dengan format XML
pacman::p_load(XML,kulife,methods) # Load packageslibrary("XML") # load paket XMLlibrary("kulife") # load paket kulifelibrary("methods") # paket kondisionaldf9<-xmlParse('Input/input9.xml') # Impor data XMLxml_df<-xmlToDataFrame(df9) # Konversi dataframewrite.xml(xml_df,'Output/File9.xml') # Ekspor data XML
Impor/Ekspor JSON
File JSON menyimpan data sebagai text dalam format yang dapat dibaca oleh manusia. JSON adalah singkatan dari JavaScript Object Notation. R dapat membaca file JSON menggunakan paket jsonlite
library("jsonlite")df10<-fromJSON('Input/input10.json') # Impor data JSONjson_df<-as.data.frame(df10) # Konversi dataframewrite_json(json_df,'Output/File10.json') # Ekspor data JSON
Impor Data dari Web
Ada banyak website menyediakan data untuk dikonsumsi oleh penggunanya. Dengan menggunakan program R, kita dapat mengekstrak data spesifik dari situs web tersebut secara terprogram. Dibagian ini saya memberi contoh cara mengimpor data dari repositori GitHub, tetapi, anda dapat melakukan hal yang sama ke situs web atau repositori lain.
# CSVweb_csv<-read.csv("https://github.com/Bakti-Siregar/dataset/raw/master/Bookdown-Data-Science-for-Beginners/csv1.csv")# XLSXpacman::p_load(rio) # Instal Packagelibrary(rio) # Import Data dari GitHubinstall_formats() # Periksa auto paket yang di sarankan
Sistem basis data adalah data relasional yang disimpan dalam format yang dinormalisasi. Untuk melakukan komputasi statistik dibutuhkan query SQL yang sangat canggih dan kompleks. Tetapi R dapat dengan mudah terhubung ke banyak database relasional seperti MySql, Oracle, SQL, Server, dll. Selanjutnya biasanya, kita akan mengubah basis data tersebut menjadi bingkai data (Data Frame). Setelah data tersedia di lingkungan R, kemudian dimanipulasi atau dilakukan analisis lebih lanjut.
Menambang Data Web
Pengikisan dari data web (Webscraping Data) adalah proses menggunakan bot yang mengesktrak konten dan data dari situs web. Tidak seperti screen scraping, yang hanya menyalin piksel yang ditampilkan di layar, web scraping mengekstrak kode HTML yang mendasarinya yang pada dasarnya di simpan dalam data base. Pengikisan data ini dapat mereplikasi seluruh konten dari berbagai situs web yang ditargetkan.