Algoritma & Struktur Data
Antarmuka Data
| Kontak | : \(\downarrow\) |
| clara.evania@student.matanauniversity.ac.id | |
| https://www.instagram.com/claraevania/ | |
| RPubs | https://rpubs.com/claradellaevania/ |
Pendahuluan
Dalam Proses mengolah Data atau Data Science, hal terpenting atau mendasar yang harus dilakukan adalah menghubungkan dengan data yang ada. Data-Data tersebut disimpan dalam berbagai format file seperti csv,excel,txt,xml,rds,json,dll. Untuk menginput data-data tersebut kita dapat menggunakan R karena R dapat membacara data dari file yang disimpan didalam direktori maupun diluar direktorinya. Maka dari itu, untuk mempermudah dalam menginput data yang sudah ada kedalam R dapat menggunakan beberapa cara yang ada.
Antarmuka Data
Impor/Ekspor CSV
Cara 1
Kita Bisa mendapatkan atau menemukan direktori di r dengan mengunakan fungsi getwd()
print(getwd())## [1] "C:/Users/DELLA/OneDrive/Desktop/Data"
getwd()## [1] "C:/Users/DELLA/OneDrive/Desktop/Data"
setwd(getwd())
# Proses Impor Data SCV menggunakan fungsi read.csv()
df1 <-read.csv("Input/input1.csv",sep = ",") # format pemisah koma
df1df2 <-read.csv("Input/input2.csv",sep = ";") # format pemisah titik koma
df2# Proses Ekspor Data SCV menggunakan fungsi write.csv()
write.csv(df1,"Output/output1.csv", row.names = FALSE)
write.csv(df2,"Output/output2.csv", row.names = FALSE) Cara 2
Cara ini merupakan cara yang lebih praktis jika lebih menyukai direktori secara otomatis
# Setting Direktori
(WD = getwd())## [1] "C:/Users/DELLA/OneDrive/Desktop/Data"
if (!is.null(WD)) setwd(WD)# Import Data
df_1=read.csv(file.path(WD,'Input','input1.csv'))
df_1df_2=read.csv(file.path(WD,'Input','input2.csv'))
df_2# Ekspor Data
write.csv(df_1,file.path('Output','output1.csv'), row.names = FALSE)
write.csv(df_2,file.path('Output','output2.csv'), row.names = FALSE)Cara 3
Cara ini merupakan cara yang paling mudah karena tanpa harus meakukan pengaturan direktori sebelum impor data.
df_3= read.csv(file.choose())
df_3Import/Ekspor Data Excel
Spreadsheet Excel ini menyimpan data dalam format .xls atau .xlsx
#install.packages(c("readxl", "writexl")) # install `readxl & writexl`
pacman::p_load(readxl, writexl) # load `readxl & writexl`
# impor data
df3=read_excel("Input/input4.xls") # impor data xls (97-2003)
df3df4=read_excel("Input/input3.xlsx",sheet=1) # impor data xlsx (2003-up)
df4# ekspor data
write_xlsx(df3,"Output/output3.xls")
write_xlsx(df4,"Output/output4.xlsx")Impor/Ekspor TXT dan RDS
File CSV dan XLSX memiliki ukuran lebih besar dibanding TXT atau RDS. Maka dari itu, untuk mempermudah import/ekspor dapat menggunakan format TXT atau binary
IMPORT DATA
df5 = read.table("Input/input5.txt") # format TXT (notepad)
df5df6 = source("Input/input6.Rdmpd") # format TXT (Rdmpd)
df6## $value
## id name salary start_date dept
## 1 1 Julian 623,3 1/1/2022 DS
## 2 2 Vanessa 515,2 9/23/2022 DS
## 3 3 Jeffry 611 11/15/2022 BA
## 4 4 Angel 729 5/11/2022 DA
## 5 5 Nikki 843,25 3/27/2022 DS
## 6 6 Ardifo 578 5/21/2022 Actuaries
## 7 7 Irene 722,5 7/30/2022 Actuaries
## 8 8 Kefas 632,8 6/17/2022 CA
## 9 9 Sherly 632,8 7/30/2022 DE
## 10 10 Bakti <NA> 9/3/2018 Lecturer
##
## $visible
## [1] FALSE
df7 = readRDS("Input/input7.rds") # format binary RDS
df7df8 = readRDS("Input/input8.ascii") # format binary ASCII
df8EKSPOR DATA
write.table(df5,"Output/output5.txt")
dump("df6", "Output/output6.Rdmpd")
saveRDS(df7,"Output/output7.Rds")
saveRDS(df8,"Output/output8.ascii",ascii = TRUE)Impor/Ekspor XML
XML berfungsi dalam menyederhanakan proses penyimpanan dan pengiriman data antar server. XML meruakan kumpuan format file dan data dalam World Wide Web. XML merupakan singkatan dari Extensible Markup Languange.XML dengan HTML tidak sama dalam hal tag markup.
IMPORT DATA
library("XML") # load package XML
library("kulife") # load Package kulife
library("methods") # package kondisional
df9 = xmlParse("Input/input9.xml") # impor data XML
xml9_df = xmlToDataFrame(df9) # Konversi ke dalam DataFrame
xml9_dfEKSPOR DATA
write.xml(xml9_df,"Output/output9.xml")Impor/Ekspor JSON
JSON atau JavaScript Object Notation merupakan format yang digunakan dalam menyimpan dan mentransfer data.Dalam R, file JSON menggunakan package jsonlite
IMPORT DATA
library("jsonlite") # load Package JSON
df10 = fromJSON("Input/input10.json") # Impor Data
json_df10 = as.data.frame(df10) # Mengkonversi ke DataFrame
json_df10EKSPOR DATA
write_json(json_df10,"Output/output10.json") # Ekspor Data JSONImpor Data dari Web
Tidak Hanya dari file yang sudah ada di Laptop/Computer, dalam mengimpor data juga bisa melalui WEB. Kita dapat mengekstrak data dari situs web secara terprogram menggunakan program R
CSV
Web_CSV = read.csv("https://github.com/Bakti-Siregar/dataset/raw/master/Bookdown-Data-Science-for-Beginners/csv1.csv")
Web_CSVXLSX
library(rio) # Mengimport Data from Github
install_formats() # Memeriksa packages yang disarankan## [1] TRUE
Web_XLSX = rio::import("https://github.com/Bakti-Siregar/dataset/blob/master/Bookdown-Data-Science-for-Beginners/xlsx1.xlsx?raw=true")
Web_XLSXBasis Data R
Sistem Basis Data merupakan data relasional yang disimpan dalam format yang dinormalisasi.Dalam melakukan Komputasi Statistik, dibutuhkan query SQl yang canggih dan kompleks, namun R dapat terhubung ke banyak database relasional dengan mudah seperti MySql, SQL Server,dll. Lalu mengubah basis data tersebut menjadi data frame yang kemudian dilakukan analisis.
Menambang Data Web
Webscraping Data merupakan proses mengekstrak konten dan data dari sebuah situs web. Jadi Web Scraping mengekstrak kode HTML yang pada dasarnya disimpan dalam database.
Referensi :