Algoritma & Struktur Data

antarmuka data

Kontak	: \(\downarrow\)
Email	ali.19arifin@gmail.com
Instagram	https://www.instagram.com/arifin.alicia/
RPubs	https://rpubs.com/aliciaarifin/

csv

cara 1

getwd() untuk memeriksa direktori kerja. setwd() untuk mengatur ulang direktori kerja jika getwd() beda dari yang diinginkan.

print(getwd())

## [1] "C:/Users/arifi/Documents/data"

setwd(getwd())

# impor

# , untuk data yang dalam satu baris
# ; untuk data yang bentuk

hai = read.csv("input/input1.csv", sep = ",")

hello = read.csv("input/input2.csv", sep=";")

# ekspor atau simpan ke dalam komputer

write.csv(hai,"output/eyoeyo1.csv", row.names= FALSE)

write.csv(hello, "output/wingggg2.csv", row.names= FALSE)

cara 2

koneksi direktori secara otomatis

(WD <- getwd())

## [1] "C:/Users/arifi/Documents/data"

if (!is.null(WD)) setwd(WD)

# impor
df1 <- read.csv(file.path(WD, "input", 'input1.csv'))
df2 <- read.csv(file.path(WD, "input", 'input2.csv'))


# ekspor

write.csv(df1, file.path(WD, "output", "output1"))
write.csv(df2, file.path(WD, "output", "output2"))

cara 3

tidak perlu melakukan direktori, langsung pilih file dari pc. lalu untuk ekspor data sama seperti cara 1 menggunakan write.csv .

# df3 = read.csv(file.choose())
# untuk pilih datanya

Exel

# install package readxl, writexl, dan pacman
pacman::p_load(readxl,writexl)

# import
df3= read_excel('input/input4.xls')

df4= read_excel("input/input3.xlsx", sheet=1)

# xls = < 2003
# xlsx = > 2003

#ekspor
write_xlsx(df3, "output/output3.xls")
write_xlsx(df4, "output/output4.xlsx")

TXT dan RDS

TXT atau file biner R (RDS) sebenernya sama seperti excel atau csv, tetapi ukuran file TXT atau RDS lebih kecil. Sehingga, akan mempengaruhi kecepatan impor/ekspor data.

getwd()

## [1] "C:/Users/arifi/Documents/data"

setwd(getwd())
# import
df5 = read.table("input/input5.txt")   # TXT (notepad) 
df6 = source("input/input6.Rdmpd") 
df7 = readRDS("input/input7.rds")   # binary RDS
df8 = readRDS("input/input8.ascii") # binary ASCII

# ekspor
write.table(df5, "output/output5.txt")
dump("df6", "output/output6.rmpd")
saveRDS(df7, 'output/output7.rds')
saveRDS(df8, 'output/output8.ascii', ascii=TRUE)

format binary itu wajar digunakan untuk mengkompres file yang besar.

XML

XML merupakan kumpulan berbagi format file dan data di WWW, dan di tempat lainnya yang menggunakan teks ASCII standar.

# install XML, kulife, dan methods terlebih dahulu.
library("XML")
library("kulife")
library("methods")

#impor
df9 <- xmlParse('input/input9.xml')

# ubah data menjadi data frame
xml_df <- xmlToDataFrame(df9)

write.xml(xml_df, "output/output9.xml")

JSON

JSON merupakan singkatan dari JavaScript Object Notation. untuk membaca file JSON bisa menginstall jsonlite.

# install.packages('jsonlite')
library(jsonlite)

df10<- fromJSON("input/input10.json")
dfjson = as.data.frame(df10)

write_json(dfjson, "output/output10.json")

import data dari web

mengekstrak data dari situs web.

CSV

ekstrak data file csv

web_csv <- read.csv("https://github.com/Bakti-Siregar/dataset/raw/master/Bookdown-Data-Science-for-Beginners/csv1.csv")

XLSX

ekstrak data xlsx, pertama-tama install package rio.

# install.packages("rio")
library(rio)
install_formats() # periksa auto paket yang disarankan

## [1] TRUE

web_xlsx <- rio::import("https://github.com/Bakti-Siregar/dataset/blob/master/Bookdown-Data-Science-for-Beginners/xlsx1.xlsx?raw=true")

Basis Data R

Sistem basis data adalah data relasional yang disimpan dalam format yang dinormalisasi. R dapat terhubung dengan mudah ke banyak database relasional, seperti MySql, Oracle, SQL, dan lain-lain. Selanjutnya, kita mengubah data tersebut menjadi dataframe. Setelah itu, baru data tersebut bisa dilakukan manipulasi atau melewati proses analisis.

Menambang Data Web

Menambang Data web atau webscraping data adalah proses menggunakan bot untuk mengekstrak konten dan data dari situs web. webscraping mengekstrak kode HTML yang mendasari yang disimpan dalam database.