
Pendahuluan
Transformasi data adalah teknik dalam pemrosesan data yang bertujuan
untuk mengubah format, struktur, atau nilai data agar lebih sesuai untuk
analisis, eksplorasi, dan pemodelan. Beberapa alasan utama transformasi
data adalah:
- Menstabilkan Variansi – Data dengan skala yang
sangat berbeda dapat menyebabkan model menjadi tidak stabil atau sulit
dipahami. Dengan transformasi, distribusi data dapat disesuaikan agar
lebih seragam.
- Mengurangi Skewness – Data sering kali memiliki
distribusi yang miring (skewed), yang dapat mempengaruhi performa model
statistik. Transformasi dapat membantu mendekatkan distribusi ke bentuk
normal.
- Menangani Outlier – Outlier atau nilai ekstrem
dapat mendistorsi hasil analisis dan pemodelan. Teknik transformasi
dapat membantu mengurangi pengaruhnya.
- Mengubah Data Kategorikal – Data kategorikal tidak
dapat langsung digunakan dalam banyak algoritma machine learning,
sehingga perlu diubah menjadi bentuk numerik.
- Mendeteksi Pola Musiman dan Tren – Dalam analisis
deret waktu, transformasi membantu mengidentifikasi pola musiman dan
tren dengan lebih jelas.
- Mengurangi Dimensi Data – Ketika dataset memiliki
terlalu banyak variabel, analisis menjadi sulit dan memakan waktu.
Teknik seperti Principal Component Analysis (PCA) membantu
menyederhanakan struktur data tanpa kehilangan informasi penting.
Laporan ini akan membahas berbagai teknik transformasi data.
Transformasi Data
3. Scaling & Normalization
3.1 Standardization (Z-score)
Proses mengubah variabel numerik yang memiliki skala berbeda menjadi
skala yang sama dengan rata-rata 0 dan deviasi standar 1.
# Z-score Normalization
Z_score <- health_data %>%
mutate(
Age_Z = scale(age),
BMI_Z = scale(bmi),
Blood_Pressure_Z = scale(blood_pressure),
Cholesterol_Z = scale(cholesterol),
Glucose_Z = scale(glucose)
)
Penjelasan Kode
| scale(Age) |
Menstandarkan usia agar berada dalam skala satuan. |
| scale(BMI) |
Menstandarkan nilai indeks massa tubuh (IMT). |
| scale(Blood_Pressure) |
Menstandarkan tekanan darah agar tidak dominan karena skalanya
besar. |
| scale(Cholesterol) |
Menstandarkan kolesterol agar setara dengan fitur lain. |
| scale(Glucose) |
Menstandarkan glukosa agar adil dalam model prediksi. |
| scale(Heart_Rate) |
Menstandarkan detak jantung agar memiliki skala yang sama. |
Interpretasi Kesehatan
| Age_std |
Membantu melihat pengaruh usia tanpa dipengaruhi oleh rentang besar
pada data usia. |
| BMI_Std |
Membantu mendeteksi pasien dengan risiko obesitas yang memengaruhi
tekanan darah. |
| bloodpreasure_Std |
Membuat tekanan darah menjadi fitur yang sebanding untuk prediksi
atau klasifikasi. |
| kolestrol_std |
Menyetarakan pengaruh kolesterol dalam model prediksi
hipertensi. |
| Glukosa_std |
Memungkinkan pengaruh glukosa diamati secara proporsional tanpa bias
skala. |
| Heartrate_std |
Mempermudah analisis tren detak jantung terhadap kondisi lain secara
setara. |
Kesimpulan
Variabel-variabel seperti Age, BMI, Blood Pressure, Cholesterol,
Glucose, dan Heart Rate yang sebelumnya memiliki rentang skala yang
sangat berbeda sekarang ada di skala yang sama. Penskalaan ini bisa
membantu model machine learning untuk tidak cenderung menganggap satu
fitur lebih penting daripada yang lain hanya karena memiliki rentang
yang lebih besar.
Dalam mendeteksi pasien yang memiliki faktor risiko dalam
mempengaruhi tekanan darah yang akan mengakibatkan hipertensi bisa
diliat dari nilai BMI, kolestrol dan glukosa. ketiga fitur itu memiliki
rentang skala yang berbeda beda ada yang di puluhan ataupun ratusan.
Model mechine learning akan memberi bobot pada fitur kolestrol karena
memiliki rentang yang besar. Setelah di skala ketiga fitur itu ada di
skala satuan. Disini model bisa menilai dari ketiga fitur tersebut
apakah bisa mempengaruhi tekanan darah tinggi atau tidak yang akan
mengakibatkan hipertensi.
Kekurangan Skala ini masih terpengaruh terhadap outlier dibandingkan
dengan Robust Scaler.
3.2 Robust Scaler
Proses merubah variabel numerik yang memiliki skala berbeda menjadi
skala yang sama dalam dataset dan tahan terhadap outlier. Namun, masih
terpengaruhi oleh nilai yang sangat ekstrim. Penskalaan ini diperkuat
dengan median dan IQR dari tiap fitur.
# RobustScaler
Robust <- health_data %>%
mutate(
Age_robust = (age - median(age)) / IQR(age),
BMI_robust = (bmi - median(bmi)) / IQR(bmi),
BloodPressure_robust = (blood_pressure - median(blood_pressure)) / IQR(blood_pressure),
Cholesterol_robust = (cholesterol - median(cholesterol)) / IQR(cholesterol),
Glucose_robust = (glucose - median(glucose)) / IQR(glucose),
HeartRate_robust = (heart_rate - median(heart_rate)) / IQR(heart_rate)
)
Penjelasan Kode
| (age - median(age)) / IQR(age) |
Menstandarkan usia berdasarkan median dan IQR agar tidak dipengaruhi
outlier. |
| (bmi - median(bmi)) / IQR(bmi) |
Menyesuaikan nilai BMI ke skala yang lebih netral terhadap nilai
ekstrem. |
| (blood_pressure - median(…)) / IQR(…) |
Mengubah tekanan darah ke skala yang stabil dan tahan terhadap
lonjakan nilai. |
| (cholesterol - median(…)) / IQR(…) |
Mengatur kolesterol agar setara skalanya dengan fitur lain meskipun
outlier ada. |
| (glucose - median(…)) / IQR(…) |
Menormalkan kadar gula darah agar tidak didominasi oleh nilai
ekstrem. |
| (heart_rate - median(…)) / IQR(…) |
Menstabilkan nilai detak jantung untuk analisis komparatif antar
pasien. |
Interpretasi Kesehatan
| Age_robust |
Usia pasien kini distandarisasi tanpa dipengaruhi ekstrem umur yang
terlalu muda atau tua. Berguna untuk model prediktif yang sensitif
terhadap variasi usia. |
| BMI_robust |
Menilai risiko kelebihan berat badan terhadap hipertensi secara adil
dan netral. |
| BloodPressure_robust |
Memberi gambaran tekanan darah yang adil saat dibandingkan antar
pasien dengan data bervariasi. |
| Cholesterol_robust |
Menghindari bias model terhadap pasien dengan kadar kolesterol
sangat tinggi. |
| Glucose_robust |
Memastikan model melihat pola kadar glukosa tanpa tertipu nilai yang
terlalu ekstrem. |
| HeartRate_robust |
Menjadikan detak jantung setara secara skala dengan fitur lain untuk
analisis prediksi kesehatan jantung. |
Kesimpulan
Sama hal nya dengan Skala Standarisasi, Robust scaler memiliki skala
yang lebih kecil dibanding dengan Skala (standarisasi) karena median dan
IQR tidak dipengaruhi oleh nilai ekstrem yang jauh dari distribusi data
lainnya. Ini menjadikannya lebih stabil saat data memiliki outlier.
Ini membuat model mampu mengevaluasi pengaruh BMI, kolesterol, dan
glukosa secara adil terhadap tekanan darah, baik sistolik maupun
diastolik. Akhirnya, ini mendukung proses deteksi risiko hipertensi
dengan pendekatan statistik yang lebih akurat dan tidak bias.
3.3 Normalization
Proses merubah skala dalam rentang tertentu umumnya 0-1 dengan
menggunakan nilai minimum dan maksimum yang menghasilkan keseimbangan
data. Normalisasi ini akan sangat terpengaruh oleh nilai ekstrem.
# Min-Max Normalization
Min_Max <- health_data %>%
mutate(
Age_Norm = (Age - min(Age, na.rm = TRUE)) / (max(Age, na.rm = TRUE) - min(Age, na.rm = TRUE)),
BMI_Norm = (BMI - min(BMI, na.rm = TRUE)) / (max(BMI, na.rm = TRUE) - min(BMI, na.rm = TRUE)),
Blood_Pressure_Norm = (Blood_Pressure - min(Blood_Pressure, na.rm = TRUE)) / (max(Blood_Pressure, na.rm = TRUE) - min(Blood_Pressure, na.rm = TRUE)),
Cholesterol_Norm = (Cholesterol - min(Cholesterol, na.rm = TRUE)) / (max(Cholesterol, na.rm = TRUE) - min(Cholesterol, na.rm = TRUE)),
Glucose_Norm = (Glucose - min(Glucose, na.rm = TRUE)) / (max(Glucose, na.rm = TRUE) - min(Glucose, na.rm = TRUE))
)
Penjelasan Kode
| (x - min(x)) / (max(x) - min(x)) |
Mengubah skala data agar berada dalam rentang 0 hingga 1, tanpa
mengubah bentuk distribusi aslinya. Berguna untuk algoritma machine
learning yang sensitif terhadap skala, seperti KNN dan SVM. |
| na.rm = TRUE |
Mengabaikan nilai missing agar proses normalisasi tetap berjalan
tanpa error. |
Interpretasi Kesehatan
| Age_Norm |
Mengonversi umur pasien ke skala 0–1 untuk memastikan model tidak
bias terhadap rentang usia yang luas. |
| BMI_Norm |
Memastikan nilai indeks massa tubuh dibandingkan secara adil dengan
fitur lain. |
| Blood_Pressure_Norm |
Menstandarkan tekanan darah agar bisa dibandingkan langsung dengan
variabel lain dalam model prediktif. |
| Cholesterol_Norm |
Membuat kadar kolesterol dapat diinterpretasikan dalam skala
seragam. |
| Glucose_Norm |
Membantu dalam menyeimbangkan fitur glukosa dengan fitur lainnya
tanpa memperbesar bobotnya. |
Kesimpulan
Sama hal nya dengan Scaling, normalisasi ini untuk merubah rentang
agar model bisa menganggap data di setiap fitur nya memiliki bobot yang
sama. Hanya saja jika normalisasi dalam rentang diantara 0 sampai 1.
Sedangkan, skala masih ada nilai yang rentang diatas nilai 1.
Kelebihan dalam normalisasi yaitu menjaga data dalam rentang yang
seragam tanpa dipengaruhi outlier secara ekstrem. dan Kelemahannya yaitu
sangat sensitif terhadap outlier, karena min() dan max() bisa
terpengaruh nilai ekstrem.
4. Kategorial Encoding
4.1 One-Hot Encoding
One-hot encoding adalah metode transformasi variabel kategorik
menjadi bentuk numerik biner (0/1) agar bisa digunakan dalam analisis
statistik atau machine learning.
Kelebihan:
- Menghilangkan makna ordinal dari kategori (tidak mengasumsikan
urutan).
- Cocok untuk algoritma yang tidak bisa menangani data kategorik
secara langsung.
Kekurangan:
- Menambah jumlah fitur secara signifikan (terutama jika kategori
banyak).
- Bisa menyebabkan curse of dimensionality.
Contoh Penggunaan dalam R:
categorical_cols <- names(health_data)[sapply(health_data, function(x) is.factor(x) || is.character(x))]
one_hot <- dummy_cols(
health_data,
select_columns = categorical_cols,
remove_first_dummy = TRUE,
remove_selected_columns = TRUE
)
Penjelasan Fungsi
| dummy_cols() |
Membuat kolom dummy dari data kategorik. |
| remove_first_dummy = TRUE |
Menghindari dummy variable trap (multikolinearitas) dengan menghapus
satu kategori. |
| remove_selected_columns = TRUE |
Menghapus kolom kategorik asli dari dataset. |
Interpretasi Kesehatan:
| Location_Bandung = 1 |
Pasien berasal dari Bandung. |
| Health_Condition_Diabetes = 1 |
Pasien memiliki kondisi diabetes. |
Kesimpulan:
Transformasi ini mempermudah penggunaan data kategorik dalam
model prediksi dan analisis statistik.
Menghindari kesalahan interpretasi urutan pada variabel
kategorik.
Cocok digunakan bersama metode statistik dan machine learning
modern.
4.2 Frequency Encoding
Frequency encoding adalah metode pengkodean data kategorik dengan
mengganti setiap kategori dengan frekuensinya dalam data. Artinya, nilai
kategori yang lebih sering muncul akan mendapatkan nilai numerik yang
lebih tinggi.
Kelebihan:
Tidak menambah dimensi seperti one-hot encoding.
Menyimpan informasi distribusi kategori.
Efisien untuk dataset dengan banyak kategori unik.
Kekurangan:
Contoh Penggunaan dalam R:
# Fungsi frequency encoding
freq_enc <- function(col) {
tab <- table(col)
return(as.numeric(tab[col]) / length(col))
}
# Pastikan kolom lowercase
colnames(health_data) <- tolower(colnames(health_data))
# Kolom yang ingin di-encode
target_cols <- c("year", "location", "health_condition")
available_cols <- intersect(target_cols, colnames(health_data))
# Encoding frekuensi
Frequency <- health_data %>%
mutate(across(all_of(available_cols), ~ freq_enc(.), .names = "{.col}_freq"))
Penjelasan Fungsi
| table(col) |
Menghitung jumlah kemunculan tiap kategori. |
| as.numeric(tab[col]) / length(col) |
Mengubah nilai kategori menjadi proporsi kemunculannya. |
| across(…, .names = “{.col}_freq”) |
Menambahkan nama kolom hasil encoding. |
Interpretasi Kesehatan:
| location_freq = 0.30 |
Lokasi tersebut muncul sebanyak 30% dari total data. |
| health_condition_freq = 0.10 |
Kondisi kesehatan tersebut hanya muncul di 10% data. |
Kesimpulan:
Frequency encoding memberikan bobot proporsional terhadap
kemunculan kategori.
Lebih ringan secara komputasi dibanding one-hot encoding, namun
tetap menyimpan makna statistik dari data kategorik.
Cocok digunakan dalam model linear dan tree-based seperti Random
Forest dan XGBoost.
5. Feature Engineering
Feature engineering adalah proses menciptakan fitur-fitur baru dari
data yang ada untuk meningkatkan performa model machine learning. Salah
satu teknik yang sering digunakan adalah interaction features,
yaitu menggabungkan dua atau lebih fitur untuk membentuk fitur baru yang
bisa menangkap hubungan nonlinier antar variabel.
5.1 Interaction Features
Interaction features dibuat dengan mengalikan atau menggabungkan dua
fitur untuk merepresentasikan hubungan antara keduanya. Dalam kasus ini,
dibuat fitur interaksi antara umur (age) dan BMI (Body Mass
Index) untuk melihat dampak gabungan usia dan berat badan terhadap
kesehatan.
Contoh Kode R:
# Simpan nama kolom BMI ke variabel
bmi_col <- grep("bmi|imt", colnames(health_data), value = TRUE)[1]
# Buat interaksi antara age dan BMI
data_interaction <- health_data %>%
mutate(
Age_BMI_Impact = age * .data[[bmi_col]]
)
Penjelasan Fungsi
| grep(“bmi |
imt”, …) |
| age * .data[[bmi_col]] |
Mengalikan umur dan BMI untuk membuat fitur baru
Age_BMI_Impact. |
| mutate() |
Menambahkan fitur baru ke dalam data. |
Kesimpulan:
- Fitur interaksi berguna untuk mengungkap relasi tersembunyi antar
variabel.
- Dalam kasus data kesehatan, interaksi antara usia dan BMI bisa
menjadi indikator penting terhadap risiko penyakit kronis.
5.2 Ratio Features
Ratio features adalah fitur yang dibentuk dari perbandingan dua
variabel numerik. Teknik ini sering digunakan untuk menormalkan data,
menyoroti ketidakseimbangan, atau menangkap hubungan proporsional antar
variabel.
Contoh Kasus:
Dalam data kesehatan, membandingkan kadar kolesterol terhadap kadar
glukosa dapat memberikan insight tambahan tentang profil metabolik
seseorang. Maka dibuat fitur baru: Cholesterol to Glucose
Ratio.
Contoh Kode R:
data_ratio <- health_data %>%
mutate(
Cholesterol_Glucose_Ratio = cholesterol / (glucose + 1e-5)
)
Penjelasan Fungsi
| cholesterol / (glucose + 1e-5) |
Rasio antara kolesterol dan glukosa; penambahan 1e-5 mencegah
pembagian dengan nol. |
| mutate() |
Menambahkan fitur rasio baru ke dalam data. |
Kesimpulan:
- Ratio features memperkaya dataset dengan informasi
proporsional.
- Dalam konteks medis, rasio ini membantu dalam mendeteksi
ketidakseimbangan biokimia yang tidak terlihat dari nilai absolut
saja.
5.3 Group Aggregation
Group aggregation adalah teknik untuk menghitung ringkasan statistik
berdasarkan kelompok tertentu dalam data, misalnya berdasarkan ID
pasien, lokasi, atau waktu. Teknik ini berguna untuk menciptakan fitur
baru yang merangkum informasi historis atau berulang.
Contoh Kasus:
Pada dataset kesehatan, satu pasien bisa memiliki beberapa entri
kunjungan. Maka kita bisa menghitung rata-rata dan maksimum kadar
glukosa untuk tiap patient_id, serta jumlah kunjungan sebagai
fitur tambahan.
Contoh Kode R:
# Aggregate by patient
patient_glucose <- health_data %>%
group_by(patient_id) %>%
summarise(
Avg_Glucose = mean(glucose, na.rm = TRUE),
Max_Glucose = max(glucose, na.rm = TRUE),
Visits = n(),
.groups = "drop"
)
# Join with original data
health_data_joined <- left_join(health_data, patient_glucose, by = "patient_id")
| group_by(patient_id) |
Mengelompokkan data berdasarkan ID pasien. |
| summarise() |
Menghitung nilai rata-rata, maksimum, dan jumlah kunjungan. |
| left_join() |
Menggabungkan hasil agregasi kembali ke data utama. |
Manfaat dalam Konteks Medis:
Kesimpulan:
- Group aggregation menghasilkan fitur yang memperkaya data dengan
informasi ringkasan per entitas.
- Cocok untuk data yang bersifat longitudinal, seperti rekam medis
atau transaksi pelanggan.
5.5 Text Cleaning & Feature Creation
Text cleaning dan pembuatan fitur dari teks adalah langkah penting
dalam proses pembersihan data, khususnya ketika kita bekerja dengan data
yang mengandung informasi dalam format teks yang tidak terstruktur.
Salah satu langkah penting adalah mengekstraksi informasi relevan dari
teks, seperti angka atau kata-kata kunci, untuk digunakan dalam analisis
lebih lanjut.
Contoh Kasus:
Dalam dataset kesehatan, kolom patient_id mungkin mengandung angka
dan karakter lain, yang mana kita bisa mengekstraksi angka saja untuk
membuat fitur baru.
Contoh Kode R:
data_text <- health_data %>%
mutate(
Patient_Num = as.numeric(gsub("[^0-9]", "", patient_id))
)
Penjelasan Fungsi
| gsub(“[^0-9]”, ““, patient_id) |
Menggunakan fungsi gsub untuk menghapus karakter non-angka dan
mengekstraksi hanya angka dari kolom patient_id. |
| as.numeric() |
Mengonversi hasil ekstraksi menjadi format numerik. |
Manfaat dalam Konteks Medis:
- Patient_Num memberikan nomor pasien dalam format numerik
yang bisa digunakan untuk analisis lebih lanjut, seperti pengelompokan
atau identifikasi pasien berdasarkan ID numerik.
Kesimpulan:
Langkah pembersihan teks ini membantu mengubah ID pasien yang
mengandung karakter menjadi format yang lebih mudah untuk dianalisis,
terutama saat ID pasien diperlukan dalam analisis statistik atau
pembelajaran mesin.
5.6 Cumulative Features
Cumulative features mengacu pada fitur yang dihitung secara berurutan
berdasarkan data yang terurut, seperti akumulasi nilai dari variabel
tertentu sepanjang waktu. Cumulative features sering digunakan dalam
analisis time series atau data yang bersifat kronologis, seperti
penghitungan jumlah kumulatif dari suatu parameter kesehatan.
Contoh Kasus:
Dalam dataset kesehatan, kita dapat menghitung jumlah kumulatif kadar
glukosa dari waktu ke waktu untuk setiap pasien, yang memberikan
gambaran tentang perubahan tingkat glukosa sepanjang waktu.
Contoh Kode R:
data_cumulative <- health_data %>%
arrange(patient_id, date) %>%
group_by(patient_id) %>%
mutate(
Cumulative_Glucose = cumsum(glucose)
) %>%
ungroup()
Penjelasan Fungsi
| arrange(patient_id, date) |
Mengurutkan data berdasarkan ID pasien dan tanggal untuk memastikan
bahwa penghitungan kumulatif dilakukan berdasarkan urutan waktu. |
| group_by(patient_id) |
Mengelompokkan data berdasarkan ID pasien agar perhitungan kumulatif
dilakukan per pasien. |
| cumsum(glucose) |
Menghitung jumlah kumulatif kadar glukosa untuk setiap pasien dari
waktu ke waktu. |
Manfaat dalam Konteks Medis:
- Cumulative_Glucose memberikan informasi mengenai akumulasi
kadar glukosa pasien sepanjang waktu, yang bisa digunakan untuk memahami
perubahan pola glukosa, mengidentifikasi tren, dan mendeteksi
kemungkinan masalah kesehatan.
Kesimpulan:
Penghitungan fitur kumulatif seperti Cumulative_Glucose
memungkinkan pemahaman yang lebih dalam mengenai perjalanan kesehatan
pasien dari waktu ke waktu dan dapat membantu dalam pemodelan prediktif,
seperti deteksi risiko diabetes atau komplikasi terkait glukosa.
6. Outlier Handling
Dalam analisis data, outlier atau data yang menyimpang jauh dari pola
umum dapat mempengaruhi hasil analisis dan model. Oleh karena itu,
penting untuk mendeteksi dan menangani outlier dengan tepat. Beberapa
metode yang umum digunakan untuk mendeteksi outlier antara lain Z-score
dan Interquartile Range (IQR).
Contoh Kasus:
Pada dataset kesehatan ini, kita akan menggunakan dua metode untuk
mendeteksi dan menangani outlier:
Z-score untuk mendeteksi outlier pada kadar
glukosa.
IQR untuk mendeteksi outlier pada indeks massa tubuh
(BMI).
Contoh Kode R:
# Ensure all column names are lowercase
colnames(health_data) <- tolower(colnames(health_data))
# Get the exact name of glucose and BMI columns
glucose_col <- grep("glukosa|glucose", colnames(health_data), value = TRUE)[1]
bmi_col <- grep("imt|bmi", colnames(health_data), value = TRUE)[1]
# Z-score method for outlier detection (using Glucose)
z_scores <- scale(health_data[[glucose_col]])
data_outliers <- health_data %>%
mutate(
Outlier_Flag = ifelse(abs(z_scores) > 3, "Outlier", "Normal")
)
# IQR method for outlier removal (using BMI)
Q1 <- quantile(health_data[[bmi_col]], 0.25, na.rm = TRUE)
Q3 <- quantile(health_data[[bmi_col]], 0.75, na.rm = TRUE)
IQR_val <- Q3 - Q1
data_outliers_IQR <- health_data %>%
filter(
.data[[bmi_col]] > (Q1 - 1.5 * IQR_val) &
.data[[bmi_col]] < (Q3 + 1.5 * IQR_val)
)
Metode Z-Score untuk Deteksi Outlier:
Z-score digunakan untuk mendeteksi seberapa jauh suatu nilai dari
rata-rata dalam satuan deviasi standar. Dalam kasus ini, kita menghitung
Z-score untuk kadar glukosa, dan jika Z-score lebih besar dari 3 atau
lebih kecil dari -3, nilai tersebut dianggap sebagai outlier.
| scale(health_data[[glucose_col]]) |
Menghitung Z-score untuk kadar glukosa. |
| ifelse(abs(z_scores) > 3, “Outlier”, “Normal”) |
Menandai nilai yang memiliki Z-score lebih dari 3 atau kurang dari
-3 sebagai outlier. |
Metode IQR untuk Penghapusan Outlier:
Metode IQR menghitung rentang interkuartil (IQR) yang merupakan
selisih antara kuartil ketiga (Q3) dan kuartil pertama (Q1). Nilai yang
berada di luar rentang [Q1 - 1.5 IQR, Q3 + 1.5 IQR] dianggap
sebagai outlier.
| quantile(health_data[[bmi_col]], 0.25) |
Menghitung kuartil pertama (Q1) dari data BMI. |
| quantile(health_data[[bmi_col]], 0.75) |
Menghitung kuartil ketiga (Q3) dari data BMI. |
| filter(.data[[bmi_col]] > (Q1 - 1.5 * IQR_val) &
.data[[bmi_col]] < (Q3 + 1.5 * IQR_val)) |
Menyaring data BMI untuk menghapus nilai-nilai outlier di luar
rentang IQR. |
Manfaat Mengelola Outlier:
- Deteksi Dini: Mengidentifikasi outlier dengan metode yang
tepat memungkinkan pemahaman yang lebih baik tentang data dan membantu
mendeteksi masalah dalam pengukuran atau kondisi yang tidak biasa.
- Modeling: Menghapus atau menangani outlier dapat
meningkatkan kinerja model prediktif dengan menghindari distorsi yang
dapat disebabkan oleh data yang ekstrem.
Kesimpulan:
- Dengan menggunakan metode Z-score dan IQR, kita
dapat mendeteksi dan menangani outlier pada data kesehatan untuk
memastikan bahwa analisis dan model yang dibangun lebih akurat dan
representatif terhadap data asli.
7. Discretization
Discretization adalah proses mengubah variabel kontinu menjadi
kategori atau interval. Hal ini sering dilakukan untuk meningkatkan
pemahaman atau interpretasi data, serta memudahkan penerapan model
klasifikasi. Salah satu contoh yang umum adalah mengubah usia menjadi
kategori seperti “Muda”, “Paruh Baya”, dan “Tua”.
Contoh Kasus:
Pada dataset kesehatan ini, kita akan mendiskretisasikan kolom
usia menjadi tiga kategori: 1. Young (Muda) 2.
Middle-aged (Paruh Baya) 3. Old (Tua)
Kategori ini akan didasarkan pada pembagian kuantil data usia.
Contoh Kode R:
# Make sure column names are lowercase
colnames(health_data) <- tolower(colnames(health_data))
# Convert 'age' to numeric (if not already)
health_data <- health_data %>%
mutate(usia = as.numeric(age))
# Binning 'age' into age categories
binning <- health_data %>%
mutate(
age_level = cut(
age,
breaks = quantile(age, probs = c(0, 0.33, 0.66, 1), na.rm = TRUE),
labels = c("Young", "Middle-aged", "Old"),
include.lowest = TRUE
)
)
Penjelasan:
cut(age, breaks = quantile(age, probs = c(0, 0.33, 0.66, 1),
na.rm = TRUE)) digunakan untuk membagi usia berdasarkan kuantil.
0-33% usia pertama akan digolongkan ke dalam kategori
“Young” (Muda).
34-66% usia kedua akan digolongkan ke dalam kategori
“Middle-aged” (Paruh Baya).
67-100% usia ketiga akan digolongkan ke dalam kategori
“Old” (Tua).
Fungsi cut() ini juga memberikan label pada setiap kategori,
sehingga memudahkan interpretasi data.
Manfaat Discretization:
- Penyederhanaan Model: Dengan mengubah variabel kontinu
menjadi kategori, kita dapat mengurangi kompleksitas model dan
memudahkan interpretasi.
- Memperbaiki Model Klasifikasi: Kategorisasi dapat
meningkatkan kinerja model klasifikasi, terutama jika data kontinu
memiliki distribusi yang sangat miring atau tidak normal.
Kesimpulan:
Discretization dapat bermanfaat untuk mempermudah pemahaman dan
analisis data, terutama dalam kasus di mana hubungan antara variabel
kontinu dan hasil yang diinginkan tidak linier atau sulit untuk
dimodelkan secara langsung.
8. Seasonality
Seasonality atau musiman adalah pola yang muncul secara periodik
dalam data yang terkait dengan waktu, seperti pola tahunan, bulanan,
atau mingguan. Fitur seasonality sangat penting dalam analisis data time
series untuk memahami fluktuasi yang terkait dengan perubahan musiman
dalam tahun.
Pada dataset ini, kita akan membuat fitur musiman berdasarkan
informasi tanggal untuk menangkap pola tahunan.
Contoh:
- Fourier Transform untuk ekstraksi frekuensi.
- Deteksi Musiman dalam data bulanan/tahunan.
Contoh Kasus:
Untuk memodelkan seasonality dalam dataset kesehatan ini, kita akan
menambahkan fitur-fitur berikut: - Tahun (Year)
Contoh Kode R:
# Ensure lowercase column names
colnames(health_data) <- tolower(colnames(health_data))
# Try to find the column that represents the date
date_col <- grep("tanggal|date", colnames(health_data), value = TRUE)[1]
# Convert the column to Date type if not already
health_data[[date_col]] <- as.Date(health_data[[date_col]])
# Create seasonality features
seasonality <- health_data %>%
mutate(
year = year(.data[[date_col]]),
day_of_year = yday(.data[[date_col]]),
days_in_year = if_else(leap_year(.data[[date_col]]), 366, 365),
sin_year = sin(2 * pi * day_of_year / days_in_year),
cos_year = cos(2 * pi * day_of_year / days_in_year)
)
Penjelasan:
Tahun (Year): Menyimpan informasi tahun dari kolom
tanggal.
Hari dalam Tahun (Day of Year): Menghitung hari
ke-berapa dalam tahun tersebut.
Sinus dan Cosinus (sin_year dan cos_year): Mengonversi
hari dalam tahun menjadi nilai sinus dan cosinus untuk menangkap sifat
musiman dalam bentuk numerik. Ini adalah teknik umum untuk menghindari
masalah dengan model yang tidak dapat menangani data musiman yang
bersifat siklis.
Manfaat Seasonality:
- Memahami Pola Musiman: Fitur musiman dapat membantu dalam
memprediksi pola yang berulang, seperti fluktuasi kesehatan pada periode
tertentu dalam setahun.
- Peningkatan Akurasi Model: Dengan memasukkan informasi musiman dalam
model, kita dapat meningkatkan kemampuan prediksi terutama untuk data
time series.
Kesimpulan:
Fitur seasonality sangat berguna dalam dataset dengan komponen waktu
yang mempengaruhi hasil, seperti kesehatan yang dapat dipengaruhi oleh
perubahan musiman. Dengan menggunakan fitur-fitur musiman, model dapat
lebih efektif dalam menangkap pola yang terkait dengan perubahan musiman
dan meningkatkan akurasi prediksi.
Penutup
Transformasi data adalah tahap penting yang menentukan kualitas
analisis dan pemodelan. Teknik-teknik yang telah dibahas seperti
transformasi temporal, distribusi, scaling, encoding, feature
engineering, hingga handling outlier, semuanya bertujuan untuk membuat
data lebih “bersahabat” dengan algoritma analisis. Dengan pemilihan
metode yang tepat, kita dapat meningkatkan akurasi model dan membuat
interpretasi data menjadi lebih baik.
