PEMROGRAMAN SAINS DATA 1

EXAM 1 SMT 2

Logo

Pendahuluan

Transformasi data adalah teknik dalam pemrosesan data yang bertujuan untuk mengubah format, struktur, atau nilai data agar lebih sesuai untuk analisis, eksplorasi, dan pemodelan. Beberapa alasan utama transformasi data adalah:

  • Menstabilkan Variansi – Data dengan skala yang sangat berbeda dapat menyebabkan model menjadi tidak stabil atau sulit dipahami. Dengan transformasi, distribusi data dapat disesuaikan agar lebih seragam.
  • Mengurangi Skewness – Data sering kali memiliki distribusi yang miring (skewed), yang dapat mempengaruhi performa model statistik. Transformasi dapat membantu mendekatkan distribusi ke bentuk normal.
  • Menangani Outlier – Outlier atau nilai ekstrem dapat mendistorsi hasil analisis dan pemodelan. Teknik transformasi dapat membantu mengurangi pengaruhnya.
  • Mengubah Data Kategorikal – Data kategorikal tidak dapat langsung digunakan dalam banyak algoritma machine learning, sehingga perlu diubah menjadi bentuk numerik.
  • Mendeteksi Pola Musiman dan Tren – Dalam analisis deret waktu, transformasi membantu mengidentifikasi pola musiman dan tren dengan lebih jelas.
  • Mengurangi Dimensi Data – Ketika dataset memiliki terlalu banyak variabel, analisis menjadi sulit dan memakan waktu. Teknik seperti Principal Component Analysis (PCA) membantu menyederhanakan struktur data tanpa kehilangan informasi penting.

Laporan ini akan membahas berbagai teknik transformasi data.


Transformasi Data

1.Temporal Transformation

1.1 Lag, diff, rolling

Lagging adalah teknik yang digunakan untuk menggeser data ke belakang dalam satuan waktu tertentu. Ini sangat berguna dalam analisis deret waktu untuk memahami keterkaitan antara nilai saat ini dan masa lalu.

Teknik ini sering digunakan dalam model prediktif seperti ARIMA dan regresi deret waktu. Dengan menerapkan lagging, kita dapat melihat pola pergerakan suatu variabel terhadap waktu, yang memungkinkan analisis yang lebih mendalam.

Kelebihan:

  • Membantu memahami hubungan temporal antara variabel.
  • Berguna dalam pemodelan prediktif berbasis deret waktu.
  • Membantu dalam pembuatan fitur baru untuk model machine learning berbasis deret waktu.

Kekurangan:

  • Dapat menyebabkan kehilangan data pada awal periode.
  • Jika lag terlalu besar, informasi yang relevan bisa hilang.
  • Tidak selalu efektif jika pola hubungan antarwaktu tidak konsisten.

Contoh Penggunaan:

  • Dalam keuangan, harga saham hari ini bisa dipengaruhi oleh harga sebelumnya.
  • Dalam meteorologi, suhu hari ini mungkin bergantung pada suhu beberapa hari yang lalu.

Temporal <- health_data %>%
  arrange(Patient_ID, Date) %>%
  group_by(Patient_ID) %>%
  mutate(
    Lag_BP = lag(Blood_Pressure),
    Diff_BP = Blood_Pressure - lag(Blood_Pressure),
    RollingMean_BP_3 = zoo::rollapply(Blood_Pressure, width = 3, FUN = mean, fill = NA, align = "right")
  ) %>%
  ungroup()

Penjelasan Fungsi

Fungsi Tujuan
arrange(Patient_ID, Date) Mengurutkan data berdasarkan pasien dan tanggal untuk memastikan kronologi.
group_by(Patient_ID) Agar transformasi dilakukan per individu, bukan seluruh dataset.
lag(Blood_Pressure) Mengambil tekanan darah sebelumnya untuk masing-masing pasien.
Diff_BP Selisih antara nilai sekarang dan nilai sebelumnya — digunakan untuk mendeteksi tren naik/turun.
rollapply(…, width = 3) Rata-rata dari 3 nilai terakhir untuk membantu melihat tren yang lebih stabil (rolling mean).

Interpretasi Kesehatan

Fitur Transformasi Arti & Manfaat
Lag_BP Melihat efek masa lalu terhadap kondisi saat ini. Penting untuk model prediksi.
Diff_BP Mengindikasikan peningkatan atau penurunan tekanan darah. Bisa menandakan kondisi stabil atau memburuk.
RollingMean_BP_3 Membantu memfilter fluktuasi jangka pendek. Jika nilai saat ini jauh di atas rata-rata, bisa jadi alarm anomali.

Hasil Transformasi

Semua nilai Lag_BP, Diff_BP, dan RollingMean_BP_3 bernilai NA karena ini adalah baris pertama untuk masing-masing pasien. Tanpa observasi sebelumnya, tidak mungkin menghitung nilai lag, selisih, atau rata-rata bergulir.

1.2 Extract Hour, Day, Month, Year

Ekstraksi waktu adalah proses mengambil bagian spesifik dari timestamp, seperti jam, hari, bulan, atau tahun.
Ini berguna untuk analisis musiman atau pola perilaku pengguna berdasarkan waktu.

Kelebihan:

  • Membantu menemukan pola berdasarkan waktu (contoh: pembelian lebih banyak di akhir pekan).
  • Memungkinkan pembuatan fitur baru dari data waktu.

Kekurangan:

  • Jika tidak relevan dengan analisis, fitur ini bisa menjadi noise.
  • Membutuhkan format tanggal/waktu yang benar.

Extract <- health_data %>%
  mutate(
    Day_of_Week = weekdays(Date),
    Month = month(Date, label = TRUE),
    Year = year(Date),
    Is_Weekend = ifelse(Day_of_Week %in% c("Saturday", "Sunday"), 1, 0),
    Location = as.factor(Location),
    Health_Condition = as.factor(Health_Condition)
  ) %>%
  bind_cols(
    as.data.frame(model.matrix(~ Location - 1, data = .)),
    as.data.frame(model.matrix(~ Health_Condition - 1, data = .))
  )

Penjelasan Fungsi

Fungsi Tujuan
weekdays(Date) Menentukan nama hari berdasarkan tanggal (misalnya Senin, Selasa, dll.).
month(Date, label = TRUE) Mengambil bulan dari tanggal dan memberi label (contoh: Jan, Feb, dst.).
year(Date) Mengambil tahun dari tanggal untuk analisis musiman atau tahunan.
ifelse(Day_of_Week %in% c(“Saturday”, “Sunday”), 1, 0) Menentukan apakah tanggal tersebut jatuh pada akhir pekan (Sabtu/Minggu).
as.factor(Location) Mengubah lokasi menjadi variabel kategori.
as.factor(Health_Condition) Mengubah kondisi kesehatan menjadi variabel kategori.
model.matrix(~ Location - 1) Menggunakan one-hot encoding untuk mengonversi lokasi menjadi kolom-kolom biner.
model.matrix(~ Health_Condition - 1) Menggunakan one-hot encoding untuk mengonversi kondisi kesehatan menjadi kolom-kolom biner.

Interpretasi Kesehatan:

Fitur Transformasi Arti & Manfaat
Day_of_Week Menyediakan informasi hari dalam minggu. Berguna untuk mendeteksi pola harian, misalnya apakah ada lebih banyak kunjungan rumah sakit di akhir pekan.
Month Menyediakan informasi tentang bulan. Dapat digunakan untuk mendeteksi pola musiman dalam data, seperti peningkatan kasus penyakit tertentu di bulan tertentu.
Year Memberikan informasi tahunan. Berguna untuk analisis jangka panjang dan tren tahunan, seperti peningkatan atau penurunan kesehatan masyarakat dari tahun ke tahun.
Is_Weekend Menunjukkan apakah data berasal dari akhir pekan atau tidak. Bisa menjadi fitur untuk melihat perilaku atau pola yang terjadi pada hari-hari tertentu.
Location (One-hot) Mengonversi lokasi menjadi variabel biner. Dapat digunakan untuk menganalisis apakah lokasi tertentu berhubungan dengan kondisi kesehatan tertentu.
Health_Condition (One-hot) Mengonversi kondisi kesehatan menjadi variabel biner. Membantu dalam analisis terkait dengan jenis kondisi kesehatan dan pengaruhnya terhadap variabel lainnya.

Hasil Transformasi

Dari hasil transformasi data yang melibatkan ekstraksi informasi waktu dan encoding untuk lokasi serta kondisi kesehatan pasien, berikut adalah contoh tampilan data yang diperoleh:

Kesimpulan

  • Ekstraksi Waktu: Data berhasil diubah dengan mengekstraksi elemen-elemen waktu seperti Hari dalam Minggu, Bulan, dan Tahun, yang memungkinkan analisis lebih lanjut terkait dengan pola musiman dan perilaku berdasarkan waktu.
    • Is_Weekend dihasilkan dengan memberikan nilai 1 jika hari tersebut adalah akhir pekan (Sabtu atau Minggu) dan 0 untuk hari lainnya, memungkinkan identifikasi tren berdasarkan akhir pekan atau hari kerja.
  • Location & Health Condition Encoding: Lokasi dan kondisi kesehatan pasien telah diubah menjadi *variabel biner untuk memudahkan analisis statistik dan pemodelan prediktif.
    • Variabel lokasi seperti Location_Jakarta, Location_Bandung, dan Location_Surabaya diubah menjadi indikator biner untuk setiap lokasi.
    • Kondisi kesehatan pasien, seperti Health_Condition_Healthy, Health_Condition_Hypertension, dan Health_Condition_Diabetes, juga dipetakan dalam bentuk variabel biner yang menggambarkan kondisi medis setiap individu.

1.3 Cumulative Sum/Mean/Count

Teknik kumulatif menghitung total berjalan (running total), jumlah kemunculan, atau rata-rata kumulatif dari data berdasarkan waktu.

Kelebihan:

  • Sangat berguna untuk melihat pertumbuhan akumulatif.
  • Membantu dalam memodelkan perilaku jangka panjang.

Kekurangan:

  • Hasil kumulatif bisa mengaburkan perubahan lokal kecil.

  • Bisa mempengaruhi distribusi data menjadi lebih smooth (terlalu halus).

Contoh Penggunaan dalam R:


Temporal3 <- health_data %>%
  group_by(Patient_ID) %>%
  mutate(
    Cumulative_BP = cumsum(Blood_Pressure),
    Cumulative_Glucose = cumsum(Glucose),
    Cumulative_AvgHR = cummean(Heart_Rate)
  ) %>%
  ungroup()

Penjelasan Fungsi

Fungsi Tujuan
cumsum(Blood_Pressure) Menghitung jumlah kumulatif tekanan darah sepanjang waktu.
cumsum(Glucose) Menghitung jumlah kumulatif kadar glukosa sepanjang waktu.
cummean(Heart_Rate) Menghitung rata-rata kumulatif detak jantung sepanjang waktu.

Interpretasi Kesehatan:

Fitur Transformasi Arti & Manfaat
Cumulative_BP Menyediakan total kumulatif dari tekanan darah pasien sepanjang waktu. Ini bisa memberikan gambaran mengenai peningkatan atau penurunan kondisi kesehatan secara keseluruhan, misalnya dalam kasus hipertensi.
Cumulative_Glucose Menyediakan total kumulatif kadar glukosa pasien. Ini dapat membantu memantau fluktuasi kadar glukosa sepanjang waktu dan memberikan gambaran tentang kestabilan kondisi pasien dengan diabetes.
Cumulative_AvgHR Menyediakan rata-rata kumulatif detak jantung pasien. Ini dapat membantu melihat tren detak jantung pasien dari waktu ke waktu, apakah terjadi peningkatan atau penurunan yang signifikan.

Hasil Transformasi

Kesimpulan:

  • Cumulative Sum (cumsum) digunakan untuk mengukur total kumulatif dari variabel tertentu (seperti tekanan darah atau kadar glukosa) dari waktu ke waktu. Teknik ini sangat berguna untuk memahami bagaimana suatu kondisi berkembang dalam jangka panjang.

  • Cumulative Mean (cummean) digunakan untuk melihat tren rata-rata jangka panjang, seperti detak jantung. Ini dapat membantu dalam memantau kestabilan kondisi kesehatan pasien.

  • Kelemahan teknik kumulatif: Hasil kumulatif bisa mempengaruhi distribusi data, membuat data terlihat lebih smooth dan dapat mengaburkan perubahan lokal kecil yang mungkin signifikan. Oleh karena itu, harus digunakan dengan hati-hati tergantung pada tujuan analisis.


2.Transformasi Distribusi

2.1 Log Transform


min_positive <- min(health_data$Glucose[health_data$Glucose > 0])

Log <- health_data %>%
  mutate(
    Safe_Glucose = ifelse(Glucose <= 0, min_positive, Glucose),
    Log_Glucose = log1p(Safe_Glucose)
  )

Penjelasan Fungsi

Fungsi Tujuan
min(health_data\(Glucose[health_data\)Glucose > 0]) Mencari nilai glukosa positif terkecil, untuk menggantikan nilai nol atau negatif.
ifelse(Glucose <= 0, min_positive, Glucose) Mengganti nilai glukosa nol atau negatif dengan nilai glukosa positif terkecil agar aman untuk transformasi logaritma.
log1p(Safe_Glucose) Menghitung logaritma natural dari (glukosa + 1), agar distribusi data lebih normal dan menghindari log(0).

Interpretasi Kesehatan

Fitur Transformasi Arti & Manfaat
Safe_Glucose Menjamin semua nilai glukosa bernilai positif sebelum transformasi logaritma. Ini penting karena log(0) tidak terdefinisi, dan nilai nol bisa muncul akibat kesalahan pencatatan atau alat medis.
Log_Glucose Transformasi logaritma membuat distribusi glukosa yang awalnya miring (skewed) menjadi lebih normal. Ini membantu meningkatkan performa model prediktif dan analisis statistik.

Hasil Transfortasi

Kesimpulan

  • Transformasi log1p() (log(x + 1)) berguna untuk menangani data skewed dan nilai nol, terutama dalam data kesehatan seperti glukosa.
  • Mengganti nilai 0 atau negatif dengan nilai minimum positif adalah strategi robust untuk menghindari error matematis.
  • Teknik ini sering digunakan sebelum pemodelan statistik atau machine learning, agar hasil analisis menjadi lebih akurat dan stabil.

2.2 Box-Cox



Box_Cox <- health_data %>%
  mutate(
    YeoJ_BP = bestNormalize(Blood_Pressure)$x.t,
    YeoJ_Chol = bestNormalize(Cholesterol)$x.t
  )
  

Penjelasan Fungsi

Fungsi Tujuan
bestNormalize(Blood_Pressure)\(x.t | Menerapkan transformasi normalisasi terbaik (seperti Yeo-Johnson) ke variabel tekanan darah untuk membuat distribusinya lebih mendekati normal. | | bestNormalize(Cholesterol)\)x.t Menerapkan transformasi normalisasi terbaik ke variabel kolesterol agar distribusinya lebih simetris dan cocok untuk analisis statistik atau machine learning.

Interpretasi Kesehatan

Fitur Transformasi Arti & Manfaat
YeoJ_BP Menghasilkan versi transformasi dari Blood_Pressure yang sudah dinormalisasi menggunakan metode Yeo-Johnson atau metode terbaik lainnya. Ini penting untuk analisis statistik yang mengasumsikan distribusi normal, seperti regresi linier.
YeoJ_Chol Menghasilkan versi transformasi dari Cholesterol yang telah dinormalisasi. Ini berguna untuk mengurangi pengaruh outlier dan membuat data lebih cocok untuk pemodelan.

Hasil Transformasi

Kesimpulan

  • Fungsi bestNormalize() secara otomatis memilih transformasi terbaik (misalnya Yeo-Johnson, Box-Cox, log, atau lainnya) untuk membuat distribusi data lebih mendekati normal.
  • Transformasi ini sangat bermanfaat ketika variabel input memiliki distribusi skewed atau mengandung outlier yang dapat mempengaruhi hasil analisis.
  • Penggunaan normalisasi seperti ini sering diterapkan sebelum regresi, klasifikasi, atau clustering agar model lebih akurat dan stabil.

2.3 Variance Stabilization


Variance_Stab <- health_data %>%
  mutate(
    Sqrt_Cholesterol = sqrt(Cholesterol),
    Sqrt_BMI = sqrt(BMI)
  )

Penjelasan Fungsi

Fungsi Tujuan
sqrt(Cholesterol) Mentransformasi kolesterol dengan akar kuadrat untuk menstabilkan variansi.
sqrt(BMI) Mentransformasi indeks massa tubuh (BMI) dengan akar kuadrat agar distribusinya lebih normal dan mengurangi efek outlier.

Interpretasi Kesehatan

Fitur Transformasi Arti & Manfaat
Sqrt_Cholesterol Mengurangi sebaran ekstrem pada nilai kolesterol tinggi. Ini membantu dalam analisis regresi atau machine learning agar model tidak terlalu dipengaruhi oleh outlier.
Sqrt_BMI Membantu menstabilkan varians BMI dan mendekatkan distribusi ke bentuk normal. Ini penting jika data akan digunakan dalam model statistik yang mengasumsikan distribusi normal.

Hasil Interpretasi

Kesimpulan

  • Transformasi akar kuadrat (sqrt) adalah metode sederhana dan efektif untuk menstabilkan variansi pada data yang positif skewed (condong ke kanan).
  • Ini penting dalam analisis data medis karena banyak nilai biometrik (seperti kolesterol dan BMI) tidak terdistribusi normal dan bisa memiliki outlier.
  • Teknik ini dapat meningkatkan performa dan interpretabilitas model statistik yang sensitif terhadap bentuk distribusi data.

3. Scaling & Normalization

3.1 Standardization (Z-score)

Proses mengubah variabel numerik yang memiliki skala berbeda menjadi skala yang sama dengan rata-rata 0 dan deviasi standar 1.


# Z-score Normalization
Z_score <- health_data %>%
  mutate(
    Age_Z = scale(age),
    BMI_Z = scale(bmi),
    Blood_Pressure_Z = scale(blood_pressure),
    Cholesterol_Z = scale(cholesterol),
    Glucose_Z = scale(glucose)
  )

Penjelasan Kode

Fungsi Tujuan
scale(Age) Menstandarkan usia agar berada dalam skala satuan.
scale(BMI) Menstandarkan nilai indeks massa tubuh (IMT).
scale(Blood_Pressure) Menstandarkan tekanan darah agar tidak dominan karena skalanya besar.
scale(Cholesterol) Menstandarkan kolesterol agar setara dengan fitur lain.
scale(Glucose) Menstandarkan glukosa agar adil dalam model prediksi.
scale(Heart_Rate) Menstandarkan detak jantung agar memiliki skala yang sama.

Interpretasi Kesehatan

Fitur Transformasi Arti & Manfaat
Age_std Membantu melihat pengaruh usia tanpa dipengaruhi oleh rentang besar pada data usia.
BMI_Std Membantu mendeteksi pasien dengan risiko obesitas yang memengaruhi tekanan darah.
bloodpreasure_Std Membuat tekanan darah menjadi fitur yang sebanding untuk prediksi atau klasifikasi.
kolestrol_std Menyetarakan pengaruh kolesterol dalam model prediksi hipertensi.
Glukosa_std Memungkinkan pengaruh glukosa diamati secara proporsional tanpa bias skala.
Heartrate_std Mempermudah analisis tren detak jantung terhadap kondisi lain secara setara.

Hasil Transformasi

Kesimpulan

Variabel-variabel seperti Age, BMI, Blood Pressure, Cholesterol, Glucose, dan Heart Rate yang sebelumnya memiliki rentang skala yang sangat berbeda sekarang ada di skala yang sama. Penskalaan ini bisa membantu model machine learning untuk tidak cenderung menganggap satu fitur lebih penting daripada yang lain hanya karena memiliki rentang yang lebih besar.

Dalam mendeteksi pasien yang memiliki faktor risiko dalam mempengaruhi tekanan darah yang akan mengakibatkan hipertensi bisa diliat dari nilai BMI, kolestrol dan glukosa. ketiga fitur itu memiliki rentang skala yang berbeda beda ada yang di puluhan ataupun ratusan. Model mechine learning akan memberi bobot pada fitur kolestrol karena memiliki rentang yang besar. Setelah di skala ketiga fitur itu ada di skala satuan. Disini model bisa menilai dari ketiga fitur tersebut apakah bisa mempengaruhi tekanan darah tinggi atau tidak yang akan mengakibatkan hipertensi.

Kekurangan Skala ini masih terpengaruh terhadap outlier dibandingkan dengan Robust Scaler.

3.2 Robust Scaler

Proses merubah variabel numerik yang memiliki skala berbeda menjadi skala yang sama dalam dataset dan tahan terhadap outlier. Namun, masih terpengaruhi oleh nilai yang sangat ekstrim. Penskalaan ini diperkuat dengan median dan IQR dari tiap fitur.


# RobustScaler

Robust <- health_data %>%
  mutate(
    Age_robust = (age - median(age)) / IQR(age),
    BMI_robust = (bmi - median(bmi)) / IQR(bmi),
    BloodPressure_robust = (blood_pressure - median(blood_pressure)) / IQR(blood_pressure),
    Cholesterol_robust = (cholesterol - median(cholesterol)) / IQR(cholesterol),
    Glucose_robust = (glucose - median(glucose)) / IQR(glucose),
    HeartRate_robust = (heart_rate - median(heart_rate)) / IQR(heart_rate)
  )

Penjelasan Kode

Fungsi Transformasi Tujuan
(age - median(age)) / IQR(age) Menstandarkan usia berdasarkan median dan IQR agar tidak dipengaruhi outlier.
(bmi - median(bmi)) / IQR(bmi) Menyesuaikan nilai BMI ke skala yang lebih netral terhadap nilai ekstrem.
(blood_pressure - median(…)) / IQR(…) Mengubah tekanan darah ke skala yang stabil dan tahan terhadap lonjakan nilai.
(cholesterol - median(…)) / IQR(…) Mengatur kolesterol agar setara skalanya dengan fitur lain meskipun outlier ada.
(glucose - median(…)) / IQR(…) Menormalkan kadar gula darah agar tidak didominasi oleh nilai ekstrem.
(heart_rate - median(…)) / IQR(…) Menstabilkan nilai detak jantung untuk analisis komparatif antar pasien.

Interpretasi Kesehatan

Fitur Transformasi Arti & Manfaat
Age_robust Usia pasien kini distandarisasi tanpa dipengaruhi ekstrem umur yang terlalu muda atau tua. Berguna untuk model prediktif yang sensitif terhadap variasi usia.
BMI_robust Menilai risiko kelebihan berat badan terhadap hipertensi secara adil dan netral.
BloodPressure_robust Memberi gambaran tekanan darah yang adil saat dibandingkan antar pasien dengan data bervariasi.
Cholesterol_robust Menghindari bias model terhadap pasien dengan kadar kolesterol sangat tinggi.
Glucose_robust Memastikan model melihat pola kadar glukosa tanpa tertipu nilai yang terlalu ekstrem.
HeartRate_robust Menjadikan detak jantung setara secara skala dengan fitur lain untuk analisis prediksi kesehatan jantung.

Hasil Transformasi

Kesimpulan

Sama hal nya dengan Skala Standarisasi, Robust scaler memiliki skala yang lebih kecil dibanding dengan Skala (standarisasi) karena median dan IQR tidak dipengaruhi oleh nilai ekstrem yang jauh dari distribusi data lainnya. Ini menjadikannya lebih stabil saat data memiliki outlier.

Ini membuat model mampu mengevaluasi pengaruh BMI, kolesterol, dan glukosa secara adil terhadap tekanan darah, baik sistolik maupun diastolik. Akhirnya, ini mendukung proses deteksi risiko hipertensi dengan pendekatan statistik yang lebih akurat dan tidak bias.

3.3 Normalization

Proses merubah skala dalam rentang tertentu umumnya 0-1 dengan menggunakan nilai minimum dan maksimum yang menghasilkan keseimbangan data. Normalisasi ini akan sangat terpengaruh oleh nilai ekstrem.


# Min-Max Normalization
Min_Max <- health_data %>%
  mutate(
    Age_Norm = (Age - min(Age, na.rm = TRUE)) / (max(Age, na.rm = TRUE) - min(Age, na.rm = TRUE)),
    BMI_Norm = (BMI - min(BMI, na.rm = TRUE)) / (max(BMI, na.rm = TRUE) - min(BMI, na.rm = TRUE)),
    Blood_Pressure_Norm = (Blood_Pressure - min(Blood_Pressure, na.rm = TRUE)) / (max(Blood_Pressure, na.rm = TRUE) - min(Blood_Pressure, na.rm = TRUE)),
    Cholesterol_Norm = (Cholesterol - min(Cholesterol, na.rm = TRUE)) / (max(Cholesterol, na.rm = TRUE) - min(Cholesterol, na.rm = TRUE)),
    Glucose_Norm = (Glucose - min(Glucose, na.rm = TRUE)) / (max(Glucose, na.rm = TRUE) - min(Glucose, na.rm = TRUE))
  )

Penjelasan Kode

Fungsi Tujuan
(x - min(x)) / (max(x) - min(x)) Mengubah skala data agar berada dalam rentang 0 hingga 1, tanpa mengubah bentuk distribusi aslinya. Berguna untuk algoritma machine learning yang sensitif terhadap skala, seperti KNN dan SVM.
na.rm = TRUE Mengabaikan nilai missing agar proses normalisasi tetap berjalan tanpa error.

Interpretasi Kesehatan

Fitur Ternormalisasi Arti & Manfaat
Age_Norm Mengonversi umur pasien ke skala 0–1 untuk memastikan model tidak bias terhadap rentang usia yang luas.
BMI_Norm Memastikan nilai indeks massa tubuh dibandingkan secara adil dengan fitur lain.
Blood_Pressure_Norm Menstandarkan tekanan darah agar bisa dibandingkan langsung dengan variabel lain dalam model prediktif.
Cholesterol_Norm Membuat kadar kolesterol dapat diinterpretasikan dalam skala seragam.
Glucose_Norm Membantu dalam menyeimbangkan fitur glukosa dengan fitur lainnya tanpa memperbesar bobotnya.

Hasil Transformasi

Kesimpulan

Sama hal nya dengan Scaling, normalisasi ini untuk merubah rentang agar model bisa menganggap data di setiap fitur nya memiliki bobot yang sama. Hanya saja jika normalisasi dalam rentang diantara 0 sampai 1. Sedangkan, skala masih ada nilai yang rentang diatas nilai 1.

Kelebihan dalam normalisasi yaitu menjaga data dalam rentang yang seragam tanpa dipengaruhi outlier secara ekstrem. dan Kelemahannya yaitu sangat sensitif terhadap outlier, karena min() dan max() bisa terpengaruh nilai ekstrem.

4. Kategorial Encoding

4.1 One-Hot Encoding

One-hot encoding adalah metode transformasi variabel kategorik menjadi bentuk numerik biner (0/1) agar bisa digunakan dalam analisis statistik atau machine learning.

Kelebihan:

  • Menghilangkan makna ordinal dari kategori (tidak mengasumsikan urutan).
  • Cocok untuk algoritma yang tidak bisa menangani data kategorik secara langsung.

Kekurangan:

  • Menambah jumlah fitur secara signifikan (terutama jika kategori banyak).
  • Bisa menyebabkan curse of dimensionality.

Contoh Penggunaan dalam R:


categorical_cols <- names(health_data)[sapply(health_data, function(x) is.factor(x) || is.character(x))]
one_hot <- dummy_cols(
  health_data,
  select_columns = categorical_cols,
  remove_first_dummy = TRUE,
  remove_selected_columns = TRUE
)

Penjelasan Fungsi

Fungsi Tujuan
dummy_cols() Membuat kolom dummy dari data kategorik.
remove_first_dummy = TRUE Menghindari dummy variable trap (multikolinearitas) dengan menghapus satu kategori.
remove_selected_columns = TRUE Menghapus kolom kategorik asli dari dataset.

Interpretasi Kesehatan:

Fitur One-Hot Makna
Location_Bandung = 1 Pasien berasal dari Bandung.
Health_Condition_Diabetes = 1 Pasien memiliki kondisi diabetes.

Hasil Transformasi

Kesimpulan:

  • Transformasi ini mempermudah penggunaan data kategorik dalam model prediksi dan analisis statistik.

  • Menghindari kesalahan interpretasi urutan pada variabel kategorik.

  • Cocok digunakan bersama metode statistik dan machine learning modern.

4.2 Frequency Encoding

Frequency encoding adalah metode pengkodean data kategorik dengan mengganti setiap kategori dengan frekuensinya dalam data. Artinya, nilai kategori yang lebih sering muncul akan mendapatkan nilai numerik yang lebih tinggi.

Kelebihan:

  • Tidak menambah dimensi seperti one-hot encoding.

  • Menyimpan informasi distribusi kategori.

  • Efisien untuk dataset dengan banyak kategori unik.

Kekurangan:

  • Tidak cocok jika kategori dengan frekuensi yang sama memiliki makna berbeda.

  • Bisa memunculkan data leakage jika tidak dilakukan dengan hati-hati (misalnya saat digunakan sebelum data split).

Contoh Penggunaan dalam R:


# Fungsi frequency encoding
freq_enc <- function(col) {
  tab <- table(col)
  return(as.numeric(tab[col]) / length(col))
}

# Pastikan kolom lowercase
colnames(health_data) <- tolower(colnames(health_data))

# Kolom yang ingin di-encode
target_cols <- c("year", "location", "health_condition")
available_cols <- intersect(target_cols, colnames(health_data))

# Encoding frekuensi
Frequency <- health_data %>%
  mutate(across(all_of(available_cols), ~ freq_enc(.), .names = "{.col}_freq"))

Penjelasan Fungsi

Fungsi Tujuan
table(col) Menghitung jumlah kemunculan tiap kategori.
as.numeric(tab[col]) / length(col) Mengubah nilai kategori menjadi proporsi kemunculannya.
across(…, .names = “{.col}_freq”) Menambahkan nama kolom hasil encoding.

Interpretasi Kesehatan:

Fitur Encoded Makna
location_freq = 0.30 Lokasi tersebut muncul sebanyak 30% dari total data.
health_condition_freq = 0.10 Kondisi kesehatan tersebut hanya muncul di 10% data.

Hasil Transformasi

Kesimpulan:

  • Frequency encoding memberikan bobot proporsional terhadap kemunculan kategori.

  • Lebih ringan secara komputasi dibanding one-hot encoding, namun tetap menyimpan makna statistik dari data kategorik.

  • Cocok digunakan dalam model linear dan tree-based seperti Random Forest dan XGBoost.

5. Feature Engineering

Feature engineering adalah proses menciptakan fitur-fitur baru dari data yang ada untuk meningkatkan performa model machine learning. Salah satu teknik yang sering digunakan adalah interaction features, yaitu menggabungkan dua atau lebih fitur untuk membentuk fitur baru yang bisa menangkap hubungan nonlinier antar variabel.

5.1 Interaction Features

Interaction features dibuat dengan mengalikan atau menggabungkan dua fitur untuk merepresentasikan hubungan antara keduanya. Dalam kasus ini, dibuat fitur interaksi antara umur (age) dan BMI (Body Mass Index) untuk melihat dampak gabungan usia dan berat badan terhadap kesehatan.

Kegunaan:

  • Membantu model menangkap efek gabungan antar

  • Berguna dalam model linear yang tidak secara eksplisit menangkap interaksi antar fitur.

Contoh Kode R:


# Simpan nama kolom BMI ke variabel
bmi_col <- grep("bmi|imt", colnames(health_data), value = TRUE)[1]

# Buat interaksi antara age dan BMI
data_interaction <- health_data %>%
  mutate(
    Age_BMI_Impact = age * .data[[bmi_col]]
  )

Penjelasan Fungsi

Langkah Penjelasan
grep(“bmi imt”, …)
age * .data[[bmi_col]] Mengalikan umur dan BMI untuk membuat fitur baru Age_BMI_Impact.
mutate() Menambahkan fitur baru ke dalam data.

Interpretasi Kesehatan:

  • Fitur Age_BMI_Impact akan bernilai tinggi jika seseorang memiliki usia dan BMI yang sama-sama tinggi.

  • Dapat menunjukkan risiko kesehatan gabungan akibat usia lanjut dan berat badan berlebih.

Hasil Transformasi

Kesimpulan:

  • Fitur interaksi berguna untuk mengungkap relasi tersembunyi antar variabel.
  • Dalam kasus data kesehatan, interaksi antara usia dan BMI bisa menjadi indikator penting terhadap risiko penyakit kronis.

5.2 Ratio Features

Ratio features adalah fitur yang dibentuk dari perbandingan dua variabel numerik. Teknik ini sering digunakan untuk menormalkan data, menyoroti ketidakseimbangan, atau menangkap hubungan proporsional antar variabel.

Contoh Kasus:

Dalam data kesehatan, membandingkan kadar kolesterol terhadap kadar glukosa dapat memberikan insight tambahan tentang profil metabolik seseorang. Maka dibuat fitur baru: Cholesterol to Glucose Ratio.

Contoh Kode R:


data_ratio <- health_data %>%
  mutate(
    Cholesterol_Glucose_Ratio = cholesterol / (glucose + 1e-5)
  )

Penjelasan Fungsi

Langkah Penjelasan
cholesterol / (glucose + 1e-5) Rasio antara kolesterol dan glukosa; penambahan 1e-5 mencegah pembagian dengan nol.
mutate() Menambahkan fitur rasio baru ke dalam data.

Interpretasi Kesehatan:

  • Rasio yang tinggi bisa menunjukkan potensi risiko gangguan metabolik.

  • Berguna untuk menyaring individu dengan kolesterol tinggi tetapi kadar glukosa normal atau sebaliknya.

Hasil Transformasi

Kesimpulan:

  • Ratio features memperkaya dataset dengan informasi proporsional.
  • Dalam konteks medis, rasio ini membantu dalam mendeteksi ketidakseimbangan biokimia yang tidak terlihat dari nilai absolut saja.

5.3 Group Aggregation

Group aggregation adalah teknik untuk menghitung ringkasan statistik berdasarkan kelompok tertentu dalam data, misalnya berdasarkan ID pasien, lokasi, atau waktu. Teknik ini berguna untuk menciptakan fitur baru yang merangkum informasi historis atau berulang.

Contoh Kasus:

Pada dataset kesehatan, satu pasien bisa memiliki beberapa entri kunjungan. Maka kita bisa menghitung rata-rata dan maksimum kadar glukosa untuk tiap patient_id, serta jumlah kunjungan sebagai fitur tambahan.

Contoh Kode R:


# Aggregate by patient
patient_glucose <- health_data %>%
  group_by(patient_id) %>%
  summarise(
    Avg_Glucose = mean(glucose, na.rm = TRUE),
    Max_Glucose = max(glucose, na.rm = TRUE),
    Visits = n(),
    .groups = "drop"
  )

# Join with original data
health_data_joined <- left_join(health_data, patient_glucose, by = "patient_id")
Langkah Penjelasan
group_by(patient_id) Mengelompokkan data berdasarkan ID pasien.
summarise() Menghitung nilai rata-rata, maksimum, dan jumlah kunjungan.
left_join() Menggabungkan hasil agregasi kembali ke data utama.

Manfaat dalam Konteks Medis:

  • Avg_Glucose dan Max_Glucose mencerminkan kontrol gula darah pasien secara longitudinal.

  • Visits dapat menunjukkan frekuensi kontrol atau keparahan kondisi pasien.

Hasil Transformasi

Kesimpulan:

  • Group aggregation menghasilkan fitur yang memperkaya data dengan informasi ringkasan per entitas.
  • Cocok untuk data yang bersifat longitudinal, seperti rekam medis atau transaksi pelanggan.

5.4 Rank Transformation

Rank transformation adalah teknik untuk mengubah nilai numerik menjadi urutan berdasarkan posisi relatifnya dalam dataset. Ini berguna untuk mengidentifikasi posisi atau peringkat suatu entitas berdasarkan variabel tertentu tanpa memerlukan distribusi data yang spesifik.

Contoh Kasus:

Dalam dataset kesehatan, kita dapat mengurutkan kadar glukosa pasien dan memberi peringkat kepada mereka berdasarkan level glukosa, dengan pasien yang memiliki kadar glukosa tertinggi mendapat peringkat teratas.

Contoh Kode R:


data_ranked <- health_data %>%
  mutate(
    Glucose_Rank = rank(-glucose)
  )

Penjelasan Fungsi

Langkah Penjelasan
rank(-glucose) Menghitung peringkat berdasarkan kadar glukosa, dengan tanda minus - untuk memberikan peringkat tertinggi pada nilai terbesar.

Manfaat dalam Konteks Medis:

  • Glucose_Rank memberikan gambaran tentang posisi relatif pasien berdasarkan kadar glukosa mereka. Ini berguna untuk memahami siapa yang berada dalam kelompok dengan kadar glukosa tertinggi atau terendah.

Hasil Transformasi

Kesimpulan:

Rank transformation cocok untuk analisis yang mengutamakan urutan daripada nilai absolut, seperti identifikasi pasien dengan kondisi paling kritis berdasarkan peringkat.

5.5 Text Cleaning & Feature Creation

Text cleaning dan pembuatan fitur dari teks adalah langkah penting dalam proses pembersihan data, khususnya ketika kita bekerja dengan data yang mengandung informasi dalam format teks yang tidak terstruktur. Salah satu langkah penting adalah mengekstraksi informasi relevan dari teks, seperti angka atau kata-kata kunci, untuk digunakan dalam analisis lebih lanjut.

Contoh Kasus:

Dalam dataset kesehatan, kolom patient_id mungkin mengandung angka dan karakter lain, yang mana kita bisa mengekstraksi angka saja untuk membuat fitur baru.

Contoh Kode R:


data_text <- health_data %>%
  mutate(
    Patient_Num = as.numeric(gsub("[^0-9]", "", patient_id))
  )

Penjelasan Fungsi

Langkah Penjelasan
gsub(“[^0-9]”, ““, patient_id) Menggunakan fungsi gsub untuk menghapus karakter non-angka dan mengekstraksi hanya angka dari kolom patient_id.
as.numeric() Mengonversi hasil ekstraksi menjadi format numerik.

Manfaat dalam Konteks Medis:

  • Patient_Num memberikan nomor pasien dalam format numerik yang bisa digunakan untuk analisis lebih lanjut, seperti pengelompokan atau identifikasi pasien berdasarkan ID numerik.

Hasil Transformasi

Kesimpulan:

Langkah pembersihan teks ini membantu mengubah ID pasien yang mengandung karakter menjadi format yang lebih mudah untuk dianalisis, terutama saat ID pasien diperlukan dalam analisis statistik atau pembelajaran mesin.

5.6 Cumulative Features

Cumulative features mengacu pada fitur yang dihitung secara berurutan berdasarkan data yang terurut, seperti akumulasi nilai dari variabel tertentu sepanjang waktu. Cumulative features sering digunakan dalam analisis time series atau data yang bersifat kronologis, seperti penghitungan jumlah kumulatif dari suatu parameter kesehatan.

Contoh Kasus:

Dalam dataset kesehatan, kita dapat menghitung jumlah kumulatif kadar glukosa dari waktu ke waktu untuk setiap pasien, yang memberikan gambaran tentang perubahan tingkat glukosa sepanjang waktu.

Contoh Kode R:


data_cumulative <- health_data %>%
  arrange(patient_id, date) %>%
  group_by(patient_id) %>%
  mutate(
    Cumulative_Glucose = cumsum(glucose)
  ) %>%
  ungroup()

Penjelasan Fungsi

Langkah Penjelasan
arrange(patient_id, date) Mengurutkan data berdasarkan ID pasien dan tanggal untuk memastikan bahwa penghitungan kumulatif dilakukan berdasarkan urutan waktu.
group_by(patient_id) Mengelompokkan data berdasarkan ID pasien agar perhitungan kumulatif dilakukan per pasien.
cumsum(glucose) Menghitung jumlah kumulatif kadar glukosa untuk setiap pasien dari waktu ke waktu.

Manfaat dalam Konteks Medis:

  • Cumulative_Glucose memberikan informasi mengenai akumulasi kadar glukosa pasien sepanjang waktu, yang bisa digunakan untuk memahami perubahan pola glukosa, mengidentifikasi tren, dan mendeteksi kemungkinan masalah kesehatan.

Hasil Transformasi

Kesimpulan:

Penghitungan fitur kumulatif seperti Cumulative_Glucose memungkinkan pemahaman yang lebih dalam mengenai perjalanan kesehatan pasien dari waktu ke waktu dan dapat membantu dalam pemodelan prediktif, seperti deteksi risiko diabetes atau komplikasi terkait glukosa.

6. Outlier Handling

Dalam analisis data, outlier atau data yang menyimpang jauh dari pola umum dapat mempengaruhi hasil analisis dan model. Oleh karena itu, penting untuk mendeteksi dan menangani outlier dengan tepat. Beberapa metode yang umum digunakan untuk mendeteksi outlier antara lain Z-score dan Interquartile Range (IQR).

Contoh Kasus:

Pada dataset kesehatan ini, kita akan menggunakan dua metode untuk mendeteksi dan menangani outlier:

  1. Z-score untuk mendeteksi outlier pada kadar glukosa.

  2. IQR untuk mendeteksi outlier pada indeks massa tubuh (BMI).

Contoh Kode R:


# Ensure all column names are lowercase
colnames(health_data) <- tolower(colnames(health_data))

# Get the exact name of glucose and BMI columns
glucose_col <- grep("glukosa|glucose", colnames(health_data), value = TRUE)[1]
bmi_col <- grep("imt|bmi", colnames(health_data), value = TRUE)[1]

# Z-score method for outlier detection (using Glucose)
z_scores <- scale(health_data[[glucose_col]])

data_outliers <- health_data %>%
  mutate(
    Outlier_Flag = ifelse(abs(z_scores) > 3, "Outlier", "Normal")
  )

# IQR method for outlier removal (using BMI)
Q1 <- quantile(health_data[[bmi_col]], 0.25, na.rm = TRUE)
Q3 <- quantile(health_data[[bmi_col]], 0.75, na.rm = TRUE)
IQR_val <- Q3 - Q1

data_outliers_IQR <- health_data %>%
  filter(
    .data[[bmi_col]] > (Q1 - 1.5 * IQR_val) &
    .data[[bmi_col]] < (Q3 + 1.5 * IQR_val)
  )

Metode Z-Score untuk Deteksi Outlier:

Z-score digunakan untuk mendeteksi seberapa jauh suatu nilai dari rata-rata dalam satuan deviasi standar. Dalam kasus ini, kita menghitung Z-score untuk kadar glukosa, dan jika Z-score lebih besar dari 3 atau lebih kecil dari -3, nilai tersebut dianggap sebagai outlier.

Langkah Penjelasan
scale(health_data[[glucose_col]]) Menghitung Z-score untuk kadar glukosa.
ifelse(abs(z_scores) > 3, “Outlier”, “Normal”) Menandai nilai yang memiliki Z-score lebih dari 3 atau kurang dari -3 sebagai outlier.

Metode IQR untuk Penghapusan Outlier:

Metode IQR menghitung rentang interkuartil (IQR) yang merupakan selisih antara kuartil ketiga (Q3) dan kuartil pertama (Q1). Nilai yang berada di luar rentang [Q1 - 1.5 IQR, Q3 + 1.5 IQR] dianggap sebagai outlier.

Langkah Penjelasan
quantile(health_data[[bmi_col]], 0.25) Menghitung kuartil pertama (Q1) dari data BMI.
quantile(health_data[[bmi_col]], 0.75) Menghitung kuartil ketiga (Q3) dari data BMI.
filter(.data[[bmi_col]] > (Q1 - 1.5 * IQR_val) & .data[[bmi_col]] < (Q3 + 1.5 * IQR_val)) Menyaring data BMI untuk menghapus nilai-nilai outlier di luar rentang IQR.

Manfaat Mengelola Outlier:

  • Deteksi Dini: Mengidentifikasi outlier dengan metode yang tepat memungkinkan pemahaman yang lebih baik tentang data dan membantu mendeteksi masalah dalam pengukuran atau kondisi yang tidak biasa.
  • Modeling: Menghapus atau menangani outlier dapat meningkatkan kinerja model prediktif dengan menghindari distorsi yang dapat disebabkan oleh data yang ekstrem.

Hasil Transformasi

Kesimpulan:

  • Dengan menggunakan metode Z-score dan IQR, kita dapat mendeteksi dan menangani outlier pada data kesehatan untuk memastikan bahwa analisis dan model yang dibangun lebih akurat dan representatif terhadap data asli.

7. Discretization

Discretization adalah proses mengubah variabel kontinu menjadi kategori atau interval. Hal ini sering dilakukan untuk meningkatkan pemahaman atau interpretasi data, serta memudahkan penerapan model klasifikasi. Salah satu contoh yang umum adalah mengubah usia menjadi kategori seperti “Muda”, “Paruh Baya”, dan “Tua”.

Contoh Kasus:

Pada dataset kesehatan ini, kita akan mendiskretisasikan kolom usia menjadi tiga kategori: 1. Young (Muda) 2. Middle-aged (Paruh Baya) 3. Old (Tua)

Kategori ini akan didasarkan pada pembagian kuantil data usia.

Contoh Kode R:



# Make sure column names are lowercase
colnames(health_data) <- tolower(colnames(health_data))

# Convert 'age' to numeric (if not already)
health_data <- health_data %>%
  mutate(usia = as.numeric(age))

# Binning 'age' into age categories
binning <- health_data %>%
  mutate(
    age_level = cut(
      age,
      breaks = quantile(age, probs = c(0, 0.33, 0.66, 1), na.rm = TRUE),
      labels = c("Young", "Middle-aged", "Old"),
      include.lowest = TRUE
    )
  )

Penjelasan:

  • cut(age, breaks = quantile(age, probs = c(0, 0.33, 0.66, 1), na.rm = TRUE)) digunakan untuk membagi usia berdasarkan kuantil.

    • 0-33% usia pertama akan digolongkan ke dalam kategori “Young” (Muda).

    • 34-66% usia kedua akan digolongkan ke dalam kategori “Middle-aged” (Paruh Baya).

    • 67-100% usia ketiga akan digolongkan ke dalam kategori “Old” (Tua).

  • Fungsi cut() ini juga memberikan label pada setiap kategori, sehingga memudahkan interpretasi data.

Manfaat Discretization:

  • Penyederhanaan Model: Dengan mengubah variabel kontinu menjadi kategori, kita dapat mengurangi kompleksitas model dan memudahkan interpretasi.
  • Memperbaiki Model Klasifikasi: Kategorisasi dapat meningkatkan kinerja model klasifikasi, terutama jika data kontinu memiliki distribusi yang sangat miring atau tidak normal.

Hasil Transformasi

Kesimpulan:

Discretization dapat bermanfaat untuk mempermudah pemahaman dan analisis data, terutama dalam kasus di mana hubungan antara variabel kontinu dan hasil yang diinginkan tidak linier atau sulit untuk dimodelkan secara langsung.

8. Seasonality

Seasonality atau musiman adalah pola yang muncul secara periodik dalam data yang terkait dengan waktu, seperti pola tahunan, bulanan, atau mingguan. Fitur seasonality sangat penting dalam analisis data time series untuk memahami fluktuasi yang terkait dengan perubahan musiman dalam tahun.

Pada dataset ini, kita akan membuat fitur musiman berdasarkan informasi tanggal untuk menangkap pola tahunan.

Contoh:

  • Fourier Transform untuk ekstraksi frekuensi.
  • Deteksi Musiman dalam data bulanan/tahunan.

Contoh Kasus:

Untuk memodelkan seasonality dalam dataset kesehatan ini, kita akan menambahkan fitur-fitur berikut: - Tahun (Year)

  • Hari dalam Tahun (Day of Year)

  • Fungsi Sinus dan Cosinus untuk mengubah data musiman ke dalam format numerik yang dapat digunakan oleh model machine learning.

Contoh Kode R:


# Ensure lowercase column names
colnames(health_data) <- tolower(colnames(health_data))

# Try to find the column that represents the date
date_col <- grep("tanggal|date", colnames(health_data), value = TRUE)[1]

# Convert the column to Date type if not already
health_data[[date_col]] <- as.Date(health_data[[date_col]])

# Create seasonality features
seasonality <- health_data %>%
  mutate(
    year = year(.data[[date_col]]),
    day_of_year = yday(.data[[date_col]]),
    days_in_year = if_else(leap_year(.data[[date_col]]), 366, 365),
    sin_year = sin(2 * pi * day_of_year / days_in_year),
    cos_year = cos(2 * pi * day_of_year / days_in_year)
  )

Penjelasan:

  • Tahun (Year): Menyimpan informasi tahun dari kolom tanggal.

  • Hari dalam Tahun (Day of Year): Menghitung hari ke-berapa dalam tahun tersebut.

  • Sinus dan Cosinus (sin_year dan cos_year): Mengonversi hari dalam tahun menjadi nilai sinus dan cosinus untuk menangkap sifat musiman dalam bentuk numerik. Ini adalah teknik umum untuk menghindari masalah dengan model yang tidak dapat menangani data musiman yang bersifat siklis.

Manfaat Seasonality:

  • Memahami Pola Musiman: Fitur musiman dapat membantu dalam memprediksi pola yang berulang, seperti fluktuasi kesehatan pada periode tertentu dalam setahun.
  • Peningkatan Akurasi Model: Dengan memasukkan informasi musiman dalam model, kita dapat meningkatkan kemampuan prediksi terutama untuk data time series.

Hasil Transformasi

Kesimpulan:

Fitur seasonality sangat berguna dalam dataset dengan komponen waktu yang mempengaruhi hasil, seperti kesehatan yang dapat dipengaruhi oleh perubahan musiman. Dengan menggunakan fitur-fitur musiman, model dapat lebih efektif dalam menangkap pola yang terkait dengan perubahan musiman dan meningkatkan akurasi prediksi.

Penutup

Transformasi data adalah tahap penting yang menentukan kualitas analisis dan pemodelan. Teknik-teknik yang telah dibahas seperti transformasi temporal, distribusi, scaling, encoding, feature engineering, hingga handling outlier, semuanya bertujuan untuk membuat data lebih “bersahabat” dengan algoritma analisis. Dengan pemilihan metode yang tepat, kita dapat meningkatkan akurasi model dan membuat interpretasi data menjadi lebih baik.

---  
title: "PEMROGRAMAN SAINS DATA 1"  
subtitle: "EXAM 1 SMT 2"  
author: "Dadan Ramdan Hidayat (52240028)"  
date: "`r format(Sys.Date(), '%B %d, %Y')`"  
output:  
  rmdformats::readthedown:   
    self_contained: true  
    thumbnails: true  
    lightbox: true  
    gallery: true  
    lib_dir: libs  
    df_print: "paged"  
    code_folding: "show"  
    code_download: true  
    css: "style.css"  
---  

<img src="FOTO TERBARU_11zon.jpg" alt="Logo" style="width:200px; display: block; margin: auto;">

# **Pendahuluan**  
Transformasi data adalah teknik dalam pemrosesan data yang bertujuan untuk mengubah format, struktur, atau nilai data agar lebih sesuai untuk analisis, eksplorasi, dan pemodelan. Beberapa alasan utama transformasi data adalah:  

- **Menstabilkan Variansi** – Data dengan skala yang sangat berbeda dapat menyebabkan model menjadi tidak stabil atau sulit dipahami. Dengan transformasi, distribusi data dapat disesuaikan agar lebih seragam.
- **Mengurangi Skewness** – Data sering kali memiliki distribusi yang miring (skewed), yang dapat mempengaruhi performa model statistik. Transformasi dapat membantu mendekatkan distribusi ke bentuk normal.
- **Menangani Outlier** – Outlier atau nilai ekstrem dapat mendistorsi hasil analisis dan pemodelan. Teknik transformasi dapat membantu mengurangi pengaruhnya.
- **Mengubah Data Kategorikal** – Data kategorikal tidak dapat langsung digunakan dalam banyak algoritma machine learning, sehingga perlu diubah menjadi bentuk numerik.
- **Mendeteksi Pola Musiman dan Tren** – Dalam analisis deret waktu, transformasi membantu mengidentifikasi pola musiman dan tren dengan lebih jelas.
- **Mengurangi Dimensi Data** – Ketika dataset memiliki terlalu banyak variabel, analisis menjadi sulit dan memakan waktu. Teknik seperti Principal Component Analysis (PCA) membantu menyederhanakan struktur data tanpa kehilangan informasi penting.

Laporan ini akan membahas berbagai teknik transformasi data.

---

```{r, echo=FALSE, warning=FALSE, message=FALSE}
# Ensure all required packages are installed
packages <- c("dplyr", "stringi", "lubridate", "DT")
new_packages <- packages[!(packages %in% installed.packages()[, "Package"])]
if(length(new_packages)) install.packages(new_packages)

# Load libraries
library(dplyr)
library(stringi)
library(lubridate)
library(DT)

# Create a complex dummy health dataset for data transformation
set.seed(42)
n <- 500

dates <- seq.Date(from = as.Date("2020-01-01"), to = as.Date("2024-12-31"), by = "day")
sample_dates <- sample(dates, n, replace = TRUE)

# Simulate health parameters
age <- sample(18:80, n, replace = TRUE)
bmi <- round(rnorm(n, mean = 25, sd = 4), 1)  # BMI (Body Mass Index)
blood_pressure <- round(rnorm(n, mean = 120, sd = 15), 1)  # Systolic BP
cholesterol <- round(rnorm(n, mean = 200, sd = 40), 1)  # Cholesterol (mg/dL)
glucose <- round(rnorm(n, mean = 90, sd = 20), 1)  # Glucose (mg/dL)
heart_rate <- round(rnorm(n, mean = 75, sd = 10), 1)  # Heart Rate (bpm)

# Simulate location and health condition
location <- sample(c("Jakarta", "Bandung", "Surabaya", "Medan", "Makassar"), n, replace = TRUE)
health_condition <- sample(c("Healthy", "Hypertension", "Diabetes", "Obesity", "Cardiovascular Disease"), n, replace = TRUE)

# Simulate seasonal impact on health
season <- case_when(
  month(sample_dates) %in% c(11, 12, 1, 2) ~ "Rainy Season",
  month(sample_dates) %in% c(6, 7, 8, 9) ~ "Dry Season",
  TRUE ~ "Transitional Season"
)

# Create the health dataset
health_data <- tibble(
  Patient_ID = stri_rand_strings(n, 12),
  Date = sample_dates,
  Age = age,
  BMI = bmi,
  Blood_Pressure = blood_pressure,
  Cholesterol = cholesterol,
  Glucose = glucose,
  Heart_Rate = heart_rate,
  Location = location,
  Health_Condition = health_condition,
  Season = season
)

# Show interactive table with download buttons
datatable(
  health_data,
  extensions = 'Buttons',
  options = list(
    dom = 'Bfrtip',
    buttons = c('copy', 'csv', 'excel', 'pdf', 'print'),
    scrollY = "400px",
    scrollCollapse = TRUE,
    paging = FALSE
  ),
  caption = htmltools::tags$caption(
    style = 'caption-side: top; text-align: left; 
             font-size: 18px; font-weight: bold;'
  ),
  class = 'stripe hover compact'
)
```

# Transformasi Data

# 1.Temporal Transformation

## 1.1 Lag, diff, rolling

Lagging adalah teknik yang digunakan untuk menggeser data ke belakang dalam satuan waktu tertentu. Ini sangat berguna dalam analisis deret waktu untuk memahami keterkaitan antara nilai saat ini dan masa lalu.

Teknik ini sering digunakan dalam model prediktif seperti ARIMA dan regresi deret waktu. Dengan menerapkan lagging, kita dapat melihat pola pergerakan suatu variabel terhadap waktu, yang memungkinkan analisis yang lebih mendalam.

### Kelebihan:  
- Membantu memahami hubungan temporal antara variabel.
- Berguna dalam pemodelan prediktif berbasis deret waktu.
- Membantu dalam pembuatan fitur baru untuk model machine learning berbasis deret waktu.

### Kekurangan:
- Dapat menyebabkan kehilangan data pada awal periode.
- Jika lag terlalu besar, informasi yang relevan bisa hilang.
- Tidak selalu efektif jika pola hubungan antarwaktu tidak konsisten.


*Contoh Penggunaan:*

- Dalam keuangan, harga saham hari ini bisa dipengaruhi oleh harga sebelumnya.
- Dalam meteorologi, suhu hari ini mungkin bergantung pada suhu beberapa hari yang lalu.

```{}

Temporal <- health_data %>%
  arrange(Patient_ID, Date) %>%
  group_by(Patient_ID) %>%
  mutate(
    Lag_BP = lag(Blood_Pressure),
    Diff_BP = Blood_Pressure - lag(Blood_Pressure),
    RollingMean_BP_3 = zoo::rollapply(Blood_Pressure, width = 3, FUN = mean, fill = NA, align = "right")
  ) %>%
  ungroup()
```  


### Penjelasan Fungsi 

| Fungsi | Tujuan |
|--------|------------------|
| arrange(Patient_ID, Date) | Mengurutkan data berdasarkan pasien dan tanggal untuk memastikan kronologi. |
| group_by(Patient_ID) | Agar transformasi dilakukan per individu, bukan seluruh dataset. |
| lag(Blood_Pressure) | Mengambil tekanan darah sebelumnya untuk masing-masing pasien. |
| Diff_BP | Selisih antara nilai sekarang dan nilai sebelumnya — digunakan untuk mendeteksi tren naik/turun. |
| rollapply(..., width = 3) | Rata-rata dari 3 nilai terakhir untuk membantu melihat tren yang lebih stabil (rolling mean). |


### Interpretasi Kesehatan

| Fitur Transformasi | Arti & Manfaat |
|----------------|------------------------------|
| Lag_BP               | Melihat efek masa lalu terhadap kondisi saat ini. Penting untuk model prediksi. |
| Diff_BP              | Mengindikasikan peningkatan atau penurunan tekanan darah. Bisa menandakan kondisi stabil atau memburuk. |
| RollingMean_BP_3     | Membantu memfilter fluktuasi jangka pendek. Jika nilai saat ini jauh di atas rata-rata, bisa jadi alarm anomali. |


### Hasil Transformasi 

```{r echo=FALSE, message=FALSE, warning=FALSE, echo=FALSE}

library(dplyr)
library(lubridate)
library(zoo)
library(bestNormalize)
library(DT)

Temporal <- health_data %>%
  arrange(Patient_ID, Date) %>%
  group_by(Patient_ID) %>%
  mutate(
    Lag_BP = lag(Blood_Pressure),
    Diff_BP = Blood_Pressure - lag(Blood_Pressure),
    RollingMean_BP_3 = zoo::rollapply(Blood_Pressure, width = 3, FUN = mean, fill = NA, align = "right")
  ) %>%
  ungroup()

DT::datatable(Temporal, caption = "Lag, Diff, Rolling - Blood Pressure")
```




Semua nilai *Lag_BP, Diff_BP, dan RollingMean_BP_3* bernilai NA karena ini adalah baris pertama untuk masing-masing pasien. Tanpa observasi sebelumnya, tidak mungkin menghitung nilai lag, selisih, atau rata-rata bergulir.


## 1.2 Extract Hour, Day, Month, Year

Ekstraksi waktu adalah proses mengambil bagian spesifik dari timestamp, seperti jam, hari, bulan, atau tahun.  
Ini berguna untuk analisis musiman atau pola perilaku pengguna berdasarkan waktu.

### Kelebihan:
- Membantu menemukan pola berdasarkan waktu (contoh: pembelian lebih banyak di akhir pekan).
- Memungkinkan pembuatan fitur baru dari data waktu.

### Kekurangan:
- Jika tidak relevan dengan analisis, fitur ini bisa menjadi noise.
- Membutuhkan format tanggal/waktu yang benar.

```{}

Extract <- health_data %>%
  mutate(
    Day_of_Week = weekdays(Date),
    Month = month(Date, label = TRUE),
    Year = year(Date),
    Is_Weekend = ifelse(Day_of_Week %in% c("Saturday", "Sunday"), 1, 0),
    Location = as.factor(Location),
    Health_Condition = as.factor(Health_Condition)
  ) %>%
  bind_cols(
    as.data.frame(model.matrix(~ Location - 1, data = .)),
    as.data.frame(model.matrix(~ Health_Condition - 1, data = .))
  )
``` 



### Penjelasan Fungsi 

| Fungsi | Tujuan |
|--------|--------|
| weekdays(Date) | Menentukan nama hari berdasarkan tanggal (misalnya Senin, Selasa, dll.). |
| month(Date, label = TRUE) | Mengambil bulan dari tanggal dan memberi label (contoh: Jan, Feb, dst.). |
| year(Date) | Mengambil tahun dari tanggal untuk analisis musiman atau tahunan. |
| ifelse(Day_of_Week %in% c("Saturday", "Sunday"), 1, 0) | Menentukan apakah tanggal tersebut jatuh pada akhir pekan (Sabtu/Minggu). |
| as.factor(Location) | Mengubah lokasi menjadi variabel kategori. |
| as.factor(Health_Condition) | Mengubah kondisi kesehatan menjadi variabel kategori. |
| model.matrix(~ Location - 1) | Menggunakan one-hot encoding untuk mengonversi lokasi menjadi kolom-kolom biner. |
| model.matrix(~ Health_Condition - 1) | Menggunakan one-hot encoding untuk mengonversi kondisi kesehatan menjadi kolom-kolom biner. |



###  Interpretasi Kesehatan:

| Fitur Transformasi | Arti & Manfaat |
|------------------------|---------------------|
| Day_of_Week          | Menyediakan informasi hari dalam minggu. Berguna untuk mendeteksi pola harian, misalnya apakah ada lebih banyak kunjungan rumah sakit di akhir pekan. |
| Month                | Menyediakan informasi tentang bulan. Dapat digunakan untuk mendeteksi pola musiman dalam data, seperti peningkatan kasus penyakit tertentu di bulan tertentu. |
| Year                 | Memberikan informasi tahunan. Berguna untuk analisis jangka panjang dan tren tahunan, seperti peningkatan atau penurunan kesehatan masyarakat dari tahun ke tahun. |
| Is_Weekend           | Menunjukkan apakah data berasal dari akhir pekan atau tidak. Bisa menjadi fitur untuk melihat perilaku atau pola yang terjadi pada hari-hari tertentu. |
| Location (One-hot)   | Mengonversi lokasi menjadi variabel biner. Dapat digunakan untuk menganalisis apakah lokasi tertentu berhubungan dengan kondisi kesehatan tertentu. |
| Health_Condition (One-hot) | Mengonversi kondisi kesehatan menjadi variabel biner. Membantu dalam analisis terkait dengan jenis kondisi kesehatan dan pengaruhnya terhadap variabel lainnya. |



### Hasil Transformasi 

Dari hasil transformasi data yang melibatkan ekstraksi informasi waktu dan encoding untuk lokasi serta kondisi kesehatan pasien, berikut adalah contoh tampilan data yang diperoleh:


```{r echo=FALSE, message=FALSE, warning=FALSE, echo=FALSE}

library(dplyr)
library(lubridate)
library(zoo)
library(bestNormalize)
library(DT)

Extract <- health_data %>%
  mutate(
    Day_of_Week = weekdays(Date),
    Month = month(Date, label = TRUE),
    Year = year(Date),
    Is_Weekend = ifelse(Day_of_Week %in% c("Saturday", "Sunday"), 1, 0),
    Location = as.factor(Location),
    Health_Condition = as.factor(Health_Condition)
  ) %>%
  bind_cols(
    as.data.frame(model.matrix(~ Location - 1, data = .)),
    as.data.frame(model.matrix(~ Health_Condition - 1, data = .))
  )

DT::datatable(Extract, caption = "Extract Date Components")
```



### Kesimpulan

- *Ekstraksi Waktu:* Data berhasil diubah dengan mengekstraksi elemen-elemen waktu seperti *Hari dalam Minggu, Bulan, dan Tahun*, yang memungkinkan analisis lebih lanjut terkait dengan pola musiman dan perilaku berdasarkan waktu.
  - Is_Weekend dihasilkan dengan memberikan nilai 1 jika hari tersebut adalah akhir pekan (Sabtu atau Minggu) dan 0 untuk hari lainnya, memungkinkan identifikasi tren berdasarkan akhir pekan atau hari kerja.
  
- *Location & Health Condition Encoding:* Lokasi dan kondisi kesehatan pasien telah diubah menjadi *variabel biner untuk memudahkan analisis statistik dan pemodelan prediktif.
  - Variabel lokasi seperti *Location_Jakarta, Location_Bandung, dan Location_Surabaya* diubah menjadi indikator biner untuk setiap lokasi.
  - Kondisi kesehatan pasien, seperti *Health_Condition_Healthy, Health_Condition_Hypertension, dan Health_Condition_Diabetes*, juga dipetakan dalam bentuk variabel biner yang menggambarkan kondisi medis setiap individu.


## 1.3 Cumulative Sum/Mean/Count

Teknik kumulatif menghitung total berjalan (running total), jumlah kemunculan, atau rata-rata kumulatif dari data berdasarkan waktu.

### Kelebihan:
- Sangat berguna untuk melihat pertumbuhan akumulatif.
- Membantu dalam memodelkan perilaku jangka panjang.

### Kekurangan:

- Hasil kumulatif bisa mengaburkan perubahan lokal kecil.

- Bisa mempengaruhi distribusi data menjadi lebih smooth (terlalu halus).

*Contoh Penggunaan dalam R:*

```{}

Temporal3 <- health_data %>%
  group_by(Patient_ID) %>%
  mutate(
    Cumulative_BP = cumsum(Blood_Pressure),
    Cumulative_Glucose = cumsum(Glucose),
    Cumulative_AvgHR = cummean(Heart_Rate)
  ) %>%
  ungroup()
``` 



### Penjelasan Fungsi 

| Fungsi | Tujuan |
|--------|--------|
| cumsum(Blood_Pressure) | Menghitung jumlah kumulatif tekanan darah sepanjang waktu. |
| cumsum(Glucose) | Menghitung jumlah kumulatif kadar glukosa sepanjang waktu. |
| cummean(Heart_Rate) | Menghitung rata-rata kumulatif detak jantung sepanjang waktu. |


### Interpretasi Kesehatan:

| Fitur Transformasi | Arti & Manfaat |
|-----------------|----------------------------------|
| Cumulative_BP         | Menyediakan total kumulatif dari tekanan darah pasien sepanjang waktu. Ini bisa memberikan gambaran mengenai peningkatan atau penurunan kondisi kesehatan secara keseluruhan, misalnya dalam kasus hipertensi. |
| Cumulative_Glucose    | Menyediakan total kumulatif kadar glukosa pasien. Ini dapat membantu memantau fluktuasi kadar glukosa sepanjang waktu dan memberikan gambaran tentang kestabilan kondisi pasien dengan diabetes. |
| Cumulative_AvgHR      | Menyediakan rata-rata kumulatif detak jantung pasien. Ini dapat membantu melihat tren detak jantung pasien dari waktu ke waktu, apakah terjadi peningkatan atau penurunan yang signifikan. |


### Hasil Transformasi

```{r echo=FALSE, message=FALSE, warning=FALSE, echo=FALSE}

library(dplyr)
library(lubridate)
library(zoo)
library(bestNormalize)
library(DT)

Temporal3 <- health_data %>%
  group_by(Patient_ID) %>%
  mutate(
    Cumulative_BP = cumsum(Blood_Pressure),
    Cumulative_Glucose = cumsum(Glucose),
    Cumulative_AvgHR = cummean(Heart_Rate)
  ) %>%
  ungroup()

DT::datatable(Temporal3, caption = "Cumulative Values")
```

### Kesimpulan:

- *Cumulative Sum (cumsum)* digunakan untuk mengukur total kumulatif dari variabel tertentu (seperti tekanan darah atau kadar glukosa) dari waktu ke waktu. Teknik ini sangat berguna untuk memahami bagaimana suatu kondisi berkembang dalam jangka panjang.

- *Cumulative Mean (cummean)* digunakan untuk melihat tren rata-rata jangka panjang, seperti detak jantung. Ini dapat membantu dalam memantau kestabilan kondisi kesehatan pasien.

- *Kelemahan teknik kumulatif*: Hasil kumulatif bisa mempengaruhi distribusi data, membuat data terlihat lebih smooth dan dapat mengaburkan perubahan lokal kecil yang mungkin signifikan. Oleh karena itu, harus digunakan dengan hati-hati tergantung pada tujuan analisis.

---

# 2.Transformasi Distribusi

## 2.1 Log Transform

```{}

min_positive <- min(health_data$Glucose[health_data$Glucose > 0])

Log <- health_data %>%
  mutate(
    Safe_Glucose = ifelse(Glucose <= 0, min_positive, Glucose),
    Log_Glucose = log1p(Safe_Glucose)
  )
```


### Penjelasan Fungsi

| Fungsi | Tujuan |
|--------|--------|
| min(health_data$Glucose[health_data$Glucose > 0]) | Mencari nilai glukosa positif terkecil, untuk menggantikan nilai nol atau negatif. |
| ifelse(Glucose <= 0, min_positive, Glucose) | Mengganti nilai glukosa nol atau negatif dengan nilai glukosa positif terkecil agar aman untuk transformasi logaritma. |
| log1p(Safe_Glucose) | Menghitung logaritma natural dari (glukosa + 1), agar distribusi data lebih normal dan menghindari log(0). |

---

### Interpretasi Kesehatan 

| Fitur Transformasi | Arti & Manfaat |
|------------------------|---------------------|
| Safe_Glucose         | Menjamin semua nilai glukosa bernilai positif sebelum transformasi logaritma. Ini penting karena log(0) tidak terdefinisi, dan nilai nol bisa muncul akibat kesalahan pencatatan atau alat medis. |
| Log_Glucose          | Transformasi logaritma membuat distribusi glukosa yang awalnya miring (skewed) menjadi lebih normal. Ini membantu meningkatkan performa model prediktif dan analisis statistik. |

---

### Hasil Transfortasi 

```{r, message=FALSE, warning=FALSE, echo=FALSE}

library(dplyr)
library(lubridate)
library(zoo)
library(bestNormalize)
library(DT)

min_positive <- min(health_data$Glucose[health_data$Glucose > 0])

Log <- health_data %>%
  mutate(
    Safe_Glucose = ifelse(Glucose <= 0, min_positive, Glucose),
    Log_Glucose = log1p(Safe_Glucose)
  )

DT::datatable(Log, caption = "Log Transform on Glucose")
```



### Kesimpulan 

- Transformasi log1p() (log(x + 1)) berguna untuk menangani data skewed dan nilai nol, terutama dalam data kesehatan seperti glukosa.
- Mengganti nilai 0 atau negatif dengan nilai minimum positif adalah strategi robust untuk menghindari error matematis.
- Teknik ini sering digunakan sebelum pemodelan statistik atau machine learning, agar hasil analisis menjadi lebih akurat dan stabil.

---

## 2.2 Box-Cox


```{}


Box_Cox <- health_data %>%
  mutate(
    YeoJ_BP = bestNormalize(Blood_Pressure)$x.t,
    YeoJ_Chol = bestNormalize(Cholesterol)$x.t
  )
  
```

### Penjelasan Fungsi 

| Fungsi | Tujuan |
|--------|--------|
| bestNormalize(Blood_Pressure)$x.t | Menerapkan transformasi normalisasi terbaik (seperti Yeo-Johnson) ke variabel tekanan darah untuk membuat distribusinya lebih mendekati normal. |
| bestNormalize(Cholesterol)$x.t | Menerapkan transformasi normalisasi terbaik ke variabel kolesterol agar distribusinya lebih simetris dan cocok untuk analisis statistik atau machine learning. |

---

### Interpretasi Kesehatan 

| Fitur Transformasi | Arti & Manfaat |
|------------------------|---------------------|
| YeoJ_BP | Menghasilkan versi transformasi dari Blood_Pressure yang sudah dinormalisasi menggunakan metode Yeo-Johnson atau metode terbaik lainnya. Ini penting untuk analisis statistik yang mengasumsikan distribusi normal, seperti regresi linier. |
| YeoJ_Chol | Menghasilkan versi transformasi dari Cholesterol yang telah dinormalisasi. Ini berguna untuk mengurangi pengaruh outlier dan membuat data lebih cocok untuk pemodelan. |

---

### Hasil Transformasi

```{r, message=FALSE, warning=FALSE, echo=FALSE}

library(dplyr)
library(lubridate)
library(zoo)
library(bestNormalize)
library(DT)

Box_Cox <- health_data %>%
  mutate(
    YeoJ_BP = bestNormalize(Blood_Pressure)$x.t,
    YeoJ_Chol = bestNormalize(Cholesterol)$x.t
  )

DT::datatable(Box_Cox, caption = "Box-Cox / Yeo-Johnson Transform")
```


### Kesimpulan 

- Fungsi bestNormalize() secara otomatis memilih transformasi terbaik (misalnya Yeo-Johnson, Box-Cox, log, atau lainnya) untuk membuat distribusi data lebih mendekati normal.
- Transformasi ini sangat bermanfaat ketika variabel input memiliki distribusi skewed atau mengandung outlier yang dapat mempengaruhi hasil analisis.
- Penggunaan normalisasi seperti ini sering diterapkan sebelum regresi, klasifikasi, atau clustering agar model lebih akurat dan stabil.

---

## 2.3 Variance Stabilization

```{}

Variance_Stab <- health_data %>%
  mutate(
    Sqrt_Cholesterol = sqrt(Cholesterol),
    Sqrt_BMI = sqrt(BMI)
  )
```  




### Penjelasan Fungsi 

| Fungsi                         | Tujuan                                                                 |
|--------------------------------|------------------------------------------------------------------------|
| sqrt(Cholesterol)            | Mentransformasi kolesterol dengan akar kuadrat untuk menstabilkan variansi. |
| sqrt(BMI)                    | Mentransformasi indeks massa tubuh (BMI) dengan akar kuadrat agar distribusinya lebih normal dan mengurangi efek outlier. |

---

### Interpretasi Kesehatan 

| Fitur Transformasi | Arti & Manfaat |
|----------------------|-------------------------------------|
| Sqrt_Cholesterol   | Mengurangi sebaran ekstrem pada nilai kolesterol tinggi. Ini membantu dalam analisis regresi atau machine learning agar model tidak terlalu dipengaruhi oleh outlier. |
| Sqrt_BMI           | Membantu menstabilkan varians BMI dan mendekatkan distribusi ke bentuk normal. Ini penting jika data akan digunakan dalam model statistik yang mengasumsikan distribusi normal. |

---

### Hasil Interpretasi 


```{r, message=FALSE, warning=FALSE, echo=FALSE}

library(dplyr)
library(lubridate)
library(zoo)
library(bestNormalize)
library(DT)

Variance_Stab <- health_data %>%
  mutate(
    Sqrt_Cholesterol = sqrt(Cholesterol),
    Sqrt_BMI = sqrt(BMI)
  )

DT::datatable(Variance_Stab, caption = "Variance Stabilization using sqrt()")
```


### Kesimpulan 

- Transformasi akar kuadrat (sqrt) adalah metode sederhana dan efektif untuk menstabilkan variansi pada data yang positif skewed (condong ke kanan).
- Ini penting dalam analisis data medis karena banyak nilai biometrik (seperti kolesterol dan BMI) tidak terdistribusi normal dan bisa memiliki outlier.
- Teknik ini dapat meningkatkan performa dan interpretabilitas model statistik yang sensitif terhadap bentuk distribusi data.


---


# 3. Scaling & Normalization 

## 3.1 Standardization (Z-score)

Proses mengubah variabel numerik yang memiliki skala berbeda menjadi skala yang sama dengan rata-rata 0 dan deviasi standar 1.

```{}

# Z-score Normalization
Z_score <- health_data %>%
  mutate(
    Age_Z = scale(age),
    BMI_Z = scale(bmi),
    Blood_Pressure_Z = scale(blood_pressure),
    Cholesterol_Z = scale(cholesterol),
    Glucose_Z = scale(glucose)
  )
```  



### Penjelasan Kode 

| Fungsi                          | Tujuan                                                                 |
|--------------------------------|------------------------------------------------------------------------|
| scale(Age)                   | Menstandarkan usia agar berada dalam skala satuan.                    |
| scale(BMI)                   | Menstandarkan nilai indeks massa tubuh (IMT).                         |
| scale(Blood_Pressure)        | Menstandarkan tekanan darah agar tidak dominan karena skalanya besar. |
| scale(Cholesterol)           | Menstandarkan kolesterol agar setara dengan fitur lain.               |
| scale(Glucose)               | Menstandarkan glukosa agar adil dalam model prediksi.                 |
| scale(Heart_Rate)            | Menstandarkan detak jantung agar memiliki skala yang sama.            |


###  Interpretasi Kesehatan

| Fitur Transformasi | Arti & Manfaat |
|----------------------|------------------|
| Age_std            | Membantu melihat pengaruh usia tanpa dipengaruhi oleh rentang besar pada data usia. |
| BMI_Std            | Membantu mendeteksi pasien dengan risiko obesitas yang memengaruhi tekanan darah. |
| bloodpreasure_Std  | Membuat tekanan darah menjadi fitur yang sebanding untuk prediksi atau klasifikasi. |
| kolestrol_std      | Menyetarakan pengaruh kolesterol dalam model prediksi hipertensi. |
| Glukosa_std        | Memungkinkan pengaruh glukosa diamati secara proporsional tanpa bias skala. |
| Heartrate_std      | Mempermudah analisis tren detak jantung terhadap kondisi lain secara setara. |


### Hasil Transformasi

```{r echo=FALSE, message=FALSE,warning=FALSE}

# Z-Score Standardization

library(dplyr)
library(lubridate)
library(zoo)
library(bestNormalize)
library(DT)

# Z-score Normalization
Z_score <- health_data %>%
  mutate(
    Age_Z = scale(age),
    BMI_Z = scale(bmi),
    Blood_Pressure_Z = scale(blood_pressure),
    Cholesterol_Z = scale(cholesterol),
    Glucose_Z = scale(glucose)
  )

# Lihat hasil awal
DT::datatable(Z_score, caption = "Z_score()")

```




### Kesimpulan

Variabel-variabel seperti Age, BMI, Blood Pressure, Cholesterol, Glucose, dan Heart Rate yang sebelumnya memiliki rentang skala yang sangat berbeda sekarang ada di skala yang sama. Penskalaan ini bisa membantu model machine learning untuk tidak cenderung menganggap satu fitur lebih penting daripada yang lain hanya karena memiliki rentang yang lebih besar.

Dalam mendeteksi pasien yang memiliki faktor risiko dalam mempengaruhi tekanan darah yang akan mengakibatkan  hipertensi bisa diliat dari nilai BMI, kolestrol dan glukosa. ketiga fitur itu memiliki rentang skala yang berbeda beda ada yang di puluhan ataupun ratusan. Model mechine learning akan memberi bobot pada fitur kolestrol karena memiliki rentang yang besar. Setelah di skala ketiga fitur itu ada di skala satuan. Disini model bisa menilai dari ketiga fitur tersebut apakah bisa mempengaruhi tekanan darah tinggi atau tidak yang akan mengakibatkan hipertensi. 

Kekurangan Skala ini masih terpengaruh terhadap outlier dibandingkan dengan Robust Scaler. 


## 3.2 Robust Scaler 

Proses merubah variabel numerik yang memiliki skala berbeda menjadi skala yang sama dalam dataset dan tahan terhadap outlier. Namun, masih terpengaruhi oleh nilai yang sangat ekstrim. Penskalaan ini diperkuat dengan median dan IQR dari tiap fitur. 

```{}

# RobustScaler

Robust <- health_data %>%
  mutate(
    Age_robust = (age - median(age)) / IQR(age),
    BMI_robust = (bmi - median(bmi)) / IQR(bmi),
    BloodPressure_robust = (blood_pressure - median(blood_pressure)) / IQR(blood_pressure),
    Cholesterol_robust = (cholesterol - median(cholesterol)) / IQR(cholesterol),
    Glucose_robust = (glucose - median(glucose)) / IQR(glucose),
    HeartRate_robust = (heart_rate - median(heart_rate)) / IQR(heart_rate)
  )
```  



### Penjelasan Kode 

| Fungsi Transformasi                        | Tujuan                                                                 |
|-------------------------------------------|------------------------------------------------------------------------|
| (age - median(age)) / IQR(age)          | Menstandarkan usia berdasarkan median dan IQR agar tidak dipengaruhi outlier. |
| (bmi - median(bmi)) / IQR(bmi)          | Menyesuaikan nilai BMI ke skala yang lebih netral terhadap nilai ekstrem.     |
| (blood_pressure - median(...)) / IQR(...) | Mengubah tekanan darah ke skala yang stabil dan tahan terhadap lonjakan nilai. |
| (cholesterol - median(...)) / IQR(...)  | Mengatur kolesterol agar setara skalanya dengan fitur lain meskipun outlier ada. |
| (glucose - median(...)) / IQR(...)      | Menormalkan kadar gula darah agar tidak didominasi oleh nilai ekstrem.       |
| (heart_rate - median(...)) / IQR(...)   | Menstabilkan nilai detak jantung untuk analisis komparatif antar pasien.     |


### Interpretasi Kesehatan

| Fitur Transformasi      | Arti & Manfaat |
|---------------------------|------------------|
| Age_robust                | Usia pasien kini distandarisasi tanpa dipengaruhi ekstrem umur yang terlalu muda atau tua. Berguna untuk model prediktif yang sensitif terhadap variasi usia. |
| BMI_robust                | Menilai risiko kelebihan berat badan terhadap hipertensi secara adil dan netral. |
| BloodPressure_robust      | Memberi gambaran tekanan darah yang adil saat dibandingkan antar pasien dengan data bervariasi. |
| Cholesterol_robust        | Menghindari bias model terhadap pasien dengan kadar kolesterol sangat tinggi. |
| Glucose_robust            | Memastikan model melihat pola kadar glukosa tanpa tertipu nilai yang terlalu ekstrem. |
| HeartRate_robust          | Menjadikan detak jantung setara secara skala dengan fitur lain untuk analisis prediksi kesehatan jantung. |


### Hasil Transformasi

```{r echo=FALSE, message=FALSE, warning=FALSE}


library(dplyr)
library(lubridate)
library(zoo)
library(bestNormalize)
library(DT)

# RobustScaler

Robust <- health_data %>%
  mutate(
    Age_robust = (age - median(age)) / IQR(age),
    BMI_robust = (bmi - median(bmi)) / IQR(bmi),
    BloodPressure_robust = (blood_pressure - median(blood_pressure)) / IQR(blood_pressure),
    Cholesterol_robust = (cholesterol - median(cholesterol)) / IQR(cholesterol),
    Glucose_robust = (glucose - median(glucose)) / IQR(glucose),
    HeartRate_robust = (heart_rate - median(heart_rate)) / IQR(heart_rate)
  )

# Lihat hasil awal
DT::datatable(Robust, caption = "Robust Scaler()")
```



### Kesimpulan 

Sama hal nya dengan Skala Standarisasi, Robust scaler memiliki skala yang lebih kecil dibanding dengan Skala (standarisasi) karena median dan IQR tidak dipengaruhi oleh nilai ekstrem yang jauh dari distribusi data lainnya. Ini menjadikannya lebih stabil saat data memiliki outlier.

Ini membuat model mampu mengevaluasi pengaruh BMI, kolesterol, dan glukosa secara adil terhadap tekanan darah, baik sistolik maupun diastolik. Akhirnya, ini mendukung proses deteksi risiko hipertensi dengan pendekatan statistik yang lebih akurat dan tidak bias.

## 3.3 Normalization 

Proses merubah skala dalam rentang tertentu umumnya 0-1 dengan menggunakan nilai minimum dan maksimum yang menghasilkan keseimbangan data. Normalisasi ini akan sangat terpengaruh oleh nilai ekstrem.

```{}

# Min-Max Normalization
Min_Max <- health_data %>%
  mutate(
    Age_Norm = (Age - min(Age, na.rm = TRUE)) / (max(Age, na.rm = TRUE) - min(Age, na.rm = TRUE)),
    BMI_Norm = (BMI - min(BMI, na.rm = TRUE)) / (max(BMI, na.rm = TRUE) - min(BMI, na.rm = TRUE)),
    Blood_Pressure_Norm = (Blood_Pressure - min(Blood_Pressure, na.rm = TRUE)) / (max(Blood_Pressure, na.rm = TRUE) - min(Blood_Pressure, na.rm = TRUE)),
    Cholesterol_Norm = (Cholesterol - min(Cholesterol, na.rm = TRUE)) / (max(Cholesterol, na.rm = TRUE) - min(Cholesterol, na.rm = TRUE)),
    Glucose_Norm = (Glucose - min(Glucose, na.rm = TRUE)) / (max(Glucose, na.rm = TRUE) - min(Glucose, na.rm = TRUE))
  )
```  



### Penjelasan Kode 

| Fungsi | Tujuan |
|--------|--------|
| (x - min(x)) / (max(x) - min(x)) | Mengubah skala data agar berada dalam rentang 0 hingga 1, tanpa mengubah bentuk distribusi aslinya. Berguna untuk algoritma machine learning yang sensitif terhadap skala, seperti KNN dan SVM. |
| na.rm = TRUE | Mengabaikan nilai missing agar proses normalisasi tetap berjalan tanpa error. |


### Interpretasi Kesehatan

| Fitur Ternormalisasi | Arti & Manfaat |
|------------------------|------------------|
| Age_Norm               | Mengonversi umur pasien ke skala 0–1 untuk memastikan model tidak bias terhadap rentang usia yang luas. |
| BMI_Norm               | Memastikan nilai indeks massa tubuh dibandingkan secara adil dengan fitur lain. |
| Blood_Pressure_Norm    | Menstandarkan tekanan darah agar bisa dibandingkan langsung dengan variabel lain dalam model prediktif. |
| Cholesterol_Norm       | Membuat kadar kolesterol dapat diinterpretasikan dalam skala seragam. |
| Glucose_Norm           | Membantu dalam menyeimbangkan fitur glukosa dengan fitur lainnya tanpa memperbesar bobotnya. |


### Hasil Transformasi

```{r echo=FALSE, message=FALSE, warning=FALSE}
library(dplyr)
library(lubridate)
library(zoo)
library(bestNormalize)
library(DT)

# Pastikan nama kolom sudah bersih
colnames(health_data) <- make.names(names(health_data))


# Min-Max Normalization
Min_Max <- health_data %>%
  mutate(
    Age_Norm = (Age - min(Age, na.rm = TRUE)) / (max(Age, na.rm = TRUE) - min(Age, na.rm = TRUE)),
    BMI_Norm = (BMI - min(BMI, na.rm = TRUE)) / (max(BMI, na.rm = TRUE) - min(BMI, na.rm = TRUE)),
    Blood_Pressure_Norm = (Blood_Pressure - min(Blood_Pressure, na.rm = TRUE)) / (max(Blood_Pressure, na.rm = TRUE) - min(Blood_Pressure, na.rm = TRUE)),
    Cholesterol_Norm = (Cholesterol - min(Cholesterol, na.rm = TRUE)) / (max(Cholesterol, na.rm = TRUE) - min(Cholesterol, na.rm = TRUE)),
    Glucose_Norm = (Glucose - min(Glucose, na.rm = TRUE)) / (max(Glucose, na.rm = TRUE) - min(Glucose, na.rm = TRUE))
  )

# Tampilkan tabel interaktif hasil normalisasi
DT::datatable(Min_Max, caption = "Min-Max Normalization of Health Data")
```



### Kesimpulan 

Sama hal nya dengan Scaling, normalisasi ini untuk merubah rentang agar model bisa menganggap data di setiap fitur nya memiliki bobot yang sama. Hanya saja jika normalisasi dalam rentang diantara 0 sampai 1. Sedangkan, skala masih ada nilai yang rentang diatas nilai 1. 

Kelebihan dalam normalisasi yaitu menjaga data dalam rentang yang seragam tanpa dipengaruhi outlier secara ekstrem. dan Kelemahannya yaitu sangat sensitif terhadap outlier, karena min() dan max() bisa terpengaruh nilai ekstrem.



# 4. Kategorial Encoding 

## 4.1 One-Hot Encoding

One-hot encoding adalah metode transformasi variabel kategorik menjadi bentuk numerik biner (0/1) agar bisa digunakan dalam analisis statistik atau machine learning.

### Kelebihan:
- Menghilangkan makna ordinal dari kategori (tidak mengasumsikan urutan).
- Cocok untuk algoritma yang tidak bisa menangani data kategorik secara langsung.

### Kekurangan:
- Menambah jumlah fitur secara signifikan (terutama jika kategori banyak).
- Bisa menyebabkan curse of dimensionality.

*Contoh Penggunaan dalam R:*

```{}

categorical_cols <- names(health_data)[sapply(health_data, function(x) is.factor(x) || is.character(x))]
one_hot <- dummy_cols(
  health_data,
  select_columns = categorical_cols,
  remove_first_dummy = TRUE,
  remove_selected_columns = TRUE
)
```



### Penjelasan Fungsi 

| Fungsi | Tujuan |
|--------|--------|
| dummy_cols() | Membuat kolom dummy dari data kategorik. |
| remove_first_dummy = TRUE | Menghindari dummy variable trap (multikolinearitas) dengan menghapus satu kategori. |
| remove_selected_columns = TRUE | Menghapus kolom kategorik asli dari dataset. |


### Interpretasi Kesehatan:

| Fitur One-Hot | Makna |
|------------------|---------|
| Location_Bandung = 1 | Pasien berasal dari Bandung. |
| Health_Condition_Diabetes = 1 | Pasien memiliki kondisi diabetes. |


### Hasil Transformasi

```{r echo=FALSE, message=FALSE, warning=FALSE}
library(fastDummies)
library(DT)

categorical_cols <- names(health_data)[sapply(health_data, function(x) is.factor(x) || is.character(x))]
one_hot <- dummy_cols(
  health_data,
  select_columns = categorical_cols,
  remove_first_dummy = TRUE,
  remove_selected_columns = TRUE
)

DT::datatable(one_hot, caption = "Hasil One-Hot Encoding (Tanpa Kolom Pertama dan Asli)")
```



### Kesimpulan:

- Transformasi ini mempermudah penggunaan data kategorik dalam model prediksi dan analisis statistik.

- Menghindari kesalahan interpretasi urutan pada variabel kategorik.

- Cocok digunakan bersama metode statistik dan machine learning modern.


## 4.2 Frequency Encoding

Frequency encoding adalah metode pengkodean data kategorik dengan mengganti setiap kategori dengan frekuensinya dalam data. Artinya, nilai kategori yang lebih sering muncul akan mendapatkan nilai numerik yang lebih tinggi.

### Kelebihan:
- Tidak menambah dimensi seperti one-hot encoding.

- Menyimpan informasi distribusi kategori.

- Efisien untuk dataset dengan banyak kategori unik.

### Kekurangan:
- Tidak cocok jika kategori dengan frekuensi yang sama memiliki makna berbeda.

- Bisa memunculkan data leakage jika tidak dilakukan dengan hati-hati (misalnya saat digunakan sebelum data split).

*Contoh Penggunaan dalam R:*

```{}

# Fungsi frequency encoding
freq_enc <- function(col) {
  tab <- table(col)
  return(as.numeric(tab[col]) / length(col))
}

# Pastikan kolom lowercase
colnames(health_data) <- tolower(colnames(health_data))

# Kolom yang ingin di-encode
target_cols <- c("year", "location", "health_condition")
available_cols <- intersect(target_cols, colnames(health_data))

# Encoding frekuensi
Frequency <- health_data %>%
  mutate(across(all_of(available_cols), ~ freq_enc(.), .names = "{.col}_freq"))
```



### Penjelasan Fungsi 


| Fungsi | Tujuan |
|--------|-------------------------|
| table(col) | Menghitung jumlah kemunculan tiap kategori. |
| as.numeric(tab[col]) / length(col) | Mengubah nilai kategori menjadi proporsi kemunculannya. |
| across(..., .names = "{.col}_freq") | Menambahkan nama kolom hasil encoding. |


### Interpretasi Kesehatan:

| Fitur Encoded | Makna |
|------------|-------------------------------------|
| location_freq = 0.30 | Lokasi tersebut muncul sebanyak 30% dari total data. |
| health_condition_freq = 0.10 | Kondisi kesehatan tersebut hanya muncul di 10% data. |


### Hasil Transformasi

```{r, echo=FALSE, message=FALSE, warning=FALSE}
library(dplyr)
library(DT)

# Fungsi frequency encoding
freq_enc <- function(col) {
  tab <- table(col)
  return(as.numeric(tab[col]) / length(col))
}

# Pastikan kolom lowercase
colnames(health_data) <- tolower(colnames(health_data))

# Kolom yang ingin di-encode
target_cols <- c("year", "location", "health_condition")
available_cols <- intersect(target_cols, colnames(health_data))

# Encoding frekuensi
Frequency <- health_data %>%
  mutate(across(all_of(available_cols), ~ freq_enc(.), .names = "{.col}_freq"))

# Tampilkan hasil
DT::datatable(Frequency, caption = "Frequency Encoding")
```



### Kesimpulan:

- Frequency encoding memberikan bobot proporsional terhadap kemunculan kategori.

- Lebih ringan secara komputasi dibanding one-hot encoding, namun tetap menyimpan makna statistik dari data kategorik.

- Cocok digunakan dalam model linear dan tree-based seperti Random Forest dan XGBoost.


# 5. Feature Engineering

Feature engineering adalah proses menciptakan fitur-fitur baru dari data yang ada untuk meningkatkan performa model machine learning. Salah satu teknik yang sering digunakan adalah *interaction features*, yaitu menggabungkan dua atau lebih fitur untuk membentuk fitur baru yang bisa menangkap hubungan nonlinier antar variabel.


## 5.1 Interaction Features

Interaction features dibuat dengan mengalikan atau menggabungkan dua fitur untuk merepresentasikan hubungan antara keduanya. Dalam kasus ini, dibuat fitur interaksi antara *umur (age)* dan *BMI (Body Mass Index)* untuk melihat dampak gabungan usia dan berat badan terhadap kesehatan.

### Kegunaan:

- Membantu model menangkap efek gabungan antar 

- Berguna dalam model linear yang tidak secara eksplisit menangkap interaksi antar fitur.

### Contoh Kode R:

```{}

# Simpan nama kolom BMI ke variabel
bmi_col <- grep("bmi|imt", colnames(health_data), value = TRUE)[1]

# Buat interaksi antara age dan BMI
data_interaction <- health_data %>%
  mutate(
    Age_BMI_Impact = age * .data[[bmi_col]]
  )
```



### Penjelasan Fungsi

| Langkah | Penjelasan |
|--------|--------------------|
| grep("bmi|imt", ...) | Secara otomatis mendeteksi nama kolom BMI (bisa "bmi", "imt", dsb). |
| age * .data[[bmi_col]] | Mengalikan umur dan BMI untuk membuat fitur baru Age_BMI_Impact. |
| mutate() | Menambahkan fitur baru ke dalam data. |


### Interpretasi Kesehatan:

- Fitur Age_BMI_Impact akan bernilai tinggi jika seseorang memiliki usia dan BMI yang sama-sama tinggi.

- Dapat menunjukkan risiko kesehatan gabungan akibat usia lanjut dan berat badan berlebih.


### Hasil Transformasi 

```{r, message=FALSE, echo=FALSE, warning=FALSE}
library(dplyr)
library(DT)

# Simpan nama kolom BMI ke variabel
bmi_col <- grep("bmi|imt", colnames(health_data), value = TRUE)[1]

# Buat interaksi antara age dan BMI
data_interaction <- health_data %>%
  mutate(
    Age_BMI_Impact = age * .data[[bmi_col]]
  )

# Tampilkan hasil
DT::datatable(head(data_interaction), caption = "Interaction between Age and BMI")
```



### Kesimpulan:

- Fitur interaksi berguna untuk mengungkap relasi tersembunyi antar variabel.
- Dalam kasus data kesehatan, interaksi antara usia dan BMI bisa menjadi indikator penting terhadap risiko penyakit kronis.


## 5.2 Ratio Features

Ratio features adalah fitur yang dibentuk dari perbandingan dua variabel numerik. Teknik ini sering digunakan untuk menormalkan data, menyoroti ketidakseimbangan, atau menangkap hubungan proporsional antar variabel.


### Contoh Kasus:

Dalam data kesehatan, membandingkan kadar kolesterol terhadap kadar glukosa dapat memberikan insight tambahan tentang profil metabolik seseorang. Maka dibuat fitur baru: *Cholesterol to Glucose Ratio*.

### Contoh Kode R:

```{}

data_ratio <- health_data %>%
  mutate(
    Cholesterol_Glucose_Ratio = cholesterol / (glucose + 1e-5)
  )
```



### Penjelasan Fungsi

| Langkah | Penjelasan |
|--------|------------|
| cholesterol / (glucose + 1e-5) | Rasio antara kolesterol dan glukosa; penambahan 1e-5 mencegah pembagian dengan nol. |
| mutate() | Menambahkan fitur rasio baru ke dalam data. |



### Interpretasi Kesehatan:

- Rasio yang tinggi bisa menunjukkan potensi risiko gangguan metabolik.

- Berguna untuk menyaring individu dengan kolesterol tinggi tetapi kadar glukosa normal atau sebaliknya.


### Hasil Transformasi

```{r, message=FALSE, echo=FALSE, warning=FALSE}

library(dplyr)
library(DT)

data_ratio <- health_data %>%
  mutate(
    Cholesterol_Glucose_Ratio = cholesterol / (glucose + 1e-5)
  )

DT::datatable(head(data_ratio), caption = "Cholesterol to Glucose Ratio")
```



### Kesimpulan:

- Ratio features memperkaya dataset dengan informasi proporsional.
- Dalam konteks medis, rasio ini membantu dalam mendeteksi ketidakseimbangan biokimia yang tidak terlihat dari nilai absolut saja.



## 5.3 Group Aggregation

Group aggregation adalah teknik untuk menghitung ringkasan statistik berdasarkan kelompok tertentu dalam data, misalnya berdasarkan ID pasien, lokasi, atau waktu. Teknik ini berguna untuk menciptakan fitur baru yang merangkum informasi historis atau berulang.


### Contoh Kasus:

Pada dataset kesehatan, satu pasien bisa memiliki beberapa entri kunjungan. Maka kita bisa menghitung rata-rata dan maksimum kadar glukosa untuk tiap *patient_id*, serta jumlah kunjungan sebagai fitur tambahan.

### Contoh Kode R:

```{}

# Aggregate by patient
patient_glucose <- health_data %>%
  group_by(patient_id) %>%
  summarise(
    Avg_Glucose = mean(glucose, na.rm = TRUE),
    Max_Glucose = max(glucose, na.rm = TRUE),
    Visits = n(),
    .groups = "drop"
  )

# Join with original data
health_data_joined <- left_join(health_data, patient_glucose, by = "patient_id")
```


| Langkah | Penjelasan |
|--------|------------|
| group_by(patient_id) | Mengelompokkan data berdasarkan ID pasien. |
| summarise() | Menghitung nilai rata-rata, maksimum, dan jumlah kunjungan. |
| left_join() | Menggabungkan hasil agregasi kembali ke data utama. |


###  Manfaat dalam Konteks Medis:

- *Avg_Glucose* dan *Max_Glucose* mencerminkan kontrol gula darah pasien secara longitudinal.

- *Visits* dapat menunjukkan frekuensi kontrol atau keparahan kondisi pasien.


### Hasil Transformasi

```{r, message=FALSE, echo=FALSE, warning=FALSE}
library(dplyr)
library(DT)

# Aggregate by patient
patient_glucose <- health_data %>%
  group_by(patient_id) %>%
  summarise(
    Avg_Glucose = mean(glucose, na.rm = TRUE),
    Max_Glucose = max(glucose, na.rm = TRUE),
    Visits = n(),
    .groups = "drop"
  )

# Join with original data
health_data_joined <- left_join(health_data, patient_glucose, by = "patient_id")

DT::datatable(head(health_data_joined), caption = "Glucose Aggregation per Patient")
```



###  Kesimpulan:

- Group aggregation menghasilkan fitur yang memperkaya data dengan informasi ringkasan per entitas.
- Cocok untuk data yang bersifat longitudinal, seperti rekam medis atau transaksi pelanggan.


## 5.4 Rank Transformation

Rank transformation adalah teknik untuk mengubah nilai numerik menjadi urutan berdasarkan posisi relatifnya dalam dataset. Ini berguna untuk mengidentifikasi posisi atau peringkat suatu entitas berdasarkan variabel tertentu tanpa memerlukan distribusi data yang spesifik.


### Contoh Kasus:

Dalam dataset kesehatan, kita dapat mengurutkan kadar glukosa pasien dan memberi peringkat kepada mereka berdasarkan level glukosa, dengan pasien yang memiliki kadar glukosa tertinggi mendapat peringkat teratas.

### Contoh Kode R:

```{}

data_ranked <- health_data %>%
  mutate(
    Glucose_Rank = rank(-glucose)
  )

```

### Penjelasan Fungsi 


| Langkah | Penjelasan |
|--------|------------|
| rank(-glucose) | Menghitung peringkat berdasarkan kadar glukosa, dengan tanda minus - untuk memberikan peringkat tertinggi pada nilai terbesar. |


###  Manfaat dalam Konteks Medis:

- *Glucose_Rank* memberikan gambaran tentang posisi relatif pasien berdasarkan kadar glukosa mereka. Ini berguna untuk memahami siapa yang berada dalam kelompok dengan kadar glukosa tertinggi atau terendah.


### Hasil Transformasi

```{r, message=FALSE, echo=FALSE, warning=FALSE}
library(dplyr)
library(DT)

data_ranked <- health_data %>%
  mutate(
    Glucose_Rank = rank(-glucose)
  )

DT::datatable(head(data_ranked), caption = "Ranking by Glucose Level")
```



###  Kesimpulan:

Rank transformation cocok untuk analisis yang mengutamakan urutan daripada nilai absolut, seperti identifikasi pasien dengan kondisi paling kritis berdasarkan peringkat.


## 5.5 Text Cleaning & Feature Creation

Text cleaning dan pembuatan fitur dari teks adalah langkah penting dalam proses pembersihan data, khususnya ketika kita bekerja dengan data yang mengandung informasi dalam format teks yang tidak terstruktur. Salah satu langkah penting adalah mengekstraksi informasi relevan dari teks, seperti angka atau kata-kata kunci, untuk digunakan dalam analisis lebih lanjut.


### Contoh Kasus:

Dalam dataset kesehatan, kolom patient_id mungkin mengandung angka dan karakter lain, yang mana kita bisa mengekstraksi angka saja untuk membuat fitur baru.

### Contoh Kode R:

```{}

data_text <- health_data %>%
  mutate(
    Patient_Num = as.numeric(gsub("[^0-9]", "", patient_id))
  )
```  


### Penjelasan Fungsi 

| Langkah | Penjelasan |
|--------|------------|
| gsub("[^0-9]", "", patient_id) | Menggunakan fungsi gsub untuk menghapus karakter non-angka dan mengekstraksi hanya angka dari kolom patient_id. |
| as.numeric() | Mengonversi hasil ekstraksi menjadi format numerik. |


###  Manfaat dalam Konteks Medis:

- *Patient_Num* memberikan nomor pasien dalam format numerik yang bisa digunakan untuk analisis lebih lanjut, seperti pengelompokan atau identifikasi pasien berdasarkan ID numerik.


### Hasil Transformasi

```{r, message=FALSE, echo=FALSE, warning=FALSE}
library(dplyr)
library(DT)

data_text <- health_data %>%
  mutate(
    Patient_Num = as.numeric(gsub("[^0-9]", "", patient_id))
  )

DT::datatable(head(data_text), caption = "Extract Numbers from Patient ID")
```



###  Kesimpulan:

Langkah pembersihan teks ini membantu mengubah ID pasien yang mengandung karakter menjadi format yang lebih mudah untuk dianalisis, terutama saat ID pasien diperlukan dalam analisis statistik atau pembelajaran mesin.


## 5.6 Cumulative Features

Cumulative features mengacu pada fitur yang dihitung secara berurutan berdasarkan data yang terurut, seperti akumulasi nilai dari variabel tertentu sepanjang waktu. Cumulative features sering digunakan dalam analisis time series atau data yang bersifat kronologis, seperti penghitungan jumlah kumulatif dari suatu parameter kesehatan.


### Contoh Kasus:

Dalam dataset kesehatan, kita dapat menghitung jumlah kumulatif kadar glukosa dari waktu ke waktu untuk setiap pasien, yang memberikan gambaran tentang perubahan tingkat glukosa sepanjang waktu.

### Contoh Kode R:

```{}

data_cumulative <- health_data %>%
  arrange(patient_id, date) %>%
  group_by(patient_id) %>%
  mutate(
    Cumulative_Glucose = cumsum(glucose)
  ) %>%
  ungroup()
```  


### Penjelasan Fungsi 

| Langkah | Penjelasan |
|--------|------------|
| arrange(patient_id, date) | Mengurutkan data berdasarkan ID pasien dan tanggal untuk memastikan bahwa penghitungan kumulatif dilakukan berdasarkan urutan waktu. |
| group_by(patient_id) | Mengelompokkan data berdasarkan ID pasien agar perhitungan kumulatif dilakukan per pasien. |
| cumsum(glucose) | Menghitung jumlah kumulatif kadar glukosa untuk setiap pasien dari waktu ke waktu. |


### Manfaat dalam Konteks Medis:

- *Cumulative_Glucose* memberikan informasi mengenai akumulasi kadar glukosa pasien sepanjang waktu, yang bisa digunakan untuk memahami perubahan pola glukosa, mengidentifikasi tren, dan mendeteksi kemungkinan masalah kesehatan.


### Hasil Transformasi 

```{r, massage=FALSE, echo=FALSE, warning=FALSE}
library(dplyr)
library(DT)

data_cumulative <- health_data %>%
  arrange(patient_id, date) %>%
  group_by(patient_id) %>%
  mutate(
    Cumulative_Glucose = cumsum(glucose)
  ) %>%
  ungroup()

DT::datatable(head(data_cumulative), caption = "Cumulative Glucose per Patient")
```



### Kesimpulan:

Penghitungan fitur kumulatif seperti *Cumulative_Glucose* memungkinkan pemahaman yang lebih dalam mengenai perjalanan kesehatan pasien dari waktu ke waktu dan dapat membantu dalam pemodelan prediktif, seperti deteksi risiko diabetes atau komplikasi terkait glukosa.


# 6. Outlier Handling

Dalam analisis data, outlier atau data yang menyimpang jauh dari pola umum dapat mempengaruhi hasil analisis dan model. Oleh karena itu, penting untuk mendeteksi dan menangani outlier dengan tepat. Beberapa metode yang umum digunakan untuk mendeteksi outlier antara lain Z-score dan Interquartile Range (IQR).


### Contoh Kasus:

Pada dataset kesehatan ini, kita akan menggunakan dua metode untuk mendeteksi dan menangani outlier:

1. *Z-score* untuk mendeteksi outlier pada kadar glukosa.

2. *IQR* untuk mendeteksi outlier pada indeks massa tubuh (BMI).

### Contoh Kode R:


```{}

# Ensure all column names are lowercase
colnames(health_data) <- tolower(colnames(health_data))

# Get the exact name of glucose and BMI columns
glucose_col <- grep("glukosa|glucose", colnames(health_data), value = TRUE)[1]
bmi_col <- grep("imt|bmi", colnames(health_data), value = TRUE)[1]

# Z-score method for outlier detection (using Glucose)
z_scores <- scale(health_data[[glucose_col]])

data_outliers <- health_data %>%
  mutate(
    Outlier_Flag = ifelse(abs(z_scores) > 3, "Outlier", "Normal")
  )

# IQR method for outlier removal (using BMI)
Q1 <- quantile(health_data[[bmi_col]], 0.25, na.rm = TRUE)
Q3 <- quantile(health_data[[bmi_col]], 0.75, na.rm = TRUE)
IQR_val <- Q3 - Q1

data_outliers_IQR <- health_data %>%
  filter(
    .data[[bmi_col]] > (Q1 - 1.5 * IQR_val) &
    .data[[bmi_col]] < (Q3 + 1.5 * IQR_val)
  )

```


### Metode Z-Score untuk Deteksi Outlier:

Z-score digunakan untuk mendeteksi seberapa jauh suatu nilai dari rata-rata dalam satuan deviasi standar. Dalam kasus ini, kita menghitung Z-score untuk kadar glukosa, dan jika Z-score lebih besar dari 3 atau lebih kecil dari -3, nilai tersebut dianggap sebagai outlier.

| Langkah | Penjelasan |
|--------|------------|
| scale(health_data[[glucose_col]]) | Menghitung Z-score untuk kadar glukosa. |
| ifelse(abs(z_scores) > 3, "Outlier", "Normal") | Menandai nilai yang memiliki Z-score lebih dari 3 atau kurang dari -3 sebagai outlier. |


### Metode IQR untuk Penghapusan Outlier:

Metode IQR menghitung rentang interkuartil (IQR) yang merupakan selisih antara kuartil ketiga (Q3) dan kuartil pertama (Q1). Nilai yang berada di luar rentang *[Q1 - 1.5  IQR, Q3 + 1.5  IQR]* dianggap sebagai outlier.

| Langkah | Penjelasan |
|--------|------------|
| quantile(health_data[[bmi_col]], 0.25) | Menghitung kuartil pertama (Q1) dari data BMI. |
| quantile(health_data[[bmi_col]], 0.75) | Menghitung kuartil ketiga (Q3) dari data BMI. |
| filter(.data[[bmi_col]] > (Q1 - 1.5 * IQR_val) & .data[[bmi_col]] < (Q3 + 1.5 * IQR_val)) | Menyaring data BMI untuk menghapus nilai-nilai outlier di luar rentang IQR. |


### Manfaat Mengelola Outlier:

- *Deteksi Dini:* Mengidentifikasi outlier dengan metode yang tepat memungkinkan pemahaman yang lebih baik tentang data dan membantu mendeteksi masalah dalam pengukuran atau kondisi yang tidak biasa.
- *Modeling:* Menghapus atau menangani outlier dapat meningkatkan kinerja model prediktif dengan menghindari distorsi yang dapat disebabkan oleh data yang ekstrem.


### Hasil Transformasi 

```{r, message=FALSE, echo=FALSE, warning=FALSE}
library(dplyr)
library(DT)

# Ensure all column names are lowercase
colnames(health_data) <- tolower(colnames(health_data))

# Get the exact name of glucose and BMI columns
glucose_col <- grep("glukosa|glucose", colnames(health_data), value = TRUE)[1]
bmi_col <- grep("imt|bmi", colnames(health_data), value = TRUE)[1]

# Z-score method for outlier detection (using Glucose)
z_scores <- scale(health_data[[glucose_col]])

data_outliers <- health_data %>%
  mutate(
    Outlier_Flag = ifelse(abs(z_scores) > 3, "Outlier", "Normal")
  )

# IQR method for outlier removal (using BMI)
Q1 <- quantile(health_data[[bmi_col]], 0.25, na.rm = TRUE)
Q3 <- quantile(health_data[[bmi_col]], 0.75, na.rm = TRUE)
IQR_val <- Q3 - Q1

data_outliers_IQR <- health_data %>%
  filter(
    .data[[bmi_col]] > (Q1 - 1.5 * IQR_val) &
    .data[[bmi_col]] < (Q3 + 1.5 * IQR_val)
  )

# Display results
DT::datatable(head(data_outliers), caption = "Outlier Detection Using Z-Score (Glucose)")
DT::datatable(head(data_outliers_IQR), caption = "Filtered Data Using IQR Method (BMI)")
```



###  Kesimpulan:

- Dengan menggunakan metode *Z-score* dan *IQR*, kita dapat mendeteksi dan menangani outlier pada data kesehatan untuk memastikan bahwa analisis dan model yang dibangun lebih akurat dan representatif terhadap data asli.


# 7. Discretization

Discretization adalah proses mengubah variabel kontinu menjadi kategori atau interval. Hal ini sering dilakukan untuk meningkatkan pemahaman atau interpretasi data, serta memudahkan penerapan model klasifikasi. Salah satu contoh yang umum adalah mengubah usia menjadi kategori seperti "Muda", "Paruh Baya", dan "Tua".


### Contoh Kasus:

Pada dataset kesehatan ini, kita akan mendiskretisasikan kolom *usia* menjadi tiga kategori:
1. *Young* (Muda)
2. *Middle-aged* (Paruh Baya)
3. *Old* (Tua)

Kategori ini akan didasarkan pada pembagian kuantil data usia.

### Contoh Kode R:

```{}


# Make sure column names are lowercase
colnames(health_data) <- tolower(colnames(health_data))

# Convert 'age' to numeric (if not already)
health_data <- health_data %>%
  mutate(usia = as.numeric(age))

# Binning 'age' into age categories
binning <- health_data %>%
  mutate(
    age_level = cut(
      age,
      breaks = quantile(age, probs = c(0, 0.33, 0.66, 1), na.rm = TRUE),
      labels = c("Young", "Middle-aged", "Old"),
      include.lowest = TRUE
    )
  )
```


### Penjelasan:

- cut(age, breaks = quantile(age, probs = c(0, 0.33, 0.66, 1), na.rm = TRUE)) digunakan untuk membagi usia berdasarkan kuantil. 

  - *0-33%* usia pertama akan digolongkan ke dalam kategori "Young" (Muda).
  
  - *34-66%* usia kedua akan digolongkan ke dalam kategori "Middle-aged" (Paruh Baya).
  
  - *67-100%* usia ketiga akan digolongkan ke dalam kategori "Old" (Tua).
  
- Fungsi cut() ini juga memberikan label pada setiap kategori, sehingga memudahkan interpretasi data.


### Manfaat Discretization:
- *Penyederhanaan Model:* Dengan mengubah variabel kontinu menjadi kategori, kita dapat mengurangi kompleksitas model dan memudahkan interpretasi.
- *Memperbaiki Model Klasifikasi:* Kategorisasi dapat meningkatkan kinerja model klasifikasi, terutama jika data kontinu memiliki distribusi yang sangat miring atau tidak normal.


### Hasil Transformasi

```{r, message=FALSE, echo=FALSE, warning=FALSE}
library(dplyr)
library(DT)

# Make sure column names are lowercase
colnames(health_data) <- tolower(colnames(health_data))

# Convert 'age' to numeric (if not already)
health_data <- health_data %>%
  mutate(usia = as.numeric(age))

# Binning 'age' into age categories
binning <- health_data %>%
  mutate(
    age_level = cut(
      age,
      breaks = quantile(age, probs = c(0, 0.33, 0.66, 1), na.rm = TRUE),
      labels = c("Young", "Middle-aged", "Old"),
      include.lowest = TRUE
    )
  )

# Show results in a datatable
DT::datatable(head(binning), caption = "Binning Age into Categories")
```



### Kesimpulan:
Discretization dapat bermanfaat untuk mempermudah pemahaman dan analisis data, terutama dalam kasus di mana hubungan antara variabel kontinu dan hasil yang diinginkan tidak linier atau sulit untuk dimodelkan secara langsung.


# 8. Seasonality

Seasonality atau musiman adalah pola yang muncul secara periodik dalam data yang terkait dengan waktu, seperti pola tahunan, bulanan, atau mingguan. Fitur seasonality sangat penting dalam analisis data time series untuk memahami fluktuasi yang terkait dengan perubahan musiman dalam tahun.

Pada dataset ini, kita akan membuat fitur musiman berdasarkan informasi tanggal untuk menangkap pola tahunan.

## **Contoh:**  
- **Fourier Transform** untuk ekstraksi frekuensi.
- **Deteksi Musiman** dalam data bulanan/tahunan.

### Contoh Kasus:

Untuk memodelkan seasonality dalam dataset kesehatan ini, kita akan menambahkan fitur-fitur berikut:
- *Tahun* (Year)

- *Hari dalam Tahun* (Day of Year)

- *Fungsi Sinus dan Cosinus* untuk mengubah data musiman ke dalam format numerik yang dapat digunakan oleh model machine learning.

### Contoh Kode R:

```{}

# Ensure lowercase column names
colnames(health_data) <- tolower(colnames(health_data))

# Try to find the column that represents the date
date_col <- grep("tanggal|date", colnames(health_data), value = TRUE)[1]

# Convert the column to Date type if not already
health_data[[date_col]] <- as.Date(health_data[[date_col]])

# Create seasonality features
seasonality <- health_data %>%
  mutate(
    year = year(.data[[date_col]]),
    day_of_year = yday(.data[[date_col]]),
    days_in_year = if_else(leap_year(.data[[date_col]]), 366, 365),
    sin_year = sin(2 * pi * day_of_year / days_in_year),
    cos_year = cos(2 * pi * day_of_year / days_in_year)
  )
```  



### Penjelasan:

- *Tahun (Year):* Menyimpan informasi tahun dari kolom tanggal.

- *Hari dalam Tahun (Day of Year):* Menghitung hari ke-berapa dalam tahun tersebut.

- *Sinus dan Cosinus (sin_year dan cos_year):* Mengonversi hari dalam tahun menjadi nilai sinus dan cosinus untuk menangkap sifat musiman dalam bentuk numerik. Ini adalah teknik umum untuk menghindari masalah dengan model yang tidak dapat menangani data musiman yang bersifat siklis.



### Manfaat Seasonality:
- Memahami Pola Musiman: Fitur musiman dapat membantu dalam memprediksi pola yang berulang, seperti fluktuasi kesehatan pada periode tertentu dalam setahun.
- Peningkatan Akurasi Model: Dengan memasukkan informasi musiman dalam model, kita dapat meningkatkan kemampuan prediksi terutama untuk data time series.



### Hasil Transformasi 


```{r,message=FALSE, echo=FALSE, warning=FALSE}
library(dplyr)
library(lubridate)
library(DT)

# Ensure lowercase column names
colnames(health_data) <- tolower(colnames(health_data))

# Try to find the column that represents the date
date_col <- grep("tanggal|date", colnames(health_data), value = TRUE)[1]

# Convert the column to Date type if not already
health_data[[date_col]] <- as.Date(health_data[[date_col]])

# Create seasonality features
seasonality <- health_data %>%
  mutate(
    year = year(.data[[date_col]]),
    day_of_year = yday(.data[[date_col]]),
    days_in_year = if_else(leap_year(.data[[date_col]]), 366, 365),
    sin_year = sin(2 * pi * day_of_year / days_in_year),
    cos_year = cos(2 * pi * day_of_year / days_in_year)
  )

# Display the result
DT::datatable(head(seasonality), caption = "Seasonality Features Based on Date")
```


###  Kesimpulan:
Fitur seasonality sangat berguna dalam dataset dengan komponen waktu yang mempengaruhi hasil, seperti kesehatan yang dapat dipengaruhi oleh perubahan musiman. Dengan menggunakan fitur-fitur musiman, model dapat lebih efektif dalam menangkap pola yang terkait dengan perubahan musiman dan meningkatkan akurasi prediksi.

# **Penutup**  

Transformasi data adalah tahap penting yang menentukan kualitas analisis dan pemodelan. Teknik-teknik yang telah dibahas seperti transformasi temporal, distribusi, scaling, encoding, feature engineering, hingga handling outlier, semuanya bertujuan untuk membuat data lebih "bersahabat" dengan algoritma analisis. Dengan pemilihan metode yang tepat, kita dapat meningkatkan akurasi model dan membuat interpretasi data menjadi lebih baik.


# **Referensi**


https://bookdown.org/dsciencelabs/data_science_programming/04-Data_Collection.html

https://www.statistikian.com/2013/01/transformasi-data.html

https://exsight.id/blog/2023/05/14/transformasi-data-part-1/

https://patrastatistika.com/transformasi-data/

https://www.revou.co/kosakata/data-transformation
