Data Tranformation

Data Science Programming

KELOMPOK 3

Joans Henky Servatius S (52240017)

Nova Sitorus (52240023)

Olivia Meilinda Davtin P (52240011)

Nabila Anggita Putri (52240002)

Rachelia Bevina Tambajong (52240021)

Dwi Sri Yanti Manullang (52240030)

Chello Frhino Mike M (52240031)

May 02, 2025

KELOMPOK 3

kel

1 Temporal Transformation

FINANCIAL MARKET

library(dplyr)
library(tidyverse)
library(readr)
library(zoo)
library(DT)
financial_market <- read_csv("financial market.csv")
datatable(financial_market, options = list(pageLength = 5))

1.1 Lag,Diff,Rolling

  1. Lag: Mengambil nilai dari periode sebelumnya. Berguna untuk membandingkan data sekarang dengan data masa lalu.

  2. Diff: Menghitung selisih antar elemen berturut-turut.. Membantu mengukur perubahan antar waktu.

  3. Rolling Mean: Rata-rata bergerak dari beberapa nilai terakhir (misalnya 5 hari terakhir). Digunakan untuk melihat tren jangka pendek dengan menghaluskan fluktuasi data.

financial_market <- read_csv("financial market.csv")

# Lanjutkan transformasi
Tempral <- financial_market %>%
  mutate(Date = ymd(Date))  # ganti 'Date' kalau nama kolomnya berbeda

# Hitung Lag, Diff, Rolling Mean untuk Stock_Price, Volume_Traded, Market_Cap
LDR <- financial_market %>%
  arrange(Sector, Date) %>%
  group_by(Sector) %>%
  mutate(
    # Lag
    Lag_Stock_Price = lag(Stock_Price),
    Lag_Volume = lag(Volume_Traded),
    Lag_Market_Cap = lag(Market_Cap),
    
    # Diff
    Diff_Stock_Price = round(Stock_Price - Lag_Stock_Price, 2),
    Diff_Volume = Volume_Traded - Lag_Volume,
    Diff_Market_Cap = Market_Cap - Lag_Market_Cap,
    
    # Rolling Mean (3 hari terakhir)
    RollingMean_Stock_Price_3 = round(zoo::rollapply(Stock_Price, width = 3, FUN = mean, fill = NA, align = "right"), 2),
    RollingMean_Volume_3 = round(zoo::rollapply(Volume_Traded, width = 3, FUN = mean, fill = NA, align = "right")),
    RollingMean_Market_Cap_3 = round(zoo::rollapply(Market_Cap, width = 3, FUN = mean, fill = NA, align = "right"))
  ) %>%
  ungroup()

# Tampilkan hasil
datatable(LDR, options = list(pageLength = 5))
  1. Stock_Price: Harga saham sering dianalisis berdasarkan perubahan waktu (misal: naik/turun harga harian).Di-lag untuk melihat harga sebelumnya, diff untuk selisih harian, dan rolling mean untuk tren jangka pendek.

  2. Volume_Traded: Volume transaksi bisa fluktuatif, perlu dilihat perubahannya dan rata-rata dalam window waktu. Di-lag dan diff untuk deteksi lonjakan aktivitas, rolling mean untuk kestabilan volume.

  3. Market_Cap: Di-diff dan rolling mean untuk memantau perubahan nilai pasar saham secara bertahap.

1.2 Extract Date

library(dplyr)
library(lubridate)
library(stringr)

Extract <- financial_market %>%
  mutate(
    Date = as.Date(Date, format = "%m/%d/%Y"),  # konversi dari karakter ke Date
    Day_of_Week = weekdays(Date),
    Month = month(Date, label = TRUE),
    Year = year(Date),
    Is_Weekend = ifelse(Day_of_Week %in% c("Saturday", "Sunday"), 1, 0),
    Sector = as.factor(Sector),
    Performance = as.factor(Performance)
  ) %>%
  bind_cols(
    as.data.frame(model.matrix(~ Sector - 1, data = .)),
    as.data.frame(model.matrix(~ Performance - 1, data = .))
  )

# Lihat beberapa baris pertama
datatable(Extract, options = list(pageLength = 5))

Konversi Tanggal: Variabel Date dikonversi dari format karakter ke format Date agar dapat dianalisis secara temporal.

Ekstraksi Informasi Waktu: Dari tanggal tersebut, ditambahkan beberapa informasi waktu:

Day_of_Week: hari dalam minggu,

Month: bulan (dalam format label, misalnya Jan, Feb),

Year: tahun transaksi,

Is_Weekend: indikator apakah hari tersebut akhir pekan (Sabtu/Minggu).

1.3 Cumulative Value

Tempral3 <- financial_market %>%
  arrange(Stock_ID, Date) %>%
  group_by(Stock_ID) %>%
  mutate(
    Cumulative_Volume = cumsum(Volume_Traded),
    Cumulative_MarketCap = cumsum(Market_Cap),
    Cumulative_AvgPrice = cummean(Stock_Price)
  ) %>%
  ungroup()

head(Tempral3)

Potongan kode ini digunakan untuk menghitung akumulasi data pasar saham secara temporal berdasarkan setiap Stock_ID. Data pertama-tama diurutkan berdasarkan Stock_ID dan Date agar analisis bersifat time-series. Kemudian, untuk setiap stock (group_by(Stock_ID)), dilakukan tiga perhitungan:

  1. Cumulative_Volume: total volume perdagangan yang terus dijumlahkan dari waktu ke waktu.
  2. Cumulative_MarketCap: akumulasi kapitalisasi pasar hingga tanggal tertentu.
  3. Cumulative_AvgPrice: rata-rata harga saham secara kumulatif (hingga titik waktu tersebut) menggunakan cummean().

Fungsi ungroup() digunakan agar hasilnya tidak lagi bersifat kelompok. Hasil akhir memberi gambaran perkembangan historis kinerja setiap saham dari waktu ke waktu.

2 Distribution Transformation

2.1 Log Transform

Variabel yang dipilih adalah Kapasitas pasar alasannya adalah, karena kapasitas pasar mempunyai angka yang sangat besar dan distribusinya sangat miring ke kanan (right-skewed).

library(dplyr)

min_positive <- min(financial_market$Market_Cap[financial_market$Market_Cap > 0])

Log <- financial_market %>%
  mutate(
    Safe_Market_Cap = ifelse(Market_Cap <= 0, min_positive, Market_Cap),
    Log_Market_Cap = log1p(Safe_Market_Cap)
  )
head(Log)

Interpretasi:

Transformasi log digunakan untuk:

  • Menstabilkan varians yang meningkat seiring dengan nilai variabel.

  • Mengurangi skewness (kemiringan distribusi) terutama pada data yang terdistribusi skewed ke kanan seperti Kapitalisasi.Pasar.

  • Dalam kode, nilai nol atau negatif diganti dengan nilai positif terkecil agar log() tidak error.

  • Fungsi log1p(x) (yaitu log(x + 1)) digunakan sebagai bentuk aman untuk data nol.

Hasil:

Distribusi menjadi lebih simetris dan varians antar level data menjadi lebih seimbang, sehingga lebih cocok untuk analisis regresi.

  • Bertambah 2 variabel, yaitu: Safe_Kapitalisasi_Pasar dan Log_Kapitalisasi_Pasar

2.2 Box-Cox

library(bestNormalize)
financial_market <- read.csv("financial market.csv")

Box_Cox <- financial_market %>%
  mutate(
    YeoJ_Volume_Traded = bestNormalize(Volume_Traded)$x.t,
    YeoJ_Market_Cap = bestNormalize(Market_Cap)$x.t
  )
head(Box_Cox)

Interpretasi:

  • Menggunakan fungsi bestNormalize() yang otomatis memilih metode transformasi terbaik agar data mendekati distribusi normal.

  • Transformasi dilakukan pada Volume_Diperdagangkan dan Kapitalisasi.Pasar, dan hasilnya disimpan sebagai kolom baru.

  • Praktik ini ideal untuk preprocessing sebelum modeling, karena membantu mengurangi skewness dan menstabilkan varians data.

2.3 Stabilisasi Varians

library(DT)

Stabilize <- financial_market %>%
  mutate(
    sqrt_Volume_Traded = sqrt(pmax(Volume_Traded, 0)),
    sqrt_Market_Cap = sqrt(pmax(Market_Cap, 0))
  )%>%
  ungroup()


datatable(Stabilize, options = list(pageLength = 5))

2.3.1 Interpretasi:

Transformasi akar kuadrat (sqrt) sering digunakan dalam analisis data keuangan atau statistik untuk:

  • Menstabilkan varians: Data seperti Volume_Traded dan Market_Cap bisa sangat bervariasi antar perusahaan (ada yang kecil, ada yang sangat besar). Transformasi akar membantu mengurangi efek ekstrem ini.

  • Mengurangi skewness: Banyak variabel keuangan bersifat sangat miring ke kanan (right-skewed). Akar kuadrat membuat distribusinya lebih simetris (dekat normal), yang penting untuk analisis regresi atau machine learning.

  • Menghindari masalah nilai negatif: pmax(…, 0) memastikan nilai negatif diubah menjadi nol sebelum dihitung akarnya, karena akar dari bilangan negatif tidak valid dalam konteks real.

2.3.2 Contoh Interpretasi Kasus:

Misalnya, dua perusahaan:

  • Perusahaan A: Market_Cap = 1.000.000
  • Perusahaan B: Market_Cap = 10.000

Tanpa transformasi, Perusahaan A terlihat 100× lebih besar. Setelah akar kuadrat:

  • sqrt(1.000.000) = 1000
  • sqrt(10.000) = 100

Sekarang Perusahaan A hanya terlihat 10× lebih besar, membuat analisis lebih proporsional.

3 Scaling & Normalization

3.1 Z-Score Standardization

# Standardisasi Z-Score: mengubah data agar memiliki rata-rata 0 dan standar deviasi 1
financial_scaled <- financial_market %>%
  mutate(
    Stock_Price_Std = scale(Stock_Price),
    Volume_Traded_Std = scale(Volume_Traded),
    Market_Cap_Std = scale(Market_Cap),
    PE_Ratio_Std = scale(PE_Ratio),
    Dividend_Yield_Std = scale(Dividend_Yield),
    Return_on_Equity_Std = scale(Return_on_Equity)
  )
head(financial_scaled)

3.1.1 Penjelasan:

  1. financial_market adalah data frame yang berisi data pasar keuangan. Kolom-kolomnya mencakup variabel seperti harga saham (Stock_Price), volume perdagangan (Volume_Traded), kapitalisasi pasar (Market_Cap), rasio PE (PE_Ratio), dividen (Dividend_Yield), dan ROE (Return_on_Equity).

  2. Fungsi mutate() dari paket dplyr digunakan untuk menambahkan kolom-kolom baru hasil transformasi dari kolom yang ada.

  3. Z-Score Standardization adalah metode transformasi data yang mengubah setiap nilai menjadi ukuran dalam satuan standar deviasi dari rata-rata.

  4. Fungsi scale() adalah fungsi bawaan R untuk melakukan Z-score standardization, yaitu: \[ Z = \frac{X - \mu } {\sigma} \]

  • X: nilai asli

  • \(\mu\) : rata-rata data

  • \(\sigma\): standar deviasi data

Hasilnya adalah data baru yang:

  • Memiliki rata-rata = 0

  • Memiliki standar deviasi = 1

  1. Kolom baru dengan akhiran _Std dibuat untuk setiap variabel, seperti:
  • Stock_Price_Std

  • Volume_Traded_Std

  • Market_Cap_Std

  • PE_Ratio_Std

  • Dividend_Yield_Std

  • Return_on_Equity_Std

  1. head(financial_scaled) digunakan untuk menampilkan 6 baris pertama dari data yang telah ditransformasi.

3.1.2 Contoh Perhitungan Manual

Misalkan data Stock_Price: [100, 120, 150, 130, 110]

  1. Hitung Mean:

\[ \mu = \frac{100 + 120 + 150 + 130 + 110 } {5} = \frac{610}{5} = 122\]

  1. Hitung Standar Deviasi (σ):

\[ \sigma = \sqrt{\frac{(100 - 122)^2 + (120 - 122)^2 + (150 - 122)^2 + (130 - 122)^2 + (110 - 122)^2 } {5}} \]

\[ = \sqrt{\frac{484 + 4 + 784 + 64 + 144}{5}} = \sqrt{\frac{1480}{5}} = \sqrt{296} = 17.2 \]

  1. Z-Score untuk nilai 150:

\[ Z = \frac{150 - 122 } {17.2} = \frac{28}{17.2} = 1.63 \]

3.2 Min-Max Normalization

# Normalisasi Min-Max: mengubah skala data ke dalam rentang [0, 1]
financial_normalized <- financial_market %>%
  mutate(
    Stock_Price_Norm = (Stock_Price - min(Stock_Price)) / (max(Stock_Price) - min(Stock_Price)),
    Volume_Traded_Norm = (Volume_Traded - min(Volume_Traded)) / (max(Volume_Traded) - min(Volume_Traded)),
    Market_Cap_Norm = (Market_Cap - min(Market_Cap)) / (max(Market_Cap - min(Market_Cap))),
    PE_Ratio_Norm = (PE_Ratio - min(PE_Ratio)) / (max(PE_Ratio) - min(PE_Ratio)),
    Dividend_Yield_Norm = (Dividend_Yield - min(Dividend_Yield)) / (max(Dividend_Yield) - min(Dividend_Yield)),
    Return_on_Equity_Norm = (Return_on_Equity - min(Return_on_Equity)) / (max(Return_on_Equity) - min(Return_on_Equity))
  )
head(financial_normalized)

3.2.1 Penjelasan

  1. financial_market adalah data frame yang berisi data pasar keuangan. Kolom-kolomnya mencakup variabel seperti harga saham (Stock_Price), volume perdagangan (Volume_Traded), kapitalisasi pasar (Market_Cap), rasio PE (PE_Ratio), dividen (Dividend_Yield), dan ROE (Return_on_Equity).

  2. Fungsi mutate() dari paket dplyr digunakan untuk menambahkan kolom-kolom baru hasil transformasi dari kolom yang ada.

  3. Normalisasi Min-Max adalah metode penskalaan data ke dalam rentang tetap, yaitu [0, 1], dengan menggunakan rumus berikut: \[ X_{norm} = \frac{X - X_{min} } {X_{max} - X_{min}} \]

  • X: nilai asli

  • \(X_{min}\) : nilai minimum dari fitur

  • \(X_{min}\) : nilai maksimum dari fitur

Hasilnya adalah data baru yang:

  • Memiliki nilai terendah = 0

  • Memiliki nilai tertinggi = 1

  • Tetap mempertahankan distribusi asli datanya (namun rentangnya dipersempit)

  1. Kolom baru dengan akhiran _Norm dibuat untuk setiap variabel, seperti:
  • Stock_Price_Norm

  • Volume_Traded_Norm

  • Market_Cap_Norm

  • PE_Ratio_Norm

  • Dividend_Yield_Norm

  • Return_on_Equity_Norm

  1. Fungsi head(financial_normalized) digunakan untuk menampilkan 6 baris pertama dari data yang telah dinormalisasi.

3.2.2 Contoh Perhitungan Manual

Data Stock_Price:[100, 120, 150, 130, 110]

  1. Minimum dan Maksimum:
  • Min: 100

  • Max: 150

  1. Min-Max Normalization untuk nilai 130: \[ X_{norm} = \frac{130 - 100 } {150 - 100} = \frac{30}{50} = 0.6\]

4 Categorical Encoding

Di dalam data, kadang kita menemukan kolom yang isinya bukan angka, tapi kata-kata atau kategori, misalnya:

  • Sector = “Finance”, “Retail”, “Technology”

  • Performance = “Positive”, “Negative”, “Stable”

library(readr)
library(dplyr)

# Baca file CSV-nya
financial_market <- read_csv("financial market.csv")

# Tampilkan 6 data teratas
head(financial_market)

Masalahnya, komputer hanya bisa membaca angka. Maka, kita perlu mengubah kata-kata ini menjadi angka. Caranya disebut Categorical Encoding.

4.1 One Hot Encoding

Gampangnya: Kita bikin kolom baru untuk setiap kategori, lalu kita kasih angka 1 jika cocok, dan 0 kalau tidak.

Kenapa Nggak Pakai Angka Biasa (1, 2, 3)?

Karena kalau kita kasih angka seperti:

  • Positive = 1

  • Negative = 2

  • Stable = 3

Komputer bisa salah paham dan mengira ada urutan atau ranking, padahal nggak ada.

Padahal kategori itu cuma label, bukan nilai.

Makanya kita pakai biner (0 dan 1), biar komputer ngerti bahwa semua kategori itu setara, nggak ada yang lebih tinggi atau lebih rendah.

berikut kodenya:

library(fastDummies)

# Ubah kolom Sector & Performance jadi bentuk angka biner (0/1)
one_hot <- dummy_cols(financial_market, 
                      select_columns = c("Sector", "Performance"), 
                      remove_first_dummy = FALSE, 
                      remove_selected_columns = TRUE)

# Tampilkan 6 data hasil one hot encoding
head(one_hot)

4.2 Frequency Encoding

Gampangnya: Kita hitung berapa kali setiap kategori muncul, lalu setiap data diganti dengan angka frekuensinya.

# Fungsi untuk menghitung frekuensi (berapa sering muncul)
freq_enc <- function(col) {
  tab <- table(col)
  return(as.numeric(tab[col]) / length(col))
}

# Tambahkan kolom frekuensi ke data
data_freq <- financial_market %>%
  mutate(
    Sector_freq = freq_enc(Sector),
    Performance_freq = freq_enc(Performance)
  )

# Tampilkan 6 data teratas
head(data_freq)

Hasilnya:
Akan muncul dua kolom baru:

  • Sector_freq: berisi angka frekuensi dari nilai di kolom Sector

  • Performance_freq: frekuensi dari kolom Performance

Setiap baris akan berisi angka pecahan (misalnya 0.360, 0.336) yang menunjukkan seberapa sering nilai tersebut muncul dalam keseluruhan data.

5 Feature Engineering

# Feature Engineering pada Financial_market

Feature_Eng <- financial_market %>%
  mutate(
    # 1. New Features from Raw Data
    Price_Per_Volume = Stock_Price / (Volume_Traded + 1e-5),  # Hindari pembagian dengan nol
    
    # 2. Product of Features, Crossed Terms
    PE_x_ROE = PE_Ratio * Return_on_Equity,
    
    # 3. Price per Unit, Efficiency
    Yield_to_PE = Dividend_Yield / (PE_Ratio + 1e-5),  # Yield per PE

    # 4. Ranking, Percentile
    MarketCap_Rank = rank(-Market_Cap),  # Rank market cap terbesar ke terkecil
    ROE_Quartile = ntile(Return_on_Equity, 4),  # Bagi ROE ke dalam 4 kuartil
    
    # 5. From IDs: Prefix, Length, Pattern
    Stock_ID_Prefix = substr(Stock_ID, 1, 3),
    Stock_ID_Length = nchar(Stock_ID)
  ) %>%
  
  # 6. Avg, Sum, Count by Group
  group_by(Sector) %>%
  mutate(
    Avg_PE_Sector = mean(PE_Ratio, na.rm = TRUE),
    Avg_ROE_Sector = mean(Return_on_Equity, na.rm = TRUE),
    Total_Companies_Sector = n()
  ) %>%
  ungroup()

head(Feature_Eng)

5.0.1 Penjelasan

  1. New Features from Raw Data
  • Price_Per_Volume: Mengukur seberapa besar harga saham dibanding volume perdagangannya. Digunakan untuk melihat apakah saham diperdagangkan terlalu banyak atau terlalu sedikit terhadap nilainya.

    • Ditambah 1e-5 untuk mencegah pembagian nol.
  1. Product of Features, Crossed Terms
  • Mengalikan Price to Earnings Ratio (P/E) dengan Return on Equity (ROE) menghasilkan interaksi antar dua metrik penting:

    • PE Ratio menunjukkan valuasi saham.

    • ROE menunjukkan efisiensi perusahaan menghasilkan laba dari modal sendiri.

  • Interaksi ini bisa memberi sinyal apakah saham undervalued atau overvalued dengan memperhitungkan efisiensi.

  1. Price per Unit, Efficiency
  • Yield_to_PE: Efisiensi hasil dividen terhadap nilai valuasi perusahaan.

    • Saham dengan rasio tinggi dianggap memberikan return dividen yang besar dengan valuasi rendah (menarik untuk investor dividen).

    • Lagi-lagi ditambah 1e-5 untuk menghindari pembagian nol.

  1. Ranking, Percentile
  • MarketCap_Rank: Memberi ranking terhadap perusahaan berdasarkan kapitalisasi pasar dari terbesar (rank 1) ke terkecil.

  • ROE_Quartile: Mengelompokkan ROE ke dalam 4 kuartil. Tujuannya untuk klasifikasi performa perusahaan berdasarkan ROE:

    • Kuartil 1: ROE rendah

    • Kuartil 4: ROE tinggi (perusahaan sangat menguntungkan)

  1. From IDs: Prefix, Length, Pattern
  • Stock_ID_Prefix: Mengambil 3 karakter awal dari ID saham. Ini bisa menunjukkan kode kategori, jenis saham, atau asal bursa.

  • Stock_ID_Length: Panjang dari ID saham. Bisa membantu deteksi format ID yang tidak lazim.

  1. Avg, Sum, Count by Group
  • Fitur ini menghitung statistik agregat berdasarkan Sector:

    • Avg_PE_Sector: Rata-rata PE untuk seluruh perusahaan di sektor tersebut.

    • Avg_ROE_Sector: Rata-rata ROE.

    • Total_Companies_Sector: Jumlah perusahaan dalam sektor.

  • Berguna untuk membandingkan kinerja perusahaan dengan rata-rata sektornya (relative valuation).

5.1 Interaction Features

Financial_interaction <- financial_market %>%
  mutate(
    Impact_Score = Stock_Price * Return_on_Equity
  )
head(Financial_interaction)

5.1.1 Penjelasan

  • Impact_Score: Mencerminkan “kekuatan pasar” suatu saham berdasarkan harga dan return ekuitasnya.

    • Semakin tinggi nilai ini, semakin signifikan pengaruh saham terhadap pasar atau investor.

5.2 Ratio Features

Financial_ratio <- financial_market %>%
  mutate(
    Dividend_to_Price = Dividend_Yield / (Stock_Price + 1e-5)
  )
head(Financial_ratio)

5.2.1 Penjelasan

  • Dividend_to_Price: Mengukur imbal hasil dividen relatif terhadap harga saham.

    • Saham dengan rasio tinggi memberikan dividen besar meskipun harganya rendah.

    • Cocok untuk identifikasi saham “dividen murah”.

5.3 Group Aggregation

Sector_summary <- financial_market %>%
  group_by(Sector) %>%
  summarise(
    Avg_Market_Cap = mean(Market_Cap),
    Max_Stock_Price = max(Stock_Price),
    Company_Count = n()
  )

Financial_merged <- left_join(financial_market, Sector_summary, by = "Sector")
head(Financial_merged)

5.3.1 Penjelasan

  • Sector_summary membuat ringkasan sektor:

    • Avg_Market_Cap: Kapitalisasi pasar rata-rata di sektor.

    • Max_Stock_Price: Harga saham tertinggi di sektor.

    • Company_Count: Jumlah perusahaan per sektor.

  • Lalu left_join dilakukan untuk menggabungkan informasi ini kembali ke data utama, memungkinkan perbandingan antar perusahaan dalam satu sektor.

5.4 Rank Transformation

Financial_rank_transform <- financial_market %>%
  mutate(
    ROE_Rank = rank(-Return_on_Equity)
  )
head(Financial_rank_transform)

5.4.1 Penjelasan

  • ROE_Rank: Memberi peringkat terhadap perusahaan berdasarkan ROE tertinggi ke terendah.

    • Dapat digunakan untuk mengurutkan dan memilih saham paling menguntungkan.

5.5 Text Cleaning & Feature Creation

Financial_text_feature <- financial_market %>%
  mutate(
    Stock_Num_Suffix = as.numeric(str_extract(Stock_ID, "\\d+"))
  )
head(Financial_text_feature)

5.5.1 Penjelasan

  • Stock_Num_Suffix: Mengekstrak angka dari ID saham. Ini berguna jika ID saham mengandung pola yang menyiratkan kategori, batch, atau grup.

    • Contoh: ID “ABC123” → suffix = 123

5.6 Cumulative Features

Financial_cumulative <- financial_market %>%
  arrange(Sector, Date) %>%
  group_by(Sector) %>%
  mutate(
    Cumulative_Volume = cumsum(Volume_Traded)
  ) %>%
  ungroup()
head(Financial_cumulative)

5.6.1 Penjelasan

  • Cumulative_Volume: Menjumlahkan total volume perdagangan dari waktu ke waktu untuk setiap sektor.

    • Cocok untuk melihat tren kumulatif aktivitas pasar di sektor tertentu.

    • Bisa digunakan dalam analisis momentum atau tren jangka panjang.

5.7 Kesimpulan Umum

Semua proses feature engineering ini bertujuan untuk:

  1. Memperkaya data: Membuat fitur baru yang bisa menangkap pola-pola tersembunyi di data mentah.

  2. Mempermudah analisis eksploratif: Dengan agregasi, ranking, dan transformasi, kita bisa lebih mudah melihat perusahaan unggulan, tren sektor, dan perbandingan antar perusahaan.

  3. Meningkatkan performa model machine learning atau prediksi: Fitur yang informatif dan relevan dapat membantu model mengenali hubungan antara variabel lebih baik.

  4. Memberi insight bisnis dan investasi: Seperti pemeringkatan saham, klasifikasi sektor, dan identifikasi saham dengan performa keuangan baik.

6 Deteksi Outlier Menggunakan Z-score dan IQR

library(dplyr)

# --- Z-score method for detecting outliers ---
data_outliers <- financial_market %>%
  mutate(
    z_scores_SP = scale(Stock_Price),
    Outlier_Flag = ifelse(abs(z_scores_SP) > 3, "Outlier", "Normal")
  )

# --- IQR method for detecting and removing outliers ---
Q1 <- quantile(financial_market$Total_Price, 0.25)
Q3 <- quantile(financial_market$Total_Price, 0.75)
IQR_val <- Q3 - Q1

data_outliers_iqr <- financial_market %>%
  filter(
    Stock_Price > (Q1 - 1.5 * IQR_val) & 
    Stock_Price < (Q3 + 1.5 * IQR_val)
  )

head(data_outliers)

1. Deteksi Outlier dengan Metode Z-Score

  • Anda menggunakan Z-score method untuk mendeteksi outlier pada kolom Stock_Price.
  • Z-score mengukur seberapa jauh suatu nilai dari rata-rata dalam satuan standar deviasi.
    • Rumus: Z = (x - mean) / sd
  • Baris data yang memiliki nilai Z-score lebih dari 3 atau kurang dari -3 dianggap outlier.
  • Kolom baru Outlier_Flag ditambahkan, berisi label:
    • Outlier jika nilai Z-score melebihi 3 atau kurang dari -3,
    • Normal jika masih dalam batas normal.

2. Pembersihan Outlier dengan Metode IQR

  • Metode kedua menggunakan Interquartile Range (IQR) pada kolom Total_Price untuk mendeteksi dan menghapus outlier.

  • Perhitungan:

    • Q1 (kuartil 1) = nilai pada persentil ke-25,
    • Q3 (kuartil 3) = nilai pada persentil ke-75,
    • IQR = Q3 - Q1.
  • Data dianggap outlier jika berada di luar rentang: \[ \left[ Q_1 - 1.5 \times \text{IQR},\; Q_3 + 1.5 \times \text{IQR} \right] \]

  • Baris yang berada di luar batas ini difilter dan dihapus dari data dengan filter().

  • Z-score untuk mendeteksi outlier pada Stock_Price,

  • IQR untuk menghapus outlier pada Total_Price.

  • Metode ini penting untuk membersihkan data, sehingga analisis atau model yang akan dibangun tidak bias oleh nilai ekstrem.

7 Discretization (Binning)

library(dplyr)

# Baca data
financial_market <- financial_market

# Binning (Equal-frequency) dengan quantile
binned_data <- financial_market %>%
  mutate(
    Price_Level = cut(
      Stock_Price,
      breaks = quantile(Stock_Price, probs = c(0, 0.33, 0.66, 1), na.rm = TRUE),
      labels = c("Low", "Medium", "High"),
      include.lowest = TRUE
    )
  )

#Tampilkan hasil binning
head(binned_data)

1. Tujuan Binning

  • Tujuannya adalah untuk mengelompokkan data numerik dari kolom Stock_Price menjadi beberapa kategori diskrit (dalam hal ini: Low, Medium, High).
  • Ini disebut **equal-frequency binning*, karena setiap kelompok akan memiliki jumlah data yang kurang lebih sama.

2. Proses yang Dillakukan

  • quantile() digunakan untuk menentukan batas-batas (breaks) berdasarkan persentil:
    • 0% (minimum),
    • 33% (sepertiga data),
    • 66% (dua pertiga data),
    • 100% (maksimum).
  • Kemudian fungsi cut() membagi kolom Stock_Price ke dalam tiga kelompok berdasarkan batas-batas tersebut, yaitu:
    • Low: nilai dari kuantil ke-0 hingga ke-33,
    • Medium: kuantil ke-33 hingga ke-66,
    • High: kuantil ke-66 hingga ke-100.
  • Kolom hasil kategorisasi tersebut dinamakan Price_Level.

8 Seasonality

library(dplyr)
library(lubridate)

Seasonality <- financial_market %>%
  mutate(
    Date = as.Date(Date, format = "%m/%d/%Y"),
    Year = year(Date),
    DayOfYear = yday(Date),
    DaysInYear = if_else(leap_year(Date), 366, 365),
    sin_year = sin(2 * pi * DayOfYear / DaysInYear),
    cos_year = cos(2 * pi * DayOfYear / DaysInYear)
  )

head(Seasonality)

Kesimpulan yang Didukung oleh Data

  1. Musim Maret–Juni (sin_year tinggi):
  • 2023-03-15 dan 2023-06-05 menunjukkan sin_year sangat tinggi dan performa masing-masing adalah Stable dan Positive.

  • Ini mendukung pola bahwa kuartal 2 (Q2) sering menunjukkan performa kuat atau stabil.

  1. Akhir Tahun – November (sin_year negatif tinggi):
  • 2020-11-16 (sin_year = -0.6979) : Stable

  • Tidak ekstrem negatif, tapi mendekati. Menunjukkan kinerja yang tidak terlalu kuat, sesuai dengan dugaan bahwa di akhir tahun bisa terjadi tekanan pasar (misalnya, aksi ambil untung/take profit).

  1. Awal Tahun – Januari (sin dan cos mendekati ekstrem positif):
  • 2023-01-02 : sin_year ≈ 0, cos_year ≈ 1 : Stable

  • Sesuai dengan interpretasi bahwa awal tahun cenderung netral atau belum menunjukkan tren jelas.

  1. Pertengahan Tahun – Juli (sin_year mendekati nol, cos_year negatif tinggi):
  • 2021-07-14 : Positive meskipun sin_year = -0.2135 : berarti ada potensi kinerja baik di pertengahan tahun, meskipun secara musiman berada dalam transisiturun.
  1. Anomali:
  • 2023-03-22 : sin_year sangat tinggi (0.9845) tapi performa Negative. Ini menunjukkan bahwa meskipun sinyal musiman mendukung pertumbuhan, faktor lain (mungkin eksternal atau sektor tertentu) bisa memengaruhi negatif.
---
title: "Data Tranformation"
subtitle: "Data Science Programming"
author: 
  - "KELOMPOK 3"
  - "Joans Henky Servatius S (52240017)"
  - "Nova Sitorus (52240023)"
  - "Olivia Meilinda Davtin P (52240011)"
  - "Nabila Anggita Putri (52240002)"
  - "Rachelia Bevina Tambajong (52240021)"
  - "Dwi Sri Yanti Manullang (52240030)"
  - "Chello Frhino Mike M (52240031)"
date:  "`r format(Sys.Date(), '%B %d, %Y')`"
output:
  rmdformats::downcute:   # https://github.com/juba/rmdformats
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    number_sections: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes
    
---

<style>
  body {
    text-align: justify;
    background-color: white;
    overflow-x: auto;
    font-family: serif;
  }
</style>

**KELOMPOK 3**

<img id="kelompok3" src="C:/Users/USER/Documents/DSPKEL3/kel3.jpg" alt="kel" style="width:800px; display: block; margin: auto;">




# Temporal Transformation

**FINANCIAL MARKET**
```{r,message=FALSE,warning=FALSE}
library(dplyr)
library(tidyverse)
library(readr)
library(zoo)
library(DT)
financial_market <- read_csv("financial market.csv")
datatable(financial_market, options = list(pageLength = 5))
```

## Lag,Diff,Rolling

1. **Lag**: Mengambil nilai dari periode sebelumnya. Berguna untuk membandingkan data sekarang dengan data masa lalu.

2. **Diff**: Menghitung selisih antar elemen berturut-turut.. Membantu mengukur perubahan antar waktu.

3. **Rolling Mean**: Rata-rata bergerak dari beberapa nilai terakhir (misalnya 5 hari terakhir). Digunakan untuk melihat tren jangka pendek dengan menghaluskan fluktuasi data.


```{r,message=FALSE,warning=FALSE}

financial_market <- read_csv("financial market.csv")

# Lanjutkan transformasi
Tempral <- financial_market %>%
  mutate(Date = ymd(Date))  # ganti 'Date' kalau nama kolomnya berbeda

# Hitung Lag, Diff, Rolling Mean untuk Stock_Price, Volume_Traded, Market_Cap
LDR <- financial_market %>%
  arrange(Sector, Date) %>%
  group_by(Sector) %>%
  mutate(
    # Lag
    Lag_Stock_Price = lag(Stock_Price),
    Lag_Volume = lag(Volume_Traded),
    Lag_Market_Cap = lag(Market_Cap),
    
    # Diff
    Diff_Stock_Price = round(Stock_Price - Lag_Stock_Price, 2),
    Diff_Volume = Volume_Traded - Lag_Volume,
    Diff_Market_Cap = Market_Cap - Lag_Market_Cap,
    
    # Rolling Mean (3 hari terakhir)
    RollingMean_Stock_Price_3 = round(zoo::rollapply(Stock_Price, width = 3, FUN = mean, fill = NA, align = "right"), 2),
    RollingMean_Volume_3 = round(zoo::rollapply(Volume_Traded, width = 3, FUN = mean, fill = NA, align = "right")),
    RollingMean_Market_Cap_3 = round(zoo::rollapply(Market_Cap, width = 3, FUN = mean, fill = NA, align = "right"))
  ) %>%
  ungroup()

# Tampilkan hasil
datatable(LDR, options = list(pageLength = 5))
```
1. **Stock_Price**: Harga saham sering dianalisis berdasarkan perubahan waktu (misal: naik/turun harga harian).Di-*lag* untuk melihat harga sebelumnya, *diff* untuk selisih harian, dan *rolling mean* untuk tren jangka pendek.

2. **Volume_Traded**: Volume transaksi bisa fluktuatif, perlu dilihat perubahannya dan rata-rata dalam window waktu. Di-*lag* dan *diff* untuk deteksi lonjakan aktivitas, *rolling mean* untuk kestabilan volume.

3. **Market_Cap**: Di-*diff* dan *rolling mean* untuk memantau perubahan nilai pasar saham secara bertahap.


## Extract Date

```{r}
library(dplyr)
library(lubridate)
library(stringr)

Extract <- financial_market %>%
  mutate(
    Date = as.Date(Date, format = "%m/%d/%Y"),  # konversi dari karakter ke Date
    Day_of_Week = weekdays(Date),
    Month = month(Date, label = TRUE),
    Year = year(Date),
    Is_Weekend = ifelse(Day_of_Week %in% c("Saturday", "Sunday"), 1, 0),
    Sector = as.factor(Sector),
    Performance = as.factor(Performance)
  ) %>%
  bind_cols(
    as.data.frame(model.matrix(~ Sector - 1, data = .)),
    as.data.frame(model.matrix(~ Performance - 1, data = .))
  )

# Lihat beberapa baris pertama
datatable(Extract, options = list(pageLength = 5))

```
Konversi Tanggal: Variabel Date dikonversi dari format karakter ke format Date agar dapat dianalisis secara temporal.

Ekstraksi Informasi Waktu: Dari tanggal tersebut, ditambahkan beberapa informasi waktu:

Day_of_Week: hari dalam minggu,

Month: bulan (dalam format label, misalnya Jan, Feb),

Year: tahun transaksi,

Is_Weekend: indikator apakah hari tersebut akhir pekan (Sabtu/Minggu).

## Cumulative Value
 
```{r}
Tempral3 <- financial_market %>%
  arrange(Stock_ID, Date) %>%
  group_by(Stock_ID) %>%
  mutate(
    Cumulative_Volume = cumsum(Volume_Traded),
    Cumulative_MarketCap = cumsum(Market_Cap),
    Cumulative_AvgPrice = cummean(Stock_Price)
  ) %>%
  ungroup()

head(Tempral3)

```
Potongan kode ini digunakan untuk menghitung akumulasi data pasar saham secara temporal berdasarkan setiap `Stock_ID`. Data pertama-tama diurutkan berdasarkan `Stock_ID` dan `Date` agar analisis bersifat time-series. Kemudian, untuk setiap stock (`group_by(Stock_ID)`), dilakukan tiga perhitungan: 

1. **Cumulative_Volume**: total volume perdagangan yang terus dijumlahkan dari waktu ke waktu.
2. **Cumulative_MarketCap**: akumulasi kapitalisasi pasar hingga tanggal tertentu.
3. **Cumulative_AvgPrice**: rata-rata harga saham secara kumulatif (hingga titik waktu tersebut) menggunakan `cummean()`.

Fungsi `ungroup()` digunakan agar hasilnya tidak lagi bersifat kelompok. Hasil akhir memberi gambaran perkembangan historis kinerja setiap saham dari waktu ke waktu.  


# Distribution Transformation

## Log Transform
Variabel yang dipilih adalah Kapasitas pasar alasannya adalah, karena kapasitas pasar mempunyai angka yang sangat besar dan distribusinya sangat miring ke kanan (right-skewed).


```{r, message=FALSE, warning=FALSE}
library(dplyr)

min_positive <- min(financial_market$Market_Cap[financial_market$Market_Cap > 0])

Log <- financial_market %>%
  mutate(
    Safe_Market_Cap = ifelse(Market_Cap <= 0, min_positive, Market_Cap),
    Log_Market_Cap = log1p(Safe_Market_Cap)
  )
head(Log)
```

*Interpretasi:*

Transformasi log digunakan untuk:

- Menstabilkan varians yang meningkat seiring dengan nilai variabel.

- Mengurangi skewness (kemiringan distribusi) terutama pada data yang terdistribusi skewed ke kanan seperti Kapitalisasi.Pasar.

- Dalam kode, nilai nol atau negatif diganti dengan nilai positif terkecil agar `log()` tidak error.

- Fungsi `log1p(x)` `(yaitu log(x + 1))` digunakan sebagai bentuk aman untuk data nol.

*Hasil:* 

Distribusi menjadi lebih simetris dan varians antar level data menjadi lebih seimbang, sehingga lebih cocok untuk analisis regresi.

- Bertambah 2 variabel, yaitu: Safe_Kapitalisasi_Pasar dan Log_Kapitalisasi_Pasar

## Box-Cox
```{r, message=FALSE, warning=FALSE}
library(bestNormalize)
financial_market <- read.csv("financial market.csv")

Box_Cox <- financial_market %>%
  mutate(
    YeoJ_Volume_Traded = bestNormalize(Volume_Traded)$x.t,
    YeoJ_Market_Cap = bestNormalize(Market_Cap)$x.t
  )
head(Box_Cox)
```

*Interpretasi:*

- Menggunakan fungsi bestNormalize() yang otomatis memilih metode transformasi terbaik agar data mendekati distribusi normal.  

- Transformasi dilakukan pada Volume_Diperdagangkan dan Kapitalisasi.Pasar, dan hasilnya disimpan sebagai kolom baru.  

- Praktik ini ideal untuk preprocessing sebelum modeling, karena membantu mengurangi skewness dan menstabilkan varians data.

## Stabilisasi Varians

```{r, message=FALSE, warning=FALSE}
library(DT)

Stabilize <- financial_market %>%
  mutate(
    sqrt_Volume_Traded = sqrt(pmax(Volume_Traded, 0)),
    sqrt_Market_Cap = sqrt(pmax(Market_Cap, 0))
  )%>%
  ungroup()


datatable(Stabilize, options = list(pageLength = 5))
```
### Interpretasi:

Transformasi akar kuadrat (sqrt) sering digunakan dalam analisis data keuangan atau statistik untuk:

* *Menstabilkan varians*: Data seperti Volume_Traded dan Market_Cap bisa sangat bervariasi antar perusahaan (ada yang kecil, ada yang sangat besar). Transformasi akar membantu mengurangi efek ekstrem ini.

* *Mengurangi skewness*: Banyak variabel keuangan bersifat sangat miring ke kanan (right-skewed). Akar kuadrat membuat distribusinya lebih simetris (dekat normal), yang penting untuk analisis regresi atau machine learning.

* *Menghindari masalah nilai negatif*: pmax(..., 0) memastikan nilai negatif diubah menjadi nol sebelum dihitung akarnya, karena akar dari bilangan negatif tidak valid dalam konteks real.

### Contoh Interpretasi Kasus:

Misalnya, dua perusahaan:

- Perusahaan A: Market_Cap = 1.000.000  
- Perusahaan B: Market_Cap = 10.000

Tanpa transformasi, Perusahaan A terlihat *100× lebih besar*. Setelah akar kuadrat:

- sqrt(1.000.000) = 1000  
- sqrt(10.000) = 100  

Sekarang Perusahaan A hanya terlihat *10× lebih besar*, membuat analisis lebih proporsional.

# Scaling & Normalization

## Z-Score Standardization

```{r}
# Standardisasi Z-Score: mengubah data agar memiliki rata-rata 0 dan standar deviasi 1
financial_scaled <- financial_market %>%
  mutate(
    Stock_Price_Std = scale(Stock_Price),
    Volume_Traded_Std = scale(Volume_Traded),
    Market_Cap_Std = scale(Market_Cap),
    PE_Ratio_Std = scale(PE_Ratio),
    Dividend_Yield_Std = scale(Dividend_Yield),
    Return_on_Equity_Std = scale(Return_on_Equity)
  )
head(financial_scaled)
```

### Penjelasan:

1. financial_market adalah data frame yang berisi data pasar keuangan. Kolom-kolomnya mencakup variabel seperti harga saham (Stock_Price), volume perdagangan (Volume_Traded), kapitalisasi pasar (Market_Cap), rasio PE (PE_Ratio), dividen (Dividend_Yield), dan ROE (Return_on_Equity).

2. Fungsi mutate() dari paket dplyr digunakan untuk menambahkan kolom-kolom baru hasil transformasi dari kolom yang ada.

3. Z-Score Standardization adalah metode transformasi data yang mengubah setiap nilai menjadi ukuran dalam satuan standar deviasi dari rata-rata. 

4. Fungsi scale() adalah fungsi bawaan R untuk melakukan Z-score standardization, yaitu:
$$ Z = \frac{X - \mu } {\sigma} $$

- X: nilai asli

- $\mu$ : rata-rata data

- $\sigma$: standar deviasi data

Hasilnya adalah data baru yang:

- Memiliki rata-rata = 0

- Memiliki standar deviasi = 1

5. Kolom baru dengan akhiran _Std dibuat untuk setiap variabel, seperti:

- Stock_Price_Std

- Volume_Traded_Std

- Market_Cap_Std

- PE_Ratio_Std

- Dividend_Yield_Std

- Return_on_Equity_Std

6. head(financial_scaled) digunakan untuk menampilkan 6 baris pertama dari data yang telah ditransformasi.

### Contoh Perhitungan Manual

Misalkan data Stock_Price: [100, 120, 150, 130, 110]

1. Hitung Mean:

$$ \mu = \frac{100 + 120 + 150 + 130 + 110 } {5} = \frac{610}{5} = 122$$

2. Hitung Standar Deviasi (σ):

$$ \sigma = \sqrt{\frac{(100 - 122)^2 + (120 - 122)^2 + (150 - 122)^2 + (130 - 122)^2 + (110 - 122)^2 } {5}} $$

$$ = \sqrt{\frac{484 + 4 + 784 + 64 + 144}{5}} = \sqrt{\frac{1480}{5}} = \sqrt{296} = 17.2 $$

3. Z-Score untuk nilai 150:

$$ Z = \frac{150 - 122 } {17.2} = \frac{28}{17.2} = 1.63 $$

## Min-Max Normalization

```{r}
# Normalisasi Min-Max: mengubah skala data ke dalam rentang [0, 1]
financial_normalized <- financial_market %>%
  mutate(
    Stock_Price_Norm = (Stock_Price - min(Stock_Price)) / (max(Stock_Price) - min(Stock_Price)),
    Volume_Traded_Norm = (Volume_Traded - min(Volume_Traded)) / (max(Volume_Traded) - min(Volume_Traded)),
    Market_Cap_Norm = (Market_Cap - min(Market_Cap)) / (max(Market_Cap - min(Market_Cap))),
    PE_Ratio_Norm = (PE_Ratio - min(PE_Ratio)) / (max(PE_Ratio) - min(PE_Ratio)),
    Dividend_Yield_Norm = (Dividend_Yield - min(Dividend_Yield)) / (max(Dividend_Yield) - min(Dividend_Yield)),
    Return_on_Equity_Norm = (Return_on_Equity - min(Return_on_Equity)) / (max(Return_on_Equity) - min(Return_on_Equity))
  )
head(financial_normalized)
```
### Penjelasan

1. financial_market adalah data frame yang berisi data pasar keuangan. Kolom-kolomnya mencakup variabel seperti harga saham (Stock_Price), volume perdagangan (Volume_Traded), kapitalisasi pasar (Market_Cap), rasio PE (PE_Ratio), dividen (Dividend_Yield), dan ROE (Return_on_Equity).

2. Fungsi mutate() dari paket dplyr digunakan untuk menambahkan kolom-kolom baru hasil transformasi dari kolom yang ada.

3. Normalisasi Min-Max adalah metode penskalaan data ke dalam rentang tetap, yaitu [0, 1], dengan menggunakan rumus berikut:
$$ X_{norm} = \frac{X - X_{min} } {X_{max} - X_{min}} $$

- X: nilai asli

- $X_{min}$ : nilai minimum dari fitur

- $X_{min}$ : nilai maksimum dari fitur
 
Hasilnya adalah data baru yang:

- Memiliki nilai terendah = 0

- Memiliki nilai tertinggi = 1

- Tetap mempertahankan distribusi asli datanya (namun rentangnya dipersempit)

4. Kolom baru dengan akhiran _Norm dibuat untuk setiap variabel, seperti:

- Stock_Price_Norm

- Volume_Traded_Norm

- Market_Cap_Norm

- PE_Ratio_Norm

- Dividend_Yield_Norm

- Return_on_Equity_Norm

5. Fungsi head(financial_normalized) digunakan untuk menampilkan 6 baris pertama dari data yang telah dinormalisasi.

### Contoh Perhitungan Manual

Data Stock_Price:[100, 120, 150, 130, 110]

1. Minimum dan Maksimum:

- Min: 100

- Max: 150

2. Min-Max Normalization untuk nilai 130:
$$ X_{norm} = \frac{130 - 100 } {150 - 100} = \frac{30}{50} = 0.6$$

# Categorical Encoding

Di dalam data, kadang kita menemukan kolom yang isinya bukan angka, tapi *kata-kata* atau *kategori*, misalnya:
 
 
- Sector = “Finance”, “Retail”, “Technology”
 
- Performance = “Positive”, “Negative”, “Stable”

```{r,message=FALSE,warning=FALSE}
library(readr)
library(dplyr)

# Baca file CSV-nya
financial_market <- read_csv("financial market.csv")

# Tampilkan 6 data teratas
head(financial_market)
```

Masalahnya, **komputer** hanya bisa membaca angka. Maka, kita perlu mengubah kata-kata ini menjadi angka. Caranya disebut **Categorical Encoding**.
 
  
## One Hot Encoding
 
*Gampangnya:* Kita bikin kolom baru untuk setiap kategori, lalu kita kasih *angka 1 jika cocok, dan 0* *kalau tidak*.

*Kenapa Nggak Pakai Angka Biasa (1, 2, 3)?*
 
Karena kalau kita kasih angka seperti:
 
 
- Positive = 1
 
- Negative = 2
 
- Stable = 3
 
 
**Komputer bisa salah paham** dan mengira ada **urutan atau ranking**, padahal **nggak ada**.
 
Padahal kategori itu cuma **label**, bukan nilai.
 
Makanya kita pakai **biner (0 dan 1)**, biar komputer ngerti bahwa semua kategori itu **setara**, nggak ada yang lebih tinggi atau lebih rendah.

berikut kodenya:
 
```{r,message=FALSE,warning=FALSE}
library(fastDummies)

# Ubah kolom Sector & Performance jadi bentuk angka biner (0/1)
one_hot <- dummy_cols(financial_market, 
                      select_columns = c("Sector", "Performance"), 
                      remove_first_dummy = FALSE, 
                      remove_selected_columns = TRUE)

# Tampilkan 6 data hasil one hot encoding
head(one_hot)
```
  
## Frequency Encoding
 
*Gampangnya:* Kita hitung **berapa kali** setiap kategori muncul, lalu **setiap data diganti dengan angka frekuensinya**.

```{r,message=FALSE,warning=FALSE}
# Fungsi untuk menghitung frekuensi (berapa sering muncul)
freq_enc <- function(col) {
  tab <- table(col)
  return(as.numeric(tab[col]) / length(col))
}

# Tambahkan kolom frekuensi ke data
data_freq <- financial_market %>%
  mutate(
    Sector_freq = freq_enc(Sector),
    Performance_freq = freq_enc(Performance)
  )

# Tampilkan 6 data teratas
head(data_freq)
```
*Hasilnya:*  
Akan muncul dua kolom baru:

- Sector_freq: berisi angka frekuensi dari nilai di kolom Sector

- Performance_freq: frekuensi dari kolom Performance

Setiap baris akan berisi angka pecahan (misalnya 0.360, 0.336) yang menunjukkan **seberapa sering nilai tersebut muncul dalam keseluruhan data**.


# Feature Engineering

```{r}
# Feature Engineering pada Financial_market

Feature_Eng <- financial_market %>%
  mutate(
    # 1. New Features from Raw Data
    Price_Per_Volume = Stock_Price / (Volume_Traded + 1e-5),  # Hindari pembagian dengan nol
    
    # 2. Product of Features, Crossed Terms
    PE_x_ROE = PE_Ratio * Return_on_Equity,
    
    # 3. Price per Unit, Efficiency
    Yield_to_PE = Dividend_Yield / (PE_Ratio + 1e-5),  # Yield per PE

    # 4. Ranking, Percentile
    MarketCap_Rank = rank(-Market_Cap),  # Rank market cap terbesar ke terkecil
    ROE_Quartile = ntile(Return_on_Equity, 4),  # Bagi ROE ke dalam 4 kuartil
    
    # 5. From IDs: Prefix, Length, Pattern
    Stock_ID_Prefix = substr(Stock_ID, 1, 3),
    Stock_ID_Length = nchar(Stock_ID)
  ) %>%
  
  # 6. Avg, Sum, Count by Group
  group_by(Sector) %>%
  mutate(
    Avg_PE_Sector = mean(PE_Ratio, na.rm = TRUE),
    Avg_ROE_Sector = mean(Return_on_Equity, na.rm = TRUE),
    Total_Companies_Sector = n()
  ) %>%
  ungroup()

head(Feature_Eng)
```

### Penjelasan
1. New Features from Raw Data

- Price_Per_Volume: Mengukur seberapa besar harga saham dibanding volume perdagangannya. Digunakan untuk melihat apakah saham diperdagangkan terlalu banyak atau terlalu sedikit terhadap nilainya.

  - Ditambah 1e-5 untuk mencegah pembagian nol.

2. Product of Features, Crossed Terms

- Mengalikan Price to Earnings Ratio (P/E) dengan Return on Equity (ROE) menghasilkan interaksi antar dua metrik penting:

  - PE Ratio menunjukkan valuasi saham.

  - ROE menunjukkan efisiensi perusahaan menghasilkan laba dari modal sendiri.

- Interaksi ini bisa memberi sinyal apakah saham undervalued atau overvalued dengan memperhitungkan efisiensi.

3. Price per Unit, Efficiency

- Yield_to_PE: Efisiensi hasil dividen terhadap nilai valuasi perusahaan.

  - Saham dengan rasio tinggi dianggap memberikan return dividen yang besar dengan valuasi rendah (menarik untuk investor dividen).

  - Lagi-lagi ditambah 1e-5 untuk menghindari pembagian nol.

4. Ranking, Percentile

- MarketCap_Rank: Memberi ranking terhadap perusahaan berdasarkan kapitalisasi pasar dari terbesar (rank 1) ke terkecil.

- ROE_Quartile: Mengelompokkan ROE ke dalam 4 kuartil. Tujuannya untuk klasifikasi performa perusahaan berdasarkan ROE:

  - Kuartil 1: ROE rendah

  - Kuartil 4: ROE tinggi (perusahaan sangat menguntungkan)

5. From IDs: Prefix, Length, Pattern

- Stock_ID_Prefix: Mengambil 3 karakter awal dari ID saham. Ini bisa menunjukkan kode kategori, jenis saham, atau asal bursa.

- Stock_ID_Length: Panjang dari ID saham. Bisa membantu deteksi format ID yang tidak lazim.

6. Avg, Sum, Count by Group
- Fitur ini menghitung statistik agregat berdasarkan Sector:

  - Avg_PE_Sector: Rata-rata PE untuk seluruh perusahaan di sektor tersebut.

  - Avg_ROE_Sector: Rata-rata ROE.

  - Total_Companies_Sector: Jumlah perusahaan dalam sektor.

- Berguna untuk membandingkan kinerja perusahaan dengan rata-rata sektornya (relative valuation).

## Interaction Features 

```{r}
Financial_interaction <- financial_market %>%
  mutate(
    Impact_Score = Stock_Price * Return_on_Equity
  )
head(Financial_interaction)
```

### Penjelasan
- Impact_Score: Mencerminkan "kekuatan pasar" suatu saham berdasarkan harga dan return ekuitasnya.

  - Semakin tinggi nilai ini, semakin signifikan pengaruh saham terhadap pasar atau investor.

## Ratio Features

```{r}
Financial_ratio <- financial_market %>%
  mutate(
    Dividend_to_Price = Dividend_Yield / (Stock_Price + 1e-5)
  )
head(Financial_ratio)
```

### Penjelasan
- Dividend_to_Price: Mengukur imbal hasil dividen relatif terhadap harga saham.

  - Saham dengan rasio tinggi memberikan dividen besar meskipun harganya rendah.

  - Cocok untuk identifikasi saham "dividen murah".

## Group Aggregation
```{r}
Sector_summary <- financial_market %>%
  group_by(Sector) %>%
  summarise(
    Avg_Market_Cap = mean(Market_Cap),
    Max_Stock_Price = max(Stock_Price),
    Company_Count = n()
  )

Financial_merged <- left_join(financial_market, Sector_summary, by = "Sector")
head(Financial_merged)
```

### Penjelasan
- Sector_summary membuat ringkasan sektor:

  - Avg_Market_Cap: Kapitalisasi pasar rata-rata di sektor.

  - Max_Stock_Price: Harga saham tertinggi di sektor.

  - Company_Count: Jumlah perusahaan per sektor.

- Lalu left_join dilakukan untuk menggabungkan informasi ini kembali ke data utama, memungkinkan perbandingan antar perusahaan dalam satu sektor.

## Rank Transformation
```{r}
Financial_rank_transform <- financial_market %>%
  mutate(
    ROE_Rank = rank(-Return_on_Equity)
  )
head(Financial_rank_transform)
```

### Penjelasan
- ROE_Rank: Memberi peringkat terhadap perusahaan berdasarkan ROE tertinggi ke terendah.

  - Dapat digunakan untuk mengurutkan dan memilih saham paling menguntungkan.

## Text Cleaning & Feature Creation

```{r}
Financial_text_feature <- financial_market %>%
  mutate(
    Stock_Num_Suffix = as.numeric(str_extract(Stock_ID, "\\d+"))
  )
head(Financial_text_feature)
```

### Penjelasan

- Stock_Num_Suffix: Mengekstrak angka dari ID saham. Ini berguna jika ID saham mengandung pola yang menyiratkan kategori, batch, atau grup.

  - Contoh: ID "ABC123" → suffix = 123

## Cumulative Features

```{r}
Financial_cumulative <- financial_market %>%
  arrange(Sector, Date) %>%
  group_by(Sector) %>%
  mutate(
    Cumulative_Volume = cumsum(Volume_Traded)
  ) %>%
  ungroup()
head(Financial_cumulative)
```

### Penjelasan
- Cumulative_Volume: Menjumlahkan total volume perdagangan dari waktu ke waktu untuk setiap sektor.

  - Cocok untuk melihat tren kumulatif aktivitas pasar di sektor tertentu.

  - Bisa digunakan dalam analisis momentum atau tren jangka panjang.

## Kesimpulan Umum
Semua proses feature engineering ini bertujuan untuk:

1. *Memperkaya data*: Membuat fitur baru yang bisa menangkap pola-pola tersembunyi di data mentah.

2. *Mempermudah analisis eksploratif*: Dengan agregasi, ranking, dan transformasi, kita bisa lebih mudah melihat perusahaan unggulan, tren sektor, dan perbandingan antar perusahaan.

3. *Meningkatkan performa model machine learning atau prediksi*: Fitur yang informatif dan relevan dapat membantu model mengenali hubungan antara variabel lebih baik.

4. *Memberi insight bisnis dan investasi*: Seperti pemeringkatan saham, klasifikasi sektor, dan identifikasi saham dengan performa keuangan baik.




# **Deteksi Outlier Menggunakan Z-score dan IQR**

```{r, message=FALSE, warning=FALSE}
library(dplyr)

# --- Z-score method for detecting outliers ---
data_outliers <- financial_market %>%
  mutate(
    z_scores_SP = scale(Stock_Price),
    Outlier_Flag = ifelse(abs(z_scores_SP) > 3, "Outlier", "Normal")
  )

# --- IQR method for detecting and removing outliers ---
Q1 <- quantile(financial_market$Total_Price, 0.25)
Q3 <- quantile(financial_market$Total_Price, 0.75)
IQR_val <- Q3 - Q1

data_outliers_iqr <- financial_market %>%
  filter(
    Stock_Price > (Q1 - 1.5 * IQR_val) & 
    Stock_Price < (Q3 + 1.5 * IQR_val)
  )

head(data_outliers)

```
**1. Deteksi Outlier dengan Metode Z-Score**

- Anda menggunakan **Z-score method** untuk mendeteksi outlier pada kolom **Stock_Price**.
- **Z-score** mengukur seberapa jauh suatu nilai dari rata-rata dalam satuan standar deviasi.
    - Rumus: **Z = (x - mean) / sd**
- Baris data yang memiliki nilai Z-score lebih dari 3 atau kurang dari -3 dianggap **outlier.**
- Kolom baru **Outlier_Flag** ditambahkan, berisi label:
    - **Outlier** jika nilai Z-score melebihi 3 atau kurang dari -3,
    - **Normal** jika masih dalam batas normal.
    
**2. Pembersihan Outlier dengan Metode IQR**

- Metode kedua menggunakan **Interquartile Range (IQR)** pada kolom **Total_Price** untuk mendeteksi dan menghapus outlier.
- Perhitungan:
    - **Q1 (kuartil 1)** = nilai pada persentil ke-25,
    - **Q3 (kuartil 3)** = nilai pada persentil ke-75,
    - **IQR** = Q3 - Q1.
    
- Data dianggap **outlier** jika berada di luar rentang:
\[
\left[ Q_1 - 1.5 \times \text{IQR},\; Q_3 + 1.5 \times \text{IQR} \right]
\]

- Baris yang berada di luar batas ini difilter dan dihapus dari data dengan **filter()**.

- Z-score untuk mendeteksi outlier pada Stock_Price,
- IQR untuk menghapus outlier pada Total_Price.
- Metode ini penting untuk membersihkan data, sehingga analisis atau model yang akan dibangun tidak bias oleh nilai ekstrem.





# **Discretization (Binning)**

```{r, message=FALSE, warning=FALSE}
library(dplyr)

# Baca data
financial_market <- financial_market

# Binning (Equal-frequency) dengan quantile
binned_data <- financial_market %>%
  mutate(
    Price_Level = cut(
      Stock_Price,
      breaks = quantile(Stock_Price, probs = c(0, 0.33, 0.66, 1), na.rm = TRUE),
      labels = c("Low", "Medium", "High"),
      include.lowest = TRUE
    )
  )

#Tampilkan hasil binning
head(binned_data)
```

**1. Tujuan Binning**

- Tujuannya adalah untuk mengelompokkan data numerik dari kolom **Stock_Price** menjadi beberapa **kategori diskrit** (dalam hal ini: Low, Medium, High).
- Ini disebut **equal-frequency binning*, karena setiap kelompok akan memiliki jumlah data yang kurang lebih sama.

**2. Proses yang Dillakukan**

- **quantile()** digunakan untuk menentukan batas-batas (breaks) berdasarkan **persentil**:
    - 0% (minimum),
    - 33% (sepertiga data),
    - 66% (dua pertiga data),
    - 100% (maksimum).
    
- Kemudian fungsi cut() membagi kolom Stock_Price ke dalam tiga kelompok berdasarkan batas-batas tersebut, yaitu:
    - **Low**: nilai dari kuantil ke-0 hingga ke-33,
    - **Medium**: kuantil ke-33 hingga ke-66,
    - **High**: kuantil ke-66 hingga ke-100.

- Kolom hasil kategorisasi tersebut dinamakan **Price_Level**.


# Seasonality

```{r,message=FALSE,warning=FALSE}
library(dplyr)
library(lubridate)

Seasonality <- financial_market %>%
  mutate(
    Date = as.Date(Date, format = "%m/%d/%Y"),
    Year = year(Date),
    DayOfYear = yday(Date),
    DaysInYear = if_else(leap_year(Date), 366, 365),
    sin_year = sin(2 * pi * DayOfYear / DaysInYear),
    cos_year = cos(2 * pi * DayOfYear / DaysInYear)
  )

head(Seasonality)

```

**Kesimpulan yang Didukung oleh Data**

1. **Musim Maret–Juni (sin_year tinggi)**:

- 2023-03-15 dan 2023-06-05 menunjukkan **sin_year** sangat tinggi dan performa masing-masing adalah *Stable dan Positive*.

- Ini mendukung pola bahwa **kuartal 2 (Q2)** sering menunjukkan performa **kuat atau stabil**.


2. **Akhir Tahun – November (sin_year negatif tinggi)**:

- 2020-11-16 (*sin_year = -0.6979*) : **Stable**

- Tidak ekstrem negatif, tapi mendekati. Menunjukkan **kinerja yang tidak terlalu kuat**, sesuai dengan dugaan bahwa di akhir tahun bisa terjadi tekanan pasar (misalnya, aksi ambil untung/take profit).


3. **Awal Tahun – Januari (sin dan cos mendekati ekstrem positif)**:

- 2023-01-02 : sin_year ≈ 0, cos_year ≈ 1 : **Stable**

- Sesuai dengan interpretasi bahwa awal tahun cenderung netral atau belum menunjukkan tren jelas.


4. **Pertengahan Tahun – Juli (sin_year mendekati nol, cos_year negatif tinggi)**:

- 2021-07-14 : *Positive* meskipun sin_year = -0.2135 : berarti ada potensi kinerja baik di pertengahan tahun, meskipun secara musiman berada dalam transisiturun.

5. **Anomali**:

- 2023-03-22 : **sin_year** sangat tinggi (0.9845) tapi performa Negative. Ini menunjukkan bahwa meskipun sinyal musiman mendukung pertumbuhan, faktor lain (mungkin eksternal atau sektor tertentu) bisa memengaruhi negatif.

