KELOMPOK 3

Scaling &
Normalization
Z-Score
Standardization
# Standardisasi Z-Score: mengubah data agar memiliki rata-rata 0 dan standar deviasi 1
financial_scaled <- financial_market %>%
mutate(
Stock_Price_Std = scale(Stock_Price),
Volume_Traded_Std = scale(Volume_Traded),
Market_Cap_Std = scale(Market_Cap),
PE_Ratio_Std = scale(PE_Ratio),
Dividend_Yield_Std = scale(Dividend_Yield),
Return_on_Equity_Std = scale(Return_on_Equity)
)
head(financial_scaled)
Penjelasan:
financial_market adalah data frame yang berisi data pasar
keuangan. Kolom-kolomnya mencakup variabel seperti harga saham
(Stock_Price), volume perdagangan (Volume_Traded), kapitalisasi pasar
(Market_Cap), rasio PE (PE_Ratio), dividen (Dividend_Yield), dan ROE
(Return_on_Equity).
Fungsi mutate() dari paket dplyr digunakan untuk menambahkan
kolom-kolom baru hasil transformasi dari kolom yang ada.
Z-Score Standardization adalah metode transformasi data yang
mengubah setiap nilai menjadi ukuran dalam satuan standar deviasi dari
rata-rata.
Fungsi scale() adalah fungsi bawaan R untuk melakukan Z-score
standardization, yaitu: \[ Z = \frac{X - \mu
} {\sigma} \]
Hasilnya adalah data baru yang:
- Kolom baru dengan akhiran _Std dibuat untuk setiap variabel,
seperti:
Stock_Price_Std
Volume_Traded_Std
Market_Cap_Std
PE_Ratio_Std
Dividend_Yield_Std
Return_on_Equity_Std
- head(financial_scaled) digunakan untuk menampilkan 6 baris pertama
dari data yang telah ditransformasi.
Contoh Perhitungan
Manual
Misalkan data Stock_Price: [100, 120, 150, 130, 110]
- Hitung Mean:
\[ \mu = \frac{100 + 120 + 150 + 130 + 110
} {5} = \frac{610}{5} = 122\]
- Hitung Standar Deviasi (σ):
\[ \sigma = \sqrt{\frac{(100 - 122)^2 +
(120 - 122)^2 + (150 - 122)^2 + (130 - 122)^2 + (110 - 122)^2 } {5}}
\]
\[ = \sqrt{\frac{484 + 4 + 784 + 64 +
144}{5}} = \sqrt{\frac{1480}{5}} = \sqrt{296} = 17.2 \]
- Z-Score untuk nilai 150:
\[ Z = \frac{150 - 122 } {17.2} =
\frac{28}{17.2} = 1.63 \]
Min-Max
Normalization
# Normalisasi Min-Max: mengubah skala data ke dalam rentang [0, 1]
financial_normalized <- financial_market %>%
mutate(
Stock_Price_Norm = (Stock_Price - min(Stock_Price)) / (max(Stock_Price) - min(Stock_Price)),
Volume_Traded_Norm = (Volume_Traded - min(Volume_Traded)) / (max(Volume_Traded) - min(Volume_Traded)),
Market_Cap_Norm = (Market_Cap - min(Market_Cap)) / (max(Market_Cap - min(Market_Cap))),
PE_Ratio_Norm = (PE_Ratio - min(PE_Ratio)) / (max(PE_Ratio) - min(PE_Ratio)),
Dividend_Yield_Norm = (Dividend_Yield - min(Dividend_Yield)) / (max(Dividend_Yield) - min(Dividend_Yield)),
Return_on_Equity_Norm = (Return_on_Equity - min(Return_on_Equity)) / (max(Return_on_Equity) - min(Return_on_Equity))
)
head(financial_normalized)
Penjelasan
financial_market adalah data frame yang berisi data pasar
keuangan. Kolom-kolomnya mencakup variabel seperti harga saham
(Stock_Price), volume perdagangan (Volume_Traded), kapitalisasi pasar
(Market_Cap), rasio PE (PE_Ratio), dividen (Dividend_Yield), dan ROE
(Return_on_Equity).
Fungsi mutate() dari paket dplyr digunakan untuk menambahkan
kolom-kolom baru hasil transformasi dari kolom yang ada.
Normalisasi Min-Max adalah metode penskalaan data ke dalam
rentang tetap, yaitu [0, 1], dengan menggunakan rumus berikut: \[ X_{norm} = \frac{X - X_{min} } {X_{max} -
X_{min}} \]
Hasilnya adalah data baru yang:
Memiliki nilai terendah = 0
Memiliki nilai tertinggi = 1
Tetap mempertahankan distribusi asli datanya (namun rentangnya
dipersempit)
- Kolom baru dengan akhiran _Norm dibuat untuk setiap variabel,
seperti:
Stock_Price_Norm
Volume_Traded_Norm
Market_Cap_Norm
PE_Ratio_Norm
Dividend_Yield_Norm
Return_on_Equity_Norm
- Fungsi head(financial_normalized) digunakan untuk menampilkan 6
baris pertama dari data yang telah dinormalisasi.
Contoh Perhitungan
Manual
Data Stock_Price:[100, 120, 150, 130, 110]
- Minimum dan Maksimum:
- Min-Max Normalization untuk nilai 130: \[
X_{norm} = \frac{130 - 100 } {150 - 100} =
\frac{30}{50} = 0.6\]
Categorical
Encoding
Di dalam data, kadang kita menemukan kolom yang isinya bukan angka,
tapi kata-kata atau kategori, misalnya:
Sector = “Finance”, “Retail”, “Technology”
Performance = “Positive”, “Negative”, “Stable”
library(readr)
library(dplyr)
# Baca file CSV-nya
financial_market <- read_csv("financial market.csv")
# Tampilkan 6 data teratas
head(financial_market)
Masalahnya, komputer hanya bisa membaca angka. Maka,
kita perlu mengubah kata-kata ini menjadi angka. Caranya disebut
Categorical Encoding.
One Hot Encoding
Gampangnya: Kita bikin kolom baru untuk setiap kategori,
lalu kita kasih angka 1 jika cocok, dan 0 kalau
tidak.
Kenapa Nggak Pakai Angka Biasa (1, 2, 3)?
Karena kalau kita kasih angka seperti:
Positive = 1
Negative = 2
Stable = 3
Komputer bisa salah paham dan mengira ada
urutan atau ranking, padahal nggak
ada.
Padahal kategori itu cuma label, bukan nilai.
Makanya kita pakai biner (0 dan 1), biar komputer
ngerti bahwa semua kategori itu setara, nggak ada yang
lebih tinggi atau lebih rendah.
berikut kodenya:
library(fastDummies)
# Ubah kolom Sector & Performance jadi bentuk angka biner (0/1)
one_hot <- dummy_cols(financial_market,
select_columns = c("Sector", "Performance"),
remove_first_dummy = FALSE,
remove_selected_columns = TRUE)
# Tampilkan 6 data hasil one hot encoding
head(one_hot)
Frequency
Encoding
Gampangnya: Kita hitung berapa kali setiap
kategori muncul, lalu setiap data diganti dengan angka
frekuensinya.
# Fungsi untuk menghitung frekuensi (berapa sering muncul)
freq_enc <- function(col) {
tab <- table(col)
return(as.numeric(tab[col]) / length(col))
}
# Tambahkan kolom frekuensi ke data
data_freq <- financial_market %>%
mutate(
Sector_freq = freq_enc(Sector),
Performance_freq = freq_enc(Performance)
)
# Tampilkan 6 data teratas
head(data_freq)
Hasilnya:
Akan muncul dua kolom baru:
Setiap baris akan berisi angka pecahan (misalnya 0.360, 0.336) yang
menunjukkan seberapa sering nilai tersebut muncul dalam
keseluruhan data.
Feature
Engineering
# Feature Engineering pada Financial_market
Feature_Eng <- financial_market %>%
mutate(
# 1. New Features from Raw Data
Price_Per_Volume = Stock_Price / (Volume_Traded + 1e-5), # Hindari pembagian dengan nol
# 2. Product of Features, Crossed Terms
PE_x_ROE = PE_Ratio * Return_on_Equity,
# 3. Price per Unit, Efficiency
Yield_to_PE = Dividend_Yield / (PE_Ratio + 1e-5), # Yield per PE
# 4. Ranking, Percentile
MarketCap_Rank = rank(-Market_Cap), # Rank market cap terbesar ke terkecil
ROE_Quartile = ntile(Return_on_Equity, 4), # Bagi ROE ke dalam 4 kuartil
# 5. From IDs: Prefix, Length, Pattern
Stock_ID_Prefix = substr(Stock_ID, 1, 3),
Stock_ID_Length = nchar(Stock_ID)
) %>%
# 6. Avg, Sum, Count by Group
group_by(Sector) %>%
mutate(
Avg_PE_Sector = mean(PE_Ratio, na.rm = TRUE),
Avg_ROE_Sector = mean(Return_on_Equity, na.rm = TRUE),
Total_Companies_Sector = n()
) %>%
ungroup()
head(Feature_Eng)
Penjelasan
- New Features from Raw Data
- Product of Features, Crossed Terms
Mengalikan Price to Earnings Ratio (P/E) dengan Return on Equity
(ROE) menghasilkan interaksi antar dua metrik penting:
Interaksi ini bisa memberi sinyal apakah saham undervalued atau
overvalued dengan memperhitungkan efisiensi.
- Price per Unit, Efficiency
- Ranking, Percentile
MarketCap_Rank: Memberi ranking terhadap perusahaan berdasarkan
kapitalisasi pasar dari terbesar (rank 1) ke terkecil.
ROE_Quartile: Mengelompokkan ROE ke dalam 4 kuartil. Tujuannya
untuk klasifikasi performa perusahaan berdasarkan ROE:
- From IDs: Prefix, Length, Pattern
Stock_ID_Prefix: Mengambil 3 karakter awal dari ID saham. Ini
bisa menunjukkan kode kategori, jenis saham, atau asal bursa.
Stock_ID_Length: Panjang dari ID saham. Bisa membantu deteksi
format ID yang tidak lazim.
- Avg, Sum, Count by Group
Interaction
Features
Financial_interaction <- financial_market %>%
mutate(
Impact_Score = Stock_Price * Return_on_Equity
)
head(Financial_interaction)
Ratio Features
Financial_ratio <- financial_market %>%
mutate(
Dividend_to_Price = Dividend_Yield / (Stock_Price + 1e-5)
)
head(Financial_ratio)
Group
Aggregation
Sector_summary <- financial_market %>%
group_by(Sector) %>%
summarise(
Avg_Market_Cap = mean(Market_Cap),
Max_Stock_Price = max(Stock_Price),
Company_Count = n()
)
Financial_merged <- left_join(financial_market, Sector_summary, by = "Sector")
head(Financial_merged)
Penjelasan
Sector_summary membuat ringkasan sektor:
Avg_Market_Cap: Kapitalisasi pasar rata-rata di sektor.
Max_Stock_Price: Harga saham tertinggi di sektor.
Company_Count: Jumlah perusahaan per sektor.
Lalu left_join dilakukan untuk menggabungkan informasi ini
kembali ke data utama, memungkinkan perbandingan antar perusahaan dalam
satu sektor.
Text Cleaning &
Feature Creation
Financial_text_feature <- financial_market %>%
mutate(
Stock_Num_Suffix = as.numeric(str_extract(Stock_ID, "\\d+"))
)
head(Financial_text_feature)
Cumulative
Features
Financial_cumulative <- financial_market %>%
arrange(Sector, Date) %>%
group_by(Sector) %>%
mutate(
Cumulative_Volume = cumsum(Volume_Traded)
) %>%
ungroup()
head(Financial_cumulative)
Kesimpulan Umum
Semua proses feature engineering ini bertujuan untuk:
Memperkaya data: Membuat fitur baru yang bisa menangkap
pola-pola tersembunyi di data mentah.
Mempermudah analisis eksploratif: Dengan agregasi,
ranking, dan transformasi, kita bisa lebih mudah melihat perusahaan
unggulan, tren sektor, dan perbandingan antar perusahaan.
Meningkatkan performa model machine learning atau
prediksi: Fitur yang informatif dan relevan dapat membantu model
mengenali hubungan antara variabel lebih baik.
Memberi insight bisnis dan investasi: Seperti
pemeringkatan saham, klasifikasi sektor, dan identifikasi saham dengan
performa keuangan baik.
Deteksi Outlier
Menggunakan Z-score dan IQR
library(dplyr)
# --- Z-score method for detecting outliers ---
data_outliers <- financial_market %>%
mutate(
z_scores_SP = scale(Stock_Price),
Outlier_Flag = ifelse(abs(z_scores_SP) > 3, "Outlier", "Normal")
)
# --- IQR method for detecting and removing outliers ---
Q1 <- quantile(financial_market$Total_Price, 0.25)
Q3 <- quantile(financial_market$Total_Price, 0.75)
IQR_val <- Q3 - Q1
data_outliers_iqr <- financial_market %>%
filter(
Stock_Price > (Q1 - 1.5 * IQR_val) &
Stock_Price < (Q3 + 1.5 * IQR_val)
)
head(data_outliers)
1. Deteksi Outlier dengan Metode Z-Score
- Anda menggunakan Z-score method untuk mendeteksi
outlier pada kolom Stock_Price.
- Z-score mengukur seberapa jauh suatu nilai dari
rata-rata dalam satuan standar deviasi.
- Rumus: Z = (x - mean) / sd
- Baris data yang memiliki nilai Z-score lebih dari 3 atau kurang dari
-3 dianggap outlier.
- Kolom baru Outlier_Flag ditambahkan, berisi label:
- Outlier jika nilai Z-score melebihi 3 atau kurang
dari -3,
- Normal jika masih dalam batas normal.
2. Pembersihan Outlier dengan Metode IQR
Metode kedua menggunakan Interquartile Range
(IQR) pada kolom Total_Price untuk mendeteksi
dan menghapus outlier.
Perhitungan:
- Q1 (kuartil 1) = nilai pada persentil ke-25,
- Q3 (kuartil 3) = nilai pada persentil ke-75,
- IQR = Q3 - Q1.
Data dianggap outlier jika berada di luar
rentang: \[
\left[ Q_1 - 1.5 \times \text{IQR},\; Q_3 + 1.5 \times \text{IQR}
\right]
\]
Baris yang berada di luar batas ini difilter dan dihapus dari
data dengan filter().
Z-score untuk mendeteksi outlier pada Stock_Price,
IQR untuk menghapus outlier pada Total_Price.
Metode ini penting untuk membersihkan data, sehingga analisis
atau model yang akan dibangun tidak bias oleh nilai ekstrem.
Discretization
(Binning)
library(dplyr)
# Baca data
financial_market <- financial_market
# Binning (Equal-frequency) dengan quantile
binned_data <- financial_market %>%
mutate(
Price_Level = cut(
Stock_Price,
breaks = quantile(Stock_Price, probs = c(0, 0.33, 0.66, 1), na.rm = TRUE),
labels = c("Low", "Medium", "High"),
include.lowest = TRUE
)
)
#Tampilkan hasil binning
head(binned_data)
1. Tujuan Binning
- Tujuannya adalah untuk mengelompokkan data numerik dari kolom
Stock_Price menjadi beberapa kategori
diskrit (dalam hal ini: Low, Medium, High).
- Ini disebut **equal-frequency binning*, karena setiap kelompok akan
memiliki jumlah data yang kurang lebih sama.
2. Proses yang Dillakukan
- quantile() digunakan untuk menentukan batas-batas
(breaks) berdasarkan persentil:
- 0% (minimum),
- 33% (sepertiga data),
- 66% (dua pertiga data),
- 100% (maksimum).
- Kemudian fungsi cut() membagi kolom Stock_Price ke dalam tiga
kelompok berdasarkan batas-batas tersebut, yaitu:
- Low: nilai dari kuantil ke-0 hingga ke-33,
- Medium: kuantil ke-33 hingga ke-66,
- High: kuantil ke-66 hingga ke-100.
- Kolom hasil kategorisasi tersebut dinamakan
Price_Level.
Seasonality
library(dplyr)
library(lubridate)
Seasonality <- financial_market %>%
mutate(
Date = as.Date(Date, format = "%m/%d/%Y"),
Year = year(Date),
DayOfYear = yday(Date),
DaysInYear = if_else(leap_year(Date), 366, 365),
sin_year = sin(2 * pi * DayOfYear / DaysInYear),
cos_year = cos(2 * pi * DayOfYear / DaysInYear)
)
head(Seasonality)
Kesimpulan yang Didukung oleh Data
- Musim Maret–Juni (sin_year tinggi):
2023-03-15 dan 2023-06-05 menunjukkan sin_year
sangat tinggi dan performa masing-masing adalah Stable dan
Positive.
Ini mendukung pola bahwa kuartal 2 (Q2) sering
menunjukkan performa kuat atau stabil.
- Akhir Tahun – November (sin_year negatif
tinggi):
2020-11-16 (sin_year = -0.6979) :
Stable
Tidak ekstrem negatif, tapi mendekati. Menunjukkan
kinerja yang tidak terlalu kuat, sesuai dengan dugaan
bahwa di akhir tahun bisa terjadi tekanan pasar (misalnya, aksi ambil
untung/take profit).
- Awal Tahun – Januari (sin dan cos mendekati ekstrem
positif):
2023-01-02 : sin_year ≈ 0, cos_year ≈ 1 :
Stable
Sesuai dengan interpretasi bahwa awal tahun cenderung netral atau
belum menunjukkan tren jelas.
- Pertengahan Tahun – Juli (sin_year mendekati nol, cos_year
negatif tinggi):
- 2021-07-14 : Positive meskipun sin_year = -0.2135 : berarti
ada potensi kinerja baik di pertengahan tahun, meskipun secara musiman
berada dalam transisiturun.
- Anomali:
- 2023-03-22 : sin_year sangat tinggi (0.9845) tapi
performa Negative. Ini menunjukkan bahwa meskipun sinyal musiman
mendukung pertumbuhan, faktor lain (mungkin eksternal atau sektor
tertentu) bisa memengaruhi negatif.
---
title: "Data Tranformation"
subtitle: "Data Science Programming"
author: 
  - "KELOMPOK 3"
  - "Joans Henky Servatius S (52240017)"
  - "Nova Sitorus (52240023)"
  - "Olivia Meilinda Davtin P (52240011)"
  - "Nabila Anggita Putri (52240002)"
  - "Rachelia Bevina Tambajong (52240021)"
  - "Dwi Sri Yanti Manullang (52240030)"
  - "Chello Frhino Mike M (52240031)"
date:  "`r format(Sys.Date(), '%B %d, %Y')`"
output:
  rmdformats::downcute:   # https://github.com/juba/rmdformats
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    number_sections: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes
    
---

<style>
  body {
    text-align: justify;
    background-color: white;
    overflow-x: auto;
    font-family: serif;
  }
</style>

**KELOMPOK 3**

<img id="kelompok3" src="C:/Users/USER/Documents/DSPKEL3/kel3.jpg" alt="kel" style="width:800px; display: block; margin: auto;">




# Temporal Transformation

**FINANCIAL MARKET**
```{r,message=FALSE,warning=FALSE}
library(dplyr)
library(tidyverse)
library(readr)
library(zoo)
library(DT)
financial_market <- read_csv("financial market.csv")
datatable(financial_market, options = list(pageLength = 5))
```

## Lag,Diff,Rolling

1. **Lag**: Mengambil nilai dari periode sebelumnya. Berguna untuk membandingkan data sekarang dengan data masa lalu.

2. **Diff**: Menghitung selisih antar elemen berturut-turut.. Membantu mengukur perubahan antar waktu.

3. **Rolling Mean**: Rata-rata bergerak dari beberapa nilai terakhir (misalnya 5 hari terakhir). Digunakan untuk melihat tren jangka pendek dengan menghaluskan fluktuasi data.


```{r,message=FALSE,warning=FALSE}

financial_market <- read_csv("financial market.csv")

# Lanjutkan transformasi
Tempral <- financial_market %>%
  mutate(Date = ymd(Date))  # ganti 'Date' kalau nama kolomnya berbeda

# Hitung Lag, Diff, Rolling Mean untuk Stock_Price, Volume_Traded, Market_Cap
LDR <- financial_market %>%
  arrange(Sector, Date) %>%
  group_by(Sector) %>%
  mutate(
    # Lag
    Lag_Stock_Price = lag(Stock_Price),
    Lag_Volume = lag(Volume_Traded),
    Lag_Market_Cap = lag(Market_Cap),
    
    # Diff
    Diff_Stock_Price = round(Stock_Price - Lag_Stock_Price, 2),
    Diff_Volume = Volume_Traded - Lag_Volume,
    Diff_Market_Cap = Market_Cap - Lag_Market_Cap,
    
    # Rolling Mean (3 hari terakhir)
    RollingMean_Stock_Price_3 = round(zoo::rollapply(Stock_Price, width = 3, FUN = mean, fill = NA, align = "right"), 2),
    RollingMean_Volume_3 = round(zoo::rollapply(Volume_Traded, width = 3, FUN = mean, fill = NA, align = "right")),
    RollingMean_Market_Cap_3 = round(zoo::rollapply(Market_Cap, width = 3, FUN = mean, fill = NA, align = "right"))
  ) %>%
  ungroup()

# Tampilkan hasil
datatable(LDR, options = list(pageLength = 5))
```
1. **Stock_Price**: Harga saham sering dianalisis berdasarkan perubahan waktu (misal: naik/turun harga harian).Di-*lag* untuk melihat harga sebelumnya, *diff* untuk selisih harian, dan *rolling mean* untuk tren jangka pendek.

2. **Volume_Traded**: Volume transaksi bisa fluktuatif, perlu dilihat perubahannya dan rata-rata dalam window waktu. Di-*lag* dan *diff* untuk deteksi lonjakan aktivitas, *rolling mean* untuk kestabilan volume.

3. **Market_Cap**: Di-*diff* dan *rolling mean* untuk memantau perubahan nilai pasar saham secara bertahap.


## Extract Date

```{r}
library(dplyr)
library(lubridate)
library(stringr)

Extract <- financial_market %>%
  mutate(
    Date = as.Date(Date, format = "%m/%d/%Y"),  # konversi dari karakter ke Date
    Day_of_Week = weekdays(Date),
    Month = month(Date, label = TRUE),
    Year = year(Date),
    Is_Weekend = ifelse(Day_of_Week %in% c("Saturday", "Sunday"), 1, 0),
    Sector = as.factor(Sector),
    Performance = as.factor(Performance)
  ) %>%
  bind_cols(
    as.data.frame(model.matrix(~ Sector - 1, data = .)),
    as.data.frame(model.matrix(~ Performance - 1, data = .))
  )

# Lihat beberapa baris pertama
datatable(Extract, options = list(pageLength = 5))

```
Konversi Tanggal: Variabel Date dikonversi dari format karakter ke format Date agar dapat dianalisis secara temporal.

Ekstraksi Informasi Waktu: Dari tanggal tersebut, ditambahkan beberapa informasi waktu:

Day_of_Week: hari dalam minggu,

Month: bulan (dalam format label, misalnya Jan, Feb),

Year: tahun transaksi,

Is_Weekend: indikator apakah hari tersebut akhir pekan (Sabtu/Minggu).

## Cumulative Value
 
```{r}
Tempral3 <- financial_market %>%
  arrange(Stock_ID, Date) %>%
  group_by(Stock_ID) %>%
  mutate(
    Cumulative_Volume = cumsum(Volume_Traded),
    Cumulative_MarketCap = cumsum(Market_Cap),
    Cumulative_AvgPrice = cummean(Stock_Price)
  ) %>%
  ungroup()

head(Tempral3)

```
Potongan kode ini digunakan untuk menghitung akumulasi data pasar saham secara temporal berdasarkan setiap `Stock_ID`. Data pertama-tama diurutkan berdasarkan `Stock_ID` dan `Date` agar analisis bersifat time-series. Kemudian, untuk setiap stock (`group_by(Stock_ID)`), dilakukan tiga perhitungan: 

1. **Cumulative_Volume**: total volume perdagangan yang terus dijumlahkan dari waktu ke waktu.
2. **Cumulative_MarketCap**: akumulasi kapitalisasi pasar hingga tanggal tertentu.
3. **Cumulative_AvgPrice**: rata-rata harga saham secara kumulatif (hingga titik waktu tersebut) menggunakan `cummean()`.

Fungsi `ungroup()` digunakan agar hasilnya tidak lagi bersifat kelompok. Hasil akhir memberi gambaran perkembangan historis kinerja setiap saham dari waktu ke waktu.  


# Distribution Transformation

## Log Transform
Variabel yang dipilih adalah Kapasitas pasar alasannya adalah, karena kapasitas pasar mempunyai angka yang sangat besar dan distribusinya sangat miring ke kanan (right-skewed).


```{r, message=FALSE, warning=FALSE}
library(dplyr)

min_positive <- min(financial_market$Market_Cap[financial_market$Market_Cap > 0])

Log <- financial_market %>%
  mutate(
    Safe_Market_Cap = ifelse(Market_Cap <= 0, min_positive, Market_Cap),
    Log_Market_Cap = log1p(Safe_Market_Cap)
  )
head(Log)
```

*Interpretasi:*

Transformasi log digunakan untuk:

- Menstabilkan varians yang meningkat seiring dengan nilai variabel.

- Mengurangi skewness (kemiringan distribusi) terutama pada data yang terdistribusi skewed ke kanan seperti Kapitalisasi.Pasar.

- Dalam kode, nilai nol atau negatif diganti dengan nilai positif terkecil agar `log()` tidak error.

- Fungsi `log1p(x)` `(yaitu log(x + 1))` digunakan sebagai bentuk aman untuk data nol.

*Hasil:* 

Distribusi menjadi lebih simetris dan varians antar level data menjadi lebih seimbang, sehingga lebih cocok untuk analisis regresi.

- Bertambah 2 variabel, yaitu: Safe_Kapitalisasi_Pasar dan Log_Kapitalisasi_Pasar

## Box-Cox
```{r, message=FALSE, warning=FALSE}
library(bestNormalize)
financial_market <- read.csv("financial market.csv")

Box_Cox <- financial_market %>%
  mutate(
    YeoJ_Volume_Traded = bestNormalize(Volume_Traded)$x.t,
    YeoJ_Market_Cap = bestNormalize(Market_Cap)$x.t
  )
head(Box_Cox)
```

*Interpretasi:*

- Menggunakan fungsi bestNormalize() yang otomatis memilih metode transformasi terbaik agar data mendekati distribusi normal.  

- Transformasi dilakukan pada Volume_Diperdagangkan dan Kapitalisasi.Pasar, dan hasilnya disimpan sebagai kolom baru.  

- Praktik ini ideal untuk preprocessing sebelum modeling, karena membantu mengurangi skewness dan menstabilkan varians data.

## Stabilisasi Varians

```{r, message=FALSE, warning=FALSE}
library(DT)

Stabilize <- financial_market %>%
  mutate(
    sqrt_Volume_Traded = sqrt(pmax(Volume_Traded, 0)),
    sqrt_Market_Cap = sqrt(pmax(Market_Cap, 0))
  )%>%
  ungroup()


datatable(Stabilize, options = list(pageLength = 5))
```
### Interpretasi:

Transformasi akar kuadrat (sqrt) sering digunakan dalam analisis data keuangan atau statistik untuk:

* *Menstabilkan varians*: Data seperti Volume_Traded dan Market_Cap bisa sangat bervariasi antar perusahaan (ada yang kecil, ada yang sangat besar). Transformasi akar membantu mengurangi efek ekstrem ini.

* *Mengurangi skewness*: Banyak variabel keuangan bersifat sangat miring ke kanan (right-skewed). Akar kuadrat membuat distribusinya lebih simetris (dekat normal), yang penting untuk analisis regresi atau machine learning.

* *Menghindari masalah nilai negatif*: pmax(..., 0) memastikan nilai negatif diubah menjadi nol sebelum dihitung akarnya, karena akar dari bilangan negatif tidak valid dalam konteks real.

### Contoh Interpretasi Kasus:

Misalnya, dua perusahaan:

- Perusahaan A: Market_Cap = 1.000.000  
- Perusahaan B: Market_Cap = 10.000

Tanpa transformasi, Perusahaan A terlihat *100× lebih besar*. Setelah akar kuadrat:

- sqrt(1.000.000) = 1000  
- sqrt(10.000) = 100  

Sekarang Perusahaan A hanya terlihat *10× lebih besar*, membuat analisis lebih proporsional.

# Scaling & Normalization

## Z-Score Standardization

```{r}
# Standardisasi Z-Score: mengubah data agar memiliki rata-rata 0 dan standar deviasi 1
financial_scaled <- financial_market %>%
  mutate(
    Stock_Price_Std = scale(Stock_Price),
    Volume_Traded_Std = scale(Volume_Traded),
    Market_Cap_Std = scale(Market_Cap),
    PE_Ratio_Std = scale(PE_Ratio),
    Dividend_Yield_Std = scale(Dividend_Yield),
    Return_on_Equity_Std = scale(Return_on_Equity)
  )
head(financial_scaled)
```

### Penjelasan:

1. financial_market adalah data frame yang berisi data pasar keuangan. Kolom-kolomnya mencakup variabel seperti harga saham (Stock_Price), volume perdagangan (Volume_Traded), kapitalisasi pasar (Market_Cap), rasio PE (PE_Ratio), dividen (Dividend_Yield), dan ROE (Return_on_Equity).

2. Fungsi mutate() dari paket dplyr digunakan untuk menambahkan kolom-kolom baru hasil transformasi dari kolom yang ada.

3. Z-Score Standardization adalah metode transformasi data yang mengubah setiap nilai menjadi ukuran dalam satuan standar deviasi dari rata-rata. 

4. Fungsi scale() adalah fungsi bawaan R untuk melakukan Z-score standardization, yaitu:
$$ Z = \frac{X - \mu } {\sigma} $$

- X: nilai asli

- $\mu$ : rata-rata data

- $\sigma$: standar deviasi data

Hasilnya adalah data baru yang:

- Memiliki rata-rata = 0

- Memiliki standar deviasi = 1

5. Kolom baru dengan akhiran _Std dibuat untuk setiap variabel, seperti:

- Stock_Price_Std

- Volume_Traded_Std

- Market_Cap_Std

- PE_Ratio_Std

- Dividend_Yield_Std

- Return_on_Equity_Std

6. head(financial_scaled) digunakan untuk menampilkan 6 baris pertama dari data yang telah ditransformasi.

### Contoh Perhitungan Manual

Misalkan data Stock_Price: [100, 120, 150, 130, 110]

1. Hitung Mean:

$$ \mu = \frac{100 + 120 + 150 + 130 + 110 } {5} = \frac{610}{5} = 122$$

2. Hitung Standar Deviasi (σ):

$$ \sigma = \sqrt{\frac{(100 - 122)^2 + (120 - 122)^2 + (150 - 122)^2 + (130 - 122)^2 + (110 - 122)^2 } {5}} $$

$$ = \sqrt{\frac{484 + 4 + 784 + 64 + 144}{5}} = \sqrt{\frac{1480}{5}} = \sqrt{296} = 17.2 $$

3. Z-Score untuk nilai 150:

$$ Z = \frac{150 - 122 } {17.2} = \frac{28}{17.2} = 1.63 $$

## Min-Max Normalization

```{r}
# Normalisasi Min-Max: mengubah skala data ke dalam rentang [0, 1]
financial_normalized <- financial_market %>%
  mutate(
    Stock_Price_Norm = (Stock_Price - min(Stock_Price)) / (max(Stock_Price) - min(Stock_Price)),
    Volume_Traded_Norm = (Volume_Traded - min(Volume_Traded)) / (max(Volume_Traded) - min(Volume_Traded)),
    Market_Cap_Norm = (Market_Cap - min(Market_Cap)) / (max(Market_Cap - min(Market_Cap))),
    PE_Ratio_Norm = (PE_Ratio - min(PE_Ratio)) / (max(PE_Ratio) - min(PE_Ratio)),
    Dividend_Yield_Norm = (Dividend_Yield - min(Dividend_Yield)) / (max(Dividend_Yield) - min(Dividend_Yield)),
    Return_on_Equity_Norm = (Return_on_Equity - min(Return_on_Equity)) / (max(Return_on_Equity) - min(Return_on_Equity))
  )
head(financial_normalized)
```
### Penjelasan

1. financial_market adalah data frame yang berisi data pasar keuangan. Kolom-kolomnya mencakup variabel seperti harga saham (Stock_Price), volume perdagangan (Volume_Traded), kapitalisasi pasar (Market_Cap), rasio PE (PE_Ratio), dividen (Dividend_Yield), dan ROE (Return_on_Equity).

2. Fungsi mutate() dari paket dplyr digunakan untuk menambahkan kolom-kolom baru hasil transformasi dari kolom yang ada.

3. Normalisasi Min-Max adalah metode penskalaan data ke dalam rentang tetap, yaitu [0, 1], dengan menggunakan rumus berikut:
$$ X_{norm} = \frac{X - X_{min} } {X_{max} - X_{min}} $$

- X: nilai asli

- $X_{min}$ : nilai minimum dari fitur

- $X_{min}$ : nilai maksimum dari fitur
 
Hasilnya adalah data baru yang:

- Memiliki nilai terendah = 0

- Memiliki nilai tertinggi = 1

- Tetap mempertahankan distribusi asli datanya (namun rentangnya dipersempit)

4. Kolom baru dengan akhiran _Norm dibuat untuk setiap variabel, seperti:

- Stock_Price_Norm

- Volume_Traded_Norm

- Market_Cap_Norm

- PE_Ratio_Norm

- Dividend_Yield_Norm

- Return_on_Equity_Norm

5. Fungsi head(financial_normalized) digunakan untuk menampilkan 6 baris pertama dari data yang telah dinormalisasi.

### Contoh Perhitungan Manual

Data Stock_Price:[100, 120, 150, 130, 110]

1. Minimum dan Maksimum:

- Min: 100

- Max: 150

2. Min-Max Normalization untuk nilai 130:
$$ X_{norm} = \frac{130 - 100 } {150 - 100} = \frac{30}{50} = 0.6$$

# Categorical Encoding

Di dalam data, kadang kita menemukan kolom yang isinya bukan angka, tapi *kata-kata* atau *kategori*, misalnya:
 
 
- Sector = “Finance”, “Retail”, “Technology”
 
- Performance = “Positive”, “Negative”, “Stable”

```{r,message=FALSE,warning=FALSE}
library(readr)
library(dplyr)

# Baca file CSV-nya
financial_market <- read_csv("financial market.csv")

# Tampilkan 6 data teratas
head(financial_market)
```

Masalahnya, **komputer** hanya bisa membaca angka. Maka, kita perlu mengubah kata-kata ini menjadi angka. Caranya disebut **Categorical Encoding**.
 
  
## One Hot Encoding
 
*Gampangnya:* Kita bikin kolom baru untuk setiap kategori, lalu kita kasih *angka 1 jika cocok, dan 0* *kalau tidak*.

*Kenapa Nggak Pakai Angka Biasa (1, 2, 3)?*
 
Karena kalau kita kasih angka seperti:
 
 
- Positive = 1
 
- Negative = 2
 
- Stable = 3
 
 
**Komputer bisa salah paham** dan mengira ada **urutan atau ranking**, padahal **nggak ada**.
 
Padahal kategori itu cuma **label**, bukan nilai.
 
Makanya kita pakai **biner (0 dan 1)**, biar komputer ngerti bahwa semua kategori itu **setara**, nggak ada yang lebih tinggi atau lebih rendah.

berikut kodenya:
 
```{r,message=FALSE,warning=FALSE}
library(fastDummies)

# Ubah kolom Sector & Performance jadi bentuk angka biner (0/1)
one_hot <- dummy_cols(financial_market, 
                      select_columns = c("Sector", "Performance"), 
                      remove_first_dummy = FALSE, 
                      remove_selected_columns = TRUE)

# Tampilkan 6 data hasil one hot encoding
head(one_hot)
```
  
## Frequency Encoding
 
*Gampangnya:* Kita hitung **berapa kali** setiap kategori muncul, lalu **setiap data diganti dengan angka frekuensinya**.

```{r,message=FALSE,warning=FALSE}
# Fungsi untuk menghitung frekuensi (berapa sering muncul)
freq_enc <- function(col) {
  tab <- table(col)
  return(as.numeric(tab[col]) / length(col))
}

# Tambahkan kolom frekuensi ke data
data_freq <- financial_market %>%
  mutate(
    Sector_freq = freq_enc(Sector),
    Performance_freq = freq_enc(Performance)
  )

# Tampilkan 6 data teratas
head(data_freq)
```
*Hasilnya:*  
Akan muncul dua kolom baru:

- Sector_freq: berisi angka frekuensi dari nilai di kolom Sector

- Performance_freq: frekuensi dari kolom Performance

Setiap baris akan berisi angka pecahan (misalnya 0.360, 0.336) yang menunjukkan **seberapa sering nilai tersebut muncul dalam keseluruhan data**.


# Feature Engineering

```{r}
# Feature Engineering pada Financial_market

Feature_Eng <- financial_market %>%
  mutate(
    # 1. New Features from Raw Data
    Price_Per_Volume = Stock_Price / (Volume_Traded + 1e-5),  # Hindari pembagian dengan nol
    
    # 2. Product of Features, Crossed Terms
    PE_x_ROE = PE_Ratio * Return_on_Equity,
    
    # 3. Price per Unit, Efficiency
    Yield_to_PE = Dividend_Yield / (PE_Ratio + 1e-5),  # Yield per PE

    # 4. Ranking, Percentile
    MarketCap_Rank = rank(-Market_Cap),  # Rank market cap terbesar ke terkecil
    ROE_Quartile = ntile(Return_on_Equity, 4),  # Bagi ROE ke dalam 4 kuartil
    
    # 5. From IDs: Prefix, Length, Pattern
    Stock_ID_Prefix = substr(Stock_ID, 1, 3),
    Stock_ID_Length = nchar(Stock_ID)
  ) %>%
  
  # 6. Avg, Sum, Count by Group
  group_by(Sector) %>%
  mutate(
    Avg_PE_Sector = mean(PE_Ratio, na.rm = TRUE),
    Avg_ROE_Sector = mean(Return_on_Equity, na.rm = TRUE),
    Total_Companies_Sector = n()
  ) %>%
  ungroup()

head(Feature_Eng)
```

### Penjelasan
1. New Features from Raw Data

- Price_Per_Volume: Mengukur seberapa besar harga saham dibanding volume perdagangannya. Digunakan untuk melihat apakah saham diperdagangkan terlalu banyak atau terlalu sedikit terhadap nilainya.

  - Ditambah 1e-5 untuk mencegah pembagian nol.

2. Product of Features, Crossed Terms

- Mengalikan Price to Earnings Ratio (P/E) dengan Return on Equity (ROE) menghasilkan interaksi antar dua metrik penting:

  - PE Ratio menunjukkan valuasi saham.

  - ROE menunjukkan efisiensi perusahaan menghasilkan laba dari modal sendiri.

- Interaksi ini bisa memberi sinyal apakah saham undervalued atau overvalued dengan memperhitungkan efisiensi.

3. Price per Unit, Efficiency

- Yield_to_PE: Efisiensi hasil dividen terhadap nilai valuasi perusahaan.

  - Saham dengan rasio tinggi dianggap memberikan return dividen yang besar dengan valuasi rendah (menarik untuk investor dividen).

  - Lagi-lagi ditambah 1e-5 untuk menghindari pembagian nol.

4. Ranking, Percentile

- MarketCap_Rank: Memberi ranking terhadap perusahaan berdasarkan kapitalisasi pasar dari terbesar (rank 1) ke terkecil.

- ROE_Quartile: Mengelompokkan ROE ke dalam 4 kuartil. Tujuannya untuk klasifikasi performa perusahaan berdasarkan ROE:

  - Kuartil 1: ROE rendah

  - Kuartil 4: ROE tinggi (perusahaan sangat menguntungkan)

5. From IDs: Prefix, Length, Pattern

- Stock_ID_Prefix: Mengambil 3 karakter awal dari ID saham. Ini bisa menunjukkan kode kategori, jenis saham, atau asal bursa.

- Stock_ID_Length: Panjang dari ID saham. Bisa membantu deteksi format ID yang tidak lazim.

6. Avg, Sum, Count by Group
- Fitur ini menghitung statistik agregat berdasarkan Sector:

  - Avg_PE_Sector: Rata-rata PE untuk seluruh perusahaan di sektor tersebut.

  - Avg_ROE_Sector: Rata-rata ROE.

  - Total_Companies_Sector: Jumlah perusahaan dalam sektor.

- Berguna untuk membandingkan kinerja perusahaan dengan rata-rata sektornya (relative valuation).

## Interaction Features 

```{r}
Financial_interaction <- financial_market %>%
  mutate(
    Impact_Score = Stock_Price * Return_on_Equity
  )
head(Financial_interaction)
```

### Penjelasan
- Impact_Score: Mencerminkan "kekuatan pasar" suatu saham berdasarkan harga dan return ekuitasnya.

  - Semakin tinggi nilai ini, semakin signifikan pengaruh saham terhadap pasar atau investor.

## Ratio Features

```{r}
Financial_ratio <- financial_market %>%
  mutate(
    Dividend_to_Price = Dividend_Yield / (Stock_Price + 1e-5)
  )
head(Financial_ratio)
```

### Penjelasan
- Dividend_to_Price: Mengukur imbal hasil dividen relatif terhadap harga saham.

  - Saham dengan rasio tinggi memberikan dividen besar meskipun harganya rendah.

  - Cocok untuk identifikasi saham "dividen murah".

## Group Aggregation
```{r}
Sector_summary <- financial_market %>%
  group_by(Sector) %>%
  summarise(
    Avg_Market_Cap = mean(Market_Cap),
    Max_Stock_Price = max(Stock_Price),
    Company_Count = n()
  )

Financial_merged <- left_join(financial_market, Sector_summary, by = "Sector")
head(Financial_merged)
```

### Penjelasan
- Sector_summary membuat ringkasan sektor:

  - Avg_Market_Cap: Kapitalisasi pasar rata-rata di sektor.

  - Max_Stock_Price: Harga saham tertinggi di sektor.

  - Company_Count: Jumlah perusahaan per sektor.

- Lalu left_join dilakukan untuk menggabungkan informasi ini kembali ke data utama, memungkinkan perbandingan antar perusahaan dalam satu sektor.

## Rank Transformation
```{r}
Financial_rank_transform <- financial_market %>%
  mutate(
    ROE_Rank = rank(-Return_on_Equity)
  )
head(Financial_rank_transform)
```

### Penjelasan
- ROE_Rank: Memberi peringkat terhadap perusahaan berdasarkan ROE tertinggi ke terendah.

  - Dapat digunakan untuk mengurutkan dan memilih saham paling menguntungkan.

## Text Cleaning & Feature Creation

```{r}
Financial_text_feature <- financial_market %>%
  mutate(
    Stock_Num_Suffix = as.numeric(str_extract(Stock_ID, "\\d+"))
  )
head(Financial_text_feature)
```

### Penjelasan

- Stock_Num_Suffix: Mengekstrak angka dari ID saham. Ini berguna jika ID saham mengandung pola yang menyiratkan kategori, batch, atau grup.

  - Contoh: ID "ABC123" → suffix = 123

## Cumulative Features

```{r}
Financial_cumulative <- financial_market %>%
  arrange(Sector, Date) %>%
  group_by(Sector) %>%
  mutate(
    Cumulative_Volume = cumsum(Volume_Traded)
  ) %>%
  ungroup()
head(Financial_cumulative)
```

### Penjelasan
- Cumulative_Volume: Menjumlahkan total volume perdagangan dari waktu ke waktu untuk setiap sektor.

  - Cocok untuk melihat tren kumulatif aktivitas pasar di sektor tertentu.

  - Bisa digunakan dalam analisis momentum atau tren jangka panjang.

## Kesimpulan Umum
Semua proses feature engineering ini bertujuan untuk:

1. *Memperkaya data*: Membuat fitur baru yang bisa menangkap pola-pola tersembunyi di data mentah.

2. *Mempermudah analisis eksploratif*: Dengan agregasi, ranking, dan transformasi, kita bisa lebih mudah melihat perusahaan unggulan, tren sektor, dan perbandingan antar perusahaan.

3. *Meningkatkan performa model machine learning atau prediksi*: Fitur yang informatif dan relevan dapat membantu model mengenali hubungan antara variabel lebih baik.

4. *Memberi insight bisnis dan investasi*: Seperti pemeringkatan saham, klasifikasi sektor, dan identifikasi saham dengan performa keuangan baik.




# **Deteksi Outlier Menggunakan Z-score dan IQR**

```{r, message=FALSE, warning=FALSE}
library(dplyr)

# --- Z-score method for detecting outliers ---
data_outliers <- financial_market %>%
  mutate(
    z_scores_SP = scale(Stock_Price),
    Outlier_Flag = ifelse(abs(z_scores_SP) > 3, "Outlier", "Normal")
  )

# --- IQR method for detecting and removing outliers ---
Q1 <- quantile(financial_market$Total_Price, 0.25)
Q3 <- quantile(financial_market$Total_Price, 0.75)
IQR_val <- Q3 - Q1

data_outliers_iqr <- financial_market %>%
  filter(
    Stock_Price > (Q1 - 1.5 * IQR_val) & 
    Stock_Price < (Q3 + 1.5 * IQR_val)
  )

head(data_outliers)

```
**1. Deteksi Outlier dengan Metode Z-Score**

- Anda menggunakan **Z-score method** untuk mendeteksi outlier pada kolom **Stock_Price**.
- **Z-score** mengukur seberapa jauh suatu nilai dari rata-rata dalam satuan standar deviasi.
    - Rumus: **Z = (x - mean) / sd**
- Baris data yang memiliki nilai Z-score lebih dari 3 atau kurang dari -3 dianggap **outlier.**
- Kolom baru **Outlier_Flag** ditambahkan, berisi label:
    - **Outlier** jika nilai Z-score melebihi 3 atau kurang dari -3,
    - **Normal** jika masih dalam batas normal.
    
**2. Pembersihan Outlier dengan Metode IQR**

- Metode kedua menggunakan **Interquartile Range (IQR)** pada kolom **Total_Price** untuk mendeteksi dan menghapus outlier.
- Perhitungan:
    - **Q1 (kuartil 1)** = nilai pada persentil ke-25,
    - **Q3 (kuartil 3)** = nilai pada persentil ke-75,
    - **IQR** = Q3 - Q1.
    
- Data dianggap **outlier** jika berada di luar rentang:
\[
\left[ Q_1 - 1.5 \times \text{IQR},\; Q_3 + 1.5 \times \text{IQR} \right]
\]

- Baris yang berada di luar batas ini difilter dan dihapus dari data dengan **filter()**.

- Z-score untuk mendeteksi outlier pada Stock_Price,
- IQR untuk menghapus outlier pada Total_Price.
- Metode ini penting untuk membersihkan data, sehingga analisis atau model yang akan dibangun tidak bias oleh nilai ekstrem.





# **Discretization (Binning)**

```{r, message=FALSE, warning=FALSE}
library(dplyr)

# Baca data
financial_market <- financial_market

# Binning (Equal-frequency) dengan quantile
binned_data <- financial_market %>%
  mutate(
    Price_Level = cut(
      Stock_Price,
      breaks = quantile(Stock_Price, probs = c(0, 0.33, 0.66, 1), na.rm = TRUE),
      labels = c("Low", "Medium", "High"),
      include.lowest = TRUE
    )
  )

#Tampilkan hasil binning
head(binned_data)
```

**1. Tujuan Binning**

- Tujuannya adalah untuk mengelompokkan data numerik dari kolom **Stock_Price** menjadi beberapa **kategori diskrit** (dalam hal ini: Low, Medium, High).
- Ini disebut **equal-frequency binning*, karena setiap kelompok akan memiliki jumlah data yang kurang lebih sama.

**2. Proses yang Dillakukan**

- **quantile()** digunakan untuk menentukan batas-batas (breaks) berdasarkan **persentil**:
    - 0% (minimum),
    - 33% (sepertiga data),
    - 66% (dua pertiga data),
    - 100% (maksimum).
    
- Kemudian fungsi cut() membagi kolom Stock_Price ke dalam tiga kelompok berdasarkan batas-batas tersebut, yaitu:
    - **Low**: nilai dari kuantil ke-0 hingga ke-33,
    - **Medium**: kuantil ke-33 hingga ke-66,
    - **High**: kuantil ke-66 hingga ke-100.

- Kolom hasil kategorisasi tersebut dinamakan **Price_Level**.


# Seasonality

```{r,message=FALSE,warning=FALSE}
library(dplyr)
library(lubridate)

Seasonality <- financial_market %>%
  mutate(
    Date = as.Date(Date, format = "%m/%d/%Y"),
    Year = year(Date),
    DayOfYear = yday(Date),
    DaysInYear = if_else(leap_year(Date), 366, 365),
    sin_year = sin(2 * pi * DayOfYear / DaysInYear),
    cos_year = cos(2 * pi * DayOfYear / DaysInYear)
  )

head(Seasonality)

```

**Kesimpulan yang Didukung oleh Data**

1. **Musim Maret–Juni (sin_year tinggi)**:

- 2023-03-15 dan 2023-06-05 menunjukkan **sin_year** sangat tinggi dan performa masing-masing adalah *Stable dan Positive*.

- Ini mendukung pola bahwa **kuartal 2 (Q2)** sering menunjukkan performa **kuat atau stabil**.


2. **Akhir Tahun – November (sin_year negatif tinggi)**:

- 2020-11-16 (*sin_year = -0.6979*) : **Stable**

- Tidak ekstrem negatif, tapi mendekati. Menunjukkan **kinerja yang tidak terlalu kuat**, sesuai dengan dugaan bahwa di akhir tahun bisa terjadi tekanan pasar (misalnya, aksi ambil untung/take profit).


3. **Awal Tahun – Januari (sin dan cos mendekati ekstrem positif)**:

- 2023-01-02 : sin_year ≈ 0, cos_year ≈ 1 : **Stable**

- Sesuai dengan interpretasi bahwa awal tahun cenderung netral atau belum menunjukkan tren jelas.


4. **Pertengahan Tahun – Juli (sin_year mendekati nol, cos_year negatif tinggi)**:

- 2021-07-14 : *Positive* meskipun sin_year = -0.2135 : berarti ada potensi kinerja baik di pertengahan tahun, meskipun secara musiman berada dalam transisiturun.

5. **Anomali**:

- 2023-03-22 : **sin_year** sangat tinggi (0.9845) tapi performa Negative. Ini menunjukkan bahwa meskipun sinyal musiman mendukung pertumbuhan, faktor lain (mungkin eksternal atau sektor tertentu) bisa memengaruhi negatif.

