KELOMPOK 3

Scaling &
Normalization
Z-Score
Standardization
# Standardisasi Z-Score: mengubah data agar memiliki rata-rata 0 dan standar deviasi 1
financial_scaled <- financial_market %>%
mutate(
Stock_Price_Std = scale(Stock_Price),
Volume_Traded_Std = scale(Volume_Traded),
Market_Cap_Std = scale(Market_Cap),
PE_Ratio_Std = scale(PE_Ratio),
Dividend_Yield_Std = scale(Dividend_Yield),
Return_on_Equity_Std = scale(Return_on_Equity)
)
head(financial_scaled)
Penjelasan:
financial_market adalah data frame yang berisi data pasar
keuangan. Kolom-kolomnya mencakup variabel seperti harga saham
(Stock_Price), volume perdagangan (Volume_Traded), kapitalisasi pasar
(Market_Cap), rasio PE (PE_Ratio), dividen (Dividend_Yield), dan ROE
(Return_on_Equity).
Fungsi mutate() dari paket dplyr digunakan untuk menambahkan
kolom-kolom baru hasil transformasi dari kolom yang ada.
Z-Score Standardization adalah metode transformasi data yang
mengubah setiap nilai menjadi ukuran dalam satuan standar deviasi dari
rata-rata.
Fungsi scale() adalah fungsi bawaan R untuk melakukan Z-score
standardization, yaitu: \[ Z = \frac{X - \mu
} {\sigma} \]
Hasilnya adalah data baru yang:
- Kolom baru dengan akhiran _Std dibuat untuk setiap variabel,
seperti:
Stock_Price_Std
Volume_Traded_Std
Market_Cap_Std
PE_Ratio_Std
Dividend_Yield_Std
Return_on_Equity_Std
- head(financial_scaled) digunakan untuk menampilkan 6 baris pertama
dari data yang telah ditransformasi.
Contoh Perhitungan
Manual
Misalkan data Stock_Price: [100, 120, 150, 130, 110]
- Hitung Mean:
\[ \mu = \frac{100 + 120 + 150 + 130 + 110
} {5} = \frac{610}{5} = 122\]
- Hitung Standar Deviasi (σ):
\[ \sigma = \sqrt{\frac{(100 - 122)^2 +
(120 - 122)^2 + (150 - 122)^2 + (130 - 122)^2 + (110 - 122)^2 } {5}}
\]
\[ = \sqrt{\frac{484 + 4 + 784 + 64 +
144}{5}} = \sqrt{\frac{1480}{5}} = \sqrt{296} = 17.2 \]
- Z-Score untuk nilai 150:
\[ Z = \frac{150 - 122 } {17.2} =
\frac{28}{17.2} = 1.63 \]
Min-Max
Normalization
# Normalisasi Min-Max: mengubah skala data ke dalam rentang [0, 1]
financial_normalized <- financial_market %>%
mutate(
Stock_Price_Norm = (Stock_Price - min(Stock_Price)) / (max(Stock_Price) - min(Stock_Price)),
Volume_Traded_Norm = (Volume_Traded - min(Volume_Traded)) / (max(Volume_Traded) - min(Volume_Traded)),
Market_Cap_Norm = (Market_Cap - min(Market_Cap)) / (max(Market_Cap - min(Market_Cap))),
PE_Ratio_Norm = (PE_Ratio - min(PE_Ratio)) / (max(PE_Ratio) - min(PE_Ratio)),
Dividend_Yield_Norm = (Dividend_Yield - min(Dividend_Yield)) / (max(Dividend_Yield) - min(Dividend_Yield)),
Return_on_Equity_Norm = (Return_on_Equity - min(Return_on_Equity)) / (max(Return_on_Equity) - min(Return_on_Equity))
)
head(financial_normalized)
Penjelasan
financial_market adalah data frame yang berisi data pasar
keuangan. Kolom-kolomnya mencakup variabel seperti harga saham
(Stock_Price), volume perdagangan (Volume_Traded), kapitalisasi pasar
(Market_Cap), rasio PE (PE_Ratio), dividen (Dividend_Yield), dan ROE
(Return_on_Equity).
Fungsi mutate() dari paket dplyr digunakan untuk menambahkan
kolom-kolom baru hasil transformasi dari kolom yang ada.
Normalisasi Min-Max adalah metode penskalaan data ke dalam
rentang tetap, yaitu [0, 1], dengan menggunakan rumus berikut: \[ X_{norm} = \frac{X - X_{min} } {X_{max} -
X_{min}} \]
Hasilnya adalah data baru yang:
Memiliki nilai terendah = 0
Memiliki nilai tertinggi = 1
Tetap mempertahankan distribusi asli datanya (namun rentangnya
dipersempit)
- Kolom baru dengan akhiran _Norm dibuat untuk setiap variabel,
seperti:
Stock_Price_Norm
Volume_Traded_Norm
Market_Cap_Norm
PE_Ratio_Norm
Dividend_Yield_Norm
Return_on_Equity_Norm
- Fungsi head(financial_normalized) digunakan untuk menampilkan 6
baris pertama dari data yang telah dinormalisasi.
Contoh Perhitungan
Manual
Data Stock_Price:[100, 120, 150, 130, 110]
- Minimum dan Maksimum:
- Min-Max Normalization untuk nilai 130: \[
X_{norm} = \frac{130 - 100 } {150 - 100} =
\frac{30}{50} = 0.6\]
Categorical
Encoding
Di dalam data, kadang kita menemukan kolom yang isinya bukan angka,
tapi kata-kata atau kategori, misalnya:
Sector = “Finance”, “Retail”, “Technology”
Performance = “Positive”, “Negative”, “Stable”
library(readr)
library(dplyr)
# Baca file CSV-nya
financial_market <- read_csv("financial market.csv")
# Tampilkan 6 data teratas
head(financial_market)
Masalahnya, komputer hanya bisa membaca angka. Maka,
kita perlu mengubah kata-kata ini menjadi angka. Caranya disebut
Categorical Encoding.
One Hot Encoding
Gampangnya: Kita bikin kolom baru untuk setiap kategori,
lalu kita kasih angka 1 jika cocok, dan 0 kalau
tidak.
Kenapa Nggak Pakai Angka Biasa (1, 2, 3)?
Karena kalau kita kasih angka seperti:
Positive = 1
Negative = 2
Stable = 3
Komputer bisa salah paham dan mengira ada
urutan atau ranking, padahal nggak
ada.
Padahal kategori itu cuma label, bukan nilai.
Makanya kita pakai biner (0 dan 1), biar komputer
ngerti bahwa semua kategori itu setara, nggak ada yang
lebih tinggi atau lebih rendah.
berikut kodenya:
library(fastDummies)
# Ubah kolom Sector & Performance jadi bentuk angka biner (0/1)
one_hot <- dummy_cols(financial_market,
select_columns = c("Sector", "Performance"),
remove_first_dummy = FALSE,
remove_selected_columns = TRUE)
# Tampilkan 6 data hasil one hot encoding
head(one_hot)
Frequency
Encoding
Gampangnya: Kita hitung berapa kali setiap
kategori muncul, lalu setiap data diganti dengan angka
frekuensinya.
# Fungsi untuk menghitung frekuensi (berapa sering muncul)
freq_enc <- function(col) {
tab <- table(col)
return(as.numeric(tab[col]) / length(col))
}
# Tambahkan kolom frekuensi ke data
data_freq <- financial_market %>%
mutate(
Sector_freq = freq_enc(Sector),
Performance_freq = freq_enc(Performance)
)
# Tampilkan 6 data teratas
head(data_freq)
Hasilnya:
Akan muncul dua kolom baru:
Setiap baris akan berisi angka pecahan (misalnya 0.360, 0.336) yang
menunjukkan seberapa sering nilai tersebut muncul dalam
keseluruhan data.
Feature
Engineering
# Feature Engineering pada Financial_market
Feature_Eng <- financial_market %>%
mutate(
# 1. New Features from Raw Data
Price_Per_Volume = Stock_Price / (Volume_Traded + 1e-5), # Hindari pembagian dengan nol
# 2. Product of Features, Crossed Terms
PE_x_ROE = PE_Ratio * Return_on_Equity,
# 3. Price per Unit, Efficiency
Yield_to_PE = Dividend_Yield / (PE_Ratio + 1e-5), # Yield per PE
# 4. Ranking, Percentile
MarketCap_Rank = rank(-Market_Cap), # Rank market cap terbesar ke terkecil
ROE_Quartile = ntile(Return_on_Equity, 4), # Bagi ROE ke dalam 4 kuartil
# 5. From IDs: Prefix, Length, Pattern
Stock_ID_Prefix = substr(Stock_ID, 1, 3),
Stock_ID_Length = nchar(Stock_ID)
) %>%
# 6. Avg, Sum, Count by Group
group_by(Sector) %>%
mutate(
Avg_PE_Sector = mean(PE_Ratio, na.rm = TRUE),
Avg_ROE_Sector = mean(Return_on_Equity, na.rm = TRUE),
Total_Companies_Sector = n()
) %>%
ungroup()
head(Feature_Eng)
Penjelasan
- New Features from Raw Data
- Product of Features, Crossed Terms
Mengalikan Price to Earnings Ratio (P/E) dengan Return on Equity
(ROE) menghasilkan interaksi antar dua metrik penting:
Interaksi ini bisa memberi sinyal apakah saham undervalued atau
overvalued dengan memperhitungkan efisiensi.
- Price per Unit, Efficiency
- Ranking, Percentile
MarketCap_Rank: Memberi ranking terhadap perusahaan berdasarkan
kapitalisasi pasar dari terbesar (rank 1) ke terkecil.
ROE_Quartile: Mengelompokkan ROE ke dalam 4 kuartil. Tujuannya
untuk klasifikasi performa perusahaan berdasarkan ROE:
- From IDs: Prefix, Length, Pattern
Stock_ID_Prefix: Mengambil 3 karakter awal dari ID saham. Ini
bisa menunjukkan kode kategori, jenis saham, atau asal bursa.
Stock_ID_Length: Panjang dari ID saham. Bisa membantu deteksi
format ID yang tidak lazim.
- Avg, Sum, Count by Group
Interaction
Features
Financial_interaction <- financial_market %>%
mutate(
Impact_Score = Stock_Price * Return_on_Equity
)
head(Financial_interaction)
Ratio Features
Financial_ratio <- financial_market %>%
mutate(
Dividend_to_Price = Dividend_Yield / (Stock_Price + 1e-5)
)
head(Financial_ratio)
Group
Aggregation
Sector_summary <- financial_market %>%
group_by(Sector) %>%
summarise(
Avg_Market_Cap = mean(Market_Cap),
Max_Stock_Price = max(Stock_Price),
Company_Count = n()
)
Financial_merged <- left_join(financial_market, Sector_summary, by = "Sector")
head(Financial_merged)
Penjelasan
Sector_summary membuat ringkasan sektor:
Avg_Market_Cap: Kapitalisasi pasar rata-rata di sektor.
Max_Stock_Price: Harga saham tertinggi di sektor.
Company_Count: Jumlah perusahaan per sektor.
Lalu left_join dilakukan untuk menggabungkan informasi ini
kembali ke data utama, memungkinkan perbandingan antar perusahaan dalam
satu sektor.
Text Cleaning &
Feature Creation
Financial_text_feature <- financial_market %>%
mutate(
Stock_Num_Suffix = as.numeric(str_extract(Stock_ID, "\\d+"))
)
head(Financial_text_feature)
Cumulative
Features
Financial_cumulative <- financial_market %>%
arrange(Sector, Date) %>%
group_by(Sector) %>%
mutate(
Cumulative_Volume = cumsum(Volume_Traded)
) %>%
ungroup()
head(Financial_cumulative)
Kesimpulan Umum
Semua proses feature engineering ini bertujuan untuk:
Memperkaya data: Membuat fitur baru yang bisa menangkap
pola-pola tersembunyi di data mentah.
Mempermudah analisis eksploratif: Dengan agregasi,
ranking, dan transformasi, kita bisa lebih mudah melihat perusahaan
unggulan, tren sektor, dan perbandingan antar perusahaan.
Meningkatkan performa model machine learning atau
prediksi: Fitur yang informatif dan relevan dapat membantu model
mengenali hubungan antara variabel lebih baik.
Memberi insight bisnis dan investasi: Seperti
pemeringkatan saham, klasifikasi sektor, dan identifikasi saham dengan
performa keuangan baik.
Deteksi Outlier
Menggunakan Z-score dan IQR
library(dplyr)
# --- Z-score method for detecting outliers ---
data_outliers <- financial_market %>%
mutate(
z_scores_SP = scale(Stock_Price),
Outlier_Flag = ifelse(abs(z_scores_SP) > 3, "Outlier", "Normal")
)
# --- IQR method for detecting and removing outliers ---
Q1 <- quantile(financial_market$Total_Price, 0.25)
Q3 <- quantile(financial_market$Total_Price, 0.75)
IQR_val <- Q3 - Q1
data_outliers_iqr <- financial_market %>%
filter(
Stock_Price > (Q1 - 1.5 * IQR_val) &
Stock_Price < (Q3 + 1.5 * IQR_val)
)
head(data_outliers)
1. Deteksi Outlier dengan Metode Z-Score
- Anda menggunakan Z-score method untuk mendeteksi
outlier pada kolom Stock_Price.
- Z-score mengukur seberapa jauh suatu nilai dari
rata-rata dalam satuan standar deviasi.
- Rumus: Z = (x - mean) / sd
- Baris data yang memiliki nilai Z-score lebih dari 3 atau kurang dari
-3 dianggap outlier.
- Kolom baru Outlier_Flag ditambahkan, berisi label:
- Outlier jika nilai Z-score melebihi 3 atau kurang
dari -3,
- Normal jika masih dalam batas normal.
2. Pembersihan Outlier dengan Metode IQR
Metode kedua menggunakan Interquartile Range
(IQR) pada kolom Total_Price untuk mendeteksi
dan menghapus outlier.
Perhitungan:
- Q1 (kuartil 1) = nilai pada persentil ke-25,
- Q3 (kuartil 3) = nilai pada persentil ke-75,
- IQR = Q3 - Q1.
Data dianggap outlier jika berada di luar
rentang: \[
\left[ Q_1 - 1.5 \times \text{IQR},\; Q_3 + 1.5 \times \text{IQR}
\right]
\]
Baris yang berada di luar batas ini difilter dan dihapus dari
data dengan filter().
Z-score untuk mendeteksi outlier pada Stock_Price,
IQR untuk menghapus outlier pada Total_Price.
Metode ini penting untuk membersihkan data, sehingga analisis
atau model yang akan dibangun tidak bias oleh nilai ekstrem.
Discretization
(Binning)
library(dplyr)
# Baca data
financial_market <- financial_market
# Binning (Equal-frequency) dengan quantile
binned_data <- financial_market %>%
mutate(
Price_Level = cut(
Stock_Price,
breaks = quantile(Stock_Price, probs = c(0, 0.33, 0.66, 1), na.rm = TRUE),
labels = c("Low", "Medium", "High"),
include.lowest = TRUE
)
)
#Tampilkan hasil binning
head(binned_data)
1. Tujuan Binning
- Tujuannya adalah untuk mengelompokkan data numerik dari kolom
Stock_Price menjadi beberapa kategori
diskrit (dalam hal ini: Low, Medium, High).
- Ini disebut **equal-frequency binning*, karena setiap kelompok akan
memiliki jumlah data yang kurang lebih sama.
2. Proses yang Dillakukan
- quantile() digunakan untuk menentukan batas-batas
(breaks) berdasarkan persentil:
- 0% (minimum),
- 33% (sepertiga data),
- 66% (dua pertiga data),
- 100% (maksimum).
- Kemudian fungsi cut() membagi kolom Stock_Price ke dalam tiga
kelompok berdasarkan batas-batas tersebut, yaitu:
- Low: nilai dari kuantil ke-0 hingga ke-33,
- Medium: kuantil ke-33 hingga ke-66,
- High: kuantil ke-66 hingga ke-100.
- Kolom hasil kategorisasi tersebut dinamakan
Price_Level.
Seasonality
library(dplyr)
library(lubridate)
Seasonality <- financial_market %>%
mutate(
Date = as.Date(Date, format = "%m/%d/%Y"),
Year = year(Date),
DayOfYear = yday(Date),
DaysInYear = if_else(leap_year(Date), 366, 365),
sin_year = sin(2 * pi * DayOfYear / DaysInYear),
cos_year = cos(2 * pi * DayOfYear / DaysInYear)
)
head(Seasonality)
Kesimpulan yang Didukung oleh Data
- Musim Maret–Juni (sin_year tinggi):
2023-03-15 dan 2023-06-05 menunjukkan sin_year
sangat tinggi dan performa masing-masing adalah Stable dan
Positive.
Ini mendukung pola bahwa kuartal 2 (Q2) sering
menunjukkan performa kuat atau stabil.
- Akhir Tahun – November (sin_year negatif
tinggi):
2020-11-16 (sin_year = -0.6979) :
Stable
Tidak ekstrem negatif, tapi mendekati. Menunjukkan
kinerja yang tidak terlalu kuat, sesuai dengan dugaan
bahwa di akhir tahun bisa terjadi tekanan pasar (misalnya, aksi ambil
untung/take profit).
- Awal Tahun – Januari (sin dan cos mendekati ekstrem
positif):
2023-01-02 : sin_year ≈ 0, cos_year ≈ 1 :
Stable
Sesuai dengan interpretasi bahwa awal tahun cenderung netral atau
belum menunjukkan tren jelas.
- Pertengahan Tahun – Juli (sin_year mendekati nol, cos_year
negatif tinggi):
- 2021-07-14 : Positive meskipun sin_year = -0.2135 : berarti
ada potensi kinerja baik di pertengahan tahun, meskipun secara musiman
berada dalam transisiturun.
- Anomali:
- 2023-03-22 : sin_year sangat tinggi (0.9845) tapi
performa Negative. Ini menunjukkan bahwa meskipun sinyal musiman
mendukung pertumbuhan, faktor lain (mungkin eksternal atau sektor
tertentu) bisa memengaruhi negatif.
