
(https://img.youtube.com/vi/QYlR7_F6clo/hqdefault.jpg)](https://youtu.be/QYlR7_F6clo)
Introduction
Keputusan investasi di era modern menjadi semakin kompleks karena
dipengaruhi oleh berbagai faktor ekonomi dan pribadi, seperti usia,
pendapatan, tujuan keuangan, dan toleransi risiko. Perbedaan ini
menghasilkan variasi dalam imbal hasil, volatilitas, dan pertumbuhan
aset.
Dataset ini mencakup variabel kategoris (seperti segmen investor,
wilayah, dan jenis investasi) serta variabel numerik (jumlah investasi,
skor risiko, diversifikasi portofolio, dan imbal hasil tahunan).
Melalui analisis statistik deskriptif—termasuk ukuran tendensi
sentral dan dispersi—serta visualisasi data, dapat diperoleh gambaran
yang lebih jelas mengenai pola, distribusi, dan kinerja investor secara
keseluruhan.
Data preparation
library(readr)
library(DT)
data_investment5 <- read_csv("C:/Users/Adinda/Downloads/Midterm Exam3.csv")
datatable(
data_investment5,
options = list(pageLength = 10), # tampil 10 baris per halaman
caption = "Tabel Interaktif Data CSV"
)
Visualizations
Data
Barchart
Interpretasi
Visualisasi di atas menunjukkan perbandingan jumlah investor pada
setiap jenis investasi. Terlihat bahwa beberapa jenis investasi memiliki
jumlah investor yang jauh lebih tinggi dibanding lainnya, menandakan
adanya preferensi atau minat yang lebih besar terhadap jenis investasi
tertentu.
dapat disimpulkan bahwa jenis investasi dengan jumlah investor
tertinggi merupakan pilihan yang paling populer dan dianggap lebih aman
atau menguntungkan oleh mayoritas responden, sedangkan jenis dengan
jumlah investor paling sedikit mungkin memiliki risiko atau tingkat
kepercayaan yang lebih rendah.
Histogram
Interpretasi
Histogram diatas menunjukkan distribusi usia para investor dalam
dataset. Sebagian besar investor berada pada rentang usia produktif
(sekitar 30–45 tahun), yang menandakan bahwa kelompok usia ini paling
aktif dalam kegiatan investasi. Distribusi terlihat relatif normal,
meskipun ada kemungkinan sedikit kemiringan (skewness) ke kanan yang
menunjukkan sebagian kecil investor berusia lebih tua. Hal ini dapat
diartikan bahwa partisipasi investasi cenderung menurun pada usia
lanjut, sementara kelompok usia menengah mendominasi pasar karena
memiliki kestabilan finansial dan minat investasi yang tinggi.
Scatter plot
library(ggplot2)
library(plotly)
# Scatter plot dengan garis tren
scatter_plot <- ggplot(data_investment5, aes(x = Age, y = AnnualReturn)) +
geom_point(color = "#2E86AB", alpha = 0.7, size = 3) + # Titik data
geom_smooth(method = "lm", color = "lightpink", se = TRUE, linewidth = 1) + # Garis tren linear
theme_minimal() +
labs(
title = "Hubungan antara Usia Investor dan Tingkat Keuntungan Tahunan",
x = "Usia Investor (Tahun)",
y = "Keuntungan Tahunan (%)",
caption = "Sumber data: Midterm Exam Investment Data"
)
# Ubah plot interaktif
interactive_scatter <- ggplotly(scatter_plot)
interactive_scatter
Interpretasi
Visualisasi ini menunjukkan hubungan antara usia investor dan tingkat
keuntungan tahunan (annual return). Titik-titik data menggambarkan
sebaran nilai return di berbagai kelompok usia, sementara garis tren
linear memperlihatkan arah hubungan umum di antara keduanya.
Dari grafik terlihat bahwa tidak ada hubungan linear yang kuat antara
usia dan tingkat keuntungan tahunan — artinya, peningkatan usia tidak
secara konsisten diikuti oleh peningkatan atau penurunan return. Sebaran
titik yang cukup luas menunjukkan adanya variasi (dispersi) yang tinggi
antarindividu, menandakan bahwa faktor lain selain usia (seperti
pengalaman atau profil risiko) kemungkinan berpengaruh lebih besar
terhadap hasil investasi.
Box plot
library(plotly)
p_box_soft <- plot_ly(
data = data_investment5,
x = ~RiskProfile,
y = ~AnnualReturn,
color = ~RiskProfile,
type = "box",
colors = c("#CDE8E5", "#E8DFF5", "#FDE2E4"),
boxmean = TRUE,
hoverinfo = "text",
text = ~paste(
"Risk Profile: ", RiskProfile,
"<br>Annual Return: ", round(AnnualReturn, 2), "%"
),
marker = list(outliercolor = '#9E9E9E', opacity = 0.7)
) %>%
layout(
title = list(
text = "Distribusi Annual Return Berdasarkan Risk Profile",
x = 0.5,
font = list(size = 18, color = "#333333", family = "Arial Black")
),
xaxis = list(title = "Risk Profile", titlefont = list(size = 14)),
yaxis = list(title = "Annual Return (%)", titlefont = list(size = 14)),
plot_bgcolor = "#FFFFFF",
paper_bgcolor = "#FFFFFF",
font = list(family = "Arial", color = "#444444")
)
p_box_soft
Interpretasi
Visualisasi box plot ini menunjukkan perbedaan sebaran annual return
berdasarkan kategori risk profile investor. Investor dengan profil
risiko tinggi (High Risk) cenderung memiliki annual return yang lebih
besar, namun dengan sebaran nilai yang juga lebih luas — menandakan
variabilitas (dispersi) yang tinggi dan potensi risiko lebih besar.
Sebaliknya, profil risiko rendah (Low Risk) menampilkan rentang nilai
return yang sempit, mencerminkan stabilitas dan konsistensi hasil
investasi. Profil risiko sedang (Moderate) berada di antara keduanya,
menunjukkan keseimbangan antara risiko dan potensi imbal hasil.
Line chart
Interpretasi
Grafik menunjukkan bahwa semakin tinggi tingkat pengalaman investasi,
semakin besar rata-rata Annual Return yang diperoleh investor. Tren
garis yang meningkat menandakan adanya hubungan positif antara
pengalaman dan kinerja investasi. Hal ini mengindikasikan bahwa
pengalaman berperan penting dalam kemampuan investor mengelola risiko
dan memaksimalkan keuntungan.
Tidak terlihat adanya outlier atau fluktuasi ekstrem, yang berarti
data relatif konsisten dan stabil di setiap tingkat pengalaman. Dengan
demikian, variabel InvestmentExperience dapat dianggap memiliki pengaruh
yang signifikan terhadap AnnualReturn, serta memperlihatkan pola
distribusi yang proporsional dan mudah diinterpretasikan secara
visual.
Central Tendency
Analisis ini dilakukan untuk memahami ukuran pemusatan data dari dua
variabel numerik, yaitu Age (usia investor) dan AnnualReturn (persentase
hasil investasi tahunan). Kedua variabel ini dipilih karena:
Dengan menghitung mean, median, dan mode, kita dapat mengidentifikasi
apakah distribusi data bersifat simetris, miring ke kanan
(right-skewed), atau miring ke kiri (left-skewed).
Ukuran pemusatan data yang digunakan terdiri dari tiga jenis
utama:
- Mean (Rata-rata)
Rumus:
\[
\mathbf{Mean} = \frac{\sum x_i}{n}
\]
Keterangan:
- \(x_i\) = nilai ke-i dari
data
- \(n\) = jumlah total data
Artinya, semua nilai dijumlahkan lalu dibagi dengan jumlah data.
- Median (Nilai Tengah)
Median adalah nilai yang berada di tengah setelah data diurutkan dari
yang terkecil ke terbesar.
Jika jumlah data ganjil, median = nilai di posisi
tengah.
Jika jumlah data genap, median = rata-rata dari dua
nilai tengah.
- Mode (Modus)
Mode adalah nilai yang paling sering muncul dalam suatu kumpulan
data.
Jika hanya ada satu nilai yang sering muncul →
unimodal,
jika dua nilai → bimodal,
dan jika lebih dari dua → multimodal.
Perhitungan (mean,
meadian, mode)
# --- Library yang digunakan ---
library(readr)
library(dplyr)
library(ggplot2)
# --- Membaca dataset ---
data_investment5 <- read_csv("C:/Users/Adinda/Downloads/Midterm Exam3.csv")
# --- Menghitung Mean, Median, dan Mode untuk dua variabel numerik ---
# Variabel 1: Age
mean_age <- mean(data_investment5$Age, na.rm = TRUE)
median_age <- median(data_investment5$Age, na.rm = TRUE)
mode_age <- as.numeric(names(sort(table(data_investment5$Age), decreasing = TRUE)[1]))
# --- Menyusun hasil perhitungan ke dalam tabel ---
tabel_central <- data.frame(
Variable = c("Age"),
Mean = c(mean_age),
Median = c(median_age),
Mode = c(mode_age)
)
# --- Menampilkan tabel hasil ---
tabel_central
Measures of
Dispersion
Bagian ini bertujuan untuk mengukur sebaran (dispersi) dari data
numerik dalam dataset. Ukuran penyebaran membantu kita memahami seberapa
jauh data menyebar dari nilai rata-ratanya. Dua variabel yang
digunakan:
Ukuran-ukuran penyebaran meliputi:
- Range (Jangkauan)
\[
\textbf{Range} = X_{max} - X_{min}
\] # Menghitung range
range_age <- max(data_investment5$Age, na.rm = TRUE) - min(data_investment5$Age, na.rm = TRUE)
range_return <- max(data_investment5$AnnualReturn, na.rm = TRUE) - min(data_investment5$AnnualReturn, na.rm = TRUE)
data.frame(
Variable = c("Age", "Annual Return"),
Range = c(range_age, range_return)
)
Range menunjukkan perbedaan antara nilai terbesar dan nilai
terkecil dalam data.
Semakin besar nilai range, semakin lebar pula sebaran data.
Namun, ukuran ini sensitif terhadap outlier, sehingga
tidak selalu mencerminkan distribusi sebenarnya. Sedangkan pada
perhitungan rage di atas menunjukan Range jarak antara nilai tertinggi
dan terendah dalam data. Nilai yang besar menandakan adanya variasi
ekstrem, sedangkan nilai kecil berarti data relatif homogen.
Berdasarkan hasil perhitungan range menunjukkan
selisih antara nilai maksimum dan minimum pada suatu variabel.
Untuk Age, range yang relatif kecil
mengindikasikan bahwa rentang usia responden tidak terlalu lebar,
artinya mayoritas investor memiliki usia yang berdekatan.
Untuk Annual Return, range yang jauh lebih besar
menunjukkan adanya perbedaan signifikan antara tingkat pengembalian
investasi tertinggi dan terendah di antara responden.
- Variance (Ragam)
\[
\textbf{s}^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n - 1}
\]
# Menghitung varians
var_age <- var(data_investment5$Age, na.rm = TRUE)
var_return <- var(data_investment5$AnnualReturn, na.rm = TRUE)
data.frame(
Variable = c("Age", "Annual Return"),
Variance = c(var_age, var_return)
)
Variance mengukur rata-rata kuadrat deviasi setiap
nilai terhadap mean.
Nilai variansi besar berarti data memiliki keragaman
tinggi, sedangkan nilai kecil menunjukkan bahwa data
berkumpul di sekitar mean.
Satuan variansi adalah kuadrat dari satuan data
aslinya.
Berdasarkan hasil perhitungan varians:
Variabel Age memiliki nilai varians yang relatif
kecil, artinya sebaran umur responden cukup seragam. Mayoritas responden
berada dalam rentang usia yang tidak terlalu jauh.
Variabel Annual Return memiliki nilai varians
yang jauh lebih besar, menandakan bahwa tingkat pengembalian investasi
antar responden bervariasi cukup tinggi. Beberapa investor mungkin
memperoleh hasil yang jauh lebih tinggi atau rendah dibanding
rata-rata.
Dengan kata lain, semakin besar nilai varians, semakin tinggi tingkat
ketidakkonsistenan data. Dalam konteks ini, Annual Return memiliki
tingkat fluktuasi yang lebih besar dibanding Age.
- Standard Deviation (Simpangan Baku)
\[
\textbf{s} = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n
- 1}}
\]
# Menghitung standar deviasi
sd_age <- sd(data_investment5$Age, na.rm = TRUE)
sd_return <- sd(data_investment5$AnnualReturn, na.rm = TRUE)
data.frame(
Variable = c("Age", "Annual Return"),
Standard_Deviation = c(sd_age, sd_return)
)
Standard deviation merupakan akar dari variansi,
sehingga kembali pada satuan data aslinya.
Nilai simpangan baku menunjukkan seberapa jauh data tersebar dari nilai
rata-rata.
Jika standar deviasi kecil, maka data lebih homogen;
jika besar, maka data lebih bervariasi.
Berdasarkan hasil perhitungan Standar Deviation
Nilai standar deviasi Age kecil → menunjukkan bahwa sebagian
besar nilai umur mendekati rata-rata.
Nilai standar deviasi Annual Return besar → menggambarkan bahwa
tingkat pengembalian memiliki penyimpangan yang besar dari
rata-ratanya.
- Interquartile Range (IQR)
\[
\textbf{IQR} = Q_3 - Q_1
\]
# Menghitung IQR
iqr_age <- IQR(data_investment5$Age, na.rm = TRUE)
iqr_return <- IQR(data_investment5$AnnualReturn, na.rm = TRUE)
data.frame(
Variable = c("Age", "Annual Return"),
IQR = c(iqr_age, iqr_return)
)
IQR mengukur rentang data tengah (50%) dengan
mengabaikan pengaruh outlier.
IQR berguna untuk melihat penyebaran data utama tanpa
dipengaruhi nilai ekstrem.
Berdasarkan hasil perhitungan IQR
Visualisasi Measures
of Dispersion
Interpretasi
Visualisasi box plot menunjukkan bahwa InitialInvestment memiliki
penyebaran (dispersi) yang lebih besar dibanding AnnualReturn. Hal ini
terlihat dari rentang dan IQR yang lebih lebar serta adanya beberapa
outlier pada nilai investasi awal, menandakan perbedaan modal antar
investor cukup tinggi. Sementara itu, AnnualReturn memiliki sebaran yang
lebih sempit dan sedikit outlier, menunjukkan hasil tahunan antar
investor relatif stabil. Dengan demikian, dapat disimpulkan bahwa modal
awal bervariasi tinggi, sedangkan hasil tahunan lebih konsisten, sesuai
dengan konsep Measures of Dispersion yang menekankan variasi dan
kestabilan data.
Histogram

Interpretasi
Visualisasi histogram di atas memperlihatkan sebaran dua variabel
numerik, yaitu Monthly Saving dan Annual Return, untuk memahami pola
distribusi dan tingkat penyebaran datanya.
Pada histogram Monthly Saving, terlihat bahwa sebagian besar
investor memiliki jumlah tabungan bulanan pada kisaran menengah.
Distribusi ini menunjukkan bahwa data cenderung simetris dengan sedikit
variasi di sekitar nilai tengah, yang berarti tingkat kemampuan menabung
antar investor relatif seragam dan tidak terlalu menyimpang
jauh.
Sementara itu, histogram Annual Return menunjukkan bahwa sebagian
besar imbal hasil tahunan berkumpul di sekitar nilai rata-rata dengan
sedikit nilai ekstrem (outlier) di sisi kanan. Hal ini mengindikasikan
adanya beberapa investor dengan tingkat pengembalian yang jauh lebih
tinggi dibanding lainnya, menandakan penyebaran data yang lebih besar
pada variabel ini dibanding Monthly Saving.
Secara keseluruhan, hasil ini menunjukkan bahwa Annual Return
memiliki variasi yang lebih tinggi, sedangkan Monthly Saving lebih
konsisten, yang berarti risiko dan hasil investasi berbeda antar
individu, tetapi kemampuan menabung relatif stabil.
Scatter plot
library(plotly)
library(dplyr)
# Gunakan dataset yang benar
data_investment <- data_investment %>%
mutate(
RiskScore = as.numeric(RiskScore),
AnnualReturn = as.numeric(AnnualReturn)
)
# Fit model regresi linear
model <- lm(AnnualReturn ~ RiskScore, data = data_investment)
# Prediksi nilai untuk garis tren
pred <- data.frame(
RiskScore = seq(min(data_investment$RiskScore, na.rm = TRUE),
max(data_investment$RiskScore, na.rm = TRUE),
length.out = 100)
)
pred$AnnualReturn <- predict(model, newdata = pred)
# Scatter plot interaktif + garis tren
fig <- plot_ly(
data = data_investment,
x = ~RiskScore,
y = ~AnnualReturn,
type = 'scatter',
mode = 'markers',
marker = list(color = 'lightpink', size = 8, opacity = 0.7),
hoverinfo = 'text',
text = ~paste('Risk Score:', RiskScore,
'<br>Annual Return:', AnnualReturn)
) %>%
add_trace(
data = pred,
x = ~RiskScore,
y = ~AnnualReturn,
type = 'scatter',
mode = 'lines',
line = list(color = 'darkred', width = 2),
name = 'Trend Line'
) %>%
layout(
title = list(text = "Hubungan antara Risk Score dan Annual Return (dengan Garis Tren)", x = 0.5),
xaxis = list(title = "Risk Score"),
yaxis = list(title = "Annual Return (%)"),
plot_bgcolor = "#f7f9fb",
paper_bgcolor = "#f7f9fb"
)
fig # tampilkan grafik interaktif
Interpretasi
Scatter plot menunjukkan hubungan positif antara Risk Score dan
Annual Return. Pola ini mengindikasikan bahwa semakin tinggi risiko yang
diambil, semakin besar potensi imbal hasilnya. Sebaran titik yang cukup
luas menandakan adanya variasi atau dispersi tinggi pada hasil
investasi.
Summary and
Interpretation
Berdasarkan hasil analisis data investasi, diperoleh bahwa variabel
numerik yang dianalisis, yaitu Age dan Annual Return, menunjukkan
karakteristik penyebaran yang berbeda.
Variabel Age memiliki nilai rata-rata, median,
dan modus yang berdekatan, menandakan distribusi yang relatif simetris
tanpa adanya outlier yang signifikan. Hal ini juga didukung oleh nilai
varians, standar deviasi, dan IQR yang kecil, sehingga dapat disimpulkan
bahwa data usia investor cukup konsisten dan homogen.
Sebaliknya, variabel Annual Return memiliki
perbedaan cukup besar antara nilai rata-rata dan median, yang
mengindikasikan adanya kemencengan (skewness) pada distribusi data.
Nilai dispersi yang tinggi menunjukkan bahwa tingkat pengembalian
investasi antar investor sangat bervariasi. Kondisi ini dapat disebabkan
oleh perbedaan strategi, tingkat risiko, dan pengalaman
investasi.
Secara keseluruhan, hasil visualisasi dan analisis statistik
menggambarkan bahwa Age merupakan variabel yang paling stabil, sedangkan
Annual Return menunjukkan variabilitas paling tinggi. Hal ini memberikan
gambaran bahwa kinerja investasi lebih dipengaruhi oleh faktor eksternal
dibandingkan faktor demografis seperti usia.
