Investment Data

Midterm Exam

Logo

(https://img.youtube.com/vi/QYlR7_F6clo/hqdefault.jpg)](https://youtu.be/QYlR7_F6clo)

1 Introduction

Keputusan investasi di era modern menjadi semakin kompleks karena dipengaruhi oleh berbagai faktor ekonomi dan pribadi, seperti usia, pendapatan, tujuan keuangan, dan toleransi risiko. Perbedaan ini menghasilkan variasi dalam imbal hasil, volatilitas, dan pertumbuhan aset.

Dataset ini mencakup variabel kategoris (seperti segmen investor, wilayah, dan jenis investasi) serta variabel numerik (jumlah investasi, skor risiko, diversifikasi portofolio, dan imbal hasil tahunan).

Melalui analisis statistik deskriptif—termasuk ukuran tendensi sentral dan dispersi—serta visualisasi data, dapat diperoleh gambaran yang lebih jelas mengenai pola, distribusi, dan kinerja investor secara keseluruhan.

2 Data preparation

library(readr)
library(DT)

data_investment5 <- read_csv("C:/Users/Adinda/Downloads/Midterm Exam3.csv")

datatable(
  data_investment5,
  options = list(pageLength = 10),  # tampil 10 baris per halaman
  caption = "Tabel Interaktif Data CSV"
)

3 Visualizations Data

3.1 Barchart

3.1.1 Interpretasi

Visualisasi di atas menunjukkan perbandingan jumlah investor pada setiap jenis investasi. Terlihat bahwa beberapa jenis investasi memiliki jumlah investor yang jauh lebih tinggi dibanding lainnya, menandakan adanya preferensi atau minat yang lebih besar terhadap jenis investasi tertentu.

dapat disimpulkan bahwa jenis investasi dengan jumlah investor tertinggi merupakan pilihan yang paling populer dan dianggap lebih aman atau menguntungkan oleh mayoritas responden, sedangkan jenis dengan jumlah investor paling sedikit mungkin memiliki risiko atau tingkat kepercayaan yang lebih rendah.

3.2 Histogram

3.2.1 Interpretasi

Histogram diatas menunjukkan distribusi usia para investor dalam dataset. Sebagian besar investor berada pada rentang usia produktif (sekitar 30–45 tahun), yang menandakan bahwa kelompok usia ini paling aktif dalam kegiatan investasi. Distribusi terlihat relatif normal, meskipun ada kemungkinan sedikit kemiringan (skewness) ke kanan yang menunjukkan sebagian kecil investor berusia lebih tua. Hal ini dapat diartikan bahwa partisipasi investasi cenderung menurun pada usia lanjut, sementara kelompok usia menengah mendominasi pasar karena memiliki kestabilan finansial dan minat investasi yang tinggi.

3.3 Scatter plot

library(ggplot2)
library(plotly)

# Scatter plot dengan garis tren
scatter_plot <- ggplot(data_investment5, aes(x = Age, y = AnnualReturn)) +
  geom_point(color = "#2E86AB", alpha = 0.7, size = 3) +  # Titik data
  geom_smooth(method = "lm", color = "lightpink", se = TRUE, linewidth = 1) +  # Garis tren linear
  theme_minimal() +
  labs(
    title = "Hubungan antara Usia Investor dan Tingkat Keuntungan Tahunan",
    x = "Usia Investor (Tahun)",
    y = "Keuntungan Tahunan (%)",
    caption = "Sumber data: Midterm Exam Investment Data"
  )

# Ubah plot interaktif
interactive_scatter <- ggplotly(scatter_plot)
interactive_scatter

3.3.1 Interpretasi

Visualisasi ini menunjukkan hubungan antara usia investor dan tingkat keuntungan tahunan (annual return). Titik-titik data menggambarkan sebaran nilai return di berbagai kelompok usia, sementara garis tren linear memperlihatkan arah hubungan umum di antara keduanya.

Dari grafik terlihat bahwa tidak ada hubungan linear yang kuat antara usia dan tingkat keuntungan tahunan — artinya, peningkatan usia tidak secara konsisten diikuti oleh peningkatan atau penurunan return. Sebaran titik yang cukup luas menunjukkan adanya variasi (dispersi) yang tinggi antarindividu, menandakan bahwa faktor lain selain usia (seperti pengalaman atau profil risiko) kemungkinan berpengaruh lebih besar terhadap hasil investasi.

3.4 Box plot

library(plotly)

p_box_soft <- plot_ly(
  data = data_investment5,
  x = ~RiskProfile,
  y = ~AnnualReturn,
  color = ~RiskProfile,
  type = "box",
  colors = c("#CDE8E5", "#E8DFF5", "#FDE2E4"),
  boxmean = TRUE,
  hoverinfo = "text",
  text = ~paste(
    "Risk Profile: ", RiskProfile,
    "<br>Annual Return: ", round(AnnualReturn, 2), "%"
  ),
  marker = list(outliercolor = '#9E9E9E', opacity = 0.7)
) %>%
  layout(
    title = list(
      text = "Distribusi Annual Return Berdasarkan Risk Profile",
      x = 0.5,
      font = list(size = 18, color = "#333333", family = "Arial Black")
    ),
    xaxis = list(title = "Risk Profile", titlefont = list(size = 14)),
    yaxis = list(title = "Annual Return (%)", titlefont = list(size = 14)),
    plot_bgcolor = "#FFFFFF",
    paper_bgcolor = "#FFFFFF",
    font = list(family = "Arial", color = "#444444")
  )

p_box_soft

3.4.1 Interpretasi

Visualisasi box plot ini menunjukkan perbedaan sebaran annual return berdasarkan kategori risk profile investor. Investor dengan profil risiko tinggi (High Risk) cenderung memiliki annual return yang lebih besar, namun dengan sebaran nilai yang juga lebih luas — menandakan variabilitas (dispersi) yang tinggi dan potensi risiko lebih besar. Sebaliknya, profil risiko rendah (Low Risk) menampilkan rentang nilai return yang sempit, mencerminkan stabilitas dan konsistensi hasil investasi. Profil risiko sedang (Moderate) berada di antara keduanya, menunjukkan keseimbangan antara risiko dan potensi imbal hasil.

3.5 Line chart

3.5.1 Interpretasi

Grafik menunjukkan bahwa semakin tinggi tingkat pengalaman investasi, semakin besar rata-rata Annual Return yang diperoleh investor. Tren garis yang meningkat menandakan adanya hubungan positif antara pengalaman dan kinerja investasi. Hal ini mengindikasikan bahwa pengalaman berperan penting dalam kemampuan investor mengelola risiko dan memaksimalkan keuntungan.

Tidak terlihat adanya outlier atau fluktuasi ekstrem, yang berarti data relatif konsisten dan stabil di setiap tingkat pengalaman. Dengan demikian, variabel InvestmentExperience dapat dianggap memiliki pengaruh yang signifikan terhadap AnnualReturn, serta memperlihatkan pola distribusi yang proporsional dan mudah diinterpretasikan secara visual.

4 Central Tendency

Analisis ini dilakukan untuk memahami ukuran pemusatan data dari dua variabel numerik, yaitu Age (usia investor) dan AnnualReturn (persentase hasil investasi tahunan). Kedua variabel ini dipilih karena:

  • Age menggambarkan faktor demografis investor yang bersifat stabil dan kontinu.

  • AnnualReturn menunjukkan performa investasi yang bisa mencerminkan variasi tingkat risiko dan keuntungan.

Dengan menghitung mean, median, dan mode, kita dapat mengidentifikasi apakah distribusi data bersifat simetris, miring ke kanan (right-skewed), atau miring ke kiri (left-skewed).

Ukuran pemusatan data yang digunakan terdiri dari tiga jenis utama:

- Mean (Rata-rata)

Rumus:
\[ \mathbf{Mean} = \frac{\sum x_i}{n} \]

Keterangan:

  • \(x_i\) = nilai ke-i dari data
  • \(n\) = jumlah total data

Artinya, semua nilai dijumlahkan lalu dibagi dengan jumlah data.

- Median (Nilai Tengah)

Median adalah nilai yang berada di tengah setelah data diurutkan dari yang terkecil ke terbesar.
Jika jumlah data ganjil, median = nilai di posisi tengah.
Jika jumlah data genap, median = rata-rata dari dua nilai tengah.

- Mode (Modus)

Mode adalah nilai yang paling sering muncul dalam suatu kumpulan data.
Jika hanya ada satu nilai yang sering muncul → unimodal,
jika dua nilai → bimodal,
dan jika lebih dari dua → multimodal.

4.1 Perhitungan (mean, meadian, mode)

# --- Library yang digunakan ---
library(readr)
library(dplyr)
library(ggplot2)

# --- Membaca dataset ---
data_investment5 <- read_csv("C:/Users/Adinda/Downloads/Midterm Exam3.csv")

# --- Menghitung Mean, Median, dan Mode untuk dua variabel numerik ---
# Variabel 1: Age
mean_age <- mean(data_investment5$Age, na.rm = TRUE)
median_age <- median(data_investment5$Age, na.rm = TRUE)
mode_age <- as.numeric(names(sort(table(data_investment5$Age), decreasing = TRUE)[1]))

# --- Menyusun hasil perhitungan ke dalam tabel ---
tabel_central <- data.frame(
  Variable = c("Age"),
  Mean = c(mean_age),
  Median = c(median_age),
  Mode = c(mode_age)
)

# --- Menampilkan tabel hasil ---
tabel_central

4.2 Interpretasi Hasil Perhitungan (mean, median, mode)

  • Age: Nilai mean, median, dan mode saling berdekatan → distribusi data simetris.

  • AnnualReturn: Mean lebih tinggi dari median dan mode → distribusi miring ke kanan (right-skewed), menandakan ada beberapa investor dengan hasil sangat tinggi.

library(ggplot2)
# --- Symmetrical data: Perfect bell-shaped (Normal Distribution, no outliers) ---
set.seed(123)

data_investment5 <- data.frame(age = rnorm(200, mean = 50, sd = 10))
# --- Compute Mean, Median, Mode ---
mean_val <- mean(data_investment5$age)
median_val <- median(data_investment5$age)
mode_val <- as.numeric(names(sort(table(round(data_investment5$age, 0)),
                                  decreasing = TRUE)[1]))
# --- Visualization (Histogram + Density) ---
ggplot(data_investment5, aes(x = age)) +
  geom_histogram(aes(y = after_stat(density)), 
                 binwidth = 2, 
                 fill = "#5ab4ac", 
                 color = "white", 
                 alpha = 0.8) +
  geom_density(color = "#2b8cbe", linewidth = 1.3, alpha = 0.9) +
  geom_vline(aes(xintercept = mean_val, color = "Mean"), linewidth = 1.2) +
  geom_vline(aes(xintercept = median_val, color = "Median"), 
             linewidth = 1.2, linetype = "dashed") +
  geom_vline(aes(xintercept = mode_val, color = "Mode"), 
             linewidth = 1.2, linetype = "dotdash") +
  labs(
    title = "Symmetrical Distribution (No Outliers)",
    subtitle = "Mean, Median, and Mode coincide at the center of the bell curve",
    x = "age",
    y = "Density",
    color = "Measure"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5),
    legend.position = "bottom"
  )

4.2.1 Interpretasi age

Distribusi data pada variabel Age menunjukkan pola simetris berbentuk lonceng (bell curve), di mana garis Mean, Median, dan Mode berada di posisi yang hampir sama di tengah distribusi. Hal ini menandakan bahwa sebagian besar individu memiliki nilai usia yang berada di sekitar rata-rata, dengan jumlah yang seimbang antara nilai di bawah dan di atas rata-rata.

Karena ketiga ukuran tendensi sentral tersebut berimpit, maka tidak terdapat kemiringan (skewness) yang berarti pada data ini. Dengan kata lain, distribusi tidak miring ke kanan maupun ke kiri. Visualisasi ini juga memperlihatkan tidak adanya outlier yang ekstrem, yang berarti penyebaran usia cenderung stabil.

# --- Library yang dibutuhkan ---
library(readr)
library(dplyr)
library(ggplot2)
library(gridExtra)

# --- Membaca data ---
data_investment5 <- read_csv("C:/Users/Adinda/Downloads/Midterm Exam3.csv")

# --- Menghitung nilai Mean, Median, Mode untuk AnnualReturn ---
mean_ret <- mean(data_investment5$AnnualReturn, na.rm = TRUE)
median_ret <- median(data_investment5$AnnualReturn, na.rm = TRUE)
mode_ret <- as.numeric(names(sort(table(data_investment5$AnnualReturn), decreasing = TRUE)[1]))

# --- Menampilkan hasil perhitungan dalam tabel ---
central_tendency <- data.frame(
  Measure = c("Mean", "Median", "Mode"),
  AnnualReturn = c(mean_ret, median_ret, mode_ret)
)
central_tendency
# --- Membuat Visualisasi Histogram + Density Plot ---
ggplot(data_investment5, aes(x = AnnualReturn)) +
  geom_histogram(aes(y = after_stat(density)),
                 bins = 30,
                 fill = "#5ab4ac",
                 color = "white",
                 alpha = 0.8) +
  geom_density(color = "#2b8cbe", linewidth = 1.3, alpha = 0.9) +
  geom_vline(aes(xintercept = mean_ret, color = "Mean"), linewidth = 1.2) +
  geom_vline(aes(xintercept = median_ret, color = "Median"), linetype = "dashed", linewidth = 1.2) +
  geom_vline(aes(xintercept = mode_ret, color = "Mode"), linetype = "dotdash", linewidth = 1.2) +
  labs(
    title = "Distribusi Annual Return",
    subtitle = "Visualisasi Mean, Median, dan Mode pada Variabel Annual Return",
    x = "Annual Return",
    y = "Density",
    color = "white"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5),
    legend.position = "bottom"
  )

4.2.2 Interpretasi

Nilai mean, median, dan mode pada variabel Annual Return hampir sama, menunjukkan bahwa data memiliki distribusi simetris tanpa kemencengan berarti. Grafik histogram membentuk pola kurva lonceng, di mana sebagian besar data terkonsentrasi di sekitar nilai tengah. Hal ini menandakan bahwa Annual Return memiliki sebaran yang normal dan stabil, tanpa adanya outlier yang signifikan.

5 Measures of Dispersion

Bagian ini bertujuan untuk mengukur sebaran (dispersi) dari data numerik dalam dataset. Ukuran penyebaran membantu kita memahami seberapa jauh data menyebar dari nilai rata-ratanya. Dua variabel yang digunakan:

  • Age (Usia Investor)

  • AnnualReturn (Persentase Keuntungan Tahunan)

Ukuran-ukuran penyebaran meliputi:

- Range (Jangkauan)
\[ \textbf{Range} = X_{max} - X_{min} \] # Menghitung range

range_age <- max(data_investment5$Age, na.rm = TRUE) - min(data_investment5$Age, na.rm = TRUE)
range_return <- max(data_investment5$AnnualReturn, na.rm = TRUE) - min(data_investment5$AnnualReturn, na.rm = TRUE)

data.frame(
  Variable = c("Age", "Annual Return"),
  Range = c(range_age, range_return)
)

Range menunjukkan perbedaan antara nilai terbesar dan nilai terkecil dalam data.
Semakin besar nilai range, semakin lebar pula sebaran data.
Namun, ukuran ini sensitif terhadap outlier, sehingga tidak selalu mencerminkan distribusi sebenarnya. Sedangkan pada perhitungan rage di atas menunjukan Range jarak antara nilai tertinggi dan terendah dalam data. Nilai yang besar menandakan adanya variasi ekstrem, sedangkan nilai kecil berarti data relatif homogen.

Berdasarkan hasil perhitungan range menunjukkan selisih antara nilai maksimum dan minimum pada suatu variabel.

  • Untuk Age, range yang relatif kecil mengindikasikan bahwa rentang usia responden tidak terlalu lebar, artinya mayoritas investor memiliki usia yang berdekatan.

  • Untuk Annual Return, range yang jauh lebih besar menunjukkan adanya perbedaan signifikan antara tingkat pengembalian investasi tertinggi dan terendah di antara responden.

- Variance (Ragam)
\[ \textbf{s}^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n - 1} \]

# Menghitung varians

var_age <- var(data_investment5$Age, na.rm = TRUE)
var_return <- var(data_investment5$AnnualReturn, na.rm = TRUE)

data.frame(
Variable = c("Age", "Annual Return"),
Variance = c(var_age, var_return)
)

Variance mengukur rata-rata kuadrat deviasi setiap nilai terhadap mean.
Nilai variansi besar berarti data memiliki keragaman tinggi, sedangkan nilai kecil menunjukkan bahwa data berkumpul di sekitar mean.
Satuan variansi adalah kuadrat dari satuan data aslinya.

Berdasarkan hasil perhitungan varians:

  • Variabel Age memiliki nilai varians yang relatif kecil, artinya sebaran umur responden cukup seragam. Mayoritas responden berada dalam rentang usia yang tidak terlalu jauh.

  • Variabel Annual Return memiliki nilai varians yang jauh lebih besar, menandakan bahwa tingkat pengembalian investasi antar responden bervariasi cukup tinggi. Beberapa investor mungkin memperoleh hasil yang jauh lebih tinggi atau rendah dibanding rata-rata.

Dengan kata lain, semakin besar nilai varians, semakin tinggi tingkat ketidakkonsistenan data. Dalam konteks ini, Annual Return memiliki tingkat fluktuasi yang lebih besar dibanding Age.

- Standard Deviation (Simpangan Baku)
\[ \textbf{s} = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n - 1}} \]

# Menghitung standar deviasi

sd_age <- sd(data_investment5$Age, na.rm = TRUE)
sd_return <- sd(data_investment5$AnnualReturn, na.rm = TRUE)

data.frame(
Variable = c("Age", "Annual Return"),
Standard_Deviation = c(sd_age, sd_return)
)

Standard deviation merupakan akar dari variansi, sehingga kembali pada satuan data aslinya.
Nilai simpangan baku menunjukkan seberapa jauh data tersebar dari nilai rata-rata.
Jika standar deviasi kecil, maka data lebih homogen; jika besar, maka data lebih bervariasi.

Berdasarkan hasil perhitungan Standar Deviation

  • Nilai standar deviasi Age kecil → menunjukkan bahwa sebagian besar nilai umur mendekati rata-rata.

  • Nilai standar deviasi Annual Return besar → menggambarkan bahwa tingkat pengembalian memiliki penyimpangan yang besar dari rata-ratanya.

- Interquartile Range (IQR)
\[ \textbf{IQR} = Q_3 - Q_1 \]

# Menghitung IQR

iqr_age <- IQR(data_investment5$Age, na.rm = TRUE)
iqr_return <- IQR(data_investment5$AnnualReturn, na.rm = TRUE)

data.frame(
Variable = c("Age", "Annual Return"),
IQR = c(iqr_age, iqr_return)
)

IQR mengukur rentang data tengah (50%) dengan mengabaikan pengaruh outlier.
IQR berguna untuk melihat penyebaran data utama tanpa dipengaruhi nilai ekstrem.

Berdasarkan hasil perhitungan IQR

  • IQR Age kecil → data usia lebih konsisten di tengah distribusi.

  • IQR Annual Return besar → menandakan bahwa nilai pengembalian memiliki variasi tinggi meskipun di bagian tengah data.

5.1 Visualisasi Measures of Dispersion

5.1.1 Box plot

5.1.2 Interpretasi

Visualisasi box plot menunjukkan bahwa InitialInvestment memiliki penyebaran (dispersi) yang lebih besar dibanding AnnualReturn. Hal ini terlihat dari rentang dan IQR yang lebih lebar serta adanya beberapa outlier pada nilai investasi awal, menandakan perbedaan modal antar investor cukup tinggi. Sementara itu, AnnualReturn memiliki sebaran yang lebih sempit dan sedikit outlier, menunjukkan hasil tahunan antar investor relatif stabil. Dengan demikian, dapat disimpulkan bahwa modal awal bervariasi tinggi, sedangkan hasil tahunan lebih konsisten, sesuai dengan konsep Measures of Dispersion yang menekankan variasi dan kestabilan data.

5.1.3 Histogram

5.1.4 Interpretasi

Visualisasi histogram di atas memperlihatkan sebaran dua variabel numerik, yaitu Monthly Saving dan Annual Return, untuk memahami pola distribusi dan tingkat penyebaran datanya.

  • Pada histogram Monthly Saving, terlihat bahwa sebagian besar investor memiliki jumlah tabungan bulanan pada kisaran menengah. Distribusi ini menunjukkan bahwa data cenderung simetris dengan sedikit variasi di sekitar nilai tengah, yang berarti tingkat kemampuan menabung antar investor relatif seragam dan tidak terlalu menyimpang jauh.

  • Sementara itu, histogram Annual Return menunjukkan bahwa sebagian besar imbal hasil tahunan berkumpul di sekitar nilai rata-rata dengan sedikit nilai ekstrem (outlier) di sisi kanan. Hal ini mengindikasikan adanya beberapa investor dengan tingkat pengembalian yang jauh lebih tinggi dibanding lainnya, menandakan penyebaran data yang lebih besar pada variabel ini dibanding Monthly Saving.

Secara keseluruhan, hasil ini menunjukkan bahwa Annual Return memiliki variasi yang lebih tinggi, sedangkan Monthly Saving lebih konsisten, yang berarti risiko dan hasil investasi berbeda antar individu, tetapi kemampuan menabung relatif stabil.

5.1.5 Scatter plot

library(plotly)
library(dplyr)

# Gunakan dataset yang benar
data_investment <- data_investment %>%
  mutate(
    RiskScore = as.numeric(RiskScore),
    AnnualReturn = as.numeric(AnnualReturn)
  )

# Fit model regresi linear
model <- lm(AnnualReturn ~ RiskScore, data = data_investment)

# Prediksi nilai untuk garis tren
pred <- data.frame(
  RiskScore = seq(min(data_investment$RiskScore, na.rm = TRUE),
                  max(data_investment$RiskScore, na.rm = TRUE),
                  length.out = 100)
)
pred$AnnualReturn <- predict(model, newdata = pred)

# Scatter plot interaktif + garis tren
fig <- plot_ly(
  data = data_investment,
  x = ~RiskScore,
  y = ~AnnualReturn,
  type = 'scatter',
  mode = 'markers',
  marker = list(color = 'lightpink', size = 8, opacity = 0.7),
  hoverinfo = 'text',
  text = ~paste('Risk Score:', RiskScore,
                '<br>Annual Return:', AnnualReturn)
) %>%
  add_trace(
    data = pred,
    x = ~RiskScore,
    y = ~AnnualReturn,
    type = 'scatter',
    mode = 'lines',
    line = list(color = 'darkred', width = 2),
    name = 'Trend Line'
  ) %>%
  layout(
    title = list(text = "Hubungan antara Risk Score dan Annual Return (dengan Garis Tren)", x = 0.5),
    xaxis = list(title = "Risk Score"),
    yaxis = list(title = "Annual Return (%)"),
    plot_bgcolor = "#f7f9fb",
    paper_bgcolor = "#f7f9fb"
  )

fig  # tampilkan grafik interaktif

5.1.6 Interpretasi

Scatter plot menunjukkan hubungan positif antara Risk Score dan Annual Return. Pola ini mengindikasikan bahwa semakin tinggi risiko yang diambil, semakin besar potensi imbal hasilnya. Sebaran titik yang cukup luas menandakan adanya variasi atau dispersi tinggi pada hasil investasi.

6 Summary and Interpretation

Berdasarkan hasil analisis data investasi, diperoleh bahwa variabel numerik yang dianalisis, yaitu Age dan Annual Return, menunjukkan karakteristik penyebaran yang berbeda.

  • Variabel Age memiliki nilai rata-rata, median, dan modus yang berdekatan, menandakan distribusi yang relatif simetris tanpa adanya outlier yang signifikan. Hal ini juga didukung oleh nilai varians, standar deviasi, dan IQR yang kecil, sehingga dapat disimpulkan bahwa data usia investor cukup konsisten dan homogen.

  • Sebaliknya, variabel Annual Return memiliki perbedaan cukup besar antara nilai rata-rata dan median, yang mengindikasikan adanya kemencengan (skewness) pada distribusi data. Nilai dispersi yang tinggi menunjukkan bahwa tingkat pengembalian investasi antar investor sangat bervariasi. Kondisi ini dapat disebabkan oleh perbedaan strategi, tingkat risiko, dan pengalaman investasi.

Secara keseluruhan, hasil visualisasi dan analisis statistik menggambarkan bahwa Age merupakan variabel yang paling stabil, sedangkan Annual Return menunjukkan variabilitas paling tinggi. Hal ini memberikan gambaran bahwa kinerja investasi lebih dipengaruhi oleh faktor eksternal dibandingkan faktor demografis seperti usia.

---
title: "Investment Data" # Main title of the document
subtitle: "Midterm Exam" # Subtitle or topic for week 2
author: 
- "Adinda Adelia futri"
- "Adinda Maiza ishfahani" 
- "Chricyesia W.F.Uvas"
- "Januaria Teresinha" 
- "Octavia Maia Rego"          # Replace with your full name
date:  "`r format(Sys.Date(), '%B %d, %Y')`" # Auto displays the current date
output:                         # Output section defines the format and layout 
  rmdformats::readthedown:      # https://github.com/juba/rmdformats
    self_contained: true        # Embeds all resources (CSS, JS, images) 
    thumbnails: true            # Displays image thumbnails in the doc
    lightbox: true              # Enables click to enlarge images
    gallery: true               # Groups images into an interactive gallery
    number_sections: true       # Automatically numbers all sections
    lib_dir: libs               # Directory where JavaScript/CSS libraries
    df_print: "paged"           # Displays data frames as interactive paged 
    code_folding: "show"        # Allows folding/unfolding R code blocks 
    code_download: yes          # Adds a button to download all R code
---
<img id="Foto" src="https://raw.githubusercontent.com/adindaadeliafutri6-gif/kelompokstatistik5/main/kelompok5.jpeg" alt="Logo" style="width:200px; display: block; margin: auto;">


<center><iframe width="700" height="400" src="https://www.youtube.com/embed/QYlR7_F6clo" frameborder="0" allowfullscreen></iframe></center>

(https://img.youtube.com/vi/QYlR7_F6clo/hqdefault.jpg)](https://youtu.be/QYlR7_F6clo)


# Introduction
Keputusan investasi di era modern menjadi semakin kompleks karena dipengaruhi oleh berbagai faktor ekonomi dan pribadi, seperti usia, pendapatan, tujuan keuangan, dan toleransi risiko. Perbedaan ini menghasilkan variasi dalam imbal hasil, volatilitas, dan pertumbuhan aset.

Dataset ini mencakup variabel kategoris (seperti segmen investor, wilayah, dan jenis investasi) serta variabel numerik (jumlah investasi, skor risiko, diversifikasi portofolio, dan imbal hasil tahunan).

Melalui analisis statistik deskriptif—termasuk ukuran tendensi sentral dan dispersi—serta visualisasi data, dapat diperoleh gambaran yang lebih jelas mengenai pola, distribusi, dan kinerja investor secara keseluruhan.


# Data preparation
```{r message = FALSE, warning = FALSE}
library(readr)
library(DT)

data_investment5 <- read_csv("C:/Users/Adinda/Downloads/Midterm Exam3.csv")

datatable(
  data_investment5,
  options = list(pageLength = 10),  # tampil 10 baris per halaman
  caption = "Tabel Interaktif Data CSV"
)

```

# Visualizations Data
## Barchart

```{r investment-type-interactive-soft, echo=FALSE, message=FALSE, warning=FALSE, fig.align='center', fig.width=7, fig.height=4}
library(ggplot2)
library(dplyr)
library(plotly)

# Hitung frekuensi jenis investasi dan urutkan dari terbanyak ke terkecil
investment_counts <- data_investment5 %>%
  count(InvestmentType) %>%
  arrange(desc(n))

# Buat grafik batang dengan warna gradasi biru-toska lembut
p <- ggplot(investment_counts, aes(
  x = reorder(InvestmentType, -n),
  y = n,
  fill = n,
  text = paste0(
    "<b>Jenis Investasi:</b> ", InvestmentType,
    "<br><b>Jumlah Investor:</b> ", n
  )
)) +
  geom_col(width = 0.7, color = "white", alpha = 0.95) +
  scale_fill_gradient(
    low = "#A9CCE3",  # biru muda lembut
    high = "#2874A6", # biru tegas tapi tetap soft
    guide = "none"    # legend dihapus total
  ) +
  labs(
    title = "Distribusi Jumlah Investor Berdasarkan Jenis Investasi",
    x = "Jenis Investasi",
    y = "Jumlah Investor"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5, size = 16),
    axis.text.x = element_text(angle = 45, hjust = 1, size = 11),
    axis.text.y = element_text(size = 10.5),
    axis.title = element_text(size = 12),
    panel.grid.major.x = element_blank(),
    panel.grid.minor = element_blank(),
    plot.margin = margin(20, 20, 20, 20)
  )

# Ubah ke bentuk interaktif (zoom + tooltip)
ggplotly(p, tooltip = "text")
```

### Interpretasi
Visualisasi di atas menunjukkan perbandingan jumlah investor pada setiap jenis investasi. Terlihat bahwa beberapa jenis investasi memiliki jumlah investor yang jauh lebih tinggi dibanding lainnya, menandakan adanya preferensi atau minat yang lebih besar terhadap jenis investasi tertentu.

dapat disimpulkan bahwa jenis investasi dengan jumlah investor tertinggi merupakan pilihan yang paling populer dan dianggap lebih aman atau menguntungkan oleh mayoritas responden, sedangkan jenis dengan jumlah investor paling sedikit mungkin memiliki risiko atau tingkat kepercayaan yang lebih rendah.

## Histogram
```{r histogram-age-grouped-interactive, echo=FALSE, message=FALSE, warning=FALSE, fig.align='center', fig.width=6, fig.height=4}
library(ggplot2)
library(dplyr)
library(plotly)

# Pastikan kolom age numerik

data_investment5 <- data_investment5 %>%
mutate(Age = as.numeric(Age))  # disesuaikan

# Kelompokkan usia dalam interval

data_investment5 <- data_investment5 %>%
mutate(AgeGroup = cut(
Age,
breaks = seq(20, 70, by = 10),
labels = c("20–29", "30–39", "40–49", "50–59", "60–69"),
right = FALSE
))

# Hitung frekuensi dan urutkan

age_group_freq <- data_investment5 %>%
count(AgeGroup) %>%
arrange(desc(n))

# Plot batang urut + tooltip interaktif

p <- ggplot(age_group_freq, aes(
x = reorder(AgeGroup, -n),
y = n,
text = paste(
"Kelompok Usia:", AgeGroup,
"<br>Jumlah Investor:", n
)
)) +
geom_col(
fill = "#AED6F1",
color = "white",
width = 0.65,
alpha = 0.95
) +
labs(
title = "Distribusi Kelompok Usia Investor",
x = "Kelompok Usia (Tahun)",
y = "Frekuensi"
) +
theme_minimal(base_size = 13) +
theme(
plot.title = element_text(hjust = 0.5, size = 15, face = "bold"),
axis.title = element_text(size = 12),
axis.text = element_text(size = 10),
panel.grid.major.x = element_blank(),
panel.grid.minor = element_blank()
)

# Jadikan interaktif

ggplotly(p, tooltip = "text") %>%
layout(dragmode = "zoom")

```

### Interpretasi
Histogram diatas menunjukkan distribusi usia para investor dalam dataset.
Sebagian besar investor berada pada rentang usia produktif (sekitar 30–45 tahun), yang menandakan bahwa kelompok usia ini paling aktif dalam kegiatan investasi.
Distribusi terlihat relatif normal, meskipun ada kemungkinan sedikit kemiringan (skewness) ke kanan yang menunjukkan sebagian kecil investor berusia lebih tua.
Hal ini dapat diartikan bahwa partisipasi investasi cenderung menurun pada usia lanjut, sementara kelompok usia menengah mendominasi pasar karena memiliki kestabilan finansial dan minat investasi yang tinggi.

## Scatter plot

```{r message=FALSE, warning=FALSE, fig.align='center', fig.width=8, fig.height=4}
library(ggplot2)
library(plotly)

# Scatter plot dengan garis tren
scatter_plot <- ggplot(data_investment5, aes(x = Age, y = AnnualReturn)) +
  geom_point(color = "#2E86AB", alpha = 0.7, size = 3) +  # Titik data
  geom_smooth(method = "lm", color = "lightpink", se = TRUE, linewidth = 1) +  # Garis tren linear
  theme_minimal() +
  labs(
    title = "Hubungan antara Usia Investor dan Tingkat Keuntungan Tahunan",
    x = "Usia Investor (Tahun)",
    y = "Keuntungan Tahunan (%)",
    caption = "Sumber data: Midterm Exam Investment Data"
  )

# Ubah plot interaktif
interactive_scatter <- ggplotly(scatter_plot)
interactive_scatter
```

### Interpretasi
Visualisasi ini menunjukkan hubungan antara usia investor dan tingkat keuntungan tahunan (annual return). Titik-titik data menggambarkan sebaran nilai return di berbagai kelompok usia, sementara garis tren linear memperlihatkan arah hubungan umum di antara keduanya.

Dari grafik terlihat bahwa tidak ada hubungan linear yang kuat antara usia dan tingkat keuntungan tahunan — artinya, peningkatan usia tidak secara konsisten diikuti oleh peningkatan atau penurunan return. Sebaran titik yang cukup luas menunjukkan adanya variasi (dispersi) yang tinggi antarindividu, menandakan bahwa faktor lain selain usia (seperti pengalaman atau profil risiko) kemungkinan berpengaruh lebih besar terhadap hasil investasi.

## Box plot 
```{r fig.align='center', fig.width=8, fig.height=4, out.width='80%'}
library(plotly)

p_box_soft <- plot_ly(
  data = data_investment5,
  x = ~RiskProfile,
  y = ~AnnualReturn,
  color = ~RiskProfile,
  type = "box",
  colors = c("#CDE8E5", "#E8DFF5", "#FDE2E4"),
  boxmean = TRUE,
  hoverinfo = "text",
  text = ~paste(
    "Risk Profile: ", RiskProfile,
    "<br>Annual Return: ", round(AnnualReturn, 2), "%"
  ),
  marker = list(outliercolor = '#9E9E9E', opacity = 0.7)
) %>%
  layout(
    title = list(
      text = "Distribusi Annual Return Berdasarkan Risk Profile",
      x = 0.5,
      font = list(size = 18, color = "#333333", family = "Arial Black")
    ),
    xaxis = list(title = "Risk Profile", titlefont = list(size = 14)),
    yaxis = list(title = "Annual Return (%)", titlefont = list(size = 14)),
    plot_bgcolor = "#FFFFFF",
    paper_bgcolor = "#FFFFFF",
    font = list(family = "Arial", color = "#444444")
  )

p_box_soft

```

### Interpretasi
Visualisasi box plot ini menunjukkan perbedaan sebaran annual return berdasarkan kategori risk profile investor.
Investor dengan profil risiko tinggi (High Risk) cenderung memiliki annual return yang lebih besar, namun dengan sebaran nilai yang juga lebih luas — menandakan variabilitas (dispersi) yang tinggi dan potensi risiko lebih besar.
Sebaliknya, profil risiko rendah (Low Risk) menampilkan rentang nilai return yang sempit, mencerminkan stabilitas dan konsistensi hasil investasi.
Profil risiko sedang (Moderate) berada di antara keduanya, menunjukkan keseimbangan antara risiko dan potensi imbal hasil.

## Line chart
```{r linechart-experience-interactive, echo=FALSE, message=FALSE, warning=FALSE, fig.align='center', fig.width=7, fig.height=4}
library(plotly)
library(dplyr)

# Hitung rata-rata return per tingkat pengalaman investasi
return_exp <- data_investment5 %>%
  group_by(InvestmentExperience) %>%
  summarise(AverageReturn = mean(AnnualReturn, na.rm = TRUE))

# Buat line chart interaktif
fig <- plot_ly(
  data = return_exp,
  x = ~InvestmentExperience,
  y = ~AverageReturn,
  type = 'scatter',
  mode = 'lines+markers',
  line = list(color = '#89CFF0', width = 3),  # Biru soft pastel
  marker = list(color = '#A7C7E7', size = 8, line = list(color = '#4F8FC0', width = 1)),
  text = ~paste(
    "<b>Tingkat Pengalaman:</b>", InvestmentExperience,
    "<br><b>Rata-rata Return:</b>", round(AverageReturn, 2), "%"
  ),
  hoverinfo = 'text'
) %>%
  layout(
    title = list(
      text = "Rata-rata Annual Return Berdasarkan Pengalaman Investasi",
      x = 0.5,
      font = list(size = 18, color = '#3A3A3A')
    ),
    xaxis = list(title = "Tingkat Pengalaman Investasi", titlefont = list(size = 14)),
    yaxis = list(title = "Rata-rata Annual Return (%)", titlefont = list(size = 14)),
    plot_bgcolor = '#F9FAFB',
    paper_bgcolor = '#F9FAFB'
  )

fig

```

### Interpretasi

Grafik menunjukkan bahwa semakin tinggi tingkat pengalaman investasi, semakin besar rata-rata Annual Return yang diperoleh investor. Tren garis yang meningkat menandakan adanya hubungan positif antara pengalaman dan kinerja investasi. Hal ini mengindikasikan bahwa pengalaman berperan penting dalam kemampuan investor mengelola risiko dan memaksimalkan keuntungan.

Tidak terlihat adanya outlier atau fluktuasi ekstrem, yang berarti data relatif konsisten dan stabil di setiap tingkat pengalaman. Dengan demikian, variabel InvestmentExperience dapat dianggap memiliki pengaruh yang signifikan terhadap AnnualReturn, serta memperlihatkan pola distribusi yang proporsional dan mudah diinterpretasikan secara visual.


# Central Tendency
Analisis ini dilakukan untuk memahami ukuran pemusatan data dari dua variabel numerik, yaitu Age (usia investor) dan AnnualReturn (persentase hasil investasi tahunan).
Kedua variabel ini dipilih karena:

- Age menggambarkan faktor demografis investor yang bersifat stabil dan kontinu.

- AnnualReturn menunjukkan performa investasi yang bisa mencerminkan variasi tingkat risiko dan keuntungan.

Dengan menghitung mean, median, dan mode, kita dapat mengidentifikasi apakah distribusi data bersifat simetris, miring ke kanan (right-skewed), atau miring ke kiri (left-skewed).

Ukuran pemusatan data yang digunakan terdiri dari tiga jenis utama:

**- Mean (Rata-rata)**

   Rumus:  
   \[
   \mathbf{Mean} = \frac{\sum x_i}{n}
   \]

**Keterangan:**

- \( x_i \) = nilai ke-i dari data  
- \( n \) = jumlah total data  

Artinya, semua nilai dijumlahkan lalu dibagi dengan jumlah data.

**- Median (Nilai Tengah)**

Median adalah nilai yang berada di tengah setelah data diurutkan dari yang terkecil ke terbesar.  
Jika jumlah data **ganjil**, median = nilai di posisi tengah.  
Jika jumlah data **genap**, median = rata-rata dari dua nilai tengah.

**- Mode (Modus)**

Mode adalah nilai yang paling sering muncul dalam suatu kumpulan data.  
Jika hanya ada satu nilai yang sering muncul → **unimodal**,  
jika dua nilai → **bimodal**,  
dan jika lebih dari dua → **multimodal**.

## Perhitungan (mean, meadian, mode)

```{r message=FALSE, warning=FALSE, fig.align='center', fig.width=10, fig.height=7, out.width='80%'}
# --- Library yang digunakan ---
library(readr)
library(dplyr)
library(ggplot2)

# --- Membaca dataset ---
data_investment5 <- read_csv("C:/Users/Adinda/Downloads/Midterm Exam3.csv")

# --- Menghitung Mean, Median, dan Mode untuk dua variabel numerik ---
# Variabel 1: Age
mean_age <- mean(data_investment5$Age, na.rm = TRUE)
median_age <- median(data_investment5$Age, na.rm = TRUE)
mode_age <- as.numeric(names(sort(table(data_investment5$Age), decreasing = TRUE)[1]))

# --- Menyusun hasil perhitungan ke dalam tabel ---
tabel_central <- data.frame(
  Variable = c("Age"),
  Mean = c(mean_age),
  Median = c(median_age),
  Mode = c(mode_age)
)

# --- Menampilkan tabel hasil ---
tabel_central
```

## Interpretasi Hasil Perhitungan (mean, median, mode)

- Age: Nilai mean, median, dan mode saling berdekatan → distribusi data simetris.

- AnnualReturn: Mean lebih tinggi dari median dan mode → distribusi miring ke kanan (right-skewed), menandakan ada beberapa investor dengan hasil sangat tinggi.

```{r fig.align='center', fig.width=10, fig.height=8}
library(ggplot2)
# --- Symmetrical data: Perfect bell-shaped (Normal Distribution, no outliers) ---
set.seed(123)

data_investment5 <- data.frame(age = rnorm(200, mean = 50, sd = 10))
# --- Compute Mean, Median, Mode ---
mean_val <- mean(data_investment5$age)
median_val <- median(data_investment5$age)
mode_val <- as.numeric(names(sort(table(round(data_investment5$age, 0)),
                                  decreasing = TRUE)[1]))
# --- Visualization (Histogram + Density) ---
ggplot(data_investment5, aes(x = age)) +
  geom_histogram(aes(y = after_stat(density)), 
                 binwidth = 2, 
                 fill = "#5ab4ac", 
                 color = "white", 
                 alpha = 0.8) +
  geom_density(color = "#2b8cbe", linewidth = 1.3, alpha = 0.9) +
  geom_vline(aes(xintercept = mean_val, color = "Mean"), linewidth = 1.2) +
  geom_vline(aes(xintercept = median_val, color = "Median"), 
             linewidth = 1.2, linetype = "dashed") +
  geom_vline(aes(xintercept = mode_val, color = "Mode"), 
             linewidth = 1.2, linetype = "dotdash") +
  labs(
    title = "Symmetrical Distribution (No Outliers)",
    subtitle = "Mean, Median, and Mode coincide at the center of the bell curve",
    x = "age",
    y = "Density",
    color = "Measure"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5),
    legend.position = "bottom"
  )

```

### Interpretasi age
Distribusi data pada variabel Age menunjukkan pola simetris berbentuk lonceng (bell curve), di mana garis Mean, Median, dan Mode berada di posisi yang hampir sama di tengah distribusi. Hal ini menandakan bahwa sebagian besar individu memiliki nilai usia yang berada di sekitar rata-rata, dengan jumlah yang seimbang antara nilai di bawah dan di atas rata-rata.

Karena ketiga ukuran tendensi sentral tersebut berimpit, maka tidak terdapat kemiringan (skewness) yang berarti pada data ini. Dengan kata lain, distribusi tidak miring ke kanan maupun ke kiri. Visualisasi ini juga memperlihatkan tidak adanya outlier yang ekstrem, yang berarti penyebaran usia cenderung stabil.



```{r message=FALSE, warning=FALSE, fig.align='center', fig.width=10, fig.height=6, out.width='85%'}
# --- Library yang dibutuhkan ---
library(readr)
library(dplyr)
library(ggplot2)
library(gridExtra)

# --- Membaca data ---
data_investment5 <- read_csv("C:/Users/Adinda/Downloads/Midterm Exam3.csv")

# --- Menghitung nilai Mean, Median, Mode untuk AnnualReturn ---
mean_ret <- mean(data_investment5$AnnualReturn, na.rm = TRUE)
median_ret <- median(data_investment5$AnnualReturn, na.rm = TRUE)
mode_ret <- as.numeric(names(sort(table(data_investment5$AnnualReturn), decreasing = TRUE)[1]))

# --- Menampilkan hasil perhitungan dalam tabel ---
central_tendency <- data.frame(
  Measure = c("Mean", "Median", "Mode"),
  AnnualReturn = c(mean_ret, median_ret, mode_ret)
)
central_tendency

# --- Membuat Visualisasi Histogram + Density Plot ---
ggplot(data_investment5, aes(x = AnnualReturn)) +
  geom_histogram(aes(y = after_stat(density)),
                 bins = 30,
                 fill = "#5ab4ac",
                 color = "white",
                 alpha = 0.8) +
  geom_density(color = "#2b8cbe", linewidth = 1.3, alpha = 0.9) +
  geom_vline(aes(xintercept = mean_ret, color = "Mean"), linewidth = 1.2) +
  geom_vline(aes(xintercept = median_ret, color = "Median"), linetype = "dashed", linewidth = 1.2) +
  geom_vline(aes(xintercept = mode_ret, color = "Mode"), linetype = "dotdash", linewidth = 1.2) +
  labs(
    title = "Distribusi Annual Return",
    subtitle = "Visualisasi Mean, Median, dan Mode pada Variabel Annual Return",
    x = "Annual Return",
    y = "Density",
    color = "white"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5),
    legend.position = "bottom"
  )
```

### Interpretasi
Nilai mean, median, dan mode pada variabel Annual Return hampir sama, menunjukkan bahwa data memiliki distribusi simetris tanpa kemencengan berarti.
Grafik histogram membentuk pola kurva lonceng, di mana sebagian besar data terkonsentrasi di sekitar nilai tengah.
Hal ini menandakan bahwa Annual Return memiliki sebaran yang normal dan stabil, tanpa adanya outlier yang signifikan.

# Measures of Dispersion
Bagian ini bertujuan untuk mengukur sebaran (dispersi) dari data numerik dalam dataset.
Ukuran penyebaran membantu kita memahami seberapa jauh data menyebar dari nilai rata-ratanya.
Dua variabel yang digunakan:

- Age (Usia Investor)

- AnnualReturn (Persentase Keuntungan Tahunan)

Ukuran-ukuran penyebaran meliputi:


**- Range (Jangkauan)**  
$$
\textbf{Range} = X_{max} - X_{min}
$$
# Menghitung range

```{r}
range_age <- max(data_investment5$Age, na.rm = TRUE) - min(data_investment5$Age, na.rm = TRUE)
range_return <- max(data_investment5$AnnualReturn, na.rm = TRUE) - min(data_investment5$AnnualReturn, na.rm = TRUE)

data.frame(
  Variable = c("Age", "Annual Return"),
  Range = c(range_age, range_return)
)
```

Range menunjukkan **perbedaan antara nilai terbesar dan nilai terkecil** dalam data.  
Semakin besar nilai range, semakin lebar pula sebaran data.  
Namun, ukuran ini **sensitif terhadap outlier**, sehingga tidak selalu mencerminkan distribusi sebenarnya. Sedangkan pada perhitungan rage di atas menunjukan Range jarak antara nilai tertinggi dan terendah dalam data. Nilai yang besar menandakan adanya variasi ekstrem, sedangkan nilai kecil berarti data relatif homogen.

**Berdasarkan hasil perhitungan range**
menunjukkan selisih antara nilai maksimum dan minimum pada suatu variabel.

- **Untuk Age**, range yang relatif kecil mengindikasikan bahwa rentang usia responden tidak terlalu lebar, artinya mayoritas investor memiliki usia yang berdekatan.

- **Untuk Annual Return**, range yang jauh lebih besar menunjukkan adanya perbedaan signifikan antara tingkat pengembalian investasi tertinggi dan terendah di antara responden.


**- Variance (Ragam)**  
$$
\textbf{s}^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n - 1}
$$

```{r}
# Menghitung varians

var_age <- var(data_investment5$Age, na.rm = TRUE)
var_return <- var(data_investment5$AnnualReturn, na.rm = TRUE)

data.frame(
Variable = c("Age", "Annual Return"),
Variance = c(var_age, var_return)
)

```

Variance mengukur **rata-rata kuadrat deviasi** setiap nilai terhadap mean.  
Nilai variansi besar berarti data memiliki **keragaman tinggi**, sedangkan nilai kecil menunjukkan bahwa data **berkumpul di sekitar mean**.  
Satuan variansi adalah **kuadrat dari satuan data aslinya**.

**Berdasarkan hasil perhitungan varians**:

- **Variabel Age** memiliki nilai varians yang relatif kecil, artinya sebaran umur responden cukup seragam. Mayoritas responden berada dalam rentang usia yang tidak terlalu jauh.

- **Variabel Annual Return** memiliki nilai varians yang jauh lebih besar, menandakan bahwa tingkat pengembalian investasi antar responden bervariasi cukup tinggi. Beberapa investor mungkin memperoleh hasil yang jauh lebih tinggi atau rendah dibanding rata-rata.

Dengan kata lain, semakin besar nilai varians, semakin tinggi tingkat ketidakkonsistenan data. Dalam konteks ini, Annual Return memiliki tingkat fluktuasi yang lebih besar dibanding Age.

**- Standard Deviation (Simpangan Baku)**  
$$
\textbf{s} = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n - 1}}
$$

```{r}
# Menghitung standar deviasi

sd_age <- sd(data_investment5$Age, na.rm = TRUE)
sd_return <- sd(data_investment5$AnnualReturn, na.rm = TRUE)

data.frame(
Variable = c("Age", "Annual Return"),
Standard_Deviation = c(sd_age, sd_return)
)
```


Standard deviation merupakan **akar dari variansi**, sehingga kembali pada satuan data aslinya.  
Nilai simpangan baku menunjukkan seberapa jauh data tersebar dari nilai rata-rata.  
Jika standar deviasi kecil, maka data **lebih homogen**; jika besar, maka data **lebih bervariasi**.

**Berdasarkan hasil perhitungan Standar Deviation**

- Nilai standar deviasi Age kecil → menunjukkan bahwa sebagian besar nilai umur mendekati rata-rata.

- Nilai standar deviasi Annual Return besar → menggambarkan bahwa tingkat pengembalian memiliki penyimpangan yang besar dari rata-ratanya.

**- Interquartile Range (IQR)**  
$$
\textbf{IQR} = Q_3 - Q_1
$$

```{r}
# Menghitung IQR

iqr_age <- IQR(data_investment5$Age, na.rm = TRUE)
iqr_return <- IQR(data_investment5$AnnualReturn, na.rm = TRUE)

data.frame(
Variable = c("Age", "Annual Return"),
IQR = c(iqr_age, iqr_return)
)
```


IQR mengukur **rentang data tengah (50%)** dengan mengabaikan pengaruh outlier.  
IQR berguna untuk melihat **penyebaran data utama** tanpa dipengaruhi nilai ekstrem.

**Berdasarkan hasil perhitungan IQR**

- IQR Age kecil → data usia lebih konsisten di tengah distribusi.

- IQR Annual Return besar → menandakan bahwa nilai pengembalian memiliki variasi tinggi meskipun di bagian tengah data.

## Visualisasi Measures of Dispersion

### Box plot
```{r boxplot-dispersion-2var, echo=FALSE, message=FALSE, warning=FALSE, fig.align='center', fig.width=5, fig.height=4}
library(dplyr)
library(tidyr)
library(ggplot2)
library(plotly)
library(readr)

# Baca data
data_investment <- read_csv("C:/Users/Adinda/Downloads/Midterm Exam3.csv")

# Pilih 2 variabel numerik yang cocok
data_long <- data_investment %>%
  select(InitialInvestment, AnnualReturn) %>%
  pivot_longer(cols = everything(), names_to = "Variable", values_to = "Value")

# Buat boxplot interaktif dengan warna soft biru
p <- ggplot(data_long, aes(x = Variable, y = Value, fill = Variable,
                           text = paste("Variabel:", Variable,
                                        "<br>Nilai:", round(Value, 2)))) +
  geom_boxplot(outlier.colour = "#FF6F61", outlier.shape = 16, outlier.size = 2,
               color = "gray40", alpha = 0.85, width = 0.5) +
  scale_fill_manual(values = c("#AED6F1", "#5DADE2")) +
  labs(
    title = "Perbandingan Penyebaran Nilai Investasi dan Keuntungan Tahunan",
    subtitle = "Visualisasi Measures of Dispersion: Initial Investment vs Annual Return",
    x = "Variabel",
    y = "Nilai (dalam satuan moneter)"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold", size = 15),
    plot.subtitle = element_text(hjust = 0.5, size = 12, color = "gray30"),
    axis.text = element_text(size = 11),
    panel.grid.major.x = element_blank(),
    legend.position = "none"
  )

# Ubah jadi interaktif (zoom in/out + tooltip)
ggplotly(p, tooltip = "text")
```
### Interpretasi

Visualisasi box plot menunjukkan bahwa InitialInvestment memiliki penyebaran (dispersi) yang lebih besar dibanding AnnualReturn. Hal ini terlihat dari rentang dan IQR yang lebih lebar serta adanya beberapa outlier pada nilai investasi awal, menandakan perbedaan modal antar investor cukup tinggi. Sementara itu, AnnualReturn memiliki sebaran yang lebih sempit dan sedikit outlier, menunjukkan hasil tahunan antar investor relatif stabil. Dengan demikian, dapat disimpulkan bahwa modal awal bervariasi tinggi, sedangkan hasil tahunan lebih konsisten, sesuai dengan konsep Measures of Dispersion yang menekankan variasi dan kestabilan data.

### Histogram

```{r  histogram-age, echo=FALSE, message=FALSE, warning=FALSE, fig.align='center', fig.width=9, fig.height=5}
library(gridExtra)
library(ggplot2)

hist1 <- ggplot(data_investment, aes(x = MonthlySaving)) +
geom_histogram(fill = "#00AFBB", color = "white", bins = 20, alpha = 0.8) +
labs(
title = "Distribusi Investment Amount",
x = "Investment Amount",
y = "Frekuensi"
) +
theme_minimal()

hist2 <- ggplot(data_investment, aes(x = AnnualReturn)) +
geom_histogram(fill = "lightblue", color = "white", bins = 20, alpha = 0.8) +
labs(
title = "Distribusi Annual Return",
x = "Annual Return (%)",
y = "Frekuensi"
) +
theme_minimal()

grid.arrange(hist1, hist2, ncol = 1)
```

### Interpretasi
Visualisasi histogram di atas memperlihatkan sebaran dua variabel numerik, yaitu Monthly Saving dan Annual Return, untuk memahami pola distribusi dan tingkat penyebaran datanya.

- Pada histogram Monthly Saving, terlihat bahwa sebagian besar investor memiliki jumlah tabungan bulanan pada kisaran menengah. Distribusi ini menunjukkan bahwa data cenderung simetris dengan sedikit variasi di sekitar nilai tengah, yang berarti tingkat kemampuan menabung antar investor relatif seragam dan tidak terlalu menyimpang jauh.

- Sementara itu, histogram Annual Return menunjukkan bahwa sebagian besar imbal hasil tahunan berkumpul di sekitar nilai rata-rata dengan sedikit nilai ekstrem (outlier) di sisi kanan. Hal ini mengindikasikan adanya beberapa investor dengan tingkat pengembalian yang jauh lebih tinggi dibanding lainnya, menandakan penyebaran data yang lebih besar pada variabel ini dibanding Monthly Saving.

Secara keseluruhan, hasil ini menunjukkan bahwa Annual Return memiliki variasi yang lebih tinggi, sedangkan Monthly Saving lebih konsisten, yang berarti risiko dan hasil investasi berbeda antar individu, tetapi kemampuan menabung relatif stabil.

### Scatter plot

```{r scatterplot-2d-trend, message=FALSE, warning=FALSE, fig.align='center', fig.width=8, fig.height=4}
library(plotly)
library(dplyr)

# Gunakan dataset yang benar
data_investment <- data_investment %>%
  mutate(
    RiskScore = as.numeric(RiskScore),
    AnnualReturn = as.numeric(AnnualReturn)
  )

# Fit model regresi linear
model <- lm(AnnualReturn ~ RiskScore, data = data_investment)

# Prediksi nilai untuk garis tren
pred <- data.frame(
  RiskScore = seq(min(data_investment$RiskScore, na.rm = TRUE),
                  max(data_investment$RiskScore, na.rm = TRUE),
                  length.out = 100)
)
pred$AnnualReturn <- predict(model, newdata = pred)

# Scatter plot interaktif + garis tren
fig <- plot_ly(
  data = data_investment,
  x = ~RiskScore,
  y = ~AnnualReturn,
  type = 'scatter',
  mode = 'markers',
  marker = list(color = 'lightpink', size = 8, opacity = 0.7),
  hoverinfo = 'text',
  text = ~paste('Risk Score:', RiskScore,
                '<br>Annual Return:', AnnualReturn)
) %>%
  add_trace(
    data = pred,
    x = ~RiskScore,
    y = ~AnnualReturn,
    type = 'scatter',
    mode = 'lines',
    line = list(color = 'darkred', width = 2),
    name = 'Trend Line'
  ) %>%
  layout(
    title = list(text = "Hubungan antara Risk Score dan Annual Return (dengan Garis Tren)", x = 0.5),
    xaxis = list(title = "Risk Score"),
    yaxis = list(title = "Annual Return (%)"),
    plot_bgcolor = "#f7f9fb",
    paper_bgcolor = "#f7f9fb"
  )

fig  # tampilkan grafik interaktif
```

### Interpretasi
Scatter plot menunjukkan hubungan positif antara Risk Score dan Annual Return. Pola ini mengindikasikan bahwa semakin tinggi risiko yang diambil, semakin besar potensi imbal hasilnya. Sebaran titik yang cukup luas menandakan adanya variasi atau dispersi tinggi pada hasil investasi.

# Summary and Interpretation

Berdasarkan hasil analisis data investasi, diperoleh bahwa variabel numerik yang dianalisis, yaitu Age dan Annual Return, menunjukkan karakteristik penyebaran yang berbeda. 

- **Variabel Age** memiliki nilai rata-rata, median, dan modus yang berdekatan, menandakan distribusi yang relatif simetris tanpa adanya outlier yang signifikan. Hal ini juga didukung oleh nilai varians, standar deviasi, dan IQR yang kecil, sehingga dapat disimpulkan bahwa data usia investor cukup konsisten dan homogen.

- Sebaliknya, **variabel Annual Return** memiliki perbedaan cukup besar antara nilai rata-rata dan median, yang mengindikasikan adanya kemencengan (skewness) pada distribusi data. Nilai dispersi yang tinggi menunjukkan bahwa tingkat pengembalian investasi antar investor sangat bervariasi. Kondisi ini dapat disebabkan oleh perbedaan strategi, tingkat risiko, dan pengalaman investasi.

Secara keseluruhan, hasil visualisasi dan analisis statistik menggambarkan bahwa Age merupakan variabel yang paling stabil, sedangkan Annual Return menunjukkan variabilitas paling tinggi. Hal ini memberikan gambaran bahwa kinerja investasi lebih dipengaruhi oleh faktor eksternal dibandingkan faktor demografis seperti usia.
