Urban Business

Midterm Exam

Logo

1 Introduction

Dalam ekonomi perkotaan yang dinamis, bisnis dipengaruhi oleh kepadatan penduduk, preferensi konsumen, teknologi, dan persaingan pasar. Memahami faktor penentu pendapatan bulanan—seperti pemasaran, harga, tenaga kerja, pengalaman manajerial, dan kepuasan pelanggan—penting untuk keputusan strategis. Kinerja bisnis berbeda antar kota dan sektor (ritel, teknologi, manufaktur, makanan & minuman), sehingga analisis deskriptif dan visualisasi data dibutuhkan untuk melihat pola pendapatan dan variasinya. Melalui analisis ini, organisasi dapat menemukan kesenjangan kinerja serta peluang untuk mengoptimalkan strategi pemasaran, harga, dan manajemen sumber daya manusia. Dari permasalah ini menggunakan tampilan visualisasi data

2 Data set

library(readr)
library(DT)

# 2️⃣ Baca file CSV dari lokasi kamu
data <- read_csv("C:/Users/Iyan/Downloads/Midterm Exam.csv")

# 3️⃣ Tampilkan tabel interaktif (10 baris per halaman)
datatable(
  data,
  options = list(pageLength = 10),  # tampil 10 baris per halaman
  caption = "Tabel Interaktif Data CSV"
)

3 Data Visualization

3.1 Bar Chart

library(ggplot2)
library(readr)
library(dplyr)
library(scales)
library(showtext)

#  Font Google agar tampilan profesional
font_add_google("Poppins", "poppins")
showtext_auto()

#  Baca data
data <- read_csv("C:/Users/Iyan/Downloads/Midterm Exam.csv")

#  Hitung rata-rata pendapatan per kota
avg_city <- data %>%
  group_by(City) %>%
  summarise(AvgRevenue = mean(MonthlyRevenue, na.rm = TRUE)) %>%
  arrange(desc(AvgRevenue))

# Bar chart 
ggplot(avg_city, aes(x = reorder(City, AvgRevenue), y = AvgRevenue, fill = AvgRevenue)) +
  geom_col(width = 0.65, show.legend = FALSE) +
  geom_text(
    aes(label = paste0("Rp ", format(round(AvgRevenue, 1), big.mark = ".", decimal.mark = ","))),
    vjust = -0.4, family = "poppins", size = 4.2, fontface = "bold", color = "black"
  ) +
  scale_fill_gradient(low = "cyan", high = "cornflowerblue") +
  scale_y_continuous(
    limits = c(0, 200),  # 🔹 Batasi sumbu Y sampai 200
    breaks = seq(0, 200, by = 25),
    labels = comma_format(big.mark = ".", decimal.mark = ",")
  ) +
  labs(
    title = "Rata-rata Pendapatan Bulanan per Kota",
    subtitle = "Visualisasi menunjukkan rata-rata kinerja bisnis di setiap kota",
    x = "Kota",
    y = "Rata-rata Pendapatan (Rp)",
    caption = "Sumber: Dataset Midterm Exam"
  ) +
  theme_minimal(base_family = "poppins") +
  theme(
    plot.title = element_text(size = 18, face = "bold", color = "#003566", hjust = 0.5),
    plot.subtitle = element_text(size = 13, color = "#555555", hjust = 0.5, margin = margin(b = 10)),
    axis.text.x = element_text(size = 12, face = "bold", color = "#003049"),
    axis.text.y = element_text(size = 11, color = "#555555"),
    axis.title.x = element_text(size = 12, face = "bold", margin = margin(t = 10)),
    axis.title.y = element_text(size = 12, face = "bold", margin = margin(r = 10)),
    panel.grid.major.x = element_blank(),
    panel.grid.minor = element_blank(),
    plot.caption = element_text(size = 9, color = "#777777", hjust = 1, margin = margin(t = 10))
  ) +
  coord_cartesian(ylim = c(0, 200))  # 🔹 Tambahan agar sumbu Y akurat dan tidak memotong data

Insight :

Kota Jakarta memiliki rata-rata pendapatan bulanan tertinggi, sementara Kota Makassar memiliki rata-rata pendapatan bulanan terendah. Namun, variasi pendapatan antarkota relatif kecil, menunjukkan distribusi pendapatan yang cukup seimbang di lima kota tersebut.

3.2 Histogram

library(readr)
library(ggplot2)
ggplot(data, aes(x = MonthlyRevenue)) +
  geom_histogram(
    bins = 20,
    fill = "darkseagreen", 
    color = "white",
    alpha = 0.85
  ) +
  labs(
    title = "Distribusi Pendapatan Bisnis (Monthly Revenue)",
    x = "Pendapatan Bulanan (Juta)",
    y = "Frekuensi"
  ) +
  theme_minimal(base_size = 13)

Insight :

Sebagian besar bisnis memiliki pendapatan bulanan sekitar 150-200 juta rupiah. Distribusi data tampak normal dan seimbang menunjukkan bahwa pendapatan bisnis relatif merata tanpa banyak nilai ekstrem.

3.3 Pie Chart

library(ggplot2)
library(readr)
library(dplyr)

# Hitung total pendapatan per jenis bisnis
data_pie <- data %>%
  group_by(BusinessType) %>%
  summarise(TotalRevenue = sum(MonthlyRevenue, na.rm = TRUE)) %>%
  mutate(Percentage = round(TotalRevenue / sum(TotalRevenue) * 100, 1))

# Buat Pie Chart
ggplot(data_pie, aes(x = "", y = TotalRevenue, fill = BusinessType)) +
  geom_bar(stat = "identity", width = 1, color = "white") +
  coord_polar("y", start = 0) +
  geom_text(aes(label = paste0(Percentage, "%")),
            position = position_stack(vjust = 0.5),
            color = "white", size = 4) +
  scale_fill_brewer(palette = "Set2") +
  labs(title = " Persentase Total Pendapatan per Jenis Bisnis",
       fill = "Jenis Bisnis") +
  theme_void() +
  theme(
    plot.title = element_text(
      hjust = 0.5, face = "bold", size = 15, color = "#2c3e50"),
    legend.position = "bottom"  # ← Tambahan ini saja untuk hilangkan legend
  )

Insight :

Persentase pendapatan per jenis bisnis relatif merata dengan perbedaan antar kategori yang kecil (sekitar 22-27%). Ini menunjukkan bahwa kontribusi tiap jenis bisnis terhadap total pendapatan cukup seimbang, tanpa satu sektor yang terlau dominan.

3.4 Scatter Plot

library(ggplot2)

# Scatter Plot
ggplot(data, aes(x = MarketingSpend, y = MonthlyRevenue)) +
  geom_point(color = "orange", alpha = 0.6) +
  geom_smooth(method = "lm", se = TRUE, color = "maroon", linetype = "dashed") +
  labs(
    title = "Marketing Spend vs Monthly Revenue",
    x = "Marketing Spend",
    y = "Monthly Revenue"
  ) +
  theme_minimal() +
  theme(panel.grid.major.y = element_line(color = "gray", linetype = "dashed"))

Insight :

Dapat disimpulkan bahwa terdapat hubungan positif antara pengeluaran pemasaran dan pendapatan bulanan. Semakin besar dana yang dialokasikan untuk kegiatan pemasaran, maka pendapatan bulanan cenderung meningkat. Hal ini terlihat dari sebaran titik data yang membentuk pola naik serta garis regresi yang memiliki kemiringan positif.

3.5 Boxplot

library(ggplot2)

# Boxplot
ggplot(data, aes(x = BusinessType, y = MonthlyRevenue, fill = BusinessType)) +
  geom_boxplot(outlier.color = "red", outlier.shape = 16) +
  labs(
    title = "Distribusi Pendapatan Bulanan per Jenis Usaha",
    x = "Business Type",
    y = "Monthly Revenue"
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(angle = 45, hjust = 1),
    legend.position = "none"
  )

Insight :

Secara umum, keempat jenis usaha memiliki tingkat pendapatan bulanan yang relatif mirip. Namun, Manufacturing dan Technology tampak memiliki median pendapatan sedikit lebih tinggi dibanding jenis usaha lainnya. Selain itu, sebaran data (rentang antar kuartil) menunjukkan bahwa variasi pendapatan cukup lebar di semua jenis usaha, menandakan adanya perbedaan performa antar perusahaan dalam tiap sektor.

4 Central Tendency

Central tendency adalah ukuran statistik yang digunakan untuk mengidentifikasi nilai tengah atau nilai yang paling representatif dalam suatu kumpulan data. Tujuannya adalah untuk memberikan gambaran tentang lokasi pusat dari distribusi data dengan satu nilai ringkasan. Tiga ukuran central tendency yang paling umum adalah mean (rata-rata, dihitung dengan menjumlahkan semua nilai lalu dibagi banyaknya data), median (nilai tengah setelah data diurutkan), dan mode (nilai yang paling sering muncul). Pemilihan ukuran mana yang paling tepat bergantung pada jenis data dan distribusinya, karena masing-masing ukuran memiliki kelebihan dan kelemahan dalam menggambarkan titik pemusatan data.

Mean (Rata-rata)

Rumus:
\[ \mathbf{Mean} = \frac{\sum x_i}{n} \]

Keterangan:

  • \(x_i\) = nilai ke-i dari data
  • \(n\) = jumlah total data

Artinya, semua nilai dijumlahkan lalu dibagi dengan jumlah data.

Median (Nilai Tengah)

Median adalah nilai yang berada di tengah setelah data diurutkan dari yang terkecil ke terbesar.
Jika jumlah data ganjil, median = nilai di posisi tengah.
Jika jumlah data genap, median = rata-rata dari dua nilai tengah.

Mode (Modus)

Mode adalah nilai yang paling sering muncul dalam suatu kumpulan data.
Jika hanya ada satu nilai yang sering muncul → unimodal,
jika dua nilai → bimodal,
dan jika lebih dari dua → multimodal.

4.1 Tabel Mean, Median, Mode

# --- Menghitung Mean, Median, Modus ---

# Fungsi untuk modus (karena R tidak punya fungsi bawaan)
get_mode <- function(x) {
  uniqx <- unique(x)
  uniqx[which.max(tabulate(match(x, uniqx)))]
}

# Mean
mean_spend <- mean(data$MarketingSpend)
mean_rev <- mean(data$MonthlyRevenue)

# Median
median_spend <- median(data$MarketingSpend)
median_rev <- median(data$MonthlyRevenue)

# Modus
mode_spend <- get_mode(data$MarketingSpend)
mode_rev <- get_mode(data$MonthlyRevenue)

# --- Menampilkan hasil dalam tabel ---
tabel_data <- data.frame(
  Variable = c("Marketing Spend", "Monthly Revenue"),
  Mean = c(mean_spend, mean_rev),
  Median = c(median_spend, median_rev),
  Mode = c(mode_spend, mode_rev)
)

# Menampilkan tabel
tabel_data

4.2 Interpretation Mean, Median, Mode

  1. Marketing Spend (Pengeluaran Pemasaran)

Mean (Rata-rata) dan Median (Nilai Tengah) = Sekitar 85. Ini adalah nilai pengeluaran yang paling umum atau normal. Mode (Nilai yang Paling Sering Muncul) = 148. Ini jauh lebih tinggi.Distribusi data ini tidak normal/tidak simetris. Ada kelompok pengeluaran yang jauh lebih sering terjadi di nilai yang tinggi (sekitar 148), meski rata-ratanya lebih rendah.

  1. Monthly Revenue (Pendapatan Bulanan)

Mean (Rata-rata), Median (Nilai Tengah), dan Mode (Nilai yang Paling Sering Muncul) = Semuanya sekitar 181 hingga 201. Nilai-nilai ini saling berdekatan. Distribusi data ini normal atau mendekati normal. Artinya, pendapatan bulanan tersebar secara simetris dan sebagian besar nilainya berada dekat rata-rata. Perbedaan Kunci Monthly Revenue memiliki pola yang teratur (seperti lonceng), sedangkan Marketing Spend memiliki pola yang tidak teratur dan sangat miring. Pada data yang normal (Revenue), Mean, Median, dan Mode mirip. Pada data yang tidak normal (Spend), Mode jauh berbeda dari Mean dan Median.

4.3 Visualization Histogram

library(ggplot2)
library(gridExtra)

# --- Fungsi untuk menghitung modus ---
get_mode <- function(x) {
  ux <- unique(x)
  ux[which.max(tabulate(match(x, ux)))]
}

# --- Fungsi membuat histogram dengan garis mean, median, mode ---
create_histogram <- function(column_data, column_name, fill_color) {
  df <- data.frame(value = column_data)
  
  mean_val <- mean(column_data, na.rm = TRUE)
  median_val <- median(column_data, na.rm = TRUE)
  mode_val <- get_mode(round(column_data, 0))
  
  ggplot(df, aes(x = value)) +
    geom_histogram(aes(y = ..density..), 
                   bins = 30, 
                   fill = fill_color, 
                   color = "white", 
                   alpha = 0.8) +
    geom_density(alpha = 0.3, fill = "gray90") +
    geom_vline(aes(xintercept = mean_val, color = "Mean"), linetype = "dashed", size = 1.2) +
    geom_vline(aes(xintercept = median_val, color = "Median"), linetype = "dotted", size = 1.2) +
    geom_vline(aes(xintercept = mode_val, color = "Mode"), linetype = "solid", size = 1.2) +
    scale_color_manual(
      name = "Keterangan Garis",
      values = c("Mean" = "red", "Median" = "green", "Mode" = "blue")
    ) +
    labs(
      title = paste("Distribusi", column_name),
      subtitle = paste("Mean:", round(mean_val, 2),
                       "| Median:", round(median_val, 2),
                       "| Mode:", round(mode_val, 2)),
      x = column_name,
      y = "Frequency"
    ) +
    theme_minimal() +
    theme(
      plot.title = element_text(face = "bold", size = 12),
      plot.subtitle = element_text(size = 9, color = "gray40"),
      legend.position = "bottom",
      panel.grid.major = element_line(color = "gray90"),
      panel.grid.minor = element_blank()
    )
}

# --- Buat dua histogram dari data yang sudah ada ---
hist1 <- create_histogram(data$MarketingSpend, "Marketing Spend", "skyblue")
hist2 <- create_histogram(data$MonthlyRevenue, "Monthly Revenue", "orange")

# --- Tampilkan berdampingan ---
grid.arrange(hist1, hist2, ncol = 2)

Insight :

  1. Marketing Spend menggambarkan besarnya biaya yang dikeluarkan untuk kegiatan pemasaran setiap bulan.
  2. Monthly Revenue menunjukkan jumlah pendapatan yang diperoleh perusahaan dalam periode yang sama. Kedua variabel ini memiliki hubungan logis semakin tinggi pengeluaran pemasaran, diharapkan pendapatan juga meningkat.

5 Measures of Dispersion

Measures of dispersion adalah serangkaian teknik statistik yang digunakan untuk mengukur sebaran atau variasi data dalam suatu dataset. Sementara measures of central tendency seperti mean dan median hanya memberikan informasi tentang nilai tengah, measures of dispersion mengungkap seberapa jauh titik data individual tersebar dari nilai pusat tersebut. Konsep ini sangat krusial dalam analisis data karena dua dataset dengan mean yang sama bisa memiliki karakteristik yang sangat berbeda - satu mungkin sangat konsisten dengan data yang mengelompok rapat, sementara lainnya memiliki variasi yang luas. Beberapa ukuran dispersi yang umum digunakan meliputi range, variance, standard deviation, dan interquartile range (IQR), yang masing-masing memberikan perspektif berbeda tentang konsistensi dan reliabilitas data yang dianalisis.

library(ggplot2)
library(dplyr)
library(tidyr)
library(gridExtra)
library(knitr)

# Memilih hanya kolom numerik untuk analisis dispersi
numeric_cols <- data %>% 
  select(where(is.numeric)) %>% 
  select(-1) # Menghapus kolom pertama (index)

# Menghitung measures of dispersion untuk setiap variabel numerik (DIBUAT TABEL)
dispersion_stats <- data.frame(
  Variable = names(numeric_cols),
  Mean = sapply(numeric_cols, mean, na.rm = TRUE),
  Median = sapply(numeric_cols, median, na.rm = TRUE),
  SD = sapply(numeric_cols, sd, na.rm = TRUE),
  Variance = sapply(numeric_cols, var, na.rm = TRUE),
  IQR = sapply(numeric_cols, IQR, na.rm = TRUE),
  Range = sapply(numeric_cols, function(x) max(x, na.rm = TRUE) - min(x, na.rm = TRUE)),
  CV = sapply(numeric_cols, function(x) sd(x, na.rm = TRUE)/mean(x, na.rm = TRUE)) # Coefficient of Variation
)

# Perbaiki fungsi histogram
discreate_histogram <- function(column_data, column_name, color) {
    df <- data.frame(value = column_data)
    
    # Hitung stats untuk annotasi (perbaiki typo)
    mean_val <- mean(column_data, na.rm = TRUE)
    sd_val <- sd(column_data, na.rm = TRUE)
    iqr_val <- IQR(column_data, na.rm = TRUE)
    
    # ... lanjutan kode plot
}

# Reset row names untuk tabel
rownames(dispersion_stats) <- NULL

# Buat tabel
kable(dispersion_stats, digits = 2, caption = "Summary Statistics untuk Variabel Numerik")
Summary Statistics untuk Variabel Numerik
Variable Mean Median SD Variance IQR Range CV
MarketingSpend 85.27 84.90 37.84 1432.17 66.12 129.90 0.44
ProductPrice 5.55 5.60 2.63 6.91 4.60 9.00 0.47
EmployeeCount 50.90 51.00 20.07 402.97 27.00 139.00 0.39
ManagerExperience 7.95 7.90 4.06 16.50 7.10 14.00 0.51
CustomerRating 80.15 80.00 8.01 64.15 11.00 49.00 0.10
MonthlyRevenue 180.83 181.18 47.25 2232.43 73.86 256.65 0.26

5.1 Histogram

# Fungsi untuk membuat histogram dengan annotasi measures of dispersion
create_histogram <- function(column_data, column_name, color) {
  df <- data.frame(value = column_data)
  
  # Menghitung stats untuk annotasi
  mean_val <- mean(column_data, na.rm = TRUE)
  sd_val <- sd(column_data, na.rm = TRUE)
  iqr_val <- IQR(column_data, na.rm = TRUE)
  cv_val <- sd_val / mean_val
  
  ggplot(df, aes(x = value)) +
    geom_histogram(aes(y = ..density..), 
                   fill = color, 
                   color = "white", 
                   alpha = 0.8, 
                   bins = 30) +
    geom_density(alpha = 0.5, fill = "darkblue") +
    geom_vline(xintercept = mean_val, color = "red", linetype = "dashed", size = 1) +
    geom_vline(xintercept = median(column_data, na.rm = TRUE), 
               color = "green", linetype = "dashed", size = 1) +
    labs(title = paste("Distribusi", column_name),
         subtitle = paste("Mean:", round(mean_val, 2), 
                         "| SD:", round(sd_val, 2),
                         "| IQR:", round(iqr_val, 2),
                         "| CV:", round(cv_val, 2)),
         x = column_name,
         y = "Density") +
    theme_minimal() +
    theme(
      plot.title = element_text(face = "bold", size = 12),
      plot.subtitle = element_text(size = 9, color = "darkgray"),
      panel.grid.major = element_line(color = "gray90"),
      panel.grid.minor = element_blank()
    )
}

# Membuat histogram untuk variabel numerik utama
histograms <- list()

# MarketingSpend
histograms[[1]] <- create_histogram(numeric_cols$MarketingSpend, "Marketing Spend", "#FF6B6B")

# ProductPrice
histograms[[2]] <- create_histogram(numeric_cols$ProductPrice, "Product Price", "#4ECDC4")

# EmployeeCount (filter nilai negatif)
employee_clean <- numeric_cols$EmployeeCount[numeric_cols$EmployeeCount >= 0]
histograms[[3]] <- create_histogram(employee_clean, "Employee Count", "#45B7D1")

# ManagerExperience
histograms[[4]] <- create_histogram(numeric_cols$ManagerExperience, "Manager Experience", "#96CEB4")

# CustomerRating
histograms[[5]] <- create_histogram(numeric_cols$CustomerRating, "Customer Rating", "#FFEAA7")

# MonthlyRevenue
histograms[[6]] <- create_histogram(numeric_cols$MonthlyRevenue, "Monthly Revenue", "#DDA0DD")

# Menggabungkan semua histogram
grid.arrange(grobs = histograms, ncol = 2, 
             top = "Analisis Distribusi dan Measures of Dispersion")

Insight :

Berdasarkan analisis histogram untuk setiap variabel, berikut insight ringkasnya :

  1. City · Data tersebar merata di 5 kota (Jakarta, Surabaya, Bandung, Medan, Makassar). · Tidak ada dominasi kota tertentu, menunjukkan representasi yang seimbang.

  2. BusinessType · “Food & Beverage” adalah tipe bisnis paling umum. · Diikuti oleh Retail, Technology, dan Manufacturing.

  3. SalesChannel · Distribusi hampir seimbang antara Online dan Offline. · Tren penjualan hybrid (daring & luring) tercermin dalam data.

  4. MarketingSpend · Sebagian besar berada di rentang menengah (≈50–120). · Ada beberapa outlier dengan anggaran sangat tinggi atau rendah.

  5. ProductPrice · Harga produk terkonsentrasi di rentang rendah hingga menengah (≈2–8). · Beberapa produk memiliki harga premium (>9).

  6. EmployeeCount · Mayoritas perusahaan memiliki 30–70 karyawan. · Beberapa outlier dengan jumlah karyawan ekstrem (sangat sedikit atau sangat banyak).

  7. ManagerExperience · Pengalaman manajer tersebar luas, dari pemula (<2 tahun) hingga sangat berpengalaman (>12 tahun). · Distribusi cenderung normal dengan sedikit condong ke pengalaman menengah.

  8. CustomerRating · Rating pelanggan umumnya tinggi (70–90). · Distribusi miring ke kiri, menunjukkan kepuasan pelanggan yang baik secara keseluruhan.

  9. MonthlyRevenue · Pendapatan bulanan beragam, dengan puncak di rentang ≈150–250. · Sebagian bisnis memiliki pendapatan sangat tinggi (>300), menunjukkan adanya performa unggulan.

Kesimpulan Umum: Data menunjukkan keragaman bisnis dengan performa yang variatif. F&B dominan, kepuasan pelanggan umumnya baik, dan pendapatan cenderung terkonsentrasi di rentang menengah.

5.2 Scatter Plot

df <- read.csv("C:/Users/Iyan/Downloads/Midterm Exam.csv")

library(ggplot2)

# scatterlot
ggplot(data = df, 
       aes(x = MarketingSpend, y = MonthlyRevenue)) +
  
  # Menambahkan titik-titik
  geom_point(alpha = 0.6, color = "darkseagreen3") +
  
  # Menambahkan garis tren linear (regresi)
  geom_smooth(method = "lm", se = FALSE, color = "darkolivegreen", linetype = "dashed") +
  
  # Menambahkan Judul dan Label
  labs(title = "Hubungan antara Pengeluaran Pemasaran dan Pendapatan Bulanan",
       x = "Pengeluaran Pemasaran (MarketingSpend)",
       y = "Pendapatan Bulanan (MonthlyRevenue)") +
  
  # Mengatur Tema Plot
  theme_minimal() + 
  
  # Menyesuaikan tampilan judul
  theme(plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
        axis.title = element_text(size = 12))

Insight :

Scatter plot tersebut menunjukkan adanya hubungan positif yang jelas antara pengeluaran Pemasaran dan Pendapatan Bulanan. Garis tren regresi linear akan miring ke atas. Hal ini mengindikasikan bahwa semakin tinggi dana yang dihabiskan untuk (MarketingSpend), cenderung semakin tinggi pula (MonthlyRevenue) yang dihasilkan. Visualisasi ini secara keseluruhan mendukung hipotesis bahwa investasi yang lebih besar dalam pemasaran merupakan faktor yang signifikan dalam mendorong pertumbuhan pendapatan bulanan. Namun, adanya dispersi menunjukkan bahwa efektivitas pemasaran tidak 100% dijamin dan dipengaruhi oleh faktor-faktor lain seperti kualitas produk atau harga.

5.3 Box Plot

library(gridExtra)
# Pilih dua variabel numerik untuk analisis (ubah sesuai dataset kamu)
num_var1 <- data$MarketingSpend   # <-- ubah sesuai nama kolom dataset kamu
num_var2 <- data$MonthlyRevenue # <-- ubah sesuai nama kolom dataset kamu

# Boxplot (Visualisasi utama untuk dispersion)
boxplot1 <- ggplot(data, aes(y = num_var1)) +
  geom_boxplot(fill = "cyan", color = "darkblue") +
  labs(title = "Marketing Spend", y = "Frequency") +
  theme_minimal()# Boxplot (Visualisasi utama untuk dispersion)

# Boxplot (Visualisasi utama untuk dispersion)
boxplot2 <- ggplot(data, aes(y = num_var2)) +
  geom_boxplot(fill = "cyan", color = "darkblue") +
  labs(title = "Monthly Revenue", y = "Frequency") +
  theme_minimal()

grid.arrange(boxplot1, boxplot2, ncol = 2)

Insight:

Boxplot menampilkan distribusi dua variabel: Marketing Spend dan Monthly Revenue. Warna cyan menunjukkan rentang Q1–Q3, garis hitam median, dan whisker batas nilai wajar.

  • Marketing Spend Median sekitar 80–85, rentang data sempit → pengeluaran stabil tanpa outlier. Kesimpulan: Pengeluaran pemasaran relatif konsisten.

  • Monthly Revenue Median 180–200, variasi lebih besar, cenderung miring ke bawah. Kesimpulan: Pendapatan bulanan lebih fluktuatif.

  • Hubungan Marketing spend stabil, revenue lebih bervariasi. Analisis lanjut dapat dilakukan dengan korelasi atau scatterplot untuk melihat hubungan keduanya.

5.4 Interpretation

  • Histogram -> terlihat bahwa Marketing Spend memiliki sebaran data yang paling lebar dibandingkan variabel lainnya. Sementara itu, Monthly Revenue menyebar mengikuti pola tertentu. Variabel dengan variabilitas besar yaitu Marketing Spend karena batangnya menyebar paling lebar menandakan nilai sangat bervariasi.

  • Scatterplot -> Titik titik data menyebar cukup luas dan tidak membentuk garis yang rapat. Ini menunjukkan adanya variasi besar antara pengeluaran pemasaran dan pendapatan yang didapat, Variabilitas terbesar terlihat di Monthly Revenue karena sebaran titik di sumbu-X nya paling luas.

  • Boxplot -> Kotak(IQR) Marketing Spend tampak paling panjang dan memiliki beberapa outlier yang berarti data lebih bervariasi dan tidak seragam. Variabel Monthly Revenue menunjukkan penyebaran sedang. Dengan demikian, Marketing Spend menunjukkan variabilitas terbesar karena nilai-nilainya tesebar jauh dari rata-rata dan memiliki rentang yang luas.

6 Summary and Interpretation

Berdasarkan analisis data, dapat disimpulkan bahwa pendapatan bulanan suatu bisnis dipengaruhi oleh beberapa faktor utama, seperti pengeluaran pemasaran, pengalaman manager dan penilaian pelanggan. Berikut kesimpulan dan penjelasannya :

  • Variabel yang paling konsisten (Dispersi Rendah) : Customer Rating, karena nilainya dalam jumlah kecil yang saling berdekatan maka penyebarannya cenderung rendah. Penilaian pelanggan di berbagai kota dan jenis bisnis relatif stabil yang berarti kepuasan pelanggan tidak terlalu berbeda jauh antar wilayah.

  • Variabel dengan Variasi terbesar (Dispersi Tinggi) : Monthly Revenue dan Marketing Spend, karena kedua variabel tersebut menunjukkan perbedaan besar antar bisnis. Beberapa bisnis mungkin sangat agresif dalam pemasaran dan menghasilkan pendapatan tinggi, sementara yang lain beroperasi dengan sumber daya terbatas.

  • Pola atau Wawasan dari visualisasi :

  1. Pengeluaran pemasaran mendorong kenaikan pendapatan.
  2. Pengalaman manager berhubungan dengan kepuasan pelanggan.
  3. Perbedaan pendapatan muncul berdasarkan kota dan jenis bisnis.
---
title: "Urban Business"
subtitle: "Midterm Exam"
author:
-   "Kelompok 3"
-   "Frizzy Lithmentsyah"
-   "Angelica Florentina M"
-   "Adam Richie Wijaya"
-   "Andre"
-   "Muhammad Nabil Khairil Anam"
-   "Chandra Rizal ALamsyah"

date: "`r format(Sys.Date(), '%B %d, %Y')`"
output:
  rmdformats::readthedown:
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    number_sections: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes
---

<img id="Foto" src="https://raw.githubusercontent.com/angeliiee/Kelompok3/main/fotokelompok.jpg" alt="Logo" style="width:200px; display: block; margin: auto;">


```{r, echo=FALSE}
knitr::include_url("https://www.youtube.com/embed/nibgmZJhFjc")
```




#  Introduction

 Dalam ekonomi perkotaan yang dinamis, bisnis dipengaruhi oleh kepadatan penduduk, preferensi konsumen, teknologi, dan persaingan pasar. Memahami faktor penentu pendapatan bulanan—seperti pemasaran, harga, tenaga kerja, pengalaman manajerial, dan kepuasan pelanggan—penting untuk keputusan strategis.
Kinerja bisnis berbeda antar kota dan sektor (ritel, teknologi, manufaktur, makanan & minuman), sehingga analisis deskriptif dan visualisasi data dibutuhkan untuk melihat pola pendapatan dan variasinya. Melalui analisis ini, organisasi dapat menemukan kesenjangan kinerja serta peluang untuk mengoptimalkan strategi pemasaran, harga, dan manajemen sumber daya manusia.
Dari permasalah ini menggunakan tampilan visualisasi data

#  Data set
```{r, message=FALSE, warning=FALSE}
library(readr)
library(DT)

# 2️⃣ Baca file CSV dari lokasi kamu
data <- read_csv("C:/Users/Iyan/Downloads/Midterm Exam.csv")

# 3️⃣ Tampilkan tabel interaktif (10 baris per halaman)
datatable(
  data,
  options = list(pageLength = 10),  # tampil 10 baris per halaman
  caption = "Tabel Interaktif Data CSV"
)
```
# Data Visualization
## Bar Chart

```{r, message=FALSE, warning=FALSE}
library(ggplot2)
library(readr)
library(dplyr)
library(scales)
library(showtext)

#  Font Google agar tampilan profesional
font_add_google("Poppins", "poppins")
showtext_auto()

#  Baca data
data <- read_csv("C:/Users/Iyan/Downloads/Midterm Exam.csv")

#  Hitung rata-rata pendapatan per kota
avg_city <- data %>%
  group_by(City) %>%
  summarise(AvgRevenue = mean(MonthlyRevenue, na.rm = TRUE)) %>%
  arrange(desc(AvgRevenue))

# Bar chart 
ggplot(avg_city, aes(x = reorder(City, AvgRevenue), y = AvgRevenue, fill = AvgRevenue)) +
  geom_col(width = 0.65, show.legend = FALSE) +
  geom_text(
    aes(label = paste0("Rp ", format(round(AvgRevenue, 1), big.mark = ".", decimal.mark = ","))),
    vjust = -0.4, family = "poppins", size = 4.2, fontface = "bold", color = "black"
  ) +
  scale_fill_gradient(low = "cyan", high = "cornflowerblue") +
  scale_y_continuous(
    limits = c(0, 200),  # 🔹 Batasi sumbu Y sampai 200
    breaks = seq(0, 200, by = 25),
    labels = comma_format(big.mark = ".", decimal.mark = ",")
  ) +
  labs(
    title = "Rata-rata Pendapatan Bulanan per Kota",
    subtitle = "Visualisasi menunjukkan rata-rata kinerja bisnis di setiap kota",
    x = "Kota",
    y = "Rata-rata Pendapatan (Rp)",
    caption = "Sumber: Dataset Midterm Exam"
  ) +
  theme_minimal(base_family = "poppins") +
  theme(
    plot.title = element_text(size = 18, face = "bold", color = "#003566", hjust = 0.5),
    plot.subtitle = element_text(size = 13, color = "#555555", hjust = 0.5, margin = margin(b = 10)),
    axis.text.x = element_text(size = 12, face = "bold", color = "#003049"),
    axis.text.y = element_text(size = 11, color = "#555555"),
    axis.title.x = element_text(size = 12, face = "bold", margin = margin(t = 10)),
    axis.title.y = element_text(size = 12, face = "bold", margin = margin(r = 10)),
    panel.grid.major.x = element_blank(),
    panel.grid.minor = element_blank(),
    plot.caption = element_text(size = 9, color = "#777777", hjust = 1, margin = margin(t = 10))
  ) +
  coord_cartesian(ylim = c(0, 200))  # 🔹 Tambahan agar sumbu Y akurat dan tidak memotong data
```

Insight :

Kota Jakarta memiliki rata-rata pendapatan bulanan tertinggi, sementara Kota Makassar memiliki rata-rata pendapatan bulanan terendah. Namun, variasi pendapatan antarkota relatif kecil, menunjukkan distribusi pendapatan yang cukup seimbang di lima kota tersebut.


## Histogram

```{r}
library(readr)
library(ggplot2)
ggplot(data, aes(x = MonthlyRevenue)) +
  geom_histogram(
    bins = 20,
    fill = "darkseagreen", 
    color = "white",
    alpha = 0.85
  ) +
  labs(
    title = "Distribusi Pendapatan Bisnis (Monthly Revenue)",
    x = "Pendapatan Bulanan (Juta)",
    y = "Frekuensi"
  ) +
  theme_minimal(base_size = 13)

```

Insight :

Sebagian besar bisnis memiliki pendapatan bulanan sekitar 150-200 juta rupiah. Distribusi data tampak normal dan seimbang menunjukkan bahwa pendapatan bisnis relatif merata tanpa banyak nilai ekstrem.

## Pie Chart

```{r, message=FALSE, warning=FALSE}
library(ggplot2)
library(readr)
library(dplyr)

# Hitung total pendapatan per jenis bisnis
data_pie <- data %>%
  group_by(BusinessType) %>%
  summarise(TotalRevenue = sum(MonthlyRevenue, na.rm = TRUE)) %>%
  mutate(Percentage = round(TotalRevenue / sum(TotalRevenue) * 100, 1))

# Buat Pie Chart
ggplot(data_pie, aes(x = "", y = TotalRevenue, fill = BusinessType)) +
  geom_bar(stat = "identity", width = 1, color = "white") +
  coord_polar("y", start = 0) +
  geom_text(aes(label = paste0(Percentage, "%")),
            position = position_stack(vjust = 0.5),
            color = "white", size = 4) +
  scale_fill_brewer(palette = "Set2") +
  labs(title = " Persentase Total Pendapatan per Jenis Bisnis",
       fill = "Jenis Bisnis") +
  theme_void() +
  theme(
    plot.title = element_text(
      hjust = 0.5, face = "bold", size = 15, color = "#2c3e50"),
    legend.position = "bottom"  # ← Tambahan ini saja untuk hilangkan legend
  )

```

Insight :

Persentase pendapatan per jenis bisnis relatif merata dengan perbedaan antar kategori yang kecil (sekitar 22-27%). Ini menunjukkan bahwa kontribusi tiap jenis bisnis terhadap total pendapatan cukup seimbang, tanpa satu sektor yang terlau dominan.


## Scatter Plot

```{r, message=FALSE, warning=FALSE}
library(ggplot2)

# Scatter Plot
ggplot(data, aes(x = MarketingSpend, y = MonthlyRevenue)) +
  geom_point(color = "orange", alpha = 0.6) +
  geom_smooth(method = "lm", se = TRUE, color = "maroon", linetype = "dashed") +
  labs(
    title = "Marketing Spend vs Monthly Revenue",
    x = "Marketing Spend",
    y = "Monthly Revenue"
  ) +
  theme_minimal() +
  theme(panel.grid.major.y = element_line(color = "gray", linetype = "dashed"))
```

Insight :

Dapat disimpulkan bahwa terdapat hubungan positif antara pengeluaran pemasaran dan pendapatan bulanan. Semakin besar dana yang dialokasikan untuk kegiatan pemasaran, maka pendapatan bulanan cenderung meningkat. Hal ini terlihat dari sebaran titik data yang membentuk pola naik serta garis regresi yang memiliki kemiringan positif.

## Boxplot

```{r, message=FALSE, warning=FALSE}
library(ggplot2)

# Boxplot
ggplot(data, aes(x = BusinessType, y = MonthlyRevenue, fill = BusinessType)) +
  geom_boxplot(outlier.color = "red", outlier.shape = 16) +
  labs(
    title = "Distribusi Pendapatan Bulanan per Jenis Usaha",
    x = "Business Type",
    y = "Monthly Revenue"
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(angle = 45, hjust = 1),
    legend.position = "none"
  )

```

Insight : 

Secara umum, keempat jenis usaha memiliki tingkat pendapatan bulanan yang relatif mirip. Namun, Manufacturing dan Technology tampak memiliki median pendapatan sedikit lebih tinggi dibanding jenis usaha lainnya. Selain itu, sebaran data (rentang antar kuartil) menunjukkan bahwa variasi pendapatan cukup lebar di semua jenis usaha, menandakan adanya perbedaan performa antar perusahaan dalam tiap sektor.


# Central Tendency

Central tendency adalah ukuran statistik yang digunakan untuk mengidentifikasi nilai tengah atau nilai yang paling representatif dalam suatu kumpulan data. Tujuannya adalah untuk memberikan gambaran tentang lokasi pusat dari distribusi data dengan satu nilai ringkasan. Tiga ukuran central tendency yang paling umum adalah mean (rata-rata, dihitung dengan menjumlahkan semua nilai lalu dibagi banyaknya data), median (nilai tengah setelah data diurutkan), dan mode (nilai yang paling sering muncul). Pemilihan ukuran mana yang paling tepat bergantung pada jenis data dan distribusinya, karena masing-masing ukuran memiliki kelebihan dan kelemahan dalam menggambarkan titik pemusatan data.


**Mean (Rata-rata)**

   Rumus:  
   \[
   \mathbf{Mean} = \frac{\sum x_i}{n}
   \]

**Keterangan:**

- \( x_i \) = nilai ke-i dari data  
- \( n \) = jumlah total data  

Artinya, semua nilai dijumlahkan lalu dibagi dengan jumlah data.

**Median (Nilai Tengah)**

Median adalah nilai yang berada di tengah setelah data diurutkan dari yang terkecil ke terbesar.  
Jika jumlah data *ganjil*, median = nilai di posisi tengah.  
Jika jumlah data *genap*, median = rata-rata dari dua nilai tengah.

**Mode (Modus)**

Mode adalah nilai yang paling sering muncul dalam suatu kumpulan data.  
Jika hanya ada satu nilai yang sering muncul → *unimodal*,  
jika dua nilai → *bimodal*,  
dan jika lebih dari dua → *multimodal*.

## Tabel Mean, Median, Mode

```{r}

# --- Menghitung Mean, Median, Modus ---

# Fungsi untuk modus (karena R tidak punya fungsi bawaan)
get_mode <- function(x) {
  uniqx <- unique(x)
  uniqx[which.max(tabulate(match(x, uniqx)))]
}

# Mean
mean_spend <- mean(data$MarketingSpend)
mean_rev <- mean(data$MonthlyRevenue)

# Median
median_spend <- median(data$MarketingSpend)
median_rev <- median(data$MonthlyRevenue)

# Modus
mode_spend <- get_mode(data$MarketingSpend)
mode_rev <- get_mode(data$MonthlyRevenue)

# --- Menampilkan hasil dalam tabel ---
tabel_data <- data.frame(
  Variable = c("Marketing Spend", "Monthly Revenue"),
  Mean = c(mean_spend, mean_rev),
  Median = c(median_spend, median_rev),
  Mode = c(mode_spend, mode_rev)
)

# Menampilkan tabel
tabel_data
```

## Interpretation Mean, Median, Mode

1. Marketing Spend (Pengeluaran Pemasaran)

Mean (Rata-rata) dan Median (Nilai Tengah) = Sekitar 85. Ini adalah nilai pengeluaran yang paling umum atau normal. Mode (Nilai yang Paling Sering Muncul) = 148. Ini jauh lebih tinggi.Distribusi data ini tidak normal/tidak simetris. Ada kelompok pengeluaran yang jauh lebih sering terjadi di nilai yang tinggi (sekitar 148), meski rata-ratanya lebih rendah.

2. Monthly Revenue (Pendapatan Bulanan)

Mean (Rata-rata), Median (Nilai Tengah), dan Mode (Nilai yang Paling Sering Muncul) = Semuanya sekitar 181 hingga 201. Nilai-nilai ini saling berdekatan. Distribusi data ini normal atau mendekati normal. Artinya, pendapatan bulanan tersebar secara simetris dan sebagian besar nilainya berada dekat rata-rata.
Perbedaan Kunci
Monthly Revenue memiliki pola yang teratur (seperti lonceng), sedangkan Marketing Spend memiliki pola yang tidak teratur dan sangat miring.
Pada data yang normal (Revenue), Mean, Median, dan Mode mirip.
Pada data yang tidak normal (Spend), Mode jauh berbeda dari Mean dan Median.


## Visualization Histogram

```{r, message=FALSE, warning=FALSE}
library(ggplot2)
library(gridExtra)

# --- Fungsi untuk menghitung modus ---
get_mode <- function(x) {
  ux <- unique(x)
  ux[which.max(tabulate(match(x, ux)))]
}

# --- Fungsi membuat histogram dengan garis mean, median, mode ---
create_histogram <- function(column_data, column_name, fill_color) {
  df <- data.frame(value = column_data)
  
  mean_val <- mean(column_data, na.rm = TRUE)
  median_val <- median(column_data, na.rm = TRUE)
  mode_val <- get_mode(round(column_data, 0))
  
  ggplot(df, aes(x = value)) +
    geom_histogram(aes(y = ..density..), 
                   bins = 30, 
                   fill = fill_color, 
                   color = "white", 
                   alpha = 0.8) +
    geom_density(alpha = 0.3, fill = "gray90") +
    geom_vline(aes(xintercept = mean_val, color = "Mean"), linetype = "dashed", size = 1.2) +
    geom_vline(aes(xintercept = median_val, color = "Median"), linetype = "dotted", size = 1.2) +
    geom_vline(aes(xintercept = mode_val, color = "Mode"), linetype = "solid", size = 1.2) +
    scale_color_manual(
      name = "Keterangan Garis",
      values = c("Mean" = "red", "Median" = "green", "Mode" = "blue")
    ) +
    labs(
      title = paste("Distribusi", column_name),
      subtitle = paste("Mean:", round(mean_val, 2),
                       "| Median:", round(median_val, 2),
                       "| Mode:", round(mode_val, 2)),
      x = column_name,
      y = "Frequency"
    ) +
    theme_minimal() +
    theme(
      plot.title = element_text(face = "bold", size = 12),
      plot.subtitle = element_text(size = 9, color = "gray40"),
      legend.position = "bottom",
      panel.grid.major = element_line(color = "gray90"),
      panel.grid.minor = element_blank()
    )
}

# --- Buat dua histogram dari data yang sudah ada ---
hist1 <- create_histogram(data$MarketingSpend, "Marketing Spend", "skyblue")
hist2 <- create_histogram(data$MonthlyRevenue, "Monthly Revenue", "orange")

# --- Tampilkan berdampingan ---
grid.arrange(hist1, hist2, ncol = 2)
             
                            
```

Insight :

1. Marketing Spend menggambarkan besarnya biaya yang dikeluarkan untuk kegiatan pemasaran setiap bulan.
2. Monthly Revenue menunjukkan jumlah pendapatan yang diperoleh perusahaan dalam periode yang sama.
Kedua variabel ini memiliki hubungan logis semakin tinggi pengeluaran pemasaran, diharapkan pendapatan juga meningkat.


# Measures of Dispersion
Measures of dispersion adalah serangkaian teknik statistik yang digunakan untuk mengukur sebaran atau variasi data dalam suatu dataset. Sementara measures of central tendency seperti mean dan median hanya memberikan informasi tentang nilai tengah, measures of dispersion mengungkap seberapa jauh titik data individual tersebar dari nilai pusat tersebut. Konsep ini sangat krusial dalam analisis data karena dua dataset dengan mean yang sama bisa memiliki karakteristik yang sangat berbeda - satu mungkin sangat konsisten dengan data yang mengelompok rapat, sementara lainnya memiliki variasi yang luas. Beberapa ukuran dispersi yang umum digunakan meliputi range, variance, standard deviation, dan interquartile range (IQR), yang masing-masing memberikan perspektif berbeda tentang konsistensi dan reliabilitas data yang dianalisis.

```{r, warning=FALSE, message=FALSE}
library(ggplot2)
library(dplyr)
library(tidyr)
library(gridExtra)
library(knitr)

# Memilih hanya kolom numerik untuk analisis dispersi
numeric_cols <- data %>% 
  select(where(is.numeric)) %>% 
  select(-1) # Menghapus kolom pertama (index)

# Menghitung measures of dispersion untuk setiap variabel numerik (DIBUAT TABEL)
dispersion_stats <- data.frame(
  Variable = names(numeric_cols),
  Mean = sapply(numeric_cols, mean, na.rm = TRUE),
  Median = sapply(numeric_cols, median, na.rm = TRUE),
  SD = sapply(numeric_cols, sd, na.rm = TRUE),
  Variance = sapply(numeric_cols, var, na.rm = TRUE),
  IQR = sapply(numeric_cols, IQR, na.rm = TRUE),
  Range = sapply(numeric_cols, function(x) max(x, na.rm = TRUE) - min(x, na.rm = TRUE)),
  CV = sapply(numeric_cols, function(x) sd(x, na.rm = TRUE)/mean(x, na.rm = TRUE)) # Coefficient of Variation
)

# Perbaiki fungsi histogram
discreate_histogram <- function(column_data, column_name, color) {
    df <- data.frame(value = column_data)
    
    # Hitung stats untuk annotasi (perbaiki typo)
    mean_val <- mean(column_data, na.rm = TRUE)
    sd_val <- sd(column_data, na.rm = TRUE)
    iqr_val <- IQR(column_data, na.rm = TRUE)
    
    # ... lanjutan kode plot
}

# Reset row names untuk tabel
rownames(dispersion_stats) <- NULL

# Buat tabel
kable(dispersion_stats, digits = 2, caption = "Summary Statistics untuk Variabel Numerik")

```

## Histogram

```{r,message=FALSE, warning=FALSE}
# Fungsi untuk membuat histogram dengan annotasi measures of dispersion
create_histogram <- function(column_data, column_name, color) {
  df <- data.frame(value = column_data)
  
  # Menghitung stats untuk annotasi
  mean_val <- mean(column_data, na.rm = TRUE)
  sd_val <- sd(column_data, na.rm = TRUE)
  iqr_val <- IQR(column_data, na.rm = TRUE)
  cv_val <- sd_val / mean_val
  
  ggplot(df, aes(x = value)) +
    geom_histogram(aes(y = ..density..), 
                   fill = color, 
                   color = "white", 
                   alpha = 0.8, 
                   bins = 30) +
    geom_density(alpha = 0.5, fill = "darkblue") +
    geom_vline(xintercept = mean_val, color = "red", linetype = "dashed", size = 1) +
    geom_vline(xintercept = median(column_data, na.rm = TRUE), 
               color = "green", linetype = "dashed", size = 1) +
    labs(title = paste("Distribusi", column_name),
         subtitle = paste("Mean:", round(mean_val, 2), 
                         "| SD:", round(sd_val, 2),
                         "| IQR:", round(iqr_val, 2),
                         "| CV:", round(cv_val, 2)),
         x = column_name,
         y = "Density") +
    theme_minimal() +
    theme(
      plot.title = element_text(face = "bold", size = 12),
      plot.subtitle = element_text(size = 9, color = "darkgray"),
      panel.grid.major = element_line(color = "gray90"),
      panel.grid.minor = element_blank()
    )
}

# Membuat histogram untuk variabel numerik utama
histograms <- list()

# MarketingSpend
histograms[[1]] <- create_histogram(numeric_cols$MarketingSpend, "Marketing Spend", "#FF6B6B")

# ProductPrice
histograms[[2]] <- create_histogram(numeric_cols$ProductPrice, "Product Price", "#4ECDC4")

# EmployeeCount (filter nilai negatif)
employee_clean <- numeric_cols$EmployeeCount[numeric_cols$EmployeeCount >= 0]
histograms[[3]] <- create_histogram(employee_clean, "Employee Count", "#45B7D1")

# ManagerExperience
histograms[[4]] <- create_histogram(numeric_cols$ManagerExperience, "Manager Experience", "#96CEB4")

# CustomerRating
histograms[[5]] <- create_histogram(numeric_cols$CustomerRating, "Customer Rating", "#FFEAA7")

# MonthlyRevenue
histograms[[6]] <- create_histogram(numeric_cols$MonthlyRevenue, "Monthly Revenue", "#DDA0DD")

# Menggabungkan semua histogram
grid.arrange(grobs = histograms, ncol = 2, 
             top = "Analisis Distribusi dan Measures of Dispersion")


```

Insight :

Berdasarkan analisis histogram untuk setiap variabel, berikut insight ringkasnya :

1. City
· Data tersebar merata di 5 kota (Jakarta, Surabaya, Bandung, Medan, Makassar).
· Tidak ada dominasi kota tertentu, menunjukkan representasi yang seimbang.

2. BusinessType
· "Food & Beverage" adalah tipe bisnis paling umum.
· Diikuti oleh Retail, Technology, dan Manufacturing.

3. SalesChannel
· Distribusi hampir seimbang antara Online dan Offline.
· Tren penjualan hybrid (daring & luring) tercermin dalam data.

4. MarketingSpend
· Sebagian besar berada di rentang menengah (≈50–120).
· Ada beberapa outlier dengan anggaran sangat tinggi atau rendah.

5. ProductPrice
· Harga produk terkonsentrasi di rentang rendah hingga menengah (≈2–8).
· Beberapa produk memiliki harga premium (>9).

6. EmployeeCount
· Mayoritas perusahaan memiliki 30–70 karyawan.
· Beberapa outlier dengan jumlah karyawan ekstrem (sangat sedikit atau sangat banyak).

7. ManagerExperience
· Pengalaman manajer tersebar luas, dari pemula (<2 tahun) hingga sangat berpengalaman (>12 tahun).
· Distribusi cenderung normal dengan sedikit condong ke pengalaman menengah.

8. CustomerRating
· Rating pelanggan umumnya tinggi (70–90).
· Distribusi miring ke kiri, menunjukkan kepuasan pelanggan yang baik secara keseluruhan.

9. MonthlyRevenue
· Pendapatan bulanan beragam, dengan puncak di rentang ≈150–250.
· Sebagian bisnis memiliki pendapatan sangat tinggi (>300), menunjukkan adanya performa unggulan.

Kesimpulan Umum:
Data menunjukkan keragaman bisnis dengan performa yang variatif. F&B dominan, kepuasan pelanggan umumnya baik, dan pendapatan cenderung terkonsentrasi di rentang menengah.

## Scatter Plot

```{r, message=FALSE, warning=FALSE}
df <- read.csv("C:/Users/Iyan/Downloads/Midterm Exam.csv")

library(ggplot2)

# scatterlot
ggplot(data = df, 
       aes(x = MarketingSpend, y = MonthlyRevenue)) +
  
  # Menambahkan titik-titik
  geom_point(alpha = 0.6, color = "darkseagreen3") +
  
  # Menambahkan garis tren linear (regresi)
  geom_smooth(method = "lm", se = FALSE, color = "darkolivegreen", linetype = "dashed") +
  
  # Menambahkan Judul dan Label
  labs(title = "Hubungan antara Pengeluaran Pemasaran dan Pendapatan Bulanan",
       x = "Pengeluaran Pemasaran (MarketingSpend)",
       y = "Pendapatan Bulanan (MonthlyRevenue)") +
  
  # Mengatur Tema Plot
  theme_minimal() + 
  
  # Menyesuaikan tampilan judul
  theme(plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
        axis.title = element_text(size = 12))
        
```

Insight : 

Scatter plot tersebut menunjukkan adanya hubungan positif yang jelas antara pengeluaran Pemasaran dan Pendapatan Bulanan. Garis tren regresi linear akan miring ke atas. Hal ini mengindikasikan bahwa semakin tinggi dana yang dihabiskan untuk (MarketingSpend), cenderung semakin tinggi pula (MonthlyRevenue) yang dihasilkan. Visualisasi ini secara keseluruhan mendukung hipotesis bahwa investasi yang lebih besar dalam pemasaran merupakan faktor yang signifikan dalam mendorong pertumbuhan pendapatan bulanan. Namun, adanya dispersi menunjukkan bahwa efektivitas pemasaran tidak 100% dijamin dan dipengaruhi oleh faktor-faktor lain seperti kualitas produk atau harga.


## Box Plot

```{r}
library(gridExtra)
# Pilih dua variabel numerik untuk analisis (ubah sesuai dataset kamu)
num_var1 <- data$MarketingSpend   # <-- ubah sesuai nama kolom dataset kamu
num_var2 <- data$MonthlyRevenue # <-- ubah sesuai nama kolom dataset kamu

# Boxplot (Visualisasi utama untuk dispersion)
boxplot1 <- ggplot(data, aes(y = num_var1)) +
  geom_boxplot(fill = "cyan", color = "darkblue") +
  labs(title = "Marketing Spend", y = "Frequency") +
  theme_minimal()# Boxplot (Visualisasi utama untuk dispersion)

# Boxplot (Visualisasi utama untuk dispersion)
boxplot2 <- ggplot(data, aes(y = num_var2)) +
  geom_boxplot(fill = "cyan", color = "darkblue") +
  labs(title = "Monthly Revenue", y = "Frequency") +
  theme_minimal()

grid.arrange(boxplot1, boxplot2, ncol = 2)

```

Insight:

Boxplot menampilkan distribusi dua variabel: Marketing Spend dan Monthly Revenue.
Warna cyan menunjukkan rentang Q1–Q3, garis hitam median, dan whisker batas nilai wajar.

- Marketing Spend
Median sekitar 80–85, rentang data sempit → pengeluaran stabil tanpa outlier.
Kesimpulan: Pengeluaran pemasaran relatif konsisten.

- Monthly Revenue
Median 180–200, variasi lebih besar, cenderung miring ke bawah.
Kesimpulan: Pendapatan bulanan lebih fluktuatif.

- Hubungan 
Marketing spend stabil, revenue lebih bervariasi.
Analisis lanjut dapat dilakukan dengan korelasi atau scatterplot untuk melihat hubungan keduanya.


## Interpretation

- Histogram -> terlihat bahwa Marketing Spend memiliki sebaran data yang paling lebar dibandingkan variabel lainnya. Sementara itu, Monthly Revenue menyebar mengikuti pola tertentu. Variabel dengan variabilitas besar yaitu Marketing Spend karena batangnya menyebar paling lebar menandakan nilai sangat bervariasi. 

- Scatterplot -> Titik titik data menyebar cukup luas dan tidak membentuk garis yang rapat. Ini menunjukkan adanya variasi besar antara pengeluaran pemasaran dan pendapatan yang didapat, Variabilitas terbesar terlihat di Monthly Revenue karena sebaran titik di sumbu-X nya paling luas.

- Boxplot -> Kotak(IQR) Marketing Spend tampak paling panjang dan memiliki beberapa outlier yang berarti data lebih bervariasi dan tidak seragam. Variabel Monthly Revenue menunjukkan penyebaran sedang. Dengan demikian, Marketing Spend menunjukkan variabilitas terbesar karena nilai-nilainya tesebar jauh dari rata-rata dan memiliki rentang yang luas.


# Summary and Interpretation

Berdasarkan analisis data, dapat disimpulkan bahwa pendapatan bulanan suatu bisnis dipengaruhi oleh beberapa faktor utama, seperti pengeluaran pemasaran, pengalaman manager dan penilaian pelanggan. 
Berikut kesimpulan dan penjelasannya :

- Variabel yang paling konsisten (Dispersi Rendah) :
Customer Rating, karena nilainya dalam jumlah kecil yang saling berdekatan maka penyebarannya cenderung rendah. Penilaian pelanggan di berbagai kota dan jenis bisnis relatif stabil yang berarti kepuasan pelanggan tidak terlalu berbeda jauh antar wilayah.

- Variabel dengan Variasi terbesar (Dispersi Tinggi) :
Monthly Revenue dan Marketing Spend, karena kedua variabel tersebut menunjukkan perbedaan besar antar bisnis. Beberapa bisnis mungkin sangat agresif dalam pemasaran dan menghasilkan pendapatan tinggi, sementara yang lain beroperasi dengan sumber daya terbatas.

- Pola atau Wawasan dari visualisasi :
1. Pengeluaran pemasaran mendorong kenaikan pendapatan.
2. Pengalaman manager berhubungan dengan kepuasan pelanggan.
3. Perbedaan pendapatan muncul berdasarkan kota dan jenis bisnis.