Central Tendency

Assignment ~ Week 6

Logo

1 Cental Tendency

Central Tendency adalah ukuran statistik yang merepresentasikan nilai tipikal atau sentral dari suatu kumpulan data. Ukuran ini bertujuan untuk memberikan satu nilai yang paling mewakili keseluruhan data, sehingga memungkinkan kita memahami di mana sebagian besar nilai data terkonsentrasi. Tiga ukuran tendensi sentral yang paling umum adalah: Mean, Median, dan Modus.

1.1 Mean

Rata-rata diperoleh dengan membagi jumlah semua nilai data dengan jumlah total observasi. Nilai ini cocok untuk tipe data interval dan rasio.

1.2 Median

Median adalah nilai tengah dari kumpulan data yang diurutkan. Median cocok untuk data ordinal, interval, dan rasio. Langkah-langkah untuk Mencari Median:

  1. Susunlah data dalam urutan menaik.
  2. Jika jumlah titik data ganjil berada pada posisi n+1/2
  3. Jika genap median adalah rata-rata dari dua nilai tengah.

1.3 Modus

Modus adalah nilai yang paling sering muncul dalam suatu dataset. Modus dapat digunakan untuk data nominal, ordinal, interval, atau rasio.

2 Visualisasi untuk Central Tendency

Memahami ukuran tendensi sentral mean median, dan modus -lebih intuitif jika didukung oleh visualisasi. Representasi grafis seperti histogram dan boxplot membantu mengungkap bentuk, sebaran, dan keseimbangan yang mendasari suatu kumpulan data. Melalui alat visual ini, kita dapat mengidentifikasi apakah data tersebut simetris miring, kategoris atau multimodal.

Setiap visualisasi memberikan wawasan yang unik:

  1. Histogram menunjukkan distribusi frekuensi dan bagaimana ukuran sentral selaras dengan konsentrasi data.

  2. Kotak-kotak menyorot median, kuartil, dan keberadaan outlier dalam format yang ringkas.

Pada subbagian berikut, kita akan mengeksplorasi bagaimana kecenderungan sentral berperilaku dalam kondisi yang berbeda visualisasi histogram dan boxplot: menggunakan

Pada sub bagian berikut, kita akan mengeksplorasi bagaimana kecenderungan sentral berperilaku dalam kondisi yang berbeda visualisasi histogram dan boxplot:

  1. Simetris dan Tanpa Outlier ketika data terdistribusi secara merata di sekitar pusat.

  2. Nilai Ekstrem (Miring) ketika outlier menarik nilai rata-rata ke satu arah.

  3. Variabel Kategorikal - ketika data mewakili kelompok atau kelas yang berbeda.

  4. Lebih Dari Satu Modus ketika data memiliki beberapa puncak atau pusat konsentrasi.

2.1 Simetris dan Tidak Ada Outlier

Distribusi simetris terjadi ketika nilai-nilai data tersebar merata di sekitar titik pusat, menciptakan pola yang seimbang dan berbentuk lonceng. Dalam hal ini, nilai rata-rata median, dan modus semuanya berada pada atau mendekati titik pusat yang sama. Hal ini menunjukkan bahwa tidak ada outlier atau kemiringan signifikan yang menarik data ke satu sisi.

2.2 Nilai Ekstrem (Miring)

Distribusi miring terjadi ketika nilai-nilai data tidak terdistribusi secara simetris di sekitar pusat artinya salah satu ekor distribusi lebih panjang atau lebih melebar daripada yang lain. Kemiringan ini sering kali disebabkan oleh nilai-nilai ekstrem (outlier) yang menarik rata-rata ke satu arah, sementara median dan modus tetap mendekati puncak data.

Ketika suatu set data berisi nilai ekstrem tinggi atau rendah, distribusinya menjadi miring positif (miring ke kanan) atau miring negatif (miring ke kiri). Distorsi ini memengaruhi posisi ukuran tendensi sentral dan memberikan wawasan berharga tentang perilaku data yang mendasarinya.

2.3 Variabel Kategori

Variabel kategori membagi data ke dalam kelompok atau kategori yang berbeda. Ketika dikombinasikan dengan variabel numerik, kita dapat menganalisis perbedaan distribusi nilai numerik di berbagai kategori. Boxplot merupakan visualisasi yang sangat baik untuk tujuan ini diagram ini menunjukkan median, kuartil, rentang, dan outlier dalam setiap kelompok

2.4 Lebih Dari Satu Modus

Dalam banyak kumpulan data dunia nyata, distribusi nilai tidak selalu membentuk satu puncak yang halus. Sebaliknya, beberapa kumpulan data menunjukkan dua atau lebih puncak yang berbeda, yang dikenal sebagai beberapa modus. Setiap modus mewakili sebuah klaster tempat nilai-nilai cenderung terkonsentrasi artinya data memiliki beberapa wilayah dengan frekuensi tinggi, alih-alih satu lokasi sentral.

Tidak seperti histogram, boxplot tidak menampilkan jumlah puncak yang tepat, tetapi menunjukkan dengan jelas bahwa data tidak terdistribusi secara simetris misalnya, garis median mungkin tidak berada di tengah, dan kumis mungkin memanjang tidak merata ke satu sisi. Bersama-sama, histogram dan boxplot memberikan wawasan yang saling melengkapi:

  1. histogram mengungkapkan keseluruhan (dan beberapa mode), bentuk

  2. sementara boxplot menekankan penyebaran dan kemiringan data.

3 Persiapan

# 1) Paket yang diperlukan (instal jika perlu)
required_pkgs <- c("readxl", "dplyr", "ggplot2", "gridExtra", "moments")
to_install <- required_pkgs[!(required_pkgs %in% installed.packages()[, "Package"])]
if (length(to_install)) {
  install.packages(to_install, dependencies = TRUE, repos = getOption("repos"))
}
lapply(required_pkgs, library, character.only = TRUE)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Warning: package 'gridExtra' was built under R version 4.5.2
## 
## Attaching package: 'gridExtra'
## The following object is masked from 'package:dplyr':
## 
##     combine
## Warning: package 'moments' was built under R version 4.5.2
## [[1]]
## [1] "readxl"    "stats"     "graphics"  "grDevices" "utils"     "datasets" 
## [7] "methods"   "base"     
## 
## [[2]]
## [1] "dplyr"     "readxl"    "stats"     "graphics"  "grDevices" "utils"    
## [7] "datasets"  "methods"   "base"     
## 
## [[3]]
##  [1] "ggplot2"   "dplyr"     "readxl"    "stats"     "graphics"  "grDevices"
##  [7] "utils"     "datasets"  "methods"   "base"     
## 
## [[4]]
##  [1] "gridExtra" "ggplot2"   "dplyr"     "readxl"    "stats"     "graphics" 
##  [7] "grDevices" "utils"     "datasets"  "methods"   "base"     
## 
## [[5]]
##  [1] "moments"   "gridExtra" "ggplot2"   "dplyr"     "readxl"    "stats"    
##  [7] "graphics"  "grDevices" "utils"     "datasets"  "methods"   "base"
# file_path <- "D:/Tugas 6/Tugas 6/4 Central Tendency - Introduction to Statistics.xlsx"
file_path <- file.choose()
#file_path <- "D:/Tugas 6/Tugas 6/4 Central Tendency - Introduction to Statistics.xlsx"

if (!file.exists(file_path)) stop("File Excel tidak ditemukan. Ubah variable 'file_path' ke lokasi file yang benar.")

# 3) Baca data awal (pakai header)
raw <- readxl::read_excel(file_path, col_names = TRUE)
## New names:
## • `` -> `...1`
# Hapus kolom index auto jika ada (seperti ...1)
if ("...1" %in% names(raw)) raw <- raw %>% select(-`...1`)

# 4) Perbaiki header bila bergeser (ambil row 2 sebagai header jika perlu)
expected <- c("CustomerID", "Age", "Gender", "StoreLocation", "ProductCategory",
              "TotalPurchase", "NumberOfVisits", "FeedbackScore")

if (sum(tolower(names(raw)) %in% tolower(expected)) < 4) {
  message("Header tidak sesuai -> membaca ulang dan menggunakan baris ke-2 sebagai header.")
  raw2 <- readxl::read_excel(file_path, col_names = FALSE)
  header_row <- as.character(unlist(raw2[2, ]))
  header_row[is.na(header_row) | header_row == ""] <- paste0("X", seq_along(header_row))[is.na(header_row) | header_row == ""]
  df <- raw2[-c(1, 2), ]
  colnames(df) <- header_row
} else {
  df <- raw
}

# 5) Bersihkan nama kolom dan fallback assign expected bila perlu
colnames(df) <- trimws(gsub("\\n|\\r", " ", colnames(df)))
if (ncol(df) >= length(expected) && !all(expected %in% colnames(df))) {
  message("Fallback: assign 8 kolom pertama ke nama expected.")
  df <- df[, 1:length(expected)]
  colnames(df) <- expected
}
present_cols <- intersect(expected, colnames(df))
df <- df[, present_cols, drop = FALSE]

message("Kolom terdeteksi: ", paste(colnames(df), collapse = ", "))
## Kolom terdeteksi: CustomerID, Age, Gender, StoreLocation, ProductCategory, TotalPurchase, NumberOfVisits, FeedbackScore
message("Contoh 6 baris:")
## Contoh 6 baris:
print(utils::head(df, 6))
## # A tibble: 6 × 8
##   CustomerID   Age Gender StoreLocation ProductCategory TotalPurchase
##        <dbl> <dbl> <chr>  <chr>         <chr>                   <dbl>
## 1          1    32 M      West          Electronics               528
## 2          2    37 F      South         Books                      72
## 3          3    63 M      West          Electronics               327
## 4          4    41 M      North         Sports                    391
## 5          5    42 F      East          Electronics               514
## 6          6    66 F      East          Sports                    381
## # ℹ 2 more variables: NumberOfVisits <dbl>, FeedbackScore <dbl>

4 Central Tendency dari Setiap Variabel

Berdasarkan data yang kami pakai kolom-kolom yang termasuk varibel numerik adalah:

  • Age
  • Total Purchase
  • Number Of Visit
  • Feedback Score

Berdasarkan data yang kami pakai kolom-kolom yang termasuk varibel kategori adalah:

  • Gender
  • Store Location
  • Product Categry

Berikut adalah ringkasan Central Tendency mulai dari Mean (rata-rata), Median (nilai tengah), dan Modus (nilai yang paling sering muncul) untuk setiap kolom/variabel numerik.

# 6) Konversi numerik (robust)
to_num <- function(x) {
  x <- as.character(x)
  x <- trimws(x)
  x[x == ""] <- NA
  x <- gsub("\\.(?=\\d{3}(?:\\D|$))", "", x, perl = TRUE)  # hapus dot thousand
  x <- gsub(",", ".", x)                                   # koma -> titik
  suppressWarnings(as.numeric(x))
}

num_cols <- intersect(c("Age", "TotalPurchase", "NumberOfVisits", "FeedbackScore"), names(df))
for (col in num_cols) df[[col]] <- to_num(df[[col]])

# 7) Modus function
get_mode <- function(v) {
  v2 <- na.omit(round(v, 0))
  if (length(v2) == 0) return(NA)
  tab <- table(v2)
  as.numeric(names(tab)[which.max(tab)])
}

# 8) Hitung statistik ringkasan (ditampilkan di console)
stats_list <- lapply(num_cols, function(col) {
  v <- df[[col]]
  data.frame(
    Variable = col,
    N = sum(!is.na(v)),
    Mean = round(mean(v, na.rm = TRUE), 2),
    Median = round(median(v, na.rm = TRUE), 2),
    Mode = get_mode(v),
    Skewness = round(moments::skewness(v, na.rm = TRUE), 3),
    Kurtosis = round(moments::kurtosis(v, na.rm = TRUE), 3),
    stringsAsFactors = FALSE
  )
})
stats_tbl <- do.call(rbind, stats_list)
print(stats_tbl)
##         Variable   N   Mean Median Mode Skewness Kurtosis
## 1            Age 200  39.99   39.0   18    0.335    2.539
## 2  TotalPurchase 200 211.79  108.5   33    1.172    4.112
## 3 NumberOfVisits 200   5.16    5.0    5    0.372    2.893
## 4  FeedbackScore 200   2.80    3.0    1    0.204    1.707
# 9) Fungsi plotting: histogram + density + mean/median/mode lines
plot_var <- function(v, varname, bins = 30) {
  m <- mean(v, na.rm = TRUE)
  md <- median(v, na.rm = TRUE)
  mo <- get_mode(v)
  ggplot(data.frame(x = v), aes(x = x)) +
    geom_histogram(aes(y = after_stat(density)), bins = bins, fill = "#5ab4ac", color = "white", alpha = 0.85) +
    geom_density(color = "#2b8cbe", linewidth = 1.05) +
    geom_vline(xintercept = m, color = "black", linewidth = 1.05) +
    geom_vline(xintercept = md, color = "blue", linetype = "dashed", linewidth = 1.05) +
    geom_vline(xintercept = mo, color = "red", linetype = "dotdash", linewidth = 1.05) +
    labs(title = paste0("Distribusi: ", varname),
         subtitle = sprintf("N=%d  Mean=%.2f  Median=%.2f  Mode=%s", sum(!is.na(v)), m, md, mo),
         x = varname, y = "Density") +
    theme_minimal(base_size = 12)
}

# 10) Tampilkan plot untuk tiap kolom numerik (hanya tampilkan, tidak menyimpan)
plots <- list()
if (length(num_cols) == 0) message("Tidak ada kolom numerik untuk diplot.")
for (col in num_cols) {
  p <- plot_var(df[[col]], col, bins = 30)
  plots[[col]] <- p
  print(p)   # tampil di Plots pane atau di dokumen knitted
}

# 11) Jika lebih dari 1 plot, gabungkan dan tampilkan vertikal (tidak disimpan)
if (length(plots) > 1) {
  gridExtra::grid.arrange(grobs = plots, ncol = 1)
}

5 Analisis Boxplot per Kategori

  • Total Purchase
  • Number Ofvisity
  • ProductCategory
  • Storelocation
  • Gender
# 12) Boxplots per kategori (TotalPurchase & NumberOfVisits by ProductCategory / StoreLocation / Gender)
cat_cols <- intersect(c("ProductCategory", "StoreLocation", "Gender"), names(df))
if (length(cat_cols) == 0) {
  message("Kolom kategori (ProductCategory/StoreLocation/Gender) tidak ditemukan. Lewati boxplot.")
} else {
  make_box <- function(numeric_var, cat_var) {
    df_tmp <- df %>%
      dplyr::filter(!is.na(.data[[numeric_var]]), !is.na(.data[[cat_var]])) %>%
      dplyr::mutate(!!cat_var := as.factor(.data[[cat_var]]))
    if (nrow(df_tmp) == 0) return(NULL)
    p <- ggplot(df_tmp, aes_string(x = cat_var, y = numeric_var, fill = cat_var)) +
      geom_boxplot(outlier.colour = "red", outlier.shape = 16, alpha = 0.8) +
      stat_summary(fun = mean, geom = "point", shape = 23, size = 3, fill = "yellow") +
      labs(title = paste0(numeric_var, " by ", cat_var),
           subtitle = "Boxplot per kategori — titik = mean",
           x = cat_var, y = numeric_var) +
      theme_minimal(base_size = 12) +
      theme(legend.position = "none", axis.text.x = element_text(angle = 45, hjust = 1))
    return(p)
  }

  for (numvar in c("TotalPurchase", "NumberOfVisits")) {
    if (!(numvar %in% names(df))) next
    for (catv in cat_cols) {
      pbox <- make_box(numvar, catv)
      if (is.null(pbox)) next
      print(pbox)   # tampil di dokumen / Plots pane
    }
  }
}
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Interpretasi

1.Histogram menunjukkan distribusi frekuensi dan bagaimana ukuran sentral selaras dengan konsentrasi data.

2.Kotak-kotak menyorot median, kuartil, dan keberadaan outlier dalam format yang ringkas.

3.Ketika suatu set data berisi nilai ekstrem tinggi atau rendah, distribusinya menjadi miring positif (miring ke kanan) atau miring negatif (miring ke kiri)

4.histogram menggungkapkan keseluruhan (dan beberapa mode), bentuk sementara boxplot menekankan penyebaran dan kemiringan data.

