
Cental Tendency
Central Tendency adalah ukuran statistik yang merepresentasikan nilai
tipikal atau sentral dari suatu kumpulan data. Ukuran ini bertujuan
untuk memberikan satu nilai yang paling mewakili keseluruhan data,
sehingga memungkinkan kita memahami di mana sebagian besar nilai data
terkonsentrasi. Tiga ukuran tendensi sentral yang paling umum adalah:
Mean, Median, dan Modus.
Mean
Rata-rata diperoleh dengan membagi jumlah semua nilai data dengan
jumlah total observasi. Nilai ini cocok untuk tipe data interval dan
rasio.
Modus
Modus adalah nilai yang paling sering muncul dalam suatu dataset.
Modus dapat digunakan untuk data nominal, ordinal, interval, atau
rasio.
Visualisasi untuk
Central Tendency
Memahami ukuran tendensi sentral mean median, dan modus -lebih
intuitif jika didukung oleh visualisasi. Representasi grafis seperti
histogram dan boxplot membantu mengungkap bentuk, sebaran, dan
keseimbangan yang mendasari suatu kumpulan data. Melalui alat visual
ini, kita dapat mengidentifikasi apakah data tersebut simetris miring,
kategoris atau multimodal.
Setiap visualisasi memberikan wawasan yang unik:
Histogram menunjukkan distribusi frekuensi dan bagaimana ukuran
sentral selaras dengan konsentrasi data.
Kotak-kotak menyorot median, kuartil, dan keberadaan outlier
dalam format yang ringkas.
Pada subbagian berikut, kita akan mengeksplorasi bagaimana
kecenderungan sentral berperilaku dalam kondisi yang berbeda visualisasi
histogram dan boxplot: menggunakan
Pada sub bagian berikut, kita akan mengeksplorasi bagaimana
kecenderungan sentral berperilaku dalam kondisi yang berbeda visualisasi
histogram dan boxplot:
Simetris dan Tanpa Outlier ketika data terdistribusi secara
merata di sekitar pusat.
Nilai Ekstrem (Miring) ketika outlier menarik nilai rata-rata ke
satu arah.
Variabel Kategorikal - ketika data mewakili kelompok atau kelas
yang berbeda.
Lebih Dari Satu Modus ketika data memiliki beberapa puncak atau
pusat konsentrasi.
Simetris dan Tidak
Ada Outlier
Distribusi simetris terjadi ketika nilai-nilai data tersebar merata
di sekitar titik pusat, menciptakan pola yang seimbang dan berbentuk
lonceng. Dalam hal ini, nilai rata-rata median, dan modus semuanya
berada pada atau mendekati titik pusat yang sama. Hal ini menunjukkan
bahwa tidak ada outlier atau kemiringan signifikan yang menarik data ke
satu sisi.
Nilai Ekstrem
(Miring)
Distribusi miring terjadi ketika nilai-nilai data tidak terdistribusi
secara simetris di sekitar pusat artinya salah satu ekor distribusi
lebih panjang atau lebih melebar daripada yang lain. Kemiringan ini
sering kali disebabkan oleh nilai-nilai ekstrem (outlier) yang menarik
rata-rata ke satu arah, sementara median dan modus tetap mendekati
puncak data.
Ketika suatu set data berisi nilai ekstrem tinggi atau rendah,
distribusinya menjadi miring positif (miring ke kanan) atau miring
negatif (miring ke kiri). Distorsi ini memengaruhi posisi ukuran
tendensi sentral dan memberikan wawasan berharga tentang perilaku data
yang mendasarinya.
Variabel
Kategori
Variabel kategori membagi data ke dalam kelompok atau kategori yang
berbeda. Ketika dikombinasikan dengan variabel numerik, kita dapat
menganalisis perbedaan distribusi nilai numerik di berbagai kategori.
Boxplot merupakan visualisasi yang sangat baik untuk tujuan ini diagram
ini menunjukkan median, kuartil, rentang, dan outlier dalam setiap
kelompok
Lebih Dari Satu
Modus
Dalam banyak kumpulan data dunia nyata, distribusi nilai tidak selalu
membentuk satu puncak yang halus. Sebaliknya, beberapa kumpulan data
menunjukkan dua atau lebih puncak yang berbeda, yang dikenal sebagai
beberapa modus. Setiap modus mewakili sebuah klaster tempat nilai-nilai
cenderung terkonsentrasi artinya data memiliki beberapa wilayah dengan
frekuensi tinggi, alih-alih satu lokasi sentral.
Tidak seperti histogram, boxplot tidak menampilkan jumlah puncak yang
tepat, tetapi menunjukkan dengan jelas bahwa data tidak terdistribusi
secara simetris misalnya, garis median mungkin tidak berada di tengah,
dan kumis mungkin memanjang tidak merata ke satu sisi. Bersama-sama,
histogram dan boxplot memberikan wawasan yang saling melengkapi:
histogram mengungkapkan keseluruhan (dan beberapa mode),
bentuk
sementara boxplot menekankan penyebaran dan kemiringan
data.
Persiapan
# 1) Paket yang diperlukan (instal jika perlu)
required_pkgs <- c("readxl", "dplyr", "ggplot2", "gridExtra", "moments")
to_install <- required_pkgs[!(required_pkgs %in% installed.packages()[, "Package"])]
if (length(to_install)) {
install.packages(to_install, dependencies = TRUE, repos = getOption("repos"))
}
lapply(required_pkgs, library, character.only = TRUE)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Warning: package 'gridExtra' was built under R version 4.5.2
##
## Attaching package: 'gridExtra'
## The following object is masked from 'package:dplyr':
##
## combine
## Warning: package 'moments' was built under R version 4.5.2
## [[1]]
## [1] "readxl" "stats" "graphics" "grDevices" "utils" "datasets"
## [7] "methods" "base"
##
## [[2]]
## [1] "dplyr" "readxl" "stats" "graphics" "grDevices" "utils"
## [7] "datasets" "methods" "base"
##
## [[3]]
## [1] "ggplot2" "dplyr" "readxl" "stats" "graphics" "grDevices"
## [7] "utils" "datasets" "methods" "base"
##
## [[4]]
## [1] "gridExtra" "ggplot2" "dplyr" "readxl" "stats" "graphics"
## [7] "grDevices" "utils" "datasets" "methods" "base"
##
## [[5]]
## [1] "moments" "gridExtra" "ggplot2" "dplyr" "readxl" "stats"
## [7] "graphics" "grDevices" "utils" "datasets" "methods" "base"
# file_path <- "D:/Tugas 6/Tugas 6/4 Central Tendency - Introduction to Statistics.xlsx"
file_path <- file.choose()
#file_path <- "D:/Tugas 6/Tugas 6/4 Central Tendency - Introduction to Statistics.xlsx"
if (!file.exists(file_path)) stop("File Excel tidak ditemukan. Ubah variable 'file_path' ke lokasi file yang benar.")
# 3) Baca data awal (pakai header)
raw <- readxl::read_excel(file_path, col_names = TRUE)
## New names:
## • `` -> `...1`
# Hapus kolom index auto jika ada (seperti ...1)
if ("...1" %in% names(raw)) raw <- raw %>% select(-`...1`)
# 4) Perbaiki header bila bergeser (ambil row 2 sebagai header jika perlu)
expected <- c("CustomerID", "Age", "Gender", "StoreLocation", "ProductCategory",
"TotalPurchase", "NumberOfVisits", "FeedbackScore")
if (sum(tolower(names(raw)) %in% tolower(expected)) < 4) {
message("Header tidak sesuai -> membaca ulang dan menggunakan baris ke-2 sebagai header.")
raw2 <- readxl::read_excel(file_path, col_names = FALSE)
header_row <- as.character(unlist(raw2[2, ]))
header_row[is.na(header_row) | header_row == ""] <- paste0("X", seq_along(header_row))[is.na(header_row) | header_row == ""]
df <- raw2[-c(1, 2), ]
colnames(df) <- header_row
} else {
df <- raw
}
# 5) Bersihkan nama kolom dan fallback assign expected bila perlu
colnames(df) <- trimws(gsub("\\n|\\r", " ", colnames(df)))
if (ncol(df) >= length(expected) && !all(expected %in% colnames(df))) {
message("Fallback: assign 8 kolom pertama ke nama expected.")
df <- df[, 1:length(expected)]
colnames(df) <- expected
}
present_cols <- intersect(expected, colnames(df))
df <- df[, present_cols, drop = FALSE]
message("Kolom terdeteksi: ", paste(colnames(df), collapse = ", "))
## Kolom terdeteksi: CustomerID, Age, Gender, StoreLocation, ProductCategory, TotalPurchase, NumberOfVisits, FeedbackScore
message("Contoh 6 baris:")
## Contoh 6 baris:
print(utils::head(df, 6))
## # A tibble: 6 × 8
## CustomerID Age Gender StoreLocation ProductCategory TotalPurchase
## <dbl> <dbl> <chr> <chr> <chr> <dbl>
## 1 1 32 M West Electronics 528
## 2 2 37 F South Books 72
## 3 3 63 M West Electronics 327
## 4 4 41 M North Sports 391
## 5 5 42 F East Electronics 514
## 6 6 66 F East Sports 381
## # ℹ 2 more variables: NumberOfVisits <dbl>, FeedbackScore <dbl>
Central Tendency dari
Setiap Variabel
Berdasarkan data yang kami pakai kolom-kolom yang termasuk varibel
numerik adalah:
- Age
- Total Purchase
- Number Of Visit
- Feedback Score
Berdasarkan data yang kami pakai kolom-kolom yang termasuk varibel
kategori adalah:
- Gender
- Store Location
- Product Categry
Berikut adalah ringkasan Central Tendency mulai dari Mean
(rata-rata), Median (nilai tengah), dan Modus (nilai yang paling sering
muncul) untuk setiap kolom/variabel numerik.
# 6) Konversi numerik (robust)
to_num <- function(x) {
x <- as.character(x)
x <- trimws(x)
x[x == ""] <- NA
x <- gsub("\\.(?=\\d{3}(?:\\D|$))", "", x, perl = TRUE) # hapus dot thousand
x <- gsub(",", ".", x) # koma -> titik
suppressWarnings(as.numeric(x))
}
num_cols <- intersect(c("Age", "TotalPurchase", "NumberOfVisits", "FeedbackScore"), names(df))
for (col in num_cols) df[[col]] <- to_num(df[[col]])
# 7) Modus function
get_mode <- function(v) {
v2 <- na.omit(round(v, 0))
if (length(v2) == 0) return(NA)
tab <- table(v2)
as.numeric(names(tab)[which.max(tab)])
}
# 8) Hitung statistik ringkasan (ditampilkan di console)
stats_list <- lapply(num_cols, function(col) {
v <- df[[col]]
data.frame(
Variable = col,
N = sum(!is.na(v)),
Mean = round(mean(v, na.rm = TRUE), 2),
Median = round(median(v, na.rm = TRUE), 2),
Mode = get_mode(v),
Skewness = round(moments::skewness(v, na.rm = TRUE), 3),
Kurtosis = round(moments::kurtosis(v, na.rm = TRUE), 3),
stringsAsFactors = FALSE
)
})
stats_tbl <- do.call(rbind, stats_list)
print(stats_tbl)
## Variable N Mean Median Mode Skewness Kurtosis
## 1 Age 200 39.99 39.0 18 0.335 2.539
## 2 TotalPurchase 200 211.79 108.5 33 1.172 4.112
## 3 NumberOfVisits 200 5.16 5.0 5 0.372 2.893
## 4 FeedbackScore 200 2.80 3.0 1 0.204 1.707
# 9) Fungsi plotting: histogram + density + mean/median/mode lines
plot_var <- function(v, varname, bins = 30) {
m <- mean(v, na.rm = TRUE)
md <- median(v, na.rm = TRUE)
mo <- get_mode(v)
ggplot(data.frame(x = v), aes(x = x)) +
geom_histogram(aes(y = after_stat(density)), bins = bins, fill = "#5ab4ac", color = "white", alpha = 0.85) +
geom_density(color = "#2b8cbe", linewidth = 1.05) +
geom_vline(xintercept = m, color = "black", linewidth = 1.05) +
geom_vline(xintercept = md, color = "blue", linetype = "dashed", linewidth = 1.05) +
geom_vline(xintercept = mo, color = "red", linetype = "dotdash", linewidth = 1.05) +
labs(title = paste0("Distribusi: ", varname),
subtitle = sprintf("N=%d Mean=%.2f Median=%.2f Mode=%s", sum(!is.na(v)), m, md, mo),
x = varname, y = "Density") +
theme_minimal(base_size = 12)
}
# 10) Tampilkan plot untuk tiap kolom numerik (hanya tampilkan, tidak menyimpan)
plots <- list()
if (length(num_cols) == 0) message("Tidak ada kolom numerik untuk diplot.")
for (col in num_cols) {
p <- plot_var(df[[col]], col, bins = 30)
plots[[col]] <- p
print(p) # tampil di Plots pane atau di dokumen knitted
}




# 11) Jika lebih dari 1 plot, gabungkan dan tampilkan vertikal (tidak disimpan)
if (length(plots) > 1) {
gridExtra::grid.arrange(grobs = plots, ncol = 1)
}

Analisis Boxplot per
Kategori
- Total Purchase
- Number Ofvisity
- ProductCategory
- Storelocation
- Gender
# 12) Boxplots per kategori (TotalPurchase & NumberOfVisits by ProductCategory / StoreLocation / Gender)
cat_cols <- intersect(c("ProductCategory", "StoreLocation", "Gender"), names(df))
if (length(cat_cols) == 0) {
message("Kolom kategori (ProductCategory/StoreLocation/Gender) tidak ditemukan. Lewati boxplot.")
} else {
make_box <- function(numeric_var, cat_var) {
df_tmp <- df %>%
dplyr::filter(!is.na(.data[[numeric_var]]), !is.na(.data[[cat_var]])) %>%
dplyr::mutate(!!cat_var := as.factor(.data[[cat_var]]))
if (nrow(df_tmp) == 0) return(NULL)
p <- ggplot(df_tmp, aes_string(x = cat_var, y = numeric_var, fill = cat_var)) +
geom_boxplot(outlier.colour = "red", outlier.shape = 16, alpha = 0.8) +
stat_summary(fun = mean, geom = "point", shape = 23, size = 3, fill = "yellow") +
labs(title = paste0(numeric_var, " by ", cat_var),
subtitle = "Boxplot per kategori — titik = mean",
x = cat_var, y = numeric_var) +
theme_minimal(base_size = 12) +
theme(legend.position = "none", axis.text.x = element_text(angle = 45, hjust = 1))
return(p)
}
for (numvar in c("TotalPurchase", "NumberOfVisits")) {
if (!(numvar %in% names(df))) next
for (catv in cat_cols) {
pbox <- make_box(numvar, catv)
if (is.null(pbox)) next
print(pbox) # tampil di dokumen / Plots pane
}
}
}
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.






Interpretasi
1.Histogram menunjukkan distribusi frekuensi dan bagaimana ukuran
sentral selaras dengan konsentrasi data.
2.Kotak-kotak menyorot median, kuartil, dan keberadaan outlier dalam
format yang ringkas.
3.Ketika suatu set data berisi nilai ekstrem tinggi atau rendah,
distribusinya menjadi miring positif (miring ke kanan) atau miring
negatif (miring ke kiri)
4.histogram menggungkapkan keseluruhan (dan beberapa mode), bentuk
sementara boxplot menekankan penyebaran dan kemiringan data.
