Dosen Pengampu:
Atik Wintarti NIDN: 0012106608
Belgis Ainatul Iza NIDN: 0021059403
Tahun Akademik 2026/2027
Program Studi S1 Sains Data
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Negeri Surabaya
install.packages("readxl")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)
library(readxl)
data <- read_excel("Bivariate analysis dataset.xlsx")
excel_sheets("Bivariate analysis dataset.xlsx")
## [1] "household" "suicides" "USstates" "bank note"
library(readxl)
data <- read_excel("Bivariate analysis dataset.xlsx", sheet = "household")
head(data)
## # A tibble: 6 × 5
## housing food goods service gender
## <dbl> <dbl> <dbl> <dbl> <chr>
## 1 820 114 183 154 female
## 2 184 74 6 20 female
## 3 921 66 1686 455 female
## 4 488 80 103 115 female
## 5 721 83 176 104 female
## 6 614 55 441 193 female
data$total <- data$housing + data$food + data$goods + data$service
head(data)
## # A tibble: 6 × 6
## housing food goods service gender total
## <dbl> <dbl> <dbl> <dbl> <chr> <dbl>
## 1 820 114 183 154 female 1271
## 2 184 74 6 20 female 284
## 3 921 66 1686 455 female 3128
## 4 488 80 103 115 female 786
## 5 721 83 176 104 female 1084
## 6 614 55 441 193 female 1303
install.packages("ggplot2")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)
library(ggplot2)
ggplot(data, aes(x = total, y = goods, color = gender)) +
geom_point(size = 3) +
labs(
title = "Goods Expenditure vs Total Expenditure",
x = "Total Expenditure",
y = "Goods Expenditure"
)
Scatter plot ini menunjukkan adanya korelasi positif yang kuat antara total pengeluaran (Total Expenditure) dengan pengeluaran untuk barang (Goods Expenditure), yang berarti semakin besar total pengeluaran seseorang, semakin tinggi pula nominal yang mereka habiskan untuk barang. Terdapat perbedaan pola distribusi yang mencolok berdasarkan gender; responden perempuan (titik merah muda) mayoritas terkonsentrasi pada rentang total pengeluaran yang lebih rendah di bawah 5.000 namun menunjukkan laju peningkatan belanja barang yang cukup tajam di rentang tersebut. Sebaliknya, responden laki-laki memiliki sebaran data yang jauh lebih luas dan mendominasi nilai ekstrem atas dengan total pengeluaran hingga melebihi 10.000, yang menunjukkan bahwa laki-laki mencatat rekor pengeluaran tertinggi, meskipun pada rentang pengeluaran total yang rendah (sekitar 2.000 - 3.000), kelompok perempuan terlihat mengalokasikan pengeluaran untuk barang sedikit lebih tinggi dibandingkan laki-laki.
ggplot(data, aes(x = total, y = housing, color = gender)) +
geom_point(size = 3) +
labs(
title = "Housing Expenditure vs Total Expenditure",
x = "Total Expenditure",
y = "Housing Expenditure"
)
Scatter plot ini memperlihatkan hubungan positif yang tidak sepenuhnya linier antara total pengeluaran dengan pengeluaran perumahan (Housing Expenditure). Pada tingkat total pengeluaran yang lebih rendah (mayoritas didominasi oleh responden perempuan yang ditandai dengan titik merah muda di bawah angka 5.000), pengeluaran untuk perumahan meningkat secara signifikan dan cenderung lebih tinggi secara proporsional dibandingkan responden laki-laki di rentang yang sama. Namun, seiring dengan bertambah tingginya total pengeluaran yang secara eksklusif didominasi oleh responden laki-laki hingga mencapai angka 10.000, pengeluaran perumahan tampak mengalami pelambatan atau mendatar di kisaran maksimal 0 hingga 2.500. Hal ini mengindikasikan bahwa biaya perumahan merupakan kebutuhan dasar yang memakan porsi besar pada anggaran individu dengan pengeluaran rendah, namun tidak terus meningkat secara proporsional bagi individu dengan total anggaran yang sangat besar (terdapat batas saturasi pengeluaran perumahan).
ggplot(data, aes(x = total, y = food, color = gender)) +
geom_point(size = 3) +
labs(
title = "Food Expenditure vs Total Expenditure",
x = "Total Expenditure",
y = "Food Expenditure"
)
Scatter plot ini mengungkapkan disparitas pola konsumsi yang sangat ekstrem dan nonlinier antara kelompok gender terkait pengeluaran makanan. Perempuan secara seragam terkonsentrasi di dasar grafik dengan pengeluaran makanan yang sangat rendah dan stagnan (mendekati angka nol). Hal ini mengindikasikan kemungkinan adanya anomali data, perbedaan metode pelaporan, atau kondisi di mana kebutuhan makanan kelompok ini tidak berasal dari pengeluaran langsung. Sebaliknya, responden laki-laki menunjukkan pola menyerupai kurva lonceng atau huruf U terbalik; pengeluaran makanan mereka awalnya melonjak tajam seiring kenaikan total anggaran hingga mencapai puncaknya (lebih dari 1.000) pada kisaran total pengeluaran 3.000–4.000, namun secara tak terduga berangsur turun dan melandai ketika total pengeluaran individu semakin tinggi hingga mendekati 11.000.
ggplot(data, aes(x = total, y = service, color = gender)) +
geom_point(size = 3) +
labs(
title = "Service Expenditure vs Total Expenditure",
x = "Total Expenditure",
y = "Service Expenditure"
)
Plot sebar ini memvisualisasikan korelasi positif yang sangat kuat dan linier antara total pengeluaran dengan pengeluaran untuk jasa (Service Expenditure). Berbeda dengan tren pada kebutuhan pokok seperti makanan atau perumahan yang sebelumnya cenderung mengalami titik saturasi mendatar, pengeluaran jasa tampak terus meningkat secara konsisten seiring bertambah besarnya total anggaran. Pada rentang pengeluaran total di bawah 5.000, pola konsumsi antara responden perempuan dan laki-laki berbaur sangat rapat mengikuti garis tren yang sama, menunjukkan tidak adanya perbedaan perilaku konsumsi jasa yang signifikan antar gender pada tingkat pengeluaran rendah ini. Namun, kelompok laki-laki kembali mendominasi eksklusif pada rentang pengeluaran total menengah hingga sangat tinggi (menembus angka 10.000), di mana pengeluaran jasa mereka melonjak tajam melewati angka 2.000 tanpa menunjukkan tanda-tanda pelambatan. Fenomena ini mengindikasikan bahwa layanan jasa memiliki karakteristik barang elastis atau tersier; individu dengan kapasitas anggaran yang lebih besar akan terus secara konsisten menambah porsi belanja mereka untuk jasa tanpa adanya batas jenuh yang terlihat dalam dataset ini.
suicide <- read_excel("Bivariate analysis dataset.xlsx", sheet = "suicides")
head(suicide)
## # A tibble: 6 × 6
## Country `Age (25-34)` `Age (35-44)` `Age (45-54)` `Age (55-64)` `Age (65-74)`
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Canada 22 27 31 34 24
## 2 Israel 9 19 10 14 27
## 3 Japan 22 19 21 31 49
## 4 Austria 29 40 52 53 69
## 5 France 16 25 36 47 56
## 6 Germany 28 35 41 49 52
install.packages("tidyr")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)
library(tidyr)
suicide_long <- pivot_longer(
suicide,
cols = -Country,
names_to = "Age_Group",
values_to = "Rate"
)
head(suicide_long)
## # A tibble: 6 × 3
## Country Age_Group Rate
## <chr> <chr> <dbl>
## 1 Canada Age (25-34) 22
## 2 Canada Age (35-44) 27
## 3 Canada Age (45-54) 31
## 4 Canada Age (55-64) 34
## 5 Canada Age (65-74) 24
## 6 Israel Age (25-34) 9
library(ggplot2)
ggplot(suicide_long, aes(x = Age_Group, y = Rate)) +
geom_boxplot(fill = "lightblue") +
labs(
title = "Male Suicide Rates by Age Group",
x = "Age Group",
y = "Mortality Rate per 100,000"
)
Boxplot ini menyajikan distribusi tingkat kematian akibat bunuh diri pada populasi laki-laki (per 100.000 jiwa) melintasi lima kelompok usia yang berurutan. Secara visual, grafik ini memperlihatkan tren peningkatan yang sangat jelas dan teratur; nilai tengah (median) tingkat bunuh diri secara konsisten merangkak naik seiring dengan bertambahnya usia, berpuncak pada kelompok usia tertua (65-74 tahun). Selain peningkatan nilai sentral, tingkat variabilitas atau sebaran data (yang tercermin dari tinggi kotak atau rentang interkuartil serta panjang whisker) juga semakin melebar pada kelompok usia yang lebih tua, menandakan bahwa disparitas tingkat bunuh diri antar pengamatan menjadi semakin bervariasi dan ekstrem pada populasi lansia. Kehadiran titik-titik pencilan atas (upper outliers), khususnya satu pencilan ekstrem yang melampaui angka 100 pada kelompok usia 65-74 tahun, semakin menggarisbawahi tingginya kerentanan psikologis dan risiko fatal yang dialami oleh laki-laki usia lanjut di lokasi-lokasi tertentu dibandingkan dengan kelompok usia produktif di bawahnya.
states <- read_excel("Bivariate analysis dataset.xlsx", sheet = "USstates")
head(states)
## # A tibble: 6 × 7
## Population Income Illiteracy Life.Expectancy Homicide Graduates Freezing
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3615 3624 2.1 69.0 15.1 41.3 20
## 2 21198 5114 1.1 71.7 10.3 62.6 20
## 3 2861 4628 0.5 72.6 2.3 59 140
## 4 2341 3098 2.4 68.1 12.5 41 50
## 5 812 4281 0.7 71.2 3.3 57.6 174
## 6 10735 4561 0.8 70.8 7.4 53.2 124
library(ggplot2)
ggplot(states, aes(x = Homicide, y = Life.Expectancy, color = Income)) +
geom_point(size = 3) +
labs(
title = "Life Expectancy vs Homicide Rate",
x = "Homicide Rate",
y = "Life Expectancy"
)
Plot sebar multivariat ini mengilustrasikan korelasi negatif yang cukup jelas antara tingkat pembunuhan (Homicide Rate) dengan angka harapan hidup (Life Expectancy); seiring dengan meningkatnya insiden pembunuhan di suatu wilayah, angka harapan hidup populasinya cenderung mengalami penurunan yang signifikan (dari kisaran 72 tahun merosot hingga di bawah 69 tahun). Penambahan dimensi ketiga melalui gradasi warna yang merepresentasikan tingkat pendapatan (Income) mengungkap adanya stratifikasi sosio-ekonomi yang beririsan kuat dengan kedua variabel tersebut. Wilayah yang ditandai dengan titik berwarna biru terang, merepresentasikan kelompok berpendapatan tinggi (mendekati angka 5.000) mayoritas terkonsentrasi di kuadran kiri atas, menikmati kombinasi ideal antara tingkat keamanan yang tinggi (pembunuhan rendah) dan usia harapan hidup yang panjang. Sebaliknya, titik-titik berwarna biru gelap yang mengindikasikan pendapatan lebih rendah tampak mendominasi area kanan bawah grafik, yang merepresentasikan kondisi wilayah dengan tingkat kriminalitas tinggi dan kualitas kesehatan (harapan hidup) yang jauh lebih buruk. Pola ini secara komprehensif menyiratkan bahwa kesejahteraan ekonomi memiliki keterkaitan yang sangat erat dengan terciptanya lingkungan yang aman dan kualitas hidup yang lebih baik.
bank <- read_excel("Bivariate analysis dataset.xlsx", sheet = "bank note")
head(bank)
## # A tibble: 6 × 6
## Length Left Right Bottom Top Diagonal
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 215. 131 131. 9 9.7 141
## 2 215. 130. 130. 8.1 9.5 142.
## 3 215. 130. 130. 8.7 9.6 142.
## 4 215. 130. 130. 7.5 10.4 142
## 5 215 130. 130. 10.4 7.7 142.
## 6 216. 131. 130. 9 10.1 141.
pairs(bank)
Plot matriks (pairs plot) ini menyajikan ringkasan visual yang komprehensif mengenai hubungan bivariat di antara enam variabel dimensi fisik uang kertas, yaitu panjang (length), margin kiri (left), margin kanan (right), margin bawah (bottom), margin atas (top), dan garis diagonal. Melalui matriks ini, kita dapat mengidentifikasi beberapa korelasi linier yang signifikan, seperti korelasi positif yang kuat antara margin kiri dan kanan (menunjukkan bahwa uang kertas cenderung dipotong secara simetris di kedua sisi vertikalnya), serta korelasi negatif yang cukup jelas antara margin bawah dan atas. Namun, temuan paling krusial dan mencolok dari visualisasi ini adalah terbentuknya pola pengelompokan ganda (bimodal clustering) yang sangat kentara pada hampir semua scatter plot yang melibatkan variabel diagonal (terutama saat disandingkan dengan margin bawah atau atas). Terpisahnya kumpulan titik data menjadi dua klaster atau kelompok utama yang sangat tegas ini merupakan indikator kuat adanya dua populasi atau kelas berbeda di dalam dataset, yang dalam konteks analisis forensik finansial, sangat mungkin merepresentasikan perbedaan karakteristik fisik yang membedakan antara uang kertas asli dan uang kertas palsu.