df_customer <- read.csv("df_customer.csv")
head(df_customer)
## X ID_Pelanggan Jenis_Kelamin Tempat_Tinggal Penghasilan Total_Belanja
## 1 1 ID00031 Laki-laki Desa 2227350 2563031
## 2 2 ID00079 Perempuan Kota 9047608 8369550
## 3 3 ID00051 Perempuan Kota 9735540 8053033
## 4 4 ID00014 Laki-laki Kota 13510126 9799876
## 5 5 ID00067 Perempuan Desa 7773498 6982081
## 6 6 ID00042 Laki-laki Desa 6666740 4782002
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
grafik1 = ggplot(data= df_customer, aes(x= Jenis_Kelamin, y = Total_Belanja))
grafik2 = ggplot(data= df_customer, aes(x= Jenis_Kelamin, y = Total_Belanja))+geom_point()
grafik3 = ggplot(data= df_customer)+geom_point(aes(x= Jenis_Kelamin, y = Total_Belanja))
grafik1

grafik2

grafik3

ggplot(df_customer, aes(x = Jenis_Kelamin, y = Total_Belanja)) +
geom_point(aes(color = Jenis_Kelamin)) +
labs(title = "Scatter Plot Jenis Kelamin vs Total Belanja")

q11 <- df_customer %>%
filter(Total_Belanja > 5000000) %>%
count(ID_Pelanggan, sort = TRUE) %>%
slice_head(n=5)
q11 <- data.frame(q11)
ggplot(q11, aes(x = reorder(ID_Pelanggan, n), y = n)) +
geom_bar(stat = "identity", fill = "blue") +
labs(title = "Top 6 Pelanggan dengan Transaksi > 5 Juta",
x = "ID Pelanggan", y = "Jumlah Transaksi")

q22 <- df_customer %>%
filter(Total_Belanja > 9500000)
q22
## X ID_Pelanggan Jenis_Kelamin Tempat_Tinggal Penghasilan Total_Belanja
## 1 4 ID00014 Laki-laki Kota 13510126 9799876
## 2 11 ID00090 Perempuan Kota 10910287 10137674
## 3 26 ID00036 Perempuan Kota 10513994 10641105
## 4 33 ID00007 Perempuan Kota 12418168 10846012
## 5 49 ID00069 Laki-laki Kota 12913133 9594128
## 6 57 ID00025 Perempuan Kota 12165915 9945372
## 7 64 ID00060 Perempuan Kota 8044495 9758749
## 8 72 ID00039 Perempuan Kota 8426053 10344433
## 9 76 ID00034 Perempuan Kota 13710077 11626302
## 10 86 ID00087 Perempuan Kota 10801006 9872391
## 11 101 ID00079 Laki-laki Kota 11457479 10241993
## 12 113 ID00046 Perempuan Kota 12685031 9689403
## 13 126 ID00023 Perempuan Kota 9959994 9531823
## 14 132 ID00005 Perempuan Kota 13866523 9817378
## 15 164 ID00048 Perempuan Kota 10267976 9695153
## 16 167 ID00093 Laki-laki Kota 11201564 9890886
## 17 175 ID00011 Perempuan Kota 14915620 11527638
## 18 182 ID00046 Perempuan Kota 12526695 9516174
## 19 204 ID00074 Perempuan Kota 12967967 10556216
## 20 208 ID00023 Perempuan Kota 16145151 10739381
## 21 224 ID00090 Perempuan Desa 11664452 9796996
## 22 228 ID00057 Perempuan Kota 12812680 11031197
## 23 246 ID00084 Laki-laki Kota 13498940 9639414
## 24 252 ID00064 Laki-laki Kota 12547893 10615150
## 25 264 ID00025 Perempuan Kota 9725724 9710543
## 26 275 ID00061 Laki-laki Kota 11541420 9924147
## 27 278 ID00045 Perempuan Kota 12419648 9928570
## 28 282 ID00053 Perempuan Kota 13719595 9589712
## 29 287 ID00093 Perempuan Kota 10699070 10984825
q222 = aggregate(q22$Total_Belanja, by = list(q22$ID_Pelanggan), FUN = mean)
head(q222)
## Group.1 x
## 1 ID00005 9817378
## 2 ID00007 10846012
## 3 ID00011 11527638
## 4 ID00014 9799876
## 5 ID00023 10135602
## 6 ID00025 9827958
ggplot(data= q222, aes(x = reorder(Group.1, x), y = x))+ geom_point(color = "purple", size = 4, alpha = 0.6) + geom_segment(aes(x = reorder(Group.1, x),xend = reorder(Group.1, x), y = 0, yend = x))+labs(x = "ID Pelanggan", y = "Total Belanja") +coord_flip()

ggplot(df_customer, aes(x = Penghasilan)) +
geom_histogram(bins = 30, fill = "pink", color = "white") +
labs(title = "Sebaran Penghasilan Pelanggan", x= "Penghasilan", y = "Frekuensi")

ggplot(df_customer, aes(x = Total_Belanja)) +
geom_histogram(bins = 30, fill = "darkgreen", color = "white") +
labs(title = "Sebaran Total Belanja Pelanggan", x = "Total Belanja", y = "Frekuensi")

ggplot(df_customer, aes(x = Tempat_Tinggal, y = Penghasilan, fill = Tempat_Tinggal)) +
geom_boxplot() +
labs(Title = "Perbandingan Penghasilan Kota vs Desa", x = "Tempat Tinggal", y = "Penghasilan")
## Ignoring unknown labels:
## • Title : "Perbandingan Penghasilan Kota vs Desa"

ggplot(df_customer, aes(x = Jenis_Kelamin, y = Total_Belanja, fill = Jenis_Kelamin)) +
geom_boxplot() +
labs(title = "Perbandingan Belanja Berdasarkan Jenis Kelamin", x = "Jenis Kelamin", y = "Total Belanja")

ggplot(df_customer, aes(x = Penghasilan, y = Total_Belanja, color = Tempat_Tinggal)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "lm", se = FALSE, color = "red") +
labs(title = "Hubungan Penghasilan vs Total Belanja",
x = "Penghasilan", y = "Total Belanja")
## `geom_smooth()` using formula = 'y ~ x'

ggplot(df_customer, aes(x = Penghasilan, y = Total_Belanja, color = Jenis_Kelamin)) +
geom_point(alpha = 0.6) +
labs(title = "Hubungan Penghasilan vs Belanja Berdasarkan Gender",
x = "Penghasilan", y = "Total Belanja")
