df_customer <- read.csv("df_customer.csv")
head(df_customer)
## X ID_Pelanggan Jenis_Kelamin Tempat_Tinggal Penghasilan Total_Belanja
## 1 1 ID00031 Laki-laki Desa 2227350 2563031
## 2 2 ID00079 Perempuan Kota 9047608 8369550
## 3 3 ID00051 Perempuan Kota 9735540 8053033
## 4 4 ID00014 Laki-laki Kota 13510126 9799876
## 5 5 ID00067 Perempuan Desa 7773498 6982081
## 6 6 ID00042 Laki-laki Desa 6666740 4782002
nrow(df_customer)
## [1] 300
length(unique(df_customer$ID_Pelanggan))
## [1] 94
sort(table(df_customer$ID_Pelanggan), decreasing = TRUE)[1:3]
##
## ID00007 ID00025 ID00089
## 9 7 7
aggregate(Penghasilan ~ Jenis_Kelamin, data = df_customer, mean)
## Jenis_Kelamin Penghasilan
## 1 Laki-laki 8880902
## 2 Perempuan 8505199
aggregate(Total_Belanja ~ Jenis_Kelamin, data = df_customer, mean)
## Jenis_Kelamin Total_Belanja
## 1 Laki-laki 6034728
## 2 Perempuan 7114786
aggregate(Penghasilan ~ Tempat_Tinggal, data = df_customer, mean)
## Tempat_Tinggal Penghasilan
## 1 Desa 6249122
## 2 Kota 9878685
aggregate(Total_Belanja ~ Tempat_Tinggal, data = df_customer, mean)
## Tempat_Tinggal Total_Belanja
## 1 Desa 5022231
## 2 Kota 7520118
df_customer[order(-df_customer$Total_Belanja), c("ID_Pelanggan", "Total_Belanja")] |> head(5)
## ID_Pelanggan Total_Belanja
## 76 ID00034 11626302
## 175 ID00011 11527638
## 228 ID00057 11031197
## 287 ID00093 10984825
## 33 ID00007 10846012
table(df_customer$Jenis_Kelamin)
##
## Laki-laki Perempuan
## 121 179
df_customer$Kategori_Penghasilan <- cut(df_customer$Penghasilan,
breaks = c(-Inf, 5000000, 10000000, Inf),
labels = c("Rendah", "Menengah", "Tinggi"))
table(df_customer$Kategori_Penghasilan)
##
## Rendah Menengah Tinggi
## 27 175 98
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
#tugas #pelanggan yang paling banyak belanja dengan total belanjaan lebih dari 5000000
q11 <- df_customer %>%
filter(Total_Belanja > 5000000) %>%
count(ID_Pelanggan, sort = TRUE) %>%
slice_head(n=1)
q11
## ID_Pelanggan n
## 1 ID00007 7
#Ada berapa banyak perempuan di kota yang berbelanja lebih dari 5x
df_customer_Jenis_Kelamin <- filter(df_customer,Jenis_Kelamin == "Perempuan")
head(df_customer_Jenis_Kelamin)
## X ID_Pelanggan Jenis_Kelamin Tempat_Tinggal Penghasilan Total_Belanja
## 1 2 ID00079 Perempuan Kota 9047608 8369550
## 2 3 ID00051 Perempuan Kota 9735540 8053033
## 3 5 ID00067 Perempuan Desa 7773498 6982081
## 4 7 ID00050 Perempuan Desa 5658721 4286283
## 5 9 ID00014 Perempuan Desa 6776730 6315967
## 6 11 ID00090 Perempuan Kota 10910287 10137674
## Kategori_Penghasilan
## 1 Menengah
## 2 Menengah
## 3 Menengah
## 4 Menengah
## 5 Menengah
## 6 Tinggi
sort(table(df_customer$Tempat_Tinggal))
##
## Desa Kota
## 101 199
df_customer_Tempat_Tinggal <- filter(df_customer_Jenis_Kelamin,Tempat_Tinggal == "Kota") %>%
count(ID_Pelanggan) %>%
filter(n>5) %>%
summarise(jumlah = n())
head(df_customer_Tempat_Tinggal)
## jumlah
## 1 0
#Siapa pelanggan yang paling sering membeli dengan penghasilan lebih dari 5000000
q33 <- df_customer %>%
filter(Penghasilan > 5000000) %>%
count(ID_Pelanggan, sort = TRUE) %>%
slice_head(n = 1)
q33
## ID_Pelanggan n
## 1 ID00007 9
#Berjenis kelamin apa pelanggan yang tinggal di desa namun memiliki total belanja yang lebih dari 5000000
q4 <- subset(df_customer, Tempat_Tinggal == "Desa" & Total_Belanja > 5000000)
table(q4$Jenis_Kelamin)
##
## Laki-laki Perempuan
## 10 37
`
#Berpenghasilan berapa pelanggan yang tinggal di desa namun memiliki total belanja lebih dari 5000000
q55 <- df_customer %>%
filter(Tempat_Tinggal == "Desa", Total_Belanja > 5000000) %>%
select(ID_Pelanggan, Penghasilan) %>%
head(5)
q55
## ID_Pelanggan Penghasilan
## 1 ID00067 7773498
## 2 ID00014 6776730
## 3 ID00027 8108645
## 4 ID00089 9032981
## 5 ID00034 5616450