df_customer <- read.csv("df_customer.csv")
head(df_customer)
## X ID_Pelanggan Jenis_Kelamin Tempat_Tinggal Penghasilan Total_Belanja
## 1 1 ID00031 Laki-laki Desa 2227350 2563031
## 2 2 ID00079 Perempuan Kota 9047608 8369550
## 3 3 ID00051 Perempuan Kota 9735540 8053033
## 4 4 ID00014 Laki-laki Kota 13510126 9799876
## 5 5 ID00067 Perempuan Desa 7773498 6982081
## 6 6 ID00042 Laki-laki Desa 6666740 4782002
nrow(df_customer)
## [1] 300
length(unique(df_customer$ID_Pelanggan))
## [1] 94
sort(table(df_customer$ID_Pelanggan), decreasing = TRUE)[1:5]
##
## ID00007 ID00025 ID00089 ID00093 ID00026
## 9 7 7 7 6
aggregate(Penghasilan ~ Jenis_Kelamin, data = df_customer, mean)
## Jenis_Kelamin Penghasilan
## 1 Laki-laki 8880902
## 2 Perempuan 8505199
aggregate(Total_Belanja ~ Jenis_Kelamin, data = df_customer, mean)
## Jenis_Kelamin Total_Belanja
## 1 Laki-laki 6034728
## 2 Perempuan 7114786
aggregate(Penghasilan ~ Tempat_Tinggal, data = df_customer, mean)
## Tempat_Tinggal Penghasilan
## 1 Desa 6249122
## 2 Kota 9878685
aggregate(Total_Belanja ~ Tempat_Tinggal, data = df_customer, mean)
## Tempat_Tinggal Total_Belanja
## 1 Desa 5022231
## 2 Kota 7520118
aggregate(Total_Belanja ~ Tempat_Tinggal, data = df_customer, mean)
## Tempat_Tinggal Total_Belanja
## 1 Desa 5022231
## 2 Kota 7520118
df_customer[order(-df_customer$Total_Belanja), c("ID_Pelanggan", "Total_Belanja")] |> head(5)
## ID_Pelanggan Total_Belanja
## 76 ID00034 11626302
## 175 ID00011 11527638
## 228 ID00057 11031197
## 287 ID00093 10984825
## 33 ID00007 10846012
table(df_customer$Jenis_Kelamin)
##
## Laki-laki Perempuan
## 121 179
df_customer$Kategori_Penghasilan <- cut(df_customer$Penghasilan,
breaks = c(-Inf, 5000000, 10000000, Inf),
labels = c("Rendah", "Menengah", "Tinggi"))
table(df_customer$Kategori_Penghasilan)
##
## Rendah Menengah Tinggi
## 27 175 98
#TUGAS!
Nomer 1 Siapa pelanggan yang paling sering membeli dengan total belanja lebih dari 5000000?
sort(table(df_customer$ID_Pelanggan))
##
## ID00012 ID00015 ID00018 ID00044 ID00047 ID00056 ID00059 ID00062 ID00068 ID00073
## 1 1 1 1 1 1 1 1 1 1
## ID00078 ID00088 ID00095 ID00001 ID00004 ID00005 ID00010 ID00011 ID00020 ID00021
## 1 1 1 2 2 2 2 2 2 2
## ID00022 ID00029 ID00034 ID00038 ID00043 ID00051 ID00058 ID00061 ID00064 ID00066
## 2 2 2 2 2 2 2 2 2 2
## ID00070 ID00075 ID00092 ID00096 ID00098 ID00099 ID00002 ID00008 ID00013 ID00030
## 2 2 2 2 2 2 3 3 3 3
## ID00033 ID00035 ID00037 ID00039 ID00041 ID00045 ID00048 ID00049 ID00050 ID00052
## 3 3 3 3 3 3 3 3 3 3
## ID00055 ID00060 ID00069 ID00076 ID00077 ID00081 ID00083 ID00086 ID00097 ID00006
## 3 3 3 3 3 3 3 3 3 4
## ID00016 ID00017 ID00027 ID00036 ID00040 ID00046 ID00057 ID00067 ID00071 ID00082
## 4 4 4 4 4 4 4 4 4 4
## ID00085 ID00087 ID00091 ID00094 ID00009 ID00014 ID00023 ID00024 ID00031 ID00042
## 4 4 4 4 5 5 5 5 5 5
## ID00053 ID00054 ID00063 ID00072 ID00074 ID00079 ID00084 ID00090 ID00026 ID00032
## 5 5 5 5 5 5 5 5 6 6
## ID00025 ID00089 ID00093 ID00007
## 7 7 7 9
sort(table(df_customer$Total_Belanja>5000000))
##
## FALSE TRUE
## 62 238
Nomer 2
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
#Ada berapa banyak perempuan dikota yang berbelanja lebih dari 5X
sort(table(df_customer$Jenis_Kelamin == "Perempuan"))
##
## FALSE TRUE
## 121 179
df_customer_jenis_kelamin <- filter(df_customer,Jenis_Kelamin == "Perempuan")
head(df_customer_jenis_kelamin)
## X ID_Pelanggan Jenis_Kelamin Tempat_Tinggal Penghasilan Total_Belanja
## 1 2 ID00079 Perempuan Kota 9047608 8369550
## 2 3 ID00051 Perempuan Kota 9735540 8053033
## 3 5 ID00067 Perempuan Desa 7773498 6982081
## 4 7 ID00050 Perempuan Desa 5658721 4286283
## 5 9 ID00014 Perempuan Desa 6776730 6315967
## 6 11 ID00090 Perempuan Kota 10910287 10137674
## Kategori_Penghasilan
## 1 Menengah
## 2 Menengah
## 3 Menengah
## 4 Menengah
## 5 Menengah
## 6 Tinggi
Nomer 2
#Ada berapa banyak perempuan dikota yang berbelanja lebih dari 5X
q2 <- subset(df_customer, Jenis_Kelamin == "Perempuan" & Tempat_Tinggal == "Kota")
q2_count <- table(q2$ID_Pelanggan)
q2_count <- data.frame(q2_count)
q2_count
## Var1 Freq
## 1 ID00001 1
## 2 ID00002 3
## 3 ID00004 2
## 4 ID00005 1
## 5 ID00006 2
## 6 ID00007 5
## 7 ID00009 1
## 8 ID00010 1
## 9 ID00011 1
## 10 ID00012 1
## 11 ID00013 1
## 12 ID00016 1
## 13 ID00017 1
## 14 ID00021 1
## 15 ID00023 3
## 16 ID00024 3
## 17 ID00025 4
## 18 ID00026 4
## 19 ID00030 2
## 20 ID00031 2
## 21 ID00032 3
## 22 ID00034 1
## 23 ID00035 1
## 24 ID00036 3
## 25 ID00037 3
## 26 ID00038 1
## 27 ID00039 2
## 28 ID00040 2
## 29 ID00041 1
## 30 ID00042 2
## 31 ID00043 1
## 32 ID00044 1
## 33 ID00045 3
## 34 ID00046 3
## 35 ID00048 1
## 36 ID00050 2
## 37 ID00051 2
## 38 ID00053 4
## 39 ID00054 2
## 40 ID00056 1
## 41 ID00057 2
## 42 ID00058 1
## 43 ID00060 2
## 44 ID00063 3
## 45 ID00066 1
## 46 ID00067 1
## 47 ID00069 2
## 48 ID00070 1
## 49 ID00071 2
## 50 ID00072 1
## 51 ID00074 1
## 52 ID00075 1
## 53 ID00076 2
## 54 ID00079 2
## 55 ID00082 1
## 56 ID00083 1
## 57 ID00084 1
## 58 ID00085 3
## 59 ID00086 1
## 60 ID00087 3
## 61 ID00089 1
## 62 ID00090 2
## 63 ID00091 2
## 64 ID00092 1
## 65 ID00093 1
## 66 ID00096 1
## 67 ID00099 1
q22 <- df_customer %>%
filter(Jenis_Kelamin == "Perempuan", Tempat_Tinggal == "Kota") %>%
count(ID_Pelanggan) %>%
filter(n > 5) %>%
summarise(jumlah = n())
q22
## jumlah
## 1 0
Nomer 3 #Siapa pelanggan yang paling sering membeli dengan penghasilan lebih dari 5.000.000 `
q33 <- df_customer %>%
filter(Penghasilan > 5000000) %>%
count(ID_Pelanggan, sort = TRUE) %>%
slice_head(n = 1)
q33
## ID_Pelanggan n
## 1 ID00007 9
Nomer 4 # Berjenis kelamin apa pelanggan yang tinggal di desa dengan total belanja > 5.000.000
q4 <- subset(df_customer, Tempat_Tinggal == "Desa" & Total_Belanja > 5000000)
table(q4$Jenis_Kelamin)
##
## Laki-laki Perempuan
## 10 37
##
q44 <- df_customer %>%
filter(Tempat_Tinggal == "Desa", Total_Belanja > 5000000) %>%
count(Jenis_Kelamin)
q44
## Jenis_Kelamin n
## 1 Laki-laki 10
## 2 Perempuan 37
Nomer 5 # 5. Berpenghasilan berapa pelanggan yang tinggal di desa namun memiliki total belanja > 5.000.000
q5 <- subset(df_customer, Tempat_Tinggal == "Desa" & Total_Belanja > 5000000)
head(q5[, c("ID_Pelanggan", "Penghasilan")], 5)
## ID_Pelanggan Penghasilan
## 5 ID00067 7773498
## 9 ID00014 6776730
## 43 ID00027 8108645
## 46 ID00089 9032981
## 47 ID00034 5616450
Nomer 5 # 5. Berpenghasilan berapa pelanggan yang tinggal di desa namun memiliki total belanja > 5.000.000
q55 <- df_customer %>%
filter(Tempat_Tinggal == "Desa", Total_Belanja > 5000000) %>%
select(ID_Pelanggan, Penghasilan) %>%
head(5)
q55
## ID_Pelanggan Penghasilan
## 1 ID00067 7773498
## 2 ID00014 6776730
## 3 ID00027 8108645
## 4 ID00089 9032981
## 5 ID00034 5616450