R Markdown

df_customer <- read.csv("df_customer.csv")
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

NO.1

q1 <- df_customer[df_customer$Total_Belanja > 5000000,]
q1 <- sort(table(q1$ID_Pelanggan), decreasing = TRUE)
head(q1)
## 
## ID00007 ID00025 ID00026 ID00089 ID00053 ID00079 
##       7       7       6       6       5       5
q11 <- df_customer %>%
  filter(Total_Belanja > 5000000) %>%
  count(ID_Pelanggan, sort = TRUE) %>%
  slice_head(n=6)
q11
##   ID_Pelanggan n
## 1      ID00007 7
## 2      ID00025 7
## 3      ID00026 6
## 4      ID00089 6
## 5      ID00053 5
## 6      ID00079 5

NO.2

q2 <- subset(df_customer, Jenis_Kelamin == "Perempuan" & Tempat_Tinggal == "Kota")
q2_count <- table(q2$ID_Pelanggan)
q2_count <- data.frame(q2_count)
q2_count
##       Var1 Freq
## 1  ID00001    1
## 2  ID00002    3
## 3  ID00004    2
## 4  ID00005    1
## 5  ID00006    2
## 6  ID00007    5
## 7  ID00009    1
## 8  ID00010    1
## 9  ID00011    1
## 10 ID00012    1
## 11 ID00013    1
## 12 ID00016    1
## 13 ID00017    1
## 14 ID00021    1
## 15 ID00023    3
## 16 ID00024    3
## 17 ID00025    4
## 18 ID00026    4
## 19 ID00030    2
## 20 ID00031    2
## 21 ID00032    3
## 22 ID00034    1
## 23 ID00035    1
## 24 ID00036    3
## 25 ID00037    3
## 26 ID00038    1
## 27 ID00039    2
## 28 ID00040    2
## 29 ID00041    1
## 30 ID00042    2
## 31 ID00043    1
## 32 ID00044    1
## 33 ID00045    3
## 34 ID00046    3
## 35 ID00048    1
## 36 ID00050    2
## 37 ID00051    2
## 38 ID00053    4
## 39 ID00054    2
## 40 ID00056    1
## 41 ID00057    2
## 42 ID00058    1
## 43 ID00060    2
## 44 ID00063    3
## 45 ID00066    1
## 46 ID00067    1
## 47 ID00069    2
## 48 ID00070    1
## 49 ID00071    2
## 50 ID00072    1
## 51 ID00074    1
## 52 ID00075    1
## 53 ID00076    2
## 54 ID00079    2
## 55 ID00082    1
## 56 ID00083    1
## 57 ID00084    1
## 58 ID00085    3
## 59 ID00086    1
## 60 ID00087    3
## 61 ID00089    1
## 62 ID00090    2
## 63 ID00091    2
## 64 ID00092    1
## 65 ID00093    1
## 66 ID00096    1
## 67 ID00099    1
q22 <- df_customer %>%
  filter(Jenis_Kelamin == "Perempuan", Tempat_Tinggal == "Kota") %>%
  count(ID_Pelanggan) %>%
  filter(n > 5) %>%
  summarise(jumlah = n())
q22
##   jumlah
## 1      0

NO.3

q3 <- df_customer[df_customer$Penghasilan > 5000000, ]
q3 <- sort(table(q3$ID_Pelanggan), decreasing = TRUE)
head(q3, 1)
## 
## ID00007 
##       9
q33 <- df_customer %>%
  filter(Penghasilan > 5000000) %>%
  count(ID_Pelanggan, sort = TRUE) %>%
  slice_head(n = 1)
q33
##   ID_Pelanggan n
## 1      ID00007 9

NO.4

q4 <- subset(df_customer, Tempat_Tinggal == "Desa" & Total_Belanja > 5000000)
table(q4$Jenis_Kelamin)
## 
## Laki-laki Perempuan 
##        10        37
q44 <- df_customer %>%
  filter(Tempat_Tinggal == "Desa", Total_Belanja > 5000000) %>%
  count(Jenis_Kelamin)
q44
##   Jenis_Kelamin  n
## 1     Laki-laki 10
## 2     Perempuan 37

NO.5

q5 <- subset(df_customer, Tempat_Tinggal == "Desa" & Total_Belanja > 5000000)
head(q5[, c("ID_Pelanggan", "Penghasilan")], 5)
##    ID_Pelanggan Penghasilan
## 5       ID00067     7773498
## 9       ID00014     6776730
## 43      ID00027     8108645
## 46      ID00089     9032981
## 47      ID00034     5616450
q55 <- df_customer %>%
  filter(Tempat_Tinggal == "Desa", Total_Belanja > 5000000) %>%
  select(ID_Pelanggan, Penghasilan) %>%
  head(5)
q55
##   ID_Pelanggan Penghasilan
## 1      ID00067     7773498
## 2      ID00014     6776730
## 3      ID00027     8108645
## 4      ID00089     9032981
## 5      ID00034     5616450
library(ggplot2)
library(dplyr)
grafik1 = ggplot(data= df_customer, aes(x= Jenis_Kelamin, y = Total_Belanja))
grafik2 = ggplot(data= df_customer, aes(x= Jenis_Kelamin, y = Total_Belanja))+geom_point()
grafik3 = ggplot(data= df_customer)+geom_point(aes(x= Jenis_Kelamin, y = Total_Belanja))
grafik1

grafik2

grafik3

ggplot(df_customer, aes(x = Jenis_Kelamin, y = Total_Belanja)) +
  geom_point(aes(color = Jenis_Kelamin)) +
  labs(title = "Scatter Plot Jenis Kelamin vs Total Belanja")

q11 <- df_customer %>%
  filter(Total_Belanja > 5000000) %>%
  count(ID_Pelanggan, sort = TRUE) %>%
  slice_head(n=5)
q11 <- data.frame(q11)
ggplot(q11, aes(x = reorder(ID_Pelanggan, n), y = n)) +
  geom_bar(stat = "identity", fill = "pink") +
  labs(title = "Top 6 Pelanggan dengan Transaksi > 5 Juta",
       x = "ID Pelanggan", y = "Jumlah Transaksi")

q22 <- df_customer %>%
  filter(Total_Belanja > 9500000)
q22
##      X ID_Pelanggan Jenis_Kelamin Tempat_Tinggal Penghasilan Total_Belanja
## 1    4      ID00014     Laki-laki           Kota    13510126       9799876
## 2   11      ID00090     Perempuan           Kota    10910287      10137674
## 3   26      ID00036     Perempuan           Kota    10513994      10641105
## 4   33      ID00007     Perempuan           Kota    12418168      10846012
## 5   49      ID00069     Laki-laki           Kota    12913133       9594128
## 6   57      ID00025     Perempuan           Kota    12165915       9945372
## 7   64      ID00060     Perempuan           Kota     8044495       9758749
## 8   72      ID00039     Perempuan           Kota     8426053      10344433
## 9   76      ID00034     Perempuan           Kota    13710077      11626302
## 10  86      ID00087     Perempuan           Kota    10801006       9872391
## 11 101      ID00079     Laki-laki           Kota    11457479      10241993
## 12 113      ID00046     Perempuan           Kota    12685031       9689403
## 13 126      ID00023     Perempuan           Kota     9959994       9531823
## 14 132      ID00005     Perempuan           Kota    13866523       9817378
## 15 164      ID00048     Perempuan           Kota    10267976       9695153
## 16 167      ID00093     Laki-laki           Kota    11201564       9890886
## 17 175      ID00011     Perempuan           Kota    14915620      11527638
## 18 182      ID00046     Perempuan           Kota    12526695       9516174
## 19 204      ID00074     Perempuan           Kota    12967967      10556216
## 20 208      ID00023     Perempuan           Kota    16145151      10739381
## 21 224      ID00090     Perempuan           Desa    11664452       9796996
## 22 228      ID00057     Perempuan           Kota    12812680      11031197
## 23 246      ID00084     Laki-laki           Kota    13498940       9639414
## 24 252      ID00064     Laki-laki           Kota    12547893      10615150
## 25 264      ID00025     Perempuan           Kota     9725724       9710543
## 26 275      ID00061     Laki-laki           Kota    11541420       9924147
## 27 278      ID00045     Perempuan           Kota    12419648       9928570
## 28 282      ID00053     Perempuan           Kota    13719595       9589712
## 29 287      ID00093     Perempuan           Kota    10699070      10984825
q222 = aggregate(q22$Total_Belanja, by = list(q22$ID_Pelanggan), FUN = mean)
head(q222)
##   Group.1        x
## 1 ID00005  9817378
## 2 ID00007 10846012
## 3 ID00011 11527638
## 4 ID00014  9799876
## 5 ID00023 10135602
## 6 ID00025  9827958
ggplot(data= q222, aes(x = reorder(Group.1, x), y = x))+ geom_point(color = "navyblue", size = 4, alpha = 0.6) + geom_segment(aes(x = reorder(Group.1, x),xend = reorder(Group.1, x), y = 0, yend = x))+labs(x = "ID Pelanggan", y = "Total Belanja") +coord_flip() 

ggplot(df_customer, aes(x = Penghasilan)) +
  geom_histogram(bins = 30, fill = "steelblue", color = "white") +
  labs(title = "Sebaran Penghasilan Pelanggan", x = "Penghasilan", y = "Frekuensi")

ggplot(df_customer, aes(x = Total_Belanja)) +
  geom_histogram(bins = 30, fill = "darkgreen", color = "white") +
  labs(title = "Sebaran Total Belanja Pelanggan", x = "Total Belanja", y = "Frekuensi")

ggplot(df_customer, aes(x = Tempat_Tinggal, y = Penghasilan, fill = Tempat_Tinggal)) +
  geom_boxplot() +
  labs(title = "Perbandingan Penghasilan Kota vs Desa", x = "Tempat Tinggal", y = "Penghasilan")

ggplot(df_customer, aes(x = Jenis_Kelamin, y = Total_Belanja, fill = Jenis_Kelamin)) +
  geom_boxplot() +
  labs(title = "Perbandingan Belanja Berdasarkan Jenis Kelamin", x = "Jenis Kelamin", y = "Total Belanja")

ggplot(df_customer, aes(x = Penghasilan, y = Total_Belanja, color = Tempat_Tinggal)) +
  geom_point(alpha = 0.6) +
  geom_smooth(method = "lm", se = FALSE, color = "red") +
  labs(title = "Hubungan Penghasilan vs Total Belanja",
       x = "Penghasilan", y = "Total Belanja")
## `geom_smooth()` using formula = 'y ~ x'

ggplot(df_customer, aes(x = Penghasilan, y = Total_Belanja, color = Jenis_Kelamin)) +
  geom_point(alpha = 0.6) +
  labs(title = "Hubungan Penghasilan vs Belanja Berdasarkan Gender",
       x = "Penghasilan", y = "Total Belanja")