R Markdown

library(readxl)
df_customer <- read_excel("df_customerr.xlsx")
df_customer
## # A tibble: 300 × 5
##    ID_Pelanggan Jenis_Kelamin Tempat_Tinggal Penghasilan Total_Belanja
##    <chr>        <chr>         <chr>                <dbl>         <dbl>
##  1 ID00031      Laki-laki     Desa               2227350       2563031
##  2 ID00079      Perempuan     Kota               9047608       8369550
##  3 ID00051      Perempuan     Kota               9735540       8053033
##  4 ID00014      Laki-laki     Kota              13510126       9799876
##  5 ID00067      Perempuan     Desa               7773498       6982081
##  6 ID00042      Laki-laki     Desa               6666740       4782002
##  7 ID00050      Perempuan     Desa               5658721       4286283
##  8 ID00043      Laki-laki     Desa               7637656       4779797
##  9 ID00014      Perempuan     Desa               6776730       6315967
## 10 ID00025      Laki-laki     Kota              10412102       5106141
## # ℹ 290 more rows
nrow(df_customer)
## [1] 300
unique(df_customer$ID_Pelanggan)
##  [1] "ID00031" "ID00079" "ID00051" "ID00014" "ID00067" "ID00042" "ID00050"
##  [8] "ID00043" "ID00025" "ID00090" "ID00091" "ID00069" "ID00057" "ID00092"
## [15] "ID00009" "ID00093" "ID00099" "ID00072" "ID00026" "ID00007" "ID00083"
## [22] "ID00036" "ID00078" "ID00081" "ID00076" "ID00015" "ID00032" "ID00041"
## [29] "ID00074" "ID00023" "ID00027" "ID00060" "ID00053" "ID00096" "ID00038"
## [36] "ID00089" "ID00034" "ID00063" "ID00013" "ID00082" "ID00097" "ID00021"
## [43] "ID00047" "ID00095" "ID00016" "ID00094" "ID00006" "ID00086" "ID00039"
## [50] "ID00004" "ID00052" "ID00022" "ID00087" "ID00035" "ID00040" "ID00030"
## [57] "ID00012" "ID00064" "ID00071" "ID00085" "ID00037" "ID00008" "ID00098"
## [64] "ID00084" "ID00046" "ID00017" "ID00062" "ID00054" "ID00024" "ID00005"
## [71] "ID00070" "ID00055" "ID00075" "ID00048" "ID00077" "ID00056" "ID00068"
## [78] "ID00001" "ID00088" "ID00020" "ID00049" "ID00059" "ID00011" "ID00066"
## [85] "ID00044" "ID00045" "ID00033" "ID00010" "ID00058" "ID00061" "ID00029"
## [92] "ID00073" "ID00018" "ID00002"
length(unique(df_customer$ID_Pelanggan))
## [1] 94
sort(table(df_customer$ID_Pelanggan), decreasing = TRUE)[1:3]
## 
## ID00007 ID00025 ID00089 
##       9       7       7
aggregate(Penghasilan ~ Jenis_Kelamin, data = df_customer, mean)
##   Jenis_Kelamin Penghasilan
## 1     Laki-laki     8880902
## 2     Perempuan     8505199
aggregate(Total_Belanja ~ Jenis_Kelamin, data = df_customer, mean)
##   Jenis_Kelamin Total_Belanja
## 1     Laki-laki       6034728
## 2     Perempuan       7114786
aggregate(Penghasilan ~ Tempat_Tinggal, data = df_customer, mean)
##   Tempat_Tinggal Penghasilan
## 1           Desa     6249122
## 2           Kota     9878685
aggregate(Total_Belanja ~ Tempat_Tinggal, data = df_customer, mean)
##   Tempat_Tinggal Total_Belanja
## 1           Desa       5022231
## 2           Kota       7520118
df_customer[order(-df_customer$Total_Belanja), c("ID_Pelanggan", "Total_Belanja")] |> head(5)
## # A tibble: 5 × 2
##   ID_Pelanggan Total_Belanja
##   <chr>                <dbl>
## 1 ID00034           11626302
## 2 ID00011           11527638
## 3 ID00057           11031197
## 4 ID00093           10984825
## 5 ID00007           10846012
table(df_customer$Jenis_Kelamin)
## 
## Laki-laki Perempuan 
##       121       179
df_customer$Kategori_Penghasilan <- cut(df_customer$Penghasilan,
                                        breaks = c(-Inf, 5000000, 10000000, Inf),
                                        labels = c("Rendah", "Menengah", "Tinggi"))
table(df_customer$Kategori_Penghasilan)
## 
##   Rendah Menengah   Tinggi 
##       27      175       98

Tugas Jawablah pertanyaan di bawah ini

  1. Siapa pelanggan yang paling sering membeli dengan total belanja lebih dari 5000000
library (dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
# 1. Pelanggan yang paling sering membeli dengan total belanja > 5.000.000
a27 <- df_customer %>%
  filter(Total_Belanja > 5000000) %>%
  count (ID_Pelanggan, sort = TRUE) %>%
  slice_head(n = 6)
a27
## # A tibble: 6 × 2
##   ID_Pelanggan     n
##   <chr>        <int>
## 1 ID00007          7
## 2 ID00025          7
## 3 ID00026          6
## 4 ID00089          6
## 5 ID00053          5
## 6 ID00079          5
  1. Ada berapa banyak perempuan di kota yang berbelanja lebih dari 5x
# 2. Banyak perempuan di kota yang berbelanja > 5 kali
a28 <- subset(df_customer, Jenis_Kelamin == "Perempuan" & Tempat_Tinggal == "Kota")
a28_count <- table(a28$ID_Pelanggan)
a28_count <- data.frame(a28_count)
a28_count
##       Var1 Freq
## 1  ID00001    1
## 2  ID00002    3
## 3  ID00004    2
## 4  ID00005    1
## 5  ID00006    2
## 6  ID00007    5
## 7  ID00009    1
## 8  ID00010    1
## 9  ID00011    1
## 10 ID00012    1
## 11 ID00013    1
## 12 ID00016    1
## 13 ID00017    1
## 14 ID00021    1
## 15 ID00023    3
## 16 ID00024    3
## 17 ID00025    4
## 18 ID00026    4
## 19 ID00030    2
## 20 ID00031    2
## 21 ID00032    3
## 22 ID00034    1
## 23 ID00035    1
## 24 ID00036    3
## 25 ID00037    3
## 26 ID00038    1
## 27 ID00039    2
## 28 ID00040    2
## 29 ID00041    1
## 30 ID00042    2
## 31 ID00043    1
## 32 ID00044    1
## 33 ID00045    3
## 34 ID00046    3
## 35 ID00048    1
## 36 ID00050    2
## 37 ID00051    2
## 38 ID00053    4
## 39 ID00054    2
## 40 ID00056    1
## 41 ID00057    2
## 42 ID00058    1
## 43 ID00060    2
## 44 ID00063    3
## 45 ID00066    1
## 46 ID00067    1
## 47 ID00069    2
## 48 ID00070    1
## 49 ID00071    2
## 50 ID00072    1
## 51 ID00074    1
## 52 ID00075    1
## 53 ID00076    2
## 54 ID00079    2
## 55 ID00082    1
## 56 ID00083    1
## 57 ID00084    1
## 58 ID00085    3
## 59 ID00086    1
## 60 ID00087    3
## 61 ID00089    1
## 62 ID00090    2
## 63 ID00091    2
## 64 ID00092    1
## 65 ID00093    1
## 66 ID00096    1
## 67 ID00099    1
  1. Siapa pelanggan yang paling sering membeli dengan penghasilan lebih dari 5000000
# 3. Pelanggan yang paling sering membeli dengan penghasilan lebih dari 5000000
a29 <- df_customer %>%
  filter(Penghasilan > 5000000) %>%
  count(ID_Pelanggan, sort = TRUE) %>%
  slice_head(n = 1)
a29
## # A tibble: 1 × 2
##   ID_Pelanggan     n
##   <chr>        <int>
## 1 ID00007          9
  1. Berjenis kelamin apa pelanggan yang tinggal di desa namun memiliki total belanja yang lebih dari 5000000
# 4. Jenis kelamin pelanggan yang tinggal di desa namun memiliki total belanja yang lebih dari 5000000
a30 <- subset(df_customer, Tempat_Tinggal == "Desa" & Total_Belanja > 5000000)
  table(a30$Jenis_Kelamin)
## 
## Laki-laki Perempuan 
##        10        37
a30
## # A tibble: 47 × 6
##    ID_Pelanggan Jenis_Kelamin Tempat_Tinggal Penghasilan Total_Belanja
##    <chr>        <chr>         <chr>                <dbl>         <dbl>
##  1 ID00067      Perempuan     Desa               7773498       6982081
##  2 ID00014      Perempuan     Desa               6776730       6315967
##  3 ID00027      Perempuan     Desa               8108645       6901502
##  4 ID00089      Laki-laki     Desa               9032981       5776859
##  5 ID00034      Perempuan     Desa               5616450       7064321
##  6 ID00013      Perempuan     Desa               4481204       5438461
##  7 ID00091      Perempuan     Desa               6128487       5990469
##  8 ID00038      Laki-laki     Desa               5947963       5094570
##  9 ID00041      Perempuan     Desa               9231091       8371463
## 10 ID00047      Perempuan     Desa               5940612       6172545
## # ℹ 37 more rows
## # ℹ 1 more variable: Kategori_Penghasilan <fct>
  1. Berpenghasilan berapa pelanggan yang tinggal di desa namun memiliki total belanja lebih dari 5000000
# 5. Besar penghasilan pelanggan yang tinggal di desa namun memiliki total belanja lebih dari 5000000
a31 <- df_customer %>%
  filter(Tempat_Tinggal == "Desa", Total_Belanja > 5000000) %>%
  distinct(ID_Pelanggan, Penghasilan)
a31
## # A tibble: 47 × 2
##    ID_Pelanggan Penghasilan
##    <chr>              <dbl>
##  1 ID00067          7773498
##  2 ID00014          6776730
##  3 ID00027          8108645
##  4 ID00089          9032981
##  5 ID00034          5616450
##  6 ID00013          4481204
##  7 ID00091          6128487
##  8 ID00038          5947963
##  9 ID00041          9231091
## 10 ID00047          5940612
## # ℹ 37 more rows