library(ggplot2)
library (dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readxl)
df_customer <- read_excel("df_customerr.xlsx")
head(df_customer)
## # A tibble: 6 × 5
##   ID_Pelanggan Jenis_Kelamin Tempat_Tinggal Penghasilan Total_Belanja
##   <chr>        <chr>         <chr>                <dbl>         <dbl>
## 1 ID00031      Laki-laki     Desa               2227350       2563031
## 2 ID00079      Perempuan     Kota               9047608       8369550
## 3 ID00051      Perempuan     Kota               9735540       8053033
## 4 ID00014      Laki-laki     Kota              13510126       9799876
## 5 ID00067      Perempuan     Desa               7773498       6982081
## 6 ID00042      Laki-laki     Desa               6666740       4782002
grafik1 = ggplot(data= df_customer, aes(x= Jenis_Kelamin, y = Total_Belanja))
grafik2 = ggplot(data= df_customer, aes(x= Jenis_Kelamin, y = Total_Belanja))+geom_point()
grafik3 = ggplot(data= df_customer)+geom_point(aes(x= Jenis_Kelamin, y = Total_Belanja))
grafik1

grafik2

grafik3

ggplot(df_customer, aes(x = Jenis_Kelamin, y = Total_Belanja)) +
  geom_point(aes(color = Jenis_Kelamin)) +
  labs(title = "Scatter Plot Jenis Kelamin vs Total Belanja")

#Pelanggan yang paling sering membeli dengan total belanja > 5.000.000
q11 <- df_customer %>%
  filter(Total_Belanja > 5000000) %>%
  count(ID_Pelanggan, sort = TRUE) %>%
  slice_head(n=5)
q11 <- data.frame(q11)
ggplot(q11, aes(x = reorder(ID_Pelanggan, n), y = n)) +
  geom_bar(stat = "identity", fill = "maroon") +
  labs(title = "Top 6 Pelanggan dengan Transaksi > 5 Juta",
       x = "ID Pelanggan", y = "Jumlah Transaksi")

q22 <- df_customer %>%
  filter(Total_Belanja > 9500000)
q22
## # A tibble: 29 × 5
##    ID_Pelanggan Jenis_Kelamin Tempat_Tinggal Penghasilan Total_Belanja
##    <chr>        <chr>         <chr>                <dbl>         <dbl>
##  1 ID00014      Laki-laki     Kota              13510126       9799876
##  2 ID00090      Perempuan     Kota              10910287      10137674
##  3 ID00036      Perempuan     Kota              10513994      10641105
##  4 ID00007      Perempuan     Kota              12418168      10846012
##  5 ID00069      Laki-laki     Kota              12913133       9594128
##  6 ID00025      Perempuan     Kota              12165915       9945372
##  7 ID00060      Perempuan     Kota               8044495       9758749
##  8 ID00039      Perempuan     Kota               8426053      10344433
##  9 ID00034      Perempuan     Kota              13710077      11626302
## 10 ID00087      Perempuan     Kota              10801006       9872391
## # ℹ 19 more rows
q222 = aggregate(q22$Total_Belanja, by = list(q22$ID_Pelanggan), FUN = mean)
head(q222)
##   Group.1        x
## 1 ID00005  9817378
## 2 ID00007 10846012
## 3 ID00011 11527638
## 4 ID00014  9799876
## 5 ID00023 10135602
## 6 ID00025  9827958
ggplot(data= q222, aes(x = reorder(Group.1, x), y = x))+ geom_point(color = "pink", size = 4, alpha = 0.6) + geom_segment(aes(x = reorder(Group.1, x),xend = reorder(Group.1, x), y = 0, yend = x))+labs(x = "ID Pelanggan", y = "Total Belanja") +coord_flip() 

# Histogram Penghasilan
ggplot(df_customer, aes(x = Penghasilan)) +
  geom_histogram(bins = 30, fill = "navyblue", color = "white") +
  labs(title = "Sebaran Penghasilan Pelanggan", x = "Penghasilan", y = "Frekuensi")

# Histogram Total Belanja
ggplot(df_customer, aes(x = Total_Belanja)) +
  geom_histogram(bins = 30, fill = "steelblue", color = "white") +
  labs(title = "Sebaran Total Belanja Pelanggan", x = "Total Belanja", y = "Frekuensi")

# Boxplot untuk membandingkan penghasilan Kota vs Desa
ggplot(df_customer, aes(x = Tempat_Tinggal, y = Penghasilan, fill = Tempat_Tinggal)) +
  geom_boxplot() +
  labs(title = "Perbandingan Penghasilan Kota vs Desa", x = "Tempat Tinggal", y = "Penghasilan")

# Boxplot untuk membandingkan belanja berdasarkan Jenis Kelamin
ggplot(df_customer, aes(x = Jenis_Kelamin, y = Total_Belanja, fill = Jenis_Kelamin)) +
  geom_boxplot() +
  labs(title = "Perbandingan Belanja Berdasarkan Jenis Kelamin", x = "Jenis Kelamin", y = "Total Belanja")

# Scatterplot Penghasilan vs Total Belanja
ggplot(df_customer, aes(x = Penghasilan, y = Total_Belanja, color = Tempat_Tinggal)) +
  geom_point(alpha = 0.6) +
  geom_smooth(method = "lm", se = FALSE, color = "red") +
  labs(title = "Hubungan Penghasilan vs Total Belanja",
       x = "Penghasilan", y = "Total Belanja")
## `geom_smooth()` using formula = 'y ~ x'

# Scatterplot dengan jenis kelamin
ggplot(df_customer, aes(x = Penghasilan, y = Total_Belanja, color = Jenis_Kelamin)) +
  geom_point(alpha = 0.6) +
  labs(title = "Hubungan Penghasilan vs Belanja Berdasarkan Gender",
       x = "Penghasilan", y = "Total Belanja")