JOB RECOMMENDATION DATASET

Kumpulan data ini terdiri dari 50.000 lowongan pekerjaan yang mencakup berbagai industri, lokasi, tingkat pengalaman, dan golongan gaji. Kumpulan data ini memberikan wawasan terstruktur tentang tren pasar kerja, keterampilan yang dibutuhkan, dan distribusi gaji, sehingga berguna untuk sistem rekomendasi pekerjaan berbasis AI, model prediksi gaji, analisis tren perekrutan, dan perkiraan permintaan keterampilan.

Kumpulan data tersebut dapat dimanfaatkan oleh ilmuwan data, profesional SDM, pencari kerja, dan peneliti untuk menganalisis pola perekrutan, memprediksi gaji, dan membangun sistem pencocokan pekerjaan yang dipersonalisasi menggunakan pembelajaran mesin.

Variabel Keterangan
Judul Pekerjaan Judul spesifik dari posisi pekerjaan (misalnya, Insinyur Perangkat Lunak, Manajer Pemasaran). Nilai Unik: 639.
Perusahaan Nama perusahaan yang menawarkan posisi tersebut (misalnya, Google, Amazon, Microsoft). Nilai Unik: 37.022.
Lokasi Kota atau wilayah tempat pekerjaan tersebut berada. Nilai Unik: 7.
Tingkat Pengalaman Tingkat senioritas yang dibutuhkan (Level Pemula, Level Menengah, Level Senior). Nilai Unik: 3.
Kisaran Gaji Kisaran gaji mulai dari $40.000 hingga $150.000.
Industri Sektor pekerjaan (misalnya, Perangkat Lunak, Manufaktur). Nilai Unik: 7.
Keterampilan yang Dibutuhkan Daftar keterampilan yang dibutuhkan untuk pekerjaan tersebut (misalnya, Python, SQL, Penjualan & Merchandising). Nilai Unik: 1.559.

Statistik dan sorotan kumpulan data:

  1. 50.000 lowongan pekerjaan di berbagai industri dan lokasi.

  2. Analisis gaji dari $40 ribu hingga $150 ribu, dengan rata-rata $95,1 ribu.

  3. Segmentasi tingkat pengalaman (Level Pemula, Level Menengah, Level Senior).

  4. Analisis keterampilan yang dibutuhkan (Keterampilan utama meliputi Python, SQL, dan Penjualan).

  5. Distribusi pekerjaan di berbagai industri dan lokasi.

library(readxl)
library(ggplot2)
library(ggpubr)
job <- read_xlsx("D:/STATISTIKA 23/KULIAH/MK SEMESTER 4/Kumpulan dataset/Job recommendation dataset.xlsx")
head(job)
## # A tibble: 6 × 7
##   `Job Title`                Company Location `Experience Level` Salary Industry
##   <chr>                      <chr>   <chr>    <chr>               <dbl> <chr>   
## 1 Early years teacher        Richar… Sydney   Senior Level        87000 Healthc…
## 2 Counselling psychologist   Ramos,… San Fra… Mid Level           50000 Marketi…
## 3 Radio broadcast assistant  Franco… New York Mid Level           77000 Healthc…
## 4 Designer, exhibition/disp… Collin… Berlin   Senior Level        90000 Software
## 5 Psychotherapist, dance mo… Barker… Sydney   Entry Level        112000 Healthc…
## 6 Early years teacher        Dawson… Sydney   Mid Level           93000 Finance 
## # ℹ 1 more variable: `Required Skills` <chr>
nrow(job)
## [1] 50000
dim(job)
## [1] 50000     7

Bar Chart

#bar chart
ggplot(data=job, mapping=aes(x=Industry))+
  geom_bar()

#tabel frequensi
freqjob <- as.data.frame(table(job$Industry))
freqjob
##            Var1 Freq
## 1     Education 7144
## 2       Finance 7017
## 3    Healthcare 7104
## 4 Manufacturing 7169
## 5     Marketing 7158
## 6        Retail 7106
## 7      Software 7302
#membuat bar chart
ggplot(data=freqjob, mapping=aes(x=Var1, y=Freq))+
  geom_bar(stat="identity")

#Atau bisa juga
ggplot(data=freqjob, mapping=aes(x=Var1, y=Freq))+
  geom_col()

#Modifikasi bar chart
ggplot(data=freqjob, mapping=aes(x=Var1, y=Freq))+
  geom_col(fill="red", alpha=0.9)+
  labs(title = "Rekomendasi Pekerjaan di Berbagai sektor",
       x="Industry",
       y="Frequensi")+
  geom_text(aes(label=Freq), vjust=-0.5)

Needle Chart

#Needle chart
ggplot(data=freqjob,
       mapping=aes(x=reorder(Var1,Freq), y=Freq))+
  geom_segment(aes(x=reorder(Var1,Freq),
                   xend=reorder(Var1,Freq),
                   y=0, yend=Freq), color="skyblue")+
  geom_point(color="blue", size=6, alpha=0.8)+
  coord_flip()+
  labs(y="Frequensi", x="Industry", title = "Rekomendasi Pekerjaan di Berbagai Sektor")+
  geom_text(aes(label=Freq), vjust=-0.9)

Grouped Chart

#Grouped chart
ggplot(data=job,
       mapping=aes(x=Industry, fill=as.factor(Location)))+
  geom_bar(position="dodge", stat="count")+
  labs(x="Industry", fill="Level",
       y="Frequensi", title = "Rekomendasi Pekerjaan di Berbagai Sektor")+
  scale_fill_brewer(palette = "Blues")+
  theme_light()

Stacked bar Chart

#Stacked bar chart
ggplot(data=job,
       mapping=aes(x=`Industry`, fill=as.factor(Location)))+
  geom_bar(position="stack", stat="count")+
  labs(x="Metode Survei", fill="Experience Level",
       y="Frequensi", title = "Rekomendasi Pekerjaan di Berbagai Sektor")+
  scale_fill_brewer(palette = "Blues")+
  theme_light()

Pie Chart

#Pie chart
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
tugas1.2 <- job %>%
  group_by(`Industry`) %>%
  summarise(counts=n())
tugas1.2
## # A tibble: 7 × 2
##   Industry      counts
##   <chr>          <int>
## 1 Education       7144
## 2 Finance         7017
## 3 Healthcare      7104
## 4 Manufacturing   7169
## 5 Marketing       7158
## 6 Retail          7106
## 7 Software        7302
tugas1.2 <- tugas1.2 %>%
  arrange(desc('Industry')) %>%
  mutate(prop=round(counts*100/sum(counts), 1),
         lab.ypos = cumsum(prop)-0.5*prop)

head(tugas1.2,4)
## # A tibble: 4 × 4
##   Industry      counts  prop lab.ypos
##   <chr>          <int> <dbl>    <dbl>
## 1 Education       7144  14.3     7.15
## 2 Finance         7017  14      21.3 
## 3 Healthcare      7104  14.2    35.4 
## 4 Manufacturing   7169  14.3    49.6
#Membuat pie chart
ggplot(tugas1.2, aes(x="",y = prop, fill=`Industry`))+
  geom_bar(width=1,stat="identity", color="white")+
  geom_text(aes(y=lab.ypos, label = prop), color="yellow")+
  coord_polar("y", start=0)+
  ggpubr::fill_palette("uchicago")+
  theme_void()

Map

library(sf)
## Linking to GEOS 3.11.2, GDAL 3.8.2, PROJ 9.3.1; sf_use_s2() is TRUE
xlsx.bali<-read_xlsx("D:/STATISTIKA 23/KULIAH/MK SEMESTER 4/EKSPLORASI DAN VISUALISASI DATA/Data Bali.xlsx")
head(xlsx.bali)
## # A tibble: 6 × 7
##   NAME_1  ID_2 NAME_2   TYPE_2    ENGTYPE_2    Longitude Latitude
##   <chr>  <dbl> <chr>    <chr>     <chr>            <dbl>    <dbl>
## 1 Bali      22 Badung   Kabupaten Regency           115.    -8.58
## 2 Bali      23 Bangli   Kabupaten Regency           115.    -8.29
## 3 Bali      24 Buleleng Kabupaten Regency           115.    -8.20
## 4 Bali      25 Denpasar Kotamadya Municipality      115.    -8.67
## 5 Bali      26 Gianyar  Kabupaten Regency           115.    -8.48
## 6 Bali      27 Jembrana Kabupaten Regency           115.    -8.31
shp.bali <- read_sf("D:/STATISTIKA 23/KULIAH/MK SEMESTER 4/EKSPLORASI DAN VISUALISASI DATA/PETA SHP 34 Provinsi/PETA SHP 34 Prov/2-Bali")
head(shp.bali)
## Simple feature collection with 6 features and 7 fields
## Geometry type: MULTIPOLYGON
## Dimension:     XY
## Bounding box:  xmin: 114.4311 ymin: -8.849445 xmax: 115.4596 ymax: -8.06111
## Geodetic CRS:  WGS 84
## # A tibble: 6 × 8
##   NAME_1  ID_2 NAME_2   TYPE_2    ENGTYPE_2    Longitude Latitude
##   <chr>  <dbl> <chr>    <chr>     <chr>            <dbl>    <dbl>
## 1 Bali      22 Badung   Kabupaten Regency           115.    -8.58
## 2 Bali      23 Bangli   Kabupaten Regency           115.    -8.29
## 3 Bali      24 Buleleng Kabupaten Regency           115.    -8.20
## 4 Bali      25 Denpasar Kotamadya Municipality      115.    -8.67
## 5 Bali      26 Gianyar  Kabupaten Regency           115.    -8.48
## 6 Bali      27 Jembrana Kabupaten Regency           115.    -8.31
## # ℹ 1 more variable: geometry <MULTIPOLYGON [°]>
comb.bali=left_join(shp.bali,xlsx.bali, by="ID_2")
head(comb.bali)
## Simple feature collection with 6 features and 13 fields
## Geometry type: MULTIPOLYGON
## Dimension:     XY
## Bounding box:  xmin: 114.4311 ymin: -8.849445 xmax: 115.4596 ymax: -8.06111
## Geodetic CRS:  WGS 84
## # A tibble: 6 × 14
##   NAME_1.x  ID_2 NAME_2.x TYPE_2.x  ENGTYPE_2.x  Longitude.x Latitude.x
##   <chr>    <dbl> <chr>    <chr>     <chr>              <dbl>      <dbl>
## 1 Bali        22 Badung   Kabupaten Regency             115.      -8.58
## 2 Bali        23 Bangli   Kabupaten Regency             115.      -8.29
## 3 Bali        24 Buleleng Kabupaten Regency             115.      -8.20
## 4 Bali        25 Denpasar Kotamadya Municipality        115.      -8.67
## 5 Bali        26 Gianyar  Kabupaten Regency             115.      -8.48
## 6 Bali        27 Jembrana Kabupaten Regency             115.      -8.31
## # ℹ 7 more variables: geometry <MULTIPOLYGON [°]>, NAME_1.y <chr>,
## #   NAME_2.y <chr>, TYPE_2.y <chr>, ENGTYPE_2.y <chr>, Longitude.y <dbl>,
## #   Latitude.y <dbl>
#Pemetaan Index Rate Kasus DBD
plot.bali = ggplot(data=comb.bali) +
  geom_sf(aes(fill = Latitude.x)) +
  scale_fill_distiller("Map", palette = "YlGn")

plot.bali