Install dan Load Library

Berikut ini adalah library yang digunakan untuk analisis:

library(ggplot2)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Input Data

Data diinput dari file csv dengan syntax:

data <- read.csv("Filedata Data Pendaftar, Mahasiswa Baru, Terdaftar, Dan Lulusan PTN Menurut Jenjang DKI Jakarta.csv", header=TRUE, sep = ",", stringsAsFactors = FALSE, na.strings = c("", "NA"))
head(data)
##   tahun_ajaran           indikator tingkat       jenis_universitas
## 1    2010_2011           Pendaftar      S0 Perguruan Tinggi Negeri
## 2    2010_2011           Pendaftar      S0 Perguruan Tinggi Swasta
## 3    2010_2011      Mahasiswa Baru      S0 Perguruan Tinggi Negeri
## 4    2010_2011      Mahasiswa Baru      S0 Perguruan Tinggi Swasta
## 5    2010_2011 Mahasiswa Terdaftar      S0 Perguruan Tinggi Negeri
## 6    2010_2011 Mahasiswa Terdaftar      S0 Perguruan Tinggi Swasta
##   jumlah_laki_laki jumlah_perempuan periode_data
## 1            15394            16348         2011
## 2            41801            42420         2011
## 3             8061            10838         2011
## 4            16987            15002         2011
## 5            82008           247710         2011
## 6            68218            48365         2011

Dataset diambil dari situs Satu Data Indonesia dengan link berikut https://data.go.id/dataset/dataset/data-pendaftar-mahasiswa-baru-terdaftar-dan-lulusan-ptn-menurut-jenjang-dki-jakarta

Filter Data Mahasiswa Baru

Untuk analisis data Mahasiswa baru dari dataset, dipisahkan data berdasarkan indikator mahasiswa baru di dataset dengan syntax:

data_mahasiswa_baru <- subset(data, indikator == "Mahasiswa Baru" & tingkat != "NA")
head(data_mahasiswa_baru)
##    tahun_ajaran      indikator tingkat       jenis_universitas jumlah_laki_laki
## 3     2010_2011 Mahasiswa Baru      S0 Perguruan Tinggi Negeri             8061
## 4     2010_2011 Mahasiswa Baru      S0 Perguruan Tinggi Swasta            16987
## 11    2010_2011 Mahasiswa Baru      S1 Perguruan Tinggi Negeri            60351
## 12    2010_2011 Mahasiswa Baru      S1 Perguruan Tinggi Swasta            47980
## 19    2010_2011 Mahasiswa Baru      S2 Perguruan Tinggi Negeri             3340
## 20    2010_2011 Mahasiswa Baru      S2 Perguruan Tinggi Swasta             7217
##    jumlah_perempuan periode_data
## 3             10838         2011
## 4             15002         2011
## 11           127923         2011
## 12            40632         2011
## 19             3445         2011
## 20             3771         2011

Visualisasi Data

1. Pie Chart

Berdasarkan data mahasiswa baru dengan variabel jumlah laki-laki, jumlah perempuan, tingkat pendidikan, dan tahun ajaran 2012-2013. Dilampirkan visualisasi data dalam bentuk Pie Chart:

data_pie <- subset(data_mahasiswa_baru, tahun_ajaran == "2012_2013")
data_pie <- data_pie %>%
  group_by(tingkat) %>%
  summarise(Total_Mhs = sum(jumlah_laki_laki + jumlah_perempuan, na.rm = TRUE), .groups = "drop") %>%
  mutate(percentage = Total_Mhs / sum(Total_Mhs) * 100)

ggplot(data_pie, aes(x = "", y = Total_Mhs, fill = tingkat)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y", start = 0) +
  theme_void() +
  labs(title = "Pie Chart: Distribusi Jumlah Mahasiswa Baru Berdasarkan Tingkat, 2012-2013", fill = "Tingkat") +
  theme(legend.title = element_blank())

print(data_pie)
## # A tibble: 6 × 3
##   tingkat            Total_Mhs percentage
##   <chr>                  <int>      <dbl>
## 1 Diploma (SO)           22205      8.45 
## 2 Profesi                 1612      0.614
## 3 S-1                   226874     86.4  
## 4 S-2                    11481      4.37 
## 5 S-3                      521      0.198
## 6 Spesialis-1 (Sp-1)         0      0

Interpretasi : Berdasarkan hasil data distribusi jumlah mahasiswa baru yang disajikan dengan pie chart diatas. 86% Mahasiswa Baru memilih S1 sebagai tingkat pendidikan yang akan ditempuh. Kesimpulan yang dapat diambil ialah, tingkat pendidikan tinggi S1 menjadi pilihan yang paling banyak ditempuh dibandingkan tingkat pendidikan tinggi yang lain.

2. Bar Chart

Berdasarkan data mahasiswa baru dengan variabel jumlah laki-laki, jumlah perempuan, tahun ajaran, dan jenis universitas. Dilampirkan visualisasi data dalam bentuk Bar Chart:

ggplot(data_mahasiswa_baru, aes(x = tahun_ajaran, y = jumlah_laki_laki + jumlah_perempuan, fill = jenis_universitas)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Bar Chart: Jumlah Mahasiswa Baru per Tahun Ajaran", x = "Tahun Ajaran", y = "Jumlah Mahasiswa", fill = "Jenis Universitas") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Interpretasi : Berdasarkan hasil data mahasiswa baru per tahun ajaran yang disajikan dengan bar chart diatas. Dapat disimpulkan bahwa terdapat penurunan yang signifikan pada angka mahasiswa baru perguruan tinggi negeri dari tahun ke tahun, sedangkan pada perguruan tinggi swasta tidak terlihat adanya penurunan yang signifikan.

3. Histogram

Berdasarkan data mahasiswa baru dengan variabel jumlah laki-laki dan jenis universitas. Dilampirkan visualisasi data dalam bentuk Histogram:

ggplot(data_mahasiswa_baru, aes(x = jumlah_laki_laki, fill = jenis_universitas)) +
  geom_histogram(bins = 30, alpha = 0.6, position = "identity") +
  labs(title = "Histogram: Distribusi Frekuensi Mahasiswa Laki-laki Baru", x = "Jumlah Laki-laki", y = "Frekuensi" , fill = "Jenis Universitas")

Interpretasi : Berdasarkan hasil persebaran data jumlah mahasiswa baru yang disajikan dengan histogram diatas. Dapat disimpulkan bahwa persebaran jumlah mahasiswa baru bersifat abnormal serta terdapat nilai ekstrim didalam nya, baik dari jenis perguruan tinggi negeri maupun perguruan tinggi swasta. Tetapi dapat terlihat dengan jelas bahwa jumlah mahasiswa baru pada perguruan tinggi negeri memiliki frekuensi yang lebih banyak dibandingkan jumlah frekuensi mahasiswa perguruan tinggi swasta.

4. Density Plot

Berdasarkan data mahasiswa baru dengan variabel jumlah perempuan dan jenis universitas. Dilampirkan visualisasi data dalam bentuk Density Plot:

ggplot(data_mahasiswa_baru, aes(x = jumlah_perempuan, fill = jenis_universitas)) +
  geom_density(alpha = 0.5) +
  labs(title = "Density Plot: Distribusi Density Mahasiswa Perempuan Baru", x = "Jumlah Perempuan", y = "Density" , fill = "Jenis Universitas")

Interpretasi : Berdasarkan hasil data jumlah mahasiswi baru yang disajikan dengan density plot diatas. Dapat disimpulkan dari kurva diatas bahwa persebaran jumlah mahasiswi baru bersifat abnormal dan juga terdapat nilai outlier, baik dari perguruan tinggi negeri maupun perguruan tinggi swasta. Yang membedakan hanyalah jumlah mahasiswi baru pada perguruan tinggi negeri lebih tinggi dibandingkan pada perguruan tinggi swasta.

5. Boxplot

Berdasarkan data mahasiswa baru dengan variabel jumlah laki-laki, jumlah perempuan, dan jenis universitas. Dilampirkan dua visualisasi data dalam bentuk Box Plot:

ggplot(data_mahasiswa_baru, aes(x = jenis_universitas, y = jumlah_laki_laki, fill = jenis_universitas)) +
  geom_boxplot() +
  labs(title = "Boxplot 1: Distribusi Jumlah Mahasiswa Laki-laki Baru per Universitas", x = "Jenis Universitas", y = "Jumlah Laki-Laki", fill = "Jenis Universitas")

ggplot(data_mahasiswa_baru, aes(x = jenis_universitas, y = jumlah_perempuan, fill = jenis_universitas)) +
  geom_boxplot() +
  labs(title = "Boxplot 2: Distribusi Jumlah Mahasiswa Perempuan Baru per Universitas", x = "Jenis Universitas", y = "Jumlah Perempuan", fill = "Jenis Universitas")

Interpretasi : Berdasarkan perbandingan hasil data mahasiswa dan mahasiswi baru, serta jenis universitas nya. Dalam boxplot 1 dapat ditunjukan bahwa data mahasiswa perguruan tinggi swasta lebih simetris walaupun memiliki beberapa data outlier diatas kotak, dibandingkan data mahasiswa perguruan tinggi negeri yang memiliki data yang kurang simetris serta memiliki beberapa nilai ekstrim diatas kotak. Pada boxplot 2 sebenarnya memiliki kesamaan seperti boxplot 1 yaitu data mahasiswi perguruan tinggi swasta lebih simetris dan juga memiliki data outlier diatas kotak, sedangkan data mahasiswi perguruan tinggi negeri memiliki dua nilai ekstrim diatas kotak sehingga menghasilkan data yang tidak simetris. Kesimpulan dari kedua boxplot tadi sudah jelas bahwa data mahasiswa dan mahasiswi perguruan tinggi negeri memiliki lonjakan jumlah yang tinggi dibandingkan dengan perguruan tinggi swasta, namun hal itu berarti terdapat persebaran yang tidak normal atau abnormal dari data tersebut.

Statistik Deskriptif

Berikut adalah hasil perhitungan statistik deskriptif dari data jumlah laki-laki dan jumlah perempuan:

Ukuran Pemusatan Data

1. Mean

Mean atau rata-rata digunakan untuk menghitung jumlah nilai data dibagi banyaknya data, berikut ini adalah nilai mean dari data dan syntaxnya:

mean(data_mahasiswa_baru$jumlah_laki_laki)
## [1] 13791.1
mean(data_mahasiswa_baru$jumlah_perempuan)
## [1] 16666.65

2. Median

Median atau nilai tengah digunakan untuk menentukan nilai yang terletak di tengah jika data diurutkan, berikut ini adalah nilai median dari data dan syntaxnya:

median(data_mahasiswa_baru$jumlah_laki_laki)
## [1] 2411
median(data_mahasiswa_baru$jumlah_perempuan)
## [1] 2316

3. Modus

Modus digunakan untuk menentukan nilai dengan jumlah frekuensi tertinggi dari data, berikut ini adalah nilai modus dari data dan syntaxnya:

modus <- function(x) {
  uniqx <- unique(x)
  uniqx[which.max(tabulate(match(x, uniqx)))]
}

modus(data_mahasiswa_baru$jumlah_laki_laki)
## [1] 0
modus(data_mahasiswa_baru$jumlah_perempuan)
## [1] 0

Ukuran Letak Data

4. Statistik 5 Serangkai (Q0/Min, Q1, Q2/Median, Q3, Q4/Max)

Statistik 5 Serangkai digunakan untuk memberikan gambaran atau rangkuman dari data, berikut ini adalah statistik 5 serangkai dari data dan syntaxnya:

quantile(data_mahasiswa_baru$jumlah_laki_laki)
##       0%      25%      50%      75%     100% 
##     0.00   164.75  2411.00 12211.00 67193.00
quantile(data_mahasiswa_baru$jumlah_perempuan)
##       0%      25%      50%      75%     100% 
##      0.0    150.5   2316.0  11879.0 127923.0

Ukuran Penyebaran Data

5. Jangkauan

Jangkauan atau range digunakan untuk menentukan selisih nilai terkecil dan nilai terbesar dari data, berikut ini adalah hasil selisih dari data dan syntaxnya:

diff(range(data_mahasiswa_baru$jumlah_laki_laki))
## [1] 67193
diff(range(data_mahasiswa_baru$jumlah_perempuan))
## [1] 127923

6. Ragam

Ragam atau variance digunakan untuk menentukan nilai sebaran kuadrat dari data, berikut ini adalah hasil ragam dari data dan syntaxnya:

var(data_mahasiswa_baru$jumlah_laki_laki)
## [1] 487423250
var(data_mahasiswa_baru$jumlah_perempuan)
## [1] 1057368948

7. Deviasi Standar

Deviasi standar atau standard deviation digunakan untuk menentukan nilai sebaran sesuai satuan data awalnya, berikut ini adalah deviasi standar dari data dan syntaxnya:

sd(data_mahasiswa_baru$jumlah_laki_laki)
## [1] 22077.66
sd(data_mahasiswa_baru$jumlah_perempuan)
## [1] 32517.21