Berikut ini adalah library yang digunakan untuk analisis:
library(ggplot2)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Data diinput dari file csv dengan syntax:
data <- read.csv("Filedata Data Pendaftar, Mahasiswa Baru, Terdaftar, Dan Lulusan PTN Menurut Jenjang DKI Jakarta.csv", header=TRUE, sep = ",", stringsAsFactors = FALSE, na.strings = c("", "NA"))
head(data)
## tahun_ajaran indikator tingkat jenis_universitas
## 1 2010_2011 Pendaftar S0 Perguruan Tinggi Negeri
## 2 2010_2011 Pendaftar S0 Perguruan Tinggi Swasta
## 3 2010_2011 Mahasiswa Baru S0 Perguruan Tinggi Negeri
## 4 2010_2011 Mahasiswa Baru S0 Perguruan Tinggi Swasta
## 5 2010_2011 Mahasiswa Terdaftar S0 Perguruan Tinggi Negeri
## 6 2010_2011 Mahasiswa Terdaftar S0 Perguruan Tinggi Swasta
## jumlah_laki_laki jumlah_perempuan periode_data
## 1 15394 16348 2011
## 2 41801 42420 2011
## 3 8061 10838 2011
## 4 16987 15002 2011
## 5 82008 247710 2011
## 6 68218 48365 2011
Dataset diambil dari situs Satu Data Indonesia dengan link berikut https://data.go.id/dataset/dataset/data-pendaftar-mahasiswa-baru-terdaftar-dan-lulusan-ptn-menurut-jenjang-dki-jakarta
Untuk analisis data Mahasiswa baru dari dataset, dipisahkan data berdasarkan indikator mahasiswa baru di dataset dengan syntax:
data_mahasiswa_baru <- subset(data, indikator == "Mahasiswa Baru" & tingkat != "NA")
head(data_mahasiswa_baru)
## tahun_ajaran indikator tingkat jenis_universitas jumlah_laki_laki
## 3 2010_2011 Mahasiswa Baru S0 Perguruan Tinggi Negeri 8061
## 4 2010_2011 Mahasiswa Baru S0 Perguruan Tinggi Swasta 16987
## 11 2010_2011 Mahasiswa Baru S1 Perguruan Tinggi Negeri 60351
## 12 2010_2011 Mahasiswa Baru S1 Perguruan Tinggi Swasta 47980
## 19 2010_2011 Mahasiswa Baru S2 Perguruan Tinggi Negeri 3340
## 20 2010_2011 Mahasiswa Baru S2 Perguruan Tinggi Swasta 7217
## jumlah_perempuan periode_data
## 3 10838 2011
## 4 15002 2011
## 11 127923 2011
## 12 40632 2011
## 19 3445 2011
## 20 3771 2011
Berdasarkan data mahasiswa baru dengan variabel jumlah laki-laki, jumlah perempuan, tingkat pendidikan, dan tahun ajaran 2012-2013. Dilampirkan visualisasi data dalam bentuk Pie Chart:
data_pie <- subset(data_mahasiswa_baru, tahun_ajaran == "2012_2013")
data_pie <- data_pie %>%
group_by(tingkat) %>%
summarise(Total_Mhs = sum(jumlah_laki_laki + jumlah_perempuan, na.rm = TRUE), .groups = "drop") %>%
mutate(percentage = Total_Mhs / sum(Total_Mhs) * 100)
ggplot(data_pie, aes(x = "", y = Total_Mhs, fill = tingkat)) +
geom_bar(stat = "identity", width = 1) +
coord_polar("y", start = 0) +
theme_void() +
labs(title = "Pie Chart: Distribusi Jumlah Mahasiswa Baru Berdasarkan Tingkat, 2012-2013", fill = "Tingkat") +
theme(legend.title = element_blank())
print(data_pie)
## # A tibble: 6 × 3
## tingkat Total_Mhs percentage
## <chr> <int> <dbl>
## 1 Diploma (SO) 22205 8.45
## 2 Profesi 1612 0.614
## 3 S-1 226874 86.4
## 4 S-2 11481 4.37
## 5 S-3 521 0.198
## 6 Spesialis-1 (Sp-1) 0 0
Interpretasi : Berdasarkan hasil data distribusi jumlah mahasiswa baru yang disajikan dengan pie chart diatas. 86% Mahasiswa Baru memilih S1 sebagai tingkat pendidikan yang akan ditempuh. Kesimpulan yang dapat diambil ialah, tingkat pendidikan tinggi S1 menjadi pilihan yang paling banyak ditempuh dibandingkan tingkat pendidikan tinggi yang lain.
Berdasarkan data mahasiswa baru dengan variabel jumlah laki-laki, jumlah perempuan, tahun ajaran, dan jenis universitas. Dilampirkan visualisasi data dalam bentuk Bar Chart:
ggplot(data_mahasiswa_baru, aes(x = tahun_ajaran, y = jumlah_laki_laki + jumlah_perempuan, fill = jenis_universitas)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Bar Chart: Jumlah Mahasiswa Baru per Tahun Ajaran", x = "Tahun Ajaran", y = "Jumlah Mahasiswa", fill = "Jenis Universitas") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Interpretasi : Berdasarkan hasil data mahasiswa baru per tahun ajaran yang disajikan dengan bar chart diatas. Dapat disimpulkan bahwa terdapat penurunan yang signifikan pada angka mahasiswa baru perguruan tinggi negeri dari tahun ke tahun, sedangkan pada perguruan tinggi swasta tidak terlihat adanya penurunan yang signifikan.
Berdasarkan data mahasiswa baru dengan variabel jumlah laki-laki dan jenis universitas. Dilampirkan visualisasi data dalam bentuk Histogram:
ggplot(data_mahasiswa_baru, aes(x = jumlah_laki_laki, fill = jenis_universitas)) +
geom_histogram(bins = 30, alpha = 0.6, position = "identity") +
labs(title = "Histogram: Distribusi Frekuensi Mahasiswa Laki-laki Baru", x = "Jumlah Laki-laki", y = "Frekuensi" , fill = "Jenis Universitas")
Interpretasi : Berdasarkan hasil persebaran data jumlah mahasiswa baru yang disajikan dengan histogram diatas. Dapat disimpulkan bahwa persebaran jumlah mahasiswa baru bersifat abnormal serta terdapat nilai ekstrim didalam nya, baik dari jenis perguruan tinggi negeri maupun perguruan tinggi swasta. Tetapi dapat terlihat dengan jelas bahwa jumlah mahasiswa baru pada perguruan tinggi negeri memiliki frekuensi yang lebih banyak dibandingkan jumlah frekuensi mahasiswa perguruan tinggi swasta.
Berdasarkan data mahasiswa baru dengan variabel jumlah perempuan dan jenis universitas. Dilampirkan visualisasi data dalam bentuk Density Plot:
ggplot(data_mahasiswa_baru, aes(x = jumlah_perempuan, fill = jenis_universitas)) +
geom_density(alpha = 0.5) +
labs(title = "Density Plot: Distribusi Density Mahasiswa Perempuan Baru", x = "Jumlah Perempuan", y = "Density" , fill = "Jenis Universitas")
Interpretasi : Berdasarkan hasil data jumlah mahasiswi baru yang disajikan dengan density plot diatas. Dapat disimpulkan dari kurva diatas bahwa persebaran jumlah mahasiswi baru bersifat abnormal dan juga terdapat nilai outlier, baik dari perguruan tinggi negeri maupun perguruan tinggi swasta. Yang membedakan hanyalah jumlah mahasiswi baru pada perguruan tinggi negeri lebih tinggi dibandingkan pada perguruan tinggi swasta.
Berdasarkan data mahasiswa baru dengan variabel jumlah laki-laki, jumlah perempuan, dan jenis universitas. Dilampirkan dua visualisasi data dalam bentuk Box Plot:
ggplot(data_mahasiswa_baru, aes(x = jenis_universitas, y = jumlah_laki_laki, fill = jenis_universitas)) +
geom_boxplot() +
labs(title = "Boxplot 1: Distribusi Jumlah Mahasiswa Laki-laki Baru per Universitas", x = "Jenis Universitas", y = "Jumlah Laki-Laki", fill = "Jenis Universitas")
ggplot(data_mahasiswa_baru, aes(x = jenis_universitas, y = jumlah_perempuan, fill = jenis_universitas)) +
geom_boxplot() +
labs(title = "Boxplot 2: Distribusi Jumlah Mahasiswa Perempuan Baru per Universitas", x = "Jenis Universitas", y = "Jumlah Perempuan", fill = "Jenis Universitas")
Interpretasi : Berdasarkan perbandingan hasil data mahasiswa dan mahasiswi baru, serta jenis universitas nya. Dalam boxplot 1 dapat ditunjukan bahwa data mahasiswa perguruan tinggi swasta lebih simetris walaupun memiliki beberapa data outlier diatas kotak, dibandingkan data mahasiswa perguruan tinggi negeri yang memiliki data yang kurang simetris serta memiliki beberapa nilai ekstrim diatas kotak. Pada boxplot 2 sebenarnya memiliki kesamaan seperti boxplot 1 yaitu data mahasiswi perguruan tinggi swasta lebih simetris dan juga memiliki data outlier diatas kotak, sedangkan data mahasiswi perguruan tinggi negeri memiliki dua nilai ekstrim diatas kotak sehingga menghasilkan data yang tidak simetris. Kesimpulan dari kedua boxplot tadi sudah jelas bahwa data mahasiswa dan mahasiswi perguruan tinggi negeri memiliki lonjakan jumlah yang tinggi dibandingkan dengan perguruan tinggi swasta, namun hal itu berarti terdapat persebaran yang tidak normal atau abnormal dari data tersebut.
Berikut adalah hasil perhitungan statistik deskriptif dari data jumlah laki-laki dan jumlah perempuan:
Mean atau rata-rata digunakan untuk menghitung jumlah nilai data dibagi banyaknya data, berikut ini adalah nilai mean dari data dan syntaxnya:
mean(data_mahasiswa_baru$jumlah_laki_laki)
## [1] 13791.1
mean(data_mahasiswa_baru$jumlah_perempuan)
## [1] 16666.65
Median atau nilai tengah digunakan untuk menentukan nilai yang terletak di tengah jika data diurutkan, berikut ini adalah nilai median dari data dan syntaxnya:
median(data_mahasiswa_baru$jumlah_laki_laki)
## [1] 2411
median(data_mahasiswa_baru$jumlah_perempuan)
## [1] 2316
Modus digunakan untuk menentukan nilai dengan jumlah frekuensi tertinggi dari data, berikut ini adalah nilai modus dari data dan syntaxnya:
modus <- function(x) {
uniqx <- unique(x)
uniqx[which.max(tabulate(match(x, uniqx)))]
}
modus(data_mahasiswa_baru$jumlah_laki_laki)
## [1] 0
modus(data_mahasiswa_baru$jumlah_perempuan)
## [1] 0
Statistik 5 Serangkai digunakan untuk memberikan gambaran atau rangkuman dari data, berikut ini adalah statistik 5 serangkai dari data dan syntaxnya:
quantile(data_mahasiswa_baru$jumlah_laki_laki)
## 0% 25% 50% 75% 100%
## 0.00 164.75 2411.00 12211.00 67193.00
quantile(data_mahasiswa_baru$jumlah_perempuan)
## 0% 25% 50% 75% 100%
## 0.0 150.5 2316.0 11879.0 127923.0
Jangkauan atau range digunakan untuk menentukan selisih nilai terkecil dan nilai terbesar dari data, berikut ini adalah hasil selisih dari data dan syntaxnya:
diff(range(data_mahasiswa_baru$jumlah_laki_laki))
## [1] 67193
diff(range(data_mahasiswa_baru$jumlah_perempuan))
## [1] 127923
Ragam atau variance digunakan untuk menentukan nilai sebaran kuadrat dari data, berikut ini adalah hasil ragam dari data dan syntaxnya:
var(data_mahasiswa_baru$jumlah_laki_laki)
## [1] 487423250
var(data_mahasiswa_baru$jumlah_perempuan)
## [1] 1057368948
Deviasi standar atau standard deviation digunakan untuk menentukan nilai sebaran sesuai satuan data awalnya, berikut ini adalah deviasi standar dari data dan syntaxnya:
sd(data_mahasiswa_baru$jumlah_laki_laki)
## [1] 22077.66
sd(data_mahasiswa_baru$jumlah_perempuan)
## [1] 32517.21