ANALISIS REGRESI PENGARUH INDIKATOR SOSIAL-EKONOMI TERHADAP
TINGKAT KESUBURAN (FERTILITY) DI 47 DISTRIK SWISS (1888)
RIZKY PUTRA HENDRAWAN
3338240033
Tugas Pengantar Data Sains
PROGRAM STUDI STATISTIKA
FAKULTAS TEKNIK
UNIVERSITAS SULTAN AGENG TIRTAYASA
2025
Puji syukur dipanjatkan kepada Allah Yang Maha Esa sehingga tugas ini dapat diselesaikan. Tugas Analisis ini disusun sebagai pemenuhan tugas mata kulah Pengantar Data Sains pada Program Studi Statistika, Fakultas Teknik, Universitas Sultan Ageng Tirtayasa, Banten.
Saya menyadari bahwa, tanpa bantuan dan bimbingan dari berbagai pihak selama penyusunan tugas ini, sangatlah sulit bagi saya untuk menyelesaikan tugas ini. Oleh karena itu, saya mengucapkan terima kasih sebesar-besarnya kepada :
Ferdian Bangkit Wijaya,S.Stat.,M.Si Selaku dosen pengampu mata kuliah Pengantar Data Sains
Agung Satrio Wicaksono, S.Si., M.Si Selaku dosen pengampu mata kuliah Pengantar Data Sains
Dr. Faula Arina, S.Si., M.Si Selaku Ketua Program Studi Statistika Fakultas Teknik, Universitas Sultan Ageng Tirtayasa
Orang tua tercinta, kakak, serta teman-teman tercinta yang telah memberikan dorongan kepada penyusun
Akhir kata semoga tugas ini dapat bermanfaat bagi rekan-rekan mahasiswa statistika dan khususnya kepada penyusun.
Cilegon, 1 Desember 2025
Penulis
Penelitian ini bertujuan menganalisis pengaruh simultan dan parsial indikator sosial-ekonomi (Agriculture, Examination, Education, Catholic, Infant.Mortality) terhadap tingkat Fertilitas di 47 distrik Swiss pada tahun 1888. Metode yang digunakan adalah Analisis Regresi Linier Berganda setelah diawali dengan statistik deskriptif dan analisis korelasi. Hasil analisis menunjukkan bahwa model regresi yang dibentuk valid secara statistik setelah lolos semua uji asumsi klasik (Normalitas Residual, Non-Multikolinearitas, dan Homoskedastisitas). Model ini memiliki daya jelajah (Adjusted R-Squared 0.671), yang berarti 67.1% variasi Fertilitas dapat dijelaskan oleh variabel prediktor. Secara parsial, variabel Education (\(\hat{\beta} = -0.871\)) dan Infant.Mortality (\(\hat{\beta} = 1.077\)) adalah prediktor yang paling signifikan. Ditemukan bahwa peningkatan pendidikan tinggi secara signifikan menurunkan tingkat Fertilitas, sementara tingginya angka kematian bayi justru berkorelasi positif dengan tingkat Fertilitas.
Dataset Swiss merupakan kumpulan data historis yang sangat terkenal dan sering digunakan dalam analisis pada studi statistik dan juga ekonomi, dataset ini merangkum berbagai indikator sosial dan ekonomi dari 47 distrik Swiss pada tahun 1888. Data ini dikumpulkan pada masa kritis Swiss saat sedang mengalami transisi sosial dan industrial, beranjak dari masyarakat agraris menuju masyarakat yang lebih modern dan terindustrialisasi. Pengumpulan data ini bertujuan untuk menyelidiki secara empiris faktor-faktor apa saja yang mempengaruhi tingkat kesuburan (fertility) antar distrik. Dataset ini memuat beberapa variabel yakni Fertility sebagai variabel terikat, dan lima variabel prediktor dalam bentuk persentase, yaitu Agriculture, Examination, Education, Catholic, Infant.Mortality.
Data : Data yang digunakan berasal dari dataset swiss yang telah disediakan pada software RStudio
Waktu dan Lokasi Data : Dataset berisi rangkuman indikator sosial dan ekonomi dari 47 distrik Swiss, 1888
Variabel :
Variabel Bebas (x) :
Agriculture
Examination
Education
Catholic
Infant.Mortality
Variabel Terikat (y) : Fertility
statistika deskriptif adalah statistika yang tingkat pengerjaannya adalah untuk menghimpun, mengatur, dan mengolah data untuk dapat disajikan dan memberikan gambaran yang jelas mengenai suatu kondisi atau peristiwa tertentu dimana data diambil. Atau dengan kata lain, tugas statistika deskriptif adalah untuk menyajikan data dengan jelas agar dapat diambil pengertian atau makna tertentu berdasarkan penggambaran yang disajikan.1
Korelasi adalah adalah suatu kenyataan yang menunjukkan keeratan hubungan dua variabel atau lebih serta besarnya hubungan antara variabel tersebut yang didasarkan pada penelitian ilmiah. 2
Analisis regresi adalah teknik Statistik yang digunakan untuk mengevaluasi hubungan satu atau lebih variabel independen X1, X2, …, Xk dan variabel dependen kontinu Y. Dalam analisis regresi, model regresi digunakan untuk menggambarkan hubungan matematis antara variabel independen dan variabel dependen. Model ini dapat digunakan untuk melakukan prediksi dan juga untuk mengidentifikasi hubungan yang signifikan antara variabel-variabel tersebut. Regresi linier dikategorikan berdasarkan banyaknya variabel bebas atau prediktor apabila hanya terdapat 1 variabel bebas atau prediktor maka disebut sebagai regresi linier sederhana sedangkan jika terdapat dua atau lebih variabel bebas atau prediktor disebut sebagai regresi linier berganda.
Analisis regresi berganda adalah sebuah metode statistik yang digunakan untuk memodelkan hubungan antara satu variabel dependen (variabel respons) dengan dua atau lebih variabel independen (variabel prediktor). Tujuan dari analisis regresi berganda adalah untuk menentukan sejauh mana variabel-variabel prediktor tersebut berkontribusi terhadap variasi variabel respons. Persamaan regresi linier berganda secara matematik diekspresikan oleh3 :
Y=β0+β1X1+β2X2+…+βnXn
Keterangan:
Y = Variabel dependen (variabel terikat)
β0= Konstanta
β1= Koefisien regresi untuk X1
β2= Koefisien regresi untuk X2
βn= Koefisien regresi untuk Xn
X1= Variabel prediktor pertama
X2= Variabel prediktor kedua
Xn= Variabel prediktor ke-n :::
Pengujian asumsi ini bertujuan untuk mengetahui apakah nilai galat(residual) berdistribusi normal atau tidak. Model regresi yang baik adalah model yang galatnya berdistribusi normal.
Multikolinearitas adalah kondisi dimana terdapat korelasi atau hubungan yang sangat tinggi diantara variabel independen. Salah satu tanda model regresi tersebut terdapat multikolinearitas adalah nilai R-square yang tinggi tapi hanya sedikit variabel indipenden yang signifikan.
Asumsi homoskedastisitas bertujuan menguji apakah ragam dari residual bersifat konstan. Jika ragam tidak konstat atau terjadi heteroskedastisitas, maka akan terjadi peningkatan varians residual (tidak efisien).
Berikut adalah tampilan dataset swiss dan summary dari dataset swiss, menammpilkan statistik deskriptif untuk 6 variabel prediktor
head(swiss)
summary(swiss)
## Fertility Agriculture Examination Education
## Min. :35.00 Min. : 1.20 Min. : 3.00 Min. : 1.00
## 1st Qu.:64.70 1st Qu.:35.90 1st Qu.:12.00 1st Qu.: 6.00
## Median :70.40 Median :54.10 Median :16.00 Median : 8.00
## Mean :70.14 Mean :50.66 Mean :16.49 Mean :10.98
## 3rd Qu.:78.45 3rd Qu.:67.65 3rd Qu.:22.00 3rd Qu.:12.00
## Max. :92.50 Max. :89.70 Max. :37.00 Max. :53.00
## Catholic Infant.Mortality
## Min. : 2.150 Min. :10.80
## 1st Qu.: 5.195 1st Qu.:18.15
## Median : 15.140 Median :20.00
## Mean : 41.144 Mean :19.94
## 3rd Qu.: 93.125 3rd Qu.:21.70
## Max. :100.000 Max. :26.60
hist(swiss$Education, main = "Distribusi Tingkat Edukasi",
xlab = "Tingkat Edukasi", col = "skyblue")
hist(swiss$Examination, main = "Distribusi Tingkat Ujian",
xlab = "Tingkat Examination", col = "skyblue")
hist(swiss$Agriculture, main = "Distribusi Tingkat Agriculture",
xlab = "Tingkat Agriculture", col = "skyblue")
hist(swiss$Catholic, main = "Distribusi Tingkat Religius",
xlab = "Tingkat Religius", col = "skyblue")
hist(swiss$Infant.Mortality, main = "Distribusi Tingkat Kematian Bayi",
xlab = "Tingkat Kematian", col = "skyblue")
#Menghitung matriks korelasi
cor_matrix<-cor(swiss)
cor_matrix
## Fertility Agriculture Examination Education Catholic
## Fertility 1.0000000 0.35307918 -0.6458827 -0.66378886 0.4636847
## Agriculture 0.3530792 1.00000000 -0.6865422 -0.63952252 0.4010951
## Examination -0.6458827 -0.68654221 1.0000000 0.69841530 -0.5727418
## Education -0.6637889 -0.63952252 0.6984153 1.00000000 -0.1538589
## Catholic 0.4636847 0.40109505 -0.5727418 -0.15385892 1.0000000
## Infant.Mortality 0.4165560 -0.06085861 -0.1140216 -0.09932185 0.1754959
## Infant.Mortality
## Fertility 0.41655603
## Agriculture -0.06085861
## Examination -0.11402160
## Education -0.09932185
## Catholic 0.17549591
## Infant.Mortality 1.00000000
#Menampilkan korelasi 'Fertility' dengan variabel lain
round(cor_matrix["Fertility",],3)
## Fertility Agriculture Examination Education
## 1.000 0.353 -0.646 -0.664
## Catholic Infant.Mortality
## 0.464 0.417
cor_mat <- cor(swiss)
ggcorrplot(cor_mat, lab = TRUE, lab_size = 3, colors = c("pink", "white", "green"))
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## ℹ The deprecated feature was likely used in the ggcorrplot package.
## Please report the issue at <https://github.com/kassambara/ggcorrplot/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Interpretasi :
Analisis data terhatap dataset swiss, yang berisi data Fertilitas dan Indikator Sosial Ekonomi pada 47 distrik di Swiss pada tahun 1888, menunjukkan bahwa terdapat korelasi negatif yang kuat antara Pendidikan dan Tingkat Fertilisasi, dimana peningkatan populasi berpendidikan tinggi justru menyebabkan penurunan tingkat kelahiran. Sedangkan korelasi positif yang paling kuat berada diantara tingak penganut agama Katolik dan tingkat Fertilitas, dimana semakin meningkatnya penganut agama Katolik menyebabkan kenaikan tingkat kelahiran. Berdasarkan analisis ini menunjukkan bahwa faktor sosial ekonomi dan kesehatan masyarakat memliki dampak yang besar terhadap demografi saat itu.
par(mfrow=c(3, 2))
### 3.5 Scatterplot
#Scatterplot Education vs Fertility
plot(swiss$Education, swiss$Fertility,
main = "Tingkat Fertilitas vs. Pendidikan",
xlab = "Persentase Pendidikan Tinggi",
ylab = "Tingkat Fertilitas",
pch = 19, col = "darkblue")
abline(lm(Fertility ~ Education, data = swiss), col = "red", lwd = 2)
#Scatterplot Examination vs Fertility
plot(swiss$Examination, swiss$Fertility,
main = "Tingkat Fertilitas vs. Ujian",
xlab = "Persentase Ujian",
ylab = "Tingkat Fertilitas",
pch = 19, col = "darkred")
abline(lm(Fertility ~ Examination, data = swiss), col = "purple", lwd = 2)
#Scatterplot Catholic vs Fertility
plot(swiss$Catholic, swiss$Fertility,
main = "Fertilitas vs. Populasi Katolik",
xlab = "Persentase Katolik",
ylab = "Tingkat Fertilitas",
pch = 19, col = "darkgreen")
abline(lm(Fertility ~ Catholic, data = swiss), col = "red", lwd = 2)
#Scatterplot Infant.Mortality vs Fertility
plot(swiss$Infant.Mortality, swiss$Fertility,
main = "Fertilitas vs. Kematian Bayi",
xlab = "Angka Kematian Bayi",
ylab = "Tingkat Fertilitas",
pch = 19, col = "darkred")
abline(lm(Fertility ~ Infant.Mortality, data = swiss), col = "red", lwd = 2)
#Scatterplot Agriculture vs Fertility
plot(swiss$Agriculture, swiss$Fertility,
main = "Fertilitas vs. Persentase Agraris",
xlab = "Persentase Populasi Agraris",
ylab = "Tingkat Fertilitas",
pch = 19, col = "purple")
abline(lm(Fertility ~ Agriculture, data = swiss), col = "red", lwd = 2)
par(mfrow=c(1, 1))
Interpretasi
Scatterplot Education vs Fertility
Berdasarkan scatterplot, titik-titik berwarna biru tua terlihat lebih terkonsentrasi dan mengikuti arah garis regresi. Perubahan tingkat fertilitas terlihat lebih tramatis seiring peningkatan persentasi Pendidikan Tinggi yang menunjukkan terdapat hubungan yang kuat
Scatterplot Examination vs Fertility
Dibandingkan dengan scatterplot Education, titik-titik merah tersebar cukup merata disekitar garis regresi, namun menunjukkan tren negatif yang cukup jelas. Menandakan bahwa adanya hubungan negatif yang sedang hingga cukup kuat
Scatterplot Catholic vs Fertility
Pada scatterplot ini (berwarna hijau), titik-titik terlihat cenderung mengelompok di sekitar garis regresi dengan kemiringan positif. Hal ini menunjukkan bahwa seiring dengan meningkatnya persentase populasi Katolik, tingkat Fertilitas juga cenderung meningkat. Hubungan yang terlihat adalah hubungan positif yang kuat.
Scatterplot Infant.Mortality vs Fertility
Titik-titik pada scatterplot ini (berwarna merah tua) menunjukkan tren positif yang sangat jelas dan cukup terkonsentrasi di sekitar garis regresi. Pola ini mengindikasikan bahwa semakin tinggi Angka Kematian Bayi, semakin tinggi pula tingkat Fertilitasnya. Ini menunjukkan adanya hubungan positif yang sangat kuat dan substansial.
Scatterplot Agriculture vs Fertility
Scatterplot Agraris (berwarna ungu) menunjukkan tren positif, namun titik-titik tersebar lebih luas dan tidak sekuat hubungan pada variabel Catholic atau Education. Hal ini menandakan adanya hubungan positif yang sedang antara persentase populasi agraris dan tingkat Fertilitas.
# Membuat model regresi Fertility menggunakan semua variabel lainnya (y ~ .)
model_swiss <- lm(Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality, data = swiss)
# Menampilkan ringkasan hasil model (koefisien, p-value, R-squared)
summary(model_swiss)
##
## Call:
## lm(formula = Fertility ~ Agriculture + Examination + Education +
## Catholic + Infant.Mortality, data = swiss)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.2743 -5.2617 0.5032 4.1198 15.3213
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
## Agriculture -0.17211 0.07030 -2.448 0.01873 *
## Examination -0.25801 0.25388 -1.016 0.31546
## Education -0.87094 0.18303 -4.758 2.43e-05 ***
## Catholic 0.10412 0.03526 2.953 0.00519 **
## Infant.Mortality 1.07705 0.38172 2.822 0.00734 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.165 on 41 degrees of freedom
## Multiple R-squared: 0.7067, Adjusted R-squared: 0.671
## F-statistic: 19.76 on 5 and 41 DF, p-value: 5.594e-10
Interpretasi :
Koefisien Regresi Parsial (\(\beta_i\)):
Intercept (66.915) : Ketika semua variabel prediktor mencapai nilai 0, maka tingkat fertilitas yang diprediksi adalah 66.915
Agriculture (-0.17211) : Setiap kenaikan 1 unit pada persentase Agrikultur, nilai Fertilitas diprediksi akan turun sebesar 0.17211 unit, dengan mengansumsikan variabel lain konstan. Variabel ini memiliki dampak signifikan (p(0.01873)<0.05)
Examination (-0.25081) : Setiap kenaikan 1 unit pada persentase nilai ujian, nilai Fertilitas diprediksi akan turun sebesar 0.17211 unit, dengan mengansumsikan variabel lain konstan. Variabel ini tidak memiliki dampak signifikan
Education (-0.87094) : Setiap kenaikan 1 unit pada persentase Pendidikan, nilai Fertilitas diprediksi akan turun sebesar 0.17211 unit, dengan mengansumsikan variabel lain konstan. Variabel ini memiliki dampak signifikan (p(\(2.43 \times 10^{-5}\))<0.001)
Catholic (0.10412) : Setiap kenaikan 1 unit pada persentase penduduk beragama Katolik, nilai Fertilitas diprediksi akan turun sebesar 0.10412 unit, dengan mengansumsikan variabel lain konstan. Variabel ini memiliki dampak signifikan (p(0.00519)<0.01)
Infant.Mortality (1.07705) : Setiap kenaikan 1 unit pada persentase penduduk beragama Katolik, nilai Fertilitas diprediksi akan turun sebesar 1.07705 unit, dengan mengansumsikan variabel lain konstan. Variabel ini memiliki dampak signifikan (p(0.00734)<0.01)
Uji Simultan (Uji-F)
Nilai p-value yang sangat kecil (\(5.594 \times 10^{-10} \ll 0.05\)) menunjukkan bahwa secara simultan (bersama-sama), kelima variabel prediktor berpengaruh sangatsignifikan terhadap Fertility.
Koefisien Determinasi
Nilai Adjusted R-Squared : 0.671 menjabarkan bahwa setelah menyesuaikan jumlah prediktor, model menjelaskan sebesar 67.1% variasi pada tingkat Fertilitas
Setelah didapatkan model analisis regresi, dilanjutkan dengan Uji ASUMSI
Hipotesis :
H0 : Residual berdistribusi normal
H1 : Residual tidak berdistribusi normal
#Uji Shapiro-Wilk
shapiro.test(residuals(model_swiss))
##
## Shapiro-Wilk normality test
##
## data: residuals(model_swiss)
## W = 0.98892, p-value = 0.9318
Interpretasi : Nilai p-value (0.9318) > taraf signifikansi \(\alpha = 0.05\). Berdasarkan interpretasi tersebut gagal menolak H0 atau dengan kata lain residual model terdistribusi dengan normal
#Visualisasi Uji Normalitas
qqnorm(residuals(model_swiss), main = "Normal Q-Q Plot Residuals")
qqline(residuals(model_swiss), col = "red")
Uji Non-Multikolinearitas ini berfungsi untuk memastikan bahwa variabel prediktor tidak saling berkorelasi terlalu tinggi. Nilai VIF yang ideal adalah dibawah 5 atau 10
# Menghitung VIF untuk model_swiss
vif(model_swiss)
## Agriculture Examination Education Catholic
## 2.284129 3.675420 2.774943 1.937160
## Infant.Mortality
## 1.107542
Interpretasi:
Nilai VIF untuk setiap variabel prediktor berada dibawah 5 yang menunjukkan bahwa tidak adanya masalah multikolinearitas. Sehingga korelasi antara variabel prediktor cukup rendah sehingga koefisien regresi dapat diinterpretasikan dengan stabil
Uji ini berfungsi untuk memeriksa apakah varians residual konstan. Jika varins residual tersebut tidak konstan, maka disebut Heteroskedastisitas.
Hipotesis :
H0 : Residual bersifat varians konstan (Homoskedastis)
H1 : Residual tidak bersifat varians konstan (Heteroskedastis)
# Uji Breusch-Pagan
bptest(model_swiss)
##
## studentized Breusch-Pagan test
##
## data: model_swiss
## BP = 5.8511, df = 5, p-value = 0.321
Interpretasi :
Nilai p-value jauh (0.321) > \(\alpha = 0.05\). Sehingga gagal menolak H0 atau Residual bersifat varians konstan
Berdasarkan hasil analisis dataset swiss :
Variabel Agriculture, Education, Catholic, Infant.Mortality memiliki dampak signifikan terhadap variabel fertility, dikarenakan nilai p-value > tingkat signifikansi.
Uji Normalitas Residual (p-value shapiro wilk > 0.05) menghasilkan hasil gagal menolak H0 atau residual model terdistribusi secara normal.
Uji Non-Multikolinearitas menghasilkan nilai VIF dari semua variabel prediktor berada dibawah 5, yang menandakan bahwa model tidak menunjukkan masalah multikolinearitas.
Uji Homoskedastisitas (p-value Breusch-Pagan > 0.05), menandakan bahwa varians residual dari model bersifat konstan.
Model Linier Bersifat Valid :
Karena semua asumsi klasik terpenuhi, maka model regresi linier berganda yang dibentuk untuk memprediksi nilai Fertility berdasarkan variabel prediktor (sosial-ekonomi) adalah valid secara statistik.
Perumusan Model Terbaik
Berikut adalah persamaan akhir model regresi yang sudah tervalidasi. \[\text{Fertilitas} = 66.915 - 0.17211(\text{Agriculture}) - 0.25081(\text{Examination}) - 0.87094(\text{Education}) + 0.10412(\text{Catholic}) + 1.07705(\text{Infant.Mortality})\]
Martias, L. D. (2021). Statistika Deskriptif sebagai Kumpulan Informasi. Fihris: Jurnal Ilmu Perpustakaan dan Informasi, 16(1), 40-59.↩︎
Haryadi, R. (2016). Korelasi antara matematika dasar dengan fisika dasar. Jurnal Penelitian Dan Pembelajaran Matematika, 9(1), 124–127.↩︎
Rahman Afidah. (n.d.). Regresi Berganda dan Asumsi. Rpubs.↩︎