Tingkat kelahiran (fertility rate) merupakan salah satu indikator penting dalam analisis kependudukan dan pembangunan sosial ekonomi. Banyak faktor yang diduga berpengaruh terhadap tingkat kelahiran, antara lain tingkat pendidikan, kondisi ekonomi, tingkat religiusitas masyarakat, akses terhadap layanan kesehatan, serta kondisi sosial budaya. Untuk memahami hubungan antara faktor-faktor ini dengan tingkat kelahiran, diperlukan analisis statistik yang tepat.
Dataset swiss merupakan salah satu dataset klasik yang disediakan dalam pustaka R. Dataset ini berisi informasi mengenai beberapa indikator sosial ekonomi di 47 provinsi di Swiss pada tahun 1888. Meskipun berasal dari periode yang cukup lama, dataset ini masih relevan untuk dipelajari karena dapat menunjukkan bagaimana variabel-variabel sosial ekonomi tertentu memengaruhi tingkat kelahiran.
Variabel-variabel yang tersedia dalam dataset ini adalah:
Fertility: tingkat kelahiran per 1000 penduduk
Agriculture: persentase penduduk yang bekerja di sektor agrikultur
Examination: skor ujian yang menggambarkan tingkat pencapaian pendidikan lebih tinggi
Education: jumlah pendidikan formal
Catholic: persentase penduduk Katolik
Infant.Mortality: angka kematian bayi
Melalui variabel-variabel ini, kita dapat membangun model regresi yang menjelaskan faktor apa saja yang berperan dalam menentukan tingkat kelahiran.
Pendekatan analisis yang digunakan terdiri dari dua tahap. Analisis korelasi Pearson diterapkan terlebih dahulu untuk mengidentifikasi hubungan antara masing-masing variabel independen dengan Fertility, serta mendeteksi adanya multikolinearitas antar variabel independen. Selanjutnya, analisis regresi linear berganda digunakan untuk membangun model yang menjelaskan pengaruh simultan semua variabel terhadap tingkat kelahiran.
Rumusan masalah dalam laporan ini adalah:
Bagaimana hubungan linier antara masing-masing variabel independen (Agriculture, Examination, Education, Catholic, Infant.Mortality) dengan tingkat kelahiran (Fertility) berdasarkan analisis korelasi?
Faktor-faktor sosial ekonomi mana yang berpengaruh signifikan terhadap tingkat kelahiran secara simultan berdasarkan model regresi linear berganda?
Bagaimana arah dan kekuatan pengaruh masing-masing variabel terhadap tingkat kelahiran?
Apakah model regresi linear yang dibangun sudah memenuhi asumsi normalitas, multikolinearitas, dan heteroskedastisitas?
Variabel mana yang paling dominan dalam memengaruhi tingkat kelahiran di Swiss?
Tujuan laporan ini adalah:
Menganalisis hubungan linier antar variabel melalui analisis korelasi Pearson.
Membangun model regresi linear berganda untuk mengidentifikasi faktor-faktor yang berpengaruh signifikan terhadap tingkat kelahiran.
Mengukur kekuatan dan arah pengaruh masing-masing variabel independen terhadap Fertility.
Melakukan pengujian asumsi regresi (normalitas residual, multikolinearitas, dan heteroskedastisitas) untuk memvalidasi model.
Mengidentifikasi variabel paling dominan dan memberikan interpretasi praktis hasil analisis.
Berikut beberapa manfaatnya:
Memberikan pemahaman tentang hubungan dan pengaruh faktor sosial-ekonomi terhadap tingkat kelahiran melalui pendekatan analisis bertahap.
Menjadi contoh penerapan analisis statistik yang terstruktur.
Memberikan pemahaman tentang pentingnya uji asumsi klasik dalam pemodelan regresi untuk memastikan validitas hasil.
Hasil analisis ini dapat menjadi bahan pertimbangan atau landasan awal dalam pengambilan keputusan terkait kebijakan kependudukan serta untuk penelitian lanjutan di bidang yang sama.
Data yang digunakan adalah dataset swiss yang sudah tersedia di dalam R. Dataset ini berisi informasi dari 47 provinsi di Swiss pada tahun 1888. Semua variabelnya berbentuk angka (numerik) dan tidak ada nilai yang hilang, jadi datanya dapat langsung dianalisis. Dataset ini dipilih karena sering digunakan untuk contoh analisis sosial-ekonomi, dan cocok untuk melihat faktor apa saja yang berkaitan dengan tingkat kelahiran.
## 'data.frame': 47 obs. of 6 variables:
## $ Fertility : num 80.2 83.1 92.5 85.8 76.9 76.1 83.8 92.4 82.4 82.9 ...
## $ Agriculture : num 17 45.1 39.7 36.5 43.5 35.3 70.2 67.8 53.3 45.2 ...
## $ Examination : int 15 6 5 12 17 9 16 14 12 16 ...
## $ Education : int 12 9 5 7 15 7 7 8 7 13 ...
## $ Catholic : num 9.96 84.84 93.4 33.77 5.16 ...
## $ Infant.Mortality: num 22.2 22.2 20.2 20.3 20.6 26.6 23.6 24.9 21 24.4 ...
## Fertility Agriculture Examination Education
## Min. :35.00 Min. : 1.20 Min. : 3.00 Min. : 1.00
## 1st Qu.:64.70 1st Qu.:35.90 1st Qu.:12.00 1st Qu.: 6.00
## Median :70.40 Median :54.10 Median :16.00 Median : 8.00
## Mean :70.14 Mean :50.66 Mean :16.49 Mean :10.98
## 3rd Qu.:78.45 3rd Qu.:67.65 3rd Qu.:22.00 3rd Qu.:12.00
## Max. :92.50 Max. :89.70 Max. :37.00 Max. :53.00
## Catholic Infant.Mortality
## Min. : 2.150 Min. :10.80
## 1st Qu.: 5.195 1st Qu.:18.15
## Median : 15.140 Median :20.00
## Mean : 41.144 Mean :19.94
## 3rd Qu.: 93.125 3rd Qu.:21.70
## Max. :100.000 Max. :26.60
Pada penelitian ini digunakan dua metode analisis utama, yaitu:
Analisis Korelasi
Regresi Linear Berganda
Kedua metode ini digunakan secara berurutan agar hasil yang diperoleh lebih lengkap. Korelasi memberi gambaran awal hubungan antar variabel, sedangkan regresi berganda digunakan untuk mengukur pengaruh masing-masing variabel secara bersamaan.
Analisis korelasi dilakukan untuk melihat apakah dua variabel memiliki hubungan satu sama lain. Dalam analisis ini digunakan korelasi Pearson untuk mengukur hubungan linier antar variabel. Metode ini digunakan karena sebelum membangun model regresi, kita perlu memahami pola dasar dari data.
Nilai korelasi berada pada rentang –1 sampai 1:
Nilai positif berarti kedua variabel bergerak searah.
Nilai negatif berarti bergerak berlawanan arah.
Semakin mendekati ±1, hubungan makin kuat.
Nilai mendekati 0 berarti hubungan linear sangat lemah atau tidak ada.
Korelasi digunakan dalam dua cara:
Korelasi antara variabel independen dan Fertility → untuk melihat variabel mana yang tampaknya terkait dengan tingkat kelahiran.
Korelasi antar variabel independen → untuk mengecek apakah ada variabel yang terlalu mirip satu sama lain (yang dapat menyebabkan multikolinearitas). Hasil korelasi nantinya membantu memberikan gambaran awal sebelum masuk ke analisis regresi.
Rumus koefisien korelasi Pearson adalah:
\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \]
Rumus digunakan untuk mengukur seberapa kuat hubungan linier antara dua variabel. Untuk menunjukkan hubungan tersebut positif, negatif, atau sangat lemah.
Setelah melihat korelasi, analisis dilanjutkan dengan regresi linear berganda. Metode ini digunakan untuk mengetahui seberapa besar pengaruh variabel-variabel bebas, yaitu:
Variabel Dependen (Y): Fertility
Variabel Independen (X):
Regresi linear berganda berfungsi untuk:
Mengukur arah hubungan (positif atau negatif)
Menilai besar pengaruh masing-masing variabel
Melihat variabel mana yang paling signifikan
Mengetahui seberapa baik model menjelaskan data (melalui R-squared)
Langkah Analisis:
Membangun model regresi linear berganda.
Menginterpretasi koefisien regresi.
Melakukan uji signifikansi (uji t dan uji F).
Mengukur kualitas model (Adjusted R-squared).
Melakukan uji asumsi regresi:
Normalitas residual
Multikolinearitas
Heteroskedastisitas
Menyajikan visualisasi hubungan antar variabel.
Model regresi linear secara umum dituliskan sebagai:
\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \ldots + \beta_kX_k + \epsilon \]
Pada dataset ini:
\[ Fertility = \beta_0 + \beta_1 Agriculture + \beta_2 Examination + \beta_3 Education + \beta_4 Catholic + \beta_5 Infant.Mortality + \epsilon \]
Agar hasil regresi dapat dipercaya, beberapa asumsi dasar harus dipenuhi. Pada analisis ini dilakukan tiga uji utama:
Uji Normalitas Residual
Untuk memastikan bahwa sisaan model mengikuti distribusi
normal.
Uji Multikolinearitas
Dilakukan dengan nilai VIF (Variance Inflation Factor). Jika VIF kecil,
berarti variabel bebas tidak saling tumpang tindih.
Uji Heteroskedastisitas
Untuk mengecek apakah variasi residual stabil. Jika p-value lebih dari
0.05, berarti tidak ada masalah heteroskedastisitas.
Ketiga uji ini digunakan untuk memastikan bahwa model regresi sudah layak dan hasilnya tidak bias.
Visualisasi dilakukan untuk memberikan gambaran yang lebih mudah dipahami mengenai hubungan antar variabel. Selain itu, visualisasi juga digunakan untuk:
Memvalidasi hasil analisis statistik
Mendeteksi outlier atau pola tidak biasa
Memeriksa asumsi linearitas hubungan
Grafik yang digunakan antara lain:
scatter plot (misalnya Fertility vs Education)
garis regresi untuk melihat arah hubungan
boxplot untuk melihat persebaran masing-masing variabel
Dengan visualisasi dapat membantu memperjelas pola hubungan dan mendukung interpretasi hasil regresi.
## Fertility Agriculture Examination Education Catholic
## Fertility 1.0000000 0.35307918 -0.6458827 -0.66378886 0.4636847
## Agriculture 0.3530792 1.00000000 -0.6865422 -0.63952252 0.4010951
## Examination -0.6458827 -0.68654221 1.0000000 0.69841530 -0.5727418
## Education -0.6637889 -0.63952252 0.6984153 1.00000000 -0.1538589
## Catholic 0.4636847 0.40109505 -0.5727418 -0.15385892 1.0000000
## Infant.Mortality 0.4165560 -0.06085861 -0.1140216 -0.09932185 0.1754959
## Infant.Mortality
## Fertility 0.41655603
## Agriculture -0.06085861
## Examination -0.11402160
## Education -0.09932185
## Catholic 0.17549591
## Infant.Mortality 1.00000000
Analisis korelasi dilakukan untuk mengetahui apakah dua variabel punya hubungan atau tidak. Korelasi tidak menunjukkan sebab-akibat, tapi memberikan petunjuk awal apakah suatu variabel bergerak searah atau berlawanan dengan variabel lain.
Interpretasi:
Education punya korelasi negatif dengan Fertility, artinya provinsi dengan pendidikan lebih tinggi cenderung punya angka kelahiran lebih rendah.
Catholic berkorelasi positif dengan Fertility. Provinsi yang lebih religius (lebih banyak penganut Katolik) cenderung punya keluarga lebih besar.
Agriculture juga menunjukkan hubungan positif dengan Fertility, sesuai dengan karakteristik masyarakat agraris yang biasanya memiliki anak lebih banyak.
Korelasi ini belum menunjukkan sebab-akibat, tetapi memberi gambaran awal pola hubungan antar variabel.
Model regresi untuk melihat pengaruh beberapa variabel sekaligus terhadap Fertility. Dengan model ini, kita bisa melihat variabel mana yang benar-benar berpengaruh besar setelah dibandingkan dengan variabel lain.
##
## Call:
## lm(formula = Fertility ~ Agriculture + Examination + Education +
## Catholic + Infant.Mortality, data = swiss)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.2743 -5.2617 0.5032 4.1198 15.3213
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
## Agriculture -0.17211 0.07030 -2.448 0.01873 *
## Examination -0.25801 0.25388 -1.016 0.31546
## Education -0.87094 0.18303 -4.758 2.43e-05 ***
## Catholic 0.10412 0.03526 2.953 0.00519 **
## Infant.Mortality 1.07705 0.38172 2.822 0.00734 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.165 on 41 degrees of freedom
## Multiple R-squared: 0.7067, Adjusted R-squared: 0.671
## F-statistic: 19.76 on 5 and 41 DF, p-value: 5.594e-10
Hasil model memberikan:
R-squared = 0.7067: Model menjelaskan 70.67% variasi dalam tingkat kelahiran.
F-statistic p-value = 5.594e-10: Model secara keseluruhan signifikan.
Variabel signifikan: Agriculture (p=0.0187), Education (p=2.43e-05), Catholic (p=0.00519), Infant.Mortality (p=0.00734).
Variabel tidak signifikan: Examination (p=0.315)
penjelasan umumnya:
Education (pendidikan) memberikan pengaruh negatif yang kuat dan signifikan. Artinya, semakin tinggi pendidikan di suatu daerah, semakin rendah angka kelahirannya.
Catholic (Religiusitas) berpengaruh positif, yang berarti daerah yang lebih religius punya angka kelahiran lebih tinggi.
Agriculture (Wilayah agraris) cenderung berpengaruh positif, meskipun tingkat signifikansinya berbeda tergantung model.
Sementara itu, variabel lain seperti Examination (hasil ujian), dan Infant.Mortality (angka kematian bayi) biasanya tidak terlalu berpengaruh kuat dalam model.
Uji multikolinearitas untuk memastikan bahwa variabel-variabel independen tidak saling menyerupai atau terlalu mirip satu sama lain. Jika dua variabel terlalu mirip, hasil regresi bisa bias.
## Agriculture Examination Education Catholic
## 2.284129 3.675420 2.774943 1.937160
## Infant.Mortality
## 1.107542
Jika VIF tinggi, salah satu variabel harus dipertimbangkan untuk dihapus.
Dari nilai VIF yang didapat, semua variabel masih dalam batas aman. Itu berarti tidak ada variabel yang terlalu saling mempengaruhi satu sama lain. Dengan kata lain, model regresi boleh dilanjutkan tanpa harus menghapus variabel.
Uji normalitas untuk mengetahui apakah sisa model regresi (residual) mengikuti pola distribusi normal atau tidak. Idealnya, residual harus normal agar hasil regresi bisa dipercaya.
##
## Shapiro-Wilk normality test
##
## data: res
## W = 0.98892, p-value = 0.9318
Interpretasi:
p-value > 0.05 → residual normal
p-value < 0.05 → residual tidak normal
QQ-Plot menunjukkan apakah residual menyebar mengikuti garis lurus.
Dari uji Shapiro–Wilk dan QQ-Plot, residual model terlihat cukup mengikuti garis normal. Artinya, tidak ada masalah berarti dalam normalitas. Model masih aman digunakan.
Uji Heteroskedastisitas untuk memastikan apakah variasi residual sama di setiap tingkat prediksi. Kalau variasinya berbeda-beda, itu disebut heteroskedastisitas dan bisa menyebabkan hasil regresi tidak stabil.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 0.3077424, Df = 1, p = 0.57907
Interpretasi:
p-value > 0.05 → tidak ada heteroskedastisitas
p-value < 0.05 → ada heteroskedastisitas
Berdasarkan hasil uji, nilai p-value menunjukkan bahwa model tidak mengalami heteroskedastisitas. Itu artinya model sudah memenuhi asumsi penting dalam regresi.
## `geom_smooth()` using formula = 'y ~ x'
Grafik ini menunjukkan hubungan antara tingkat pendidikan (Education) dan tingkat kelahiran (Fertility). Setiap titik pada grafik adalah satu provinsi di Swiss.
Interpretasi:
Terlihat pola negatif: semakin tinggi Education, semakin rendah Fertility.
Hal ini sesuai teori bahwa pendidikan cenderung menunda pernikahan atau menurunkan angka kelahiran.
Jika kita perhatikan:
Titik-titiknya cenderung turun dari kiri ke kanan. Artinya semakin tinggi angka Education → semakin rendah angka Fertility.
Garis biru (garis regresi) juga miring ke bawah, mengonfirmasi bahwa hubungan keduanya adalah negatif.
Pola ini konsisten dengan teori demografi:
Pendidikan tinggi → menikah lebih lambat
Pendidikan tinggi → penggunaan alat kontrasepsi meningkat
Pendidikan tinggi → preferensi jumlah anak lebih sedikit
Sebagian besar titik berada cukup dekat dengan garis regresi, sehingga hubungan antara Education dan Fertility dapat dikatakan cukup kuat dan tidak terlalu dipengaruhi oleh noise. Meskipun terdapat beberapa titik yang dapat dianggap sebagai outlier ringan, tidak ditemukan outlier ekstrem yang mengganggu pola keseluruhan.
Kesimpulan dari Grafik
Grafik ini menunjukkan bahwa tingkat pendidikan memiliki hubungan negatif yang jelas terhadap angka kelahiran. Temuan visual ini sejalan dengan hasil analisis regresi, di mana variabel Education terbukti memiliki koefisien negatif yang signifikan dalam mempengaruhi Fertility.
## `geom_smooth()` using formula = 'y ~ x'
Grafik ini menunjukkan hubungan antara persentase penduduk Katolik di suatu provinsi dengan tingkat kelahiran (Fertility). Setiap titik pada grafik mewakili satu provinsi di Swiss.
Interpretasi: Terlihat bahwa semakin tinggi persentase penduduk Katolik di suatu daerah, semakin tinggi pula angka kelahirannya. Pola ini tampak dari titik-titik yang cenderung naik ke arah kanan, serta garis regresi yang memiliki kemiringan positif.
Dan pola titik-titiknya terlihat lebih menyebar, maka hubungan fertility dan catholict tidak sekuat hubungan fertility dan education sebelumnya. Tapi tetap terlihat polanya, karena: - daerah yang mayoritas Katolik umumnya memegang nilai keluarga besar, - biasanya kurang mendukung penggunaan kontrasepsi, - lebih pro terhadap keluarga yang punya banyak anak.
Kesimpulan dari grafik: Daerah dengan proporsi penduduk Katolik yang lebih besar cenderung memiliki tingkat kelahiran yang lebih tinggi. Hal ini sejalan dengan karakteristik sosial dan budaya masyarakat Katolik pada masa tersebut, yang lebih mendukung keluarga besar.
Boxplot digunakan untuk memberikan gambaran awal tentang bagaimana nilai setiap variabel tersebar, apakah ada nilai yang terlalu jauh dari yang lain (outlier), serta seberapa besar variasi antarprovinsi. Berikut penjelasan tiap variabel berdasarkan grafik boxplot:
Fertility: Sebaran nilai Fertility cukup merata dan tidak menunjukkan adanya nilai yang benar-benar ekstrem. Ini berarti tingkat kelahiran antarprovinsi di Swiss relatif konsisten dan tidak ada daerah yang terlalu menyimpang dari pola umum.
Agriculture: Variabel ini memiliki sebaran yang cukup lebar. Ada provinsi yang sangat bergantung pada sektor pertanian, tetapi ada juga yang aktivitas pertaniannya sangat kecil. Variasi yang besar ini membantu menjelaskan mengapa Agriculture bisa memberikan pengaruh yang cukup kuat terhadap model regresi.
Examination: Berbeda dengan Agriculture, variabel Examination justru memiliki sebaran yang sempit. Artinya, skor ujian antarprovinsi hampir mirip. Karena perbedaannya kecil, tidak heran jika pengaruh Examination terhadap Fertility tidak terlalu menonjol dalam model.
Education: Sebaran nilai Education lebih bervariasi. Terdapat provinsi dengan tingkat pendidikan rendah, dan ada juga yang cukup tinggi. Perbedaan yang jelas antarprovinsi menjadi alasan mengapa Education muncul sebagai salah satu variabel yang paling berpengaruh dalam model regresi.
Catholic: Variabel dengan sebaran paling ekstrem. Ada provinsi yang mayoritas bukan Katolik, tetapi ada juga yang hampir seluruh penduduknya Katolik. Rentang nilai yang sangat lebar ini membuat Catholic berpotensi memberikan pengaruh besar dalam model, baik positif maupun negatif.
Infant Mortality:Variabel ini memiliki sebaran yang relatif sempit, menunjukkan bahwa angka kematian bayi tidak jauh berbeda antarprovinsi. Karena variasinya kecil, pengaruhnya terhadap Fertility juga cenderung tidak terlalu kuat.
Kesimpulan boxplot: Setiap variabel memiliki karakteristik sebaran yang berbeda. Variabel yang memiliki variasi besar seperti Agriculture, Catholic, dan Education cenderung memberikan pengaruh lebih jelas dalam model regresi. Sementara variabel yang sebarannya sempit seperti Examination dan Infant Mortality memiliki kontribusi pengaruh yang lebih kecil. Boxplot membantu memberikan gambaran awal mengenai struktur data sehingga analisis regresi dapat dipahami dengan lebih baik.
Berdasarkan hasil analisis korelasi, regresi linear berganda, dan pengujian asumsi yang telah dilakukan pada dataset Swiss, diperoleh beberapa kesimpulan:
Tingkat pendidikan (Education) merupakan variabel yang paling berpengaruh signifikan dan negatif terhadap tingkat kelahiran. Setiap peningkatan satu unit Education menurunkan Fertility sebesar 0.87 unit.
Persentase penduduk Katolik (Catholic) memiliki pengaruh positif yang signifikan terhadap angka kelahiran. Setiap peningkatan 1% populasi Katolik meningkatkan Fertility sebesar 0.10 unit, menunjukkan pengaruh norma religius terhadap fertilitas.
Variabel Agriculture ternyata memiliki pengaruh negatif yang signifikan terhadap tingkat kelahiran. Hasil tidak sesuai dengan dugaan awal yang memperkirakan hubungan positif. Hal ini menunjukkan bahwa mungkin ada faktor lain yang memengaruhi hubungan antara kondisi wilayah agraris dan tingkat kelahiran, sehingga hasil tidak sesuai dengan apa yang diharapkan.
Angka kematian bayi (Infant.Mortality) berpengaruh positif signifikan, sesuai dengan teori demografi dimana tingginya angka kematian bayi biasanya diikuti dengan tingginya tingkat kelahiran.
Variabel Examination tidak signifikan secara statistik dalam model multivariat, menunjukkan bahwa setelah dikontrol oleh variabel lain, skor ujian tidak memberikan pengaruh tambahan yang signifikan terhadap tingkat kelahiran.
Model regresi memenuhi semua asumsi klasik dengan tidak adanya multikolinearitas (VIF < 5), residual berdistribusi normal (p-value = 0.9318), dan tidak ada heteroskedastisitas (p-value = 0.57907).
Secara keseluruhan, model regresi memiliki kualitas yang baik dengan R-squared sebesar 0.7067, yang berarti model dapat menjelaskan 70.67% variasi dalam tingkat kelahiran di provinsi-provinsi Swiss.
Analisis ini mengidentifikasi bahwa faktor pendidikan dan religiusitas menjadi penentu utama tingkat kelahiran, dengan model yang valid untuk memahami hubungan antara kondisi sosial ekonomi dan fertilitas.