Analisis Korelasi dan Regresi dalam R untuk Kasus Sosial
Pengertian Korelasi dan Regresi
Korelasi
Korelasi adalah ukuran hubungan antara dua variabel. Nilai korelasi berkisar dari -1 hingga 1:
Positif (+1): Jika satu variabel meningkat, variabel lainnya juga meningkat. Contohnya, semakin tinggi tingkat pendidikan, semakin tinggi pendapatan seseorang.
Negatif (-1): Jika satu variabel meningkat, variabel lainnya menurun. Misalnya, semakin banyak jam kerja lembur, semakin sedikit waktu luang seseorang.
Nol (0): Tidak ada hubungan antara kedua variabel. Misalnya, nomor telepon seseorang tidak berkorelasi dengan tinggi badannya.
Korelasi sering digunakan dalam studi sosial untuk melihat hubungan antara faktor-faktor seperti pendidikan dan pendapatan.
Regresi
Regresi adalah teknik statistik yang digunakan untuk memodelkan dan menganalisis hubungan antara variabel independen (prediktor) dan variabel dependen (respon). Regresi sering digunakan dalam penelitian sosial, seperti memprediksi tingkat kriminalitas berdasarkan faktor ekonomi.
Analisis Korelasi
Korelasi dan regresi memiliki keterkaitan yang erat, tetapi berbeda dalam tujuan penggunaannya. Korelasi mengukur seberapa kuat hubungan antara dua variabel tanpa menentukan hubungan sebab-akibat. Sebaliknya, regresi tidak hanya mengukur hubungan, tetapi juga mencoba meramalkan bagaimana perubahan pada satu variabel dapat mempengaruhi variabel lainnya. Contohnya, korelasi bisa digunakan untuk melihat apakah ada hubungan antara tingkat pendidikan dan pendapatan, sedangkan regresi dapat digunakan untuk memprediksi berapa besar kenaikan pendapatan jika tingkat pendidikan meningkat.
Apakah ada hubungan antara tingkat pendidikan dan pendapatan dalam dataset sosial?
didapatkan bahwa skor korelasi mendekati +1, yang mana kita dapat simpulkan bahwa pendidikan dan pendapatan memiliki hubungan yang sangat kuat satu sama lain. Atau kita juga dapat menyimpulkan bahwa seseorang dengan pendidikan yang lebih tinggi maka pendapatannya akan cenderung tinggi.
Kode diatas merupakan cara sederhana untuk mengetahui korelasi satu dengan yang lainnya. Selanjutnya akan timbul pertanyaan bagaimana jika kita ingin melihat korelasi antar variabel yang lebih dari 2? Hal tersebut dapat kita siasati menggunakan heatmap correlation
# Load library yang diperlukanlibrary(ggplot2)library(reshape2)# Membuat Dataframe dengan Variasi Korelasi yang Beragamset.seed(123)sosial_data <-data.frame(pendidikan =sample(8:20, 10, replace =TRUE),pendapatan =sample(2500:9000, 10, replace =TRUE),pengalaman =sample(2:20, 10, replace =TRUE),usia =sample(25:60, 10, replace =TRUE),jumlah_anak =sample(0:5, 10, replace =TRUE))# Menghitung matriks korelasicor_matrix <-cor(sosial_data)# Mengubah matriks korelasi menjadi format yang dapat digunakan di ggplot2cor_melted <-melt(cor_matrix)# Membuat heatmap dengan angka korelasiggplot(data = cor_melted, aes(Var1, Var2, fill = value)) +geom_tile() +geom_text(aes(label =round(value, 2)), color ="black", size =5) +# Menampilkan angka korelasiscale_fill_gradient2(low ="blue", high ="red", mid ="white",midpoint =0, limit =c(-1, 1), space ="Lab",name="Korelasi") +theme_minimal() +theme(axis.text.x =element_text(angle =45, vjust =1,size =12, hjust =1)) +labs(title ="Heatmap Korelasi Sosial", x ="", y ="")
Analisis Regresi Linier Sederhana
Seorang peneliti ingin mengetahui apakah pendidikan memengaruhi pendapatan
Call:
lm(formula = pendapatan ~ pendidikan, data = sosial_data)
Residuals:
Min 1Q Median 3Q Max
-2213.6 -966.0 -344.1 1037.4 2738.4
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3410.3 2516.6 1.355 0.212
pendidikan 173.5 190.1 0.913 0.388
Residual standard error: 1792 on 8 degrees of freedom
Multiple R-squared: 0.09431, Adjusted R-squared: -0.01891
F-statistic: 0.833 on 1 and 8 DF, p-value: 0.3881
Persamaan regresi
\[\hat{y} = 3410.3 + 173.5 x\]
Dalam hasil regresi linier sederhana antara tingkat pendidikan dan pendapatan, ada beberapa hal yang perlu diperhatikan. Pertama, koefisien regresi menunjukkan bahwa setiap peningkatan satu tahun pendidikan meningkatkan pendapatan rata-rata sebesar 173.5 USD. Namun, p-value dari variabel pendidikan adalah 0.388, yang lebih besar dari 0.05. Ini berarti tidak ada bukti yang cukup untuk menyimpulkan bahwa pendidikan secara signifikan mempengaruhi pendapatan dalam model ini. Selain itu, nilai R-squared sebesar 0.09431 menunjukkan bahwa hanya 9.4% variasi dalam pendapatan yang dapat dijelaskan oleh pendidikan, sementara faktor lainnya tidak dimasukkan dalam model. Oleh karena itu, model ini kurang baik dalam menjelaskan hubungan antara pendidikan dan pendapatan, sehingga disarankan untuk menambahkan variabel lain seperti pengalaman kerja atau keterampilan untuk mendapatkan model yang lebih akurat.
Degree of Freedom atau \(df\) dalam regresi dihitung berdasarkan rumus:
\[ df=n-k-1 \] dimana n adalah jumlah observasidan k adalah jumlah variabel independen.
Berdasarkan grafik regresi linier sederhana ini, terdapat hubungan positif antara tingkat pendidikan (sumbu X) dan pendapatan (sumbu Y). Garis regresi berwarna biru menunjukkan tren yang menunjukkan bahwa semakin tinggi tingkat pendidikan seseorang, semakin tinggi pula pendapatannya. Namun, dari penyebaran titik data (scatter plot), terlihat bahwa hubungan ini cukup lemah karena titik-titik tidak terlalu dekat dengan garis regresi.
Analisis Regresi Linier Berganda
Regresi linier berganda digunakan saat terdapat lebih dari satu variabel independen yang mempengaruhi variabel dependen.
model2 <-lm(pendapatan~pendidikan+pengalaman, data = sosial_data)summary(model2)
Call:
lm(formula = pendapatan ~ pendidikan + pengalaman, data = sosial_data)
Residuals:
Min 1Q Median 3Q Max
-2526.8 -896.7 -272.7 1094.6 2682.5
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2107.17 3187.54 0.661 0.530
pendidikan 187.20 197.28 0.949 0.374
pengalaman 93.84 132.86 0.706 0.503
Residual standard error: 1851 on 7 degrees of freedom
Multiple R-squared: 0.1546, Adjusted R-squared: -0.08699
F-statistic: 0.6399 on 2 and 7 DF, p-value: 0.5556
Berdasarkan hasil regresi linier berganda antara pendidikan, pengalaman, dan pendapatan, terdapat beberapa hal yang perlu diperhatikan:
Koefisien regresi:
Intercept = 2107.17, yang berarti jika seseorang tidak memiliki pendidikan dan pengalaman kerja (nilai 0), maka pendapatan awal yang diprediksi adalah sekitar 2107 USD.
Pendidikan memiliki koefisien 187.20, artinya setiap tambahan 1 tahun pendidikan, pendapatan bertambah sekitar 187.20 USD, tetapi tidak signifikan (p-value = 0.374).
Pengalaman kerja memiliki koefisien 93.84, yang berarti setiap tambahan 1 tahun pengalaman kerja, pendapatan bertambah sekitar 93.84 USD, tetapi juga tidak signifikan (p-value = 0.503).
Signifikansi statistik:
p-value untuk pendidikan (0.374) dan pengalaman (0.503) lebih besar dari 0.05, yang berarti tidak ada bukti cukup kuat bahwa kedua variabel ini berpengaruh secara signifikan terhadap pendapatan dalam model ini.
F-statistic p-value (0.5556) juga menunjukkan bahwa secara keseluruhan model ini tidak signifikan.
Goodness-of-Fit (R-squared):
Multiple R-squared = 0.1546, artinya hanya sekitar 15.46% variabilitas pendapatan yang dapat dijelaskan oleh pendidikan dan pengalaman kerja.
Adjusted R-squared = -0.08699, yang negatif, menunjukkan bahwa model ini tidak lebih baik dibandingkan model tanpa prediktor.
Kesimpulan:
Model ini memiliki hubungan lemah antara pendidikan, pengalaman, dan pendapatan.
Faktor-faktor lain kemungkinan memiliki pengaruh yang lebih besar terhadap pendapatan, seperti jenis pekerjaan, industri tempat bekerja, atau keterampilan teknis.
Sebaiknya dilakukan eksplorasi lebih lanjut dengan menambahkan variabel lain dalam regresi untuk meningkatkan akurasi model.