# Load Library yang diperlukan
set.seed(897)
# Membuat dataset dengan 100 observasi sebagai dataframe
sosial_data <- data.frame(pendidikan = sample(8:20, 100, replace = TRUE),
pengalaman = sample(1:30, 100, replace = TRUE),
jam_kerja_per_minggu = sample(30:60, 100, replace = TRUE),
jumlah_anak = sample(0:5, 100, replace = TRUE),
usia = sample(22:60, 100, replace = TRUE),
status_pernikahan = sample(0:1, 100, replace = TRUE),
lokasi_kota = sample(0:1, 100, replace = TRUE),
industri = sample(0:1, 100, replace = TRUE),
pelatihan_profesional = sample(0:1, 100, replace = TRUE),
keterampilan_teknis = sample(0:1, 100, replace = TRUE)) Kelompok 2-Quarto-Korelasi dan Regresi
Latihan Analisis Korelasi dan Regresi dalam R untuk Kasus Sosial - Kelompok 2
Analisis Korelasi
Saya ingin mengetahui korelasi variabel keterampilan teknis dengan jam kerja per minggu
#Menghitung korelasi
Correlation <- cor(sosial_data$keterampilan_teknis, sosial_data$jam_kerja_per_minggu)
print(Correlation)[1] 0.04194714
Didapatkan bahwa skor korelasi sebesar 0.0152, yang mana nilai ini sangat mendekati 0, bukan +1. Dengan demikian, kita dapat menyimpulkan bahwa tidak terdapat hubungan yang kuat antara keterampilan teknis dan jam kerja per minggu. Atau, kita juga dapat menyimpulkan bahwa seseorang yang memiliki jam kerja lebih banyak tidak serta-merta memiliki keterampilan teknis yang lebih tinggi, karena hubungan antara kedua variabel ini sangat lemah.
Saya ingin mengetahui korelasi variabel keterampilan teknis dengan jam kerja per minggu dan pengalaman
#Load library yang diperlukan
library(ggplot2)
library(reshape2)
set.seed(897)
#Membuat dataframe dengan variasi korelasi yang beragam
sosial_data <- data.frame(pendidikan = sample(8:20, 100, replace = TRUE), pengalaman = sample(1:30, 100, replace = TRUE), jam_kerja_per_minggu = sample(30:60, 100, replace = TRUE), jumlah_anak = sample(0:5, 100, replace = TRUE), usia = sample(22:60, 100, replace = TRUE), status_pernikahan = sample(0:1, 100, replace = TRUE), lokasi_kota = sample(0:1, 100, replace = TRUE), industri = sample(0:1, 100, replace = TRUE),pelatihan_profesional = sample(0:1, 100, replace = TRUE),keterampilan_teknis = sample(0:1, 100, replace = TRUE))
#Menghitung matriks korelasi
cor_matrix <- cor(sosial_data)
#Mengubah matriks korelasi menjadi format yang dapat digunakan di ggplot2
cor_melted <- melt(cor_matrix)
#Membuat heatmap dengan angka korelasi
ggplot(data = cor_melted, aes(Var1, Var2, fill = value)) +
geom_tile() +
geom_text(aes(label = round(value, 2)), color = "black", size = 5) + # Menampilkan angka korelasi
scale_fill_gradient2(low = "blue", high = "red", mid = "white",
midpoint = 0, limit = c(-1, 1), space = "Lab",
name="Korelasi") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, vjust = 1,
size = 12, hjust = 1)) +
labs(title = "Heatmap Korelasi Sosial Sederhana", x = "", y = "")Analisis Regresi
Regresi Linier Sederhana
Saya ingin mengetahui apakah keterampilan teknis dipengaruhi oleh jam kerja per minggu
model1 <- lm(keterampilan_teknis~jam_kerja_per_minggu, sosial_data)
summary(model1)
Call:
lm(formula = keterampilan_teknis ~ jam_kerja_per_minggu, data = sosial_data)
Residuals:
Min 1Q Median 3Q Max
-0.5412 -0.5080 0.4537 0.4876 0.5253
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.392913 0.286197 1.373 0.173
jam_kerja_per_minggu 0.002556 0.006151 0.416 0.679
Residual standard error: 0.5045 on 98 degrees of freedom
Multiple R-squared: 0.00176, Adjusted R-squared: -0.008427
F-statistic: 0.1727 on 1 and 98 DF, p-value: 0.6786
Pertama,koefisien regresi sebesar 0.002556 menunjukkan bahwa setiap tambahan satu jam kerja per minggu hanya meningkatkan keterampilan teknis sebesar 0.002556 dalam skala yang digunakan. Namun,p-value dari variabel jam kerja per minggu adalah 0.679, yang lebih besar dari 0.05. Ini berarti tidak ada bukti yang cukup untuk menyimpulkan bahwa jumlah jam kerja per minggu secara signifikan mempengaruhi keterampilan teknis dalam model ini.
Selain itu, nilai Multiple R-squared sebesar 0.00176 menunjukkan bahwa hanya 0.176% variasi dalam keterampilan teknis yang dapat dijelaskan oleh jumlah jam kerja per minggu, sedangkan faktor lainnya tidak dimasukkan dalam model. Adjusted R-squared yang negatif (-0.008427) juga menunjukkan bahwa model ini bahkan lebih buruk dalam menjelaskan hubungan antara kedua variabel dibandingkan dengan model tanpa prediktor.
Lebih lanjut,F-statistic sebesar 0.1727 dengan p-value 0.6786 menunjukkan bahwa model secara keseluruhan tidak signifikan. Hal ini mengindikasikan bahwa hubungan antara jam kerja per minggu dan keterampilan teknis sangat lemah atau bahkan tidak ada dalam dataset ini.
Oleh karena itu, model ini kurang baik dalam menjelaskan hubungan antara jam kerja per minggu dan keterampilan teknis. Disarankan untuk menambahkan variabel lain, seperti pengalaman kerja, pendidikan, atau pelatihan profesional, untuk mendapatkan model yang lebih akurat dan relevan dalam menjelaskan faktor yang mempengaruhi keterampilan teknis.
#Membuat plot regresi linier
plot(sosial_data$jam_kerja_per_minggu, sosial_data$keterampilan_teknis, main="Regresi Linier Sederhana", xlab="Jam Kerja per Minggu", ylab="Keterampilan Teknis", pch=16, col="blue")
#Garis regresi
abline(model1, col="green", lwd=3)Berdasarkan grafik regresi linier sederhana ini, hubungan antara jam kerja per minggu (sumbu X) dan keterampilan teknis (sumbu Y) terlihat cukup lemah. Garis regresi berwarna merah menunjukkan tren, namun penyebaran titik data (scatter plot) sangat tersebar dan tidak mengikuti pola yang jelas di sekitar garis. Hal ini menunjukkan bahwa jam kerja per minggu tidak memiliki hubungan yang kuat dengan keterampilan teknis.
Regresi Linier Berganda
Saya ingin mengetahui apakah keterampilan teknis dipengaruhi oleh jam kerja per minggu dan pengalaman
model2 <- lm(keterampilan_teknis~jam_kerja_per_minggu+pengalaman, sosial_data)
summary(model2)
Call:
lm(formula = keterampilan_teknis ~ jam_kerja_per_minggu + pengalaman,
data = sosial_data)
Residuals:
Min 1Q Median 3Q Max
-0.6108 -0.5010 0.3823 0.4860 0.5907
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.296916 0.300196 0.989 0.325
jam_kerja_per_minggu 0.002502 0.006148 0.407 0.685
pengalaman 0.006207 0.005891 1.054 0.295
Residual standard error: 0.5042 on 97 degrees of freedom
Multiple R-squared: 0.01306, Adjusted R-squared: -0.007294
F-statistic: 0.6416 on 2 and 97 DF, p-value: 0.5287
Berdasarkan hasil regresi linier berganda antara jam kerja per minggu, pengalaman, dan keterampilan teknis, terdapat beberapa hal yang perlu diperhatikan:
Koefisien regresi:
Intercept = 0.2969, yang berarti jika seseorang tidak memiliki jam kerja dan pengalaman (nilai 0), maka keterampilan teknis awal yang diprediksi adalah sekitar 0.2969.
Jam kerja per minggu memiliki koefisien 0.0025, artinya setiap tambahan 1 jam kerja per minggu, keterampilan teknis bertambah sekitar 0.0025 unit, tetapi tidak signifikan (p-value = 0.685).
Pengalaman memiliki koefisien 0.0062, yang berarti setiap tambahan 1 tahun pengalaman, keterampilan teknis bertambah sekitar 0.0062 unit, tetapi juga tidak signifikan (p-value = 0.295).
Signifikansi statistik:
p-value untuk jam kerja per minggu (0.685) dan pengalaman (0.295) lebih besar dari 0.05, yang berarti tidak ada bukti cukup kuat bahwa kedua variabel ini berpengaruh secara signifikan terhadap keterampilan teknis dalam model ini.
F-statistic p-value (0.5287) juga menunjukkan bahwa secara keseluruhan model ini tidak signifikan.
Goodness-of-Fit (R-squared):
Multiple R-squared = 0.01306, artinya hanya sekitar 1.31% variabilitas keterampilan teknis yang dapat dijelaskan oleh jam kerja per minggu dan pengalaman.
Adjusted R-squared = -0.0073, yang negatif, menunjukkan bahwa model ini tidak lebih baik dibandingkan model tanpa prediktor.
Kesimpulan:
Model ini memiliki hubungan yang sangat lemah antara jam kerja per minggu, pengalaman, dan keterampilan teknis.
Faktor-faktor lain kemungkinan memiliki pengaruh yang lebih besar terhadap keterampilan teknis, seperti jenis pelatihan yang diikuti, tingkat pendidikan, atau lingkungan kerja.
Sebaiknya dilakukan eksplorasi lebih lanjut dengan menambahkan variabel lain dalam regresi untuk meningkatkan akurasi model.