Kelompok 2-Quarto-Korelasi dan Regresi

Author

Asy Khofsah

Latihan Analisis Korelasi dan Regresi dalam R untuk Kasus Sosial - Kelompok 2

# Load Library yang diperlukan
set.seed(897)

# Membuat dataset dengan 100 observasi sebagai dataframe
sosial_data <- data.frame(pendidikan = sample(8:20, 100, replace = TRUE),
    pengalaman = sample(1:30, 100, replace = TRUE),
    jam_kerja_per_minggu = sample(30:60, 100, replace = TRUE),
    jumlah_anak = sample(0:5, 100, replace = TRUE),
    usia = sample(22:60, 100, replace = TRUE),
    status_pernikahan = sample(0:1, 100, replace = TRUE),
    lokasi_kota = sample(0:1, 100, replace = TRUE),
    industri = sample(0:1, 100, replace = TRUE),
    pelatihan_profesional = sample(0:1, 100, replace = TRUE),
    keterampilan_teknis = sample(0:1, 100, replace = TRUE)) 

Analisis Korelasi

Saya ingin mengetahui korelasi variabel keterampilan teknis dengan jam kerja per minggu

#Menghitung korelasi 
Correlation <- cor(sosial_data$keterampilan_teknis, sosial_data$jam_kerja_per_minggu)
print(Correlation)
[1] 0.04194714

Didapatkan bahwa skor korelasi sebesar 0.0152, yang mana nilai ini sangat mendekati 0, bukan +1. Dengan demikian, kita dapat menyimpulkan bahwa tidak terdapat hubungan yang kuat antara keterampilan teknis dan jam kerja per minggu. Atau, kita juga dapat menyimpulkan bahwa seseorang yang memiliki jam kerja lebih banyak tidak serta-merta memiliki keterampilan teknis yang lebih tinggi, karena hubungan antara kedua variabel ini sangat lemah.

Saya ingin mengetahui korelasi variabel keterampilan teknis dengan jam kerja per minggu dan pengalaman

#Load library yang diperlukan 
library(ggplot2) 
library(reshape2)

set.seed(897)

#Membuat dataframe dengan variasi korelasi yang beragam 
sosial_data <- data.frame(pendidikan = sample(8:20, 100, replace = TRUE), pengalaman = sample(1:30, 100, replace = TRUE), jam_kerja_per_minggu = sample(30:60, 100, replace = TRUE), jumlah_anak = sample(0:5, 100, replace = TRUE), usia = sample(22:60, 100, replace = TRUE), status_pernikahan = sample(0:1, 100, replace = TRUE), lokasi_kota = sample(0:1, 100, replace = TRUE), industri = sample(0:1, 100, replace = TRUE),pelatihan_profesional = sample(0:1, 100, replace = TRUE),keterampilan_teknis = sample(0:1, 100, replace = TRUE))

#Menghitung matriks korelasi 
cor_matrix <- cor(sosial_data)

#Mengubah matriks korelasi menjadi format yang dapat digunakan di ggplot2 
cor_melted <- melt(cor_matrix)

#Membuat heatmap dengan angka korelasi 
ggplot(data = cor_melted, aes(Var1, Var2, fill = value)) +
  geom_tile() +
  geom_text(aes(label = round(value, 2)), color = "black", size = 5) + # Menampilkan angka korelasi
  scale_fill_gradient2(low = "blue", high = "red", mid = "white",
                       midpoint = 0, limit = c(-1, 1), space = "Lab",
                       name="Korelasi") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, vjust = 1,
                                   size = 12, hjust = 1)) +
  labs(title = "Heatmap Korelasi Sosial Sederhana", x = "", y = "")

Analisis Regresi

Regresi Linier Sederhana

Saya ingin mengetahui apakah keterampilan teknis dipengaruhi oleh jam kerja per minggu

model1 <- lm(keterampilan_teknis~jam_kerja_per_minggu, sosial_data) 
summary(model1)

Call:
lm(formula = keterampilan_teknis ~ jam_kerja_per_minggu, data = sosial_data)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.5412 -0.5080  0.4537  0.4876  0.5253 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)
(Intercept)          0.392913   0.286197   1.373    0.173
jam_kerja_per_minggu 0.002556   0.006151   0.416    0.679

Residual standard error: 0.5045 on 98 degrees of freedom
Multiple R-squared:  0.00176,   Adjusted R-squared:  -0.008427 
F-statistic: 0.1727 on 1 and 98 DF,  p-value: 0.6786

Pertama,koefisien regresi sebesar 0.002556 menunjukkan bahwa setiap tambahan satu jam kerja per minggu hanya meningkatkan keterampilan teknis sebesar 0.002556 dalam skala yang digunakan. Namun,p-value dari variabel jam kerja per minggu adalah 0.679, yang lebih besar dari 0.05. Ini berarti tidak ada bukti yang cukup untuk menyimpulkan bahwa jumlah jam kerja per minggu secara signifikan mempengaruhi keterampilan teknis dalam model ini.

Selain itu, nilai Multiple R-squared sebesar 0.00176 menunjukkan bahwa hanya 0.176% variasi dalam keterampilan teknis yang dapat dijelaskan oleh jumlah jam kerja per minggu, sedangkan faktor lainnya tidak dimasukkan dalam model. Adjusted R-squared yang negatif (-0.008427) juga menunjukkan bahwa model ini bahkan lebih buruk dalam menjelaskan hubungan antara kedua variabel dibandingkan dengan model tanpa prediktor.

Lebih lanjut,F-statistic sebesar 0.1727 dengan p-value 0.6786 menunjukkan bahwa model secara keseluruhan tidak signifikan. Hal ini mengindikasikan bahwa hubungan antara jam kerja per minggu dan keterampilan teknis sangat lemah atau bahkan tidak ada dalam dataset ini.

Oleh karena itu, model ini kurang baik dalam menjelaskan hubungan antara jam kerja per minggu dan keterampilan teknis. Disarankan untuk menambahkan variabel lain, seperti pengalaman kerja, pendidikan, atau pelatihan profesional, untuk mendapatkan model yang lebih akurat dan relevan dalam menjelaskan faktor yang mempengaruhi keterampilan teknis.

#Membuat plot regresi linier
plot(sosial_data$jam_kerja_per_minggu, sosial_data$keterampilan_teknis, main="Regresi Linier Sederhana", xlab="Jam Kerja per Minggu", ylab="Keterampilan Teknis", pch=16, col="blue")

#Garis regresi
abline(model1, col="green", lwd=3)

Berdasarkan grafik regresi linier sederhana ini, hubungan antara jam kerja per minggu (sumbu X) dan keterampilan teknis (sumbu Y) terlihat cukup lemah. Garis regresi berwarna merah menunjukkan tren, namun penyebaran titik data (scatter plot) sangat tersebar dan tidak mengikuti pola yang jelas di sekitar garis. Hal ini menunjukkan bahwa jam kerja per minggu tidak memiliki hubungan yang kuat dengan keterampilan teknis.

Regresi Linier Berganda

Saya ingin mengetahui apakah keterampilan teknis dipengaruhi oleh jam kerja per minggu dan pengalaman

model2 <- lm(keterampilan_teknis~jam_kerja_per_minggu+pengalaman, sosial_data)
summary(model2)

Call:
lm(formula = keterampilan_teknis ~ jam_kerja_per_minggu + pengalaman, 
    data = sosial_data)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.6108 -0.5010  0.3823  0.4860  0.5907 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)
(Intercept)          0.296916   0.300196   0.989    0.325
jam_kerja_per_minggu 0.002502   0.006148   0.407    0.685
pengalaman           0.006207   0.005891   1.054    0.295

Residual standard error: 0.5042 on 97 degrees of freedom
Multiple R-squared:  0.01306,   Adjusted R-squared:  -0.007294 
F-statistic: 0.6416 on 2 and 97 DF,  p-value: 0.5287

Berdasarkan hasil regresi linier berganda antara jam kerja per minggupengalaman, dan keterampilan teknis, terdapat beberapa hal yang perlu diperhatikan:

Koefisien regresi:

Intercept = 0.2969, yang berarti jika seseorang tidak memiliki jam kerja dan pengalaman (nilai 0), maka keterampilan teknis awal yang diprediksi adalah sekitar 0.2969.

Jam kerja per minggu memiliki koefisien 0.0025, artinya setiap tambahan 1 jam kerja per minggu, keterampilan teknis bertambah sekitar 0.0025 unit, tetapi tidak signifikan (p-value = 0.685).

Pengalaman memiliki koefisien 0.0062, yang berarti setiap tambahan 1 tahun pengalaman, keterampilan teknis bertambah sekitar 0.0062 unit, tetapi juga tidak signifikan (p-value = 0.295).

Signifikansi statistik:

p-value untuk jam kerja per minggu (0.685) dan pengalaman (0.295) lebih besar dari 0.05, yang berarti tidak ada bukti cukup kuat bahwa kedua variabel ini berpengaruh secara signifikan terhadap keterampilan teknis dalam model ini.

F-statistic p-value (0.5287) juga menunjukkan bahwa secara keseluruhan model ini tidak signifikan.

Goodness-of-Fit (R-squared):

Multiple R-squared = 0.01306, artinya hanya sekitar 1.31% variabilitas keterampilan teknis yang dapat dijelaskan oleh jam kerja per minggu dan pengalaman.

Adjusted R-squared = -0.0073, yang negatif, menunjukkan bahwa model ini tidak lebih baik dibandingkan model tanpa prediktor.

Kesimpulan:

Model ini memiliki hubungan yang sangat lemah antara jam kerja per minggu, pengalaman, dan keterampilan teknis.

Faktor-faktor lain kemungkinan memiliki pengaruh yang lebih besar terhadap keterampilan teknis, seperti jenis pelatihan yang diikuti, tingkat pendidikan, atau lingkungan kerja.

Sebaiknya dilakukan eksplorasi lebih lanjut dengan menambahkan variabel lain dalam regresi untuk meningkatkan akurasi model.