Latihan Analisis Korelasi dan Regresi (Kelompok 3)

Author

Siti Amania Reydesyana, Dhea Dasa Cendekia Zairin, & Aulia Ridho Nasution

Praktikum 4

Kelompok 3 melakukan latihan analisis korelasi dan regresi dalam R untuk kasus sosial

Latihan Analisis Korelasi

# Load library yang diperlukan
set.seed(789)

# Dataset dengan 100 observasi
sosial_data <- data.frame(pendidikan = sample(8:20, 100, replace = TRUE),
  pengalaman = sample(1:30, 100, replace = TRUE),
  jam_kerja_per_minggu = sample(30:60, 100, replace = TRUE),
  jumlah_anak = sample(0:5, 100, replace = TRUE),
  usia = sample(22:60, 100, replace = TRUE),
  status_pernikahan = sample(0:1, 100, replace = TRUE),
  lokasi_kota = sample(0:1, 100, replace = TRUE),
  industri = sample(0:1, 100, replace = TRUE),
  pelatihan_profesional = sample(0:1, 100, replace = TRUE),
  keterampilan_teknis = sample(0:1, 100, replace = TRUE)
)

#Menghitung korelasi
 correlation <- cor(sosial_data$pengalaman, sosial_data$jam_kerja_per_minggu)
print(correlation)
[1] 0.08181728
#load library yang diperlukan
 library(ggplot2)
 library(reshape2)

#membuat dataframe dengan variasi korelasi yang beragam
 set.seed(789)
 sosial_data <- data.frame(pendidikan = sample(8:20, 100, replace = TRUE),
  pengalaman = sample(1:30, 100, replace = TRUE),
  jam_kerja_per_minggu = sample(30:60, 100, replace = TRUE),
  jumlah_anak = sample(0:5, 100, replace = TRUE),
  usia = sample(22:60, 100, replace = TRUE),
  status_pernikahan = sample(0:1, 100, replace = TRUE),
  lokasi_kota = sample(0:1, 100, replace = TRUE),
  industri = sample(0:1, 100, replace = TRUE),
  pelatihan_profesional = sample(0:1, 100, replace = TRUE),
  keterampilan_teknis = sample(0:1, 100, replace = TRUE)
)
 install.packages("reshape2")
Warning: package 'reshape2' is in use and will not be installed
 install.packages("ggplot2")
Warning: package 'ggplot2' is in use and will not be installed
 cor_matrix <- cor(sosial_data)
 cor_melted <- melt(cor_matrix)
 
 #membuat heatmap dengan angka korelasi
ggplot(data = cor_melted, aes(Var1, Var2, fill = value)) +
  geom_tile() +
  geom_text(aes(label = round(value, 2)), color = "black", size = 5) + 
#Menampilkan angka korelasi
  scale_fill_gradient2(low = "blue", high = "red", mid = "white",
                       midpoint = 0, limit = c(-1, 1), space = "Lab",
                       name="Korelasi") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, vjust = 1,
                                   size = 12, hjust = 1)) +
  labs(title = "Heatmap Korelasi Sosial", x = "", y = "")

Nilai korelasi sebesar 0,0818 antara variabel “pengalaman” dan “jam kerja per minggu” menunjukkan bahwa hubungan antara keduanya sangat lemah dan nyaris tidak ada keterkaitan linier. Artinya, semakin banyak atau sedikitnya pengalaman seseorang tidak secara konsisten mempengaruhi jumlah jam kerja yang mereka lakukan dalam seminggu. Korelasi yang mendekati nol ini juga bisa mengindikasikan adanya faktor-faktor lain di luar pengalaman yang lebih menentukan jumlah jam kerja.

Latihan Analisis Regresi Linier Sederhana

# Load library yang diperlukan
set.seed(789)

# Dataset dengan 100 observasi
sosial_data <- data.frame(
  pendidikan = sample(8:20, 100, replace = TRUE),
  pengalaman = sample(1:30, 100, replace = TRUE),
  jam_kerja_per_minggu = sample(30:60, 100, replace = TRUE),
  jumlah_anak = sample(0:5, 100, replace = TRUE),
  usia = sample(22:60, 100, replace = TRUE),
  status_pernikahan = sample(0:1, 100, replace = TRUE),
  lokasi_kota = sample(0:1, 100, replace = TRUE),
  industri = sample(0:1, 100, replace = TRUE),
  pelatihan_profesional = sample(0:1, 100, replace = TRUE),
  keterampilan_teknis = sample(0:1, 100, replace = TRUE)
)

# Melihat 6 baris pertama data
head(sosial_data)
  pendidikan pengalaman jam_kerja_per_minggu jumlah_anak usia status_pernikahan
1         20          9                   45           0   55                 0
2         19          9                   42           4   22                 1
3         11         23                   44           3   50                 1
4         17         12                   32           5   26                 0
5         17         14                   34           3   60                 1
6         10          8                   33           5   46                 1
  lokasi_kota industri pelatihan_profesional keterampilan_teknis
1           0        1                     0                   0
2           0        1                     1                   0
3           1        0                     0                   1
4           1        1                     0                   1
5           0        1                     0                   0
6           1        0                     1                   1
# Model regresi linier sederhana
model <- lm(jam_kerja_per_minggu ~ pengalaman, data = sosial_data)
# Melihat summary model regresi
summary(model)

Call:
lm(formula = jam_kerja_per_minggu ~ pengalaman, data = sosial_data)

Residuals:
     Min       1Q   Median       3Q      Max 
-15.8676  -5.2368  -0.3556   5.4319  16.0815 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 43.84355    1.63650  26.791   <2e-16 ***
pengalaman   0.07496    0.09224   0.813    0.418    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.861 on 98 degrees of freedom
Multiple R-squared:  0.006694,  Adjusted R-squared:  -0.003442 
F-statistic: 0.6604 on 1 and 98 DF,  p-value: 0.4184

Model Regresi Linier Sederhana

Persamaan Regresi

\[\hat{y} = 43.84355 + 0.07496x\]
Keterangan :

  • Y = Jam kerja per minggu (variabel dependen)

  • x = Pengalaman kerja dalam tahun (variabel independen)

  • Intercept (43.84355) menunjukkan bahwa jika pengalaman kerja = 0 tahun, maka jumlah jam kerja per minggu yang diprediksi adalah 43.84 jam.

  • Koefisien pengalaman kerja (0.07496) berarti setiap penambahan 1 tahun pengalaman kerja akan meningkatkan jam kerja per minggu sebesar 0.07496 jam.

Namun, berdasarkan p-value = 0.418, koefisien tidak signifikan secara statistik atau cenderung lemah (karena lebih besar dari 0.05). Hal ini menunjukkan bahwa pengalaman kerja tidak memiliki pengaruh yang signifikan terhadap jam kerja per minggu dalam model ini. Nilai R-squared = 0.006694 menunjukkan bahwa hanya sekitar 0.67% variasi dalam jam kerja per minggu yang dapat dijelaskan oleh pengalaman kerja. Sisanya dipengaruhi oleh faktor lain yang tidak dimasukkan dalam model ini.

# Model regresi linier sederhana
model <- lm(jam_kerja_per_minggu ~ pengalaman, data = sosial_data)

# Scatter plot
plot(sosial_data$pengalaman, sosial_data$jam_kerja_per_minggu,
     main = "Hubungan Pengalaman Kerja dan Jam Kerja per Minggu",
     xlab = "Pengalaman Kerja (Tahun)",
     ylab = "Jam Kerja per Minggu",
     pch = 16, col = "blue")

# Garis regresi
abline(model, col = "green", lwd = 2)

Berdasarkan grafik analisis regresi linier sederhana ini, terdapat hubungan positif antara pengalaman kerja dan jumlah jam kerja per minggu. Semakin banyak pengalaman kerja, maka semakin tinggi jam kerja per minggu.

Latihan Analisi Regresi Linier Berganda

model2<-lm(pengalaman~jam_kerja_per_minggu+pendidikan,data=sosial_data)
summary(model2)

Call:
lm(formula = pengalaman ~ jam_kerja_per_minggu + pendidikan, 
    data = sosial_data)

Residuals:
     Min       1Q   Median       3Q      Max 
-15.4385  -7.2756   0.0369   7.1205  15.1425 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)
(Intercept)            9.0056     6.5449   1.376    0.172
jam_kerja_per_minggu   0.1027     0.1124   0.914    0.363
pendidikan             0.1410     0.2325   0.606    0.546

Residual standard error: 8.608 on 97 degrees of freedom
Multiple R-squared:  0.01045,   Adjusted R-squared:  -0.009957 
F-statistic: 0.512 on 2 and 97 DF,  p-value: 0.6009

Interpretasi

Berdasarkan hasil regresi linier berganda antara pengalaman, jam kerja per minggu, dan pendidikan, terdapat beberapa hal yang perlu diperhatikan

Koefisien Regresi

Intercept = 9.0056, yang berarti jika seseorang tidak memiliki jam kerja dan pendidikan (jam_kerja_per_minggu = 0 dan pendidikan = 0), maka pengalaman kerja yang diprediksi adalah sekitar 9 tahun.

Koefisien jam_kerja_per_minggu = 0.1027, yang berarti setiap penambahan 1 jam kerja per minggu meningkatkan pengalaman sebesar 0.1027 tahun, dengan asumsi variabel lain tetap.

Koefisien pendidikan = 0.1410, yang berarti setiap tambahan 1 tingkat pendidikan meningkatkan pengalaman sebesar 0.1410 tahun, dengan asumsi variabel lain tetap.

Uji signifikansi koefisien (p-value)

P-value = 0.172, menunjukkan bahwa intercept ini tidak signifikan pada α = 0.05.

  • jam_kerja_per_minggu: p-value = 0.363 (tidak signifikan pada α = 0.05). Hal ini menunjukkan setiap tambahan 1 jam kerja per minggu, pengalaman kerja diperkirakan bertambah 0.1027 tahun.

  • pendidikan: p-value = 0.546 (tidak signifikan pada α = 0.05). Artinya, tidak ada bukti kuat bahwa variabel jam kerja per minggu dan pendidikan berpengaruh signifikan terhadap pengalaman.

  • Uji F (overall significance) : Hasil regresi menunjukkan bahwa tidak ada variabel yang signifikan dalam model ini, karena p-value untuk jam_kerja_per_minggu (0.363) dan pendidikan (0.546) lebih besar dari 0.05. Selain itu, uji F menghasilkan p-value 0.6009, menunjukkan bahwa model secara keseluruhan tidak signifikan dalam menjelaskan variasi pengalaman. Dengan R-squared hanya 0.01045, model ini sangat lemah dalam menggambarkan hubungan antara pengalaman kerja dengan jumlah jam kerja per minggu dan pendidikan.

Goodness-of-Fit (R-squared)

  • R-squared = 0.01045: Hanya sekitar 1.05% variasi dalam pengalaman yang dijelaskan oleh variabel jam kerja per minggu dan pendidikan. Hal ini menunjukkan bahwa jam_kerja_per_minggu dan pendidikan hanya mampu menjelaskan sekitar 1.05% variasi pengalaman kerja, sementara sisanya dipengaruhi oleh faktor lain. Ini menunjukkan model yang sangat lemah.

  • Adjusted R-squared = -0.009957: Bahkan setelah penyesuaian, model menjadi lebih lemah dan kurang mampu menjelaskan hubungan antara variabel independen dan dependen. Hal ini menandakan bahwa menambahkan variabel dalam model justru tidak meningkatkan kemampuan prediksi, sehingga model ini kurang cocok untuk menjelaskan pengalaman kerja.

Kesimpulan

Model regresi ini menunjukkan bahwa baik variabel “jam kerja per minggu” maupun “pendidikan” tidak berpengaruh signifikan terhadap “pengalaman”. Kualitas model juga sangat rendah, sehingga model ini kurang tepat untuk memprediksi atau menjelaskan hubungan antara variabel-variabel tersebut. Mungkin diperlukan penambahan atau penggantian variabel lain yang lebih relevan.