Kelompok 4 - Korelasi dan Regresi

Author

Nabila An Nadjib (I3502241004), Muhammad Akbar Hadi Firmansyah (I3502241013), Rena Oktaviyani (I3502241016)

Tugas Praktikum ke-2

Latihan

Analisis Korelasi dan Regresi dalam R untuk Kasus Sosial

# Load library yang diperlukan
set.seed(401)

# Membuat dataset dengan 100 observasi
sosial_data <- data.frame(
  pendidikan = sample(8:20, 100, replace = TRUE),
  pengalaman = sample(1:30, 100, replace = TRUE),
  jam_kerja_per_minggu = sample(30:60, 100, replace = TRUE),
  jumlah_anak = sample(0:5, 100, replace = TRUE),
  usia = sample(22:60, 100, replace = TRUE),
  status_pernikahan = sample(0:1, 100, replace = TRUE),
  lokasi_kota = sample(0:1, 100, replace = TRUE),
  industri = sample(0:1, 100, replace = TRUE),
  pelatihan_profesional = sample(0:1, 100, replace = TRUE),
  keterampilan_teknis = sample(0:1, 100, replace = TRUE)
)
head(sosial_data)

  pendidikan pengalaman jam_kerja_per_minggu jumlah_anak usia status_pernikahan
1         14         25                   43           0   46                 1
2         13          4                   56           2   37                 0
3         19         26                   30           4   27                 1
4         19         12                   44           2   54                 1
5         18         19                   59           1   28                 0
6         17          4                   56           5   44                 1
  lokasi_kota industri pelatihan_profesional keterampilan_teknis
1           0        0                     1                   0
2           0        1                     1                   1
3           1        0                     0                   0
4           0        0                     1                   1
5           1        0                     1                   1
6           0        1                     0                   1

Analisis Korelasi

Korelasi 2 Variabel

Kelompok 4 ingin melihat apakah ada hubungan antara tingkat pendidikan dan pengalaman dalam dataset sosial tersebut

# Membuat Dataframe
sosial_data <- data.frame(
  pendidikan = sample(8:20, 100, replace = TRUE),
  pengalaman = sample(1:30, 100, replace = TRUE),
  jam_kerja_per_minggu = sample(30:60, 100, replace = TRUE) 
)

# Menghitung Korelasi
correlation <- cor(sosial_data$pendidikan, sosial_data$pengalaman)
print(correlation)

[1] 0.00874917

Diperoleh nilai korelasi sebesar 0.0087, yang mendekati nol. Hal ini menunjukkan bahwa tidak ada hubungan linier yang berarti antara variabel pendidikan (variabel independen) dan variabel pengalaman (variabel dependen). Dengan kata lain, peningkatan atau penurunan pendidikan seseorang tidak berkaitan secara langsung dengan jumlah pengalaman kerja yang dimiliki.

Korelasi lebih dari 2 variabel

Melihat korelasi lebih dari 2 variabel

install.packages(“ggplot2”) install.packages(“reshape2”)

# Load library yang diperlukan
library(ggplot2)
library(reshape2)

# Membuat Dataframe dengan Variasi Korelasi yang Beragam
set.seed(401)
sosial_data <- data.frame(
  pendidikan = sample(8:20, 100, replace = TRUE),
  pengalaman = sample(1:30, 100, replace = TRUE),
  jam_kerja_per_minggu = sample(30:60, 100, replace = TRUE),
  jumlah_anak = sample(0:5, 100, replace = TRUE),
  usia = sample(22:60, 100, replace = TRUE),
  status_pernikahan = sample(0:1, 100, replace = TRUE),
  lokasi_kota = sample(0:1, 100, replace = TRUE),
  industri = sample(0:1, 100, replace = TRUE),
  pelatihan_profesional = sample(0:1, 100, replace = TRUE),
  keterampilan_teknis = sample(0:1, 100, replace = TRUE)
)

# Menghitung matriks korelasi
cor_matrix <- cor(sosial_data)

# Mengubah matriks korelasi menjadi format yang dapat digunakan di ggplot2
cor_melted <- melt(cor_matrix)

# Membuat heatmap dengan angka korelasi
ggplot(data = cor_melted, aes(Var1, Var2, fill = value)) +
  geom_tile() +
  geom_text(aes(label = round(value, 2)), color = "black", size = 5) + # Menampilkan angka korelasi
  scale_fill_gradient2(low = "blue", high = "red", mid = "white",
                       midpoint = 0, limit = c(-1, 1), space = "Lab",
                       name="Korelasi") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, vjust = 1,
                                   size = 12, hjust = 1)) +
  labs(title = "Heatmap Korelasi Sosial", x = "", y = "")

Sebagian besar hubungan antar variabel dalam data ini memiliki korelasi yang lemah (di bawah 0.3), yang menunjukkan bahwa tidak ada hubungan yang sangat kuat atau signifikan di antara variabel-variabel tersebut. Hal ini mengindikasikan bahwa masing-masing variabel cenderung berdiri sendiri tanpa adanya pengaruh yang dominan dari variabel lain dalam dataset. Meskipun beberapa variabel menunjukkan korelasi positif atau negatif, nilai yang rendah menunjukkan bahwa hubungan tersebut lemah dan tidak cukup kuat untuk dijadikan dasar dalam pengambilan keputusan atau prediksi yang akurat.

Analisis Regresi Linier Sederhana

Kelompok 4 ingin mengetahui apakah pendidikan memengaruhi pengalaman

model1 <- lm(pengalaman~pendidikan, data=sosial_data)
summary(model1)


Call:
lm(formula = pengalaman ~ pendidikan, data = sosial_data)

Residuals:
    Min      1Q  Median      3Q     Max 
-14.623  -8.229   1.212   6.655  14.836 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 16.47724    3.30712   4.982  2.7e-06 ***
pendidikan  -0.06567    0.22619  -0.290    0.772    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 8.585 on 98 degrees of freedom
Multiple R-squared:  0.0008594, Adjusted R-squared:  -0.009336 
F-statistic: 0.08429 on 1 and 98 DF,  p-value: 0.7722

Persamaan regresi

\[\hat{y} = 16.47724+(-0.06567)x\] \[\hat{y} = 16.47724-0.06567x\]

Dalam hasil regresi linier sederhana antara tingkat pendidikan dan pengalaman kerja, ada beberapa hal yang perlu diperhatikan. Pertama, koefisien regresi menunjukkan bahwa setiap peningkatan satu tahun pendidikan justru mengurangi pengalaman kerja rata-rata sebesar 0.06567. Namun, p-value dari variabel pendidikan adalah 0.772, yang lebih besar dari 0.05, sehingga tidak ada bukti yang cukup untuk menyimpulkan bahwa pendidikan secara signifikan mempengaruhi pengalaman kerja dalam model ini. Selain itu, nilai intercept sebesar 16.47724 menunjukkan bahwa jika seseorang memiliki pendidikan 0 tahun, model memprediksi bahwa individu tersebut akan memiliki pengalaman kerja sekitar 16.48 tahun. Namun, interpretasi ini perlu disikapi dengan hati-hati karena dalam kenyataannya, sangat jarang seseorang tidak memiliki pendidikan sama sekali.

Nilai R-squared sebesar 0.0008594 menunjukkan bahwa hanya 0.08594% variasi dalam pengalaman kerja yang dapat dijelaskan oleh pendidikan, sementara faktor lainnya tidak dimasukkan dalam model. Ini menandakan bahwa model ini kurang baik dalam menjelaskan hubungan antara pendidikan dan pengalaman kerja. Oleh karena itu, disarankan untuk menambahkan variabel lain seperti usia, lokasi kota, atau status pernikaha agar mendapatkan model yang lebih akurat dan lebih mampu menjelaskan variasi dalam pengalaman kerja.

Degree of Freedom atau df dalam regresi dihitung berdasarkan rumus:

\[df = n - k - 1\] \[98 = 100 - 1 - 1\]

Dimana n adalah jumlah observasi dan k adalah jumlah variabel independen. Pada perhitungan nilai Degree of Freedom (df) di atas, diperoleh nilai 98, yang sudah sesuai dengan rumus df = n - k - 1. Dalam kasus ini, jumlah observasi n = 100, jumlah variabel independen k = 1 (pendidikan), sehingga perhitungannya menjadi df = 100 - 1 - 1 = 98. Oleh karena itu, perhitungan df sudah benar sesuai dengan rumus yang diberikan.

plot(sosial_data$pendidikan, sosial_data$pendapatan, main="Regresi Linier Sederhana",
     xlab="Tingkat Pendidikan (tahun)", ylab="Pengalaman (tahun kerja)", pch=16)
abline(model1, col="blue")

Berdasarkan grafik regresi linier sederhana ini, terdapat hubungan negatif antara tingkat pendidikan (sumbu X) dan pengalaman kerja (sumbu Y). Garis regresi berwarna biru menunjukkan tren yang mengindikasikan bahwa semakin tinggi tingkat pendidikan seseorang, semakin sedikit pengalaman kerja yang dimiliki. Hal ini dapat terjadi karena individu dengan pendidikan lebih tinggi cenderung menghabiskan lebih banyak waktu dalam pendidikan formal sebelum memasuki dunia kerja. Namun, dari penyebaran titik data (scatter plot), terlihat bahwa hubungan ini cukup lemah karena titik-titik data tersebar luas dan tidak terlalu mengikuti pola garis regresi.

Analisis Regresi Linier Berganda

Regresi linier berganda digunakan saat terdapat lebih dari satu variabel independen yang mempengaruhi variabel dependen.

model2 <- lm(pendidikan~pengalaman+jam_kerja_per_minggu, data = sosial_data)
summary(model2)


Call:
lm(formula = pendidikan ~ pengalaman + jam_kerja_per_minggu, 
    data = sosial_data)

Residuals:
    Min      1Q  Median      3Q     Max 
-6.3417 -3.3922  0.0055  3.1484  6.0829 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)          14.66432    2.25217   6.511  3.3e-09 ***
pengalaman           -0.01383    0.04553  -0.304    0.762    
jam_kerja_per_minggu -0.00704    0.04347  -0.162    0.872    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.852 on 97 degrees of freedom
Multiple R-squared:  0.00113,   Adjusted R-squared:  -0.01947 
F-statistic: 0.05484 on 2 and 97 DF,  p-value: 0.9467

Berdasarkan hasil regresi linier berganda antara pengalaman, jam kerja per minggu, dan tingkat pendidikan, terdapat beberapa hal yang perlu diperhatikan:

Koefisien regresi:

Intercept = 14.66432, yang berarti jika seseorang tidak memiliki pengalaman kerja dan tidak bekerja dalam satu minggu (jam kerja per minggu = 0), maka tingkat pendidikan yang diprediksi adalah sekitar 14.66 tahun.

Pengalaman memiliki koefisien -0.01383, artinya setiap tambahan 1 tahun pengalaman kerja, tingkat pendidikan justru berkurang sekitar 0.0138 tahun, tetapi pengaruhnya tidak signifikan (p-value = 0.762)

Jam kerja per minggu memiliki koefisien -0.00704, yang berarti setiap tambahan 1 jam kerja per minggu, tingkat pendidikan berkurang sekitar 0.007 tahun, tetapi juga tidak signifikan (p-value = 0.872).

Signifikasi statistik

p-value untuk pengalaman (0.762) dan jam kerja per minggu (0.872) lebih besar dari 0.05, yang berarti tidak ada bukti cukup kuat bahwa kedua variabel ini berpengaruh secara signifikan terhadap tingkat pendidikan dalam model ini.

F-statistic p-value (0.9467) menunjukkan bahwa secara keseluruhan model ini tidak signifikan. Hal ini terjadi karena nilai p-value yang sangat tinggi (mendekati 1) mengindikasikan bahwa tidak ada cukup bukti untuk menolak hipotesis nol (H₀), yang menyatakan bahwa variabel prediktor (pengalaman dan jam kerja per minggu) tidak memiliki pengaruh yang signifikan terhadap tingkat pendidikan. Residual degree of freedom (df residual) dalam model ini adalah 97, dihitung dari jumlah observasi dikurangi jumlah variabel independen dan intercept. Nilai df ini menunjukkan jumlah informasi yang tersisa untuk mengestimasi error dalam model.

Goodness-of-Fit (R-squared):

Multiple R-squared = 0.00113, artinya hanya sekitar 0.11% variabilitas tingkat pendidikan yang dapat dijelaskan oleh pengalaman kerja dan jam kerja per minggu.

Adjusted R-squared = -0.01947, yang negatif, menunjukkan bahwa model ini tidak lebih baik dibandingkan model tanpa prediktor.

Kesimpulan:

Model ini menunjukkan hubungan yang sangat lemah antara pengalaman kerja, jam kerja per minggu, dan tingkat pendidikan.

Berdasarkan hasil regresi ini, pengalaman kerja dan jam kerja per minggu bukan faktor yang signifikan dalam menentukan tingkat pendidikan. Model ini memiliki daya jelaskan yang sangat rendah, sehingga sebaiknya ditinjau ulang dengan mempertimbangkan variabel yang lebih relevan agar dapat memberikan hasil yang lebih bermakna.

Faktor-faktor lain kemungkinan memiliki pengaruh yang lebih besar terhadap tingkat pendidikan, seperti usia, lokasi kota, atau status pernikahan.