Analisis Regresi Linier Berganda

Salary Prediction Analysis


Adli Rahmatillah

245090507111002


Program Studi Sarjana Statistika
Fakultas Sains, Teknologi, dan Matematika
Universitas Brawijaya


📖 BAB I Studi Kasus

Dataset yang digunakan merupakan dataset salary yang berisi informasi mengenai:

  • pengalaman kerja,
  • usia,
  • pendidikan,
  • salary karyawan.

Penelitian ini bertujuan mengetahui pengaruh:

  • Years.of.Experience
  • Age

terhadap:

  • Salary

menggunakan metode regresi linier berganda.


📥 BAB II Import dan Eksplorasi Data

Import Dataset

data_salary <- read.csv(
  "D:/salary dataset.csv",
  sep = ";"
)

head(data_salary)

Dataset berhasil diimport ke dalam RStudio dan siap digunakan untuk proses analisis regresi.


Pemilihan Variabel

data_laprak2 <- data_salary[,c(
  "Years.of.Experience",
  "Age",
  "Salary"
)]

datatable(
  data_laprak2,
  options = list(pageLength = 10),
  caption = "📋 Dataset Salary"
)

Variabel yang digunakan:

  • Years.of.Experience → Variabel Independen
  • Age → Variabel Independen
  • Salary → Variabel Dependen

Struktur Data

str(data_laprak2)
## 'data.frame':    375 obs. of  3 variables:
##  $ Years.of.Experience: num  5 3 15 7 20 2 12 4 1 10 ...
##  $ Age                : int  32 28 45 36 52 29 42 31 26 38 ...
##  $ Salary             : int  90000 65000 150000 60000 200000 55000 120000 80000 45000 110000 ...

Seluruh variabel bertipe numerik sehingga memenuhi syarat analisis regresi linier berganda.


Statistik Deskriptif

summary(data_laprak2)
##  Years.of.Experience      Age            Salary      
##  Min.   : 0.00       Min.   :23.00   Min.   :   350  
##  1st Qu.: 4.00       1st Qu.:31.00   1st Qu.: 55000  
##  Median : 9.00       Median :36.00   Median : 95000  
##  Mean   :10.03       Mean   :37.43   Mean   :100577  
##  3rd Qu.:15.00       3rd Qu.:44.00   3rd Qu.:140000  
##  Max.   :25.00       Max.   :53.00   Max.   :250000  
##  NA's   :2           NA's   :2       NA's   :2

📌 Interpretasi

  • Rata-rata pengalaman kerja sekitar 10 tahun.
  • Mayoritas responden berada pada usia produktif.
  • Salary memiliki variasi yang cukup besar.

📊 Scatter Plot

Years of Experience vs Salary

p1 <- ggplot(
  data_laprak2,
  aes(
    x = Years.of.Experience,
    y = Salary
  )
) +

geom_point(
  color = "#0077B6",
  size = 2.5,
  alpha = 0.7
) +

geom_smooth(
  method = "lm",
  color = "#D62828",
  se = FALSE,
  linewidth = 1
) +

theme_minimal() +

labs(
  title = "📈 Years of Experience vs Salary",
  x = "Years of Experience",
  y = "Salary"
)

p1

Terdapat hubungan positif antara pengalaman kerja dan salary. Semakin tinggi pengalaman kerja maka salary cenderung meningkat.


Age vs Salary

p2 <- ggplot(
  data_laprak2,
  aes(
    x = Age,
    y = Salary
  )
) +

geom_point(
  color = "#F77F00",
  size = 2.5,
  alpha = 0.7
) +

geom_smooth(
  method = "lm",
  color = "#003049",
  se = FALSE,
  linewidth = 1
) +

theme_minimal() +

labs(
  title = "📈 Age vs Salary",
  x = "Age",
  y = "Salary"
)

p2

Age juga menunjukkan hubungan positif terhadap Salary meskipun tidak sekuat Years.of.Experience.


Visualisasi Gabungan

p1 + p2

Secara umum kedua variabel independen menunjukkan hubungan linear positif terhadap Salary.


📈 BAB III Model Regresi

Membentuk Model Regresi

reg_laprak <- lm(
  Salary ~ Years.of.Experience + Age,
  data = data_laprak2
)

summary(reg_laprak)
## 
## Call:
## lm(formula = Salary ~ Years.of.Experience + Age, data = data_laprak2)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -64540  -7436    678   9304  78062 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         -18700.4    17060.3  -1.096  0.27373    
## Years.of.Experience   4853.8      681.9   7.118 5.74e-12 ***
## Age                   1885.8      632.5   2.981  0.00306 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17530 on 370 degrees of freedom
##   (2 observations deleted due to missingness)
## Multiple R-squared:  0.8687, Adjusted R-squared:  0.868 
## F-statistic:  1224 on 2 and 370 DF,  p-value: < 2.2e-16

Persamaan Regresi

coef(reg_laprak)
##         (Intercept) Years.of.Experience                 Age 
##          -18700.407            4853.843            1885.829

Persamaan Regresi

\[ Y = -18700.4 + 4853.8X_1 + 1885.8X_2 \]

Keterangan:

  • \(X_1\) = Years.of.Experience
  • \(X_2\) = Age

Interpretasi:

  • Setiap kenaikan 1 tahun pengalaman kerja meningkatkan Salary sebesar 4853.8.
  • Setiap kenaikan 1 tahun usia meningkatkan Salary sebesar 1885.8.

✅ Uji Signifikansi Model

Uji F dan Uji t

  • Variabel independen secara simultan berpengaruh signifikan terhadap Salary.
  • Years.of.Experience berpengaruh signifikan terhadap Salary.
  • Age berpengaruh signifikan terhadap Salary.

Koefisien Determinasi

Nilai \(R^2\) sebesar 86.87% menunjukkan model mampu menjelaskan variasi Salary dengan sangat baik.


🧪 BAB IV Uji Asumsi Regresi

Plot Diagnostik

par(mfrow = c(2,2))

plot(reg_laprak)

  • Residual mendekati distribusi normal.
  • Terdapat sedikit indikasi heteroskedastisitas.
  • Mayoritas data tidak memiliki leverage tinggi.

Uji Linearitas

resettest(reg_laprak)
## 
##  RESET test
## 
## data:  reg_laprak
## RESET = 0.45395, df1 = 2, df2 = 368, p-value = 0.6355

Model memenuhi asumsi linearitas karena nilai p-value > 0.05.


Uji Normalitas

shapiro.test(
  residuals(reg_laprak)
)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(reg_laprak)
## W = 0.95, p-value = 6.365e-10

Residual tidak berdistribusi normal karena p-value < 0.05.


Uji Homoskedastisitas

bptest(reg_laprak)
## 
##  studentized Breusch-Pagan test
## 
## data:  reg_laprak
## BP = 33.301, df = 2, p-value = 5.872e-08

Terjadi heteroskedastisitas pada model regresi.


Uji Non Autokorelasi

dwtest(reg_laprak)
## 
##  Durbin-Watson test
## 
## data:  reg_laprak
## DW = 1.9704, p-value = 0.3923
## alternative hypothesis: true autocorrelation is greater than 0

Tidak terjadi autokorelasi pada residual model regresi.


Uji Multikolinearitas

vif(reg_laprak)
## Years.of.Experience                 Age 
##            24.20823            24.20823

Nilai VIF > 10 menunjukkan adanya multikolinearitas.


🏁 BAB V Kesimpulan

Berdasarkan hasil analisis diperoleh bahwa:

  • Years.of.Experience dan Age berpengaruh signifikan terhadap Salary.
  • Model memiliki kemampuan prediksi yang sangat baik.
  • Masih terdapat pelanggaran asumsi berupa:
    • heteroskedastisitas,
    • non normalitas,
    • multikolinearitas.

Namun model tetap cukup baik digunakan untuk menjelaskan Salary.


📚 Daftar Pustaka

  • Duli, N. (2021). Analisis regresi linear berganda dalam penelitian kuantitatif.
  • Sugiyono. (2022). Metode penelitian kuantitatif, kualitatif, dan R&D.
  • Ramadhan, B., Firdaus, D. A., & Trira, N. (2023). Analisis data pegawai untuk memprediksi gaji menggunakan regresi linear berganda.