Dalam dunia kerja, salah satu faktor yang sering dianggap memengaruhi tingkat pendapatan seseorang adalah pengalaman kerja. Dengan meningkatnya pengalaman, karyawan biasanya memperoleh keterampilan tambahan, pengetahuan, dan efisiensi yang lebih baik, yang dapat meningkatkan produktivitas mereka dan, pada akhirnya, kompensasi finansial yang diterima. Namun, seberapa kuat hubungan ini dapat bervariasi dikarenakan faktor industri, tingkat pendidikan, dan berbagai faktor lainnya. Oleh karena itu, memahami secara kuantitatif hubungan antara pengalaman kerja dan gaji dapat memberikan wawasan berharga bagi para pengambil keputusan, baik di kalangan perusahaan dalam menetapkan struktur gaji, maupun individu dalam merencanakan karier mereka.
Dalam publikasi ini, dilakukan analisis data yang mencakup variabel dependen (Y) yaitu “salary” yang merepresentasikan gaji karyawan dan “years experience” yang merepresentasikan pengalaman kerja dijadikan sebagai variabel independen (X) untuk mengidentifikasi dan mengukur hubungan di antara keduanya. Dengan demikian, analisis ini bertujuan untuk menentukan apakah terdapat hubungan yang signifikan secara statistik antara pengalaman kerja (years experience) dan gaji (Salary) da mengukur seberapa besar kontribusi pengalaman kerja (years experience) terhadap gaji (salary).
Regresi linier sederhana adalah metode statistik yang digunakan untuk memodelkan hubungan linier antara dua variabel: satu variabel independen \((X)\) dan satu variabel dependen \((Y)\). Tujuannya adalah untuk menemukan garis regresi yang paling sesuai dengan data yang ada, yang dapat digunakan untuk memprediksi nilai variabel dependen berdasarkan nilai variabel independen dengan persamaan sebagai berikut:
\[ \hat{Y}=\hat\beta_0+\hat\beta_1X \]
dengan:
\(\hat{Y}=\text{nilai
prediksi}\)
\(X=\text{variabel independen}\)
\(\hat\beta_0=\text{intersep}\)
\(\hat\beta_1=\text{konstanta
regresi}\)
Regresi linier sederhana didasarkan pada beberapa asumsi fundamental yang harus dipenuhi agar hasil analisis dan interpretasi model menjadi valid. Berikut adalah asumsi-asumsi utama dalam regresi linier sederhana:
Asumsi linieritas menyatakan bahwa hubungan antara variabel independen (\(X\)) dan variabel dependen (\(Y\)) dapat diwakili oleh sebuah garis lurus. Dengan kata lain, perubahan pada \(Y\) dapat dijelaskan sebagai kombinasi linier dari perubahan pada \(X\).
Asumsi independensi error menyatakan bahwa error (residu) yang dihasilkan dari model regresi tidak berkorelasi satu sama lain. Setiap error adalah hasil dari variabilitas acak dan tidak dipengaruhi oleh error lainnya.
Asumsi homoskedastisitas menyatakan bahwa variansi error adalah konstan untuk semua nilai \(X\). Dengan kata lain, sebaran residu harus sama di seluruh rentang prediksi \(Y\).
Asumsi normalitas error menyatakan bahwa error (residu) dari model regresi terdistribusi secara normal. Ini penting terutama untuk uji hipotesis dan pembentukan interval kepercayaan.
Uji F bertujuan untuk menentukan apakah ada hubungan linier yang signifikan antara variabel independen (\(X\)) dan variabel dependen (\(Y\)). Dalam regresi linier sederhana, ini berarti menguji apakah koefisien regresi \(\beta_1\) secara signifikan berbeda dari nol.
Jika **\(H_0\) ditolak pada uji F, maka dilakukan uji t. Uji t ini bertujuan untuk mengetahui apakah variabel independen (\(X\)) memiliki pengaruh yang signifikan terhadap variabel dependen (\(Y\)) secara parsial.
Melakukan load library yang dibutuhkan
library(ggplot2) # Digunakan untuk visualisasi data.
library(lmtest) # Digunakan untuk menguji asumsi regresi
print("Library telah berhasil di load")
## [1] "Library telah berhasil di load"
Dataset yang digunakan untuk pengujian adalah dataset yang bersumber dari website Kaggle yang berupa data pengalaman kerja (tahun) dan banyaknya gaji yang diterima (dollar). Dataset ini terdiri dari 31 data. Banyaknya gaji yang diterima dijadikan sebagai variabel dependen (Y), sedangkan lamanya tahun pengalaman kerja dijadikan sebagai variabel independen (X). Adapun data tersebut ialah sebagai berikut:
data <- read.csv("SalaryData.csv")
data
## YearsExperience Salary
## 1 1.1 39343
## 2 1.3 46205
## 3 1.5 37731
## 4 2.0 43525
## 5 2.2 39891
## 6 2.9 56642
## 7 3.0 60150
## 8 3.2 54445
## 9 3.2 64445
## 10 3.7 57189
## 11 3.9 63218
## 12 4.0 55794
## 13 4.0 56957
## 14 4.1 57081
## 15 4.5 61111
## 16 4.9 67938
## 17 5.1 66029
## 18 5.3 83088
## 19 5.9 81363
## 20 6.0 93940
## 21 6.8 91738
## 22 7.1 98273
## 23 7.9 101302
## 24 8.2 113812
## 25 8.7 109431
## 26 9.0 105582
## 27 9.5 116969
## 28 9.6 112635
## 29 10.3 122391
## 30 10.5 121872
ggplot(data, aes(YearsExperience)) +
geom_density() +
labs(
title = "KDE Estimation Years Experience Variable",
x = "Years Experience"
) +
theme_bw()
Interpretasi:
Distribusi Years Experience memiliki puncak sekitar 3 tahun pengalaman, menunjukkan bahwa sebagian besar individu dalam dataset memiliki pengalaman kerja sekitar 3 tahun. Setelah puncak tersebut, densitas menurun secara bertahap, mengindikasikan bahwa semakin sedikit individu yang memiliki pengalaman kerja lebih lama, hingga akhirnya mencapai sekitar 10 tahun pengalaman.
ggplot(data, aes(y = YearsExperience)) +
labs(
title = "Box Plot Years Experience Variable",
y = "Years Experience"
) +
geom_boxplot() +
theme_bw()
Interpretasi:
Box plot ini menggambarkan distribusi variabel “Years Experience”. Median pengalaman kerja sekitar 5 tahun. Kuartil pertama (Q1) berada di sekitar 2,5 tahun, dan kuartil ketiga (Q3) berada di sekitar 7,5 tahun. Garis (whisker) memanjang dari sekitar 0 hingga 10 tahun pengalaman. Box plot ini mengindikasikan bahwa distribusi pengalaman kerja sebagian besar simetris dengan sebagian besar data berada di antara 2,5 dan 7,5 tahun pengalaman.
ggplot(data, aes(Salary)) +
geom_density() +
labs(
title = "KDE Estimation Salary Variable",
x = "Salary (USD)"
) +
theme_bw()
Interpretasi:
Distribusi Salary memiliki puncak sekitar 50.000, menunjukkan bahwa sebagian besar individu dalam dataset memiliki gaji sekitar 50.000. Setelah puncak tersebut, densitas menurun secara bertahap hingga mencapai titik rendah sekitar 75.000. Densitas kemudian meningkat lagi, menunjukkan adanya kelompok lain dengan gaji sekitar 100.000, sebelum akhirnya menurun kembali. Distribusi ini mengindikasikan adanya dua kelompok gaji utama dalam dataset, satu di sekitar 50.000 dan satu lagi di sekitar 100.000, dengan lebih sedikit individu yang memiliki gaji di antara atau di luar rentang tersebut.
ggplot(data, aes(y = Salary)) +
labs(
title = "Box Plot Salary Variable",
y = "Salary (USD)"
) +
geom_boxplot() +
theme_bw()
Interpretasi:
Box plot ini menggambarkan distribusi variabel “Salary”. Median gaji sekitar 75.000. Kuartil pertama (Q1) berada di sekitar 60.000, dan kuartil ketiga (Q3) berada di sekitar 100.000. Garis (whisker) memanjang dari sekitar 40.000 hingga 120.000. Box plot ini mengindikasikan bahwa distribusi gaji sebagian besar simetris dengan sebagian besar data berada di antara 60.000 dan 100.000.
ggplot(data, aes(YearsExperience, Salary)) +
geom_point() +
geom_smooth(method = "lm") +
labs(
title = "Scatter Plot with Linear Regression Line",
x = "Years Experience",
y = "Salary (USD)"
) +
theme_bw()
Interpretasi:
Grafik scatter plot ini menunjukkan hubungan antara “Years Experience” dan “Salary” dengan garis regresi linier. Dari grafik ini, terlihat adanya hubungan positif yang kuat antara pengalaman kerja dan gaji. Artinya, semakin banyak tahun pengalaman kerja yang dimiliki seseorang, semakin tinggi gaji yang mereka terima.
regression <- lm(Salary~., data)
regression
##
## Call:
## lm(formula = Salary ~ ., data = data)
##
## Coefficients:
## (Intercept) YearsExperience
## 25792 9450
Setelah dilakukan fit dengan R Studio, didapatkan persamaan sebagai berikut:
\[
\hat{y}=25792+9450X_1
\] dimana
\(\hat{\beta_0}=25792\)
\(\hat{\beta_1}=9450\)
Menginterpretasikan:
Dalam pembuatan model regresi, uji asumsi perlu dilakukan untuk memastikan bahwa model yang dihasilkan valid dan dapat diandalkan. Uji asumsi ini meliputi normalitas residual, homoskedastisitas, independensi residual, dan linieritas hubungan antara variabel independen dan dependen. Tanpa memeriksa dan memastikan asumsi-asumsi ini, hasil analisis regresi bisa jadi tidak akurat, karena pelanggaran terhadap asumsi dapat menyebabkan estimasi parameter yang bias, kesalahan standar yang tidak valid, dan kesimpulan yang salah.
ggplot(data, aes(YearsExperience, Salary)) +
geom_point() +
geom_smooth(method = "lm") +
labs(
title = "Scatter Plot with Linear Regression Line",
x = "Years Experience",
y = "Salary (USD)"
) +
theme_bw()
Berdasarkan hasil scatterplot, dapat terlihat bahwa Years Experience dengan Salary memiliki hubungan linier positif yang sangat kuat serta asumsi linieritas terpenuhi.
residu <- residuals(regression)
ggplot(data.frame(residu), aes(sample = residu)) +
stat_qq() +
stat_qq_line() +
labs(title = "Q-Q Plot of Residuals",
x = "Theoretical Quantiles",
y = "Sample Quantiles") +
theme_bw()
Interpretasi:
Secara keseluruhan, Q-Q plot ini menunjukkan bahwa residual dari model regresi linear mendekati distribusi normal.
Hipotesis:
\(H_0:\) Residu berdistribusi
normal
\(H_1:\) Residu tidak berdistribusi
normal
Statistik Uji:
shapiro.test(residu)
##
## Shapiro-Wilk normality test
##
## data: residu
## W = 0.95234, p-value = 0.1952
Kesimpulan:
Karena p-value \(=0.1952>\alpha=5%\) maka gagal tolak
\(H_0\) yang mengartikan bahwa residu
berdistribusi normal dan asumsi normalitas residu
terpenuhi.
data$index <- 1:nrow(data)
data$residu <- residu
ggplot(data, aes(x = index, y = residu)) +
geom_point() +
geom_line() +
labs(title = "Residuals vs. Order of Observations",
x = "Order of Observations",
y = "Residuals") +
theme_bw()
Interpretasi:
Plot residual vs. urutan observasi ini menunjukkan bahwa residual tersebar secara acak di sekitar garis nol tanpa pola yang jelas. Hal ini mengindikasikan bahwa tidak ada autokorelasi yang signifikan dalam residual, menunjukkan bahwa residual dari model regresi bersifat independen. Ini berarti bahwa asumsi independensi residual dalam regresi linear terpenuhi, sehingga model regresi yang digunakan dapat dianggap valid dalam hal ini.
Hipotesis:
\(H_0:\) Residu tidak
berautokorelasi
\(H_1:\) Residu berautokorelasi
Statistik Uji:
dwtest(regression)
##
## Durbin-Watson test
##
## data: regression
## DW = 1.648, p-value = 0.1178
## alternative hypothesis: true autocorrelation is greater than 0
Kesimpulan:
Karena p-value \(=0.1178>\alpha=5%\) maka gagal tolak
\(H_0\) yang mengartikan bahwa residu
tidak berautokorelasi dan asumsi independensi residu
terpenuhi.
data$fitted <- fitted(regression)
ggplot(data, aes(x = fitted, y = residu)) +
geom_point() +
geom_hline(yintercept = 0, linetype = "dashed", color = "red") +
labs(title = "Residuals vs. Fitted Values",
x = "Fitted Values",
y = "Residuals") +
theme_bw()
Interpretasi:
Plot residual vs. fitted values ini menunjukkan bahwa residual tersebar secara acak di sekitar garis horizontal pada nilai nol tanpa pola yang jelas. Ini mengindikasikan bahwa tidak ada masalah heteroskedastisitas yang signifikan dalam model regresi.
Hipotesis:
\(H_0:\) Variansi Residu Konstan
\(H_1:\) Variansi Residu tidak
Konstan
Statistik Uji:
bptest(regression)
##
## studentized Breusch-Pagan test
##
## data: regression
## BP = 0.39905, df = 1, p-value = 0.5276
Kesimpulan:
Karena p-value = \(0.5276>\alpha=5%\) maka gagal tolak
\(H_0\) yang mengartikan bahwa variansi
residu konstan dan asumsi homoskedastisitas
terpenuhi.
Uji signifikansi parameter dalam model regresi diperlukan untuk menentukan apakah hubungan antara variabel independen dan variabel dependen signifikan secara statistik Dengan melakukan uji ini, dapat di ketahui apakah koefisien regresi yang diestimasi berbeda secara signifikan dari nol, yang menunjukkan bahwa variabel independen tersebut memiliki pengaruh yang berarti terhadap variabel dependen. Jika parameter tidak signifikan, mengartikan bahwa variabel independen tersebut mungkin tidak berkontribusi pada prediksi variabel dependen. Uji signifikansi parameter membantu memastikan bahwa model regresi yang dihasilkan memiliki prediktor yang relevan dan memberikan insight yang lebih akurat serta dapat dipercaya untuk pengambilan keputusan.
Hipotesis:
- \(H_0\): Tidak ada hubungan linier
yang signifikan antara \(X\) dan \(Y\) (dengan kata lain, \(\beta_1 = 0\)).
- \(H_1\): Ada hubungan linier yang
signifikan antara \(X\) dan \(Y\) (dengan kata lain, \(\beta_1 \neq 0\)).
Statistik Uji:
summary(regression)
##
## Call:
## lm(formula = Salary ~ ., data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7958.0 -4088.5 -459.9 3372.6 11448.0
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 25792.2 2273.1 11.35 5.51e-12 ***
## YearsExperience 9450.0 378.8 24.95 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5788 on 28 degrees of freedom
## Multiple R-squared: 0.957, Adjusted R-squared: 0.9554
## F-statistic: 622.5 on 1 and 28 DF, p-value: < 2.2e-16
Kesimpulan:
Karena didapatkan p-value \(=2.2\times10^{-16}<\alpha=5%\) maka
dapat ditarik kesimpulan bahwa variabel Years Experience
mempengaruhi Salary dengan sangat signifikan secara
statistik.
Hipotesis:
- Hipotesis Nol (\(H_0\)): \(X\) tidak berpengaruh secara signifikan
terhadap \(Y\) (dengan kata lain, \(\beta_1 = 0\)).
- Hipotesis Alternatif (\(H_1\)): \(X\) berpengaruh secara signifikan terhadap
\(Y\) (dengan kata lain, \(\beta_1 \neq 0\)).
Statistik Uji:
summary(regression)
##
## Call:
## lm(formula = Salary ~ ., data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7958.0 -4088.5 -459.9 3372.6 11448.0
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 25792.2 2273.1 11.35 5.51e-12 ***
## YearsExperience 9450.0 378.8 24.95 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5788 on 28 degrees of freedom
## Multiple R-squared: 0.957, Adjusted R-squared: 0.9554
## F-statistic: 622.5 on 1 and 28 DF, p-value: < 2.2e-16
Kesimpulan:
Karena didapatkan nila Pr(>|t|) untuk X1 <
p-value = 0.05; maka H0 ditolak sehingga dapat
ditarik kesimpulan bahwa variabel Years Experience berpengaruh
signifikan terhadap Salary secara parsial dengan sangat
signifikan.
| Asumsi | Hasil |
|---|---|
| Asumsi Linieritas | Terpenuhi |
| Asumsi Normalitas | Terpenuhi |
| Asumsi Homoskedastisitas | Terpenuhi |
| Asumsi Independensi | Terpenuhi |
| Parameter | Hasil |
|---|---|
| Secara Simultan | Sangat Signifikan (0.001) |
| Variabel Pengalaman Bekerja | Sangat Signifikan (0.001) |
Berdasarkan data yang diuji, maka diperoleh persamaan model regresi yaitu: \[ \hat{Y}=25792+9450X_1\] Model persamaan regresi tersebut memiliki konstanta bernilai positif 25792 menandakan bahwa jika pengalaman bekerja (X1) bernilai nol atau tidak memiliki pengalaman bekerja, maka pendapatan yang diperoleh adalah sebesar 25792 USD. Adapun setiap peningkatan satu tahun pengalaman kerja, maka pendapatan yang diperoleh akan bertambah sebanyak 9450 USD. Model ini memiliki nilai R-square sebesar 0.9554, yang mana berarti variabel dependen Y berupa pendapatan (salary) dapat dijelaskan oleh variabel independen pengalaman kerja (years experience) dalam model sebesar 95,54%, sedangkan sisanya yaitu 4,46% tidak dapat dijelaskan oleh model karena mungkin dipengaruhi oleh variabel lain yang tidak ada dalam model ini.
Uji asumsi regresi yang terdiri dari asumsi linearitas, normalitas, homoskedastisitas, dan independensi memberikan hasil yang terpenuhi, menunjukkan bahwa model regresi memenuhi syarat untuk dilakukan analisis lebih lanjut.
Hasil uji signifikansi parameter menunjukkan bahwa variabel pengalaman bekerja memiliki pengaruh yang sangat signifikan terhadap pendapatan, dengan tingkat signifikansi 0.001 baik secara simultan maupun individual. Hal ini menegaskan kekuatan dan validitas model regresi yang telah dikembangkan dalam menjelaskan hubungan antara pengalaman kerja dan pendapatan.
Kesimpulan ini memperkuat validitas model regresi dalam menganalisis data dan menawarkan wawasan yang kuat mengenai pentingnya pengalaman kerja dalam menentukan tingkat pendapatan seseorang.