Farizah Rizka Rahmaniar_06211540000111_Kelas Bisnis Analitik
Data Pendapatan untuk Profesor ini adalah data pendapatan untuk asisten profesor, associate profesor, dan profesor pada bulan September tahun 2008 di salah satu universitas di US. Data ini terdapat pada dataset di R. Berikut merupakan variabel penelitiannya.
| Simbol | Variabel | Keterangan | Skala Pengukuran |
|---|---|---|---|
| Y | salary | Pendapatan dalam satuan $ | Rasio |
| X1 | rank | Tingkat pekerjaan (Asisten Profesor, Associate Profesor, Profesor) | Nominal |
| X2 | discipline | Departemen (Teori atau Terapan) | Nominal |
| X3 | yrs.since.phd | Lama waktu setelah mendapatkan gelar PhD (Tahun) | Rasio |
| X4 | yrs.service | Lama bekerja dalam satuan tahun | Rasio |
| X5 | sex | Jenis Kelamin (Laki-laki atau Perempuan) | Nominal |
Berikut merupakan statistika deskriptif pada data ini.
library(carData)
summary(Salaries)
## rank discipline yrs.since.phd yrs.service sex
## AsstProf : 67 A:181 Min. : 1.00 Min. : 0.00 Female: 39
## AssocProf: 64 B:216 1st Qu.:12.00 1st Qu.: 7.00 Male :358
## Prof :266 Median :21.00 Median :16.00
## Mean :22.31 Mean :17.61
## 3rd Qu.:32.00 3rd Qu.:27.00
## Max. :56.00 Max. :60.00
## salary
## Min. : 57800
## 1st Qu.: 91000
## Median :107300
## Mean :113706
## 3rd Qu.:134185
## Max. :231545
Berikut merupakan script untuk membuat scatter plot antara salary (Y) terhadap yrs.since.phd (X3) dan yrs.service (X4).
library(ggplot2)
ggplot(data = Salaries) +
aes(x = yrs.since.phd, y = salary, color = rank, size = yrs.service) +
geom_point() +
scale_color_brewer(palette = "Set2") +
theme_minimal()
ggplot(data = Salaries) +
aes(x = yrs.since.phd, y = salary, color = discipline, size = yrs.service) +
geom_point() + theme_minimal()
Di bawah ini merupakan boxplot salary menurut tingkat pekerjaan (rank) dan departemen (discipline)
levels(Salaries$discipline)[levels(Salaries$discipline)=="A"] <- "Teori"
levels(Salaries$discipline)[levels(Salaries$discipline)=="B"] <- "Terapan"
par(mfrow=c(1,2))
boxplot(Salaries$salary ~ Salaries$rank)
boxplot(Salaries$salary ~ Salaries$discipline)
Korelasi Sederhana merupakan suatu teknik statistik yang dipergunakan untuk mengukur kekuatan hubungan dua Variabel dan juga untuk dapat mengetahui bentuk hubungan antara dua Variabel tersebut dengan hasil yang sifatnya kuantitatif.
Terdapat dua teknik korelasi yang sangat populer yaitu Korelasi Pearson Product Moment dan Korelasi Rank Spearman.
datanumeric <- data.frame(Salaries$salary, Salaries$yrs.since.phd,
Salaries$yrs.service)
res <- cor(datanumeric)
round(res,2)
## Salaries.salary Salaries.yrs.since.phd
## Salaries.salary 1.00 0.42
## Salaries.yrs.since.phd 0.42 1.00
## Salaries.yrs.service 0.33 0.91
## Salaries.yrs.service
## Salaries.salary 0.33
## Salaries.yrs.since.phd 0.91
## Salaries.yrs.service 1.00
library(corrplot)
## corrplot 0.84 loaded
corrplot(res, method = "ellipse", type = "upper", order = "hclust",
tl.col = "black", tl.cex = 0.8, tl.srt = 45)
Dalam regresi, kita mengenal istilah variabel dependen (terikat) dan variabel independen (bebas), dimana variabel dependen dipengaruhi oleh variabel independen.
. \[\begin{array}{cccc} Y_1&=&\beta_0 + \beta_1 X_1+\epsilon_1& \\ \vdots & \vdots & \vdots& \\ Y_i&=&\beta_0 + \beta_1 X_i+\epsilon_i&\\ \vdots & \vdots & \vdots& \\ Y_n&=&\beta_0 + \beta_1 X_n+\epsilon_n & \end{array}\]
dimana,
\(Y_i\) : variabel dependen
\(X_i\) : variabel independen
\(\epsilon_i\) : residual
Pada kasus ini, variabel dependen pada dasarnya tidak hanya dapat dipengaruhi oleh variabel independen kuantitatif, tetapi juga dapat dipengaruhi oleh variabel independen kualitatif.
Variabel kualitatif tersebut harus dikuantitatifkan atributnya. Untuk mengkuantitatifkan atribut variabel kualitatif dibentuk variabel dummy.
Misalkan g adalah variabel kualitatif dengan g_i=L atau g_i=P. Maka dapat mendefinisikan faktor D sebagai berikut. \[\begin{equation} D_{i}= \left\{\begin{array}{cl} 1& \text{ jika } g_i=L \\ 0& \text{ untuk yang lain} \end{array}\right. \end{equation}\] Dengan demikian bentuk model antara Y_i dengan variabel-variabel lainnya dapat dituliskan sebagai berikut. \[\begin{equation} Y_i=\beta_0+\beta_1X_1+\beta_2D_i+\epsilon_i \end{equation}\]Salaries$rank.f <- factor(Salaries$rank)
Salaries$discipline.f <- factor(Salaries$discipline)
summary(lm(Salaries$salary ~ Salaries$yrs.since.phd + Salaries$yrs.service +
Salaries$rank.f + Salaries$discipline.f))
##
## Call:
## lm(formula = Salaries$salary ~ Salaries$yrs.since.phd + Salaries$yrs.service +
## Salaries$rank.f + Salaries$discipline.f)
##
## Residuals:
## Min 1Q Median 3Q Max
## -65244 -13498 -1455 9638 99682
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 69869.0 3332.1 20.968 < 2e-16 ***
## Salaries$yrs.since.phd 534.6 241.2 2.217 0.02720 *
## Salaries$yrs.service -476.7 211.8 -2.250 0.02497 *
## Salaries$rank.fAssocProf 12831.5 4147.7 3.094 0.00212 **
## Salaries$rank.fProf 45287.7 4236.7 10.689 < 2e-16 ***
## Salaries$discipline.fTerapan 14505.2 2343.4 6.190 1.52e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 22550 on 391 degrees of freedom
## Multiple R-squared: 0.4525, Adjusted R-squared: 0.4455
## F-statistic: 64.64 on 5 and 391 DF, p-value: < 2.2e-16
Hipotesis :
\(\text{H}_0\) : \(\beta_0\) , \(\beta_1\) , \(\beta_2\) , \(\beta_3\) , \(\beta_4\) = 0
\(\text{H}_1\) : minimal terdapat \(\beta_j\) \(\neq\) 0
Dari hasil regresi di atas menghasilkan p-value sebesar <2.2e-16 dimana nilai tersebut kurang dari \(\alpha =5\%\) sehingga dapat disimpulkan bahwa variabel yrs.since.phd, yrs.service, rank, dan discipline memiliki pengaruh yang signifikan terhadap variabel salary (pendapatan). Selain itu koefisien determinasinya menghasilkan nilai sebesar 45,25% yang artinya variabel independen (x) dapat menjelaskan variabel dependen (y) secara serentak sebesar 45,25% sedangkan sisanya (54,75%) dijelaskan oleh variabel independen yang lain.
Berdasarkan hasil regresi di atas, didapatkan model regresi seperti berikut.
salary = 69869 + 534,6(yrs.since.phd) - 476,7(yrs.service) + 12831,5(rank_AssocProf) + 45287,7(rank_Prof) + 14505,2(discipline_Terapan)