Farizah Rizka Rahmaniar_06211540000111_Kelas Bisnis Analitik

Analisis Pendapatan untuk Profesor (Salaries for Professors)

1. Data Salaries for Professors

Data Pendapatan untuk Profesor ini adalah data pendapatan untuk asisten profesor, associate profesor, dan profesor pada bulan September tahun 2008 di salah satu universitas di US. Data ini terdapat pada dataset di R. Berikut merupakan variabel penelitiannya.

Simbol Variabel Keterangan Skala Pengukuran
Y salary Pendapatan dalam satuan $ Rasio
X1 rank Tingkat pekerjaan (Asisten Profesor, Associate Profesor, Profesor) Nominal
X2 discipline Departemen (Teori atau Terapan) Nominal
X3 yrs.since.phd Lama waktu setelah mendapatkan gelar PhD (Tahun) Rasio
X4 yrs.service Lama bekerja dalam satuan tahun Rasio
X5 sex Jenis Kelamin (Laki-laki atau Perempuan) Nominal

2. Statistika Deskriptif

Berikut merupakan statistika deskriptif pada data ini.

library(carData)
summary(Salaries)
##         rank     discipline yrs.since.phd    yrs.service        sex     
##  AsstProf : 67   A:181      Min.   : 1.00   Min.   : 0.00   Female: 39  
##  AssocProf: 64   B:216      1st Qu.:12.00   1st Qu.: 7.00   Male  :358  
##  Prof     :266              Median :21.00   Median :16.00               
##                             Mean   :22.31   Mean   :17.61               
##                             3rd Qu.:32.00   3rd Qu.:27.00               
##                             Max.   :56.00   Max.   :60.00               
##      salary      
##  Min.   : 57800  
##  1st Qu.: 91000  
##  Median :107300  
##  Mean   :113706  
##  3rd Qu.:134185  
##  Max.   :231545

3. Plot

Berikut merupakan script untuk membuat scatter plot antara salary (Y) terhadap yrs.since.phd (X3) dan yrs.service (X4).

library(ggplot2)
ggplot(data = Salaries) +
  aes(x = yrs.since.phd, y = salary, color = rank, size = yrs.service) +
  geom_point() +
  scale_color_brewer(palette = "Set2") +
  theme_minimal()

ggplot(data = Salaries) + 
  aes(x = yrs.since.phd, y = salary, color = discipline, size = yrs.service) +
  geom_point() + theme_minimal()

Di bawah ini merupakan boxplot salary menurut tingkat pekerjaan (rank) dan departemen (discipline)

levels(Salaries$discipline)[levels(Salaries$discipline)=="A"] <- "Teori"
levels(Salaries$discipline)[levels(Salaries$discipline)=="B"] <- "Terapan"
par(mfrow=c(1,2))
boxplot(Salaries$salary ~ Salaries$rank)
boxplot(Salaries$salary ~ Salaries$discipline)

4. Korelasi

Korelasi Sederhana merupakan suatu teknik statistik yang dipergunakan untuk mengukur kekuatan hubungan dua Variabel dan juga untuk dapat mengetahui bentuk hubungan antara dua Variabel tersebut dengan hasil yang sifatnya kuantitatif.

Terdapat dua teknik korelasi yang sangat populer yaitu Korelasi Pearson Product Moment dan Korelasi Rank Spearman.

datanumeric <- data.frame(Salaries$salary, Salaries$yrs.since.phd,
                          Salaries$yrs.service)
res <- cor(datanumeric)
round(res,2)
##                        Salaries.salary Salaries.yrs.since.phd
## Salaries.salary                   1.00                   0.42
## Salaries.yrs.since.phd            0.42                   1.00
## Salaries.yrs.service              0.33                   0.91
##                        Salaries.yrs.service
## Salaries.salary                        0.33
## Salaries.yrs.since.phd                 0.91
## Salaries.yrs.service                   1.00
library(corrplot)
## corrplot 0.84 loaded
corrplot(res, method = "ellipse", type = "upper", order = "hclust", 
         tl.col = "black", tl.cex = 0.8, tl.srt = 45)

5. Analisis Regresi Dummy

Dalam regresi, kita mengenal istilah variabel dependen (terikat) dan variabel independen (bebas), dimana variabel dependen dipengaruhi oleh variabel independen.

. \[\begin{array}{cccc} Y_1&=&\beta_0 + \beta_1 X_1+\epsilon_1& \\ \vdots & \vdots & \vdots& \\ Y_i&=&\beta_0 + \beta_1 X_i+\epsilon_i&\\ \vdots & \vdots & \vdots& \\ Y_n&=&\beta_0 + \beta_1 X_n+\epsilon_n & \end{array}\]


dimana,

\(Y_i\) : variabel dependen

\(X_i\) : variabel independen

\(\epsilon_i\) : residual

Pada kasus ini, variabel dependen pada dasarnya tidak hanya dapat dipengaruhi oleh variabel independen kuantitatif, tetapi juga dapat dipengaruhi oleh variabel independen kualitatif.

Variabel kualitatif tersebut harus dikuantitatifkan atributnya. Untuk mengkuantitatifkan atribut variabel kualitatif dibentuk variabel dummy.

Misalkan g adalah variabel kualitatif dengan g_i=L atau g_i=P. Maka dapat mendefinisikan faktor D sebagai berikut. \[\begin{equation} D_{i}= \left\{\begin{array}{cl} 1& \text{ jika } g_i=L \\ 0& \text{ untuk yang lain} \end{array}\right. \end{equation}\] Dengan demikian bentuk model antara Y_i dengan variabel-variabel lainnya dapat dituliskan sebagai berikut. \[\begin{equation} Y_i=\beta_0+\beta_1X_1+\beta_2D_i+\epsilon_i \end{equation}\]
Salaries$rank.f <- factor(Salaries$rank)
Salaries$discipline.f <- factor(Salaries$discipline)
summary(lm(Salaries$salary ~ Salaries$yrs.since.phd + Salaries$yrs.service + 
             Salaries$rank.f + Salaries$discipline.f))
## 
## Call:
## lm(formula = Salaries$salary ~ Salaries$yrs.since.phd + Salaries$yrs.service + 
##     Salaries$rank.f + Salaries$discipline.f)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -65244 -13498  -1455   9638  99682 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   69869.0     3332.1  20.968  < 2e-16 ***
## Salaries$yrs.since.phd          534.6      241.2   2.217  0.02720 *  
## Salaries$yrs.service           -476.7      211.8  -2.250  0.02497 *  
## Salaries$rank.fAssocProf      12831.5     4147.7   3.094  0.00212 ** 
## Salaries$rank.fProf           45287.7     4236.7  10.689  < 2e-16 ***
## Salaries$discipline.fTerapan  14505.2     2343.4   6.190 1.52e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 22550 on 391 degrees of freedom
## Multiple R-squared:  0.4525, Adjusted R-squared:  0.4455 
## F-statistic: 64.64 on 5 and 391 DF,  p-value: < 2.2e-16

5.1 Pengujian secara serentak

Hipotesis :

\(\text{H}_0\) : \(\beta_0\) , \(\beta_1\) , \(\beta_2\) , \(\beta_3\) , \(\beta_4\) = 0

\(\text{H}_1\) : minimal terdapat \(\beta_j\) \(\neq\) 0

Dari hasil regresi di atas menghasilkan p-value sebesar <2.2e-16 dimana nilai tersebut kurang dari \(\alpha =5\%\) sehingga dapat disimpulkan bahwa variabel yrs.since.phd, yrs.service, rank, dan discipline memiliki pengaruh yang signifikan terhadap variabel salary (pendapatan). Selain itu koefisien determinasinya menghasilkan nilai sebesar 45,25% yang artinya variabel independen (x) dapat menjelaskan variabel dependen (y) secara serentak sebesar 45,25% sedangkan sisanya (54,75%) dijelaskan oleh variabel independen yang lain.

5.2 Model Regresi

Berdasarkan hasil regresi di atas, didapatkan model regresi seperti berikut.

salary = 69869 + 534,6(yrs.since.phd) - 476,7(yrs.service) + 12831,5(rank_AssocProf) + 45287,7(rank_Prof) + 14505,2(discipline_Terapan)