Bu çalışma, çoklu regresyon analizini uygulamalı olarak göstermeyi amaçlamaktadır.
Çoklu regresyon, birden fazla bağımsız değişken ile bir bağımlı değişken arasındaki ilişkiyi modellemek için kullanılır. Sıradan En Küçük Kareler (OLS) yöntemi ile tahmin yapılır.
# install.packages("lm.beta")
# install.packages("DiagrammeR")
library(lm.beta)
library(DiagrammeR)
data <- read.csv("calisan_verimliligi.csv")
summary(data)
## verimlilik deneyim mesai evden_calisma is_doyumu
## Min. :13.50 Min. : 2.600 Min. :0.00 Min. :0.0 Min. :3.000
## 1st Qu.:24.27 1st Qu.: 7.475 1st Qu.:3.45 1st Qu.:1.0 1st Qu.:4.250
## Median :31.10 Median :10.100 Median :6.50 Median :3.0 Median :5.200
## Mean :31.52 Mean : 9.585 Mean :5.68 Mean :2.7 Mean :5.605
## 3rd Qu.:38.73 3rd Qu.:12.900 3rd Qu.:8.55 3rd Qu.:4.0 3rd Qu.:7.200
## Max. :46.10 Max. :14.700 Max. :9.90 Max. :5.0 Max. :8.800
cor(data)
## verimlilik deneyim mesai evden_calisma is_doyumu
## verimlilik 1.00000000 0.70074242 -0.3137591 0.28103806 -0.04298011
## deneyim 0.70074242 1.00000000 -0.1563415 0.03831793 -0.18483369
## mesai -0.31375912 -0.15634149 1.0000000 0.29418284 0.46883115
## evden_calisma 0.28103806 0.03831793 0.2941828 1.00000000 0.26923993
## is_doyumu -0.04298011 -0.18483369 0.4688312 0.26923993 1.00000000
verimlilik ile deneyim arasında oldukça güçlü ve pozitif bir ilişki gözlemlenmektedir (r = 0.70) Verimlilik ile mesai süresi arasında ise orta düzeyde negatif bir ilişki vardır (r = -0.31). Evden çalışma ile verimlilik arasında ise düşük düzeyde, pozitif bir ilişki bulunmaktadır (r = 0.28). İş doyumu ile verimlilik arasındaki ilişki ise oldukça zayıftır ve neredeyse yok denecek düzeydedir (r = -0.04).
Son olarak, bağımsız değişkenler arasındaki ilişkilere bakıldığında bazı orta düzey korelasyonlar görülse de çok yüksek değerler yoktur. Örneğin, mesai ile iş doyumu arasında orta düzeyde pozitif bir ilişki vardır (r = 0.47),
tam_model <- lm(verimlilik ~ deneyim + mesai + evden_calisma + is_doyumu, data = data)
summary(tam_model)
##
## Call:
## lm(formula = verimlilik ~ deneyim + mesai + evden_calisma + is_doyumu,
## data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.4745 -2.5498 -0.8242 2.9194 9.8431
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 12.7615 6.1233 2.084 0.054663 .
## deneyim 1.5749 0.3652 4.313 0.000616 ***
## mesai -1.0414 0.4655 -2.237 0.040873 *
## evden_calisma 1.7758 0.8733 2.033 0.060094 .
## is_doyumu 0.8524 0.8479 1.005 0.330667
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.92 on 15 degrees of freedom
## Multiple R-squared: 0.6671, Adjusted R-squared: 0.5784
## F-statistic: 7.515 on 4 and 15 DF, p-value: 0.001569
lm.beta(tam_model)
##
## Call:
## lm(formula = verimlilik ~ deneyim + mesai + evden_calisma + is_doyumu,
## data = data)
##
## Standardized Coefficients::
## (Intercept) deneyim mesai evden_calisma is_doyumu
## NA 0.6599453 -0.3868848 0.3228640 0.1734558
cat("R²:", round(summary(tam_model)$r.squared, 3), "\\n")
## R²: 0.667 \n
cat("Adj R²:", round(summary(tam_model)$adj.r.squared, 3), "\\n")
## Adj R²: 0.578 \n
Çalışan verimliliğini açıklamak için oluşturulan çoklu doğrusal regresyon modelinde dört bağımsız değişken kullanılmıştır: deneyim, mesai süresi, evden çalışma sayısı ve iş doyumu. Model genel olarak anlamlı bulunmuştur (F(4,15) = 7.515, p = 0.0016) ve bağımlı değişken olan verimlilikteki değişimin yaklaşık %66.7’sini açıklamaktadır (R² = 0.6671). Düzeltilmiş R² ise %57.8’dir ve bu, modelin özellikle küçük örneklemlerde ne kadar güvenilir olduğunu yansıtır.
Modelin katsayılarına bakıldığında, deneyim değişkeninin en güçlü yordayıcı olduğu görülmektedir. Bu değişkenin tahmini katsayısı 1.5749 olup, istatistiksel olarak oldukça anlamlıdır (p = 0.0006). Bu sonuç, her bir yıllık deneyim artışının ortalama verimliliği yaklaşık 1.57 birim artırdığını göstermektedir. Standartlaştırılmış katsayısı (β = 0.66) da bu değişkenin etkisinin büyüklüğünü vurgulamaktadır.
Mesai süresi, modelde negatif yönde etkili bir değişkendir. Katsayısı -1.0414 olup anlamlılık düzeyi p = 0.0409 ile %5 anlamlılık sınırının biraz altındadır. Bu durum, çalışanların fazla mesai yaptıkça verimliliklerinin azaldığını, yani ters bir ilişki olduğunu göstermektedir. Standartlaştırılmış katsayıya göre (β = -0.39), bu etkinin büyüklüğü orta düzeydedir.
Evden çalışma değişkeni ise pozitif yönde bir etki göstermektedir (Estimate = 1.7758). Ancak anlamlılık düzeyi p = 0.0601 ile sınırda olup %5 anlamlılık eşiğini çok az geçmektedir. Bu, evden çalışmanın verimliliği artırabileceğini, ancak bu ilişkinin çok da güçlü olmadığını gösterir. Standartlaştırılmış katsayısı (β = 0.32) etki büyüklüğünün orta düzeyde olduğunu gösterir.
Son olarak, iş doyumu değişkeninin katsayısı 0.8524 olsa da anlamlılık düzeyi oldukça yüksektir (p = 0.3307). Bu değişkenin modelde istatistiksel olarak anlamlı bir etkisi bulunmamaktadır. Standartlaştırılmış katsayısı da (β = 0.17) göreli olarak düşüktür.
# Aşamalı regresyon uygulayalım
step_model <- step(tam_model, direction = "both")
## Start: AIC=75.38
## verimlilik ~ deneyim + mesai + evden_calisma + is_doyumu
##
## Df Sum of Sq RSS AIC
## - is_doyumu 1 35.42 561.10 74.684
## <none> 525.68 75.379
## - evden_calisma 1 144.91 670.59 78.249
## - mesai 1 175.42 701.10 79.138
## - deneyim 1 651.81 1177.49 89.508
##
## Step: AIC=74.68
## verimlilik ~ deneyim + mesai + evden_calisma
##
## Df Sum of Sq RSS AIC
## <none> 561.10 74.684
## + is_doyumu 1 35.42 525.68 75.379
## - mesai 1 140.46 701.57 77.152
## - evden_calisma 1 175.15 736.25 78.117
## - deneyim 1 621.67 1182.77 87.598
summary(step_model)
##
## Call:
## lm(formula = verimlilik ~ deneyim + mesai + evden_calisma, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.1222 -3.5509 0.1343 3.1074 11.4008
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16.5767 4.8072 3.448 0.003305 **
## deneyim 1.5220 0.3615 4.210 0.000664 ***
## mesai -0.8532 0.4263 -2.001 0.062615 .
## evden_calisma 1.9242 0.8610 2.235 0.040044 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.922 on 16 degrees of freedom
## Multiple R-squared: 0.6447, Adjusted R-squared: 0.5781
## F-statistic: 9.677 on 3 and 16 DF, p-value: 0.0007012
lm.beta(step_model)
##
## Call:
## lm(formula = verimlilik ~ deneyim + mesai + evden_calisma, data = data)
##
## Standardized Coefficients::
## (Intercept) deneyim mesai evden_calisma
## NA 0.6377821 -0.3169658 0.3498455
Aşamalı regresyon analizi sonucunda, çalışanların verimlilik düzeyini anlamlı biçimde yordayan üç değişken belirlenmiştir: deneyim, mesai süresi ve evden çalışma sıklığı. Modelin istatistiksel olarak anlamlı olduğu görülmektedir (F(3,16) = 9.68, p = 0.0007), bu da modelde yer alan değişkenlerin bir bütün olarak verimlilik üzerindeki etkisinin önemli olduğunu göstermektedir. Modele ait R² değeri %64.5, düzeltilmiş R² ise %57.8’dir. Bu da, modelin verimlilikteki varyansın büyük bir kısmını açıklayabildiğini ve oldukça güçlü bir model olduğunu gösterir.
Değişkenlerin Yorumları: Deneyim değişkeni, bu modelde de en güçlü yordayıcı olarak öne çıkmaktadır. Katsayısı 1.5220 ve anlamlılık düzeyi p = 0.0007 ile oldukça etkilidir. Standartlaştırılmış katsayısı β = 0.638 olan bu değişken, deneyim arttıkça verimliliğin anlamlı biçimde arttığını göstermektedir.
Mesai süresi, negatif yönlü bir etkide bulunmaktadır (Estimate = -0.8532). Anlamlılık düzeyi p = 0.0626 ile %5 sınırının hemen üzerindedir. Bu sonuç, fazla mesai süresinin verimliliği düşürdüğüne dair bir eğilim olduğunu, ancak bu etkinin sınırlı düzeyde istatistiksel olarak desteklendiğini gösterir. Standartlaştırılmış katsayısı β = -0.317 olarak hesaplanmıştır.
Evden çalışma değişkeni, Estimate = 1.9242 ve p = 0.0400 ile anlamlı ve pozitif bir etkiye sahiptir. Yani evden çalışma sıklığı arttıkça, çalışanların verimlilik düzeyi de artış göstermektedir. Bu değişkenin standartlaştırılmış katsayısı β = 0.35 civarındadır ve etkisi orta düzeydedir.
Artıklar Modelin artık değerleri ±10 arasında simetrik bir dağılım göstermektedir. Bu da modelin hata terimlerinin normal dağılıma yakın olduğunu ve regresyon varsayımlarının büyük ölçüde sağlandığını göstermektedir. Ayrıca uç değer ya da sistematik sapma gözlenmemiştir.
# Artık analizi
plot(step_model$residuals,
main = "Artıkların Grafiği",
xlab = "Gözlem Sırası",
ylab = "Artık",
pch = 19, col = "darkgreen")
abline(h = 0, col = "red", lty = 2)
Bu artıklar grafiği, kurduğun çoklu regresyon modelinin hata terimlerinin rastgele dağıldığını göstermektedir. Bu da modelin doğrusal ilişki varsayımını, sabit varyans (homoskedastisite) ve normal dağılım varsayımlarını büyük ölçüde karşıladığını gösterir.
# Yol şeması
grViz("
digraph regression {
graph [layout = dot, rankdir = LR]
node [shape = box, style = filled, color = lightblue]
deneyim [label = 'Deneyim']
mesai [label = 'Mesai']
evden_calisma [label = 'Evden Çalışma']
verimlilik [label = 'Verimlilik', shape = ellipse, color = lightgreen]
deneyim -> verimlilik [label = 'β = 0.64']
mesai -> verimlilik [label = 'β = -0.32']
evden_calisma -> verimlilik [label = 'β = 0.35']
}
")
Deneyim → Verimlilik (β = 0.64): Deneyimin etkisi güçlü ve pozitif.
Mesai → Verimlilik (β = -0.32): Mesai süresinin etkisi negatif ve orta düzeyde.
Evden Çalışma → Verimlilik (β = 0.35): Pozitif ve orta düzeyde katkı sağlar.