knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE
)
Uvažujeme lineárny regresný model, v ktorom vysvetľujeme hodnotu Performance Score (skóre výkonu zamestnanca) pomocou mesačného platu, skóre spokojnosti zamestnanca a počtu chorobných dní (sick days). Model má tvar:
\[Pr\_S_i = \beta_0 + \beta_1 Mn\_S_i + \beta_2 E\_S\__i + \beta_3 Sc\_D_i + \varepsilon_i\] Predpokladáme, že mesačný plat bude mať na výkon zamestnanca pozitívny vplyv \((\beta_1>0)\), keďže plat môže pôsobiť ako motivátor pre lepší výkon zamestnanca. Takisto predpokladáme, že skóre spokojnosti zamestnanca bude mať pozitívny vplyv na výkon zamestnanca \((\beta_2>0)\), keďže sa očakáva, že spokojný zamestnanec je výkonný zamestnanec. Naopak, pri počte chorobných dní očakávme negatívny vplyv \((\beta_3<0)\), pretože zvýšený počet chorobných dní a absencií môže narušiť kontinuitu práce alebo indikovať zníženú motiváciu u zamestnanca. Vybrala som tieto 3 premenné, pretože pokrývajú 3 rôzne faktory, ktoré môžu vplývať na výkon zamestnanca - peniaze (mesačný príjem), psychická pohoda (spokojnosť zamestnanca) a zdravie (počet chorobných dní).
Tieto predpoklady budeme empiricky testovať pomocou štatistických hypotéz o jednotlivých regresných koeficientoch.
library(dplyr)
udaje <- read.csv2("udaje/productivity.csv",header=TRUE,sep=",",dec=".")
udaje <- udaje %>%
rename_with(~ abbreviate(.x, strict = FALSE))
model <- lm(Pr_S ~ Mn_S + E_S_+ Sc_D, data = udaje)
Objekt triedy lm() nám poskytuje niekoľko výsledkov:
print("Odhadnuté koeficienty sú: ")
## [1] "Odhadnuté koeficienty sú: "
print(model$coefficients)
## (Intercept) Mn_S E_S_ Sc_D
## -0.3777131848 0.0005257174 0.0014077969 0.0003768857
print("Odhadnuté rezíduá: ")
## [1] "Odhadnuté rezíduá: "
print(model$residuals[1:10])
## 1 2 3 4 5 6 7
## 1.8246642 1.4271346 0.2966728 -0.1528716 -0.1523898 -0.7267824 2.6106641
## 8 9 10
## -1.4134097 0.1623963 -1.8092634
print("Vyrovnané hodnoty vysvetľovanej premennej sú: ")
## [1] "Vyrovnané hodnoty vysvetľovanej premennej sú: "
print(model$fitted.values[1:10])
## 1 2 3 4 5 6 7 8
## 3.175336 3.572865 2.703327 2.152872 2.152390 3.726782 2.389336 3.413410
## 9 10
## 1.837604 2.809263
summary(model)
##
## Call:
## lm(formula = Pr_S ~ Mn_S + E_S_ + Sc_D, data = udaje)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.10432 -0.94079 -0.04562 0.97725 2.61627
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.777e-01 2.180e-02 -17.323 <2e-16 ***
## Mn_S 5.257e-04 2.804e-06 187.503 <2e-16 ***
## E_S_ 1.408e-03 3.344e-03 0.421 0.674
## Sc_D 3.769e-04 8.884e-04 0.424 0.671
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.217 on 99996 degrees of freedom
## Multiple R-squared: 0.2601, Adjusted R-squared: 0.2601
## F-statistic: 1.172e+04 on 3 and 99996 DF, p-value: < 2.2e-16
Z výsledkov vyplýva, že z mojich vybraných faktorov ma výrazný vplyv na skóre výkonu iba mesačný plat, ktorý má veľmi silný vplyv. Zaujímavým zistením je, že hocui sme predpokladali vplyv počtu chorobných dní a spokojnosti zamestnancov na výkon, táto vśkumná otázka sa nepotrvdila a ani jeden z faktorov nebol štatisticky významný.Tento výseldok môže naznačovát, že zamestnancov motivujú hlavne finančné faktory, ako plat a na ich spokojnosti a chorobnosti až tak nezáleží.