knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)

Výskumné otázky

Uvažujeme lineárny regresný model, v ktorom vysvetľujeme hodnotu Performance Score (skóre výkonu zamestnanca) pomocou mesačného platu, skóre spokojnosti zamestnanca a počtu chorobných dní (sick days). Model má tvar:

\[Pr\_S_i = \beta_0 + \beta_1 Mn\_S_i + \beta_2 E\_S\__i + \beta_3 Sc\_D_i + \varepsilon_i\] Predpokladáme, že mesačný plat bude mať na výkon zamestnanca pozitívny vplyv \((\beta_1>0)\), keďže plat môže pôsobiť ako motivátor pre lepší výkon zamestnanca. Takisto predpokladáme, že skóre spokojnosti zamestnanca bude mať pozitívny vplyv na výkon zamestnanca \((\beta_2>0)\), keďže sa očakáva, že spokojný zamestnanec je výkonný zamestnanec. Naopak, pri počte chorobných dní očakávme negatívny vplyv \((\beta_3<0)\), pretože zvýšený počet chorobných dní a absencií môže narušiť kontinuitu práce alebo indikovať zníženú motiváciu u zamestnanca. Vybrala som tieto 3 premenné, pretože pokrývajú 3 rôzne faktory, ktoré môžu vplývať na výkon zamestnanca - peniaze (mesačný príjem), psychická pohoda (spokojnosť zamestnanca) a zdravie (počet chorobných dní).

Tieto predpoklady budeme empiricky testovať pomocou štatistických hypotéz o jednotlivých regresných koeficientoch.

Nadčítanie údajov a model

library(dplyr)
udaje <- read.csv2("udaje/productivity.csv",header=TRUE,sep=",",dec=".")
udaje <- udaje %>%
  rename_with(~ abbreviate(.x, strict = FALSE))
model <- lm(Pr_S ~ Mn_S + E_S_+ Sc_D, data = udaje)

Sumárne výsledky regresie

Objekt triedy lm() nám poskytuje niekoľko výsledkov:

  • Vector odhadnutých koeficientov model$coefficients
  • Vektor rezíduí model$ residuals
  • Vektor vyrovnaných hodnôt vysvetľovanej veličiny model$fitted.values
  • Maticu X model$x
print("Odhadnuté koeficienty sú: ")
## [1] "Odhadnuté koeficienty sú: "
print(model$coefficients)
##   (Intercept)          Mn_S          E_S_          Sc_D 
## -0.3777131848  0.0005257174  0.0014077969  0.0003768857
print("Odhadnuté rezíduá: ")
## [1] "Odhadnuté rezíduá: "
print(model$residuals[1:10])
##          1          2          3          4          5          6          7 
##  1.8246642  1.4271346  0.2966728 -0.1528716 -0.1523898 -0.7267824  2.6106641 
##          8          9         10 
## -1.4134097  0.1623963 -1.8092634
print("Vyrovnané hodnoty vysvetľovanej premennej sú: ")
## [1] "Vyrovnané hodnoty vysvetľovanej premennej sú: "
print(model$fitted.values[1:10])
##        1        2        3        4        5        6        7        8 
## 3.175336 3.572865 2.703327 2.152872 2.152390 3.726782 2.389336 3.413410 
##        9       10 
## 1.837604 2.809263
summary(model)
## 
## Call:
## lm(formula = Pr_S ~ Mn_S + E_S_ + Sc_D, data = udaje)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.10432 -0.94079 -0.04562  0.97725  2.61627 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -3.777e-01  2.180e-02 -17.323   <2e-16 ***
## Mn_S         5.257e-04  2.804e-06 187.503   <2e-16 ***
## E_S_         1.408e-03  3.344e-03   0.421    0.674    
## Sc_D         3.769e-04  8.884e-04   0.424    0.671    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.217 on 99996 degrees of freedom
## Multiple R-squared:  0.2601, Adjusted R-squared:  0.2601 
## F-statistic: 1.172e+04 on 3 and 99996 DF,  p-value: < 2.2e-16

Z výsledkov vyplýva, že z mojich vybraných faktorov ma výrazný vplyv na skóre výkonu iba mesačný plat, ktorý má veľmi silný vplyv. Zaujímavým zistením je, že hocui sme predpokladali vplyv počtu chorobných dní a spokojnosti zamestnancov na výkon, táto vśkumná otázka sa nepotrvdila a ani jeden z faktorov nebol štatisticky významný.Tento výseldok môže naznačovát, že zamestnancov motivujú hlavne finančné faktory, ako plat a na ich spokojnosti a chorobnosti až tak nezáleží.