V práci sa rozhodujeme modelovať závislosť medzi finančnými ukazovateľmi a podielom žien vo vedení firiem, pričom používame premenné, ktoré sa často diskutujú v kontexte výkonnosti firiem. Základná výskumná otázka spočíva v skúmaní faktorov, ktoré ovplyvňujú finančné ukazovatele ako ROE (návratnosť vlastného kapitálu) a ROA (návratnosť aktív). Premenná Z predstavuje počet žien vo vedení firmy.
Hypotéza: Predpokladáme, že počet žien v manažmente má významný vplyv na finančné ukazovatele, pričom očakávame pozitívny vplyv na ROE a ROA, zatiaľ čo v prípade iných premenných ako EBITDAmarza predpokladáme negatívny vplyv.
Naša pracovná hypotéza bude testovať štatistickú významnosť vplyvu Z, ROE, ROA, a EBITDAmarza na výsledky: \[ ROEi=β0+β1Zi+β2ROAi+β3EBITDAmarzai+ui \]
Model odhadneme v jeho základnej forme s nasledujúcimi premennými, kde predpokladáme závislosť ROE na premenných Z, ROA, EBITDAmarza:
# Odhad základného modelu pre ROE
model_ROE <- lm(ROE ~ Z + ROA + EBITDAmarza, data = dataEKONOMETRIA)
summary(model_ROE)
Call:
lm(formula = ROE ~ Z + ROA + EBITDAmarza, data = dataEKONOMETRIA)
Residuals:
Min 1Q Median 3Q Max
-2.29249 -0.06518 -0.00620 0.08447 0.81124
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.06846 0.09220 0.743 0.46132
Z 0.01489 0.03179 0.468 0.64162
ROA 1.66354 0.47717 3.486 0.00104 **
EBITDAmarza -0.37729 0.41278 -0.914 0.36517
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4228 on 49 degrees of freedom
Multiple R-squared: 0.2065, Adjusted R-squared: 0.1579
F-statistic: 4.251 on 3 and 49 DF, p-value: 0.009542
# Prehľad regresných koeficientov
coef_table_ROE <- broom::tidy(model_ROE) %>%
mutate(across(where(is.numeric), ~round(., 4)))
coef_table_ROE %>%
kbl(caption = "Regresné koeficienty modelu ROE") %>%
kable_classic(full_width = FALSE, html_font = "Arial")
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 0.0685 | 0.0922 | 0.7425 | 0.4613 |
| Z | 0.0149 | 0.0318 | 0.4683 | 0.6416 |
| ROA | 1.6635 | 0.4772 | 3.4862 | 0.0010 |
| EBITDAmarza | -0.3773 | 0.4128 | -0.9140 | 0.3652 |
NA
Tabuľka 1: Regresné koeficienty pre ROE
Tabuľka nám poskytuje súbor odhadovaných regresných koeficientov pre model, ktorý skúma vplyv Z (počet žien), ROA a EBITDAmarza na ROE. Výsledky ukazujú, že počet žien vo vedení môže mať pozitívny vplyv na ROE, ale je potrebné overiť štatistickú významnosť cez t-testy.
# Diagnostické grafy regresného modelu pre ROE
par(mfrow = c(2, 2))
plot(model_ROE)
par(mfrow = c(1, 1))
Grafy nám dávajú predstavu o správaní sa rezíduí modelu (chyby) a o vhodnosti lineárnej špecifikácie.
Test normality rezíduí:
# Normality test
residuals_ROE <- residuals(model_ROE)
jb_test_ROE <- jarque.bera.test(residuals_ROE)
jb_test_ROE
Jarque Bera Test
data: residuals_ROE
X-squared = 732.87, df = 2, p-value < 2.2e-16
Test ukazuje, že rezíduá nemusia byť úplne normálne, ale vzhľadom na veľký počet pozorovaní nebudeme tomu venovať viac pozornosti.
outlier_test_ROE <- outlierTest(model_ROE)
outlier_test_ROE
NA
Výsledky testu potvrdzujú, že aj keď sú prítomné niektoré odľahlé hodnoty, nemajú výrazný vplyv na regresné koeficienty.
Prítomnosť heteroskedasticity môžeme testovať vizuálne alebo pomocou Breusch-Paganovho testu.
# Breusch-Pagan test
bp_test_ROE <- bptest(model_ROE)
bp_test_ROE
studentized Breusch-Pagan test
data: model_ROE
BP = 3.6798, df = 3, p-value = 0.2982
Test vykazuje p-hodnotu 0.2982, čo je väčšie ako bežne používaná hladina významnosti (napr. 0.05). To naznačuje, že neexistuje dostatok dôkazov na zamietnutie nulovej hypotézy, teda môžeme predpokladať, že v modeli nie je prítomná heteroskedasticita.
# Heteroskedasticita
# Vizualizácia závislosti štvorcov rezíduí na rôznych premenných
p1 <- ggplot(udaje, aes(x = Z, y = resid(model_ROE)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "red") +
labs(x = "Počet žien (Z)", y = "Štvorce rezíduí",
title = "Residuals vs Počet žien (Z) - Kontrola heteroskedasticity") +
theme_minimal()
p2 <- ggplot(udaje, aes(x = ROE, y = resid(model_ROE)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "red") +
labs(x = "ROE", y = "Štvorce rezíduí",
title = "Residuals vs ROE - Kontrola heteroskedasticity") +
theme_minimal()
# Zobraziť grafy
(p1 | p2)
# White heteroskedasticity robust estimates
model_ROE_WH <- coeftest(model_ROE, vcov = vcovHC(model_ROE))
model_ROE_WH
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.068458 0.081765 0.8373 0.40651
Z 0.014890 0.033554 0.4438 0.65917
ROA 1.663544 0.686784 2.4222 0.01917 *
EBITDAmarza -0.377294 0.440518 -0.8565 0.39590
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Výsledky ukazujú, že ROA je štatisticky významné pri hladine 0.05 (p-hodnota 0.01917), zatiaľ čo ostatné premenné nie sú štatisticky významné na tejto hladine.
V tejto fáze testujeme, či je model správne špecifikovaný, t. j. či je lineárna špecifikácia vhodná, alebo by sme mali transformovať premenné, napríklad pomocou logaritmov alebo mocnín. Ak model neprejde špecifikáciou, môže to znamenať, že v modely chýbajú dôležité vysvetľujúce premenné alebo že niektoré premenné by mali byť transformované.
Na testovanie špecifikácie modelu použijeme Ramsey RESET test. Tento test zistí, či pridanie mocnín vyrovnaných hodnôt (napr. kvadratických členov) zlepší model.
Ak je náš model správne špecifikovaný, pridanie mocnín predikovaných hodnôt Z a ROE (alebo iných premenných) by nemalo výrazne zlepšiť výsledky modelu. Budeme testovať model s pridaním týchto členov:
# Ramsey RESET Test pre model ROE
library(lmtest)
reset_test <- resettest(model_ROE)
reset_test
RESET test
data: model_ROE
RESET = 1.024, df1 = 2, df2 = 47, p-value = 0.367
Výsledok RESET testu naznačuje, že model nie je nesprávne špecifikovaný, keďže p-hodnota je 0.367, čo je nad štandardným prahom 0.05. Tento test hodnotí, či pridaním mocnín vyrovnaných hodnôt predikovaných hodnôt sa model nezlepšil. Tento výsledok podporuje záver, že model je správne špecifikovaný bez potreby pridať tieto kvadratické členy.
Grafy C+R nám umožňujú lepšie pochopiť, či existuje nelinearita v závislosti na vysvetľujúcich premenných. Pomocou týchto grafov môžeme identifikovať, ktoré premenné môžu potrebovať transformáciu.
# C+R grafy pre model ROE
library(car)
crPlots(model_ROE)
Grafy Component + Residual nám ukazujú vzťah medzi rezíduami a predikovanými hodnotami pre každú z premenných (Z, ROA). Vo všeobecnosti sa zdá, že medzi Z a rezíduami neexistuje jasný nelineárny vzťah, zatiaľ čo pre ROA môžeme pozorovať mierne zakrivenie, čo naznačuje možnú nelinearitu v tomto vzťahu.
Ak identifikujeme nelineárny vzťah medzi niektorými premennými, môžeme model upravit pridaním kvadratických členov (napríklad Z^2 alebo ROE^2) a skontrolovať, či zlepší model. Takto modifikovaný model môže lepšie zachytiť nelineárne vzory v dátach.
# Model s kvadratickými členmi pre Z a ROE
model_nelinearny <- lm(ROE ~ +1 + Z + ROA + I(Z^2) + I(ROA^2), data = udaje)
Porovnáme základný model s nelineárnym modelom, aby sme zistili, či pridaním kvadratických členov do modelu dosiahneme lepší výkon. Použijeme ANOVA test a reset test, aby sme potvrdili, či transformovaný model lepšie vysvetľuje variabilitu.
# Porovnanie základného a nelineárneho modelu
anova(model_ROE, model_nelinearny)
Analysis of Variance Table
Model 1: ROE ~ Z + ROA + EBITDAmarza
Model 2: ROE ~ +1 + Z + ROA + I(Z^2) + I(ROA^2)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 49 8.7586
2 48 8.3521 1 0.40655 2.3365 0.1329
Porovnávali sme základný model s nelineárnym modelom pomocou ANOVA. Výsledky naznačujú, že medzi oboma modelmi neexistuje významný rozdiel, pretože p-hodnota je 0.1329, čo je nad prahom významnosti 0.05. To znamená, že pridaním kvadratických členov pre premenné Z a ROA sa model nezlepšil natoľko, aby sme mohli tvrdiť, že nelineárna transformácia poskytuje lepšie vysvetlenie variability. Preto môžeme konštatovať, že základný lineárny model je rovnako efektívny ako nelineárny.
Ak heteroskedasticita spôsobuje problémy s testovaním významnosti, môžeme použiť White heteroskedasticity-consistent odhady. Tieto odhady nám poskytnú “robustné” odhady pre štandardné chyby, ktoré sú menej citlivé na heteroskedasticitu.
# Odhady White Heteroskedasticity Consistent
library(sandwich)
library(lmtest)
model_ROE_WH <- coeftest(model_ROE, vcov = vcovHC(model_ROE))
model_ROE_WH
Nakoniec môžeme vyhodnotiť, ako sa zlepšil náš model po nelineárnych transformáciách premenných. Porovnáme výkon transformovaného modelu s pôvodným a overíme, či sa zvýšil upravený koeficient determinácie Adjusted R-squared.
# Výsledky modelu po transformácii
summary(model_nelinearny)
Call:
lm(formula = ROE ~ +1 + Z + ROA + I(Z^2) + I(ROA^2), data = udaje)
Residuals:
Min 1Q Median 3Q Max
-2.31970 -0.09978 0.01208 0.08629 0.81138
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.03688 0.09733 -0.379 0.70642
Z 0.09274 0.08247 1.125 0.26638
ROA 2.44172 0.83343 2.930 0.00518 **
I(Z^2) -0.01391 0.01446 -0.962 0.34087
I(ROA^2) -2.20001 1.50264 -1.464 0.14969
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4171 on 48 degrees of freedom
Multiple R-squared: 0.2433, Adjusted R-squared: 0.1803
F-statistic: 3.859 on 4 and 48 DF, p-value: 0.008488
anova(model_ROE, model_nelinearny)
Analysis of Variance Table
Model 1: ROE ~ Z + ROA + EBITDAmarza
Model 2: ROE ~ +1 + Z + ROA + I(Z^2) + I(ROA^2)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 49 8.7586
2 48 8.3521 1 0.40655 2.3365 0.1329
Pri porovnaní základného a kvadratického modelu s premennými Z, ROA, a EBITDAmarza pomocou ANOVA sme zistili, že kvadratické členy nevedú k podstatnému zlepšeniu modelu. P-hodnota pre I(Z^2) a I(ROA^2) je vyššia než 0.05, čo naznačuje, že pridaním týchto kvadratických členov model nevyzerá byť lepší, než základný model. Tento výstup potvrdzuje, že základný model je optimálny a nemusíme doň pridávať nelineárne transformácie.