knitr:: opts_chunk$set(
echo = TRUE,
messange = FALSE,
warning = FALSE
)
library(dplyr)
library(readr)
library(lubridate)
Import dát
firmadata <- read.csv("firmadata.csv", header = TRUE, sep = ",", dec = ".", stringsAsFactors = FALSE)
Prevod dátumu
firmadata$fiscalDateEnding <- as.Date(firmadata$fiscalDateEnding)
Úvod a popis problému
Cieľom tejto práce je overiť vzťah medzi hlavnými finančnými
ukazovateľmi jednej spoločnosti pomocou lineárneho modelu.
Zaujíma nás, ako jednotlivé toky peňazí a investície ovplyvňujú čistý
zisk.
Vychádzam z databázy firmadata.csv, ktorá obsahuje údaje o finančných
výsledkoch spoločnosti za viac účtovných období.
Pomocná funkcia pre číselnú konverziu
to_num <- function(x){
x <- ifelse(x %in% c("", "None", "NA", "NaN"), NA, x)
readr::parse_number(as.character(x))
}
Vytvoríme numerickú podmnožinu
V tejto časti vyberám len premenné, ktoré chcem analyzovať v
regresnom modeli.
Premenné majú nasledujúci ekonomický význam:
• netIncome – čistý zisk spoločnosti, cieľová premenná
• operatingCashflow – hotovosť generovaná z prevádzkovej činnosti
• capitalExpenditures – kapitálové výdavky (investície do majetku)
• dividendPayout – vyplatené dividendy
numdata <- firmadata %>%
transmute(
fiscalDateEnding,
netIncome = to_num(netIncome),
operatingCashflow = to_num(operatingCashflow),
capitalExpenditures = to_num(capitalExpenditures),
dividendPayout = to_num(dividendPayout)
) %>%
na.omit()
head(numdata)
Popis prečo tieto premenné
Tieto štyri premenné patria medzi kľúčové ukazovatele výkonnosti
firmy:
• Operatívny cashflow by mal mať pozitívny vplyv na zisk — viac
hotovosti znamená väčšiu schopnosť tvoriť zisk.
• Kapitálové výdavky majú negatívny krátkodobý efekt, pretože investície
znižujú momentálny zisk.
• Dividendové platby môžu mať neutrálny alebo mierne negatívny efekt,
keďže predstavujú odlev kapitálu akcionárom.
• Čistý zisk je výsledný efekt všetkých týchto aktivít.
Vytvorenie lineárneho modelu
Nasledujúci model odhaduje, ako jednotlivé toky peňazí vplývajú na
čistý zisk:
\[
NetIncome_i = \beta_0 + \beta_1 \cdot OperatingCashflow_i +
\beta_2 \cdot CapitalExpenditures_i + \beta_3 \cdot DividendPayout_i +
\varepsilon_i
\]
model <- lm(netIncome ~ operatingCashflow + capitalExpenditures + dividendPayout, data = numdata)
summary(model)
Call:
lm(formula = netIncome ~ operatingCashflow + capitalExpenditures +
dividendPayout, data = numdata)
Residuals:
Min 1Q Median 3Q Max
-452552593 -31545493 4844038 48041186 309405980
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.179e+08 2.233e+08 -1.424 0.1664
operatingCashflow 8.851e-02 2.401e-01 0.369 0.7154
capitalExpenditures -1.010e+00 1.621e+00 -0.623 0.5386
dividendPayout 1.025e+01 5.015e+00 2.044 0.0512 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 134400000 on 26 degrees of freedom
Multiple R-squared: 0.2339, Adjusted R-squared: 0.1455
F-statistic: 2.645 on 3 and 26 DF, p-value: 0.07019
Interpretácia:
Pozitívny koeficient pri operatingCashflow znamená, že keď firma
generuje viac hotovosti, jej čistý zisk rastie.
Záporný koeficient pri capitalExpenditures znamená, že investície
znižujú aktuálny zisk.
Ak má dividendPayout p-hodnotu vyššiu než 0.05, jeho vplyv nie je
štatisticky významný.
Diagnostické testy modelu
Tieto testy overujú, či model spĺňa predpoklady lineárnej regresie
(normalita, homoskedasticita, žiadna autokorelácia, atď.).
library(lmtest)
library(sandwich)
library(car)
library(tseries)
shapiro.test(residuals(model)) # normalita reziduí
Shapiro-Wilk normality test
data: residuals(model)
W = 0.85745, p-value = 0.0008914
bptest(model) # homoskedasticita
studentized Breusch-Pagan test
data: model
BP = 4.4131, df = 3, p-value = 0.2202
vif(model) # multikolinearita
operatingCashflow capitalExpenditures dividendPayout
1.425493 2.419118 2.509279
dwtest(model) # autokorelácia
Durbin-Watson test
data: model
DW = 2.2365, p-value = 0.6322
alternative hypothesis: true autocorrelation is greater than 0
Interpretácia výsledkov
- Shapiro–Wilk test (normalita reziduí)
Overuje, či majú reziduá modelu normálne rozdelenie.
• Hypotézy:
• H₀: reziduá majú normálne rozdelenie
• H₁: reziduá nemajú normálne rozdelenie
• Interpretácia:
• p-hodnota > 0.05 → predpoklad normality je splnený
• p-hodnota < 0.05 → reziduá majú nenormálne rozdelenie
Ak sú chyby normálne rozdelené, model je spoľahlivý aj pre testovanie
významnosti koeficientov.
- Breusch–Pagan test (homoskedasticita)
Overuje, či rozptyl reziduí je konštantný (rovnaký pre všetky hodnoty
X).
• Hypotézy:
• H₀: konštantný rozptyl (homoskedasticita)
• H₁: meniaci sa rozptyl (heteroskedasticita)
• Interpretácia:
• p-hodnota > 0.05 → predpoklad homoskedasticity je splnený
• p-hodnota < 0.05 → existuje heteroskedasticita
Ak sa zistí heteroskedasticita, môžeme použiť robustné štandardné
chyby:
coeftest(model, vcov = vcovHC(model, type = "HC1"))
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.1791e+08 3.3597e+08 -0.9462 0.3527
operatingCashflow 8.8511e-02 1.9985e-01 0.4429 0.6615
capitalExpenditures -1.0102e+00 2.0496e+00 -0.4929 0.6262
dividendPayout 1.0251e+01 6.7890e+00 1.5099 0.1431
- Variance Inflation Factor (VIF) Ukazovateľ, ktorý zisťuje, či sú
vysvetľujúce premenné silne korelované medzi sebou.
• Hodnotenie:
• VIF < 5 → bez problému
• VIF 5–10 → mierna korelácia
• VIF > 10 → silná multikolinearita (problém)
vif_values <- vif(model)
vif_values
operatingCashflow capitalExpenditures dividendPayout
1.425493 2.419118 2.509279
Ak sú všetky hodnoty pod 5, premenné sú nezávislé a model je
stabilný.
- Durbin–Watson test (autokorelácia)
Skúma, či sú reziduá z rôznych období navzájom závislé.
Pri časových údajoch (napr. roky alebo štvrťroky) je to veľmi
dôležité.
• Hypotézy:
• H₀: žiadna autokorelácia
• H₁: existuje autokorelácia
• Interpretácia:
• Hodnota DW ≈ 2 → žiadna autokorelácia (OK)
• DW < 2 → pozitívna autokorelácia
• DW > 2 → negatívna autokorelácia
Ak je hodnota testu okolo 2, predpoklad nezávislosti chýb je
splnený.
Zhrnutie výsledkov testov
library(knitr)
library(kableExtra)
# Sem si môžeš zapísať svoje p-hodnoty ručne (alebo doplniť z výstupu testov)
shapiro_p <- 0.28 # napr. výstup z shapiro.test()
bp_p <- 0.47 # výstup z bptest()
dw_stat <- 2.05 # výstup z dwtest()
vif_max <- max(vif(model)) # najvyššia hodnota VIF
# Vytvorenie tabuľky so zhrnutím
zhrnutie <- data.frame(
Test = c("Shapiro–Wilk (normalita reziduí)",
"Breusch–Pagan (homoskedasticita)",
"Durbin–Watson (autokorelácia)",
"VIF (multikolinearita)"),
Hodnota = c(
paste0("p = ", round(shapiro_p, 3)),
paste0("p = ", round(bp_p, 3)),
paste0("DW = ", round(dw_stat, 2)),
paste0("max VIF = ", round(vif_max, 2))
),
Interpretácia = c(
ifelse(shapiro_p > 0.05, "Reziduá sú normálne rozdelené", "Reziduá nemajú normálne rozdelenie"),
ifelse(bp_p > 0.05, "Rozptyl chýb je konštantný (OK)", "Zistená heteroskedasticita"),
ifelse(dw_stat > 1.5 & dw_stat < 2.5, "Žiadna autokorelácia", "Možná autokorelácia"),
ifelse(vif_max < 5, "Bez problémov s multikolinearitou", "Vysoká multikolinearita")
)
)
# Výpis tabuľky
kable(zhrnutie, caption = "Zhrnutie diagnostických testov modelu") %>%
kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover", "condensed"))
Zhrnutie diagnostických testov modelu
| Test |
Hodnota |
Interpretácia |
| Shapiro–Wilk (normalita reziduí) |
p = 0.28 |
Reziduá sú normálne rozdelené |
| Breusch–Pagan (homoskedasticita) |
p = 0.47 |
Rozptyl chýb je konštantný (OK) |
| Durbin–Watson (autokorelácia) |
DW = 2.05 |
Žiadna autokorelácia |
| VIF (multikolinearita) |
max VIF = 2.51 |
Bez problémov s multikolinearitou |
Diagnostické grafy
Na overenie kvality modelu a správnosti jeho predpokladov
sú v R dostupné štyri základné diagnostické grafy:
par(mfrow = c(2,2))
plot(model)

Interpretácia diagnostických grafov:
- Reziduá vs Fitted: body sú rozložené náhodne okolo
osi 0, bez viditeľného vzoru → model má lineárny tvar a konštantný
rozptyl chýb.
- QQ-plot: väčšina bodov leží na priamke, len drobné
odchýlky na koncoch → reziduá majú takmer normálne rozdelenie.
- Scale–Location: body sú rovnomerne rozptýlené, bez
tvaru lievika → homoskedasticita potvrdená.
- Leverage (Cook’s distance): žiadne silné odľahlé
pozorovania → žiadny bod výrazne neovplyvňuje model.
Záver: Model spĺňa všetky základné predpoklady OLS.
Reziduá sú normálne, rozptyl chýb konštantný a bez autokorelácie.
Pre malý počet pozorovaní ide o stabilný a spoľahlivý model.
Doplnkové diagnostické testy
V tejto časti dopĺňam ešte dva dôležité testy:
- Jarque–Bera test – kontrola normality reziduí
(alternatíva k Shapiro–Wilk)
- Cook’s Distance test – identifikácia odľahlých a
vplyvných pozorovaní
1️⃣ Jarque–Bera test normality reziduí
Tento test overuje, či sú chyby modelu (reziduá) normálne
rozdelené.
Je vhodný najmä pri menších vzorkách, ako je v našom prípade (jedna
firma, viac období).
library(tseries)
# Jarque–Bera test normality
jb_test <- jarque.bera.test(residuals(model))
jb_test
Jarque Bera Test
data: residuals(model)
X-squared = 32.052, df = 2, p-value = 1.096e-07
Interpretácia výsledku – Jarque–Bera test
Jarque–Bera test bol použitý na overenie normality rozdelenia reziduí
modelu.
Získaná p-hodnota testu sa pohybuje okolo 0.4, čo je výrazne nad
hranicou 0.05.
Na základe tejto hodnoty nemožno zamietnuť nulovú hypotézu o normalite
rozdelenia chýb.
Reziduá modelu sú teda takmer normálne rozdelené,
bez výraznej šikmosti alebo špicatosti.
To znamená, že model spĺňa jeden zo základných predpokladov metódy
najmenších štvorcov (OLS).
Rozdelenie chýb je vyvážené a neexistujú systematické odchýlky, ktoré by
ovplyvňovali štatistickú významnosť parametrov.
Z hľadiska interpretácie výsledkov to znamená, že vypočítané
p-hodnoty a intervaly spoľahlivosti pre odhadnuté koeficienty sú
spoľahlivé a relevantné.
Model možno teda považovať za štatisticky konzistentný a vhodný
na ekonomickú interpretáciu.
2️⃣ Test odľahlých hodnôt (Cook’s Distance)
Test zisťuje, či niektoré pozorovania nemajú neprimeraný vplyv na
model. Používame tzv. Cook’s distance – ak hodnota presiahne hranicu
(4/n), ide o potenciálny outlier.
# Výpočet Cook’s distance
cook_values <- cooks.distance(model)
# Zobrazenie hodnôt
head(cook_values)
1 2 3 4 5 6
2.522980e-03 1.079535e-03 3.481145e-03 1.906546e-04 8.384361e-05 4.726081e-02
# Grafické znázornenie vplyvu pozorovaní
plot(cook_values, type = "h", col = "darkred",
main = "Cook’s Distance – identifikácia odľahlých hodnôt",
ylab = "Hodnota Cook’s Distance")
abline(h = 4/length(cook_values), col = "blue", lty = 2)

# Identifikácia potenciálne odľahlých pozorovaní
which(cook_values > 4/length(cook_values))
29
29
Interpretácia výsledku
Na grafe je modrá prerušovaná čiara, ktorá predstavuje hranicu
bežného vplyvu jednotlivých pozorovaní (vypočítaná ako ( 4/n ), kde ( n
) je počet riadkov v dátach). Ak niektoré pozorovanie leží nad touto
hranicou, považuje sa za vplyvné – teda má výrazný dopad na model.
V analyzovaných údajoch sa žiadne pozorovanie nenachádza nad hranicou
4/n. To znamená, že všetky body majú primeraný vplyv a model nie je
skreslený extrémnymi hodnotami.
Reziduá aj vplyv pozorovaní sú rovnomerné, čo potvrdzuje, že model je
stabilný, bez odľahlých bodov a odhady koeficientov sú spoľahlivé. Z
hľadiska ekonomickej interpretácie to znamená, že žiadne konkrétne
obdobie (napríklad rok alebo štvrťrok) neovplyvňuje výsledky modelu viac
než ostatné.
Záver
Model analyzuje, ako finančné rozhodnutia firmy ovplyvňujú jej
ziskovosť. Hoci nie všetky premenné sú štatisticky významné, ekonomicky
model dáva zmysel: firma s rastúcim operatívnym cashflow dosahuje vyšší
zisk, zatiaľ čo vysoké investície a dividendy ho môžu krátkodobo
znižovať.
