udaje <- read.csv2("dataEKONOMETRIA.csv",header=TRUE,sep=",",dec=".")
head(udaje)                                            
colnames(udaje)
[1] "Nazov"       "Kategoria"   "Forma"       "ROE"         "ROA"         "EBIT"        "EBITDAmarza" "M"           "Z"          
library(ggplot2)

# Scatter plot: vzťah medzi ROA a ROE
ggplot(udaje, aes(x = ROA, y = ROE)) +
  geom_point(color = "steelblue", size = 2) +     # typ grafu – bodový
  theme_minimal() +
  labs(
    title = "Vzťah medzi ROA a ROE",
    x = "Návratnosť aktív (ROA)",
    y = "Návratnosť vlastného kapitálu (ROE)"
  )

library(ggplot2)

ggplot(udaje, aes(x = factor(Kategoria), y = ROE)) +        # Kategoria namiesto YEARS
  geom_boxplot(fill = "lightblue", color = "darkblue") +    # typ grafu - boxplot
  labs(
    title = "ROE podľa kategórie firmy",
    x = "Kategória",
    y = "ROE (návratnosť vlastného kapitálu)"
  ) +
  theme_minimal()

library(dplyr)
library(knitr)

# Základné štatistiky ROE podľa kategórie
roe.stats <- udaje %>%
  group_by(Kategoria) %>%
  summarise(
    n      = n(),
    mean   = mean(ROE, na.rm = TRUE),
    sd     = sd(ROE, na.rm = TRUE),
    min    = min(ROE, na.rm = TRUE),
    q25    = quantile(ROE, 0.25, na.rm = TRUE),
    median = median(ROE, na.rm = TRUE),
    q75    = quantile(ROE, 0.75, na.rm = TRUE),
    max    = max(ROE, na.rm = TRUE),
    .groups = "drop"
  )

# Vygenerovanie tabuľky
kable(roe.stats, digits = 2, caption = "Základné štatistiky ukazovateľa ROE podľa kategórie firmy")
Základné štatistiky ukazovateľa ROE podľa kategórie firmy
Kategoria n mean sd min q25 median q75 max
1 4 0.10 0.79 -0.95 -0.16 0.20 0.46 0.94
2 12 0.12 0.78 -1.84 0.03 0.08 0.78 1.00
3 16 0.28 0.26 0.08 0.12 0.18 0.30 0.99
4 19 0.22 0.27 -0.11 0.08 0.13 0.26 1.00
5 2 0.11 0.03 0.10 0.10 0.11 0.12 0.13
NA
# ================== Balíčky ==================
library(dplyr)
library(knitr)
library(kableExtra)

# (ak ešte nemáš načítané dáta, odkomentuj)
# udaje <- read.csv("dataEKONOMETRIA.csv", header = TRUE, sep = ";", dec = ",",
#                   check.names = TRUE, stringsAsFactors = FALSE)

# Pomocná funkcia na výpočet štatistík
calc_stats <- function(df, group_var, value_var) {
  df %>%
    group_by({{ group_var }}) %>%
    summarise(
      n      = n(),
      mean   = mean({{ value_var }}, na.rm = TRUE),
      sd     = sd({{ value_var }}, na.rm = TRUE),
      min    = min({{ value_var }}, na.rm = TRUE),
      q25    = quantile({{ value_var }}, 0.25, na.rm = TRUE),
      median = median({{ value_var }}, na.rm = TRUE),
      q75    = quantile({{ value_var }}, 0.75, na.rm = TRUE),
      max    = max({{ value_var }}, na.rm = TRUE),
      .groups = "drop"
    )
}

# ================== 1) ROE podľa Kategoria ==================
roe_stats <- calc_stats(udaje, Kategoria, ROE)

roe_stats %>%
  kable(digits = 2, caption = "Základné štatistiky ROE podľa kategórie") %>%
  kable_styling(full_width = FALSE,
                bootstrap_options = c("striped", "hover", "condensed")) %>%
  column_spec(1, bold = TRUE) %>%
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
  add_header_above(c(" " = 2, "ROE – Štatistiky" = 7))
Základné štatistiky ROE podľa kategórie
ROE – Štatistiky
Kategoria n mean sd min q25 median q75 max
1 4 0.10 0.79 -0.95 -0.16 0.20 0.46 0.94
2 12 0.12 0.78 -1.84 0.03 0.08 0.78 1.00
3 16 0.28 0.26 0.08 0.12 0.18 0.30 0.99
4 19 0.22 0.27 -0.11 0.08 0.13 0.26 1.00
5 2 0.11 0.03 0.10 0.10 0.11 0.12 0.13

# ================== 2) ROA podľa Forma ==================
roa_stats <- calc_stats(udaje, Forma, ROA)

roa_stats %>%
  kable(digits = 2, caption = "Základné štatistiky ROA podľa formy firmy") %>%
  kable_styling(full_width = FALSE,
                bootstrap_options = c("striped", "hover", "condensed")) %>%
  column_spec(1, bold = TRUE) %>%
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
  add_header_above(c(" " = 2, "ROA – Štatistiky" = 7))
Základné štatistiky ROA podľa formy firmy
ROA – Štatistiky
Forma n mean sd min q25 median q75 max
as 17 0.07 0.08 0.00 0.01 0.04 0.09 0.26
sro 36 0.10 0.15 -0.17 0.04 0.06 0.13 0.70
# t-test: porovnanie priemerov ROE medzi dvoma formami firiem
t.test.result <- t.test(
  ROE ~ Forma,       # porovnávame ROE podľa dvoch skupín v stĺpci Forma
  data = udaje,
  var.equal = FALSE 
)

t.test.result

    Welch Two Sample t-test

data:  ROE by Forma
t = -0.0073638, df = 50.356, p-value = 0.9942
alternative hypothesis: true difference in means between group as and group sro is not equal to 0
95 percent confidence interval:
 -0.2115588  0.2100130
sample estimates:
 mean in group as mean in group sro 
        0.2027450         0.2035179 
anova.result <- aov(ROA ~ Forma, data = udaje)
summary(anova.result)
            Df Sum Sq Mean Sq F value Pr(>F)
Forma        1 0.0105 0.01047   0.594  0.444
Residuals   51 0.8985 0.01762               
# Lineárna regresia: predikcia ROE na základe ďalších ukazovateľov
model <- lm(ROE ~ ROA + EBITDAmarza + M + Z, data = udaje)
summary(model)

Call:
lm(formula = ROE ~ ROA + EBITDAmarza + M + Z, data = udaje)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.26230 -0.07712 -0.01667  0.13934  0.79777 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.001288   0.104697  -0.012 0.990238    
ROA          1.820819   0.486836   3.740 0.000491 ***
EBITDAmarza -0.485064   0.416720  -1.164 0.250176    
M            0.020364   0.014911   1.366 0.178417    
Z           -0.016741   0.039112  -0.428 0.670545    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4191 on 48 degrees of freedom
Multiple R-squared:  0.2362,    Adjusted R-squared:  0.1725 
F-statistic:  3.71 on 4 and 48 DF,  p-value: 0.01037
# --- HEATMAP (base R) ---

# vyber numerické stĺpce

num_cols <- c("ROE","ROA","EBIT","EBITDAmarza","M","Z")
stopifnot(all(num_cols %in% names(udaje)))

# ak je EBIT ako text s čiarkou/%, očisti a skonvertuj

if (!is.numeric(udaje$EBIT)) {
ebit_clean <- gsub("[^0-9,.-]", "", udaje$EBIT)
ebit_clean <- chartr(",", ".", ebit_clean)
udaje$EBIT <- suppressWarnings(as.numeric(ebit_clean))
}

# korelačná matica

cm <- cor(udaje[, num_cols], use = "pairwise.complete.obs")

# heatmap bez dodatočných balíkov

pal <- colorRampPalette(c("red","white","blue"))(100)
op <- par(mar = c(8,8,2,2))  # väčšie okraje na popisky
heatmap(cm, Rowv = NA, Colv = NA, scale = "none",
col = pal, margins = c(8,8))
par(op)


# --- stručná interpretácia priamo v R ---

upper <- which(upper.tri(cm), arr.ind = TRUE)
vals  <- cm[upper]
ord   <- order(abs(vals), decreasing = TRUE)
top_n <- min(3, length(vals))

cat("Interpretácia heatmapy korelačnej matice:\n")
Interpretácia heatmapy korelačnej matice:
for (i in seq_len(top_n)) {
r <- upper[ord[i], ]
cat(sprintf("• %s vs %s: korelácia = %.2f (%s)\n",
rownames(cm)[r[1]], colnames(cm)[r[2]],
vals[ord[i]], ifelse(vals[ord[i]]>0,"pozitívny vzťah","negatívny vzťah")))
}
• M vs Z: korelácia = 0.58 (pozitívny vzťah)
• ROE vs ROA: korelácia = 0.44 (pozitívny vzťah)
• ROA vs EBITDAmarza: korelácia = 0.37 (pozitívny vzťah)
cat("Hodnoty blízke +1 = silná pozitívna závislosť, blízke -1 = silná negatívna,\n",
"blízko 0 = slabý/žiadny lineárny vzťah. Silné korelácie sleduj pre možnú multikolinearitu v regresii.\n")
Hodnoty blízke +1 = silná pozitívna závislosť, blízke -1 = silná negatívna,
 blízko 0 = slabý/žiadny lineárny vzťah. Silné korelácie sleduj pre možnú multikolinearitu v regresii.
library(ggplot2)
library(dplyr)

# (jemné čistenie EBIT, ak by bol text s čiarkou)
if (!is.numeric(udaje$EBIT)) {
  ebit_clean <- gsub("[^0-9,.-]", "", udaje$EBIT)
  ebit_clean <- chartr(",", ".", ebit_clean)
  udaje$EBIT <- suppressWarnings(as.numeric(ebit_clean))
}

# TOP 5 firiem podľa ROE na popisky
top5 <- udaje %>% arrange(desc(ROE)) %>% slice_head(n = 5)

ggplot(udaje, aes(x = ROA, y = ROE)) +
  # hustotné kontúry (kde je najviac bodov)
  stat_density_2d(aes(z = ..level..), geom = "polygon", alpha = 0.15) +
  # bubliny – veľkosť podľa EBITDA marže, farba podľa formy
  geom_point(aes(size = EBITDAmarza, color = Forma), alpha = 0.7) +
  # regresná čiara
  geom_smooth(method = "lm", se = FALSE, linewidth = 0.9) +
  # popisky pre top 5 podľa ROE
  geom_text(data = top5, aes(label = Nazov), vjust = -0.7, size = 3) +
  scale_size_continuous(name = "EBITDA marža") +
  theme_minimal() +
  labs(
    title = "ROA vs ROE – bubliny (EBITDA marža), farba podľa formy, hustotné kontúry",
    x = "ROA",
    y = "ROE",
    color = "Forma"
  )

cor_roa_roe <- cor(udaje$ROA, udaje$ROE, use = "pairwise.complete.obs")
cat(sprintf("Korelácia ROA–ROE = %.2f. Väčšie bubliny = vyššia EBITDA marža. 
Kontúry ukazujú oblasti s najväčšou koncentráciou firiem.\n", cor_roa_roe))
Korelácia ROA–ROE = 0.44. Väčšie bubliny = vyššia EBITDA marža. 
Kontúry ukazujú oblasti s najväčšou koncentráciou firiem.
library(ggplot2)
library(dplyr)
library(tidyr)

# Prepočítame priemerný počet mužov a žien vo vedení podľa formy
gender_stats <- udaje %>%
  group_by(Forma) %>%
  summarise(
    Priemerny_pocet_muzov = mean(M, na.rm = TRUE),
    Priemerny_pocet_zien = mean(Z, na.rm = TRUE)
  ) %>%
  pivot_longer(cols = c(Priemerny_pocet_muzov, Priemerny_pocet_zien),
               names_to = "Pohlavie",
               values_to = "Priemerny_pocet")

# Prehľadný grouped barplot
ggplot(gender_stats, aes(x = Forma, y = Priemerny_pocet, fill = Pohlavie)) +
  geom_bar(stat = "identity", position = "dodge") +
  geom_text(aes(label = round(Priemerny_pocet, 1)),
            position = position_dodge(0.9), vjust = -0.3, size = 3) +
  scale_fill_manual(values = c("#4575b4", "#d73027"),
                    labels = c("Muži", "Ženy")) +
  theme_minimal() +
  labs(
    title = "Priemerný počet mužov a žien vo vedení podľa formy firmy",
    x = "Forma firmy",
    y = "Priemerný počet osôb",
    fill = "Pohlavie"
  )

ggplot(udaje, aes(x = M, y = Z, color = Forma)) +
  geom_point(size = 3, alpha = 0.7) +
  geom_smooth(method = "lm", se = FALSE, linewidth = 0.8) +
  theme_minimal() +
  labs(
    title = "Vzťah medzi počtom mužov a žien vo vedení",
    x = "Počet mužov vo vedení (M)",
    y = "Počet žien vo vedení (Z)",
    color = "Forma firmy"
  )

gender_summary <- udaje %>%
  group_by(Forma) %>%
  summarise(
    muzi = mean(M, na.rm = TRUE),
    zeny = mean(Z, na.rm = TRUE)
  )

cat("Interpretácia:\n")
Interpretácia:
apply(gender_summary, 1, function(r) {
  cat(sprintf("• Forma %s: priemerný počet mužov vo vedení = %.1f, žien = %.1f\n",
              r["Forma"], as.numeric(r["muzi"]), as.numeric(r["zeny"])))
})
• Forma as: priemerný počet mužov vo vedení = 11.2, žien = 2.9
• Forma sro: priemerný počet mužov vo vedení = 3.5, žien = 1.1
NULL
cat("Z grafov vidno, že formy s.r.o. majú spravidla viac mužov ako žien vo vedení,
kým pri a.s. je podiel žien o niečo vyšší, ale stále v menšine.
Scatter graf ukazuje, že s rastúcim počtom mužov sa obvykle zvyšuje aj počet žien vo vedení,
čo naznačuje, že väčšie firmy majú celkovo väčšie manažérske tímy a väčšiu diverzitu.\n")
Z grafov vidno, že formy s.r.o. majú spravidla viac mužov ako žien vo vedení,
kým pri a.s. je podiel žien o niečo vyšší, ale stále v menšine.
Scatter graf ukazuje, že s rastúcim počtom mužov sa obvykle zvyšuje aj počet žien vo vedení,
čo naznačuje, že väčšie firmy majú celkovo väčšie manažérske tímy a väčšiu diverzitu.
