Úvod

Tento dokument načíta súbor data_ekonometria.csv (oddelený bodkočiarkou) a spraví základné čistenie. Následne porovná dve najpočetnejšie skupiny podľa premennej Spoločnosť (môžeš zmeniť na Žáner), vykreslí grafy, spočíta tabuľku so štatistikami, otestuje hypotézy a odhadne lineárny model.

Nastavenie

library(dplyr)
library(tidyr)
library(ggplot2)
library(readr)
library(stringr)
library(scales)
library(knitr)
library(broom)
library(kableExtra)

options(knitr.kable.NA = "")

Načítanie a čistenie dát

# Cesta k CSV
path <- "data_ekonometria.csv"

# Európske CSV s bodkočiarkou, UTF-8
df_raw <- read.csv2(path, sep = ";", fileEncoding = "UTF-8", encoding = "UTF-8", stringsAsFactors = FALSE)


# --- Očistenie názvov stĺpcov (rozšírené) ---
# zjednotenie medzier, trimming, fix znakov
names(df_raw) <- gsub("\\s+", " ", names(df_raw))
names(df_raw) <- trimws(names(df_raw))
names(df_raw) <- iconv(names(df_raw), from = "UTF-8", to = "UTF-8")

# Pomocná funkcia na premenovanie podľa vzoru (prvý jednoznačný match)
rename_if_present <- function(cols, pattern, new_name) {
  idx <- which(grepl(pattern, cols, ignore.case = TRUE, perl = TRUE))
  if (length(idx) == 1) cols[idx] <- new_name
  cols
}

nms <- names(df_raw)
# IMDb
nms <- rename_if_present(nms, "(?i)\\bimdb\\b", "IMDb hodnotenie")
# Dĺžka (min) – toleruj diakritiku a/alebo len (min)
nms <- rename_if_present(nms, "(?i)(d[lľĺ]žka)|(\\(\\s*min\\s*\\))", "Dĺžka (min)")
# Rozpočet
nms <- rename_if_present(nms, "(?i)rozpo[cč]et|budget", "Rozpočet [$]")
names(df_raw) <- nms

print(names(df_raw))
[1] "Umiestnenie"     "Názov"           "Rok"             "Žáner"          
[5] "IMDb hodnotenie" "Dĺžka (min)"     "Réžia"           "Spoločnosť"     
[9] "Rozpočet [$]"   
# Voliteľne: jasná hláška, ak niečo stále chýba
required_cols <- c("Umiestnenie","Názov","Rok","Žáner","IMDb hodnotenie","Dĺžka (min)","Réžia","Spoločnosť","Rozpočet [$]")
missing_cols <- setdiff(required_cols, names(df_raw))
if (length(missing_cols) > 0) {
  warning(paste0("Upozornenie: v údajoch chýbajú stĺpce: ", paste(missing_cols, collapse = ", "),
                 ". Dokument bude pokračovať so stĺpcami, ktoré sú k dispozícii."))
}


# --- Očistenie názvov stĺpcov ---
names(df_raw) <- gsub("\\s+", " ", names(df_raw))       # zjednotí viac medzier
names(df_raw) <- trimws(names(df_raw))                    # odstráni medzery na začiatku/konci
names(df_raw) <- iconv(names(df_raw), from = "UTF-8", to = "UTF-8")  # opraví skryté znaky
if (any(grepl("IMDb", names(df_raw)))) {
  names(df_raw)[grepl("IMDb", names(df_raw))] <- "IMDb hodnotenie"
}
print(names(df_raw))
[1] "Umiestnenie"     "Názov"           "Rok"             "Žáner"          
[5] "IMDb hodnotenie" "Dĺžka (min)"     "Réžia"           "Spoločnosť"     
[9] "Rozpočet [$]"   
# Čistenie a typy premenných
df <- df_raw %>%
  mutate(
    Rok = suppressWarnings(as.integer(Rok)),
    `IMDb hodnotenie` = str_replace_all(`IMDb hodnotenie`, ",", "."),
    `IMDb hodnotenie` = suppressWarnings(as.numeric(`IMDb hodnotenie`)),
    `Dĺžka (min)` = suppressWarnings(as.numeric(`Dĺžka (min)`)),
    `Rozpočet [$]` = str_remove_all(`Rozpočet [$]`, "[^0-9]"),
    `Rozpočet [$]` = suppressWarnings(as.numeric(`Rozpočet [$]`)),
    Dekáda = paste0(floor(Rok / 10) * 10, "s")
  )

glue <- function(...) paste0(...)

cat(glue("Počet riadkov: ", nrow(df), "\n"))
Počet riadkov: 250
cat(glue("Stĺpce: ", paste(names(df), collapse = ", "), "\n"))
Stĺpce: Umiestnenie, Názov, Rok, Žáner, IMDb hodnotenie, Dĺžka (min), Réžia, Spoločnosť, Rozpočet [$], Dekáda

Výber dvoch skupín


group_var <- "Spoločnosť"

# 2 najpočetnejšie kategórie
top2 <- df %>%
  filter(!is.na(.data[[group_var]]), .data[[group_var]] != "") %>%
  count(.data[[group_var]], sort = TRUE) %>%
  slice_head(n = 2) %>%
  pull(1)

df2 <- df %>% filter(.data[[group_var]] %in% top2)

# Premenujeme na "Skupina" kvôli konzistentnosti
names(df2)[names(df2) == group_var] <- "Skupina"

head(select(df2, Skupina, Názov, Rok, Žáner, `IMDb hodnotenie`, `Dĺžka (min)`, `Rozpočet [$]`))

Grafy

Stĺpcový graf: priemerné IMDb podľa dekády a skupiny

agg_decade <- df2 %>%
  group_by(Skupina, Dekáda) %>%
  summarise(
    avg_imdb = mean(`IMDb hodnotenie`, na.rm = TRUE),
    n = n(), .groups = "drop"
  )

ggplot(agg_decade, aes(x = Dekáda, y = avg_imdb, fill = Skupina, group = Skupina)) +
  geom_bar(stat = "identity", position = "dodge", width = 0.8) +
  geom_text(aes(label = round(avg_imdb, 2)),
            position = position_dodge(width = 0.8), vjust = -0.3, size = 3) +
  theme_minimal() +
  labs(title = "Priemerné IMDb hodnotenie podľa dekády",
       x = "Dekáda", y = "Priemer IMDb", fill = "Skupina") +
  theme(axis.text.x = element_text(angle = 30, hjust = 1))

Čiarový graf: medián rozpočtu podľa roku a skupiny

agg_year_budget <- df2 %>%
  filter(!is.na(Rok)) %>%
  group_by(Skupina, Rok) %>%
  summarise(median_budget = median(`Rozpočet [$]`, na.rm = TRUE), .groups = "drop")

ggplot(agg_year_budget, aes(x = Rok, y = median_budget, color = Skupina, group = Skupina)) +
  geom_line(linewidth = 1.2) +
  geom_point(size = 2.5) +
  geom_text(aes(label = label_number(accuracy = 1, scale_cut = scales::cut_si(""))(median_budget)),
            vjust = -0.5, size = 2.7, show.legend = FALSE) +
  theme_minimal() +
  labs(title = "Medián rozpočtu podľa roku",
       x = "Rok", y = "Medián rozpočtu [$]", color = "Skupina") +
  theme(axis.text.x = element_text(angle = 30, hjust = 1))

Základné štatistiky

stats_tbl <- df2 %>%
  group_by(Skupina, Dekáda) %>%
  summarise(
    n = n(),
    mean_imdb = mean(`IMDb hodnotenie`, na.rm = TRUE),
    sd_imdb   = sd(`IMDb hodnotenie`, na.rm = TRUE),
    min_imdb  = min(`IMDb hodnotenie`, na.rm = TRUE),
    q25_imdb  = quantile(`IMDb hodnotenie`, 0.25, na.rm = TRUE),
    median_imdb = median(`IMDb hodnotenie`, na.rm = TRUE),
    q75_imdb  = quantile(`IMDb hodnotenie`, 0.75, na.rm = TRUE),
    max_imdb  = max(`IMDb hodnotenie`, na.rm = TRUE),
    mean_len  = mean(`Dĺžka (min)`, na.rm = TRUE),
    mean_budget = mean(`Rozpočet [$]`, na.rm = TRUE),
    .groups = "drop"
  )

kable(stats_tbl, digits = 2, caption = "Základné štatistiky podľa skupiny a dekády")
Základné štatistiky podľa skupiny a dekády
Skupina Dekáda n mean_imdb sd_imdb min_imdb q25_imdb median_imdb q75_imdb max_imdb mean_len mean_budget
United Artists 1920s 2 8.10 0.00 8.1 8.10 8.10 8.10 8.1 81.00 836500
United Artists 1930s 2 8.50 0.00 8.5 8.50 8.50 8.50 8.5 87.00 1500000
United Artists 1940s 3 8.20 0.17 8.1 8.10 8.10 8.25 8.4 118.00 1496667
United Artists 1950s 4 8.50 0.35 8.2 8.35 8.40 8.55 9.0 105.25 1534250
United Artists 1960s 4 8.22 0.05 8.2 8.20 8.20 8.22 8.3 152.00 2600000
United Artists 1970s 4 8.35 0.30 8.1 8.10 8.30 8.55 8.7 130.25 9940000
United Artists 1980s 1 8.20 8.2 8.20 8.20 8.20 8.2 129.00 18000000
Warner Bros. Pictures 1940s 2 8.35 0.21 8.2 8.27 8.35 8.43 8.5 144.00 1750000
Warner Bros. Pictures 1950s 1 8.20 8.2 8.20 8.20 8.20 8.2 105.00 1400000
Warner Bros. Pictures 1960s 1 8.10 8.1 8.10 8.10 8.10 8.1 127.00 3200000
Warner Bros. Pictures 1970s 3 8.17 0.12 8.1 8.10 8.10 8.20 8.3 147.67 8433333
Warner Bros. Pictures 1980s 4 8.30 0.14 8.1 8.25 8.35 8.40 8.4 152.00 27250000
Warner Bros. Pictures 1990s 6 8.35 0.29 8.0 8.20 8.25 8.60 8.7 134.17 41233333
Warner Bros. Pictures 2000s 7 8.39 0.31 8.1 8.20 8.20 8.50 9.0 134.14 81000000
Warner Bros. Pictures 2010s 7 8.36 0.28 8.1 8.10 8.40 8.50 8.8 139.29 151871429

Testovanie hypotéz

t-test: rozdiel IMDb medzi 2 skupinami v najnovšej dekáde

latest_decade <- df2 %>%
  filter(!is.na(Dekáda)) %>%
  mutate(dec_num = as.integer(str_remove(Dekáda, "s"))) %>%
  slice_max(dec_num, n = 1, with_ties = FALSE) %>%
  pull(Dekáda) %>%
  unique()

df_latest <- df2 %>% filter(Dekáda == latest_decade)

ok_groups <- df_latest %>%
  group_by(Skupina) %>%
  filter(!is.na(`IMDb hodnotenie`)) %>%
  summarise(n = n(), .groups = "drop") %>%
  filter(n >= 2) %>% pull(Skupina)

if (length(ok_groups) == 2) {
  x <- df_latest %>% filter(Skupina == ok_groups[1]) %>% pull(`IMDb hodnotenie`)
  y <- df_latest %>% filter(Skupina == ok_groups[2]) %>% pull(`IMDb hodnotenie`)
  t_test_result <- t.test(x, y)
  t_test_result
} else {
  "t-test sa neuskutočnil: v najnovšej dekáde nie je dosť dát v oboch skupinách."
}
[1] "t-test sa neuskutočnil: v najnovšej dekáde nie je dosť dát v oboch skupinách."

ANOVA: IMDb podľa žánru (top 5 žánrov)

top_genres <- df %>% count(Žáner, sort = TRUE) %>% slice_head(n = 5) %>% pull(Žáner)
anova_df <- df %>% filter(Žáner %in% top_genres, !is.na(`IMDb hodnotenie`))

anova_result <- aov(`IMDb hodnotenie` ~ Žáner, data = anova_df)
summary(anova_result)
            Df Sum Sq Mean Sq F value Pr(>F)
Žáner        4  0.594 0.14848   1.706  0.162
Residuals   56  4.874 0.08703               

Lineárna regresia

Model: IMDb ~ Rok + Skupina (dve vybrané skupiny z Spoločnosť alebo Žáner).

model <- lm(`IMDb hodnotenie` ~ Rok + Skupina, data = df2)
summary(model)

Call:
lm(formula = `IMDb hodnotenie` ~ Rok + Skupina, data = df2)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.3341 -0.1684 -0.0516  0.1272  0.6818 

Coefficients:
                              Estimate Std. Error t value Pr(>|t|)
(Intercept)                   4.729720   3.439589   1.375    0.175
Rok                           0.001834   0.001759   1.042    0.302
SkupinaWarner Bros. Pictures -0.061108   0.095570  -0.639    0.526

Residual standard error: 0.2414 on 48 degrees of freedom
Multiple R-squared:  0.02238,   Adjusted R-squared:  -0.01836 
F-statistic: 0.5494 on 2 and 48 DF,  p-value: 0.5809
coef.tbl <- tidy(model, conf.int = TRUE) %>%
  mutate(
    term = dplyr::case_when(
      term == "(Intercept)" ~ "Intercept",
      term == "Rok" ~ "Rok",
      TRUE ~ term
    ),
    stars = dplyr::case_when(
      p.value < 0.001 ~ "***",
      p.value < 0.01  ~ "**",
      p.value < 0.05  ~ "*",
      p.value < 0.1   ~ "·",
      TRUE            ~ ""
    )
  ) %>%
  transmute(
    Term = term,
    Estimate = estimate,
    `Std. Error` = std.error,
    `t value` = statistic,
    `p value` = p.value,
    `95% CI` = stringr::str_c("[", round(conf.low, 2), ", ", round(conf.high, 2), "]"),
    Sig = stars
  )

coef.tbl %>%
  kable(
    digits = 2,
    caption = "OLS regresné koeficienty (IMDb ~ Rok + Skupina)"
  ) %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover", "condensed")) %>%
  column_spec(1, bold = TRUE) %>%
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
  footnote(
    general = "Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.",
    threeparttable = TRUE
  )
OLS regresné koeficienty (IMDb ~ Rok + Skupina)
Term Estimate Std. Error t value p value 95% CI Sig
Intercept 4.73 3.44 1.38 0.18 [-2.19, 11.65]
Rok 0.00 0.00 1.04 0.30 [0, 0.01]
SkupinaWarner Bros. Pictures -0.06 0.10 -0.64 0.53 [-0.25, 0.13]
Note:
Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.
