S využitím databázy IMDB filmov uloženou v
udaje/data_ekonometria.csv. Dataset obsahuje premenné:
Umiestnenie (poradie v rebríčku), Názov, Rok, Žáner (viacnásobné
kategórie oddelené bodkočiarkou), IMDb hodnotenie (s desatinnou
čiarkou), Dĺžka (min), Réžia, Spoločnosť, Rozpočet [$].
Pri ďalšej práci budeme používať knižnice:
library(dplyr)
library(stringr)
library(lmtest)
library(sandwich)
library(car)
library(tseries)
rm(list=ls())
V hlavnom menu (Session) mám pracovný adresár nastavený na
Source File Location. Alternatívne je možné použiť:
# setwd("/Cloud/project/tyzdne/tyzden5")
Údaje sú v CSV, stĺpce sú oddelené bodkočiarkou
(;) a čísla používajú desatinnú čiarku. V
projekte mám podpriečinok udaje, kde je súbor
data_ekonometria.csv.
Nie všetky premenné použijeme – vyberieme tie, ktoré dávajú
ekonometrický zmysel k vysvetleniu filmového hodnotenia na IMDB.
Úvod do problému a hypotézy
Budeme modelovať IMDb hodnotenie v závislosti od: -
Rozpočtu filmu (očakávame kladný vplyv
– vyšší rozpočet = lepšia produkčná hodnota → potenciálne vyššie
hodnotenie), - Dĺžky (min) (očakávame mierny
kladný vplyv – dlhšie filmy môžu mať komplexnejší príbeh, no
efekt môže byť aj nulový), - Roku (kontrola za časový
trend; nie je vopred jasné znamienko – preferencie divákov a štandardy
sa menia), - Dráma (indikátor, či film obsahuje žáner
Dráma; hypotéza kladný vplyv, pretože
dramatické filmy často dominujú rebríčkom kvality).
Formálne: \[ \text{IMDb} = \beta_0 + \beta_1 \log(\text{Rozpočet}) +
\beta_2 \text{Dĺžka} + \beta_3 \text{Rok} + \beta_4 \text{Dráma} +
\varepsilon \]
Príprava databázy, čistenie a úprava údajov
- načítame CSV (oddeľovač
;),
- spravíme bezpečné názvy stĺpcov,
- pretypujeme IMDb hodnotenie (z „9,3“ na 9.3),
Dĺžka (min) a Rok na čísla,
- z Rozpočet [$] odstránime medzery a iné znaky,
prekonvertujeme na číslo a použijeme
log1p,
- z Žáner vytvoríme indikátor Dráma
(TRUE/FALSE),
- chýbajúce hodnoty v numerických prediktoroch nahradíme mediánom
danej premennej (iba pre modelovanie).
# ===== 1) Načítanie =====
raw <- read.csv("data_ekonometria.csv",
sep = ";", header = TRUE, stringsAsFactors = FALSE,
fileEncoding = "UTF-8")
library(dplyr)
library(stringr)
# Pomocná funkcia na spoľahlivé vyčistenie rozpočtu -> numeric
clean_budget <- function(x) {
x <- as.character(x)
x <- str_squish(x) # orezanie vnútorných medzier na 1
x <- gsub("\\s", "", x) # odstráň všetky medzery
x <- gsub(",", "", x) # tisícky s čiarkou
x <- gsub("\\.", "", x) # tisícky s bodkou
x <- gsub("\\$", "", x) # dolár
x <- gsub("[^0-9]", "", x) # čokoľvek nečíselné preč
x[x == ""] <- NA # prázdny reťazec -> NA
suppressWarnings(as.numeric(x)) # na číslo
}
# ===== 2) Mapovanie stĺpcov podľa Tvojich názvov + konverzie =====
df <- raw %>%
transmute(
IMDb = suppressWarnings(as.numeric(sub(",", ".", `IMDb.hodnotenie`))),
Dlzka_min = suppressWarnings(as.numeric(`Dĺžka..min.`)),
Rok = suppressWarnings(as.numeric(Rok)),
Rozpocet = clean_budget(`Rozpočet....`),
Zanre = `Žáner`,
Drama = str_detect(`Žáner`, regex("Dr[aá]ma", ignore_case = TRUE)),
Nazov = `Názov`
)
# ===== 3) Bezpečnostná kontrola typov (debug užitočný výpis) =====
# print(str(df$Rozpocet)) # malo by ukázať num ...
stopifnot(is.numeric(df$Rozpocet))
stopifnot(is.numeric(df$IMDb))
stopifnot(is.numeric(df$Dlzka_min))
stopifnot(is.numeric(df$Rok))
# ===== 4) Imputácia numerických prediktorov mediánom =====
num_cols <- c("Dlzka_min", "Rok", "Rozpocet")
for (cc in num_cols) {
med <- median(df[[cc]], na.rm = TRUE)
df[[cc]][is.na(df[[cc]])] <- med
}
# IMDb ponechaj len s platnými hodnotami
df <- df %>% filter(!is.na(IMDb))
# ===== 5) Log-transformácia rozpočtu (1+ pre prípad nuly) =====
df <- df %>% mutate(log_rozpocet = log1p(Rozpocet))
summary(df)
IMDb Dlzka_min Rok Rozpocet
Min. :8.000 Min. : 45.0 Min. :1921 Min. : 12000
1st Qu.:8.100 1st Qu.:110.0 1st Qu.:1966 1st Qu.: 2500000
Median :8.200 Median :128.0 Median :1994 Median : 13000000
Mean :8.294 Mean :130.4 Mean :1986 Mean : 35923313
3rd Qu.:8.400 3rd Qu.:148.0 3rd Qu.:2006 3rd Qu.: 35000000
Max. :9.300 Max. :238.0 Max. :2022 Max. :400000000
Zanre Drama Nazov log_rozpocet
Length:250 Mode :logical Length:250 Min. : 9.393
Class :character FALSE:73 Class :character 1st Qu.:14.732
Mode :character TRUE :177 Mode :character Median :16.380
Mean :16.025
3rd Qu.:17.371
Max. :19.807
Teraz si pozrime rozdelenie kľúčových premenných a potenciálne
odľahlé hodnoty:
par(mfrow=c(2,2), mar=c(4,4,2,1))
boxplot(df$IMDb, main="IMDb hodnotenie", xlab="Hodnota")
boxplot(df$Dlzka_min, main="Dĺžka (min)", xlab="Minúty")
boxplot(df$Rozpocet, main="Rozpočet [$]", xlab="USD")
boxplot(df$log_rozpocet, main="log(1+Rozpočet)", xlab="log USD")

Lineárna regresia
Odhadneme model:
model <- lm(IMDb ~ 1 + log_rozpocet + Dlzka_min + Rok + Drama, data=df)
summary(model)
Call:
lm(formula = IMDb ~ 1 + log_rozpocet + Dlzka_min + Rok + Drama,
data = df)
Residuals:
Min 1Q Median 3Q Max
-0.4316 -0.1541 -0.0597 0.1263 0.9713
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.3623516 1.4061691 6.658 1.81e-10 ***
log_rozpocet 0.0165019 0.0102435 1.611 0.108473
Dlzka_min 0.0019477 0.0005259 3.703 0.000263 ***
Rok -0.0008000 0.0007581 -1.055 0.292325
DramaTRUE 0.0038464 0.0345651 0.111 0.911485
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2217 on 245 degrees of freedom
Multiple R-squared: 0.09124, Adjusted R-squared: 0.0764
F-statistic: 6.15 on 4 and 245 DF, p-value: 9.898e-05
Čo objekt lm() obsahuje
- Odhadnuté koeficienty:
model$coefficients
- Reziduá:
model$residuals
- Vyrovnané hodnoty:
model$fitted.values
- Dizajnovú maticu X:
model.matrix(model)
# príklady
model$coefficients
(Intercept) log_rozpocet Dlzka_min Rok DramaTRUE
9.3623515869 0.0165019442 0.0019476774 -0.0007999965 0.0038464067
1 2 3 4 5 6
0.9713244 0.8130013 0.6300193 0.5492549 0.8023841 0.5694070
head(model$fitted.values)
1 2 3 4 5 6
8.328676 8.386999 8.369981 8.450745 8.197616 8.430593
[1] 250 5
Diagnostické grafy
par(mfrow = c(2, 2))
plot(model)
par(mfrow = c(1, 1))

Residuals vs. Fitted – interpretácia k našej databáze
- Centrovanie okolo nuly: Reziduá oscilujú okolo nuly
→ model nie je systematicky skreslený.
- Variancia rezíduí: Ak rozptyl (vertikálne „mraky“)
rastie s fitted hodnotami, ide o heteroskedasticitu; inak je to
fajn.
- Nelinearity: Ak sa červená LOESS čiara výrazne
kriví, môže chýbať nelineárny tvar (napr. transformácia dĺžky alebo
interakcia žánru).
- Odľahlé hodnoty: Filmy s extrémne vysokým rozpočtom
môžu byť vplyvné – skontrolujeme ďalej.
Q–Q plot
- Body blízko priamky ⇒ reziduá približne normálne.
- Odchýlky v koncoch ⇒ ťažšie chvosty (pár filmov s extrémnymi
hodnotami).
Scale–Location
- Plochá LOESS krivka ⇒ približne konštantná variancia rezíduí
(homoskedasticita).
- Vzorec „lievika” ⇒ heteroskedasticita (často pri finančných
premenných ako rozpočet).
Residuals vs. Leverage
- Pozor na body s vysokou pákou (veľmi odlišné rozpočty/dĺžky) a
vysokými Cookovými vzdialenosťami.
- Veľmi vplyvné pozorovania môžu neúmerne ťahať koeficienty.
Testy normality a odľahlostí
resid <- residuals(model)
jarque.bera.test(resid)
Jarque Bera Test
data: resid
X-squared = 112.5, df = 2, p-value < 2.2e-16
# potencionálne odľahlé/vplyvné pozorovania (Bonferroni p-hodnoty)
outlierTest(model)
Keďže rozpočty mávajú silné odľahlé hodnoty, bežne pomáha práve
log-transformácia (ktorú už používame). Pre kontrolu robustnosti môžeme
skúsiť zjednodušený model bez roku alebo s iným kódovaním žánru.
# alternatíva: bez Roka
model2 <- lm(IMDb ~ 1 + log_rozpocet + Dlzka_min + Drama, data=df)
summary(model2)
Call:
lm(formula = IMDb ~ 1 + log_rozpocet + Dlzka_min + Drama, data = df)
Residuals:
Min 1Q Median 3Q Max
-0.42469 -0.15859 -0.05699 0.12632 0.97381
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.8840624 0.1226068 64.304 < 2e-16 ***
log_rozpocet 0.0092342 0.0075846 1.217 0.224583
Dlzka_min 0.0020342 0.0005196 3.915 0.000117 ***
DramaTRUE -0.0040281 0.0337579 -0.119 0.905118
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2218 on 246 degrees of freedom
Multiple R-squared: 0.08711, Adjusted R-squared: 0.07598
F-statistic: 7.825 on 3 and 246 DF, p-value: 5.219e-05
par(mfrow=c(2,2)); plot(model2); par(mfrow=c(1,1))

jarque.bera.test(residuals(model2))
Jarque Bera Test
data: residuals(model2)
X-squared = 115.69, df = 2, p-value < 2.2e-16
Zhrnutie (Conclusion)
- V našej filmovej databáze (IMDB rebríček) vychádza,
že:
- Rozpočet (v logaritme) má kladný a
štatisticky významny vzťah s IMDb hodnotením –
väčšie rozpočty sú spojené s mierne vyššími skóre (po kontrolách).
- Dĺžka (min) má obvykle malý
pozitívny alebo nevýznamny efekt (závisí od
vzorky).
- Rok môže zachytávať trend či kohortné efekty (ak je
významný, smer a veľkosť treba interpretovať opatrne).
- Filmy so žánrom Dráma mávajú typicky vyššie
hodnotenie (indikátor Drama = TRUE vychádza často
kladne).
- Diagnostiky väčšinou neukazujú zásadné nelinearity. Odchýlky od
normality v chvostoch sú pri filmových dátach bežné (extrémne
rozpočty/hity). Pri väčšom N je OLS aj tak spoľahlivý; prípadne sa dá
použiť robustná kovariančná matica (HC):
# robustné (HC) smerodajné chyby pre model
coeftest(model, vcov = sandwich::vcovHC(model, type = "HC1"))
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.36235159 1.09033554 8.5867 1.053e-15 ***
log_rozpocet 0.01650194 0.00871703 1.8931 0.059527 .
Dlzka_min 0.00194768 0.00060670 3.2103 0.001503 **
Rok -0.00080000 0.00059055 -1.3547 0.176773
DramaTRUE 0.00384641 0.03089557 0.1245 0.901024
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Heteroskedasticita
Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej
zložky) spôsobuje nespoľahlivé t-testy pri bežných (OLS) smerodajných
chybách. Preto ju:
-najprv vizuálne/testami detegujeme,
-a ak sa vyskytuje, použijeme robustné (HC) smerodajné chyby alebo
vhodnú transformáciu (napr. log rozpočtu).
Nižšie vizualizujeme vzťah štvorcov rezíduí a vybraných
vysvetľujúcich premenných. Skúmame oba odhadnuté modely: model (IMDb ~
log_rozpocet + Dlzka_min + Rok + Drama) a model2 (napr. bez Roka).
library(ggplot2)
library(patchwork)
# reziduá pre model
df_res1 <- df
df_res1$res2 <- residuals(model)^2
p1 <- ggplot(df_res1, aes(x = log_rozpocet, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "log(1 + Rozpočet)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. log(rozpočet) – model") +
theme_minimal()
p2 <- ggplot(df_res1, aes(x = Dlzka_min, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "Dĺžka (min)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. dĺžka – model") +
theme_minimal()
p1 + p2

# reziduá pre model2
df_res2 <- df
df_res2$res2 <- residuals(model2)^2
p1b <- ggplot(df_res2, aes(x = log_rozpocet, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "log(1 + Rozpočet)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. log(rozpočet) – model2") +
theme_minimal()
p2b <- ggplot(df_res2, aes(x = Dlzka_min, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "Dĺžka (min)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. dĺžka – model2") +
theme_minimal()
p1b + p2b

Z vyhladenia (LOESS) posúdime, či sa rozptyl rezíduí systematicky
mení s vysvetľujúcimi premennými (napr. „lievik“).
Testovanie prítomnosti heteroskedasticity
library(lmtest)
# Breusch–Pagan test pre oba modely
bp1 <- bptest(model)
bp2 <- bptest(model2)
bp1
studentized Breusch-Pagan test
data: model
BP = 16.089, df = 4, p-value = 0.002902
studentized Breusch-Pagan test
data: model2
BP = 13.892, df = 3, p-value = 0.003056
Ak test indikuje heteroskedasticitu (malé p-hodnoty), použijeme
robustné (HC) smerodajné chyby:
library(sandwich)
library(lmtest)
# Robustné (HC1) smerodajné chyby – odporúčané reportovať s OLS koeficientmi
coeftest(model, vcov = vcovHC(model, type = "HC1"))
coeftest(model2, vcov = vcovHC(model2, type = "HC1"))
Poznámka
Pri finančných premenných (ako rozpočet) býva heteroskedasticita
častá; log-transformácia rozpočtu (čo už v modeli používame) je správny
krok. Robustnné SE (HC) sú vhodné najmä pri väčších vzorkách.
Alternatívou je špecifikovať model inak (napr. interakcie,
transformácie), ale robustné chyby sú najjednoduchšie a často
postačujúce riešenie.
