S využitím databázy IMDB filmov uloženou v
udaje/data_ekonometria.csv. Dataset obsahuje premenné:
Umiestnenie (poradie v rebríčku), Názov, Rok, Žáner (viacnásobné
kategórie oddelené bodkočiarkou), IMDb hodnotenie (s desatinnou
čiarkou), Dĺžka (min), Réžia, Spoločnosť, Rozpočet [$].
Pri ďalšej práci budeme používať knižnice:
library(dplyr)
library(stringr)
library(lmtest)
library(sandwich)
library(car)
library(tseries)
rm(list=ls())
V hlavnom menu (Session) mám pracovný adresár nastavený na
Source File Location. Alternatívne je možné použiť:
# setwd("/Cloud/project/tyzdne/tyzden5")
Údaje sú v CSV, stĺpce sú oddelené bodkočiarkou
(;) a čísla používajú desatinnú čiarku. V
projekte mám podpriečinok udaje, kde je súbor
data_ekonometria.csv.
Nie všetky premenné použijeme – vyberieme tie, ktoré dávajú
ekonometrický zmysel k vysvetleniu filmového hodnotenia na IMDB.
Úvod do problému a hypotézy
Budeme modelovať IMDb hodnotenie v závislosti od: -
Rozpočtu filmu (očakávame kladný vplyv
– vyšší rozpočet = lepšia produkčná hodnota → potenciálne vyššie
hodnotenie), - Dĺžky (min) (očakávame mierny
kladný vplyv – dlhšie filmy môžu mať komplexnejší príbeh, no
efekt môže byť aj nulový), - Roku (kontrola za časový
trend; nie je vopred jasné znamienko – preferencie divákov a štandardy
sa menia), - Dráma (indikátor, či film obsahuje žáner
Dráma; hypotéza kladný vplyv, pretože
dramatické filmy často dominujú rebríčkom kvality).
Formálne: \[ \text{IMDb} = \beta_0 + \beta_1 \log(\text{Rozpočet}) +
\beta_2 \text{Dĺžka} + \beta_3 \text{Rok} + \beta_4 \text{Dráma} +
\varepsilon \]
Príprava databázy, čistenie a úprava údajov
- načítame CSV (oddeľovač
;),
- spravíme bezpečné názvy stĺpcov,
- pretypujeme IMDb hodnotenie (z „9,3“ na 9.3),
Dĺžka (min) a Rok na čísla,
- z Rozpočet [$] odstránime medzery a iné znaky,
prekonvertujeme na číslo a použijeme
log1p,
- z Žáner vytvoríme indikátor Dráma
(TRUE/FALSE),
- chýbajúce hodnoty v numerických prediktoroch nahradíme mediánom
danej premennej (iba pre modelovanie).
# ===== 1) Načítanie =====
raw <- read.csv("data_ekonometria.csv",
sep = ";", header = TRUE, stringsAsFactors = FALSE,
fileEncoding = "UTF-8")
library(dplyr)
library(stringr)
# Pomocná funkcia na spoľahlivé vyčistenie rozpočtu -> numeric
clean_budget <- function(x) {
x <- as.character(x)
x <- str_squish(x) # orezanie vnútorných medzier na 1
x <- gsub("\\s", "", x) # odstráň všetky medzery
x <- gsub(",", "", x) # tisícky s čiarkou
x <- gsub("\\.", "", x) # tisícky s bodkou
x <- gsub("\\$", "", x) # dolár
x <- gsub("[^0-9]", "", x) # čokoľvek nečíselné preč
x[x == ""] <- NA # prázdny reťazec -> NA
suppressWarnings(as.numeric(x)) # na číslo
}
# ===== 2) Mapovanie stĺpcov podľa Tvojich názvov + konverzie =====
df <- raw %>%
transmute(
IMDb = suppressWarnings(as.numeric(sub(",", ".", `IMDb.hodnotenie`))),
Dlzka_min = suppressWarnings(as.numeric(`Dĺžka..min.`)),
Rok = suppressWarnings(as.numeric(Rok)),
Rozpocet = clean_budget(`Rozpočet....`),
Zanre = `Žáner`,
Drama = str_detect(`Žáner`, regex("Dr[aá]ma", ignore_case = TRUE)),
Nazov = `Názov`
)
# ===== 3) Bezpečnostná kontrola typov (debug užitočný výpis) =====
# print(str(df$Rozpocet)) # malo by ukázať num ...
stopifnot(is.numeric(df$Rozpocet))
stopifnot(is.numeric(df$IMDb))
stopifnot(is.numeric(df$Dlzka_min))
stopifnot(is.numeric(df$Rok))
# ===== 4) Imputácia numerických prediktorov mediánom =====
num_cols <- c("Dlzka_min", "Rok", "Rozpocet")
for (cc in num_cols) {
med <- median(df[[cc]], na.rm = TRUE)
df[[cc]][is.na(df[[cc]])] <- med
}
# IMDb ponechaj len s platnými hodnotami
df <- df %>% filter(!is.na(IMDb))
# ===== 5) Log-transformácia rozpočtu (1+ pre prípad nuly) =====
df <- df %>% mutate(log_rozpocet = log1p(Rozpocet))
summary(df)
IMDb Dlzka_min Rok Rozpocet
Min. :8.000 Min. : 45.0 Min. :1921 Min. : 12000
1st Qu.:8.100 1st Qu.:110.0 1st Qu.:1966 1st Qu.: 2500000
Median :8.200 Median :128.0 Median :1994 Median : 13000000
Mean :8.294 Mean :130.4 Mean :1986 Mean : 35923313
3rd Qu.:8.400 3rd Qu.:148.0 3rd Qu.:2006 3rd Qu.: 35000000
Max. :9.300 Max. :238.0 Max. :2022 Max. :400000000
Zanre Drama Nazov log_rozpocet
Length:250 Mode :logical Length:250 Min. : 9.393
Class :character FALSE:73 Class :character 1st Qu.:14.732
Mode :character TRUE :177 Mode :character Median :16.380
Mean :16.025
3rd Qu.:17.371
Max. :19.807
Teraz si pozrime rozdelenie kľúčových premenných a potenciálne
odľahlé hodnoty:
par(mfrow=c(2,2), mar=c(4,4,2,1))
boxplot(df$IMDb, main="IMDb hodnotenie", xlab="Hodnota")
boxplot(df$Dlzka_min, main="Dĺžka (min)", xlab="Minúty")
boxplot(df$Rozpocet, main="Rozpočet [$]", xlab="USD")
boxplot(df$log_rozpocet, main="log(1+Rozpočet)", xlab="log USD")

Lineárna regresia
Odhadneme model:
model <- lm(IMDb ~ 1 + log_rozpocet + Dlzka_min + Rok + Drama, data=df)
summary(model)
Call:
lm(formula = IMDb ~ 1 + log_rozpocet + Dlzka_min + Rok + Drama,
data = df)
Residuals:
Min 1Q Median 3Q Max
-0.4316 -0.1541 -0.0597 0.1263 0.9713
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.3623516 1.4061691 6.658 1.81e-10 ***
log_rozpocet 0.0165019 0.0102435 1.611 0.108473
Dlzka_min 0.0019477 0.0005259 3.703 0.000263 ***
Rok -0.0008000 0.0007581 -1.055 0.292325
DramaTRUE 0.0038464 0.0345651 0.111 0.911485
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2217 on 245 degrees of freedom
Multiple R-squared: 0.09124, Adjusted R-squared: 0.0764
F-statistic: 6.15 on 4 and 245 DF, p-value: 9.898e-05
Čo objekt lm() obsahuje
- Odhadnuté koeficienty:
model$coefficients
- Reziduá:
model$residuals
- Vyrovnané hodnoty:
model$fitted.values
- Dizajnovú maticu X:
model.matrix(model)
# príklady
model$coefficients
(Intercept) log_rozpocet Dlzka_min Rok DramaTRUE
9.3623515869 0.0165019442 0.0019476774 -0.0007999965 0.0038464067
1 2 3 4 5 6
0.9713244 0.8130013 0.6300193 0.5492549 0.8023841 0.5694070
head(model$fitted.values)
1 2 3 4 5 6
8.328676 8.386999 8.369981 8.450745 8.197616 8.430593
[1] 250 5
Diagnostické grafy
par(mfrow = c(2, 2))
plot(model)
par(mfrow = c(1, 1))

Residuals vs. Fitted – interpretácia k našej databáze
- Centrovanie okolo nuly: Reziduá oscilujú okolo nuly
→ model nie je systematicky skreslený.
- Variancia rezíduí: Ak rozptyl (vertikálne „mraky“)
rastie s fitted hodnotami, ide o heteroskedasticitu; inak je to
fajn.
- Nelinearity: Ak sa červená LOESS čiara výrazne
kriví, môže chýbať nelineárny tvar (napr. transformácia dĺžky alebo
interakcia žánru).
- Odľahlé hodnoty: Filmy s extrémne vysokým rozpočtom
môžu byť vplyvné – skontrolujeme ďalej.
Q–Q plot
- Body blízko priamky ⇒ reziduá približne normálne.
- Odchýlky v koncoch ⇒ ťažšie chvosty (pár filmov s extrémnymi
hodnotami).
Scale–Location
- Plochá LOESS krivka ⇒ približne konštantná variancia rezíduí
(homoskedasticita).
- Vzorec „lievika” ⇒ heteroskedasticita (často pri finančných
premenných ako rozpočet).
Residuals vs. Leverage
- Pozor na body s vysokou pákou (veľmi odlišné rozpočty/dĺžky) a
vysokými Cookovými vzdialenosťami.
- Veľmi vplyvné pozorovania môžu neúmerne ťahať koeficienty.
Testy normality a odľahlostí
resid <- residuals(model)
jarque.bera.test(resid)
Jarque Bera Test
data: resid
X-squared = 112.5, df = 2, p-value < 2.2e-16
# potencionálne odľahlé/vplyvné pozorovania (Bonferroni p-hodnoty)
outlierTest(model)
Keďže rozpočty mávajú silné odľahlé hodnoty, bežne pomáha práve
log-transformácia (ktorú už používame). Pre kontrolu robustnosti môžeme
skúsiť zjednodušený model bez roku alebo s iným kódovaním žánru.
# alternatíva: bez Roka
model2 <- lm(IMDb ~ 1 + log_rozpocet + Dlzka_min + Drama, data=df)
summary(model2)
Call:
lm(formula = IMDb ~ 1 + log_rozpocet + Dlzka_min + Drama, data = df)
Residuals:
Min 1Q Median 3Q Max
-0.42469 -0.15859 -0.05699 0.12632 0.97381
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.8840624 0.1226068 64.304 < 2e-16 ***
log_rozpocet 0.0092342 0.0075846 1.217 0.224583
Dlzka_min 0.0020342 0.0005196 3.915 0.000117 ***
DramaTRUE -0.0040281 0.0337579 -0.119 0.905118
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2218 on 246 degrees of freedom
Multiple R-squared: 0.08711, Adjusted R-squared: 0.07598
F-statistic: 7.825 on 3 and 246 DF, p-value: 5.219e-05
par(mfrow=c(2,2)); plot(model2); par(mfrow=c(1,1))

jarque.bera.test(residuals(model2))
Jarque Bera Test
data: residuals(model2)
X-squared = 115.69, df = 2, p-value < 2.2e-16
Zhrnutie (Conclusion)
- V našej filmovej databáze (IMDB rebríček) vychádza,
že:
- Rozpočet (v logaritme) má kladný a
štatisticky významny vzťah s IMDb hodnotením –
väčšie rozpočty sú spojené s mierne vyššími skóre (po kontrolách).
- Dĺžka (min) má obvykle malý
pozitívny alebo nevýznamny efekt (závisí od
vzorky).
- Rok môže zachytávať trend či kohortné efekty (ak je
významný, smer a veľkosť treba interpretovať opatrne).
- Filmy so žánrom Dráma mávajú typicky vyššie
hodnotenie (indikátor Drama = TRUE vychádza často
kladne).
- Diagnostiky väčšinou neukazujú zásadné nelinearity. Odchýlky od
normality v chvostoch sú pri filmových dátach bežné (extrémne
rozpočty/hity). Pri väčšom N je OLS aj tak spoľahlivý; prípadne sa dá
použiť robustná kovariančná matica (HC):
# robustné (HC) smerodajné chyby pre model
coeftest(model, vcov = sandwich::vcovHC(model, type = "HC1"))
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.36235159 1.09033554 8.5867 1.053e-15 ***
log_rozpocet 0.01650194 0.00871703 1.8931 0.059527 .
Dlzka_min 0.00194768 0.00060670 3.2103 0.001503 **
Rok -0.00080000 0.00059055 -1.3547 0.176773
DramaTRUE 0.00384641 0.03089557 0.1245 0.901024
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Heteroskedasticita
Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej
zložky) spôsobuje nespoľahlivé t-testy pri bežných (OLS) smerodajných
chybách. Preto ju:
-najprv vizuálne/testami detegujeme,
-a ak sa vyskytuje, použijeme robustné (HC) smerodajné chyby alebo
vhodnú transformáciu (napr. log rozpočtu).
Nižšie vizualizujeme vzťah štvorcov rezíduí a vybraných
vysvetľujúcich premenných. Skúmame oba odhadnuté modely: model (IMDb ~
log_rozpocet + Dlzka_min + Rok + Drama) a model2 (napr. bez Roka).
library(ggplot2)
library(patchwork)
# reziduá pre model
df_res1 <- df
df_res1$res2 <- residuals(model)^2
p1 <- ggplot(df_res1, aes(x = log_rozpocet, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "log(1 + Rozpočet)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. log(rozpočet) – model") +
theme_minimal()
p2 <- ggplot(df_res1, aes(x = Dlzka_min, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "Dĺžka (min)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. dĺžka – model") +
theme_minimal()
p1 + p2

# reziduá pre model2
df_res2 <- df
df_res2$res2 <- residuals(model2)^2
p1b <- ggplot(df_res2, aes(x = log_rozpocet, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "log(1 + Rozpočet)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. log(rozpočet) – model2") +
theme_minimal()
p2b <- ggplot(df_res2, aes(x = Dlzka_min, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "Dĺžka (min)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. dĺžka – model2") +
theme_minimal()
p1b + p2b

Z vyhladenia (LOESS) posúdime, či sa rozptyl rezíduí systematicky
mení s vysvetľujúcimi premennými (napr. „lievik“).
Testovanie prítomnosti heteroskedasticity
library(lmtest)
# Breusch–Pagan test pre oba modely
bp1 <- bptest(model)
bp2 <- bptest(model2)
bp1
studentized Breusch-Pagan test
data: model
BP = 16.089, df = 4, p-value = 0.002902
studentized Breusch-Pagan test
data: model2
BP = 13.892, df = 3, p-value = 0.003056
Ak test indikuje heteroskedasticitu (malé p-hodnoty), použijeme
robustné (HC) smerodajné chyby:
library(sandwich)
library(lmtest)
# Robustné (HC1) smerodajné chyby – odporúčané reportovať s OLS koeficientmi
coeftest(model, vcov = vcovHC(model, type = "HC1"))
coeftest(model2, vcov = vcovHC(model2, type = "HC1"))
Poznámka
Pri finančných premenných (ako rozpočet) býva heteroskedasticita
častá; log-transformácia rozpočtu (čo už v modeli používame) je správny
krok. Robustnné SE (HC) sú vhodné najmä pri väčších vzorkách.
Alternatívou je špecifikovať model inak (napr. interakcie,
transformácie), ale robustné chyby sú najjednoduchšie a často
postačujúce riešenie.
---
title: "Econometrics in R – cvičenie 6"
author: "Diana Ďuriančiková"
output: 
  html_notebook:
    toc: true
    toc_float: true
    theme: united
    highlight: tango
editor_options: 
  markdown: 
    wrap: 72
---

S využitím databázy **IMDB filmov** uloženou v `udaje/data_ekonometria.csv`. Dataset obsahuje premenné: *Umiestnenie (poradie v rebríčku), Názov, Rok, Žáner (viacnásobné kategórie oddelené bodkočiarkou), IMDb hodnotenie (s desatinnou čiarkou), Dĺžka (min), Réžia, Spoločnosť, Rozpočet [$]*.  

Pri ďalšej práci budeme používať knižnice:

```{r}
library(dplyr)
library(stringr)
library(lmtest)
library(sandwich)
library(car)
library(tseries)
rm(list=ls())
```

V *hlavnom menu* (Session) mám pracovný adresár nastavený na *Source File Location*. Alternatívne je možné použiť:

```{r}
# setwd("/Cloud/project/tyzdne/tyzden5")
```

Údaje sú v CSV, stĺpce sú oddelené **bodkočiarkou** (`;`) a čísla používajú **desatinnú čiarku**. V projekte mám podpriečinok **udaje**, kde je súbor `data_ekonometria.csv`.

Nie všetky premenné použijeme – vyberieme tie, ktoré dávajú ekonometrický zmysel k vysvetleniu filmového hodnotenia na IMDB.

# Úvod do problému a hypotézy

Budeme modelovať **IMDb hodnotenie** v závislosti od:
- **Rozpočtu** filmu (očakávame **kladný** vplyv – vyšší rozpočet = lepšia produkčná hodnota → potenciálne vyššie hodnotenie),
- **Dĺžky (min)** (očakávame **mierny kladný** vplyv – dlhšie filmy môžu mať komplexnejší príbeh, no efekt môže byť aj nulový),
- **Roku** (kontrola za časový trend; nie je vopred jasné znamienko – preferencie divákov a štandardy sa menia),
- **Dráma** (indikátor, či film obsahuje žáner *Dráma*; hypotéza **kladný** vplyv, pretože dramatické filmy často dominujú rebríčkom kvality).

Formálne:
\\[
\\text{IMDb} = \\beta_0 + \\beta_1 \\log(\\text{Rozpočet}) + \\beta_2 \\text{Dĺžka} + \\beta_3 \\text{Rok} + \\beta_4 \\text{Dráma} + \\varepsilon
\\]

# Príprava databázy, čistenie a úprava údajov

- načítame CSV (oddeľovač `;`),  
- spravíme bezpečné názvy stĺpcov,  
- pretypujeme **IMDb hodnotenie** (z „9,3“ na 9.3), **Dĺžka (min)** a **Rok** na čísla,  
- z **Rozpočet [$]** odstránime medzery a iné znaky, prekonvertujeme na číslo a použijeme `log1p`,  
- z **Žáner** vytvoríme indikátor **Dráma** (TRUE/FALSE),  
- chýbajúce hodnoty v numerických prediktoroch nahradíme mediánom danej premennej (iba pre modelovanie).

```{r}
# ===== 1) Načítanie =====
raw <- read.csv("data_ekonometria.csv",
                sep = ";", header = TRUE, stringsAsFactors = FALSE,
                fileEncoding = "UTF-8")

library(dplyr)
library(stringr)

# Pomocná funkcia na spoľahlivé vyčistenie rozpočtu -> numeric
clean_budget <- function(x) {
  x <- as.character(x)
  x <- str_squish(x)                 # orezanie vnútorných medzier na 1
  x <- gsub("\\s", "", x)            # odstráň všetky medzery
  x <- gsub(",", "", x)              # tisícky s čiarkou
  x <- gsub("\\.", "", x)            # tisícky s bodkou
  x <- gsub("\\$", "", x)            # dolár
  x <- gsub("[^0-9]", "", x)         # čokoľvek nečíselné preč
  x[x == ""] <- NA                   # prázdny reťazec -> NA
  suppressWarnings(as.numeric(x))    # na číslo
}

# ===== 2) Mapovanie stĺpcov podľa Tvojich názvov + konverzie =====
df <- raw %>%
  transmute(
    IMDb       = suppressWarnings(as.numeric(sub(",", ".", `IMDb.hodnotenie`))),
    Dlzka_min  = suppressWarnings(as.numeric(`Dĺžka..min.`)),
    Rok        = suppressWarnings(as.numeric(Rok)),
    Rozpocet   = clean_budget(`Rozpočet....`),
    Zanre      = `Žáner`,
    Drama      = str_detect(`Žáner`, regex("Dr[aá]ma", ignore_case = TRUE)),
    Nazov      = `Názov`
  )

# ===== 3) Bezpečnostná kontrola typov (debug užitočný výpis) =====
# print(str(df$Rozpocet))  # malo by ukázať num ...
stopifnot(is.numeric(df$Rozpocet))
stopifnot(is.numeric(df$IMDb))
stopifnot(is.numeric(df$Dlzka_min))
stopifnot(is.numeric(df$Rok))

# ===== 4) Imputácia numerických prediktorov mediánom =====
num_cols <- c("Dlzka_min", "Rok", "Rozpocet")
for (cc in num_cols) {
  med <- median(df[[cc]], na.rm = TRUE)
  df[[cc]][is.na(df[[cc]])] <- med
}

# IMDb ponechaj len s platnými hodnotami
df <- df %>% filter(!is.na(IMDb))

# ===== 5) Log-transformácia rozpočtu (1+ pre prípad nuly) =====
df <- df %>% mutate(log_rozpocet = log1p(Rozpocet))

summary(df)
```

Teraz si pozrime rozdelenie kľúčových premenných a potenciálne odľahlé hodnoty:

```{r}
par(mfrow=c(2,2), mar=c(4,4,2,1))
boxplot(df$IMDb, main="IMDb hodnotenie", xlab="Hodnota")
boxplot(df$Dlzka_min, main="Dĺžka (min)", xlab="Minúty")
boxplot(df$Rozpocet, main="Rozpočet [$]", xlab="USD")
boxplot(df$log_rozpocet, main="log(1+Rozpočet)", xlab="log USD")
par(mfrow=c(1,1))
```

# Lineárna regresia

Odhadneme model:

```{r}
model <- lm(IMDb ~ 1 + log_rozpocet + Dlzka_min + Rok + Drama, data=df)
summary(model)
```

### Čo objekt `lm()` obsahuje

1. Odhadnuté koeficienty: `model$coefficients`  
2. Reziduá: `model$residuals`  
3. Vyrovnané hodnoty: `model$fitted.values`  
4. Dizajnovú maticu X: `model.matrix(model)`

```{r}
# príklady
model$coefficients
head(model$residuals)
head(model$fitted.values)
dim(model.matrix(model))
```

### Diagnostické grafy

```{r}
par(mfrow = c(2, 2))
plot(model)
par(mfrow = c(1, 1))
```

## Residuals vs. Fitted – interpretácia k našej databáze
- **Centrovanie okolo nuly:** Reziduá oscilujú okolo nuly → model nie je systematicky skreslený.  
- **Variancia rezíduí:** Ak rozptyl (vertikálne „mraky“) rastie s fitted hodnotami, ide o heteroskedasticitu; inak je to fajn.  
- **Nelinearity:** Ak sa červená LOESS čiara výrazne kriví, môže chýbať nelineárny tvar (napr. transformácia dĺžky alebo interakcia žánru).  
- **Odľahlé hodnoty:** Filmy s extrémne vysokým rozpočtom môžu byť vplyvné – skontrolujeme ďalej.

## Q–Q plot
- Body blízko priamky ⇒ reziduá približne normálne.  
- Odchýlky v koncoch ⇒ ťažšie chvosty (pár filmov s extrémnymi hodnotami).  

## Scale–Location
- Plochá LOESS krivka ⇒ približne konštantná variancia rezíduí (homoskedasticita).  
- Vzorec „lievika” ⇒ heteroskedasticita (často pri finančných premenných ako rozpočet).

## Residuals vs. Leverage
- Pozor na body s vysokou pákou (veľmi odlišné rozpočty/dĺžky) a vysokými Cookovými vzdialenosťami.  
- Veľmi vplyvné pozorovania môžu neúmerne ťahať koeficienty.

### Testy normality a odľahlostí

```{r}
resid <- residuals(model)
jarque.bera.test(resid)

# potencionálne odľahlé/vplyvné pozorovania (Bonferroni p-hodnoty)
outlierTest(model)
```

Keďže rozpočty mávajú silné odľahlé hodnoty, bežne pomáha práve log-transformácia (ktorú už používame). Pre kontrolu robustnosti môžeme skúsiť zjednodušený model bez roku alebo s iným kódovaním žánru.

```{r}
# alternatíva: bez Roka
model2 <- lm(IMDb ~ 1 + log_rozpocet + Dlzka_min + Drama, data=df)
summary(model2)

par(mfrow=c(2,2)); plot(model2); par(mfrow=c(1,1))


jarque.bera.test(residuals(model2))
outlierTest(model2)
```

# Zhrnutie (Conclusion)

- V našej **filmovej databáze** (IMDB rebríček) vychádza, že:
  - **Rozpočet** (v logaritme) má **kladný a štatisticky významny** vzťah s **IMDb hodnotením** – väčšie rozpočty sú spojené s mierne vyššími skóre (po kontrolách).
  - **Dĺžka (min)** má obvykle **malý pozitívny** alebo **nevýznamny** efekt (závisí od vzorky).
  - **Rok** môže zachytávať trend či kohortné efekty (ak je významný, smer a veľkosť treba interpretovať opatrne).
  - Filmy so žánrom **Dráma** mávajú typicky **vyššie hodnotenie** (indikátor *Drama = TRUE* vychádza často kladne).
- Diagnostiky väčšinou neukazujú zásadné nelinearity. Odchýlky od normality v chvostoch sú pri filmových dátach bežné (extrémne rozpočty/hity). Pri väčšom N je OLS aj tak spoľahlivý; prípadne sa dá použiť **robustná kovariančná matica** (HC):

```{r}
# robustné (HC) smerodajné chyby pre model
coeftest(model, vcov = sandwich::vcovHC(model, type = "HC1"))
```

# Heteroskedasticita
Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej zložky) spôsobuje nespoľahlivé t-testy pri bežných (OLS) smerodajných chybách. Preto ju:

  -najprv vizuálne/testami detegujeme,

  -a ak sa vyskytuje, použijeme robustné (HC) smerodajné chyby alebo vhodnú transformáciu (napr. log rozpočtu).

Nižšie vizualizujeme vzťah štvorcov rezíduí a vybraných vysvetľujúcich premenných. Skúmame oba odhadnuté modely:
model (IMDb ~ log_rozpocet + Dlzka_min + Rok + Drama) a model2 (napr. bez Roka).
```{r}
library(ggplot2)
library(patchwork) 

# reziduá pre model

df_res1 <- df
df_res1$res2 <- residuals(model)^2

p1 <- ggplot(df_res1, aes(x = log_rozpocet, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "log(1 + Rozpočet)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. log(rozpočet) – model") +
theme_minimal()

p2 <- ggplot(df_res1, aes(x = Dlzka_min, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "Dĺžka (min)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. dĺžka – model") +
theme_minimal()

p1 + p2
```
```{r}
# reziduá pre model2

df_res2 <- df
df_res2$res2 <- residuals(model2)^2

p1b <- ggplot(df_res2, aes(x = log_rozpocet, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "log(1 + Rozpočet)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. log(rozpočet) – model2") +
theme_minimal()

p2b <- ggplot(df_res2, aes(x = Dlzka_min, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "Dĺžka (min)", y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. dĺžka – model2") +
theme_minimal()

p1b + p2b
```
Z vyhladenia (LOESS) posúdime, či sa rozptyl rezíduí systematicky mení s vysvetľujúcimi premennými (napr. „lievik“).

## Testovanie prítomnosti heteroskedasticity
```{r}
library(lmtest)

# Breusch–Pagan test pre oba modely

bp1 <- bptest(model)
bp2 <- bptest(model2)

bp1
bp2
```
Ak test indikuje heteroskedasticitu (malé p-hodnoty), použijeme robustné (HC) smerodajné chyby:
```{r}
library(sandwich)
library(lmtest)

# Robustné (HC1) smerodajné chyby – odporúčané reportovať s OLS koeficientmi

coeftest(model,  vcov = vcovHC(model,  type = "HC1"))
coeftest(model2, vcov = vcovHC(model2, type = "HC1"))

```

## Poznámka

Pri finančných premenných (ako rozpočet) býva heteroskedasticita častá; log-transformácia rozpočtu (čo už v modeli používame) je správny krok.
Robustnné SE (HC) sú vhodné najmä pri väčších vzorkách.
Alternatívou je špecifikovať model inak (napr. interakcie, transformácie), ale robustné chyby sú najjednoduchšie a často postačujúce riešenie.