travel <- data[, c("Destination",
"Duration..days.",
"Accommodation.cost",
"Transportation.cost")]
travel
NA

Lineárna regresia

model <- lm(Accommodation.cost ~ Duration..days. + Transportation.cost,
data = travel)

summary(model)

Call:
lm(formula = Accommodation.cost ~ Duration..days. + Transportation.cost, 
    data = travel)

Residuals:
    Min      1Q  Median      3Q     Max 
-2252.8  -480.5    32.0   464.9  4139.7 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)          908.5591   347.5818   2.614  0.00998 ** 
Duration..days.     -107.5141    43.5656  -2.468  0.01486 *  
Transportation.cost    1.8029     0.1197  15.057  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 813.1 on 133 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared:  0.6365,    Adjusted R-squared:  0.6311 
F-statistic: 116.5 on 2 and 133 DF,  p-value: < 2.2e-16

V modeli sme sa zamerali na vysvetlenie nákladov na ubytovanie (Accommodation cost) na základe: dĺžky pobytu (Duration days) nákladov na dopravu (Transportation cost). Regresný model skúma, ako počet dní pobytu a cena dopravy ovplyvňujú cenu ubytovania v rôznych destináciách. Model má dobrú vysvetľovaciu silu — približne 64 % variability v cenách ubytovania dokáže vysvetliť pomocou týchto dvoch premenných. Cena dopravy má silný pozitívny vplyv na cenu ubytovania. To znamená, že čím je doprava do destinácie drahšia, tým býva drahšie aj samotné ubytovanie. Zároveň ide o štatisticky veľmi významný vzťah. Počet dní pobytu má naopak negatívny vplyv na cenu ubytovania. Pri dlhších pobytoch cena ubytovania klesá, čo môže odrážať zľavy za dlhšie pobyty alebo lacnejšie destinácie pri dlhých cestách. Obe premenné spolu významne predpovedajú cenu ubytovania a zlepšujú presnosť modelu. Individuálne rozdiely medzi destináciami však stále spôsobujú väčšie odchýlky, čo je pri cestovných dátach bežné. Celkovo model ukazuje, že ceny ubytovania sú silno prepojené s cenou dopravy a mierne ovplyvnené dĺžkou pobytu.

Autokorelácia reziduí

res <- residuals(model)

ACF – Autokorelačná funkcia

acf(res, lag.max = 10, main = "ACF rezíduí")

Graf ukazuje, že reziduá nemajú žiadnu výraznú autokoreláciu – sú náhodné, čo znamená, že lineárna regresia je v poriadku.

Durbin–Watsonov test

dwtest(model)

    Durbin-Watson test

data:  model
DW = 1.7867, p-value = 0.09688
alternative hypothesis: true autocorrelation is greater than 0

Hodnota DW = 1.7867 je veľmi blízko k ideálnym 2.0, čo znamená, že v reziduách takmer určite nie je pozitívna autokorelácia. p-hodnota = 0.09688 je vyššia ako bežné hladiny významnosti (0.05), takže nezamietame nulovú hypotézu o neexistencii pozitívnej autokorelácie. Inými slovami, neexistujú dôkazy o tom, že by reziduá boli pozitívne autokorelované. Test aj vizuálna ACF analýza spolu potvrdzujú, že predpoklad nezávislosti rezíduí je splnený. Model teda nie je narušený systematickými chybami a môžeme ho považovať za štatisticky spoľahlivý.

Breusch–Godfrey test autokorelácie

bgtest(model, order = 1)   

    Breusch-Godfrey test for serial correlation of order up to 1

data:  model
LM test = 0.88757, df = 1, p-value = 0.3461

Hodnota LM testu = 0.88757 je veľmi nízka, čo naznačuje, že model nevykazuje žiadny výrazný problém s autokoreláciou. p-hodnota = 0.3461 je vysoko nad hladinou významnosti 0.05, takže nezamietame nulovú hypotézu o neexistencii sériovej autokorelácie. Prakticky to znamená, že reziduá nie sú autokorelované ani pri zohľadnení oneskorenia (lag = 1). Tento test je robustnejší ako Durbin–Watson, a jeho výsledok hovorí, že model nemá problém so sériovou koreláciou chýb.

Koyckova transformácia (dynamická štruktúra)

travel$Lag_accommodation <- dplyr::lag(travel$Accommodation.cost, 1)

koyck_model <- lm(Accommodation.cost ~ Duration..days. +
Transportation.cost +
Lag_accommodation,
data = travel)

summary(koyck_model)

Call:
lm(formula = Accommodation.cost ~ Duration..days. + Transportation.cost + 
    Lag_accommodation, data = travel)

Residuals:
    Min      1Q  Median      3Q     Max 
-2351.6  -448.3     4.0   414.8  3440.0 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)          782.9046   333.2982   2.349 0.020321 *  
Duration..days.     -106.4346    41.5506  -2.562 0.011552 *  
Transportation.cost    1.5221     0.1347  11.297  < 2e-16 ***
Lag_accommodation      0.2478     0.0632   3.921 0.000141 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 775.1 on 131 degrees of freedom
  (2 observations deleted due to missingness)
Multiple R-squared:  0.6747,    Adjusted R-squared:  0.6672 
F-statistic: 90.57 on 3 and 131 DF,  p-value: < 2.2e-16

Model má vyššiu vysvetľovaciu silu než pôvodný – R² sa zvýšilo na 0.6747, teda model teraz vysvetľuje takmer 67,5 % variability cien ubytovania. Residual standard error klesol z ~813 na ~775, čo znamená, že predikcie modelu sú presnejšie. Premenná Duration days zostáva negatívna a významná, čo znamená, že dlhšie pobyty sú spojené s nižšími nákladmi na ubytovanie, pravdepodobne kvôli zľavám alebo výberu lacnejších lokalít pri dlhších pobytoch. Transportation cost je stále silne pozitívny a vysoko štatisticky významný — drahšia doprava znamená drahšie destinácie aj z pohľadu ubytovania. Nová premenná Lag_accommodation má kladný a významný koeficient (0.2478, p < 0.001), čo znamená, že predošlé ceny ubytovania súvisia s aktuálnymi cenami (ak sa predchádzajúce ubytovanie zvýši o 100 €, aktuálna cena vzrastie v priemere o 24,8 €.) Toto správanie naznačuje, že v dátach existuje čiastočná časová stabilita alebo trend, takže ceny ubytovania majú určitú zotrvačnosť. Všetky tri premenné sú štatisticky významné, takže každá z nich prispieva k zlepšeniu modelu. Intercept je takisto významný, čo znamená, že aj po vplyve všetkých premenných existuje systematická základná úroveň cien. Celkovo tento model lepšie vystihuje správanie cien ubytovania a eliminuje časovú závislosť, ktorá mohla byť skrytá v reziduách.

Vizualizácia modelu

travel_clean <- na.omit(travel)
model <- lm(Accommodation.cost ~ Duration..days. + Transportation.cost + Lag_accommodation, data = travel_clean)
travel_clean$fitted <- fitted(model)



ggplot(travel, aes(x = Duration..days., y = Accommodation.cost)) +
geom_point(color="steelblue", size=2) +
geom_smooth(method="lm", se=FALSE, color="red") +
theme_minimal() +
labs(title="Regresia: Ubytovanie vs. Dĺžka pobytu",
x="Duration (days)",
y="Accommodation cost")

Vidíme, že s rastúcou dĺžkou pobytu rastú aj náklady na ubytovanie. Čiara rastie smerom nahor, čo potvrdzuje pozitívny vzťah medzi počtom dní a celkovou cenou ubytovania.

This is an R Markdown Notebook. When you execute code within the notebook, the results appear beneath the code.

Try executing this chunk by clicking the Run button within the chunk or by placing your cursor inside it and pressing Ctrl+Shift+Enter.

plot(cars)
Add a new chunk by clicking the *Insert Chunk* button on the toolbar or by pressing *Ctrl+Alt+I*.

When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the *Preview* button or press *Ctrl+Shift+K* to preview the HTML file).

The preview shows you a rendered HTML copy of the contents of the editor. Consequently, unlike *Knit*, *Preview* does not run any R code chunks. Instead, the output of the chunk when it was last run in the editor is displayed.
