1 Úvod

Cieľom práce je modelovať faktory, ktoré ovplyvňujú celkové cestovné náklady. Turistické výdavky sú dôležité pre plánovanie dovoleniek, cestovný ruch aj ekonomické analýzy. Presné modely umožňujú sledovať trendy v nákladoch, predikovať budúce výdavky a hodnotiť dopady rôznych faktorov (dĺžka pobytu, typ ubytovania, spôsob dopravy). V predloženej práci budeme skúmať, ktoré premenné najviac ovplyvňujú celkové náklady na cestu.

2 Údaje

Údaje pochádzajú z datasetu Travel_data.csv, ktorý obsahuje informácie o 139 cestách: destinácia, dátum, dĺžka pobytu, vek a pohlavie cestujúceho, typ ubytovania, náklady na ubytovanie a dopravu. Vytvorili sme novú premennú TotalCost ako súčet ubytovania a dopravy. Chýbajúce hodnoty sme doplnili mediánom príslušnej premennej.

2.1 Základné štatistiky

Table 2.1: Table 2.2: Základné popisné štatistiky cestovných premenných
Statistic Duration..days. Accommodation.cost Transportation.cost TotalCost
Min. 5.000000 100.000 20.0000 200.000
1st Qu. 7.000000 600.000 200.0000 1000.000
Median 7.000000 900.000 550.0000 1400.000
Mean 7.605839 1245.109 644.4891 1895.073
3rd Qu. 8.000000 1200.000 800.0000 1900.000
Max. 14.000000 8000.000 3000.0000 10500.000
Table 2.3: Základné popisné štatistiky
Statistic Duration..days. Accommodation.cost Transportation.cost TotalCost
Min. 5.000000 100.000 20.0000 200.000
1st Qu. 7.000000 600.000 200.0000 1000.000
Median 7.000000 900.000 550.0000 1400.000
Mean 7.605839 1245.109 644.4891 1895.073
3rd Qu. 8.000000 1200.000 800.0000 1900.000
Max. 14.000000 8000.000 3000.0000 10500.000

Pri pohľade na premenné v tabuľke môžeme vidieť, že vbšetky premenné majú pozitívne zošikmené rozdelenie – priemer je vyšší než medián. Najväčší rozptyl je pri nákladoch na ubytovanie, môžeme pozorovať pravostranné zošikmenie, čo naznačuje, že niekoľko ciest bolo veľmi drahých. Dĺžka pobytu je relatívne stabilná – väčšina ciest trvala 7 dní.


Párové vzťahy medzi premennými

Figure 2.1: Párové vzťahy medzi premennými

Analýzou párových grafov medzi vysvetľovanou a vysvetľujúcimi veličinami uvedenými na Obr. 2.1 zisťujeme, že vzťah medzi dĺžkou pobytu a celkovými nákladmi nie je úplne lineárny.Mierne negatívny sklon naznačuje, že dlhšie cesty môžu byť relatívne lacnejšie (napr. nižšie náklady na deň). Môže to byť spôsobené tým, že pri dlhších pobytoch sa využívajú lacnejšie formy ubytovania alebo dopravy. Medzi ubytovaním a celkovými nákladmi existuje jasný silný pozitívny vzťah – čím vyššie náklady na ubytovanie, tým vyššie celkové náklady. Regresná čiara kopíruje trend bodov, čo naznačuje, že ubytovanie je hlavný determinujúci faktor celkových nákladov. Podobne pri vzťahu nákladov na dopravu a celkovými nákladmi existuje opäť silný pozitívny vzťah – vyššie náklady na dopravu vedú k vyšším celkovým nákladom. Boxplot ukazuje rozdelenie hodnoty celkových nákladov. Horné bodky nad boxom ukazujú odľahlé hodnoty – niektoré cesty boli výrazne drahšie. Rozdelenie je pravostranné zošikmené.

3 Výskumné hypotézy

Cieľom tejto práce je skúmať faktory, ktoré ovplyvňujú celkové náklady na cestu TotalCost. Predpokladáme, že najväčší vplyv budú mať priame nákladové položky – ubytovanie a doprava – ako aj dĺžka pobytu.

Naša pracovná hypotéza hovorí o štatisticky významnom vplyve všetkých troch vysvetľujúcich premenných: - Accommodation.cost – očakávame pozitívny vplyv (čím drahšie ubytovanie, tým vyššie celkové náklady) - Transportation.cost – očakávame pozitívny vplyv (čím drahšia doprava, tým vyššie celkové náklady) - Duration..days. – predpokladáme pozitívny vplyv, ale môže byť nelineárny (dlhšie cesty nemusia byť úmerne drahšie)

Hypotézy budeme testovať pomocou lineárnej regresie: \[ TotalCost_i = \beta_0 + \beta_1 \cdot Duration..days._i + \beta_2 \cdot Accommodation.cost_i + \beta_3 \cdot Transportation.cost_i + u_i \]

kde index \(i\) označuje jednotlivé cesty a $u_i ∼ N(0, ^2) $ je náhodná zložka modelu.

Hypotéza

Predpokladáme štatisticky významné vzťahy \(\beta_1 > 0\),\(\beta_2 > 0\),\(\beta_3 > 0\), ktoré budeme testovať s pomocou t-testov štatistickej významnosti regresných koeficientov.

4 Základný model

Table 4.1: Regresné koeficienty modelu celkových nákladov
Odhady koeficientov
term estimate std.error statistic p.value
(Intercept) 24.1297 28.1314 0.8578 0.3926
Duration..days. -2.2283 3.5210 -0.6328 0.5279
Accommodation.cost 0.9912 0.0068 145.3203 0.0000
Transportation.cost 1.0143 0.0155 65.2815 0.0000
Table 4.2: Kvalita vyrovnania modelu TotalCost
Statistic Value
N (Observations) 137.0000
R-squared 0.9988
Adjusted R-squared 0.9988
F-statistic 36540.9333
F-test p-value 0.0000
AIC 1535.7913
Residual Std. Error 64.3578

Tabuľka 4.1 nám poskytuje súbor odhadovaných regresných koeficientov. Naša hypotéza sa čiastočne potvrdila Dve hlavné nákladové položky (ubytovanie a doprava) majú silný pozitívny vplyv na celkové náklady – presne ako sme predpokladali. Dĺžka pobytu sa ukázala ako nevýznamná – možno má nelineárny vplyv, alebo je jej efekt absorbovaný cez náklady. Ak hovoríme o vlastnostiach modelu ako celku (pozri Tabuľku 4.2), model vysvetľuje až 99,88 % variability vysvetľovanej premennej a ako celok je štatisticky veľmi významný (pozri koeficient determinácie a výsledky F testu).

Nasledovné podobrázky Obrázka (4.1) nám dávajú predstavu o správaní sa chýb (rezíduí) modelu (error)
Diagnostické grafy regresného modelu

Figure 4.1: Diagnostické grafy regresného modelu

4.1 Grafové interpretácie rezíduí

  1. Residuals vs Fitted - červená LOESS krivka by mala byť približne rovná → to by znamenalo, že model je lineárny a chyby sú náhodné.V našom grafe sa krivka mierne ohýba, čo naznačuje možnú nelinearitu – model nemusí úplne zachytiť vzťah medzi vysvetľujúcimi premennými a TotalCost. Označené body (napr. 82, 128, 132) môžu byť odľahlé pozorovania.
  2. Q-Q residuals - ak body ležia na diagonále → rezíduá sú približne normálne rozdelené. V našom grafe sú body v strede blízko čiary, ale na koncoch sa odchyľujú → to naznačuje zošikmenie alebo odľahlé hodnoty.
  3. Scale-Location - červená LOESS krivka by mala byť približne rovná. V našom grafe je mierne zakrivená, čo naznačuje slabú heteroskedasticitu – rozptyl chýb sa mení v závislosti od predikovaných hodnôt.
  4. Residuals vs Leverage - väčšina bodov má nízku páku - model nie je ovplyvnený jednotlivými pozorovaniami. Body 82, 1280, 1320 majú vyššiu páku, ale neprekračujú Cookove vzdialenosti (≈0,5 alebo 1,0).) - nie sú extrémne vplyvné. To znamená, že síce sú odľahlé, neohrozujú stabilitu modelu.

4.2 Niektoré základné testy rezíduí

4.2.1 Test normality

## 
##  Jarque Bera Test
## 
## data:  residuals
## X-squared = 97046, df = 2, p-value < 2.2e-16

Na overenie predpokladu normality rezíduí sme použili Jarque–Bera test - (Jarque-Berra test - p-value = 0 < 0.05). Keďže p‑hodnota je výrazne menšia než 0.05, nulovú hypotézu o normálnom rozdelení rezíduí zamietame. To znamená, že rezíduá nášho modelu nie sú normálne rozdelené. Porušenie predpokladu normality je v ekonomických dátach bežné, najmä pri prítomnosti odľahlých hodnôt alebo zošikmených rozdelení. Odhady koeficientov lineárnej regresie (OLS) zostávajú nestranné a konzistentné, avšak testy významnosti môžu byť skreslené. Preto v ďalšej analýze využijeme robustné odhady štandardných chýb (White HC), ktoré zmierňujú dôsledky porušenia normality.

4.2.2 Test odľahlých hodnôt

## No Studentized residuals with Bonferroni p < 0.05
## Largest |rstudent|:
##      rstudent unadjusted p-value Bonferroni p
## 128 0.5489366            0.58398           NA

Test odľahlých hodnôt neidentifikoval žiadne pozorovanie, ktoré by štatisticky významne ovplyvňovalo odhad regresného modelu (Bonferroni p-hodnota = NA). Pozorovanie č. 128 má najväčšiu chybu, ale tá nie je extrémna ani významná.

5 Heteroskedasticita

Prítomnosť heteroskedasticity spôsobuje nesprávne vyhodnocovanie t‑testov významnosti jednotlivých regresných koeficientov. Preto je nutné heteroskedasticitu: detekovať (vizuálne a pomocou testov), a v prípade jej prítomnosti odstrániť. Aj v našom prípade sme sa pokúsili o vizuálne vyhodnotenie diagnostických grafov (Scale‑Location graf sme už skúmali vyššie). Tentokrát sa zameriavame na závislosť štvorcov rezíduí od vysvetľujúcich premenných, u ktorých máme podozrenie, že môžu heteroskedasticitu spôsobovať. Obrázok 5.1 naznačuje, že hlavným zdrojom možnej heteroskedasticity sú najmä premenná Accommodation.cost a celková úroveň predikovaných nákladov (TotalCost). Posledný podobrázok (vpravo dole), ktorý vyjadruje závislosť štvorcov rezíduí od vyrovnaných hodnôt, ukazuje, že rozptyl chýb sa mierne zväčšuje pri vyšších hodnotách TotalCost. To je typický prejav heteroskedasticity.

Skúmanie heteroskedasticity

Figure 5.1: Skúmanie heteroskedasticity

5.1 Testovanie prítomnosti heteroskedasticity

Na overenie predpokladu konštantného rozptylu rezíduí (homoskedasticity) sme použili Breusch–Paganov test. Výsledok testu bol (p-hodnota = 0.61 > 0.05). Keďže p‑hodnota je výrazne vyššia než 0.05, nezamietame nulovú hypotézu, ktorá predpokladá homoskedasticitu. To znamená, že rezíduá modelu majú približne konštantný rozptyl a predpoklad homoskedasticity je splnený. Výsledok testu naznačuje, že nie je prítomná heteroskedasticita, teda rozptyl chýb sa nemení v závislosti od vysvetľujúcich premenných. Tým pádom môžeme považovať štandardné t‑testy koeficientov za spoľahlivé, bez potreby robustných odhadov. Vizuálne grafy síce naznačovali mierne zakrivenie, ale štatistický test to nepotvrdil.

5.2 Odhady White Heteroskedasticity Consistent

Možným riešením problému heteroskedasticity je použitie tzv. White heteroskedasticity Consistent Matrix (WHC), kde v t testoch významnosti regresných koeficientov sa používajú “hrubšie” odhady rozptylov regresných koeficientov.Výsledky sú uvedené v 5.1.

Table 5.1: Odhady koeficientov – White HC
Robustné odhady
term estimate std.error statistic p.value
(Intercept) 24.1297 24.6268 0.9798 0.3290
Duration..days. -2.2283 2.2998 -0.9689 0.3344
Accommodation.cost 0.9912 0.0091 108.6855 0.0000
Transportation.cost 1.0143 0.0148 68.5236 0.0000

Všimnime si, že Accommodation.cost a Transportation.cost majú významný pozitívny vplyv na TotalCost (p‑hodnota < 0.001), čo je očakávané – vyššie náklady vedú k vyššej celkovej cene. Duration..days. má nevýznamný negatívny koeficient – dĺžka pobytu sama o sebe nezvyšuje náklady, pravdepodobne preto, že dlhšie pobyty sú spojené s nižšími dennými nákladmi. Intercept (konštanta) je taktiež nevýznamná, čo je bežné pri modeli bez centrovanej závislej premennej.

6 Špecifikácia modelu

Správna špecifikácia modelu je kľúčová pre spoľahlivé odhady a interpretáciu výsledkov. V tejto časti sa zameriame na overenie funkčnej formy modelu – či je lineárna špecifikácia postačujúca, alebo je potrebné niektoré premenné transformovať.

6.1 Ramsey RESET test

Ramsey RESET test je štandardný test správnej špecifikácie funkčnej formy regresného modelu. Používa sa najmä na overenie, či lineárna štruktúra modelu postačuje, alebo či by bolo vhodné uvažovať o nelineárnych transformáciách vysvetľujúcich premenných. Test je možné použiť aj v prípadoch, keď do modelu neboli zahrnuté všetky relevantné regresory.

Náš pôvodný regresný model má tvar (??).Ak je náš model správne špecifikovaný, potom pridaním mocnín vyrovnaných hodnôt (napr. \(\hat y_t^2\), \(\hat{y}_t^3\)) by sa pôvodný model nemal podstatne zlepšiť, teda budeme testovať pôvodný model: \[TotalCost_i = \beta_0 + \beta_1 Duration..days._{i} + \beta_2 Acomodation.cost_{i} + \beta_2 Transportation.cost_{i} + \gamma_1\hat{TotalCost}_i^2 + \gamma_2\hat{TotalCost}_i^3 + \nu_i,\]

Ramsey RESET test sme aplikovali na náš pôvodný lineárny model. Výsledok testu (RESET = 1.15, df1 = 2, df2 = 131, p‑hodnota = 0.3198) nepreukázal chybu špecifikácie. Nulová hypotéza o správnej funkčnej forme modelu teda nebola zamietnutá, čo znamená, že lineárna štruktúra modelu je postačujúca a nie je potrebné zavádzať nelineárne transformácie vysvetľujúcich premenných.

6.2 Grafická analýza

6.2.1 Graf Residuals vs. Fitted

Grafická analýza vzťahu medzi vyrovnanými hodnotami a rezíduami vychádza z obrázku 5.1 Scale Location uvedeného v predchádzajúcej časti. Rezíduá nevykazujú výrazný nenáhodný vzor, červená LOESS krivka sa od priamky odlišuje len mierne. To naznačuje, že lineárna špecifikácia modelu je postačujúca a nie je potrebné zavádzať funkčné transformácie vysvetľujúcich premenných.

6.2.2 Grafy C+R

Na základe Component + Residual grafov sme vizuálne overili vzťah medzi jednotlivými vysvetľujúcimi premennými a závislou premennou TotalCost. Premenné Accommodation.cost a Transportation.cost vykazujú silný lineárny vzťah – LOESS krivka sa takmer prekrýva s priamkou, čo naznačuje správnu špecifikáciu. Premenná Duration..days. má slabší a takmer vodorovný vzťah, bez výrazného zakrivenia. To naznačuje, že jej vplyv je buď nevýznamný, alebo lineárny. Na základe týchto grafov neidentifikujeme potrebu nelineárnej transformácie žiadnej z premenných.

6.3 Nelineárna špecifikácia

V literatúre sa často odporúča overiť, či lineárna špecifikácia modelu postačuje, alebo či je potrebné zaviesť nelineárne transformácie vysvetľujúcich premenných (napr. kvadratické členy). Takéto rozšírenie môže zlepšiť vysvetľovaciu schopnosť modelu, ak pôvodná štruktúra nezachytáva všetky vzťahy. Náš model je však správne špecifikovaný už v lineárnej forme. Preto nebudeme zavádzať kvadratické transformácie a ostávame pri pôvodnom lineárnom modeli.

7 Multikolinearita

Po autokorelácii a heteroskedasticite rezíduí je multikolinearita tretím závažným porušením predpokladov použitia metódy najmenších štvorcov. V našom prípade skúmame, či medzi vysvetľujúcimi premennými cestovného modelu (náklady na ubytovanie, dopravu, dĺžka pobytu, celkové náklady) nevznikajú silné lineárne závislosti. Tie by mohli spôsobiť nestabilitu odhadovaných regresných koeficientov a znížiť spoľahlivosť interpretácie modelu.


7.1 Detekcia multikolinearity

7.1.1 Východiskový model a údaje

Budeme pracovať s regresným modelom z minulých cvičení, teda s rovnicou \[ TotalCost_i = \beta_0 + \beta_1 \cdot Duration..days._i + \beta_2 \cdot Accommodation.cost_i + \beta_3 \cdot Transportation.cost_i + u_i \] Pri odhade základného regresného modelu (pozri Tabuľky 4.1 a 4.2) pozorujeme rozdiely v rádoch odhadovaných regresných koeficientov – napríklad koeficient pri Accommodation.cost je rádovo vyšší než koeficient pri Duration..days.. Tento fakt naznačuje, že by mohlo ísť o problém multikolinearity, ktorý je potrebné ďalej preskúmať.

7.1.2 Korelačná matica

Table 7.1: Korelačná matica vysvetľujúcich premenných
Korelačná matica
Accommodation.cost Transportation.cost Duration..days. TotalCost
Accommodation.cost 1.000 0.786 -0.127 0.979
Transportation.cost 0.786 1.000 -0.001 0.893
Duration..days. -0.127 -0.001 1.000 -0.094
TotalCost 0.979 0.893 -0.094 1.000

Korelačná matica vysvetľujúcich premenných (pozri Tabuľku 7.1) ukazuje, že medzi premennými Accommodation.cost a Transportation.cost existuje pomerne silná pozitívna korelácia (r = 0.787), čo naznačuje, že vyššie náklady na ubytovanie bývajú často sprevádzané aj vyššími nákladmi na dopravu. Premenná Duration..days. má slabú negatívnu koreláciu s nákladovými premennými, najmä s Accommodation.cost (r = –0.130), čo môže naznačovať, že dlhšie pobyty sú priemerne lacnejšie na deň. Premenná TotalCost je silne korelovaná s Accommodation.cost (r = 0.981) a Transportation.cost (r = 0.893), čo potvrdzuje, že tieto dve zložky najviac ovplyvňujú celkové náklady na cestu. Žiadna z korelácií nepresahuje kritickú hranicu, preto sa nepredpokladá vážna multikolinearita medzi vysvetľujúcimi premennými.

7.1.3 Variance Inflation Factor (VIF)

Table 7.2: Variance inflation factor (VIF) pre vysvetľujúce premenné
Diagnostika multikolinearity
Premenná VIF
Duration..days. 1.044
Accommodation.cost 2.732
Transportation.cost 2.688

Diagnostika multikolinearity pomocou faktora inflácie variancie (VIF) ukazuje, že žiadna z vysvetľujúcich premenných neprekračuje kritickú hranicu (VIF > 5). Hodnoty VIF sa pohybujú v rozmedzí od 1.046 do 2.751, čo naznačuje, že medzi premennými neexistuje výrazná lineárna závislosť. Regresné koeficienty sú preto stabilné a interpretovateľné, a model nie je zaťažený multikolinearitou.

7.1.4 Condition Number

Hodnota ukazovateľa Condition number dosiahla v našom modeli hodnotu 372.5, čo podľa intuitívneho kritéria signalizuje veľmi vážnu multikolinearitu. Tento výsledok naznačuje, že medzi vysvetľujúcimi premennými existuje silná lineárna závislosť, ktorá spôsobuje nestabilitu odhadovaných regresných koeficientov. V dôsledku toho môže byť interpretácia jednotlivých regresorov nespoľahlivá, a je vhodné zvážiť úpravu modelu

7.2 Riešenie problému multikolinearity

7.2.1 Vynechanie premennej

Table 7.3: Upravený koeficient determinácie pri vynechaní jednotlivých premenných
Premenná Adj. R-sqr
Accommodation 0.8034895
Transportation 0.9593620
Duration 0.9987664

Na základe analýzy upraveného koeficientu determinácie (pozri Tabuľku 7.3) sme testovali, ako sa mení kvalita modelu pri vynechaní jednotlivých vysvetľujúcich premenných. Vynechanie premennej Accommodation.cost spôsobilo najväčší pokles Adjusted R², čo naznačuje, že ide o kľúčový regresor. Premenná Transportation.cost má menší vplyv na kvalitu modelu, a jej vynechanie nevedie k výraznému zhoršeniu. Zaujímavým zistením je, že vynechanie premennej Duration..days. dokonca zvyšuje Adjusted R², čo naznačuje, že táto premenná môže byť nadbytočná alebo zaťažená šumom. Na základe týchto výsledkov by sme pri úprave modelu uprednostnili zachovanie premennej Accommodation.cost a zvážili vynechanie Duration..days..

7.2.2 Úprava premennej, ktorá zachová interpretovateľnosť

Table 7.4: Ukážka dátového súboru – prvých 6 pozorovaní
Data.frame udaje
Trip.ID Destination Start.date End.date Duration..days. Traveler.name Traveler.age Traveler.gender Traveler.nationality Accommodation.type Accommodation.cost Transportation.type Transportation.cost TotalCost
1 London, UK 01/05/2023 08/05/2023 7 John Smith 35 Male American Hotel 1200 Flight 600 1800
2 Phuket, Thailand 15/06/2023 20/06/2023 5 Jane Doe 28 Female Canadian Resort 800 Flight 500 1300
3 Bali, Indonesia 01/07/2023 08/07/2023 7 David Lee 45 Male Korean Villa 1000 Flight 700 1700
4 New York, USA 15/08/2023 29/08/2023 14 Sarah Johnson 29 Female British Hotel 2000 Flight 1000 3000
5 Tokyo, Japan 10/09/2023 17/09/2023 7 Kim Nguyen 26 Female Vietnamese Airbnb 700 Train 200 900
6 Paris, France 05/10/2023 10/10/2023 5 Michael Brown 42 Male American Hotel 1500 Flight 800 2300
Table 7.5: Regresné koeficienty modelu s upravenými premennými
Odhady koeficientov
Premenná Odhad Štandardná chyba t-hodnota p-hodnota
(Intercept) 24.1297 28.1314 0.8578 0.3926
Acc100 99.1250 0.6821 145.3203 0.0000
Trans100 101.4255 1.5537 65.2815 0.0000
Duration..days. -2.2283 3.5210 -0.6328 0.5279
Table 7.6: Faktor inflácie variancie (VIF) pre model s upravenými premennými
Premenná VIF
Acc100 2.732
Trans100 2.688
Duration..days. 1.044

Vzhľadom na rozdielne rády vysvetľujúcich premenných sme upravili premenné Accommodation.cost a Transportation.cost delením 100, čím sme ich vyjadrili v stovkách eur. Táto úprava zabezpečila, že regresné koeficienty sa pohybujú v porovnateľných rádoch, čo zlepšilo ich interpretovateľnosť. Hodnoty VIF ostali v akceptovateľnom rozsahu, čo naznačuje, že medzi premennými neexistuje výrazná lineárna závislosť. Condition number sa znížil z pôvodnej hodnoty 373.05 na 6.44, čo predstavuje výrazné zlepšenie – model už nie je zaťažený multikolinearitou. Upravený model si zachoval vysokú kvalitu vyrovnania a poskytuje stabilnejšie a spoľahlivejšie odhady regresných koeficientov.

8 Návrh záverečného modelu

Výsledkom ekonometrického experimentovania sme došli k záverečnej forme modelu, ktorá má tvar: \[ CostPerDay_i = \beta_0 + \beta_1 Duration..days._i + \beta_2 \frac{Accomodation.cost_i}{1000} + \beta_3 \frac{Transportation.cost_i}{1000} + u_i \tag{8.1} \] Výsledky odhadu modelu (8.1) sú uvedené v Tabuľkách 8.1 a 8.2.

Table 8.1: Regresné koeficienty modelu priemerných denných nákladov
Odhady koeficientov
term estimate std.error statistic p.value
(Intercept) 199.5394 14.6337 13.6356 0
Acc100 14.1610 0.3548 39.9092 0
Trans100 15.7516 0.8082 19.4896 0
Duration..days. -28.1054 1.8316 -15.3447 0
Table 8.2: Kvalita vyrovnania modelu priemerných denných nákladov
Statistic Value
N (Observations) 137.0000
R-squared 0.9857
Adjusted R-squared 0.9854
F-statistic 3065.6235
F-test p-value 0.0000
AIC 1356.7170
Residual Std. Error 33.4785

Alternatívny model s premennou CostPerDay poskytol realistickejší pohľad na správanie sa cestovných nákladov. Premenné Accomodation.cost/100 a Transportation.cost/100 majú pozitívny a štatisticky významný vplyv na priemerné denné náklady. Premenná Duration..days. má negatívny vplyv, čo naznačuje, že dlhšie pobyty sú priemerne lacnejšie na deň. Model vysvetľuje až 98.7 % variability závislej premennej a je ako celok štatisticky významný.

8.1 Diagnostické grafy rezíduí

Diagnostické grafy rezíduí (Obrázok 8.1) ukazujú, že model spĺňa základné predpoklady lineárnej regresie. Graf Residuals vs Fitted neodhaľuje výrazné nelineárne vzťahy. Q-Q plot naznačuje mierne porušenie normality, čo potvrdil aj Jarque–Bera test, avšak vzhľadom na veľkosť vzorky to nepovažujeme za kritické. Scale-Location graf potvrdzuje neprítomnosť heteroskedasticity. Graf Residuals vs Leverage identifikoval niekoľko odľahlých pozorovaní (Trip129, Trip130, Trip140), ktoré však neprekračujú hranice Cookovej vzdialenosti, a preto neovplyvňujú odhady regresných koeficientov.

Diagnostické grafy regresného modelu

Figure 8.1: Diagnostické grafy regresného modelu


8.2 Niektoré základné testy rezíduí

8.2.1 Test normality

## 
##  Jarque Bera Test
## 
## data:  residuals
## X-squared = 279.32, df = 2, p-value < 2.2e-16

Jarque–Bera test (X² = 329.93, df = 2, p-value < 0.001) zamietol hypotézu normality rezíduí. Tento výsledok naznačuje, že rezíduá nie sú normálne rozdelené, čo je v súlade aj s Q-Q grafom, kde sa pozorovania odchyľujú od teoretickej priamky. Vzhľadom na veľkosť vzorky (136 pozorovaní) a vysokú kvalitu modelu (R² = 0.987) nepovažujeme toto porušenie za kritické, keďže odhady koeficientov zostávajú stabilné a interpretovateľné.

8.2.2 Test odľahlých hodnôt

##      rstudent unadjusted p-value Bonferroni p
## 130  5.154520         9.0649e-07   0.00012419
## 129 -4.278064         3.5927e-05   0.00492200
## 134  4.157161         5.7603e-05   0.00789160
## 127  3.858221         1.7784e-04   0.02436400
## 133 -3.743061         2.7029e-04   0.03703000

Test odľahlých hodnôt identifikoval 5 pozorovaní (Trip130, Trip129, Trip134, Trip127, Trip133), ktoré výrazne vyčnievajú z predikcie modelu. Všetky tieto pozorovania mali Bonferroni upravené p-hodnoty < 0.05, čo naznačuje, že ide o štatisticky významné outliery. Napriek tomu žiadne z nich neprekročilo hranice Cookovej vzdialenosti v diagnostických grafoch, a preto sme sa rozhodli ponechať ich v databáze. Ich vplyv na odhad koeficientov je obmedzený, a model si zachováva stabilitu aj pri ich zahrnutí.


8.3 Heteroskedasticita

Skúmanie heteroskedasticity

Figure 8.2: Skúmanie heteroskedasticity

## 
##  studentized Breusch-Pagan test
## 
## data:  model_zaver
## BP = 49.802, df = 3, p-value = 8.802e-11

Obrázok 8.2 vizualizuje závislosť štvorcov rezíduí od vysvetľujúcich premenných. V prípade Accommodation.cost/100 LOESS krivka naznačuje mierne nelineárne správanie rozptylu – najprv rastie, potom klesá. V prípade Transportation.cost100 je krivka výrazne stúpajúca, čo naznačuje, že vyššie náklady na dopravu sú spojené s väčšou variabilitou chýb. Tieto vizuálne náznaky heteroskedasticity sme doplnili o Breusch–Pagan test (BP = 52.80, df = 3, p-value < 0.001), ktorý zamietol hypotézu konštantného rozptylu rezíduí. Tento výsledok naznačuje, že v modeli existuje heteroskedasticita, čo je v súlade aj s vizuálnou analýzou grafov rezíduí. Vzhľadom na štatistickú významnosť by bolo vhodné zvážiť robustné odhady štandardných chýb.

8.4 Robustné štandardné chyby

## 
## t test of coefficients:
## 
##                  Estimate Std. Error t value  Pr(>|t|)    
## (Intercept)     199.53944   15.38739  12.968 < 2.2e-16 ***
## Acc100           14.16099    0.32303  43.838 < 2.2e-16 ***
## Trans100         15.75157    1.44914  10.870 < 2.2e-16 ***
## Duration..days. -28.10535    2.25224 -12.479 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Vzhľadom na výsledky Breusch–Pagan testu sme odhadli model aj s robustnými štandardnými chybami (HC1). Výsledky ukázali, že všetky koeficienty zostávajú štatisticky významné aj po zohľadnení heteroskedasticity. To potvrdzuje stabilitu odhadov a posilňuje dôveru v interpretáciu modelu. Premenné Accommodation.cost/100 a Transportation.cost/100 majú pozitívny vplyv na priemerné denné náklady, zatiaľ čo Duration..days. má negatívny vplyv, čo naznačuje úsporu pri dlhších pobytoch.

9 Zhluková analýza

Na začiatku sme si pripravili dátový súbor, ktorý obsahuje informácie o jednotlivých cestách. Každý riadok predstavuje jednu cestu, pričom máme k dispozícii premenné Accommodation.cost (náklady na ubytovanie), Transportation.cost (náklady na dopravu) a Duration..days. (dĺžka pobytu v dňoch). Z týchto údajov sme následne odviedli aj celkový náklad cesty (TotalCost).

Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné, aby všetky premenné boli definované na rovnakejškále. Použíli sme pritom tzv. z-škálovanie

9.1 Príprava údajov a data.frame so šlálovanými údajmi

##                     Accommodation.cost Transportation.cost Duration..days.
## Accommodation.cost           1.0000000         0.787319337    -0.129947628
## Transportation.cost          0.7873193         1.000000000    -0.001185487
## Duration..days.             -0.1299476        -0.001185487     1.000000000
## TotalCost                    0.9805184         0.893087368    -0.095198379
##                       TotalCost
## Accommodation.cost   0.98051842
## Transportation.cost  0.89308737
## Duration..days.     -0.09519838
## TotalCost            1.00000000

Pred samotným zhlukovaním sme analyzovali korelačnú maticu vstupných premenných. Korelácia medzi Accommodation.cost a Transportation.cost bola pomerne silná pozitívna (r = 0.787), čo naznačuje, že vyššie náklady na ubytovanie bývajú často sprevádzané aj vyššími nákladmi na dopravu. Premenná Duration..days. má slabú negatívnu koreláciu s nákladovými premennými – najmä s Accommodation.cost (r = –0.130), čo môže naznačovať, že dlhšie pobyty sú priemerne lacnejšie na deň. Premenná TotalCost je veľmi silne korelovaná s Accommodation.cost (r = 0.981) a Transportation.cost (r = 0.893), čo potvrdzuje, že tieto dve zložky najviac ovplyvňujú celkové náklady na cestu. Žiadna z korelácií nepresahuje kritickú hranicu 0.9, preto sme ponechali všetky premenné v analýze.

9.2 Vzdialenostná matica

Na základe štandardizovaných údajov sme vypočítali Euklidovskú vzdialenosť medzi jednotlivými cestami. \[ d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2} \] Táto metrika vyjadruje mieru podobnosti medzi cestami z hľadiska ich nákladového profilu. Výsledkom je vzdialenostná matica, kde každá bunka predstavuje vzdialenosť medzi dvojicou ciest. Čím je hodnota nižšia, tým sú si cesty podobnejšie (napr. podobné náklady na ubytovanie, dopravu a dĺžku pobytu). Naopak, vyššie hodnoty indikujú výrazné rozdiely – napríklad medzi krátkym nízkonákladovým výletom a dlhým luxusným pobytom.

Tab. 3

Table 9.1: Euklidovská vzdialenostná matica medzi cestami - ukážka
Trip1 Trip2 Trip3 Trip4 Trip5 Trip6 Trip7 Trip8 Trip9 Trip10
Trip1 0.00 1.32 0.23 4.50 0.92 1.34 2.20 0.28 0.72 1.31
Trip2 1.32 0.00 1.32 5.81 1.37 0.91 3.35 1.26 1.38 2.15
Trip3 0.23 1.32 0.00 4.51 0.99 1.35 2.09 0.22 0.88 1.43
Trip4 4.50 5.81 4.51 0.00 4.81 5.64 2.84 4.56 4.69 4.39
Trip5 0.92 1.37 0.99 4.81 0.00 1.88 2.57 0.77 0.46 2.14
Trip6 1.34 0.91 1.35 5.64 1.88 0.00 3.29 1.43 1.70 1.55
Trip7 2.20 3.35 2.09 2.84 2.57 3.29 0.00 2.15 2.59 2.64
Trip8 0.28 1.26 0.22 4.56 0.77 1.43 2.15 0.00 0.72 1.58
Trip9 0.72 1.38 0.88 4.69 0.46 1.70 2.59 0.72 0.00 1.75
Trip10 1.31 2.15 1.43 4.39 2.14 1.55 2.64 1.58 1.75 0.00

9.3 Hierarchické zhlukovanie (Wardova metóda)

Obr. X: Hierarchické zhlukovanie – dendrogram s Ward.D2 metódou. Červená čiara definuje tri klastry.

(#fig:r fig-dendrogram)Obr. X: Hierarchické zhlukovanie – dendrogram s Ward.D2 metódou. Červená čiara definuje tri klastry.

Table 9.2: Príslušnosť ciest do klastrov - ukážka
Zaradenie ciest do klastrov
Cesta Klaster
Trip1 1
Trip2 1
Trip3 2
Trip4 1
Trip5 1
Trip6 2
Trip7 1
Trip8 1
Trip9 1
Trip10 2

Na základe vypočítanej vzdialenostnej matice sme vykonali hierarchické zhlukovanie pomocou Wardovej metódy. Táto aglomeratívna metóda postupne spája jednotlivé pozorovania (cesty) do klastrov tak, aby minimalizovala vnútroklastrovú variabilitu. Výsledný dendrogram (Obr. X) vizualizuje proces zhlukovania – čím nižšie sa dve cesty spoja, tým sú si podobnejšie z hľadiska nákladového profilu. Na základe vizuálnej analýzy dendrogramu sme zvolili rozdelenie na tri klastre, ktoré sú oddelené červenou čiarou. Tieto klastre predstavujú tri typy ciest: -Klaster 1: cesty s vysokými nákladmi (luxusné pobyty), -Klaster 2: nízkonákladové výlety, -Klaster 3: stredná kategória – priemerné náklady a dĺžka pobytu.

9.4 Deskriptívne štatistiky výsledkov

Tabuľka Tab 4 analyzuje vnútroklastrovú (WSS) a medziklastrovú (BSS) variabilitu jednotlivých premenných. Premenná Accommodation.cost vykazuje najvyšší podiel medziklastrovej variability, čo naznačuje, že je najlepším separátorom klastrov – teda najviac prispieva k rozlíšeniu medzi typmi ciest. Premenná Duration..days. má podiel BSS/TSS = 0.541, čo je stredná hodnota – dĺžka pobytu má určitý rozlišovací potenciál, ale nie je dominantná. Premenné Transportation.cost a TotalCost sa nepodarilo vyčísliť (NA), pravdepodobne kvôli technickým obmedzeniam alebo chýbajúcim hodnotám. Napriek tomu môžeme konštatovať, že klasifikácia ciest do klastrov je podložená rozdielmi v nákladových premenných, najmä v ubytovaní.

Table 9.3: Vysvetlenie vnútroklastrovej a medziklastrovej variability z hľadiska jednotlivých premenných
Analýza variability podľa premenných
Premenná TSS WSS BSS Podiel BSS/TSS
Trip.ID 135 107.333 27.667 0.205
Duration..days. 135 133.529 1.471 0.011
Traveler.age 135 56.446 78.554 0.582
Accommodation.cost 135 32.583 102.417 0.759
Transportation.cost 135 47.488 87.512 0.648
TotalCost 135 27.571 107.429 0.796
Table 9.4: Centroidy – priemerné hodnoty (automatický výber premenných)
Priemerné hodnoty premenných podľa klastrov
Klaster Trip.ID (priem.) Duration..days. (priem.) Traveler.age (priem.) Accommodation.cost (priem.) Transportation.cost (priem.) TotalCost (priem.)
1 -0.15 0.05 -0.42 -0.30 -0.27 -0.30
2 -0.02 -0.08 1.50 -0.05 -0.06 -0.05
3 1.59 -0.32 0.10 3.06 2.83 3.13

Tabuľka centroidov Tab 5 zobrazuje priemerné hodnoty jednotlivých premenných v rámci každého klastra (jednotlivé klastre sú zadefinované vyššie). Tieto rozdiely potvrdzujú, že zvolená klasifikácia ciest do troch klastrov má jasné ekonomické opodstatnenie a odráža reálne rozdiely v cestovnom správaní.

9.5 Záver

Predložená analýza sa zaoberá klasifikáciou individuálnych ciest na základe ich nákladového profilu, pričom zohľadňuje náklady na ubytovanie, dopravu, dĺžku pobytu a celkové výdavky. Pomocou hierarchickej zhlukovej analýzy boli cesty rozdelené do troch klastrov, ktoré sa výrazne líšia z hľadiska ekonomickej náročnosti. Klasifikácia odhalila skupinu nízkonákladových výletov, stredne nákladných pobytov a luxusných ciest s výrazne vyššími výdavkami. Táto segmentácia umožňuje lepšie porozumieť štruktúre cestovného správania a môže slúžiť ako podklad pre odporúčania pri plánovaní rozpočtu, optimalizácii výdavkov alebo tvorbe cieľových ponúk v oblasti cestovného ruchu.