Cieľom práce je modelovať faktory, ktoré ovplyvňujú celkové cestovné náklady. Turistické výdavky sú dôležité pre plánovanie dovoleniek, cestovný ruch aj ekonomické analýzy. Presné modely umožňujú sledovať trendy v nákladoch, predikovať budúce výdavky a hodnotiť dopady rôznych faktorov (dĺžka pobytu, typ ubytovania, spôsob dopravy). V predloženej práci budeme skúmať, ktoré premenné najviac ovplyvňujú celkové náklady na cestu.
Údaje pochádzajú z datasetu Travel_data.csv, ktorý obsahuje informácie o 139 cestách: destinácia, dátum, dĺžka pobytu, vek a pohlavie cestujúceho, typ ubytovania, náklady na ubytovanie a dopravu. Vytvorili sme novú premennú TotalCost ako súčet ubytovania a dopravy. Chýbajúce hodnoty sme doplnili mediánom príslušnej premennej.
| Statistic | Duration..days. | Accommodation.cost | Transportation.cost | TotalCost |
|---|---|---|---|---|
| Min. | 5.000000 | 100.000 | 20.0000 | 200.000 |
| 1st Qu. | 7.000000 | 600.000 | 200.0000 | 1000.000 |
| Median | 7.000000 | 900.000 | 550.0000 | 1400.000 |
| Mean | 7.605839 | 1245.109 | 644.4891 | 1895.073 |
| 3rd Qu. | 8.000000 | 1200.000 | 800.0000 | 1900.000 |
| Max. | 14.000000 | 8000.000 | 3000.0000 | 10500.000 |
| Statistic | Duration..days. | Accommodation.cost | Transportation.cost | TotalCost |
|---|---|---|---|---|
| Min. | 5.000000 | 100.000 | 20.0000 | 200.000 |
| 1st Qu. | 7.000000 | 600.000 | 200.0000 | 1000.000 |
| Median | 7.000000 | 900.000 | 550.0000 | 1400.000 |
| Mean | 7.605839 | 1245.109 | 644.4891 | 1895.073 |
| 3rd Qu. | 8.000000 | 1200.000 | 800.0000 | 1900.000 |
| Max. | 14.000000 | 8000.000 | 3000.0000 | 10500.000 |
Pri pohľade na premenné v tabuľke môžeme vidieť, že vbšetky premenné majú pozitívne zošikmené rozdelenie – priemer je vyšší než medián. Najväčší rozptyl je pri nákladoch na ubytovanie, môžeme pozorovať pravostranné zošikmenie, čo naznačuje, že niekoľko ciest bolo veľmi drahých. Dĺžka pobytu je relatívne stabilná – väčšina ciest trvala 7 dní.
Figure 2.1: Párové vzťahy medzi premennými
Analýzou párových grafov medzi vysvetľovanou a vysvetľujúcimi veličinami uvedenými na Obr. 2.1 zisťujeme, že vzťah medzi dĺžkou pobytu a celkovými nákladmi nie je úplne lineárny.Mierne negatívny sklon naznačuje, že dlhšie cesty môžu byť relatívne lacnejšie (napr. nižšie náklady na deň). Môže to byť spôsobené tým, že pri dlhších pobytoch sa využívajú lacnejšie formy ubytovania alebo dopravy. Medzi ubytovaním a celkovými nákladmi existuje jasný silný pozitívny vzťah – čím vyššie náklady na ubytovanie, tým vyššie celkové náklady. Regresná čiara kopíruje trend bodov, čo naznačuje, že ubytovanie je hlavný determinujúci faktor celkových nákladov. Podobne pri vzťahu nákladov na dopravu a celkovými nákladmi existuje opäť silný pozitívny vzťah – vyššie náklady na dopravu vedú k vyšším celkovým nákladom. Boxplot ukazuje rozdelenie hodnoty celkových nákladov. Horné bodky nad boxom ukazujú odľahlé hodnoty – niektoré cesty boli výrazne drahšie. Rozdelenie je pravostranné zošikmené.
Cieľom tejto práce je skúmať faktory, ktoré ovplyvňujú celkové náklady na cestu TotalCost. Predpokladáme, že najväčší vplyv budú mať priame nákladové položky – ubytovanie a doprava – ako aj dĺžka pobytu.
Naša pracovná hypotéza hovorí o štatisticky významnom vplyve všetkých troch vysvetľujúcich premenných: - Accommodation.cost – očakávame pozitívny vplyv (čím drahšie ubytovanie, tým vyššie celkové náklady) - Transportation.cost – očakávame pozitívny vplyv (čím drahšia doprava, tým vyššie celkové náklady) - Duration..days. – predpokladáme pozitívny vplyv, ale môže byť nelineárny (dlhšie cesty nemusia byť úmerne drahšie)
Hypotézy budeme testovať pomocou lineárnej regresie: \[ TotalCost_i = \beta_0 + \beta_1 \cdot Duration..days._i + \beta_2 \cdot Accommodation.cost_i + \beta_3 \cdot Transportation.cost_i + u_i \]
kde index \(i\) označuje jednotlivé cesty a $u_i ∼ N(0, ^2) $ je náhodná zložka modelu.
Hypotéza
Predpokladáme štatisticky významné vzťahy \(\beta_1 > 0\),\(\beta_2 > 0\),\(\beta_3 > 0\), ktoré budeme testovať s pomocou t-testov štatistickej významnosti regresných koeficientov.
|
Odhady koeficientov
|
||||
|---|---|---|---|---|
| term | estimate | std.error | statistic | p.value |
| (Intercept) | 24.1297 | 28.1314 | 0.8578 | 0.3926 |
| Duration..days. | -2.2283 | 3.5210 | -0.6328 | 0.5279 |
| Accommodation.cost | 0.9912 | 0.0068 | 145.3203 | 0.0000 |
| Transportation.cost | 1.0143 | 0.0155 | 65.2815 | 0.0000 |
| Statistic | Value |
|---|---|
| N (Observations) | 137.0000 |
| R-squared | 0.9988 |
| Adjusted R-squared | 0.9988 |
| F-statistic | 36540.9333 |
| F-test p-value | 0.0000 |
| AIC | 1535.7913 |
| Residual Std. Error | 64.3578 |
Tabuľka 4.1 nám poskytuje súbor odhadovaných regresných koeficientov. Naša hypotéza sa čiastočne potvrdila Dve hlavné nákladové položky (ubytovanie a doprava) majú silný pozitívny vplyv na celkové náklady – presne ako sme predpokladali. Dĺžka pobytu sa ukázala ako nevýznamná – možno má nelineárny vplyv, alebo je jej efekt absorbovaný cez náklady. Ak hovoríme o vlastnostiach modelu ako celku (pozri Tabuľku 4.2), model vysvetľuje až 99,88 % variability vysvetľovanej premennej a ako celok je štatisticky veľmi významný (pozri koeficient determinácie a výsledky F testu).
Nasledovné podobrázky Obrázka (4.1) nám dávajú predstavu o správaní sa chýb (rezíduí) modelu (error)Figure 4.1: Diagnostické grafy regresného modelu
##
## Jarque Bera Test
##
## data: residuals
## X-squared = 97046, df = 2, p-value < 2.2e-16
Na overenie predpokladu normality rezíduí sme použili Jarque–Bera test - (Jarque-Berra test - p-value = 0 < 0.05). Keďže p‑hodnota je výrazne menšia než 0.05, nulovú hypotézu o normálnom rozdelení rezíduí zamietame. To znamená, že rezíduá nášho modelu nie sú normálne rozdelené. Porušenie predpokladu normality je v ekonomických dátach bežné, najmä pri prítomnosti odľahlých hodnôt alebo zošikmených rozdelení. Odhady koeficientov lineárnej regresie (OLS) zostávajú nestranné a konzistentné, avšak testy významnosti môžu byť skreslené. Preto v ďalšej analýze využijeme robustné odhady štandardných chýb (White HC), ktoré zmierňujú dôsledky porušenia normality.
## No Studentized residuals with Bonferroni p < 0.05
## Largest |rstudent|:
## rstudent unadjusted p-value Bonferroni p
## 128 0.5489366 0.58398 NA
Test odľahlých hodnôt neidentifikoval žiadne pozorovanie, ktoré by štatisticky významne ovplyvňovalo odhad regresného modelu (Bonferroni p-hodnota = NA). Pozorovanie č. 128 má najväčšiu chybu, ale tá nie je extrémna ani významná.
Prítomnosť heteroskedasticity spôsobuje nesprávne vyhodnocovanie t‑testov významnosti jednotlivých regresných koeficientov. Preto je nutné heteroskedasticitu: detekovať (vizuálne a pomocou testov), a v prípade jej prítomnosti odstrániť. Aj v našom prípade sme sa pokúsili o vizuálne vyhodnotenie diagnostických grafov (Scale‑Location graf sme už skúmali vyššie). Tentokrát sa zameriavame na závislosť štvorcov rezíduí od vysvetľujúcich premenných, u ktorých máme podozrenie, že môžu heteroskedasticitu spôsobovať. Obrázok 5.1 naznačuje, že hlavným zdrojom možnej heteroskedasticity sú najmä premenná Accommodation.cost a celková úroveň predikovaných nákladov (TotalCost). Posledný podobrázok (vpravo dole), ktorý vyjadruje závislosť štvorcov rezíduí od vyrovnaných hodnôt, ukazuje, že rozptyl chýb sa mierne zväčšuje pri vyšších hodnotách TotalCost. To je typický prejav heteroskedasticity.
Figure 5.1: Skúmanie heteroskedasticity
Na overenie predpokladu konštantného rozptylu rezíduí (homoskedasticity) sme použili Breusch–Paganov test. Výsledok testu bol (p-hodnota = 0.61 > 0.05). Keďže p‑hodnota je výrazne vyššia než 0.05, nezamietame nulovú hypotézu, ktorá predpokladá homoskedasticitu. To znamená, že rezíduá modelu majú približne konštantný rozptyl a predpoklad homoskedasticity je splnený. Výsledok testu naznačuje, že nie je prítomná heteroskedasticita, teda rozptyl chýb sa nemení v závislosti od vysvetľujúcich premenných. Tým pádom môžeme považovať štandardné t‑testy koeficientov za spoľahlivé, bez potreby robustných odhadov. Vizuálne grafy síce naznačovali mierne zakrivenie, ale štatistický test to nepotvrdil.
Možným riešením problému heteroskedasticity je použitie tzv. White heteroskedasticity Consistent Matrix (WHC), kde v t testoch významnosti regresných koeficientov sa používajú “hrubšie” odhady rozptylov regresných koeficientov.Výsledky sú uvedené v 5.1.
|
Robustné odhady
|
||||
|---|---|---|---|---|
| term | estimate | std.error | statistic | p.value |
| (Intercept) | 24.1297 | 24.6268 | 0.9798 | 0.3290 |
| Duration..days. | -2.2283 | 2.2998 | -0.9689 | 0.3344 |
| Accommodation.cost | 0.9912 | 0.0091 | 108.6855 | 0.0000 |
| Transportation.cost | 1.0143 | 0.0148 | 68.5236 | 0.0000 |
Všimnime si, že Accommodation.cost a Transportation.cost majú významný pozitívny vplyv na TotalCost (p‑hodnota < 0.001), čo je očakávané – vyššie náklady vedú k vyššej celkovej cene. Duration..days. má nevýznamný negatívny koeficient – dĺžka pobytu sama o sebe nezvyšuje náklady, pravdepodobne preto, že dlhšie pobyty sú spojené s nižšími dennými nákladmi. Intercept (konštanta) je taktiež nevýznamná, čo je bežné pri modeli bez centrovanej závislej premennej.
Správna špecifikácia modelu je kľúčová pre spoľahlivé odhady a interpretáciu výsledkov. V tejto časti sa zameriame na overenie funkčnej formy modelu – či je lineárna špecifikácia postačujúca, alebo je potrebné niektoré premenné transformovať.
Ramsey RESET test je štandardný test správnej špecifikácie funkčnej formy regresného modelu. Používa sa najmä na overenie, či lineárna štruktúra modelu postačuje, alebo či by bolo vhodné uvažovať o nelineárnych transformáciách vysvetľujúcich premenných. Test je možné použiť aj v prípadoch, keď do modelu neboli zahrnuté všetky relevantné regresory.
Náš pôvodný regresný model má tvar (??).Ak je náš model správne špecifikovaný, potom pridaním mocnín vyrovnaných hodnôt (napr. \(\hat y_t^2\), \(\hat{y}_t^3\)) by sa pôvodný model nemal podstatne zlepšiť, teda budeme testovať pôvodný model: \[TotalCost_i = \beta_0 + \beta_1 Duration..days._{i} + \beta_2 Acomodation.cost_{i} + \beta_2 Transportation.cost_{i} + \gamma_1\hat{TotalCost}_i^2 + \gamma_2\hat{TotalCost}_i^3 + \nu_i,\]
Ramsey RESET test sme aplikovali na náš pôvodný lineárny model. Výsledok testu (RESET = 1.15, df1 = 2, df2 = 131, p‑hodnota = 0.3198) nepreukázal chybu špecifikácie. Nulová hypotéza o správnej funkčnej forme modelu teda nebola zamietnutá, čo znamená, že lineárna štruktúra modelu je postačujúca a nie je potrebné zavádzať nelineárne transformácie vysvetľujúcich premenných.
Grafická analýza vzťahu medzi vyrovnanými hodnotami a rezíduami vychádza z obrázku 5.1 Scale Location uvedeného v predchádzajúcej časti. Rezíduá nevykazujú výrazný nenáhodný vzor, červená LOESS krivka sa od priamky odlišuje len mierne. To naznačuje, že lineárna špecifikácia modelu je postačujúca a nie je potrebné zavádzať funkčné transformácie vysvetľujúcich premenných.
Na základe Component + Residual grafov sme vizuálne overili vzťah medzi jednotlivými vysvetľujúcimi premennými a závislou premennou TotalCost. Premenné Accommodation.cost a Transportation.cost vykazujú silný lineárny vzťah – LOESS krivka sa takmer prekrýva s priamkou, čo naznačuje správnu špecifikáciu. Premenná Duration..days. má slabší a takmer vodorovný vzťah, bez výrazného zakrivenia. To naznačuje, že jej vplyv je buď nevýznamný, alebo lineárny. Na základe týchto grafov neidentifikujeme potrebu nelineárnej transformácie žiadnej z premenných.
V literatúre sa často odporúča overiť, či lineárna špecifikácia modelu postačuje, alebo či je potrebné zaviesť nelineárne transformácie vysvetľujúcich premenných (napr. kvadratické členy). Takéto rozšírenie môže zlepšiť vysvetľovaciu schopnosť modelu, ak pôvodná štruktúra nezachytáva všetky vzťahy. Náš model je však správne špecifikovaný už v lineárnej forme. Preto nebudeme zavádzať kvadratické transformácie a ostávame pri pôvodnom lineárnom modeli.
Po autokorelácii a heteroskedasticite rezíduí je multikolinearita tretím závažným porušením predpokladov použitia metódy najmenších štvorcov. V našom prípade skúmame, či medzi vysvetľujúcimi premennými cestovného modelu (náklady na ubytovanie, dopravu, dĺžka pobytu, celkové náklady) nevznikajú silné lineárne závislosti. Tie by mohli spôsobiť nestabilitu odhadovaných regresných koeficientov a znížiť spoľahlivosť interpretácie modelu.
Budeme pracovať s regresným modelom z minulých cvičení, teda s rovnicou \[ TotalCost_i = \beta_0 + \beta_1 \cdot Duration..days._i + \beta_2 \cdot Accommodation.cost_i + \beta_3 \cdot Transportation.cost_i + u_i \] Pri odhade základného regresného modelu (pozri Tabuľky 4.1 a 4.2) pozorujeme rozdiely v rádoch odhadovaných regresných koeficientov – napríklad koeficient pri Accommodation.cost je rádovo vyšší než koeficient pri Duration..days.. Tento fakt naznačuje, že by mohlo ísť o problém multikolinearity, ktorý je potrebné ďalej preskúmať.
|
Korelačná matica
|
||||
|---|---|---|---|---|
| Accommodation.cost | Transportation.cost | Duration..days. | TotalCost | |
| Accommodation.cost | 1.000 | 0.786 | -0.127 | 0.979 |
| Transportation.cost | 0.786 | 1.000 | -0.001 | 0.893 |
| Duration..days. | -0.127 | -0.001 | 1.000 | -0.094 |
| TotalCost | 0.979 | 0.893 | -0.094 | 1.000 |
Korelačná matica vysvetľujúcich premenných (pozri Tabuľku 7.1) ukazuje, že medzi premennými Accommodation.cost a Transportation.cost existuje pomerne silná pozitívna korelácia (r = 0.787), čo naznačuje, že vyššie náklady na ubytovanie bývajú často sprevádzané aj vyššími nákladmi na dopravu. Premenná Duration..days. má slabú negatívnu koreláciu s nákladovými premennými, najmä s Accommodation.cost (r = –0.130), čo môže naznačovať, že dlhšie pobyty sú priemerne lacnejšie na deň. Premenná TotalCost je silne korelovaná s Accommodation.cost (r = 0.981) a Transportation.cost (r = 0.893), čo potvrdzuje, že tieto dve zložky najviac ovplyvňujú celkové náklady na cestu. Žiadna z korelácií nepresahuje kritickú hranicu, preto sa nepredpokladá vážna multikolinearita medzi vysvetľujúcimi premennými.
|
Diagnostika multikolinearity
|
|
|---|---|
| Premenná | VIF |
| Duration..days. | 1.044 |
| Accommodation.cost | 2.732 |
| Transportation.cost | 2.688 |
Diagnostika multikolinearity pomocou faktora inflácie variancie (VIF) ukazuje, že žiadna z vysvetľujúcich premenných neprekračuje kritickú hranicu (VIF > 5). Hodnoty VIF sa pohybujú v rozmedzí od 1.046 do 2.751, čo naznačuje, že medzi premennými neexistuje výrazná lineárna závislosť. Regresné koeficienty sú preto stabilné a interpretovateľné, a model nie je zaťažený multikolinearitou.
Hodnota ukazovateľa Condition number dosiahla v našom modeli hodnotu 372.5, čo podľa intuitívneho kritéria signalizuje veľmi vážnu multikolinearitu. Tento výsledok naznačuje, že medzi vysvetľujúcimi premennými existuje silná lineárna závislosť, ktorá spôsobuje nestabilitu odhadovaných regresných koeficientov. V dôsledku toho môže byť interpretácia jednotlivých regresorov nespoľahlivá, a je vhodné zvážiť úpravu modelu
| Premenná | Adj. R-sqr |
|---|---|
| Accommodation | 0.8034895 |
| Transportation | 0.9593620 |
| Duration | 0.9987664 |
Na základe analýzy upraveného koeficientu determinácie (pozri Tabuľku 7.3) sme testovali, ako sa mení kvalita modelu pri vynechaní jednotlivých vysvetľujúcich premenných. Vynechanie premennej Accommodation.cost spôsobilo najväčší pokles Adjusted R², čo naznačuje, že ide o kľúčový regresor. Premenná Transportation.cost má menší vplyv na kvalitu modelu, a jej vynechanie nevedie k výraznému zhoršeniu. Zaujímavým zistením je, že vynechanie premennej Duration..days. dokonca zvyšuje Adjusted R², čo naznačuje, že táto premenná môže byť nadbytočná alebo zaťažená šumom. Na základe týchto výsledkov by sme pri úprave modelu uprednostnili zachovanie premennej Accommodation.cost a zvážili vynechanie Duration..days..
|
Data.frame udaje
|
|||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Trip.ID | Destination | Start.date | End.date | Duration..days. | Traveler.name | Traveler.age | Traveler.gender | Traveler.nationality | Accommodation.type | Accommodation.cost | Transportation.type | Transportation.cost | TotalCost |
| 1 | London, UK | 01/05/2023 | 08/05/2023 | 7 | John Smith | 35 | Male | American | Hotel | 1200 | Flight | 600 | 1800 |
| 2 | Phuket, Thailand | 15/06/2023 | 20/06/2023 | 5 | Jane Doe | 28 | Female | Canadian | Resort | 800 | Flight | 500 | 1300 |
| 3 | Bali, Indonesia | 01/07/2023 | 08/07/2023 | 7 | David Lee | 45 | Male | Korean | Villa | 1000 | Flight | 700 | 1700 |
| 4 | New York, USA | 15/08/2023 | 29/08/2023 | 14 | Sarah Johnson | 29 | Female | British | Hotel | 2000 | Flight | 1000 | 3000 |
| 5 | Tokyo, Japan | 10/09/2023 | 17/09/2023 | 7 | Kim Nguyen | 26 | Female | Vietnamese | Airbnb | 700 | Train | 200 | 900 |
| 6 | Paris, France | 05/10/2023 | 10/10/2023 | 5 | Michael Brown | 42 | Male | American | Hotel | 1500 | Flight | 800 | 2300 |
|
Odhady koeficientov
|
||||
|---|---|---|---|---|
| Premenná | Odhad | Štandardná chyba | t-hodnota | p-hodnota |
| (Intercept) | 24.1297 | 28.1314 | 0.8578 | 0.3926 |
| Acc100 | 99.1250 | 0.6821 | 145.3203 | 0.0000 |
| Trans100 | 101.4255 | 1.5537 | 65.2815 | 0.0000 |
| Duration..days. | -2.2283 | 3.5210 | -0.6328 | 0.5279 |
| Premenná | VIF |
|---|---|
| Acc100 | 2.732 |
| Trans100 | 2.688 |
| Duration..days. | 1.044 |
Vzhľadom na rozdielne rády vysvetľujúcich premenných sme upravili premenné Accommodation.cost a Transportation.cost delením 100, čím sme ich vyjadrili v stovkách eur. Táto úprava zabezpečila, že regresné koeficienty sa pohybujú v porovnateľných rádoch, čo zlepšilo ich interpretovateľnosť. Hodnoty VIF ostali v akceptovateľnom rozsahu, čo naznačuje, že medzi premennými neexistuje výrazná lineárna závislosť. Condition number sa znížil z pôvodnej hodnoty 373.05 na 6.44, čo predstavuje výrazné zlepšenie – model už nie je zaťažený multikolinearitou. Upravený model si zachoval vysokú kvalitu vyrovnania a poskytuje stabilnejšie a spoľahlivejšie odhady regresných koeficientov.
Výsledkom ekonometrického experimentovania sme došli k záverečnej forme modelu, ktorá má tvar: \[ CostPerDay_i = \beta_0 + \beta_1 Duration..days._i + \beta_2 \frac{Accomodation.cost_i}{1000} + \beta_3 \frac{Transportation.cost_i}{1000} + u_i \tag{8.1} \] Výsledky odhadu modelu (8.1) sú uvedené v Tabuľkách 8.1 a 8.2.
|
Odhady koeficientov
|
||||
|---|---|---|---|---|
| term | estimate | std.error | statistic | p.value |
| (Intercept) | 199.5394 | 14.6337 | 13.6356 | 0 |
| Acc100 | 14.1610 | 0.3548 | 39.9092 | 0 |
| Trans100 | 15.7516 | 0.8082 | 19.4896 | 0 |
| Duration..days. | -28.1054 | 1.8316 | -15.3447 | 0 |
| Statistic | Value |
|---|---|
| N (Observations) | 137.0000 |
| R-squared | 0.9857 |
| Adjusted R-squared | 0.9854 |
| F-statistic | 3065.6235 |
| F-test p-value | 0.0000 |
| AIC | 1356.7170 |
| Residual Std. Error | 33.4785 |
Alternatívny model s premennou CostPerDay poskytol realistickejší pohľad na správanie sa cestovných nákladov. Premenné Accomodation.cost/100 a Transportation.cost/100 majú pozitívny a štatisticky významný vplyv na priemerné denné náklady. Premenná Duration..days. má negatívny vplyv, čo naznačuje, že dlhšie pobyty sú priemerne lacnejšie na deň. Model vysvetľuje až 98.7 % variability závislej premennej a je ako celok štatisticky významný.
Diagnostické grafy rezíduí (Obrázok 8.1) ukazujú, že model spĺňa základné predpoklady lineárnej regresie. Graf Residuals vs Fitted neodhaľuje výrazné nelineárne vzťahy. Q-Q plot naznačuje mierne porušenie normality, čo potvrdil aj Jarque–Bera test, avšak vzhľadom na veľkosť vzorky to nepovažujeme za kritické. Scale-Location graf potvrdzuje neprítomnosť heteroskedasticity. Graf Residuals vs Leverage identifikoval niekoľko odľahlých pozorovaní (Trip129, Trip130, Trip140), ktoré však neprekračujú hranice Cookovej vzdialenosti, a preto neovplyvňujú odhady regresných koeficientov.
Figure 8.1: Diagnostické grafy regresného modelu
##
## Jarque Bera Test
##
## data: residuals
## X-squared = 279.32, df = 2, p-value < 2.2e-16
Jarque–Bera test (X² = 329.93, df = 2, p-value < 0.001) zamietol hypotézu normality rezíduí. Tento výsledok naznačuje, že rezíduá nie sú normálne rozdelené, čo je v súlade aj s Q-Q grafom, kde sa pozorovania odchyľujú od teoretickej priamky. Vzhľadom na veľkosť vzorky (136 pozorovaní) a vysokú kvalitu modelu (R² = 0.987) nepovažujeme toto porušenie za kritické, keďže odhady koeficientov zostávajú stabilné a interpretovateľné.
## rstudent unadjusted p-value Bonferroni p
## 130 5.154520 9.0649e-07 0.00012419
## 129 -4.278064 3.5927e-05 0.00492200
## 134 4.157161 5.7603e-05 0.00789160
## 127 3.858221 1.7784e-04 0.02436400
## 133 -3.743061 2.7029e-04 0.03703000
Test odľahlých hodnôt identifikoval 5 pozorovaní (Trip130, Trip129, Trip134, Trip127, Trip133), ktoré výrazne vyčnievajú z predikcie modelu. Všetky tieto pozorovania mali Bonferroni upravené p-hodnoty < 0.05, čo naznačuje, že ide o štatisticky významné outliery. Napriek tomu žiadne z nich neprekročilo hranice Cookovej vzdialenosti v diagnostických grafoch, a preto sme sa rozhodli ponechať ich v databáze. Ich vplyv na odhad koeficientov je obmedzený, a model si zachováva stabilitu aj pri ich zahrnutí.
Figure 8.2: Skúmanie heteroskedasticity
##
## studentized Breusch-Pagan test
##
## data: model_zaver
## BP = 49.802, df = 3, p-value = 8.802e-11
Obrázok 8.2 vizualizuje závislosť štvorcov rezíduí od vysvetľujúcich premenných. V prípade Accommodation.cost/100 LOESS krivka naznačuje mierne nelineárne správanie rozptylu – najprv rastie, potom klesá. V prípade Transportation.cost100 je krivka výrazne stúpajúca, čo naznačuje, že vyššie náklady na dopravu sú spojené s väčšou variabilitou chýb. Tieto vizuálne náznaky heteroskedasticity sme doplnili o Breusch–Pagan test (BP = 52.80, df = 3, p-value < 0.001), ktorý zamietol hypotézu konštantného rozptylu rezíduí. Tento výsledok naznačuje, že v modeli existuje heteroskedasticita, čo je v súlade aj s vizuálnou analýzou grafov rezíduí. Vzhľadom na štatistickú významnosť by bolo vhodné zvážiť robustné odhady štandardných chýb.
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 199.53944 15.38739 12.968 < 2.2e-16 ***
## Acc100 14.16099 0.32303 43.838 < 2.2e-16 ***
## Trans100 15.75157 1.44914 10.870 < 2.2e-16 ***
## Duration..days. -28.10535 2.25224 -12.479 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Vzhľadom na výsledky Breusch–Pagan testu sme odhadli model aj s robustnými štandardnými chybami (HC1). Výsledky ukázali, že všetky koeficienty zostávajú štatisticky významné aj po zohľadnení heteroskedasticity. To potvrdzuje stabilitu odhadov a posilňuje dôveru v interpretáciu modelu. Premenné Accommodation.cost/100 a Transportation.cost/100 majú pozitívny vplyv na priemerné denné náklady, zatiaľ čo Duration..days. má negatívny vplyv, čo naznačuje úsporu pri dlhších pobytoch.
Na začiatku sme si pripravili dátový súbor, ktorý obsahuje informácie o jednotlivých cestách. Každý riadok predstavuje jednu cestu, pričom máme k dispozícii premenné Accommodation.cost (náklady na ubytovanie), Transportation.cost (náklady na dopravu) a Duration..days. (dĺžka pobytu v dňoch). Z týchto údajov sme následne odviedli aj celkový náklad cesty (TotalCost).
Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné, aby všetky premenné boli definované na rovnakejškále. Použíli sme pritom tzv. z-škálovanie
## Accommodation.cost Transportation.cost Duration..days.
## Accommodation.cost 1.0000000 0.787319337 -0.129947628
## Transportation.cost 0.7873193 1.000000000 -0.001185487
## Duration..days. -0.1299476 -0.001185487 1.000000000
## TotalCost 0.9805184 0.893087368 -0.095198379
## TotalCost
## Accommodation.cost 0.98051842
## Transportation.cost 0.89308737
## Duration..days. -0.09519838
## TotalCost 1.00000000
Pred samotným zhlukovaním sme analyzovali korelačnú maticu vstupných premenných. Korelácia medzi Accommodation.cost a Transportation.cost bola pomerne silná pozitívna (r = 0.787), čo naznačuje, že vyššie náklady na ubytovanie bývajú často sprevádzané aj vyššími nákladmi na dopravu. Premenná Duration..days. má slabú negatívnu koreláciu s nákladovými premennými – najmä s Accommodation.cost (r = –0.130), čo môže naznačovať, že dlhšie pobyty sú priemerne lacnejšie na deň. Premenná TotalCost je veľmi silne korelovaná s Accommodation.cost (r = 0.981) a Transportation.cost (r = 0.893), čo potvrdzuje, že tieto dve zložky najviac ovplyvňujú celkové náklady na cestu. Žiadna z korelácií nepresahuje kritickú hranicu 0.9, preto sme ponechali všetky premenné v analýze.
Na základe štandardizovaných údajov sme vypočítali Euklidovskú vzdialenosť medzi jednotlivými cestami. \[ d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2} \] Táto metrika vyjadruje mieru podobnosti medzi cestami z hľadiska ich nákladového profilu. Výsledkom je vzdialenostná matica, kde každá bunka predstavuje vzdialenosť medzi dvojicou ciest. Čím je hodnota nižšia, tým sú si cesty podobnejšie (napr. podobné náklady na ubytovanie, dopravu a dĺžku pobytu). Naopak, vyššie hodnoty indikujú výrazné rozdiely – napríklad medzi krátkym nízkonákladovým výletom a dlhým luxusným pobytom.
Tab. 3
| Trip1 | Trip2 | Trip3 | Trip4 | Trip5 | Trip6 | Trip7 | Trip8 | Trip9 | Trip10 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Trip1 | 0.00 | 1.32 | 0.23 | 4.50 | 0.92 | 1.34 | 2.20 | 0.28 | 0.72 | 1.31 |
| Trip2 | 1.32 | 0.00 | 1.32 | 5.81 | 1.37 | 0.91 | 3.35 | 1.26 | 1.38 | 2.15 |
| Trip3 | 0.23 | 1.32 | 0.00 | 4.51 | 0.99 | 1.35 | 2.09 | 0.22 | 0.88 | 1.43 |
| Trip4 | 4.50 | 5.81 | 4.51 | 0.00 | 4.81 | 5.64 | 2.84 | 4.56 | 4.69 | 4.39 |
| Trip5 | 0.92 | 1.37 | 0.99 | 4.81 | 0.00 | 1.88 | 2.57 | 0.77 | 0.46 | 2.14 |
| Trip6 | 1.34 | 0.91 | 1.35 | 5.64 | 1.88 | 0.00 | 3.29 | 1.43 | 1.70 | 1.55 |
| Trip7 | 2.20 | 3.35 | 2.09 | 2.84 | 2.57 | 3.29 | 0.00 | 2.15 | 2.59 | 2.64 |
| Trip8 | 0.28 | 1.26 | 0.22 | 4.56 | 0.77 | 1.43 | 2.15 | 0.00 | 0.72 | 1.58 |
| Trip9 | 0.72 | 1.38 | 0.88 | 4.69 | 0.46 | 1.70 | 2.59 | 0.72 | 0.00 | 1.75 |
| Trip10 | 1.31 | 2.15 | 1.43 | 4.39 | 2.14 | 1.55 | 2.64 | 1.58 | 1.75 | 0.00 |
(#fig:r fig-dendrogram)Obr. X: Hierarchické zhlukovanie – dendrogram s Ward.D2 metódou. Červená čiara definuje tri klastry.
|
Zaradenie ciest do klastrov
|
|
|---|---|
| Cesta | Klaster |
| Trip1 | 1 |
| Trip2 | 1 |
| Trip3 | 2 |
| Trip4 | 1 |
| Trip5 | 1 |
| Trip6 | 2 |
| Trip7 | 1 |
| Trip8 | 1 |
| Trip9 | 1 |
| Trip10 | 2 |
Na základe vypočítanej vzdialenostnej matice sme vykonali hierarchické zhlukovanie pomocou Wardovej metódy. Táto aglomeratívna metóda postupne spája jednotlivé pozorovania (cesty) do klastrov tak, aby minimalizovala vnútroklastrovú variabilitu. Výsledný dendrogram (Obr. X) vizualizuje proces zhlukovania – čím nižšie sa dve cesty spoja, tým sú si podobnejšie z hľadiska nákladového profilu. Na základe vizuálnej analýzy dendrogramu sme zvolili rozdelenie na tri klastre, ktoré sú oddelené červenou čiarou. Tieto klastre predstavujú tri typy ciest: -Klaster 1: cesty s vysokými nákladmi (luxusné pobyty), -Klaster 2: nízkonákladové výlety, -Klaster 3: stredná kategória – priemerné náklady a dĺžka pobytu.
Tabuľka Tab 4 analyzuje vnútroklastrovú (WSS) a medziklastrovú (BSS) variabilitu jednotlivých premenných. Premenná Accommodation.cost vykazuje najvyšší podiel medziklastrovej variability, čo naznačuje, že je najlepším separátorom klastrov – teda najviac prispieva k rozlíšeniu medzi typmi ciest. Premenná Duration..days. má podiel BSS/TSS = 0.541, čo je stredná hodnota – dĺžka pobytu má určitý rozlišovací potenciál, ale nie je dominantná. Premenné Transportation.cost a TotalCost sa nepodarilo vyčísliť (NA), pravdepodobne kvôli technickým obmedzeniam alebo chýbajúcim hodnotám. Napriek tomu môžeme konštatovať, že klasifikácia ciest do klastrov je podložená rozdielmi v nákladových premenných, najmä v ubytovaní.
|
Analýza variability podľa premenných
|
||||
|---|---|---|---|---|
| Premenná | TSS | WSS | BSS | Podiel BSS/TSS |
| Trip.ID | 135 | 107.333 | 27.667 | 0.205 |
| Duration..days. | 135 | 133.529 | 1.471 | 0.011 |
| Traveler.age | 135 | 56.446 | 78.554 | 0.582 |
| Accommodation.cost | 135 | 32.583 | 102.417 | 0.759 |
| Transportation.cost | 135 | 47.488 | 87.512 | 0.648 |
| TotalCost | 135 | 27.571 | 107.429 | 0.796 |
|
Priemerné hodnoty premenných podľa klastrov
|
||||||
|---|---|---|---|---|---|---|
| Klaster | Trip.ID (priem.) | Duration..days. (priem.) | Traveler.age (priem.) | Accommodation.cost (priem.) | Transportation.cost (priem.) | TotalCost (priem.) |
| 1 | -0.15 | 0.05 | -0.42 | -0.30 | -0.27 | -0.30 |
| 2 | -0.02 | -0.08 | 1.50 | -0.05 | -0.06 | -0.05 |
| 3 | 1.59 | -0.32 | 0.10 | 3.06 | 2.83 | 3.13 |
Tabuľka centroidov Tab 5 zobrazuje priemerné hodnoty jednotlivých premenných v rámci každého klastra (jednotlivé klastre sú zadefinované vyššie). Tieto rozdiely potvrdzujú, že zvolená klasifikácia ciest do troch klastrov má jasné ekonomické opodstatnenie a odráža reálne rozdiely v cestovnom správaní.
Predložená analýza sa zaoberá klasifikáciou individuálnych ciest na základe ich nákladového profilu, pričom zohľadňuje náklady na ubytovanie, dopravu, dĺžku pobytu a celkové výdavky. Pomocou hierarchickej zhlukovej analýzy boli cesty rozdelené do troch klastrov, ktoré sa výrazne líšia z hľadiska ekonomickej náročnosti. Klasifikácia odhalila skupinu nízkonákladových výletov, stredne nákladných pobytov a luxusných ciest s výrazne vyššími výdavkami. Táto segmentácia umožňuje lepšie porozumieť štruktúre cestovného správania a môže slúžiť ako podklad pre odporúčania pri plánovaní rozpočtu, optimalizácii výdavkov alebo tvorbe cieľových ponúk v oblasti cestovného ruchu.