Cieľom tohto semestrálneho projektu je pomocou regresnej analýzy preskúmať faktory, ktoré ovplyvňujú cenu automobilov. Na analýzu bol použitý dataset Automobile Data, ktorý obsahuje informácie o technických a ekonomických vlastnostiach vozidiel, ako sú výkon motora, objem motora, hmotnosť, spotreba paliva a ďalšie charakteristiky.
V práci je zostavený lineárny regresný model, ktorým sa snažíme vysvetliť vzťah medzi cenou automobilu a vybranými vysvetľujúcimi premennými. Okrem samotného odhadu modelu sa zameriavame aj na kontrolu základných predpokladov lineárnej regresie, konkrétne na heteroskedasticitu, autokoreláciu rezíduí a multikolinearitu.
Výsledky analýzy umožňujú lepšie pochopiť, ktoré vlastnosti automobilov majú najväčší vplyv na ich cenu, a zároveň slúžia ako praktická ukážka použitia ekonometrických metód v prostredí R.
Použité dáta pochádzajú z Kaggle: https://www.kaggle.com/datasets/sumaya23abdul/automobile-database?resource=download Automobile Data, ktorý obsahuje informácie o technických a ekonomických vlastnostiach automobilov. Dataset zahŕňa údaje o cene vozidla a ďalších charakteristikách, ako sú napríklad výkon motora, objem motora, hmotnosť, spotreba paliva, typ pohonu alebo počet valcov. Dáta sú uložené vo formáte CSV a spracované v prostredí R. Dataset je vhodný na regresnú analýzu, keďže obsahuje číselné premenné, ktoré umožňujú skúmať vzťahy medzi cenou automobilu a jeho vlastnosťami. V ďalších častiach práce sa zameriame na štatistický popis dát a ich vizualizáciu.
| price | engine_size | horsepower | curb_weight | city_mpg | highway_mpg |
|---|---|---|---|---|---|
| 13495 | 130 | 111 | 2548 | 21 | 27 |
| 16500 | 130 | 111 | 2548 | 21 | 27 |
| 16500 | 152 | 154 | 2823 | 19 | 26 |
| 13950 | 109 | 102 | 2337 | 24 | 30 |
| 17450 | 136 | 115 | 2824 | 18 | 22 |
| 15250 | 136 | 110 | 2507 | 19 | 25 |
| 17710 | 136 | 110 | 2844 | 19 | 25 |
| 18920 | 136 | 110 | 2954 | 19 | 25 |
| 23875 | 131 | 140 | 3086 | 17 | 20 |
| ? | 131 | 160 | 3053 | 16 | 22 |
Box plot
Z boxplotu ceny automobilov môžeme vidieť, ako sú ceny rozdelené v analyzovanom datasete. Medián ceny sa nachádza približne okolo 10 000, čo znamená, že polovica automobilov má cenu nižšiu a polovica vyššiu než táto hodnota. Väčšina pozorovaní sa nachádza v intervale približne od 8 000 do 16 000, čo naznačuje, že najviac automobilov patrí do strednej cenovej kategórie. Z grafu je tiež viditeľné, že rozdelenie cien nie je rovnomerné. V hornej časti sa nachádza viacero odľahlých hodnôt, ktoré predstavujú automobily s výrazne vyššou cenou. Ide pravdepodobne o drahšie alebo luxusnejšie modely. Celkový tvar boxplotu naznačuje pravostrannú šikmosť rozdelenia cien, keďže extrémne hodnoty sa vyskytujú najmä pri vyšších cenách. Tento graf poskytuje základný prehľad o variabilite cien automobilov a slúži ako úvod k ďalšej regresnej analýze.
Graf na regresiu
Graf znázorňuje vzťah medzi cenou automobilu a výkonom motora. Jednotlivé body predstavujú pozorované automobily, pričom z grafu je viditeľný pozitívny vzťah medzi týmito premennými. S rastúcim výkonom motora má cena automobilu tendenciu rásť, čo naznačuje, že výkon motora je jedným z dôležitých faktorov ovplyvňujúcich cenu vozidla. Červená priamka v grafe predstavuje odhadnutý lineárny regresný vzťah, ktorý potvrdzuje rastúci trend medzi výkonom a cenou. Okolo regresnej priamky je možné pozorovať určitý rozptyl bodov, čo naznačuje, že cena automobilu nie je ovplyvnená iba výkonom motora, ale aj ďalšími vlastnosťami vozidla. Z grafu je zároveň viditeľné, že pri vyšších hodnotách výkonu sa ceny automobilov výraznejšie líšia, čo môže naznačovať väčšiu variabilitu cien výkonnejších vozidiel.
Graf znázorňuje priebeh cien automobilov v jednotlivých pozorovaniach. Z grafu je viditeľné, že ceny automobilov sa v datasete výrazne menia a nevykazujú stabilný trend. Väčšina hodnôt sa pohybuje v nižších a stredných cenových kategóriách, pričom sa vyskytujú aj výrazné cenové špičky. V grafe je možné pozorovať náhle nárasty cien, ktoré pravdepodobne predstavujú drahšie alebo luxusnejšie modely automobilov. Naopak, medzi týmito špičkami sa nachádzajú úseky s nižšími cenami, čo naznačuje veľkú variabilitu v analyzovanom súbore dát. Celkový priebeh cien poukazuje na to, že cena automobilu nie je rovnomerne rozdelená a závisí od viacerých faktorov. Tento graf slúži ako základný prieskum dát pred samotným odhadom regresného modelu.
Graf znázorňuje priebeh cien automobilov v jednotlivých pozorovaniach. Z grafu je viditeľné, že ceny automobilov sa v datasete výrazne menia a nevykazujú stabilný trend. Väčšina hodnôt sa pohybuje v nižších a stredných cenových kategóriách, pričom sa vyskytujú aj výrazné cenové špičky. V grafe je možné pozorovať náhle nárasty cien, ktoré pravdepodobne predstavujú drahšie alebo luxusnejšie modely automobilov. Naopak, medzi týmito špičkami sa nachádzajú úseky s nižšími cenami, čo naznačuje veľkú variabilitu v analyzovanom súbore dát. Celkový priebeh cien poukazuje na to, že cena automobilu nie je rovnomerne rozdelená a závisí od viacerých faktorov. Tento graf slúži ako základný prieskum dát pred samotným odhadom regresného modelu.
Odhad linearneho modelu
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | -14161.056 | 3954.869 | -3.581 | 0.000 |
| horsepower | 50.439 | 15.949 | 3.163 | 0.002 |
| engine_size | 83.846 | 14.335 | 5.849 | 0.000 |
| curb_weight | 4.426 | 1.064 | 4.158 | 0.000 |
| city_mpg | 9.675 | 78.304 | 0.124 | 0.902 |
Tabuľka zobrazuje výsledky odhadnutého lineárneho regresného modelu, v ktorom je vysvetľovanou premennou cena automobilu a vysvetľujúcimi premennými sú vybrané technické charakteristiky vozidla. Z výsledkov je viditeľné, že výkon motora (horsepower) má pozitívny a štatisticky významný vplyv na cenu automobilu (p < 0,05). To znamená, že s rastúcim výkonom motora cena vozidla rastie. Podobne aj objem motora (engine_size) a hmotnosť vozidla (curb_weight) majú pozitívny a štatisticky významný vplyv na cenu, čo naznačuje, že väčšie a ťažšie automobily sú spravidla drahšie. Naopak, premenná city_mpg nie je štatisticky významná (p-hodnota je vyššia ako 0,05), čo naznačuje, že spotreba paliva v meste nemá v tomto modeli významný vplyv na cenu automobilu. Konštanta (Intercept) má zápornú hodnotu, čo však v tomto kontexte nemá samostatnú ekonomickú interpretáciu a slúži len ako technická súčasť modelu. Celkovo výsledky naznačujú, že technické parametre vozidla, najmä výkon, objem motora a hmotnosť, patria medzi kľúčové faktory ovplyvňujúce cenu automobilov.
Robustne štandardne chyby
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | -14161.056 | 5246.023 | -2.699 | 0.008 |
| horsepower | 50.439 | 40.547 | 1.244 | 0.215 |
| engine_size | 83.846 | 26.218 | 3.198 | 0.002 |
| curb_weight | 4.426 | 1.940 | 2.282 | 0.024 |
| city_mpg | 9.675 | 102.965 | 0.094 | 0.925 |
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | -14161.056 | 3857.850 | -3.671 | 0.000 |
| horsepower | 50.439 | 23.350 | 2.160 | 0.032 |
| engine_size | 83.846 | 20.210 | 4.149 | 0.000 |
| curb_weight | 4.426 | 1.322 | 3.348 | 0.001 |
| city_mpg | 9.675 | 76.777 | 0.126 | 0.900 |
Tabuľka 3.3 zobrazuje odhadnuté koeficienty regresného modelu ceny automobilu s použitím Newey-West robustných štandardných chýb, ktoré zohľadňujú možnú heteroskedasticitu a autokoreláciu rezíduí. Z výsledkov je viditeľné, že engine_size a curb_weight majú štatisticky významný pozitívny vplyv na cenu automobilu (p-hodnota < 0,05). To znamená, že s rastúcim objemom motora a hmotnosťou vozidla rastie aj jeho cena.
abuľka 3.4 obsahuje rovnaký regresný model, avšak s použitím HC3 robustných štandardných chýb, ktoré sú vhodné najmä pri prítomnosti heteroskedasticity. Pri tomto type robustných chýb sa ukazuje, že horsepower, engine_size a curb_weight sú štatisticky významné premenné (p-hodnota < 0,05), čo potvrdzuje ich dôležitú úlohu pri vysvetľovaní ceny automobilu. Najsilnejší vplyv má opäť objem motora (engine_size).
3.5 Predikcia
Graf porovnáva skutočnú cenu automobilov (zelená čiara) s cenou predikovanou regresným modelom (oranžová prerušovaná čiara) v jednotlivých pozorovaniach. Je viditeľné, že predikovaná cena vo väčšine prípadov dobre kopíruje priebeh skutočných cien, najmä pri nižších a stredných cenových hodnotách. Pri vyšších cenách sa však objavujú väčšie rozdiely medzi skutočnou a predikovanou cenou. Model má tendenciu niektoré cenové špičky podhodnocovať alebo naopak nadhodnocovať, čo naznačuje vyššiu variabilitu cien drahších automobilov. To môže súvisieť s tým, že cena vozidla je okrem zahrnutých technických premenných ovplyvnená aj ďalšími faktormi, ktoré model nezachytáva (napr. značka alebo výbava). Celkovo graf ukazuje, že model dokáže zachytiť základný trend cien automobilov, no pri extrémnych hodnotách je jeho presnosť nižšia. Tento výsledok je typický pre regresné modely pracujúce s heterogénnymi dátami.
4.1 Diagnosti reziduí
Diagnostika rezíduí (heteroskedasticita) Na obrázku sú zobrazené základné diagnostické grafy rezíduí regresného modelu, ktoré slúžia na overenie predpokladov lineárnej regresie. Residuals vs Fitted V tomto grafe vidíme vzťah medzi rezíduami a predikovanými hodnotami ceny automobilu. Rezíduá nie sú úplne náhodne rozložené okolo nuly a je možné pozorovať mierny trend. Rozptyl rezíduí sa s rastúcimi predikovanými hodnotami mierne zväčšuje, čo naznačuje možnú heteroskedasticitu. Q-Q Residuals Q-Q graf porovnáva rozdelenie rezíduí s teoretickým normálnym rozdelením. Väčšina bodov leží približne na priamke, avšak na krajoch sú viditeľné odchýlky. To naznačuje, že rezíduá sú približne normálne rozdelené, no extrémne hodnoty môžu porušovať predpoklad normality. Scale-Location Tento graf zobrazuje vzťah medzi štandardizovanými rezíduami a predikovanými hodnotami. Viditeľný rastúci trend krivky poukazuje na to, že rozptyl rezíduí nie je konštantný, ale rastie s veľkosťou predikovanej ceny. Tento jav ďalej podporuje prítomnosť heteroskedasticity v modeli. Residuals vs Leverage Graf identifikuje pozorovania s vysokým vplyvom na odhad modelu. Väčšina bodov sa nachádza v oblasti nízkej páky (leverage), avšak niekoľko pozorovaní sa nachádza bližšie ku krivkám Cookovej vzdialenosti. Tieto pozorovania môžu mať výraznejší vplyv na výsledky regresie, no nezdajú sa byť extrémne problematické.
4.2 Test heteroskedasticity
| statistic | p.value | parameter | method |
|---|---|---|---|
| 76.346 | 0 | 4 | studentized Breusch-Pagan test |
Výsledky testu ukazujú hodnotu testovacej štatistiky 76.346 a p-hodnotu približne 0. Keďže p-hodnota je výrazne menšia než zvolená hladina významnosti 0.05, nulová hypotéza o konštantnom rozptyle rezíduí sa zamieta. To znamená, že v modeli je prítomná heteroskedasticita, teda rozptyl chýb nie je rovnaký pre všetky hodnoty predikovaných cien automobilov. Tento výsledok je v súlade aj s vizuálnou diagnostikou rezíduí, kde je viditeľné, že rozptyl rezíduí rastie s vyššími predikovanými hodnotami ceny. Z tohto dôvodu nie sú klasické štandardné chyby úplne spoľahlivé a je vhodné použiť robustné štandardné chyby (napr. White alebo HC3), ktoré poskytujú presnejšie štatistické závery aj pri porušení predpokladu homoskedasticity
5.1 Ramsey Test
##
## RESET test
##
## data: model
## RESET = 16.276, df1 = 2, df2 = 192, p-value = 2.955e-07
Ramsey RESET test potvrdzuje, že model pravdepodobne trpí nesprávnou (lineárnou) špecifikáciou a mal by byť rozšírený o nelineárne členy.
5.2 diagnostické grafy
Rezíduá sú približne rozložené okolo nulovej línie, čo naznačuje, že model v priemere nepreceňuje ani nepodceňuje cenu automobilov. Zároveň je však viditeľné, že pri vyšších predikovaných hodnotách ceny sa rozptyl rezíduí zväčšuje. To znamená, že model robí väčšie chyby pri drahších vozidlách. Tento vzor poukazuje na možnú heteroskedasticitu – rozptyl chýb nie je konštantný v celom rozsahu predikovaných hodnôt. Okrem toho je možné pozorovať niekoľko extrémnych hodnôt (outlierov), ktoré môžu mať výraznejší vplyv na odhad modelu. Celkovo graf naznačuje, že hoci lineárny model zachytáva základný vzťah medzi cenou a vysvetľujúcimi premennými, jeho presnosť sa znižuje pri vyšších cenách. To podporuje potrebu použitia robustných štandardných chýb alebo zváženie nelineárnych špecifikácií modelu.
Z grafu je zrejmé, že ceny automobilov sa v priebehu pozorovaní výrazne menia a nevykazujú hladký ani monotónny trend. Väčšina hodnôt sa pohybuje v intervale približne od 5 000 do 20 000, avšak v niektorých pozorovaniach sa vyskytujú výrazné cenové špičky, kde cena presahuje 35 000 až 45 000. Tieto extrémne hodnoty môžu predstavovať luxusnejšie alebo výkonnejšie modely vozidiel. Graf zároveň naznačuje zhlukovanie cien v určitých úsekoch indexu, čo môže súvisieť s podobnými technickými charakteristikami vozidiel v týchto pozorovaniach. Nepravidelné výkyvy cien poukazujú na vysokú heterogenitu dát a na skutočnosť, že ceny automobilov sú ovplyvňované viacerými faktormi.
Graf zobrazuje vývoj premennej city_mpg (spotreba paliva v meste) v závislosti od indexu pozorovania. Hodnoty spotreby sa počas celého obdobia výrazne menia a nepozorujeme žiadny jasný rastúci ani klesajúci trend. Väčšina hodnôt sa pohybuje približne v intervale 15 až 30 mpg, pričom v niektorých pozorovaniach sa objavujú aj vyššie hodnoty blízke 40–50 mpg. Graf naznačuje, že spotreba paliva v meste sa medzi jednotlivými automobilmi značne líši, čo môže súvisieť s rozdielmi v konštrukcii vozidiel, objeme motora, hmotnosti alebo type pohonu. Nepravidelné výkyvy potvrdzujú heterogenitu dát a naznačujú, že city_mpg je ovplyvnená viacerými faktormi, nie len poradím pozorovania. Z pohľadu časového radu nie je zrejmá silná autokorelácia ani sezónny vzor.
Graf zobrazuje priemernú cenu automobilov rozdelenú do štyroch období pozorovania. Na horizontálnej osi je znázornené obdobie (1–4) a na vertikálnej osi priemerná cena vozidiel. Z grafu je zrejmé, že priemerná cena automobilov má klesajúci trend v priebehu sledovaných období. V prvom období dosahuje priemerná cena najvyššiu hodnotu (približne 14 000), následne v druhom a treťom období postupne mierne klesá. Najvýraznejší pokles je pozorovaný v štvrtom období, kde priemerná cena klesá pod 12 000. Tento vývoj môže naznačovať sezónny alebo štrukturálny efekt v dátach, prípadne zmenu skladby pozorovaných vozidiel v jednotlivých obdobiach (napr. vyšší podiel lacnejších modelov v neskoršom období). Zároveň je viditeľné, že zmeny cien nie sú náhodné, ale vykazujú systematický vývoj v čase.
| horsepower | engine_size | curb_weight | city_mpg | highway_mpg | |
|---|---|---|---|---|---|
| horsepower | 1.000 | 0.811 | 0.751 | -0.804 | -0.771 |
| engine_size | 0.811 | 1.000 | 0.851 | -0.654 | -0.677 |
| curb_weight | 0.751 | 0.851 | 1.000 | -0.757 | -0.797 |
| city_mpg | -0.804 | -0.654 | -0.757 | 1.000 | 0.971 |
| highway_mpg | -0.771 | -0.677 | -0.797 | 0.971 | 1.000 |
tabulka
graficke znazornenie
Medzi horsepower, engine_size a curb_weight je viditeľný jasný lineárny vzťah – body sa zhlukujú pozdĺž rastúcej priamky.
Vzťahy medzi technickými parametrami a spotrebou paliva majú klesajúci charakter, čo potvrdzuje negatívne korelácie z tabuľky.
V grafe city_mpg × highway_mpg je takmer dokonalý lineárny vzťah, čo vizuálne potvrdzuje veľmi vysokú koreláciu (≈ 0.97).
Rozdelenia na diagonále ukazujú realistické rozptyly premenných bez extrémnych anomálií.
Fox, J. (2016). Applied Regression Analysis and Generalized Linear Models (3. vyd.). Thousand Oaks, CA: SAGE Publications. Greene, W. H. (2018). Econometric Analysis (8. vyd.). Pearson Education. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning (2. vyd.). New York: Springer.