W celu ujednolicenia waluty, dokonaliśmy przewalutowania ofert
wystawionych w innych walutach na PLN, przyjmując stały kurs wymiany.
Nowa kolumna PricePLN została umieszczona bezpośrednio obok
ceny oryginalnej, aby ułatwić weryfikację poprawności obliczeń.
Poniższe zestawienie przedstawia marki, które najczęściej pojawiają się w ogłoszeniach. Pozwala to określić, jakie samochody dominują na polskim rynku wtórnym.
Poniższe zestawienie przedstawia modele samochodów, które najczęściej pojawiają się w ogłoszeniach. Pozwala to określić, jakie konkretne pojazdy dominują na polskim rynku wtórnym. Bezsprzecznym liderem jest Opel Astra, który stanowi 2.5% wszystkich ogłoszeń (ponad 5000 ofert).Modele takie jak Audi A4 (2.2%) oraz BMW Seria 3 (2.2%) wyprzedzają popularne auta miejskie, co potwierdza trend widoczny w rankingu marek. Volkswagen Golf (2%) oraz Passat (1.9%), wraz ze Skodą Octavią (1.9%), stanowią trzon ofert, co jest typowe dla polskiego rynku wtórnego.Ford Fiesta i Skoda Superb zamykają stawkę TOP 20 z udziałem poniżej 1%, co pokazuje, że rynek jest nasycony głównie autami kompaktowymi i segmentem D.
Poniższy wykres przedstawia rozkład liczby ogłoszeń w zależności od przedziału cenowego. Najwięcej ofert znajduje się w przedziale do 20000 złotych, co wskazuje na popularność samochodów używanych w niskim segmencie cenowym. Ponad 54% ogłoszeń stanowią samochody wystawione za mniej niż 40 000 złotych. W miarę wzrostu ceny liczba ogłoszeń maleje, co jest typowe dla rynku motoryzacyjnego, gdzie droższe pojazdy są mniej powszechne.
Poniższa analiza skupia się na porównaniu rozkładu cen ofertowych dla dwóch popularnych marek japońskich: Hondy oraz Suzuki, na podstawie losowej próby 3000 ogłoszeń.
Wnioski z analizy wizualnej i statystycznej:
Średnie ceny ofertowe: Wyraźnie widać różnicę w średnim poziomie cenowym. Samochody marki Honda są średnio droższe, z ceną wynoszącą 43 546,30 PLN, podczas gdy średnia cena dla marki Suzuki to 40 261,85 PLN.
Charakterystyka rozkładu (Wykres skrzypcowy):
W przypadku obu marek największa koncentracja ofert (najszersza część “skrzypiec”) znajduje się w dolnych przedziałach cenowych, co sugeruje dominację aut używanych w wieku kilku/kilkunastu lat.
Honda posiada bardziej “rozciągnięty” kształt w górę, co świadczy o większej liczbie ofert w przedziale 50 000 – 150 000 PLN.
## Scale for y is already present.
## Adding another scale for y, which will replace the existing scale.
Poniższa analiza skupia się na porównaniu rozkładu cen ofertowych dla trzech popularnych marek niemieckich: BMW, Audi oraz Volkswagen na podstawie losowej próby 3000 ogłoszeń. Najwyższą średnią ceną charakteryzuje się marka BMW, osiągając poziom 106 000 PLN. Audi plasuje się na drugim miejscu ze średnią 93 290,17 PLN.Volkswagen jest marką najtańszą w tym zestawieniu, ze średnią ceną 56 983,47 PLN, co niemal dwukrotnie odbiega od lidera (BMW).Zastosowane poprawki Holma wykazały, że wszystkie różnice między markami są istotne statystycznie.Wykresy marek Audi i BMW wykazują bardzo długie “ogony” w górnych przedziałach cenowych, z licznymi ofertami przekraczającymi 500 000 PLN, a w przypadku BMW zbliżającymi się nawet do 850 000 PLN. Świadczy to o dużej obecności samochodów niemal nowych, luksusowych lub sportowych.Volkswagen ma znacznie bardziej skoncentrowany rozkład – większość ofert skupia się poniżej 150 000 PLN, a wartości odstające rzadko przekraczają próg 300 000 PLN.Największa gęstość ofert (najszersze miejsce skrzypiec) dla wszystkich marek znajduje się w dolnej części skali, co potwierdza, że trzonem rynku są auta używane w niższych przedziałach cenowych.
## Scale for y is already present.
## Adding another scale for y, which will replace the existing scale.
Poniższa analiza skupia się na porównaniu rozkładu cen ofertowych dla dwóch luksusowych marek włoskich: Ferrari i Lamborghini na podstawie populacji składającej się z 84 ogłoszeń.Średnia cena ofertowa dla marki Ferrari wynosi 740 000 PLN, podczas gdy dla Lamborghini jest to 1 040 000 PLN. Różnica ta wskazuje, że Lamborghini plasuje się wyżej w segmencie luksusowych samochodów sportowych. Zastosowane poprawki Holma wykazały, że różnica między cenami obu marek jest istotna statystycznie. Wykresy obu marek wykazują bardzo długie “ogony” w górnych przedziałach cenowych, z licznymi ofertami przekraczającymi 1 500 000 PLN. Świadczy to o dużej obecności samochodów luksusowych lub sportowych.Największa gęstość ofert (najszersze miejsce skrzypiec) dla obu marek znajduje się w wyższej części skali cenowej, co potwierdza, że rynek tych samochodów koncentruje się wokół segmentu premium.
## Scale for y is already present.
## Adding another scale for y, which will replace the existing scale.
Dominacja segmentu SUV i Kombi: Te dwa typy nadwozia niemal zrównały się popularnością, stanowiąc łącznie blisko 40% całego rynku (SUV: 20%, Kombi: 19.3%). Potwierdza to silny trend rynkowy w kierunku aut rodzinnych i uniwersalnych. Tradycyjne nadwozia typu Sedan (16%) oraz Kompakt (15.4%) nadal zajmują wysokie miejsca, utrzymując stabilną bazę ofert. Samochody miejskie (11.6%) oraz minivany (10.6%) stanowią istotne uzupełnienie rynku, odpowiadając na potrzeby transportu lokalnego i większych rodzin.Segmenty niszowe: Najmniejszy udział w bazie mają nadwozia o charakterze rekreacyjnym i sportowym: Coupe (3.1%), Małe samochody (2.9%) oraz Kabriolety (1.2%). Mała liczba ogłoszeń w tych kategoriach sugeruje ich hobbystyczny charakter.
Wykres kołowy przedstawia miażdżącą przewagę jednego z segmentów, co jest typowe dla ogólnodostępnych serwisów ogłoszeniowych.ż 87.8% wszystkich ofert to samochody używane. Potwierdza to, że analizowana baza danych skupia się przede wszystkim na obrocie z drugiej ręki. Samochody nowe stanowią jedynie 12.2% ogłoszeń. Są to zazwyczaj oferty od autoryzowanych dealerów, którzy wykorzystują platformy ogłoszeniowe do wyprzedaży rocznika lub promocji modeli dostępnych “od ręki”.
Struktura napędów pokazuje, że tradycyjne silniki spalinowe wciąż nie mają sobie równych. Rynek jest niemal idealnie podzielony między dwa główne rodzaje paliwa. Benzyna (47.7%) posiada minimalną przewagę nad silnikami typu Diesel (44.4%). Pozostałe rodzaje napędów (LPG, hybrydy, auta elektryczne) stanowią zaledwie 7.9% ogłoszeń. Mimo rosnącej świadomości ekologicznej, auta alternatywne wciąż stanowią mniejszość rynkową w porównaniu do klasycznych rozwiązań. Większość kupujących i sprzedających obraca się wokół aut spalinowych, przy czym wybór między benzyną a dieslem zależy prawdopodobnie od wielkości auta (diesle dominują w SUV-ach i kombi, benzyna w kompaktach).
Wykres kołowy przedstawia strukturę ogłoszeń według rodzaju skrzyni biegów. Dominującą pozycję zajmują samochody z manualną skrzynią biegów, stanowiąc 63.9% wszystkich ofert. To wskazuje na silne przywiązanie rynku do tradycyjnych rozwiązań, które oferują większą kontrolę nad pojazdem i często niższe koszty eksploatacji. Wzrost popularności automatycznych skrzyń biegów (36.1%) jest zauważalny, co może być efektem rosnącej dostępności tego typu napędów w nowych modelach samochodów oraz zmieniających się preferencji kierowców, zwłaszcza w miastach, gdzie automatyka ułatwia jazdę w korkach.
Poniższy wykres przedstawia zależność ceny samochodu od mocy silnika. Analiza opiera się na danych po usunięciu obserwacji skrajnych, co pozwala lepiej zobrazować typowe relacje między tymi dwoma zmiennymi.Linia trendu wyraźnie pnie się w górę, co potwierdza intuicyjną zależność: wraz ze wzrostem mocy silnika (KM), rośnie cena pojazdu (PLN). Jest to związane nie tylko z kosztem samej jednostki napędowej, ale także z faktem, że duża moc jest domeną samochodów nowszych, wyższych klas lub aut sportowych.Największe zagęszczenie ogłoszeń (najciemniejszy kolor niebieski) występuje w przedziale od 100 do 150 KM przy cenie poniżej 30 000 PLN. To “serce” polskiego rynku wtórnego – samochody kompaktowe i miejskie, które są najbardziej przystępne cenowo. Większość ofert skupia się w zakresie do 200 KM. Powyżej 300 KM liczba ogłoszeń gwałtownie spada (jasnoniebieskie punkty), co oznacza, że są to oferty niszowe, luksusowe lub wyczynowe. Pionowy rozrzut punktów pokazuje, że przy tej samej mocy (np. 150 KM) ceny są bardzo zróżnicowane (od kilku do prawie 100 tys. PLN). Wynika to z innych czynników, których ten wykres nie uwzględnia bezpośrednio, takich jak: rocznik, przebieg czy marka. Moc silnika jest silnym predyktorem ceny. Jeśli szukasz auta o mocy powyżej 200 KM, musisz liczyć się z ceną startową znacznie wyższą niż średnia rynkowa, a dynamika tego wzrostu jest stała w całym badanym zakresie.
## `geom_smooth()` using formula = 'y ~ x'
Moc silnika (wyrażona w koniach mechanicznych – KM) jest jednym z najważniejszych czynników determinujących charakter pojazdu oraz jego wartość rynkową. Poniższe zestawienie przedstawia rozkład popularności jednostek napędowych. Serce rynku (100–150 KM): Ponad 41% wszystkich wystawionych pojazdów posiada moc w tym przedziale. Jest to absolutny standard dla współczesnych samochodów kompaktowych i SUV-ów, łączący przyzwoitą dynamikę z ekonomią spalania.Standardowa oferta (50–200 KM): Jeśli rozszerzymy zakres od 50 do 200 KM, okaże się, że obejmuje on ponad 83% całego rynku.Segment aut mocnych i sportowych: Jednostki generujące powyżej 250 KM stanowią rynkową mniejszość (łącznie około 9%). Auta o mocy ekstremalnej (powyżej 500 KM) to zaledwie 0.8% wszystkich ofert.
Wybór koloru nadwozia, choć wydaje się kwestią czysto estetyczną, ma istotne znaczenie rynkowe – wpływa na tzw. płynność odsprzedaży oraz utrzymanie wartości pojazdu. Poniższy wykres przedstawia strukturę kolorystyczną badanej bazy ogłoszeń.Polski rynek wtórny jest zdominowany przez “bezpieczne” i klasyczne kolory. Pierwsze cztery miejsca zajmują: Czarny (24.2%), Szary (15.3%), Srebrny (14.8%) oraz Biały (14.6%). Łącznie te cztery barwy stanowią blisko 70% wszystkich ofert.Niemal co czwarty samochód wystawiony na sprzedaż jest koloru czarnego. Jest to kolor kojarzony z elegancją i segmentem premium, co pokrywa się z wysokim udziałem marek takich jak BMW czy Audi w bazie danych.Wśród barw chromatycznych (kolorowych) największą popularnością cieszy się Niebieski (10.4%) oraz Czerwony (4.7%). Pozostałe kolory, takie jak brązowy, zielony czy bordowy, stanowią jedynie marginalny ułamek ofert (poniżej 3% każdy).Dane potwierdzają zachowawczość kupujących i sprzedających. Samochody w kolorach czarnym, szarym i srebrnym są traktowane jako najbardziej uniwersalne, co ułatwia ich późniejszą odsprzedaż. Wyraźna dominacja czerni może również sugerować dużą liczbę aut poflotowych oraz reprezentacyjnych sedanów i SUV-ów w analizowanym zbiorze.
Wykres przedstawia procentową różnicę w cenie między egzemplarzami nowymi a używanymi dla pięciu najpopularniejszych modeli w bazie. Dane te obrazują, jak drastycznie spada wartość pojazdu po wyjechaniu z salonu i przejściu na rynek wtórny. Największy spadek wartości – Segment Premium: Liderami utraty wartości są modele marek luksusowych. BMW Seria 3 notuje najwyższy spadek, gdzie modele używane są średnio o 87.7% tańsze od nowych. Tuż za nim plasuje się Audi A4 ze spadkiem na poziomie 83.2%. Wynika to z faktu, że auta premium bardzo szybko tracą na wartości w pierwszych latach eksploatacji, a koszty ich serwisowania na rynku wtórnym są wysokie. Modele marek masowych wykazują nieco większą odporność na utratę wartości w porównaniu do segmentu premium. Volkswagen Golf (78.6%) oraz Volkswagen Passat (74.7%) plasują się w środku stawki.W tym zestawieniu Opel Astra notuje najniższą różnicę (69.7%). Oznacza to, że używane Astry zachowują relatywnie najwyższy procent ceny nowego auta spośród analizowanej piątki, co może wynikać z ich ogromnej popularności w flotach i wysokiego popytu na tanie w utrzymaniu auta kompaktowe. Dla potencjalnego nabywcy wykres ten jest jasnym sygnałem: zakup rocznego lub kilkuletniego auta segmentu premium (BMW, Audi) pozwala na zaoszczędzenie ogromnej części kwoty początkowej w porównaniu do zakupu w salonie. Jednocześnie potwierdza to tezę, że samochody są aktywami tracącymi na wartości najszybciej w początkowej fazie użytkowania.
Celem poniższego testu było zweryfikowanie hipotezy o istotnej różnicy w rozkładzie cen między samochodami nowymi a używanymi. Ze względu na silną asymetrię cen (obecność bardzo drogich aut luksusowych, które zawyżają średnią), zamiast testu t-Studenta zastosowano odporny na obserwacje odstające, nieparametryczny test sumy rang Wilcoxona.
Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) jednoznacznie potwierdza, że różnica cen między autami nowymi a używanymi jest wysoce istotna statystycznie. Nie jest to wynik przypadkowy – stan pojazdu jest kluczowym czynnikiem różnicującym cenę.
Siła efektu (Effect Size): Wartość siły efektu wynosząca 0.46 interpretowana jest jako umiarkowana (moderate). Może to wydawać się sprzeczne z intuicją, która podpowiada “ogromną” przepaść cenową między salonem a komisem. Umiarkowany wynik wynika jednak ze specyfiki rynku:
Nakładanie się segmentów: Kategoria “Używane” jest bardzo szeroka – zawiera zarówno tanie auta miejskie, jak i roczne limuzyny premium, które są wciąż droższe niż wiele fabrycznie nowych aut marek budżetowych.
Zróżnicowanie grupy “Nowe”: Obejmuje ona pełne spektrum, od najtańszych modeli miejskich po luksusowe super-samochody.
Struktura rynku: Analiza liczebności grup (\(n_{new} \approx 25\ tys.\) vs \(n_{used} \approx 183\ tys.\)) pokazuje wyraźną dominację rynku wtórnego w analizowanym zbiorze danych. Oferty aut używanych stanowią blisko 88% wszystkich ogłoszeń, co potwierdza, że polski rynek motoryzacyjny opiera się głównie na obrocie pojazdami z drugiej ręki.
##
## Wilcoxon rank sum test with continuity correction
##
## data: PricePLN by Condition
## W = 4.23e+09, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
## # A tibble: 1 × 7
## .y. group1 group2 effsize n1 n2 magnitude
## * <chr> <chr> <chr> <dbl> <int> <int> <ord>
## 1 PricePLN New Used 0.464 25454 182850 moderate
Kolejnym kluczowym czynnikiem różnicującym wartość rynkową pojazdu jest rodzaj przeniesienia napędu. Aby sprawdzić, jak silna jest dysproporcja cenowa między samochodami z automatyczną a manualną skrzynią biegów, przeprowadzono test sumy rang Wilcoxona. Wybór testu nieparametrycznego podyktowany jest silną asymetrią rozkładu cen.
Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) potwierdza, że rodzaj skrzyni biegów ma fundamentalne znaczenie dla ceny pojazdu. Różnica w cenach ofertowych obu grup jest wysoce istotna statystycznie.
Siła efektu (Effect Size): Wskaźnik siły efektu wynosi 0.54, co klasyfikuje tę zależność jako dużą (large). Jest to wynik wyższy niż w przypadku porównania aut nowych i używanych (gdzie siła efektu była umiarkowana). Oznacza to, że skrzynia biegów jest jednym z najsilniejszych predyktorów wysokiej ceny. Wynika to z faktu, że:
Automatyczna skrzynia biegów jest standardem w segmencie Premium, SUV-ach oraz autach luksusowych, które naturalnie są droższe.
Manualne skrzynie biegów dominują w starszych rocznikach, autach miejskich oraz w podstawowych wersjach wyposażenia.
Struktura rynku: Mimo rosnącej popularności “automatów”, polski rynek wtórny wciąż jest silnie nasycony autami z manualną przekładnią. W badanej próbie skrzynie manualne stanowią blisko 64% ofert (\(n \approx 133\ tys.\)) w porównaniu do 36% automatów (\(n \approx 75\ tys.\)). Taka struktura podaży sprawia, że automat jest cechą pożądaną i wyraźnie podnoszącą prestiż oraz cenę oferty.
##
## =====================================
## ZMIENNA: Transmission
## LICZBA POZIOMÓW: 2
## =====================================
##
##
## Wilcoxon rank sum test with continuity correction
##
## data: PricePLN by Transmission
## W = 8273462441, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
##
## # A tibble: 1 × 7
## .y. group1 group2 effsize n1 n2 magnitude
## * <chr> <chr> <chr> <dbl> <int> <int> <ord>
## 1 PricePLN Automatic Manual 0.544 75119 133185 large
Podstawowym kryterium podziału rynku motoryzacyjnego jest stan pojazdu. Aby zweryfikować hipotezę o istotnej statystycznie różnicy cen między samochodami nowymi a używanymi, przeprowadzono nieparametryczny test sumy rang Wilcoxona. Wybór tego testu, zamiast klasycznego testu t-Studenta, podyktowany jest silną asymetrią rozkładu cen oraz występowaniem licznych obserwacji odstających (aut luksusowych).
Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) jednoznacznie wskazuje, że różnica w rozkładach cen dla aut nowych i używanych jest wysoce istotna statystycznie. Odrzucamy hipotezę zerową o równości rozkładów.
Siła efektu (Effect Size): Obliczona miara siły efektu wynosi 0.46, co interpretujemy jako efekt umiarkowany (moderate). Choć intuicja sugeruje “przepaść” cenową między salonem a komisem, statystyka pokazuje bardziej zniuansowany obraz. Wynika to z faktu, że zbiory te cenowo na siebie zachodzą:
Segment aut używanych zawiera drogie, luksusowe modele (często roczne lub dwuletnie), których cena przewyższa wartość wielu fabrycznie nowych aut z segmentu budżetowego.
Szeroka definicja “Nowe” obejmuje zarówno tanie auta miejskie, jak i super-samochody.
Struktura rynku: Analiza liczebności grup ujawnia ogromną dysproporcję w podaży. W badanej próbie zidentyfikowano 25 454 ofert aut nowych oraz aż 182 850 aut używanych. Rynek wtórny dominuje, stanowiąc niemal 88% wszystkich analizowanych ogłoszeń.
##
## =====================================
## ZMIENNA: Condition
## LICZBA POZIOMÓW: 2
## =====================================
##
##
## Wilcoxon rank sum test with continuity correction
##
## data: PricePLN by Condition
## W = 4.23e+09, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
##
## # A tibble: 1 × 7
## .y. group1 group2 effsize n1 n2 magnitude
## * <chr> <chr> <chr> <dbl> <int> <int> <ord>
## 1 PricePLN New Used 0.464 25454 182850 moderate
Rodzaj napędu to jeden z kluczowych parametrów decyzyjnych przy zakupie samochodu, wpływający zarówno na cenę zakupu, jak i późniejsze koszty eksploatacji. Ponieważ analizowana zmienna Fuel_type posiada więcej niż dwa poziomy (m.in. Benzyna, Diesel, Hybryda, Elektryk, LPG), zastosowano test Kruskala-Wallisa.
Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) potwierdza, że rodzaj paliwa istotnie różnicuje ceny samochodów na polskim rynku. Nie jest to zaskoczeniem – technologia napędu jest ściśle powiązana z wiekiem konstrukcji i pozycjonowaniem rynkowym auta.
Siła efektu (Effect Size): Wskaźnik \(\eta^2\) (eta-squared) wynosi 0.062, co interpretujemy jako efekt umiarkowany (moderate).
Mimo wyraźnych różnic cenowych między np. autami elektrycznymi a spalinowymi, ogólna siła efektu jest łagodzona przez ogromne zróżnicowanie wewnątrz grup “Diesel” i “Benzyna”. Kategorie te obejmują zarówno tanie, 20-letnie pojazdy, jak i nowe auta klasy premium, co zwiększa wariancję wewnątrzrupową.
Struktura rynku i różnice międzygrupowe (Post-hoc):
Dominacja napędów konwencjonalnych: Rynek jest zdominowany przez silniki benzynowe (\(n \approx 99\ tys.\)) oraz Diesla (\(n \approx 92\ tys.\)). Stanowią one łącznie ponad 90% ofert.
Premiumizacja alternatyw: Analiza post-hoc (test Dunna) wykazuje bardzo silne, istotne statystycznie różnice między napędami tradycyjnymi a nowoczesnymi. Hybrydy (\(n \approx 5.8\ tys.\)) oraz auta elektryczne (\(n \approx 1.5\ tys.\)) są grupami wyraźnie droższymi od średniej rynkowej.
Nisze rynkowe: Paliwa takie jak Etanol czy Wodór stanowią margines błędu statystycznego (pojedyncze sztuki), przez co różnice w ich przypadku są nieistotne statystycznie (\(ns\)).
##
## =====================================
## ZMIENNA: Fuel_type
## LICZBA POZIOMÓW: 8
## =====================================
##
##
## Kruskal-Wallis rank sum test
##
## data: PricePLN by Fuel_type
## Kruskal-Wallis chi-squared = 12993, df = 7, p-value < 2.2e-16
##
## # A tibble: 1 × 5
## .y. n effsize method magnitude
## * <chr> <int> <dbl> <chr> <ord>
## 1 PricePLN 208304 0.0623 eta2[H] moderate
##
## Post-hoc Dunn (Bonferroni):
## # A tibble: 28 × 9
## .y. group1 group2 n1 n2 statistic p p.adj p.adj.signif
## * <chr> <chr> <chr> <int> <int> <dbl> <dbl> <dbl> <chr>
## 1 PricePLN Diesel Elect… 92415 1553 48.3 0 0 ****
## 2 PricePLN Diesel Ethan… 92415 2 -0.0758 9.40e- 1 1 e+ 0 ns
## 3 PricePLN Diesel Gasol… 92415 99352 9.43 4.19e-21 1.17e-19 ****
## 4 PricePLN Diesel Gasol… 92415 70 -5.18 2.17e- 7 6.09e- 6 ****
## 5 PricePLN Diesel Gasol… 92415 9027 -58.0 0 0 ****
## 6 PricePLN Diesel Hybrid 92415 5883 80.7 0 0 ****
## 7 PricePLN Diesel Hydro… 92415 2 2.35 1.86e- 2 5.19e- 1 ns
## 8 PricePLN Electric Ethan… 1553 2 -1.82 6.82e- 2 1 e+ 0 ns
## 9 PricePLN Electric Gasol… 1553 99352 -46.7 0 0 ****
## 10 PricePLN Electric Gasol… 1553 70 -15.2 3.90e-52 1.09e-50 ****
## # ℹ 18 more rows
Sposób przeniesienia napędu determinuje nie tylko właściwości jezdne, ale także pozycjonowanie rynkowe samochodu (auto miejskie vs. terenowe vs. sportowe). Ze względu na wielokategorialny charakter zmiennej Drive (5 poziomów, m.in. napęd na przód, tył, różne warianty 4x4), zastosowano test Kruskala-Wallisa.
Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) jednoznacznie wskazuje, że rodzaj napędu jest czynnikiem drastycznie różnicującym ceny ofertowe.
Siła efektu (Effect Size): Wskaźnik \(\eta^2\) wynosi 0.146, co klasyfikuje tę zależność jako dużą (large).
Jest to wynik znacząco wyższy niż w przypadku rodzaju paliwa (\(\eta^2 \approx 0.06\)). Oznacza to, że informacja o tym, czy auto ma napęd 4x4, czy na przednią oś, mówi nam o jego cenie znacznie więcej, niż to, czy jest to Diesel, czy benzyna.
Wysoka siła efektu wynika z wyraźnego podziału rynku: napęd na przód jest domeną aut tanich, natomiast napędy 4x4 oraz RWD (tylny) są standardem w drogich segmentach Premium i SUV.
Struktura rynku i różnice międzygrupowe (Post-hoc):
Dominacja FWD: Rynek jest absolutnie zdominowany przez napęd na przednią oś (“Front wheels”), który posiada aż 151 312 pojazdów w próbie (ok. 72% rynku). Jest to rozwiązanie najtańsze w produkcji i eksploatacji.
Premiumizacja pozostałych napędów: Analiza post-hoc (test Dunna) pokazuje, że “Front wheels” różni się istotnie statystycznie od wszystkich pozostałych typów napędu (p < 0.0001).
Różnorodność 4x4: Wyróżniamy istotne różnice nawet w obrębie napędów na cztery koła. Napęd stały (“4x4 permanent”, \(n \approx 18\ tys.\)) oraz dołączany automatycznie (\(n \approx 16\ tys.\)) to rozwiązania popularne i droższe, podczas gdy napęd dołączany ręcznie (\(n \approx 3\ tys.\)) stanowi niszowy relikt aut typowo terenowych.
##
## =====================================
## ZMIENNA: Drive
## LICZBA POZIOMÓW: 5
## =====================================
##
##
## Kruskal-Wallis rank sum test
##
## data: PricePLN by Drive
## Kruskal-Wallis chi-squared = 30418, df = 4, p-value < 2.2e-16
##
## # A tibble: 1 × 5
## .y. n effsize method magnitude
## * <chr> <int> <dbl> <chr> <ord>
## 1 PricePLN 208304 0.146 eta2[H] large
##
## Post-hoc Dunn (Bonferroni):
## # A tibble: 10 × 9
## .y. group1 group2 n1 n2 statistic p p.adj p.adj.signif
## * <chr> <chr> <chr> <int> <int> <dbl> <dbl> <dbl> <chr>
## 1 Price… 4x4 (… 4x4 (… 16462 2995 -21.5 2.29e-102 2.29e-101 ****
## 2 Price… 4x4 (… 4x4 (… 16462 18126 15.1 1.27e- 51 1.27e- 50 ****
## 3 Price… 4x4 (… Front… 16462 151312 -114. 0 0 ****
## 4 Price… 4x4 (… Rear … 16462 19409 -56.0 0 0 ****
## 5 Price… 4x4 (… 4x4 (… 2995 18126 29.9 2.95e-196 2.95e-195 ****
## 6 Price… 4x4 (… Front… 2995 151312 -27.7 4.06e-169 4.06e-168 ****
## 7 Price… 4x4 (… Rear … 2995 19409 -8.49 1.99e- 17 1.99e- 16 ****
## 8 Price… 4x4 (… Front… 18126 151312 -140. 0 0 ****
## 9 Price… 4x4 (… Rear … 18126 19409 -73.2 0 0 ****
## 10 Price… Front… Rear … 151312 19409 45.2 0 0 ****
Typ nadwozia (segment) jest fundamentalną cechą samochodu, definiującą jego przeznaczenie, praktyczność oraz prestiż. Ze względu na występowanie aż 9 różnych kategorii (od aut miejskich po SUV-y), do weryfikacji różnic cenowych wykorzystano test Kruskala-Wallisa.
Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) jednoznacznie potwierdza, że typ nadwozia jest kluczowym czynnikiem różnicującym ceny na rynku wtórnym.
Siła efektu (Effect Size): Wskaźnik \(\eta^2\) wynosi 0.218, co oznacza efekt duży (large).
Jest to najwyższy wynik spośród wszystkich analizowanych dotychczas zmiennych kategorycznych (dla porównania: Rodzaj napędu \(\eta^2 \approx 0.146\), Rodzaj paliwa \(\eta^2 \approx 0.062\)).
Oznacza to, że typ nadwozia wyjaśnia blisko 22% zmienności cen w rangach. Wiedząc, czy auto jest SUV-em, czy autem miejskim, możemy znacznie precyzyjniej oszacować jego wartość niż znając tylko rodzaj paliwa.
Struktura rynku i segmentacja:
Dominacja SUV-ów: Najliczniejszą grupą w badanej próbie są SUV-y (\(n \approx 41.5\ tys.\)). Ich popularność w połączeniu z wysokimi cenami sprawia, że ten segment “ciągnie” średnią rynkową w górę.
Popularność aut rodzinnych: Tuż za SUV-ami plasują się auta typu Kombi (Station wagon, \(n \approx 40\ tys.\)), co pokazuje, że polski rynek wtórny w dużej mierze zaspokaja potrzeby rodzin szukających aut praktycznych.
Wyraźna hierarchia cenowa: Analiza post-hoc (test Dunna) wykazuje istotne statystycznie różnice dla niemal wszystkich par porównań (p < 0.0001 dla większości zestawień). Rynek jest wyraźnie rozwarstwiony – “City cars” (auta miejskie) stanowią zupełnie inną kategorię cenową niż “Coupe” czy “Convertible” (kabriolety), które są segmentami niszowymi i droższymi.
##
## =====================================
## ZMIENNA: Type
## LICZBA POZIOMÓW: 9
## =====================================
##
##
## Kruskal-Wallis rank sum test
##
## data: PricePLN by Type
## Kruskal-Wallis chi-squared = 45418, df = 8, p-value < 2.2e-16
##
## # A tibble: 1 × 5
## .y. n effsize method magnitude
## * <chr> <int> <dbl> <chr> <ord>
## 1 PricePLN 208304 0.218 eta2[H] large
##
## Post-hoc Dunn (Bonferroni):
## # A tibble: 36 × 9
## .y. group1 group2 n1 n2 statistic p p.adj p.adj.signif
## * <chr> <chr> <chr> <int> <int> <dbl> <dbl> <dbl> <chr>
## 1 PricePLN city_… compa… 24110 32150 51.6 0 0 ****
## 2 PricePLN city_… conve… 24110 2496 35.5 1.16e-275 4.19e-274 ****
## 3 PricePLN city_… coupe 24110 6374 88.2 0 0 ****
## 4 PricePLN city_… miniv… 24110 22114 41.4 0 0 ****
## 5 PricePLN city_… sedan 24110 33271 102. 0 0 ****
## 6 PricePLN city_… small… 24110 5974 -7.47 8.03e- 14 2.89e- 12 ****
## 7 PricePLN city_… stati… 24110 40228 69.7 0 0 ****
## 8 PricePLN city_… SUV 24110 41587 176. 0 0 ****
## 9 PricePLN compa… conve… 32150 2496 14.7 4.08e- 49 1.47e- 47 ****
## 10 PricePLN compa… coupe 32150 6374 58.5 0 0 ****
## # ℹ 26 more rows
Aby zbadać siłę i kierunek zależności między ceną a zmiennymi numerycznymi (Przebieg, Moc, Pojemność, Rok produkcji), zastosowano współczynnik korelacji rang Spearmana. Wybór metody rangowej, a nie liniowej korelacji Pearsona, jest kluczowy, ponieważ relacje te rzadko są idealnie liniowe (np. utrata wartości auta jest szybsza w pierwszych latach), a w danych występują obserwacje odstające.
Rok produkcji (\(rho = 0.83\), Bardzo silna korelacja dodatnia):
Jest to najsilniejszy predyktor ceny w całym zbiorze danych.
Wartość bliska 1.0 potwierdza oczywistą, ale fundamentalną zasadę rynku: wiek pojazdu jest głównym czynnikiem deprecjacji. Im nowsze auto, tym wyższa cena, a siła tej zależności dominuje nad pozostałymi czynnikami.
Przebieg (\(rho = -0.67\), Silna korelacja ujemna):
Znak minus oznacza odwrotną zależność: im wyższy przebieg, tym niższa cena.
Przebieg jest rynkowym miernikiem “zużycia” pojazdu. Wynik -0.67 wskazuje, że klienci bardzo wrażliwie reagują na wskazania licznika. Jest to drugi najważniejszy czynnik cenotwórczy. Warto zauważyć, że przebieg jest silnie skorelowany z rocznikiem, co wzmacnia ten efekt.
Moc silnika (\(rho = 0.57\), Umiarkowana korelacja dodatnia):
Mocniejszy silnik oznacza wyższą cenę.
Zależność jest wyraźna, ale słabsza niż w przypadku rocznika. Wynika to z faktu, że na rynku istnieją zarówno drogie auta o umiarkowanej mocy (np. nowoczesne hybrydy), jak i tanie, starsze auta o dużej mocy, które straciły już na wartości. Mimo to, w obrębie tego samego rocznika, moc jest wyznacznikiem wersji wyposażenia i prestiżu.
Pojemność skokowa (\(rho = 0.24\), Słaba korelacja dodatnia):
To najciekawszy, nieoczywisty wniosek. Korelacja jest niska, co wynika ze zjawiska downsizingu.
Współczesne, drogie samochody często mają małe silniki (np. 1.5L lub 2.0L) wspomagane turbosprężarkami, generujące dużą moc. Z kolei starsze, tańsze modele często posiadają silniki o dużej pojemności, ale niskiej wartości rynkowej. Dlatego pojemność skokowa przestała być dobrym wyznacznikiem luksusu czy ceny.
Wartość samochodu na polskim rynku wtórnym jest determinowana przede wszystkim przez jego wiek oraz przebieg. Parametry techniczne, takie jak moc, mają znaczenie drugoplanowe, a pojemność silnika w dobie nowoczesnej motoryzacji traci na znaczeniu jako wyznacznik wartości.
##
## Spearman's rank correlation rho
##
## data: Car_sale_ads_cleaned_drive_transmission_imputed$PricePLN and Car_sale_ads_cleaned_drive_transmission_imputed$Mileage_km
## S = 2.5209e+15, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.6734507
##
## Spearman's rank correlation rho
##
## data: Car_sale_ads_cleaned_drive_transmission_imputed$PricePLN and Car_sale_ads_cleaned_drive_transmission_imputed$Power_HP
## S = 6.5254e+14, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.5668208
##
## Spearman's rank correlation rho
##
## data: Car_sale_ads_cleaned_drive_transmission_imputed$PricePLN and Car_sale_ads_cleaned_drive_transmission_imputed$Displacement_cm3
## S = 1.1511e+15, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.2358714
##
## Spearman's rank correlation rho
##
## data: Car_sale_ads_cleaned_drive_transmission_imputed$PricePLN and Car_sale_ads_cleaned_drive_transmission_imputed$Production_year
## S = 2.5056e+14, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.8336734
W celu ilościowego oszacowania wpływu poszczególnych cech na cenę końcową, zbudowano model regresji liniowej. Zmienną objaśnianą jest logarytm ceny (logPrice), co pozwala na interpretację wyników w kategoriach procentowych zmian wartości i lepiej oddaje nieliniowy charakter cen na rynku motoryzacyjnym. Jakość dopasowania modelu:Model charakteryzuje się wysokim współczynnikiem determinacji \(R^2 = 0.73\). Oznacza to, że wybrane zmienne (Rocznik, Przebieg, Moc, Paliwo, Skrzynia, Stan) wyjaśniają aż 73% zmienności cen na polskim rynku wtórnym. Jest to wynik bardzo satysfakcjonujący, biorąc pod uwagę różnorodność ofert.
Dominacja rocznika (Production_year): Współczynnik wynosi 0.073. Oznacza to, że ceteris paribus (przy ustalonych pozostałych parametrach), każdy kolejny rok produkcji (auto młodsze o rok) podnosi cenę średnio o ok. 7.3%. Jest to najsilniejszy czynnik wpływający na wartość.
Moc silnika (Power_HP): Każdy dodatkowy koń mechaniczny (1 KM) przekłada się na wzrost ceny o ok. 0.5%. Choć jednostkowo to niewiele, różnica 100 KM generuje już znaczącą premię cenową (ok. 50%).
Rodzaj napędu (Baza: Diesel): Model potwierdza “premię za ekologię”. Samochody Hybrydowe są średnio o ok. 17.5% droższe od Diesli (\(e^{0.16} - 1\)), a Elektryczne o ok. 11%.Z kolei auta z instalacją LPG są wyceniane najniżej (spadek o ok. 24% względem Diesla), co potwierdza ich budżetowy charakter.
Skrzynia biegów (TransmissionManual): Ujemny współczynnik (-0.366) wskazuje na ogromną różnicę w wycenie. Manualna skrzynia biegów obniża wartość pojazdu o ok. 30% w porównaniu do automatu (przy tych samych parametrach rocznika i mocy).
Stan pojazdu (ConditionUsed): Współczynnik -0.552 to matematyczny dowód na “efekt wyjazdu z salonu”. Samochód używany jest średnio o ok. 42% tańszy od swojego nowego odpowiednika (przy uwzględnieniu korekty na rocznik w ramach modelu).
Paradoks przebiegu (Mileage_km): Współczynnik przy przebiegu jest statystycznie istotny, ale bliski zeru i dodatni (\(3.03 \times 10^{-9}\)). Jest to efekt pozorny, wynikający z silnej korelacji przebiegu z rocznikiem (nowsze auta mają mniejszy przebieg). W tym modelu “ciężar” wyjaśniania spadku wartości przejął niemal w całości Rocznik, czyniąc zmienną przebiegu drugoplanową w ujęciu wielowymiarowym.
##
## Call:
## lm(formula = logPrice ~ Production_year + Mileage_km + Power_HP +
## Fuel_type + Transmission + Condition, data = Car_sale_ads_cleaned_drive_transmission_imputed)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.4789 -0.2626 0.0125 0.2677 9.4282
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.368e+02 3.996e-01 -342.276 < 2e-16 ***
## Production_year 7.318e-02 1.977e-04 370.122 < 2e-16 ***
## Mileage_km 3.028e-09 4.794e-10 6.318 2.66e-10 ***
## Power_HP 5.062e-03 1.862e-05 271.853 < 2e-16 ***
## Fuel_typeElectric 1.063e-01 1.406e-02 7.561 4.02e-14 ***
## Fuel_typeEthanol -2.921e+00 4.530e-01 -6.448 1.14e-10 ***
## Fuel_typeGasoline -2.729e-02 2.528e-03 -10.794 < 2e-16 ***
## Fuel_typeGasoline + CNG -1.962e-01 6.500e-02 -3.019 0.00254 **
## Fuel_typeGasoline + LPG -2.766e-01 6.047e-03 -45.733 < 2e-16 ***
## Fuel_typeHybrid 1.615e-01 7.563e-03 21.356 < 2e-16 ***
## Fuel_typeHydrogen 1.186e+00 3.844e-01 3.085 0.00204 **
## TransmissionManual -3.662e-01 3.129e-03 -117.014 < 2e-16 ***
## ConditionUsed -5.519e-01 4.172e-03 -132.293 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5436 on 208291 degrees of freedom
## Multiple R-squared: 0.7312, Adjusted R-squared: 0.7311
## F-statistic: 4.721e+04 on 12 and 208291 DF, p-value: < 2.2e-16
Aby potwierdzić wiarygodność oszacowanych współczynników oraz sprawdzić, czy model spełnia założenia klasycznej metody najmniejszych kwadratów, przeprowadzono analizę diagnostyczną obejmującą test współliniowości (VIF) oraz analizę wizualną reszt.
Analiza współliniowości (VIF - Variance Inflation Factor): Pierwszym krokiem było sprawdzenie, czy zmienne objaśniające nie są ze sobą zbyt silnie skorelowane (np. czy rocznik nie dubluje informacji o przebiegu w sposób uniemożliwiający obliczenia).
Wszystkie wartości GVIF (Generalized VIF) dla zmiennych w modelu mieszczą się w przedziale 1.3 – 1.6.
Jest to wynik bardzo dobry. W statystyce przyjmuje się, że wartości powyżej 5 lub 10 świadczą o szkodliwej współliniowości.
Wniosek: Mimo że rocznik i przebieg są ze sobą skorelowane (jak wykazała wcześniejsza analiza korelacji Spearmana), w kontekście wielowymiarowym każda z tych zmiennych wnosi unikalną informację. Współczynniki modelu są stabilne i można je interpretować niezależnie.
Analiza reszt (Wykresy diagnostyczne): Wizualna ocena wykresów diagnostycznych ujawnia pewne ograniczenia modelu, typowe dla danych rzeczywistych o tak dużej liczebności (\(N > 200\ tys.\)):
Residuals vs Fitted (Lewy górny): Widoczna jest pewna struktura (lekki kształt lejka/krzywej), co sugeruje, że zależność nie jest idealnie liniowa nawet po zlogarytmowaniu ceny. Może to oznaczać występowanie heteroskedastyczności – błąd predykcji modelu zmienia się wraz z ceną auta (model myli się bardziej przy autach drogich).
Normal Q-Q (Prawy górny): Punkty układają się na linii przerywanej w środkowej części, ale wyraźnie odchylają się na krańcach (“ciężkie ogony”). Oznacza to, że rozkład reszt nie jest idealnie normalny. Model ma trudności z dokładnym oszacowaniem cen dla ofert skrajnych – bardzo tanich “wraków” lub unikatowych egzemplarzy luksusowych.
Scale-Location (Lewy dolny): Rosnąca czerwona linia potwierdza wspomnianą heteroskedastyczność. Wariancja błędów rośnie wraz ze wzrostem wartości przewidywanej.
Residuals vs Leverage (Prawy dolny): Wykres nie wskazuje na istnienie pojedynczych punktów o krytycznym wpływie na model (brak punktów przekraczających dystans Cooka w stopniu alarmującym).
## GVIF Df GVIF^(1/(2*Df))
## Production_year 1.349774 1 1.161798
## Mileage_km 1.391191 1 1.179488
## Power_HP 1.470505 1 1.212644
## Fuel_type 1.599626 7 1.034124
## Transmission 1.591660 1 1.261610
## Condition 1.316245 1 1.147277