Projekt

Przewalutowanie i przygotowanie kolumny ceny

W celu ujednolicenia waluty, dokonaliśmy przewalutowania ofert wystawionych w innych walutach na PLN, przyjmując stały kurs wymiany. Nowa kolumna PricePLN została umieszczona bezpośrednio obok ceny oryginalnej, aby ułatwić weryfikację poprawności obliczeń.

TOP 20 najpopularniejszych marek samochodów

Poniższe zestawienie przedstawia marki, które najczęściej pojawiają się w ogłoszeniach. Pozwala to określić, jakie samochody dominują na polskim rynku wtórnym.

Kluczowe obserwacje:

Liderzy rynku: Wyraźnie widać dominację marek niemieckich (VW, BMW, Audi).
Udział procentowy: Pierwszą piątkę zestawienia otwierają wyłącznie producenci z Niemiec: Volkswagen (8.9%), BMW (8.2%), Audi (8%), Opel (7.8%) oraz Ford (7.7%).Marki z końca zestawienia (np. Fiat, Seat, Nissan) mają zbliżone do siebie udziały, co świadczy o dużej różnorodności ofert poza ścisłą czołówką.

TOP 20 najpopularniejszych modeli samochodów

Poniższe zestawienie przedstawia modele samochodów, które najczęściej pojawiają się w ogłoszeniach. Pozwala to określić, jakie konkretne pojazdy dominują na polskim rynku wtórnym. Bezsprzecznym liderem jest Opel Astra, który stanowi 2.5% wszystkich ogłoszeń (ponad 5000 ofert).Modele takie jak Audi A4 (2.2%) oraz BMW Seria 3 (2.2%) wyprzedzają popularne auta miejskie, co potwierdza trend widoczny w rankingu marek. Volkswagen Golf (2%) oraz Passat (1.9%), wraz ze Skodą Octavią (1.9%), stanowią trzon ofert, co jest typowe dla polskiego rynku wtórnego.Ford Fiesta i Skoda Superb zamykają stawkę TOP 20 z udziałem poniżej 1%, co pokazuje, że rynek jest nasycony głównie autami kompaktowymi i segmentem D.

Liczba ogłoszeń ze względu na cenę (PLN)

Poniższy wykres przedstawia rozkład liczby ogłoszeń w zależności od przedziału cenowego. Najwięcej ofert znajduje się w przedziale do 20000 złotych, co wskazuje na popularność samochodów używanych w niskim segmencie cenowym. Ponad 54% ogłoszeń stanowią samochody wystawione za mniej niż 40 000 złotych. W miarę wzrostu ceny liczba ogłoszeń maleje, co jest typowe dla rynku motoryzacyjnego, gdzie droższe pojazdy są mniej powszechne.

Analiza porównawcza cen marek japońskich: Honda vs Suzuki

Poniższa analiza skupia się na porównaniu rozkładu cen ofertowych dla dwóch popularnych marek japońskich: Hondy oraz Suzuki, na podstawie losowej próby 3000 ogłoszeń.

Wnioski z analizy wizualnej i statystycznej:

Średnie ceny ofertowe: Wyraźnie widać różnicę w średnim poziomie cenowym. Samochody marki Honda są średnio droższe, z ceną wynoszącą 43 546,30 PLN, podczas gdy średnia cena dla marki Suzuki to 40 261,85 PLN.
Charakterystyka rozkładu (Wykres skrzypcowy):
- W przypadku obu marek największa koncentracja ofert (najszersza część “skrzypiec”) znajduje się w dolnych przedziałach cenowych, co sugeruje dominację aut używanych w wieku kilku/kilkunastu lat.
- Honda posiada bardziej “rozciągnięty” kształt w górę, co świadczy o większej liczbie ofert w przedziale 50 000 – 150 000 PLN.

## Scale for y is already present.
## Adding another scale for y, which will replace the existing scale.

Rozkład cen najpopularniejszych samochodów marek niemieckich

Poniższa analiza skupia się na porównaniu rozkładu cen ofertowych dla trzech popularnych marek niemieckich: BMW, Audi oraz Volkswagen na podstawie losowej próby 3000 ogłoszeń. Najwyższą średnią ceną charakteryzuje się marka BMW, osiągając poziom 106 000 PLN. Audi plasuje się na drugim miejscu ze średnią 93 290,17 PLN.Volkswagen jest marką najtańszą w tym zestawieniu, ze średnią ceną 56 983,47 PLN, co niemal dwukrotnie odbiega od lidera (BMW).Zastosowane poprawki Holma wykazały, że wszystkie różnice między markami są istotne statystycznie.Wykresy marek Audi i BMW wykazują bardzo długie “ogony” w górnych przedziałach cenowych, z licznymi ofertami przekraczającymi 500 000 PLN, a w przypadku BMW zbliżającymi się nawet do 850 000 PLN. Świadczy to o dużej obecności samochodów niemal nowych, luksusowych lub sportowych.Volkswagen ma znacznie bardziej skoncentrowany rozkład – większość ofert skupia się poniżej 150 000 PLN, a wartości odstające rzadko przekraczają próg 300 000 PLN.Największa gęstość ofert (najszersze miejsce skrzypiec) dla wszystkich marek znajduje się w dolnej części skali, co potwierdza, że trzonem rynku są auta używane w niższych przedziałach cenowych.

## Scale for y is already present.
## Adding another scale for y, which will replace the existing scale.

Rozkład cen luksusowych samochodów marek włoskich

Poniższa analiza skupia się na porównaniu rozkładu cen ofertowych dla dwóch luksusowych marek włoskich: Ferrari i Lamborghini na podstawie populacji składającej się z 84 ogłoszeń.Średnia cena ofertowa dla marki Ferrari wynosi 740 000 PLN, podczas gdy dla Lamborghini jest to 1 040 000 PLN. Różnica ta wskazuje, że Lamborghini plasuje się wyżej w segmencie luksusowych samochodów sportowych. Zastosowane poprawki Holma wykazały, że różnica między cenami obu marek jest istotna statystycznie. Wykresy obu marek wykazują bardzo długie “ogony” w górnych przedziałach cenowych, z licznymi ofertami przekraczającymi 1 500 000 PLN. Świadczy to o dużej obecności samochodów luksusowych lub sportowych.Największa gęstość ofert (najszersze miejsce skrzypiec) dla obu marek znajduje się w wyższej części skali cenowej, co potwierdza, że rynek tych samochodów koncentruje się wokół segmentu premium.

## Scale for y is already present.
## Adding another scale for y, which will replace the existing scale.

Struktura ogłoszeń według różnych cech pojazdów

Dominacja segmentu SUV i Kombi: Te dwa typy nadwozia niemal zrównały się popularnością, stanowiąc łącznie blisko 40% całego rynku (SUV: 20%, Kombi: 19.3%). Potwierdza to silny trend rynkowy w kierunku aut rodzinnych i uniwersalnych. Tradycyjne nadwozia typu Sedan (16%) oraz Kompakt (15.4%) nadal zajmują wysokie miejsca, utrzymując stabilną bazę ofert. Samochody miejskie (11.6%) oraz minivany (10.6%) stanowią istotne uzupełnienie rynku, odpowiadając na potrzeby transportu lokalnego i większych rodzin.Segmenty niszowe: Najmniejszy udział w bazie mają nadwozia o charakterze rekreacyjnym i sportowym: Coupe (3.1%), Małe samochody (2.9%) oraz Kabriolety (1.2%). Mała liczba ogłoszeń w tych kategoriach sugeruje ich hobbystyczny charakter.

Struktura ogłoszeń według stanu pojazdu

Wykres kołowy przedstawia miażdżącą przewagę jednego z segmentów, co jest typowe dla ogólnodostępnych serwisów ogłoszeniowych.ż 87.8% wszystkich ofert to samochody używane. Potwierdza to, że analizowana baza danych skupia się przede wszystkim na obrocie z drugiej ręki. Samochody nowe stanowią jedynie 12.2% ogłoszeń. Są to zazwyczaj oferty od autoryzowanych dealerów, którzy wykorzystują platformy ogłoszeniowe do wyprzedaży rocznika lub promocji modeli dostępnych “od ręki”.

Struktura ogłoszeń według rodzaju paliwa

Struktura napędów pokazuje, że tradycyjne silniki spalinowe wciąż nie mają sobie równych. Rynek jest niemal idealnie podzielony między dwa główne rodzaje paliwa. Benzyna (47.7%) posiada minimalną przewagę nad silnikami typu Diesel (44.4%). Pozostałe rodzaje napędów (LPG, hybrydy, auta elektryczne) stanowią zaledwie 7.9% ogłoszeń. Mimo rosnącej świadomości ekologicznej, auta alternatywne wciąż stanowią mniejszość rynkową w porównaniu do klasycznych rozwiązań. Większość kupujących i sprzedających obraca się wokół aut spalinowych, przy czym wybór między benzyną a dieslem zależy prawdopodobnie od wielkości auta (diesle dominują w SUV-ach i kombi, benzyna w kompaktach).

Struktura ogłoszeń według skrzyni biegów

Wykres kołowy przedstawia strukturę ogłoszeń według rodzaju skrzyni biegów. Dominującą pozycję zajmują samochody z manualną skrzynią biegów, stanowiąc 63.9% wszystkich ofert. To wskazuje na silne przywiązanie rynku do tradycyjnych rozwiązań, które oferują większą kontrolę nad pojazdem i często niższe koszty eksploatacji. Wzrost popularności automatycznych skrzyń biegów (36.1%) jest zauważalny, co może być efektem rosnącej dostępności tego typu napędów w nowych modelach samochodów oraz zmieniających się preferencji kierowców, zwłaszcza w miastach, gdzie automatyka ułatwia jazdę w korkach.

Zależność ceny samochodu od mocy silnika

Poniższy wykres przedstawia zależność ceny samochodu od mocy silnika. Analiza opiera się na danych po usunięciu obserwacji skrajnych, co pozwala lepiej zobrazować typowe relacje między tymi dwoma zmiennymi.Linia trendu wyraźnie pnie się w górę, co potwierdza intuicyjną zależność: wraz ze wzrostem mocy silnika (KM), rośnie cena pojazdu (PLN). Jest to związane nie tylko z kosztem samej jednostki napędowej, ale także z faktem, że duża moc jest domeną samochodów nowszych, wyższych klas lub aut sportowych.Największe zagęszczenie ogłoszeń (najciemniejszy kolor niebieski) występuje w przedziale od 100 do 150 KM przy cenie poniżej 30 000 PLN. To “serce” polskiego rynku wtórnego – samochody kompaktowe i miejskie, które są najbardziej przystępne cenowo. Większość ofert skupia się w zakresie do 200 KM. Powyżej 300 KM liczba ogłoszeń gwałtownie spada (jasnoniebieskie punkty), co oznacza, że są to oferty niszowe, luksusowe lub wyczynowe. Pionowy rozrzut punktów pokazuje, że przy tej samej mocy (np. 150 KM) ceny są bardzo zróżnicowane (od kilku do prawie 100 tys. PLN). Wynika to z innych czynników, których ten wykres nie uwzględnia bezpośrednio, takich jak: rocznik, przebieg czy marka. Moc silnika jest silnym predyktorem ceny. Jeśli szukasz auta o mocy powyżej 200 KM, musisz liczyć się z ceną startową znacznie wyższą niż średnia rynkowa, a dynamika tego wzrostu jest stała w całym badanym zakresie.

## `geom_smooth()` using formula = 'y ~ x'

Liczba ogłoszeń ze względu na moc silnika (KM)

Moc silnika (wyrażona w koniach mechanicznych – KM) jest jednym z najważniejszych czynników determinujących charakter pojazdu oraz jego wartość rynkową. Poniższe zestawienie przedstawia rozkład popularności jednostek napędowych. Serce rynku (100–150 KM): Ponad 41% wszystkich wystawionych pojazdów posiada moc w tym przedziale. Jest to absolutny standard dla współczesnych samochodów kompaktowych i SUV-ów, łączący przyzwoitą dynamikę z ekonomią spalania.Standardowa oferta (50–200 KM): Jeśli rozszerzymy zakres od 50 do 200 KM, okaże się, że obejmuje on ponad 83% całego rynku.Segment aut mocnych i sportowych: Jednostki generujące powyżej 250 KM stanowią rynkową mniejszość (łącznie około 9%). Auta o mocy ekstremalnej (powyżej 500 KM) to zaledwie 0.8% wszystkich ofert.

Najpopularniejsze kolory samochodów

Wybór koloru nadwozia, choć wydaje się kwestią czysto estetyczną, ma istotne znaczenie rynkowe – wpływa na tzw. płynność odsprzedaży oraz utrzymanie wartości pojazdu. Poniższy wykres przedstawia strukturę kolorystyczną badanej bazy ogłoszeń.Polski rynek wtórny jest zdominowany przez “bezpieczne” i klasyczne kolory. Pierwsze cztery miejsca zajmują: Czarny (24.2%), Szary (15.3%), Srebrny (14.8%) oraz Biały (14.6%). Łącznie te cztery barwy stanowią blisko 70% wszystkich ofert.Niemal co czwarty samochód wystawiony na sprzedaż jest koloru czarnego. Jest to kolor kojarzony z elegancją i segmentem premium, co pokrywa się z wysokim udziałem marek takich jak BMW czy Audi w bazie danych.Wśród barw chromatycznych (kolorowych) największą popularnością cieszy się Niebieski (10.4%) oraz Czerwony (4.7%). Pozostałe kolory, takie jak brązowy, zielony czy bordowy, stanowią jedynie marginalny ułamek ofert (poniżej 3% każdy).Dane potwierdzają zachowawczość kupujących i sprzedających. Samochody w kolorach czarnym, szarym i srebrnym są traktowane jako najbardziej uniwersalne, co ułatwia ich późniejszą odsprzedaż. Wyraźna dominacja czerni może również sugerować dużą liczbę aut poflotowych oraz reprezentacyjnych sedanów i SUV-ów w analizowanym zbiorze.

Procentowy spadek cen: nowe vs używane - najpopularniejsze modele

Wykres przedstawia procentową różnicę w cenie między egzemplarzami nowymi a używanymi dla pięciu najpopularniejszych modeli w bazie. Dane te obrazują, jak drastycznie spada wartość pojazdu po wyjechaniu z salonu i przejściu na rynek wtórny. Największy spadek wartości – Segment Premium: Liderami utraty wartości są modele marek luksusowych. BMW Seria 3 notuje najwyższy spadek, gdzie modele używane są średnio o 87.7% tańsze od nowych. Tuż za nim plasuje się Audi A4 ze spadkiem na poziomie 83.2%. Wynika to z faktu, że auta premium bardzo szybko tracą na wartości w pierwszych latach eksploatacji, a koszty ich serwisowania na rynku wtórnym są wysokie. Modele marek masowych wykazują nieco większą odporność na utratę wartości w porównaniu do segmentu premium. Volkswagen Golf (78.6%) oraz Volkswagen Passat (74.7%) plasują się w środku stawki.W tym zestawieniu Opel Astra notuje najniższą różnicę (69.7%). Oznacza to, że używane Astry zachowują relatywnie najwyższy procent ceny nowego auta spośród analizowanej piątki, co może wynikać z ich ogromnej popularności w flotach i wysokiego popytu na tanie w utrzymaniu auta kompaktowe. Dla potencjalnego nabywcy wykres ten jest jasnym sygnałem: zakup rocznego lub kilkuletniego auta segmentu premium (BMW, Audi) pozwala na zaoszczędzenie ogromnej części kwoty początkowej w porównaniu do zakupu w salonie. Jednocześnie potwierdza to tezę, że samochody są aktywami tracącymi na wartości najszybciej w początkowej fazie użytkowania.

Analiza statystyczna różnic cen: Samochody nowe a używane

Celem poniższego testu było zweryfikowanie hipotezy o istotnej różnicy w rozkładzie cen między samochodami nowymi a używanymi. Ze względu na silną asymetrię cen (obecność bardzo drogich aut luksusowych, które zawyżają średnią), zamiast testu t-Studenta zastosowano odporny na obserwacje odstające, nieparametryczny test sumy rang Wilcoxona.

Kluczowe wnioski z analizy:

Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) jednoznacznie potwierdza, że różnica cen między autami nowymi a używanymi jest wysoce istotna statystycznie. Nie jest to wynik przypadkowy – stan pojazdu jest kluczowym czynnikiem różnicującym cenę.
Siła efektu (Effect Size): Wartość siły efektu wynosząca 0.46 interpretowana jest jako umiarkowana (moderate). Może to wydawać się sprzeczne z intuicją, która podpowiada “ogromną” przepaść cenową między salonem a komisem. Umiarkowany wynik wynika jednak ze specyfiki rynku:
Nakładanie się segmentów: Kategoria “Używane” jest bardzo szeroka – zawiera zarówno tanie auta miejskie, jak i roczne limuzyny premium, które są wciąż droższe niż wiele fabrycznie nowych aut marek budżetowych.
Zróżnicowanie grupy “Nowe”: Obejmuje ona pełne spektrum, od najtańszych modeli miejskich po luksusowe super-samochody.
Struktura rynku: Analiza liczebności grup (\(n_{new} \approx 25\ tys.\) vs \(n_{used} \approx 183\ tys.\)) pokazuje wyraźną dominację rynku wtórnego w analizowanym zbiorze danych. Oferty aut używanych stanowią blisko 88% wszystkich ogłoszeń, co potwierdza, że polski rynek motoryzacyjny opiera się głównie na obrocie pojazdami z drugiej ręki.

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  PricePLN by Condition
## W = 4.23e+09, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0

## # A tibble: 1 × 7
##   .y.      group1 group2 effsize    n1     n2 magnitude
## * <chr>    <chr>  <chr>    <dbl> <int>  <int> <ord>    
## 1 PricePLN New    Used     0.464 25454 182850 moderate

Wpływ rodzaju skrzyni biegów na cenę pojazdu

Kolejnym kluczowym czynnikiem różnicującym wartość rynkową pojazdu jest rodzaj przeniesienia napędu. Aby sprawdzić, jak silna jest dysproporcja cenowa między samochodami z automatyczną a manualną skrzynią biegów, przeprowadzono test sumy rang Wilcoxona. Wybór testu nieparametrycznego podyktowany jest silną asymetrią rozkładu cen.

Kluczowe wnioski z analizy:

Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) potwierdza, że rodzaj skrzyni biegów ma fundamentalne znaczenie dla ceny pojazdu. Różnica w cenach ofertowych obu grup jest wysoce istotna statystycznie.
Siła efektu (Effect Size): Wskaźnik siły efektu wynosi 0.54, co klasyfikuje tę zależność jako dużą (large). Jest to wynik wyższy niż w przypadku porównania aut nowych i używanych (gdzie siła efektu była umiarkowana). Oznacza to, że skrzynia biegów jest jednym z najsilniejszych predyktorów wysokiej ceny. Wynika to z faktu, że:
Automatyczna skrzynia biegów jest standardem w segmencie Premium, SUV-ach oraz autach luksusowych, które naturalnie są droższe.
Manualne skrzynie biegów dominują w starszych rocznikach, autach miejskich oraz w podstawowych wersjach wyposażenia.
Struktura rynku: Mimo rosnącej popularności “automatów”, polski rynek wtórny wciąż jest silnie nasycony autami z manualną przekładnią. W badanej próbie skrzynie manualne stanowią blisko 64% ofert (\(n \approx 133\ tys.\)) w porównaniu do 36% automatów (\(n \approx 75\ tys.\)). Taka struktura podaży sprawia, że automat jest cechą pożądaną i wyraźnie podnoszącą prestiż oraz cenę oferty.

## 
## =====================================
## ZMIENNA: Transmission 
## LICZBA POZIOMÓW: 2 
## =====================================
## 
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  PricePLN by Transmission
## W = 8273462441, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
## 
## # A tibble: 1 × 7
##   .y.      group1    group2 effsize    n1     n2 magnitude
## * <chr>    <chr>     <chr>    <dbl> <int>  <int> <ord>    
## 1 PricePLN Automatic Manual   0.544 75119 133185 large

Wpływ stanu pojazdu na cenę

Podstawowym kryterium podziału rynku motoryzacyjnego jest stan pojazdu. Aby zweryfikować hipotezę o istotnej statystycznie różnicy cen między samochodami nowymi a używanymi, przeprowadzono nieparametryczny test sumy rang Wilcoxona. Wybór tego testu, zamiast klasycznego testu t-Studenta, podyktowany jest silną asymetrią rozkładu cen oraz występowaniem licznych obserwacji odstających (aut luksusowych).

Kluczowe wnioski z analizy:

Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) jednoznacznie wskazuje, że różnica w rozkładach cen dla aut nowych i używanych jest wysoce istotna statystycznie. Odrzucamy hipotezę zerową o równości rozkładów.
Siła efektu (Effect Size): Obliczona miara siły efektu wynosi 0.46, co interpretujemy jako efekt umiarkowany (moderate). Choć intuicja sugeruje “przepaść” cenową między salonem a komisem, statystyka pokazuje bardziej zniuansowany obraz. Wynika to z faktu, że zbiory te cenowo na siebie zachodzą:
Segment aut używanych zawiera drogie, luksusowe modele (często roczne lub dwuletnie), których cena przewyższa wartość wielu fabrycznie nowych aut z segmentu budżetowego.
Szeroka definicja “Nowe” obejmuje zarówno tanie auta miejskie, jak i super-samochody.
Struktura rynku: Analiza liczebności grup ujawnia ogromną dysproporcję w podaży. W badanej próbie zidentyfikowano 25 454 ofert aut nowych oraz aż 182 850 aut używanych. Rynek wtórny dominuje, stanowiąc niemal 88% wszystkich analizowanych ogłoszeń.

## 
## =====================================
## ZMIENNA: Condition 
## LICZBA POZIOMÓW: 2 
## =====================================
## 
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  PricePLN by Condition
## W = 4.23e+09, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
## 
## # A tibble: 1 × 7
##   .y.      group1 group2 effsize    n1     n2 magnitude
## * <chr>    <chr>  <chr>    <dbl> <int>  <int> <ord>    
## 1 PricePLN New    Used     0.464 25454 182850 moderate

Wpływ rodzaju paliwa na cenę pojazdu

Rodzaj napędu to jeden z kluczowych parametrów decyzyjnych przy zakupie samochodu, wpływający zarówno na cenę zakupu, jak i późniejsze koszty eksploatacji. Ponieważ analizowana zmienna Fuel_type posiada więcej niż dwa poziomy (m.in. Benzyna, Diesel, Hybryda, Elektryk, LPG), zastosowano test Kruskala-Wallisa.

Kluczowe wnioski z analizy:

Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) potwierdza, że rodzaj paliwa istotnie różnicuje ceny samochodów na polskim rynku. Nie jest to zaskoczeniem – technologia napędu jest ściśle powiązana z wiekiem konstrukcji i pozycjonowaniem rynkowym auta.
Siła efektu (Effect Size): Wskaźnik \(\eta^2\) (eta-squared) wynosi 0.062, co interpretujemy jako efekt umiarkowany (moderate).
Mimo wyraźnych różnic cenowych między np. autami elektrycznymi a spalinowymi, ogólna siła efektu jest łagodzona przez ogromne zróżnicowanie wewnątrz grup “Diesel” i “Benzyna”. Kategorie te obejmują zarówno tanie, 20-letnie pojazdy, jak i nowe auta klasy premium, co zwiększa wariancję wewnątrzrupową.
Struktura rynku i różnice międzygrupowe (Post-hoc):
Dominacja napędów konwencjonalnych: Rynek jest zdominowany przez silniki benzynowe (\(n \approx 99\ tys.\)) oraz Diesla (\(n \approx 92\ tys.\)). Stanowią one łącznie ponad 90% ofert.
Premiumizacja alternatyw: Analiza post-hoc (test Dunna) wykazuje bardzo silne, istotne statystycznie różnice między napędami tradycyjnymi a nowoczesnymi. Hybrydy (\(n \approx 5.8\ tys.\)) oraz auta elektryczne (\(n \approx 1.5\ tys.\)) są grupami wyraźnie droższymi od średniej rynkowej.
Nisze rynkowe: Paliwa takie jak Etanol czy Wodór stanowią margines błędu statystycznego (pojedyncze sztuki), przez co różnice w ich przypadku są nieistotne statystycznie (\(ns\)).

## 
## =====================================
## ZMIENNA: Fuel_type 
## LICZBA POZIOMÓW: 8 
## =====================================
## 
## 
##  Kruskal-Wallis rank sum test
## 
## data:  PricePLN by Fuel_type
## Kruskal-Wallis chi-squared = 12993, df = 7, p-value < 2.2e-16
## 
## # A tibble: 1 × 5
##   .y.           n effsize method  magnitude
## * <chr>     <int>   <dbl> <chr>   <ord>    
## 1 PricePLN 208304  0.0623 eta2[H] moderate 
## 
## Post-hoc Dunn (Bonferroni):
## # A tibble: 28 × 9
##    .y.      group1   group2    n1    n2 statistic        p    p.adj p.adj.signif
##  * <chr>    <chr>    <chr>  <int> <int>     <dbl>    <dbl>    <dbl> <chr>       
##  1 PricePLN Diesel   Elect… 92415  1553   48.3    0        0        ****        
##  2 PricePLN Diesel   Ethan… 92415     2   -0.0758 9.40e- 1 1   e+ 0 ns          
##  3 PricePLN Diesel   Gasol… 92415 99352    9.43   4.19e-21 1.17e-19 ****        
##  4 PricePLN Diesel   Gasol… 92415    70   -5.18   2.17e- 7 6.09e- 6 ****        
##  5 PricePLN Diesel   Gasol… 92415  9027  -58.0    0        0        ****        
##  6 PricePLN Diesel   Hybrid 92415  5883   80.7    0        0        ****        
##  7 PricePLN Diesel   Hydro… 92415     2    2.35   1.86e- 2 5.19e- 1 ns          
##  8 PricePLN Electric Ethan…  1553     2   -1.82   6.82e- 2 1   e+ 0 ns          
##  9 PricePLN Electric Gasol…  1553 99352  -46.7    0        0        ****        
## 10 PricePLN Electric Gasol…  1553    70  -15.2    3.90e-52 1.09e-50 ****        
## # ℹ 18 more rows

Wpływ rodzaju napędu na cenę pojazdu

Sposób przeniesienia napędu determinuje nie tylko właściwości jezdne, ale także pozycjonowanie rynkowe samochodu (auto miejskie vs. terenowe vs. sportowe). Ze względu na wielokategorialny charakter zmiennej Drive (5 poziomów, m.in. napęd na przód, tył, różne warianty 4x4), zastosowano test Kruskala-Wallisa.

Kluczowe wnioski z analizy:

Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) jednoznacznie wskazuje, że rodzaj napędu jest czynnikiem drastycznie różnicującym ceny ofertowe.
Siła efektu (Effect Size): Wskaźnik \(\eta^2\) wynosi 0.146, co klasyfikuje tę zależność jako dużą (large).
Jest to wynik znacząco wyższy niż w przypadku rodzaju paliwa (\(\eta^2 \approx 0.06\)). Oznacza to, że informacja o tym, czy auto ma napęd 4x4, czy na przednią oś, mówi nam o jego cenie znacznie więcej, niż to, czy jest to Diesel, czy benzyna.
Wysoka siła efektu wynika z wyraźnego podziału rynku: napęd na przód jest domeną aut tanich, natomiast napędy 4x4 oraz RWD (tylny) są standardem w drogich segmentach Premium i SUV.
Struktura rynku i różnice międzygrupowe (Post-hoc):
Dominacja FWD: Rynek jest absolutnie zdominowany przez napęd na przednią oś (“Front wheels”), który posiada aż 151 312 pojazdów w próbie (ok. 72% rynku). Jest to rozwiązanie najtańsze w produkcji i eksploatacji.
Premiumizacja pozostałych napędów: Analiza post-hoc (test Dunna) pokazuje, że “Front wheels” różni się istotnie statystycznie od wszystkich pozostałych typów napędu (p < 0.0001).
Różnorodność 4x4: Wyróżniamy istotne różnice nawet w obrębie napędów na cztery koła. Napęd stały (“4x4 permanent”, \(n \approx 18\ tys.\)) oraz dołączany automatycznie (\(n \approx 16\ tys.\)) to rozwiązania popularne i droższe, podczas gdy napęd dołączany ręcznie (\(n \approx 3\ tys.\)) stanowi niszowy relikt aut typowo terenowych.

## 
## =====================================
## ZMIENNA: Drive 
## LICZBA POZIOMÓW: 5 
## =====================================
## 
## 
##  Kruskal-Wallis rank sum test
## 
## data:  PricePLN by Drive
## Kruskal-Wallis chi-squared = 30418, df = 4, p-value < 2.2e-16
## 
## # A tibble: 1 × 5
##   .y.           n effsize method  magnitude
## * <chr>     <int>   <dbl> <chr>   <ord>    
## 1 PricePLN 208304   0.146 eta2[H] large    
## 
## Post-hoc Dunn (Bonferroni):
## # A tibble: 10 × 9
##    .y.    group1 group2     n1     n2 statistic         p     p.adj p.adj.signif
##  * <chr>  <chr>  <chr>   <int>  <int>     <dbl>     <dbl>     <dbl> <chr>       
##  1 Price… 4x4 (… 4x4 (…  16462   2995    -21.5  2.29e-102 2.29e-101 ****        
##  2 Price… 4x4 (… 4x4 (…  16462  18126     15.1  1.27e- 51 1.27e- 50 ****        
##  3 Price… 4x4 (… Front…  16462 151312   -114.   0         0         ****        
##  4 Price… 4x4 (… Rear …  16462  19409    -56.0  0         0         ****        
##  5 Price… 4x4 (… 4x4 (…   2995  18126     29.9  2.95e-196 2.95e-195 ****        
##  6 Price… 4x4 (… Front…   2995 151312    -27.7  4.06e-169 4.06e-168 ****        
##  7 Price… 4x4 (… Rear …   2995  19409     -8.49 1.99e- 17 1.99e- 16 ****        
##  8 Price… 4x4 (… Front…  18126 151312   -140.   0         0         ****        
##  9 Price… 4x4 (… Rear …  18126  19409    -73.2  0         0         ****        
## 10 Price… Front… Rear … 151312  19409     45.2  0         0         ****

Wpływ rodzaju napędu na cenę pojazdu

Typ nadwozia (segment) jest fundamentalną cechą samochodu, definiującą jego przeznaczenie, praktyczność oraz prestiż. Ze względu na występowanie aż 9 różnych kategorii (od aut miejskich po SUV-y), do weryfikacji różnic cenowych wykorzystano test Kruskala-Wallisa.

Kluczowe wnioski z analizy:

Istotność statystyczna: Wynik testu (\(p < 2.2e^{-16}\)) jednoznacznie potwierdza, że typ nadwozia jest kluczowym czynnikiem różnicującym ceny na rynku wtórnym.
Siła efektu (Effect Size): Wskaźnik \(\eta^2\) wynosi 0.218, co oznacza efekt duży (large).
Jest to najwyższy wynik spośród wszystkich analizowanych dotychczas zmiennych kategorycznych (dla porównania: Rodzaj napędu \(\eta^2 \approx 0.146\), Rodzaj paliwa \(\eta^2 \approx 0.062\)).
Oznacza to, że typ nadwozia wyjaśnia blisko 22% zmienności cen w rangach. Wiedząc, czy auto jest SUV-em, czy autem miejskim, możemy znacznie precyzyjniej oszacować jego wartość niż znając tylko rodzaj paliwa.
Struktura rynku i segmentacja:
Dominacja SUV-ów: Najliczniejszą grupą w badanej próbie są SUV-y (\(n \approx 41.5\ tys.\)). Ich popularność w połączeniu z wysokimi cenami sprawia, że ten segment “ciągnie” średnią rynkową w górę.
Popularność aut rodzinnych: Tuż za SUV-ami plasują się auta typu Kombi (Station wagon, \(n \approx 40\ tys.\)), co pokazuje, że polski rynek wtórny w dużej mierze zaspokaja potrzeby rodzin szukających aut praktycznych.
Wyraźna hierarchia cenowa: Analiza post-hoc (test Dunna) wykazuje istotne statystycznie różnice dla niemal wszystkich par porównań (p < 0.0001 dla większości zestawień). Rynek jest wyraźnie rozwarstwiony – “City cars” (auta miejskie) stanowią zupełnie inną kategorię cenową niż “Coupe” czy “Convertible” (kabriolety), które są segmentami niszowymi i droższymi.

## 
## =====================================
## ZMIENNA: Type 
## LICZBA POZIOMÓW: 9 
## =====================================
## 
## 
##  Kruskal-Wallis rank sum test
## 
## data:  PricePLN by Type
## Kruskal-Wallis chi-squared = 45418, df = 8, p-value < 2.2e-16
## 
## # A tibble: 1 × 5
##   .y.           n effsize method  magnitude
## * <chr>     <int>   <dbl> <chr>   <ord>    
## 1 PricePLN 208304   0.218 eta2[H] large    
## 
## Post-hoc Dunn (Bonferroni):
## # A tibble: 36 × 9
##    .y.      group1 group2    n1    n2 statistic         p     p.adj p.adj.signif
##  * <chr>    <chr>  <chr>  <int> <int>     <dbl>     <dbl>     <dbl> <chr>       
##  1 PricePLN city_… compa… 24110 32150     51.6  0         0         ****        
##  2 PricePLN city_… conve… 24110  2496     35.5  1.16e-275 4.19e-274 ****        
##  3 PricePLN city_… coupe  24110  6374     88.2  0         0         ****        
##  4 PricePLN city_… miniv… 24110 22114     41.4  0         0         ****        
##  5 PricePLN city_… sedan  24110 33271    102.   0         0         ****        
##  6 PricePLN city_… small… 24110  5974     -7.47 8.03e- 14 2.89e- 12 ****        
##  7 PricePLN city_… stati… 24110 40228     69.7  0         0         ****        
##  8 PricePLN city_… SUV    24110 41587    176.   0         0         ****        
##  9 PricePLN compa… conve… 32150  2496     14.7  4.08e- 49 1.47e- 47 ****        
## 10 PricePLN compa… coupe  32150  6374     58.5  0         0         ****        
## # ℹ 26 more rows

Analiza korelacji: Co najsilniej wpływa na cenę?

Aby zbadać siłę i kierunek zależności między ceną a zmiennymi numerycznymi (Przebieg, Moc, Pojemność, Rok produkcji), zastosowano współczynnik korelacji rang Spearmana. Wybór metody rangowej, a nie liniowej korelacji Pearsona, jest kluczowy, ponieważ relacje te rzadko są idealnie liniowe (np. utrata wartości auta jest szybsza w pierwszych latach), a w danych występują obserwacje odstające.

Kluczowe wnioski z macierzy korelacji:

Rok produkcji (\(rho = 0.83\), Bardzo silna korelacja dodatnia):
Jest to najsilniejszy predyktor ceny w całym zbiorze danych.
Wartość bliska 1.0 potwierdza oczywistą, ale fundamentalną zasadę rynku: wiek pojazdu jest głównym czynnikiem deprecjacji. Im nowsze auto, tym wyższa cena, a siła tej zależności dominuje nad pozostałymi czynnikami.
Przebieg (\(rho = -0.67\), Silna korelacja ujemna):
Znak minus oznacza odwrotną zależność: im wyższy przebieg, tym niższa cena.
Przebieg jest rynkowym miernikiem “zużycia” pojazdu. Wynik -0.67 wskazuje, że klienci bardzo wrażliwie reagują na wskazania licznika. Jest to drugi najważniejszy czynnik cenotwórczy. Warto zauważyć, że przebieg jest silnie skorelowany z rocznikiem, co wzmacnia ten efekt.
Moc silnika (\(rho = 0.57\), Umiarkowana korelacja dodatnia):
Mocniejszy silnik oznacza wyższą cenę.
Zależność jest wyraźna, ale słabsza niż w przypadku rocznika. Wynika to z faktu, że na rynku istnieją zarówno drogie auta o umiarkowanej mocy (np. nowoczesne hybrydy), jak i tanie, starsze auta o dużej mocy, które straciły już na wartości. Mimo to, w obrębie tego samego rocznika, moc jest wyznacznikiem wersji wyposażenia i prestiżu.
Pojemność skokowa (\(rho = 0.24\), Słaba korelacja dodatnia):
To najciekawszy, nieoczywisty wniosek. Korelacja jest niska, co wynika ze zjawiska downsizingu.
Współczesne, drogie samochody często mają małe silniki (np. 1.5L lub 2.0L) wspomagane turbosprężarkami, generujące dużą moc. Z kolei starsze, tańsze modele często posiadają silniki o dużej pojemności, ale niskiej wartości rynkowej. Dlatego pojemność skokowa przestała być dobrym wyznacznikiem luksusu czy ceny.

Wartość samochodu na polskim rynku wtórnym jest determinowana przede wszystkim przez jego wiek oraz przebieg. Parametry techniczne, takie jak moc, mają znaczenie drugoplanowe, a pojemność silnika w dobie nowoczesnej motoryzacji traci na znaczeniu jako wyznacznik wartości.

## 
##  Spearman's rank correlation rho
## 
## data:  Car_sale_ads_cleaned_drive_transmission_imputed$PricePLN and Car_sale_ads_cleaned_drive_transmission_imputed$Mileage_km
## S = 2.5209e+15, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.6734507

## 
##  Spearman's rank correlation rho
## 
## data:  Car_sale_ads_cleaned_drive_transmission_imputed$PricePLN and Car_sale_ads_cleaned_drive_transmission_imputed$Power_HP
## S = 6.5254e+14, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.5668208

## 
##  Spearman's rank correlation rho
## 
## data:  Car_sale_ads_cleaned_drive_transmission_imputed$PricePLN and Car_sale_ads_cleaned_drive_transmission_imputed$Displacement_cm3
## S = 1.1511e+15, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.2358714

## 
##  Spearman's rank correlation rho
## 
## data:  Car_sale_ads_cleaned_drive_transmission_imputed$PricePLN and Car_sale_ads_cleaned_drive_transmission_imputed$Production_year
## S = 2.5056e+14, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.8336734

Modelowanie ceny pojazdu: Regresja wieloraka

W celu ilościowego oszacowania wpływu poszczególnych cech na cenę końcową, zbudowano model regresji liniowej. Zmienną objaśnianą jest logarytm ceny (logPrice), co pozwala na interpretację wyników w kategoriach procentowych zmian wartości i lepiej oddaje nieliniowy charakter cen na rynku motoryzacyjnym. Jakość dopasowania modelu:Model charakteryzuje się wysokim współczynnikiem determinacji \(R^2 = 0.73\). Oznacza to, że wybrane zmienne (Rocznik, Przebieg, Moc, Paliwo, Skrzynia, Stan) wyjaśniają aż 73% zmienności cen na polskim rynku wtórnym. Jest to wynik bardzo satysfakcjonujący, biorąc pod uwagę różnorodność ofert.

Kluczowe wnioski (Interpretacja współczynników):

Dominacja rocznika (Production_year): Współczynnik wynosi 0.073. Oznacza to, że ceteris paribus (przy ustalonych pozostałych parametrach), każdy kolejny rok produkcji (auto młodsze o rok) podnosi cenę średnio o ok. 7.3%. Jest to najsilniejszy czynnik wpływający na wartość.
Moc silnika (Power_HP): Każdy dodatkowy koń mechaniczny (1 KM) przekłada się na wzrost ceny o ok. 0.5%. Choć jednostkowo to niewiele, różnica 100 KM generuje już znaczącą premię cenową (ok. 50%).
Rodzaj napędu (Baza: Diesel): Model potwierdza “premię za ekologię”. Samochody Hybrydowe są średnio o ok. 17.5% droższe od Diesli (\(e^{0.16} - 1\)), a Elektryczne o ok. 11%.Z kolei auta z instalacją LPG są wyceniane najniżej (spadek o ok. 24% względem Diesla), co potwierdza ich budżetowy charakter.
Skrzynia biegów (TransmissionManual): Ujemny współczynnik (-0.366) wskazuje na ogromną różnicę w wycenie. Manualna skrzynia biegów obniża wartość pojazdu o ok. 30% w porównaniu do automatu (przy tych samych parametrach rocznika i mocy).
Stan pojazdu (ConditionUsed): Współczynnik -0.552 to matematyczny dowód na “efekt wyjazdu z salonu”. Samochód używany jest średnio o ok. 42% tańszy od swojego nowego odpowiednika (przy uwzględnieniu korekty na rocznik w ramach modelu).
Paradoks przebiegu (Mileage_km): Współczynnik przy przebiegu jest statystycznie istotny, ale bliski zeru i dodatni (\(3.03 \times 10^{-9}\)). Jest to efekt pozorny, wynikający z silnej korelacji przebiegu z rocznikiem (nowsze auta mają mniejszy przebieg). W tym modelu “ciężar” wyjaśniania spadku wartości przejął niemal w całości Rocznik, czyniąc zmienną przebiegu drugoplanową w ujęciu wielowymiarowym.

## 
## Call:
## lm(formula = logPrice ~ Production_year + Mileage_km + Power_HP + 
##     Fuel_type + Transmission + Condition, data = Car_sale_ads_cleaned_drive_transmission_imputed)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.4789 -0.2626  0.0125  0.2677  9.4282 
## 
## Coefficients:
##                           Estimate Std. Error  t value Pr(>|t|)    
## (Intercept)             -1.368e+02  3.996e-01 -342.276  < 2e-16 ***
## Production_year          7.318e-02  1.977e-04  370.122  < 2e-16 ***
## Mileage_km               3.028e-09  4.794e-10    6.318 2.66e-10 ***
## Power_HP                 5.062e-03  1.862e-05  271.853  < 2e-16 ***
## Fuel_typeElectric        1.063e-01  1.406e-02    7.561 4.02e-14 ***
## Fuel_typeEthanol        -2.921e+00  4.530e-01   -6.448 1.14e-10 ***
## Fuel_typeGasoline       -2.729e-02  2.528e-03  -10.794  < 2e-16 ***
## Fuel_typeGasoline + CNG -1.962e-01  6.500e-02   -3.019  0.00254 ** 
## Fuel_typeGasoline + LPG -2.766e-01  6.047e-03  -45.733  < 2e-16 ***
## Fuel_typeHybrid          1.615e-01  7.563e-03   21.356  < 2e-16 ***
## Fuel_typeHydrogen        1.186e+00  3.844e-01    3.085  0.00204 ** 
## TransmissionManual      -3.662e-01  3.129e-03 -117.014  < 2e-16 ***
## ConditionUsed           -5.519e-01  4.172e-03 -132.293  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5436 on 208291 degrees of freedom
## Multiple R-squared:  0.7312, Adjusted R-squared:  0.7311 
## F-statistic: 4.721e+04 on 12 and 208291 DF,  p-value: < 2.2e-16

Diagnostyka modelu: Weryfikacja założeń i współliniowości

Aby potwierdzić wiarygodność oszacowanych współczynników oraz sprawdzić, czy model spełnia założenia klasycznej metody najmniejszych kwadratów, przeprowadzono analizę diagnostyczną obejmującą test współliniowości (VIF) oraz analizę wizualną reszt.

Analiza współliniowości (VIF - Variance Inflation Factor): Pierwszym krokiem było sprawdzenie, czy zmienne objaśniające nie są ze sobą zbyt silnie skorelowane (np. czy rocznik nie dubluje informacji o przebiegu w sposób uniemożliwiający obliczenia).
Wszystkie wartości GVIF (Generalized VIF) dla zmiennych w modelu mieszczą się w przedziale 1.3 – 1.6.
Jest to wynik bardzo dobry. W statystyce przyjmuje się, że wartości powyżej 5 lub 10 świadczą o szkodliwej współliniowości.
Wniosek: Mimo że rocznik i przebieg są ze sobą skorelowane (jak wykazała wcześniejsza analiza korelacji Spearmana), w kontekście wielowymiarowym każda z tych zmiennych wnosi unikalną informację. Współczynniki modelu są stabilne i można je interpretować niezależnie.
Analiza reszt (Wykresy diagnostyczne): Wizualna ocena wykresów diagnostycznych ujawnia pewne ograniczenia modelu, typowe dla danych rzeczywistych o tak dużej liczebności (\(N > 200\ tys.\)):
Residuals vs Fitted (Lewy górny): Widoczna jest pewna struktura (lekki kształt lejka/krzywej), co sugeruje, że zależność nie jest idealnie liniowa nawet po zlogarytmowaniu ceny. Może to oznaczać występowanie heteroskedastyczności – błąd predykcji modelu zmienia się wraz z ceną auta (model myli się bardziej przy autach drogich).
Normal Q-Q (Prawy górny): Punkty układają się na linii przerywanej w środkowej części, ale wyraźnie odchylają się na krańcach (“ciężkie ogony”). Oznacza to, że rozkład reszt nie jest idealnie normalny. Model ma trudności z dokładnym oszacowaniem cen dla ofert skrajnych – bardzo tanich “wraków” lub unikatowych egzemplarzy luksusowych.
Scale-Location (Lewy dolny): Rosnąca czerwona linia potwierdza wspomnianą heteroskedastyczność. Wariancja błędów rośnie wraz ze wzrostem wartości przewidywanej.
Residuals vs Leverage (Prawy dolny): Wykres nie wskazuje na istnienie pojedynczych punktów o krytycznym wpływie na model (brak punktów przekraczających dystans Cooka w stopniu alarmującym).

##                     GVIF Df GVIF^(1/(2*Df))
## Production_year 1.349774  1        1.161798
## Mileage_km      1.391191  1        1.179488
## Power_HP        1.470505  1        1.212644
## Fuel_type       1.599626  7        1.034124
## Transmission    1.591660  1        1.261610
## Condition       1.316245  1        1.147277