1 Wstęp

Projekt zawiera analizę danych dotyczących samochodów wystawionych na sprzedaż pochodzących z ogłoszeń zamieszczonych na jednym z największych serwisów ogłoszeniowych w Polsce w okresie od końca marca do początku maja 2021 roku. Dane obejmują szczegółowe informacje o pojazdach, takie jak m.in. marka, model, rok produkcji, przebieg, cena oraz lokalizacja.

1.1 Cel

Celem analizy jest zbadanie różnych aspektów rynku samochodowego w Polsce, takich jak popularność marek, poziom cen, rozkład roczników oraz inne cechy pojazdów dostępnych w ogłoszeniach. Dodatkowo analiza ma głównie na celu identyfikację czynników wpływających na cenę samochodu, aby określić, które z nich w największym stopniu kształtują wartość pojazdu.

1.2 Pytania badawcze

W celu nadania analizie odpowiedniego kierunku oraz precyzyjnego określenia, jakie informacje mają zostać pozyskane z danych, sformułowano zestaw pytań badawczych:

  1. Które parametry techniczne i elementy wyposażenia są kluczowymi determinantami ceny pojazdu?

  2. Czy dynamika utraty wartości jest jednorodna dla całego rynku, czy też występują istotne różnice w tempie spadku cen pomiędzy markami popularnymi a segmentem premium?

  3. Czy obecność wyposażenia luksusowego w sposób istotny statystycznie różnicuje średnią cenę ofertową pojazdu?

  4. W jakim stopniu algorytmy uczenia maszynowego (Random Forest) pozwalają na automatyczną identyfikację anomalii cenowych (“okazji rynkowych”) i w których segmentach cenowych ich predykcje są najbardziej precyzyjne?

2 Wstępna eksploracja badanego zbioru

2.1 Analiza Jakości Danych

## [1] 33.71131
## [1] 54.85108
## [1] 7.237499
## [1] 0

Wykres przedstawia procentowy udział brakujących danych dla poszczególnych zmiennych. Największe braki występują w zmiennych First_owner, First_registration_date oraz CO2_emissions, gdzie odsetek braków przekracza 50%. Umiarkowane braki dotyczą m.in. Origin_country, Vehicle_version i Vehicle_generation, natomiast większość pozostałych zmiennych jest niemal kompletna i zawiera jedynie śladowe ilości brakujących danych.

Wykres przedstawia liczbę obserwacji dla różnych typów zmiennych (tekstowe, numeryczne i brakujące dane) w zestawie danych. Kolory wskazują na typy danych, gdzie różowa część reprezentuje zmienne tekstowe, niebieska - numeryczne, a szara - brakujące dane.

Wykres przedstawia braki danych w kolumnach Drive oraz CO2_emissions. Czarne pola oznaczają brakujące wartości, a szare – dane obecne. Udział braków w kolumnie Drive jest niewielki i wynosi około 7%, natomiast w przypadku CO2_emissions jest znacznie większy i sięga około 55%. Łącznie brakujące wartości stanowią około 31% wszystkich obserwacji co wskazuje na to, że problemy z kompletnością danych dotyczą głównie zmiennej opisującej emisję CO₂ i mogą mieć istotne znaczenie dla dalszej analizy.

Wykres przedstawia współwystępowanie braków danych w analizowanym zbiorze. Największą liczbę brakujących wartości obserwuje się w zmiennych First_owner, First_registration_date, CO2_emissions oraz Origin_country. Widoczne jest częste współwystępowanie braków pomiędzy tymi zmiennymi, co wskazuje na nielosowy charakter braków danych oraz na istnienie kilku dominujących, powtarzalnych kombinacji braków.

##       Drive CO2_emissions       
## 93496     1             1      0
## 99732     1             0      1
## 551       0             1      1
## 14525     0             0      2
##       15076        114257 129333

Wykres przedstawia wzorzec brakujących danych dla zmiennych “Drive” i “CO2_emissions”. Kolory pokazują, które wartości są dostępne (niebieski) lub brakujące (różowy), a liczby w komórkach wskazują liczbę obserwacji w każdej kombinacji dostępnych i brakujących danych.

2.2 Opis zmian wprowadzonych do danych

2.2.1 Reguły:

- Czy rok jest mniejszy niż 2025 i większy niż 1900?

- Czy przebieg jest mniejszy niż 400 000 km?

- Czy występuje mniej niż 7 drzwi i więcej niż 1?

- Czy moc jest mniejsza niż 800 hp i większa niż 10 hp?

- Czy nowe auta mają przebieg mniejszy niż 10 km?

##   name  items passes fails nNA error warning
## 1   V1 203453 203453     0   0 FALSE   FALSE
## 2   V2 203453 203453     0   0 FALSE   FALSE
## 3   V3 203453 203453     0   0 FALSE   FALSE
## 4   V4 203453 203453     0   0 FALSE   FALSE
## 5   V5 203453 203453     0   0 FALSE   FALSE
## 6   V6 203453 203453     0   0 FALSE   FALSE
##                                        expression
## 1 Production_year < 2025 & Production_year > 1900
## 2                              Mileage_km < 4e+05
## 3             Doors_number < 7 & Doors_number > 1
## 4                  Power_HP < 800 & Power_HP > 10
## 5           Condition != "New" | Mileage_km <= 10
## 6          Condition != "Used" | Mileage_km >= 10

3 Wstępna charakterystyka runku

3.1 Statystyki Opisowe

Tabela 1. Ceny wg stanu użycia.
Statystyka New Used
Min 585.00 500.00
Max 2101970.00 6999000.00
Kwartyl dolny 86692.25 15999.00
Mediana 120523.50 29900.00
Kwartyl górny 179900.00 57900.00
Średnia 153949.73 49199.16
Odch. std. 115021.56 68300.14
IQR 93207.75 41901.00
Odchylenie ćwiartkowe 46603.88 20950.50
Odch. std. w % 74.71 138.82
Odch. ćwiartkowe w % 77.34 140.14
Skośność 4.04 11.98
Kurtoza 32.63 679.45

Tabela przedstawia statystykę opisową dla nowych i używanych samochodów. Mediana dla aut nowych jest ponad 4-krotnie wyższa niż dla używanych. Występuje silna dodatnia skośność, szczególnie w autach używanych 11.98, co pokazuje, że większość rynku to auta tanie, a średnią cenę podwyża w górę nieliczna grupa bardzo drogich pojazdów. Wysoka kurtoza dla aut używanych (679.45) potwiedza na obecność unikatowych aut kolekcjonerskich, których ceny bardzo silne odbiegają od średniej.

3.2 Struktura Rynku

3.3 Treemap ilości samochodów po markach i modelach

Mapa drzewa (treemap) pokazuje hierarchiczną strukturę rynku ogłoszeń. Wielkość każdego prostokąta odpowiada liczbę ofert danej marki, a mniejsze podziały wewnątrz reprezentują popularność konkretnych modeli. Wyraźnie widać, że dominują marki niemieckie: Volkswagen, BMW, Audi, Opel oraz Ford(choć amerykański). Największe pojedyncze bloki wewnątrz marek to modele: Volkswagen Golf i Passat, Opel Astra, Audi A4 oraz Ford Focus. Te modeli mogą wyznaczać punkty odniesienia dla średniej ceny rynkowej. Duży udział segmentu Premium takich jak: BMW Seria 5 i 3, Audi i Mersedes - Benz, co będize miało wpływ na rozkład cen. Ta mapa pokazuje, że model wyceny musi uwzględniać markę jako silnym czynnikiem, np cena BMW serii 3 będzie zachowywać się inaczej niż cena Kia Ceed z tego samego rocznika.

3.4 Waffle chart - rodzaje paliwa

Powyższy wykres waflowy ilustruje procentowy udział poszczególnych rodzajów paliwa w analizowanym zbiorze ogłoszeń, gdzie każdy kwadrat reprezentuje 1% obserwacji.Jednostki benzynowe (47,6%) oraz diesel (44,6%) stanowią łącznie ponad 92% wszystkich ofert, tworząc niemal równowagę rynkową. Alternatywne zródła paliwa pozostają w mniejszczości: samochoody z instalacją LPG(4,4%), hybrydy (2,7%) oraz elektryczne (0,6%). Silna dysproporcja sugeruje, że paliwa alternatywne mogą stanowić istotne predyjtory wysokich wartości, podczas gdy obecność LPG może być powiązana z segmentem budżetowym.

3.5 Słupkowy stack typy samochodów a skrzynia biegów

Analiza struktury typy samochodów w kontekście zastosowanego układu napędowego wskazuje, że największy udział na rynku zajmują SUV, station wagon, sedan i compact, co wyraźnie pokazuje popularność samochodów nadających się do różnych zadań. Istnieje wyraźny wzór: w kategoriach SUV, sedan i coupe automatyczne skrzynie biegów są dość powszechne. Sugeruje to, że takie samochody są często pozycjonowane jako droższe i koncentrują się na maksymalnym komforcie kierowcy. Natomiast w segmentach samochodów miejskich, kompaktowych i małych wyraźnie preferowane są przekładnie mechaniczne.Typ skrzyni biegów okazuje się jednym z najbardziej wpływowych czynników decydujących o cenie, nawet bardziej niż typ nadwozia. W szczególności obecność automatycznej skrzyni biegów często wskazuje, że samochód jest Premium lub jest bardziej zaawansowany technologicznie.

3.6 Histogram rozkład piebiegów samochodów używanych

Histogram przedstawia rozkład przebiegu dla samochodów używanych oferownych na sprzedaż. Oś X prezentuje przebieg w zakresie od 0 do 400 000km, natomiast oś Y wskazuje liczbę ofert w danym przedziale. Większość wystawionych pojazdów posiada przebieg w szerokim przedziale od 100 000 do 200 000km. Po punkcie szczytowym (200 000km) liczba ofert gwałtowne spada, co wskazuje o mniejszej atrakcyjności rynkowej takich pojazdów.

4 Analiza przestrzenna i struktura cenowa

4.1 Histogram cen samochodów nowych i używanych

Ten wykres przedstawia rozkład cen samochodów oferowanych na sprzedaż, z podziałem na pojazdy nowe oraz używane. Ze względu na dużą rozpiętność cenową, na osi X zastosowano skalę logarytmiczną, co pozwala na czytelne porównanie obu grup. W przypadku samochodów używanych rozkład cen jest z widocznym ogonem w lewo (tanie samochody poniżej 5 000 zł) i największą gęstością ofert w przedziale 10 000 – 50 000 zł z kolei rozkład dla nowych samochodów jest wyraźnie przesunięty w prawo, oscylując głównie od 100 000 zł. Istotnym elementem jest jednak zauważalna łączna powierzchnia obu rozkładów, który przedstawia prawdziwy dylemat konsumenta wybierającego między nowym a używanym samochodem. Wyraźnie rodzdzielanie charakterystyk cenowych obu grup potwierdza, że stan pojazdu jest kluczowym czynnikiem wpływającym na jego wartość rynkową.

4.2 Mapa Cenowa Polski według województw

Mapa kartogramiczna Polski, wykorzystująca podział terytorialny zbliżony do granic województw, przedstawiona na podkładzie OpenStreetMap, która ilustruje rozkład średniej ceny samochodów oferowanych na sprzedaz w poszczególnych regionach kraju. Analiza wyraźnie wskazuje na zróżnicowanie rynkowe między Polską zachodnią a wschodnią.

5 Determinanty wartości pojazdu – analiza czynnikowa

5.1 Heetmapa korelacji zmiennych ilościowych

Macierz korelacji przedstawiona dla zmiennych ilościowych. Skala jest od -1 do 1. Najsilniejsza dodatnia korelacja z ceną występuje dla mocy silnika (0.62). To świdczy, że konie mechaniczne są lepszym predyktorem ceny niż sam rok produkcji pojazdu. Silna ujemna korelacja pomiędzy rokiem produkcji a przebiegiem (-0.63). To sugeruje o tym, że im starsze auto, tym więcej przejechanych kilometrów.

5.2 Heetmapa korelacji zmiennych ilościowych

5.3 Analiza spadku cen wybranych marek samochodów

Wykres liniowy przedstawia procentową utratę wartości początkowej w funkcji wieku auta. Cena 1-rocznego pojazdu stanowi punkt odniesienia (100%). Z analizy widać, że Kia i Toyota trzymają cenę najlepiej, spadając poniżej 50% wartości dopiero po około 5-6 latach. Jednak marki Audi i Volkswagen tracą swoją wartość gwałtownie w pierwszych 3 latach eksploatacji. Po 15 latach większość marek zrównuje się na poziomie ok. 10-15% wartości początkowej.

5.4 Najpopularniejsze dodatki w samochodach

Wykres słupkowy przedstawia poziomy przedtswiający ranking popularności poszczególnych elementów wyposażenia w całej bazie ogłoszeń. Najczęściej występującymi elementami są systemy bezpiczeństwa i podstawowy komfort: ABS, zamek centralny oraz elektryczne szyby przednie. Większość aut w bazie posiada bogaty pakiet podstawowy.

5.5 Model zalezności ceny od dodatków

Wykres pudełkowy (boxplot) przedtsawia zależność między liczbą elementów wyposażenia a ceną samochodu (PLN). Na wykres naniesiono czerwona linię trendu, która pokazuje ogólną tendencję rynku.

Czerwona linia trendu wyraźnie idzie w górę, co potwiedza, im więcej dodatkowych opcji (klimatyzacja, czujnik itp. ), tym większa cena ofertowa pojazdu. Dla małej liczby elementów wąsy pudełek są bardzo długie, a ceny są zaskakująco wysokie. To może świadczyć, że w ogłoszeniach znajduja się auta są bardzo drogie lub są to błędy w opisach ogłoszeń. W przedziale 20-60 elementów wyposażenia trend jest bardzo stabilny, tak samo podbije medianę ceny. Powyżej 60 elementów wyposażenia mediana zaczyna się wahać, co sugeruje o mniejszej liczbie takich ofert.

5.6 Wpływ wybranych luksusów na cenę samochodu

##   Rodzaj_Dodatku      Bez Z dodatkiem Roznica_PLN Roznica_Procent
## 1      Nawigacja 41271.95    77769.37   36497.426            88.4
## 2          Skora 47384.26    77316.96   29932.693            63.2
## 3     Szyberdach 53026.21    75352.35   22326.133            42.1
## 4        Ksenony 53646.63    61241.38    7594.743            14.2
## 
## --- WYNIKI TESTU U MANNA-WHITNEYA ---
## [1] "Dodatek: SKORA"
## [1] "p-value: 0e+00 *** (Istotne)"
## [1] "---------------------------------"
## [1] "Dodatek: NAWIGACJA"
## [1] "p-value: 0e+00 *** (Istotne)"
## [1] "---------------------------------"
## [1] "Dodatek: KSENONY"
## [1] "p-value: 0e+00 *** (Istotne)"
## [1] "---------------------------------"
## [1] "Dodatek: SZYBERDACH"
## [1] "p-value: 0e+00 *** (Istotne)"
## [1] "---------------------------------"

“Ze względu na niespełnienie założenia o normalności rozkładu zmiennej cenowej (rozkład prawoskośny), do weryfikacji istotności różnic cen zastosowano nieparametryczny test U Manna-Whitneya zamiast testu t-Studenta. Dla wszystkich analizowanych elementów wyposażenia (skóra, nawigacja, ksenony, szyberdach) test wykazał różnice istotne statystycznie (p-value < 0.001), co potwierdza hipotezę o wpływie wyposażenia dodatkowego na pozycjonowanie cenowe pojazdu.”

6 Zastosowanie Uczenia Maszynowego (ML) w detekcji okazji rynkowych

6.1 Model wyceny (Los Losowy)

## Growing trees.. Progress: 76%. Estimated remaining time: 10 seconds.
## [1] 0.8476532

6.2 Analiza znajdywacza okazji, wzięcie pod uwagę defektów ukrytych

Wykres skrzypcowy z nałożonym wewnątrz wykresem pudełkowym przedtswia rozkład błedu ceny dla trzech segmentów cenowych. Linia 0% oznacza bezbłędną estymację. W segmencie Premium ma najbardziej pękaty kształt w punkcie zero, co potwiedza jego najwyższą przewidywalność. Segment Tani jest długi i chudy, co sugeruje o dużym odchyleniem w tym segmencie. We wszystkich segmentach widać długie “ogony”.

6.3 Czynniki wpływające na wycenę modelu

## Preparation of a new explainer is initiated
##   -> model label       :  Random Forest OLX 
##   -> data              :  203401  rows  7  cols 
##   -> target variable   :  203401  values 
##   -> predict function  :  predict_function 
##   -> predicted values  :  No value for predict function target column. (  default  )
##   -> model_info        :  package ranger , ver. 0.17.0 , task regression (  default  ) 
##   -> predicted values  :  numerical, min =  3188.857 , mean =  61109.5 , max =  3267061  
##   -> residual function :  difference between y and yhat (  default  )
##   -> residuals         :  numerical, min =  -707839.9 , mean =  4.600837 , max =  4897243  
##   A new explainer has been created!

6.4 Tabela okazji

##    Vehicle_brand Production_year Power_HP Cena_PLN Cena_Fair Roznica_PLN
## 1            BMW            2014      190    70900  519568.3   -448668.3
## 2           Audi            2018      450    53500  222239.3   -168739.3
## 3  Mercedes-Benz            2018      367    58900  230878.9   -171978.9
## 4  Mercedes-Benz            2017      557    85977  320022.3   -234045.3
## 5       Maserati            2019      430    82000  304467.4   -222467.4
## 6  Mercedes-Benz            2020      421    65900  236281.0   -170381.0
## 7  Mercedes-Benz            2006      618    80000  283000.0   -203000.0
## 8           Audi            2014      313    94900  330349.5   -235449.5
## 9  Mercedes-Benz            2014      265    93999  325236.0   -231237.0
## 10 Mercedes-Benz            2021      195    70164  231296.4   -161132.4
Tabela najlepszych okazji w segmencie premium według modelu
Vehicle_brand Production_year Power_HP Cena_PLN Cena_Fair Roznica_PLN
BMW 2014 190 70900 519568.3 -448668.3
Audi 2018 450 53500 222239.3 -168739.3
Mercedes-Benz 2018 367 58900 230878.9 -171978.9
Mercedes-Benz 2017 557 85977 320022.3 -234045.3
Maserati 2019 430 82000 304467.4 -222467.4
Mercedes-Benz 2020 421 65900 236281.0 -170381.0
Mercedes-Benz 2006 618 80000 283000.0 -203000.0
Audi 2014 313 94900 330349.5 -235449.5
Mercedes-Benz 2014 265 93999 325236.0 -231237.0
Mercedes-Benz 2021 195 70164 231296.4 -161132.4

7 Podsumowanie