Projekt zawiera analizę danych dotyczących samochodów wystawionych na sprzedaż pochodzących z ogłoszeń zamieszczonych na jednym z największych serwisów ogłoszeniowych w Polsce w okresie od końca marca do początku maja 2021 roku. Dane obejmują szczegółowe informacje o pojazdach, takie jak m.in. marka, model, rok produkcji, przebieg, cena oraz lokalizacja.
Celem analizy jest zbadanie różnych aspektów rynku samochodowego w Polsce, takich jak popularność marek, poziom cen, rozkład roczników oraz inne cechy pojazdów dostępnych w ogłoszeniach. Dodatkowo analiza ma głównie na celu identyfikację czynników wpływających na cenę samochodu, aby określić, które z nich w największym stopniu kształtują wartość pojazdu.
W celu nadania analizie odpowiedniego kierunku oraz precyzyjnego określenia, jakie informacje mają zostać pozyskane z danych, sformułowano zestaw pytań badawczych:
Które parametry techniczne i elementy wyposażenia są kluczowymi determinantami ceny pojazdu?
Czy dynamika utraty wartości jest jednorodna dla całego rynku, czy też występują istotne różnice w tempie spadku cen pomiędzy markami popularnymi a segmentem premium?
Czy obecność wyposażenia luksusowego w sposób istotny statystycznie różnicuje średnią cenę ofertową pojazdu?
W jakim stopniu algorytmy uczenia maszynowego (Random Forest) pozwalają na automatyczną identyfikację anomalii cenowych (“okazji rynkowych”) i w których segmentach cenowych ich predykcje są najbardziej precyzyjne?
## [1] 33.71131
## [1] 54.85108
## [1] 7.237499
## [1] 0
Wykres przedstawia procentowy udział brakujących danych dla poszczególnych zmiennych. Największe braki występują w zmiennych First_owner, First_registration_date oraz CO2_emissions, gdzie odsetek braków przekracza 50%. Umiarkowane braki dotyczą m.in. Origin_country, Vehicle_version i Vehicle_generation, natomiast większość pozostałych zmiennych jest niemal kompletna i zawiera jedynie śladowe ilości brakujących danych.
Wykres przedstawia liczbę obserwacji dla różnych typów zmiennych (tekstowe, numeryczne i brakujące dane) w zestawie danych. Kolory wskazują na typy danych, gdzie różowa część reprezentuje zmienne tekstowe, niebieska - numeryczne, a szara - brakujące dane.
Wykres przedstawia braki danych w kolumnach Drive oraz CO2_emissions. Czarne pola oznaczają brakujące wartości, a szare – dane obecne. Udział braków w kolumnie Drive jest niewielki i wynosi około 7%, natomiast w przypadku CO2_emissions jest znacznie większy i sięga około 55%. Łącznie brakujące wartości stanowią około 31% wszystkich obserwacji co wskazuje na to, że problemy z kompletnością danych dotyczą głównie zmiennej opisującej emisję CO₂ i mogą mieć istotne znaczenie dla dalszej analizy.
Wykres przedstawia współwystępowanie braków danych w analizowanym zbiorze. Największą liczbę brakujących wartości obserwuje się w zmiennych First_owner, First_registration_date, CO2_emissions oraz Origin_country. Widoczne jest częste współwystępowanie braków pomiędzy tymi zmiennymi, co wskazuje na nielosowy charakter braków danych oraz na istnienie kilku dominujących, powtarzalnych kombinacji braków.
## Drive CO2_emissions
## 93496 1 1 0
## 99732 1 0 1
## 551 0 1 1
## 14525 0 0 2
## 15076 114257 129333
Wykres przedstawia wzorzec brakujących danych dla zmiennych “Drive” i “CO2_emissions”. Kolory pokazują, które wartości są dostępne (niebieski) lub brakujące (różowy), a liczby w komórkach wskazują liczbę obserwacji w każdej kombinacji dostępnych i brakujących danych.
- Czy rok jest mniejszy niż 2025 i większy niż 1900?
- Czy przebieg jest mniejszy niż 400 000 km?
- Czy występuje mniej niż 7 drzwi i więcej niż 1?
- Czy moc jest mniejsza niż 800 hp i większa niż 10 hp?
- Czy nowe auta mają przebieg mniejszy niż 10 km?
## name items passes fails nNA error warning
## 1 V1 203453 203453 0 0 FALSE FALSE
## 2 V2 203453 203453 0 0 FALSE FALSE
## 3 V3 203453 203453 0 0 FALSE FALSE
## 4 V4 203453 203453 0 0 FALSE FALSE
## 5 V5 203453 203453 0 0 FALSE FALSE
## 6 V6 203453 203453 0 0 FALSE FALSE
## expression
## 1 Production_year < 2025 & Production_year > 1900
## 2 Mileage_km < 4e+05
## 3 Doors_number < 7 & Doors_number > 1
## 4 Power_HP < 800 & Power_HP > 10
## 5 Condition != "New" | Mileage_km <= 10
## 6 Condition != "Used" | Mileage_km >= 10
| Statystyka | New | Used |
|---|---|---|
| Min | 585.00 | 500.00 |
| Max | 2101970.00 | 6999000.00 |
| Kwartyl dolny | 86692.25 | 15999.00 |
| Mediana | 120523.50 | 29900.00 |
| Kwartyl górny | 179900.00 | 57900.00 |
| Średnia | 153949.73 | 49199.16 |
| Odch. std. | 115021.56 | 68300.14 |
| IQR | 93207.75 | 41901.00 |
| Odchylenie ćwiartkowe | 46603.88 | 20950.50 |
| Odch. std. w % | 74.71 | 138.82 |
| Odch. ćwiartkowe w % | 77.34 | 140.14 |
| Skośność | 4.04 | 11.98 |
| Kurtoza | 32.63 | 679.45 |
Tabela przedstawia statystykę opisową dla nowych i używanych samochodów. Mediana dla aut nowych jest ponad 4-krotnie wyższa niż dla używanych. Występuje silna dodatnia skośność, szczególnie w autach używanych 11.98, co pokazuje, że większość rynku to auta tanie, a średnią cenę podwyża w górę nieliczna grupa bardzo drogich pojazdów. Wysoka kurtoza dla aut używanych (679.45) potwiedza na obecność unikatowych aut kolekcjonerskich, których ceny bardzo silne odbiegają od średniej.
Mapa drzewa (treemap) pokazuje hierarchiczną strukturę rynku ogłoszeń. Wielkość każdego prostokąta odpowiada liczbę ofert danej marki, a mniejsze podziały wewnątrz reprezentują popularność konkretnych modeli. Wyraźnie widać, że dominują marki niemieckie: Volkswagen, BMW, Audi, Opel oraz Ford(choć amerykański). Największe pojedyncze bloki wewnątrz marek to modele: Volkswagen Golf i Passat, Opel Astra, Audi A4 oraz Ford Focus. Te modeli mogą wyznaczać punkty odniesienia dla średniej ceny rynkowej. Duży udział segmentu Premium takich jak: BMW Seria 5 i 3, Audi i Mersedes - Benz, co będize miało wpływ na rozkład cen. Ta mapa pokazuje, że model wyceny musi uwzględniać markę jako silnym czynnikiem, np cena BMW serii 3 będzie zachowywać się inaczej niż cena Kia Ceed z tego samego rocznika.
Powyższy wykres waflowy ilustruje procentowy udział poszczególnych rodzajów paliwa w analizowanym zbiorze ogłoszeń, gdzie każdy kwadrat reprezentuje 1% obserwacji.Jednostki benzynowe (47,6%) oraz diesel (44,6%) stanowią łącznie ponad 92% wszystkich ofert, tworząc niemal równowagę rynkową. Alternatywne zródła paliwa pozostają w mniejszczości: samochoody z instalacją LPG(4,4%), hybrydy (2,7%) oraz elektryczne (0,6%). Silna dysproporcja sugeruje, że paliwa alternatywne mogą stanowić istotne predyjtory wysokich wartości, podczas gdy obecność LPG może być powiązana z segmentem budżetowym.
Analiza struktury typy samochodów w kontekście zastosowanego układu napędowego wskazuje, że największy udział na rynku zajmują SUV, station wagon, sedan i compact, co wyraźnie pokazuje popularność samochodów nadających się do różnych zadań. Istnieje wyraźny wzór: w kategoriach SUV, sedan i coupe automatyczne skrzynie biegów są dość powszechne. Sugeruje to, że takie samochody są często pozycjonowane jako droższe i koncentrują się na maksymalnym komforcie kierowcy. Natomiast w segmentach samochodów miejskich, kompaktowych i małych wyraźnie preferowane są przekładnie mechaniczne.Typ skrzyni biegów okazuje się jednym z najbardziej wpływowych czynników decydujących o cenie, nawet bardziej niż typ nadwozia. W szczególności obecność automatycznej skrzyni biegów często wskazuje, że samochód jest Premium lub jest bardziej zaawansowany technologicznie.
Histogram przedstawia rozkład przebiegu dla samochodów używanych oferownych na sprzedaż. Oś X prezentuje przebieg w zakresie od 0 do 400 000km, natomiast oś Y wskazuje liczbę ofert w danym przedziale. Większość wystawionych pojazdów posiada przebieg w szerokim przedziale od 100 000 do 200 000km. Po punkcie szczytowym (200 000km) liczba ofert gwałtowne spada, co wskazuje o mniejszej atrakcyjności rynkowej takich pojazdów.
Ten wykres przedstawia rozkład cen samochodów oferowanych na sprzedaż, z podziałem na pojazdy nowe oraz używane. Ze względu na dużą rozpiętność cenową, na osi X zastosowano skalę logarytmiczną, co pozwala na czytelne porównanie obu grup. W przypadku samochodów używanych rozkład cen jest z widocznym ogonem w lewo (tanie samochody poniżej 5 000 zł) i największą gęstością ofert w przedziale 10 000 – 50 000 zł z kolei rozkład dla nowych samochodów jest wyraźnie przesunięty w prawo, oscylując głównie od 100 000 zł. Istotnym elementem jest jednak zauważalna łączna powierzchnia obu rozkładów, który przedstawia prawdziwy dylemat konsumenta wybierającego między nowym a używanym samochodem. Wyraźnie rodzdzielanie charakterystyk cenowych obu grup potwierdza, że stan pojazdu jest kluczowym czynnikiem wpływającym na jego wartość rynkową.
Mapa kartogramiczna Polski, wykorzystująca podział terytorialny zbliżony do granic województw, przedstawiona na podkładzie OpenStreetMap, która ilustruje rozkład średniej ceny samochodów oferowanych na sprzedaz w poszczególnych regionach kraju. Analiza wyraźnie wskazuje na zróżnicowanie rynkowe między Polską zachodnią a wschodnią.
Macierz korelacji przedstawiona dla zmiennych ilościowych. Skala jest od -1 do 1. Najsilniejsza dodatnia korelacja z ceną występuje dla mocy silnika (0.62). To świdczy, że konie mechaniczne są lepszym predyktorem ceny niż sam rok produkcji pojazdu. Silna ujemna korelacja pomiędzy rokiem produkcji a przebiegiem (-0.63). To sugeruje o tym, że im starsze auto, tym więcej przejechanych kilometrów.
Wykres liniowy przedstawia procentową utratę wartości początkowej w funkcji wieku auta. Cena 1-rocznego pojazdu stanowi punkt odniesienia (100%). Z analizy widać, że Kia i Toyota trzymają cenę najlepiej, spadając poniżej 50% wartości dopiero po około 5-6 latach. Jednak marki Audi i Volkswagen tracą swoją wartość gwałtownie w pierwszych 3 latach eksploatacji. Po 15 latach większość marek zrównuje się na poziomie ok. 10-15% wartości początkowej.
Wykres słupkowy przedstawia poziomy przedtswiający ranking popularności poszczególnych elementów wyposażenia w całej bazie ogłoszeń. Najczęściej występującymi elementami są systemy bezpiczeństwa i podstawowy komfort: ABS, zamek centralny oraz elektryczne szyby przednie. Większość aut w bazie posiada bogaty pakiet podstawowy.
Wykres pudełkowy (boxplot) przedtsawia zależność między liczbą elementów wyposażenia a ceną samochodu (PLN). Na wykres naniesiono czerwona linię trendu, która pokazuje ogólną tendencję rynku.
Czerwona linia trendu wyraźnie idzie w górę, co potwiedza, im więcej dodatkowych opcji (klimatyzacja, czujnik itp. ), tym większa cena ofertowa pojazdu. Dla małej liczby elementów wąsy pudełek są bardzo długie, a ceny są zaskakująco wysokie. To może świadczyć, że w ogłoszeniach znajduja się auta są bardzo drogie lub są to błędy w opisach ogłoszeń. W przedziale 20-60 elementów wyposażenia trend jest bardzo stabilny, tak samo podbije medianę ceny. Powyżej 60 elementów wyposażenia mediana zaczyna się wahać, co sugeruje o mniejszej liczbie takich ofert.
## Rodzaj_Dodatku Bez Z dodatkiem Roznica_PLN Roznica_Procent
## 1 Nawigacja 41271.95 77769.37 36497.426 88.4
## 2 Skora 47384.26 77316.96 29932.693 63.2
## 3 Szyberdach 53026.21 75352.35 22326.133 42.1
## 4 Ksenony 53646.63 61241.38 7594.743 14.2
##
## --- WYNIKI TESTU U MANNA-WHITNEYA ---
## [1] "Dodatek: SKORA"
## [1] "p-value: 0e+00 *** (Istotne)"
## [1] "---------------------------------"
## [1] "Dodatek: NAWIGACJA"
## [1] "p-value: 0e+00 *** (Istotne)"
## [1] "---------------------------------"
## [1] "Dodatek: KSENONY"
## [1] "p-value: 0e+00 *** (Istotne)"
## [1] "---------------------------------"
## [1] "Dodatek: SZYBERDACH"
## [1] "p-value: 0e+00 *** (Istotne)"
## [1] "---------------------------------"
“Ze względu na niespełnienie założenia o normalności rozkładu zmiennej cenowej (rozkład prawoskośny), do weryfikacji istotności różnic cen zastosowano nieparametryczny test U Manna-Whitneya zamiast testu t-Studenta. Dla wszystkich analizowanych elementów wyposażenia (skóra, nawigacja, ksenony, szyberdach) test wykazał różnice istotne statystycznie (p-value < 0.001), co potwierdza hipotezę o wpływie wyposażenia dodatkowego na pozycjonowanie cenowe pojazdu.”
## Growing trees.. Progress: 76%. Estimated remaining time: 10 seconds.
## [1] 0.8476532
Wykres skrzypcowy z nałożonym wewnątrz wykresem pudełkowym przedtswia rozkład błedu ceny dla trzech segmentów cenowych. Linia 0% oznacza bezbłędną estymację. W segmencie Premium ma najbardziej pękaty kształt w punkcie zero, co potwiedza jego najwyższą przewidywalność. Segment Tani jest długi i chudy, co sugeruje o dużym odchyleniem w tym segmencie. We wszystkich segmentach widać długie “ogony”.
## Preparation of a new explainer is initiated
## -> model label : Random Forest OLX
## -> data : 203401 rows 7 cols
## -> target variable : 203401 values
## -> predict function : predict_function
## -> predicted values : No value for predict function target column. ( default )
## -> model_info : package ranger , ver. 0.17.0 , task regression ( default )
## -> predicted values : numerical, min = 3188.857 , mean = 61109.5 , max = 3267061
## -> residual function : difference between y and yhat ( default )
## -> residuals : numerical, min = -707839.9 , mean = 4.600837 , max = 4897243
## A new explainer has been created!
## Vehicle_brand Production_year Power_HP Cena_PLN Cena_Fair Roznica_PLN
## 1 BMW 2014 190 70900 519568.3 -448668.3
## 2 Audi 2018 450 53500 222239.3 -168739.3
## 3 Mercedes-Benz 2018 367 58900 230878.9 -171978.9
## 4 Mercedes-Benz 2017 557 85977 320022.3 -234045.3
## 5 Maserati 2019 430 82000 304467.4 -222467.4
## 6 Mercedes-Benz 2020 421 65900 236281.0 -170381.0
## 7 Mercedes-Benz 2006 618 80000 283000.0 -203000.0
## 8 Audi 2014 313 94900 330349.5 -235449.5
## 9 Mercedes-Benz 2014 265 93999 325236.0 -231237.0
## 10 Mercedes-Benz 2021 195 70164 231296.4 -161132.4
| Vehicle_brand | Production_year | Power_HP | Cena_PLN | Cena_Fair | Roznica_PLN |
|---|---|---|---|---|---|
| BMW | 2014 | 190 | 70900 | 519568.3 | -448668.3 |
| Audi | 2018 | 450 | 53500 | 222239.3 | -168739.3 |
| Mercedes-Benz | 2018 | 367 | 58900 | 230878.9 | -171978.9 |
| Mercedes-Benz | 2017 | 557 | 85977 | 320022.3 | -234045.3 |
| Maserati | 2019 | 430 | 82000 | 304467.4 | -222467.4 |
| Mercedes-Benz | 2020 | 421 | 65900 | 236281.0 | -170381.0 |
| Mercedes-Benz | 2006 | 618 | 80000 | 283000.0 | -203000.0 |
| Audi | 2014 | 313 | 94900 | 330349.5 | -235449.5 |
| Mercedes-Benz | 2014 | 265 | 93999 | 325236.0 | -231237.0 |
| Mercedes-Benz | 2021 | 195 | 70164 | 231296.4 | -161132.4 |