1 Wstęp

Projekt poświęcony jest wielowymiarowej analizie wtórnego rynku samochodowego w Polsce, bazuje na rzeczywistych danych ofertowych pochodzących z wiodącego serwisu ogłoszeniowego (dane z okresu: marzec–maj 2021). Rynek samochodów używanych charakteryzuje się dużą złożonością, asymetrią informacji oraz występowaniem licznych anomalii cenowych, co czyni go interesującym obiektem badań statystycznych.

Niniejsza praca obejmuje pełny cykl analityczny: począwszy od wstępnego przetwarzania i czyszczenia surowych danych, poprzez zaawansowaną eksplorację wizualną, aż po budowę modeli uczenia maszynowego. Szczególny nacisk położono nie tylko na opisanie struktury rynku, ale przede wszystkim na zrozumienie mechanizmów rządzących wyceną pojazdów oraz weryfikację potocznych opinii rynkowych w oparciu o twarde dane.

1.1 Cel

Głównym celem pracy jest zidentyfikowanie kluczowych determinantów wartości rynkowej samochodów osobowych oraz budowa interpretowalnego modelu predykcyjnego, pozwalającego na automatyczną wycenę pojazdów i detekcję okazji rynkowych.

1.2 Pytania badawcze

W celu nadania analizie odpowiedniego kierunku oraz precyzyjnego określenia, jakie informacje mają zostać pozyskane z danych, sformułowano zestaw pytań badawczych:

Które parametry techniczne i elementy wyposażenia są kluczowymi determinantami ceny pojazdu?
Czy dynamika utraty wartości jest jednorodna dla całego rynku, czy też występują istotne różnice w tempie spadku cen pomiędzy markami popularnymi a segmentem premium?
Czy obecność wyposażenia luksusowego w sposób istotny statystycznie różnicuje średnią cenę ofertową pojazdu?
W jakim stopniu algorytmy uczenia maszynowego (Random Forest) pozwalają na automatyczną identyfikację anomalii cenowych (“okazji rynkowych”) i w których segmentach cenowych ich predykcje są najbardziej precyzyjne?

2 Wstępna eksploracja badanego zbioru

2.1 Analiza Jakości Danych

2.1.1 Braki danych

Wykres przedstawia procentowy udział brakujących danych dla poszczególnych zmiennych. Największe braki występują w zmiennych Data_pierwszej_rejestracji oraz Emisja_CO2, gdzie odsetek braków przekracza 50%. Umiarkowane braki dotyczą m.in. Kraj_pochodzenia, Wersja_pojazdu i Generacja_pojazdu, natomiast większość pozostałych zmiennych jest niemal kompletna i zawiera jedynie śladowe ilości brakujących danych. Ze względu na bardzo wysoki poziom braków danych i brak możliwości uzupełnienia braków w zmiennych Wersja_pojazdu, Generacja_pojazdu, Kraj_pochodzenia, Data_pierwszej_rejestracji i Emisja_CO2 postanowiliśmy w dalszej części pracy nie brać pod uwage tych zmiennych. Zmienna Pierwszy_wlasciciel może zostać uzupełniona więc nie zostaje wykluczona.

2.1.2 Struktura braków danych

Wykres przedstawia strukturę niekompletności danych. Braki w parametrach technicznych rzadko występują łącznie. Analiza wykazała dominację pojedynczego braku w zmiennej Napęd. Oznacza to, że sprzedający masowo pomijają informację o rodzaju napędu, wypełniając jednocześnie pozostałe pola. Współwystępowanie braków w wielu kolumnach naraz jest zjawiskiem marginalnym. Taka struktura sugeruje, że braki wynikają raczej ze specyfiki formularza ogłoszeniowego lub niewiedzy technicznej użytkowników odnośnie układu napędowego, a nie z ogólnej niskiej jakości ogłoszenia.

2.2 Opis zmian wprowadzonych do danych

Pierwotny zbiór danych zawierał wartości atrybutów kategorycznych w języku angielskim, co utrudniałoby interpretację wyników w kontekście polskiego rynku. Aby zapewnić czytelność wizualizacji i spójność raportu, przeprowadzono proces mapowania wartości i nazw zmiennych. Jako przykład tego procesu można podać rodzaj paliwa.

Przykład mapowania wartości zmiennych dla zmiennej Rodzaj_paliwa
Oryginał (EN)	Po zmianie (PL)
Gasoline	benzyna
Gasoline + LPG	benzyna + LPG
Diesel	diesel
Electric	elektryczny
Hybrid	hybryda
Gasoline + CNG	benzyna + CNG
Hydrogen	wodór
Ethanol	etanol

Oryginalna zmienna zawierała surowy ciąg znaków. Zastosowano ekstrakcję tekstu, aby wyodrębnić z adresu nazwę województwa i utworzyć nową zmienną kategoryczną Wojewodztwo. Pozwoliło to na późniejszą analizę przestrzenną cen. Przykład tego procesu został przedstawiony poniżej

Przykład wyodrębnienia województwa z pierwotnej zmiennej adresu
Oryginał	Po zmianie
ul. Jubilerska 6 - 04-190 Warszawa, Mazowieckie (Polska)	mazowieckie

Oryginalna zmienna ceny mogła być podawana w walucie zarówno PLN jak i EUR co prowadziło by do niewłaściwych wniosków. W celu unifikacji wprowadzono zmienną Cena_PLN, w której ceny w walucie EUR zostały przekonwertowane na PLN po kursie z najnowszego dnia umieszczenia ogłoszenia na platformę (1/05/2021).
Zmienną Pierwszy_wlasciciel potraktowano jako zmienną typu prawda/fałsz, gdzie prawda oznacza, że sprzedający jest pierwszym właścicielem samochodu. Wartości brakujące zmiennej zmieniono na wartość fałsz.
Dla zmiennych o niskim odsetku braków (<7%) zastosowano imputację metodą hot-deck lub usunięcie niekompletnych rekordów.

2.3 Walidacja danych

Aby nie dopuścić do uwzględnienia wartości odstających w analizie przeprowadzono proces walidacji danch według reguł wymienionyż poniżej. Walidacja występuje kilkukrotnie i za każdym razem jest popszedzona imputacją.

2.3.1 Reguły:

Czy cena jest większa niż 2 000 PLN i niższa niż 2 000 000 PLN
Czy rok jest mniejszy niż 2025 i większy niż 1900?
Czy przebieg jest mniejszy niż 400 000 km?
Czy występuje mniej niż 7 drzwi i więcej niż 1?
Czy moc jest mniejsza niż 800 hp i większa niż 10 hp?
Czy nowe auta mają przebieg mniejszy niż 10 km?

Wykres przedstawia podsumowanie konfrontacji danych z zestawem reguł walidacyjnych. Każdy pasek odpowiada jednej regule i pokazuje liczbę obserwacji spełniających regułę (passes), naruszających ją (fails) oraz przypadki z brakującymi danymi (nNA). Dominacja zielonych segmentów wskazuje, że wszystkie rekordy spełniają zdefiniowane warunki jakości danych.

3 Wstępna charakterystyka rynku

3.1 Statystyki Opisowe

Tabela 1. Ceny wg stanu użycia.
Statystyka	nowy	używany
Min	8300.00	1050.00
Max	1950000.00	1800000.00
Kwartyl dolny	86500.00	15999.00
Mediana	120600.00	29900.00
Kwartyl górny	179900.00	58900.00
Średnia	153940.44	50465.94
Odch. std.	113627.65	70074.42
IQR	93400.00	42901.00
Odchylenie ćwiartkowe	46700.00	21450.50
Odch. std. w %	73.81	138.85
Odch. ćwiartkowe w %	77.45	143.48
Skośność	3.72	6.27
Kurtoza	26.59	72.44

Tabela przedstawia statystykę opisową cen dla nowych i używanych samochodów. Mediana dla aut nowych jest ponad 4-krotnie wyższa niż dla używanych. Występuje silna dodatnia skośność, szczególnie w autach używanych (6.31), co pokazuje, że większość rynku to auta tanie, a średnią cenę zawyża
nieliczna grupa bardzo drogich pojazdów. Wysoka kurtoza dla aut używanych (74.43) potwierdza obecność unikatowych aut sportowych lub kolekcjonerskich, których ceny bardzo silnie odbiegają
od średniej.

3.2 Treemap ilości samochodów po markach i modelach

Mapa drzewa pokazuje hierarchiczną strukturę rynku ogłoszeń. Wielkość każdego prostokąta odpowiada liczbie ofert danej marki, a mniejsze podziały wewnątrz reprezentują popularność konkretnych modeli. Wyraźnie widać, że dominują marki niemieckie: Volkswagen, BMW, Audi, Opel oraz amerykański Ford. Największe pojedyncze bloki wewnątrz marek to modele: Volkswagen Golf i Passat, Opel Astra, Audi A4 oraz Ford Focus. Modele te mogą wyznaczać punkty odniesienia dla średniej ceny rynkowej. Występuje też duży udział segmentu Premium takich jak: BMW , Audi i Mercedes-Benz, co będzie miało wpływ na rozkład cen. Mapa ta pokazuje, że model wyceny powinien uwzględniać markę jako istotny czynnik wpływający na cenę pojazdu. Przykładowo, cena BMW serii 3 będzie kształtować się inaczej niż cena Kia Ceed z tego samego rocznika, co wynika z różnic w postrzeganej wartości marki oraz segmentu rynku.

3.3 Analiza używanych rodzajów paliwa

Powyższy wykres udziału ilustruje procentowy udział poszczególnych rodzajów paliwa w analizowanym zbiorze ogłoszeń, gdzie każdy kwadrat reprezentuje 1% obserwacji. Jednostki benzynowe oraz diesel stanowią łącznie ponad 92% wszystkich ofert, tworząc zbliżony rozkład udziałów rynkowych. Alternatywne źródła paliwa pozostają w wyraźnej mniejszości. Są to samochody z instalacją LPG, hybrydy oraz pojazdy elektryczne. Silna dysproporcja sugeruje, że paliwa alternatywne mogą pełnić rolę istotnych predyktorów wyższych cen, podczas gdy obecność instalacji LPG może być powiązana z segmentem budżetowym.

3.4 Typy samochodów a skrzynia biegów

Analiza struktury typów samochodów w kontekście zastosowanej skrzyni biegów wskazuje, że największy udział na rynku zajmują SUV, kombi, sedan i kompaktowe, co wyraźnie pokazuje popularność samochodów nadających się do różnych zadań. Istnieje wyraźny wzór: w kategoriach SUV, sedan i coupe automatyczne skrzynie biegów są dość powszechne. Sugeruje to, że takie samochody mogą być często pozycjonowane jako droższe i koncentrować się na maksymalnym komforcie kierowcy. Natomiast w segmentach samochodów miejskich, kompaktowych i małych wyraźnie preferowane są przekładnie mechaniczne. Typ skrzyni biegów może być jednym z najbardziej wpływowych czynników decydujących o cenie, nawet w większym stopniu niż typ nadwozia. W szczególności obecność automatycznej skrzyni biegów często wskazuje, że samochód jest z segmentu Premium lub jest bardziej zaawansowany technologicznie.

3.5 Rozkład przebiegów samochodów używanych

Histogram przedstawia rozkład przebiegu dla samochodów używanych oferowanych na sprzedaż. Oś X prezentuje przebieg w zakresie od 0 do 400 000 km, natomiast oś Y wskazuje liczbę ofert w danym przedziale. Większość wystawionych pojazdów posiada przebieg w szerokim przedziale od 100 000 do 200 000 km. Po punkcie szczytowym (200 000 km) liczba ofert gwałtownie spada, co sugeruje mniejszą atrakcyjność rynkową pojazdów o wyższej wartości przebiegu.

4 Analiza przestrzenna i struktura cenowa

4.1 Rozkład ceny samochodów nowych i używanych

Powyższy wykres przedstawia rozkład cen samochodów oferowanych na sprzedaż, z podziałem na pojazdy nowe oraz używane. Ze względu na dużą rozpiętność cenową, na osi X zastosowano skalę logarytmiczną, co umożliwia czytelne porównanie obu grup. W przypadku samochodów używanych rozkład cen charakteryzuje się wyraźnym lewostronnym ogonem, obejmującym najtańsze pojazdy (poniżej 5 000 zł), oraz najwyższą gęstością ofert w przedziale 10 000–50 000 zł. Z kolei rozkład cen samochodów nowych jest wyraźnie przesunięty w prawo, koncentrując się głównie powyżej poziomu 100 000 zł. Istotnym elementem analizy jest zauważalne częściowe nakładanie się obu rozkładów, które przedstawia prawdziwy dylemat konsumenta stojącego przed wyborem pomiędzy zakupem nowego a używanego pojazdu. Jednocześnie wyraźne rozdzielenie charakterystyk cenowych obu grup potwierdza, że stan pojazdu jest kluczowym czynnikiem wpływającym na jego wartość rynkową.

4.2 Mapa Cenowa Polski według województw

Mapa kartogramiczna Polski, oparta na podziale terytorialnym zbliżonym do granic województw, przedstawiona na podkładzie OpenStreetMap, przedstawia zróżnicowanie średnich cen samochodów oferowanych na sprzedaż w poszczególnych regionach kraju. Analiza wyraźnie wskazuje na różnice regionalne. Może to odzwierciedlać odmienne poziomy zamożności, strukturę rynku oraz preferencje konsumentów w poszczególnych województwach. Najwyższe średnie ceny zanotowano w województwie wielkopolskim, zachodniopomorskim oraz mazowieckim, a najniższe na Lubelszczyźnie i w województwie świętokrzyskim. Przy czym należy również nadmienić, iż w jednocześnie województwa wielkopolskie i świętokrzyskie mają najmniejszą liczbę zanotowanych ofert, co prawdopodobnie wpływa na poziom średn

5 Determinanty wartości pojazdu – analiza czynnikowa

5.1 Korelacja zmiennych ilościowych

Macierz korelacji przedstawia zależności pomiędzy zmiennymi ilościowymi w analizowanym zbiorze danych (współczynnik Pearsona). Najsilniejsza dodatnia korelacja z ceną dotyczy mocy silnika (0,62), co wskazuje, że liczba koni mechanicznych może w większym stopniu determinować wartość pojazdu niż rok produkcji (0,43).

5.2 Korelacja zmiennych jakościowych

Macierz V-Craméra przedstawia siłę powiązań pomiędzy zmiennymi kategorycznymi w zbiorze danych, w tym skategoryzowaną zmienną Cena. Wartości wskaźnika V-Craméra mieszczą się w przedziale od 0 do 1, gdzie 0 oznacza brak zależności, a 1 pełną zależność. Najsilniejsza zależność występuje pomiędzy zmiennymi Skrzynia_biegow oraz Segment_Cenowy. Ponadto zauważalne są umiarkowane powiązania między Typem_pojazdu a Segmentem_Cenowym oraz marką a ceną. Silne powiązanie widoczne jest również pomiędzy Marką a Skrzynią biegów. Relacja ta wskazuje na współzależność pomiędzy cechami technicznymi i producentem samochodu, które niekoniecznie przekładają się bezpośrednio na segment cenowy. Analiza wskazuje na to, że marka samochodu oraz jego cechy techniczne mają istotny wpływ na przynależność do danego segmentu cenowego. Z kolei zmienne takie jak kolor czy rodzaj paliwa wykazują słabsze powiązania z ceną i innymi zmiennymi.

5.3 Analiza spadku cen wybranych marek samochodów

Wykres prezentuje krzywe deprecjacji dla wybranych marek, obrazując procentowy spadek wartości pojazdu względem ceny salonowej (100%) w funkcji wieku. Ogólny trend dla wszystkich marek ma charakter wykładniczy - najgwałtowniejsza utrata wartości następuje w pierwszych 3-4 latach eksploatacji. Szczególnym przypadkiem jest Porsche. Marka ta wykazuje wysoką zmienność – po bardzo gwałtownym spadku w pierwszych dwóch latach, krzywa ulega wypłaszczeniu. W perspektywie długoterminowej Porsche jako jedyne wyłamuje się z ogólnego trendu, utrzymując wartość wyraźnie powyżej progu 10-15%, do którego zbiegają pozostałe marki. Może to świadczyć o wkraczaniu starszych modeli tej marki w status aut kolekcjonerskich.

5.4 Najpopularniejsze dodatki w samochodach

Wykres przedstawia ranking najczęściej występujących elementów wyposażenia w bazie ogłoszeń. Najpopularniejsze są systemy bezpieczeństwa i podstawowego komfortu, takie jak ABS, centralny zamek oraz elektryczne szyby przednie. Wyniki wskazują, że większość samochodów oferowanych w ogłoszeniach posiada bogaty pakiet wyposażenia podstawowego. Nieco rzadziej występującymi dodatkami są elektrycznie regulowane lusterka, radio fabryczne, immobilizer i komputer pokładowy.

5.5 Zalezność ceny od dodatków

Wykres pudełkowy boxplot przedstawia zależność pomiędzy liczbą deklarowanych elementów wyposażenia a ceną ofertową samochodu. Na wykres naniesiono czerwona linię trendu, która pokazuje ogólną tendencję rynku. Linia trendu wyraźnie rośnie, co potwierdza, że wraz ze wzrostem liczby dodatkowych opcji (np. klimatyzacja, czujniki) rośnie również cena ofertowa pojazdu. Dla małej liczby elementów wąsy pudełek są bardzo długie, a ceny są zaskakująco wysokie. Może to świadczyć o tym, że w ogłoszeniach znajduja się bardzo drogie samochody, w których nie wymieniono posiadanych elementów wyposażenia, lub są to błędy w opisach ogłoszeń. W przedziale 20-60 elementów wyposażenia mediana ceny stopniowo wzrasta. Powyżej 60 elementów wyposażenia mediana zaczyna się wahać, co prawdopodobnie wynika z mniejszej liczby obserwacji w tym przedziale.

5.6 Wpływ wybranych elementów wyposażenia na cenę samochodu

“Ze względu na niespełnienie założenia o normalności rozkładu zmiennej cenowej (rozkład prawoskośny), do weryfikacji istotności różnic cen zastosowano nieparametryczny test U Manna-Whitneya zamiast testu t-Studenta. Dla wszystkich analizowanych elementów wyposażenia (skóra, nawigacja, ksenony, szyberdach) test wykazał różnice istotne statystycznie (p-value < 0.001), co potwierdza hipotezę o wpływie wyposażenia dodatkowego na pozycjonowanie cenowe pojazdu.”

6 Zastosowanie Uczenia Maszynowego (ML) w detekcji okazji rynkowych

6.1 Model wyceny (Las Losowy)

Proces budowy modelu predykcyjnego poprzedzono selekcją zmiennych opartą na wcześniejszej analizie korelacji. Proces uczenia algorytmu Random Forest przeprowadzono na zestawie 200 drzew decyzyjnych. Do treningu wybrano wyłącznie cechy wykazujące istotny statystycznie związek z ceną pojazdu:

Zmienne ilościowe: Na podstawie macierzy korelacji Pearsona włączono Moc silnika, która okazała się najsilniejszym predyktorem liniowym, a także Przebieg oraz Rok produkcji.
Zmienne jakościowe: W oparciu o analizę V-Craméra, jako kluczowy parametr kategoryczny zidentyfikowano Skrzynię biegów , która determinuje segment cenowy silniej niż Marka czy Rodzaj paliwa. Do modelu włączono również Typ nadwozia oraz Napęd, pomijając cechy o znikomym wpływie, takie jak Kolor, aby uniknąć zaszumienia modelu.

Tak skonstruowany model osiągnął współczynnik determinacji \(R^2\) na poziomie 0.85, co oznacza, że wyselekcjonowany zestaw 8 cech pozwala wyjaśnić 85% zmienności cen na badanym rynku. Pozostałe 15% zmienności wynika prawdopodobnie ze stanu technicznego, historii wypadkowej lub opisu wizualnego, których model nie uwzględnia.

Wykres punktowy w skali logarytmicznej obrazuje skuteczność modelu w konfrontacji z rzeczywistością rynkową:

Oś X reprezentuje cenę z ogłoszenia (rzeczywistą).
Oś Y przedstawia “Cenę Fair” wyliczoną przez algorytm.
Linia przerywana (x=y) wyznacza punkt idealnej wyceny.

Na podstawie różnicy między predykcją a ceną ofertową zdefiniowano segmenty atrakcyjności ofert. Punkty znajdujące się powyżej linii diagonalnej (oznaczone kolorem zielonym) to tzw. “Super Okazje”, gdzie cena rzeczywista jest niższa o ponad 15% od szacowanej wartości rynkowej modelu. Z kolei punkty czerwone poniżej linii sugerują oferty mocno przeszacowane.

6.2 Analiza segmentów cenowych w modelu lasu losowego

Wykres skrzypcowy z zagnieżdżonym wykresem pudełkowym ilustruje rozkład błędu względnego predykcji w podziale na trzy segmenty cenowe. Oś pozioma wyznacza punkt idealnej estymacji. Analiza ujawnia fundamentalne różnice w przewidywalności poszczególnych segmentów rynku. Segment Premium (>50 tys. zł) charakteryzuje się najwyższą precyzją modelu. Rozkład jest silnie skoncentrowany wokół zera, a wąski rozstęp międzykwartylowy świadczy o niskiej wariancji błędów. Dla drogich aut model działa z niemal chirurgiczną precyzją. Segment Tani (<15 tys. zł) wykazuje najniższą stabilność predykcji. Rozkład jest mocno wydłużony w pionie, co wskazuje na duże odchylenia standardowe i trudność w oszacowaniu wartości pojazdów budżetowych. Jest to prawdopodobnie spowodowane brakiem opisu stanu technicznego pojazdu lub innych wad ukrytych w dostępnych danych. We wszystkich segmentach widoczne są długie ogony, reprezentujące skrajne pomyłki modelu. Mogą one wynikać z anomalii w danych, których model nie był w stanie wyłapać na podstawie dostępnych cech.

6.3 Czynniki wpływające na wycenę modelu

Wykres słupkowy prezentuje ranking ważności zmiennych w modelu Lasu Losowego, oparty na wzroście błędu RMSE po permutacji cech. Analiza ujawnia, że bezapelacyjnie najważniejszym determinantem ceny jest Moc silnika. Jej usunięcie powoduje największą degradację modelu, co czyni ją fundamentem wyceny. Na podium znajdują się również Rok produkcji oraz Przebieg, potwierdzając rynkową regułę, że wiek i stopień wyeksploatowania sterują utratą wartości. Cechy kategoryczne, takie jak Marka czy Skrzynia biegów, mają zauważalnie mniejszy wpływ. Sugeruje to, że algorytm kieruje się przede wszystkim twardymi danymi technicznymi, traktując prestiż producenta czy rodzaj napędu jako czynniki drugorzędne względem parametrów użytkowych.

6.4 Analiza wpływu jednej zmiennej

6.5 Anatomia Ceny: Case Study

Wykres zależności cząstkowej ilustruje wpływ mocy silnika na predykcję ceny w segmencie popularnym. Krzywa ujawnia silną, niemal liniową korelację dodatnią: w badanym przedziale 50–400 KM każdy przyrost mocy przekłada się na stabilny wzrost wartości rynkowej pojazdu. Brak wyraźnego spłaszczenia wykresu dowodzi, że rynek konsekwentnie premiuje dynamikę jazdy – klienci są skłonni dopłacać za każdy dodatkowy koń mechaniczny, niezależnie od tego, czy mowa o aucie miejskim, czy sportowym. Potwierdza to status mocy jako liniowego wyznacznika wartości.

Wykres kaskadowy przedstawia szczegółową dekompozycję wyceny dla analizowanego pojazdu (Alfa Romeo, 2014). Punktem odniesienia jest wartość bazowa wynosząca 61 126 zł, reprezentująca średnią rynkową w badanym zbiorze. Analiza wkładu poszczególnych cech ujawnia, że kluczowymi czynnikami drastycznie obniżającymi wartość tego konkretnego egzemplarza są parametry układu napędowego. Niska moc silnika odpowiada za największą korektę obiżającą wartość, pomniejszając wycenę aż o 18 456 zł. Znaczący wpływ ma również manualna skrzynia biegów, która redukuje wartość o kolejne 8 194 zł. W mniejszym stopniu na obniżkę wpływa przebieg. Z drugiej strony, cechy takie jak rocznik 2014, rodzaj paliwa oraz marka, działają stymulująco, generując łączne odbicie ceny o około 3 500 zł. Ostateczna predykcja modelu wynosi 27 793 zł, co stanowi wypadkową średniej rynkowej oraz indywidualnych cech pojazdu. Kolorystyka wykresu wizualnie rozdziela atrybuty podnoszące lub obniżające wycenę końcową, gdzie kolor granatowy pokazuje ostateczną wycenę modelu.

7 Podsumowanie

Celem projektu było podkreślenie istotnych czynników wpływających na wycenę pojazdów na rynku wtórnym oraz ocenę przydatności zaawansowanych metod przerowadzenia analizy w procesie estymacji cen i detekcji anomilii rynkowcyh. Przeprowadzone analizy statyczne oraz modelowanie ekonometrycznych pozwoliły na sformułowanie odpowiedzi na postawione pytania badawcze.

Wnioski końcowe oparte na wynikach uzyskanych w poszczególnych etapach analizy.

Analiza wstępna i czyszczenie danych pozwoliły w początkowej fazie przeprowadzić prace nad przygotowaniem danych. Obejmowało to usuwanie ofert z błędnymi informacjami, takimi jak nierealistyczny przebieg lub cena, oraz identyfikację i eliminację emisji. Te działania zapewniły stabilność i jakość danych dla modeli analitycznych.

Podczas analizy eksploracyjnej do analizy rozkładów zmiennych wykorzystano wizualizacje. To pozwoliło zauważyć, że większość samochodów ma niższą cenę (rozkład cen po prawej stronie), a także wstępnie ocenić, w jaki sposób wiek, przebieg i wyposażenie wpływają na koszty.

W analizie statystycznej za pomocą testów, takich jak test t – Studenta i ANOVA, potwierdzono silny związek między cechami, takimi jak sprzęt lub typ napędu, a ceną samochodu, co wskazuje na ich znaczenie jako predyktorów, chociaż nie były one bezpośrednio związane z parametrami technicznymi.

Budowa i ocena losowego modelu random forest wykazały, że relacje na rynku samochodów używanych mają charakter złożony i nieliniowy, co dobrze tłumaczy się przez metody zespołów, które sprawdzają się lepiej niż uproszczone modele liniowe.

7.1 Wnioski dotyczące pytań badawczych

Analiza korelacji oraz badanie ważności cech w modelu Ransom Forest wykazały, że wiek wykazały, że wiek pojazdu (rok produkcji) oraz przebieg są najsilniejszymi, negatywnimi determinami ceny. Spośród paametrów technicznych, kluczowy pozytywny wpływ na wartość rynkową wykazują moc silnika. Zauważalna jest nieliniowa zależność, gdzie wpływ przebiegu na cenę maleje wraz z wiekiem pojazdu, co potwiedzają wykresy.

Dynamika utaraty wartości nie jest jednorodna dla całego rynku. Analiza porównawcza krzywych deprecjacji ujawniła w jaki sposób samochody tracą na wartości, znalazło znaczące różnice między markami popularnymi a segmentem premium. Samochody premium, pomimo wyższej ceny początkowej, tracą na wartości bezwzględnej szybciej we wczesnych latach eksploatacji. Jednak z biegiem czasu, wraz z wiekiem, wykazują lepszą zdolność do “utrzymania ceny”, co wskazuje na rosnące znaczenie marki i prestiżu w kształtowaniu wartości wraz z wiekiem.

Przez prowadzone testy statystyczne ujawniło, że obecność elementów wyposażenia dodatkowego ( takich jak skórzana tapicerka, zaawansowane systemy multimedialne itd.) w sposób istotny statyczne różnicue średnią cenę ofertową. Obecność tych komponentów w samochodzie przyczynia się do wzrostu jego wartości rezydualnej. Jednocześnie wysokość tej premii cenowej za wyposażenie różni się znacznie w zależności od klasy samochodu: jest znacznie wyższa w przypadku samochodów premium i SUV-ów w porównaniu z segmentem aut miejskich.

Zastosowanie algorytmu Random Forest pozwoliło na uzyskanie modelu o wysokej zdolności predykcyjnej, przewyższającej tradycyjne modele regresji liniowej. Analiza pozostałości reprezentujących błędy prognozowania przyczyniła się do skutecznej identyfikacji anomalii cenowych. Oferty, dla których model przewidywał cenę znacznie wyższą niż rzeczywista, można interpretować jako potencjalne możliwości rynkowe. Model wykazał maksymalną dokładność w segmencie pojazdów o średniej cenie, natomiast w przypadku pojazdów unikatowych (z ekstremalnie wysokimi cenami lub niestandardową konfiguracją) nastąpił pewien wzrost błędu prognozowania.

7.2 Podsumowanie

Badania potwierdzają, że rynek samochodów używanych funkcjonuje sprawnie, gdzie ceny kształtują liczne wymierne czynniki. Udowodniono możliwość opracowania dokładnego narzędzia do automatycznej oceny pojazdów, uwzględniającego nie tylko podstawowe dane (wiek, przebieg), ale także charakterystykę marki i kompleksowość wyposażenia.

Analiza Rynku Samochodów Używanych

Projekt Zaliczeniowy - Data Science

Piotr Pszenny, Polina Glamozdova, Julia Kolerska

31.01.2026