Wstęp
Celem niniejszego raportu jest analiza danych dotyczących cen samochodów w Polsce. Dane zostały pozyskane z platformy Kaggle i zawierają informacje na temat różnych modeli samochodów, ich cech oraz cen rynkowych. Analiza ma na celu zrozumienie czynników wpływających na ceny samochodów oraz identyfikację wzorców i trendów w danych.
Opis danych
Zestaw danych pochodzi z jednego z największych portali ogłoszeniowych w Polsce. Zgromadzono w nim ponad 200 tysięcy ofert sprzedaży samochodów, obejmujących szeroki zakres marek, modeli, parametrów technicznych oraz informacji o stanie pojazdu.
Celem zbioru jest umożliwienie analizy cen, cech technicznych, profilu ofert i trendów rynkowych dotyczących samochodów używanych i nowych dostępnych na polskim rynku.
Pytania badawcze
- Jak przebieg pojazdu wpływa na cenę samochodów spalinowych (Diesel i Gasoline)?
- Jak kształtuje się zależność pomiędzy rokiem produkcji a ceną samochodów spalinowych, w tym występowanie minimum cenowego oraz efektu aut kolekcjonerskich?
- Jak przebieg pojazdu wpływa na cenę samochodów hybrydowych i elektrycznych?
- Jak zależność pomiędzy rokiem produkcji a ceną kształtuje się w przypadku samochodów hybrydowych i elektrycznych oraz czy w tym segmencie występuje efekt aut zabytkowych?
- Jaki jest wpływ roku produkcji, przebiegu oraz pojemności silnika na cenę samochodu przy założeniu niezmienności pozostałych cech pojazdu?
- Jak zmieniają się średnie ceny samochodów w czasie w zależności od rodzaju paliwa i które typy paliwa charakteryzują się najsilniejszym wzrostem cen?
- Które marki samochodów produkowanych po 2010 roku należą do najdroższych pod względem średniej ceny i jak duże jest zróżnicowanie cen w ich obrębie?
- Jak kształtują się zmiany średnich cen w czasie dla pięciu najdroższych marek samochodów oraz które z nich wykazują najsilniejszą dynamikę wzrostu lub spadku cen?
- Jak zmieniała się liczba rejestracji samochodów według marki w latach 1990–2022 oraz które marki odnotowały największy wzrost liczby rejestracji w 2021 roku?
2 Analiza danych
2.1 Braki danych
Na wstępie przeprowadzono wstępne przygotowanie danych do analizy.
Usunięto kolumnę ..1, która pełniła jedynie funkcję
pomocniczą (indeksową) i nie zawierała informacji istotnych z punktu
widzenia dalszych analiz. Dodatkowo zmienne fuel oraz
mark zostały przekształcone do typu czynnikowego
(factor), co umożliwia ich poprawne wykorzystanie w analizach
statystycznych oraz wizualizacjach.
Następnie oszacowano udział kompletnych obserwacji w zbiorze danych. Pozwoliło to na ogólną ocenę jakości danych oraz skalę problemu braków danych.
W danych znajduje się 90 % kompletnych wartości.
Aby dokładniej przeanalizować strukturę braków danych, zastosowano graficzną prezentację wzorców braków przy użyciu funkcji aggr() z pakietu VIM. Wykres umożliwia identyfikację zmiennych najbardziej obciążonych brakami danych oraz ocenę, czy braki występują losowo, czy też tworzą określone wzorce.
Imputacje danych
W celu umożliwienia dalszej analizy statystycznej oraz uniknięcia utraty obserwacji, przeprowadzono imputację brakujących danych z wykorzystaniem metody hot-deck. Metoda ta polega na zastępowaniu brakujących wartości obserwacjami pochodzącymi od podobnych jednostek, co pozwala zachować strukturę rozkładów zmiennych.
2.2 Walidacja danych
Reguły
Kolejnym etapem analizy była walidacja poprawności danych. W pierwszej kolejności dokonano wstępnego przeglądu wybranych zmiennych w celu oceny ich zakresów i struktury. Następnie każdej obserwacji przypisano unikalny identyfikator, co umożliwiło jednoznaczną identyfikację rekordów w procesie walidacji.
Zdefiniowano podstawowe reguły walidacyjne obejmujące nieujemne wartości ceny i przebiegu, poprawny zakres lat produkcji oraz dopuszczalne kategorie rodzaju paliwa. Zastosowanie tych reguł wykazało, że wszystkie obserwacje spełniają przyjęte warunki logiczne.
Na tej podstawie można stwierdzić, że zbiór danych jest poprawny i gotowy do dalszej analizy statystycznej oraz wizualizacji.
3 Wizualizacja Danych
W niniejszym rozdziale przeprowadzono analizę oraz wizualizację danych, których celem jest identyfikacja zależności pomiędzy kluczowymi cechami pojazdów a ich ceną rynkową. Uzyskane wyniki stanowią podstawę do formułowania wniosków oraz udzielenia odpowiedzi na postawione wcześniej pytania badawcze.
Ze względu na dużą liczebność zbioru danych oraz jego zróżnicowanie, analizę podzielono na trzy główne sekcje. W pierwszej części skoncentrowano się na pojazdach z silnikami spalinowymi, obejmującymi samochody zasilane paliwem typu Diesel oraz Gasoline. W drugiej części przeanalizowano pojazdy niskoemisyjne, tj. samochody hybrydowe oraz elektryczne, które charakteryzują się odmienną dynamiką cenową oraz krótszą historią rynkową.
Ze względu na niewielką liczebność obserwacji oraz ograniczoną porównywalność wyników, w niniejszym opracowaniu zrezygnowano ze szczegółowej analizy pojazdów zasilanych LPG oraz CNG. Ostatnia część analizy obejmuje identyfikację najdroższych marek samochodów oraz pogłębioną analizę zmian cen wybranych marek w ujęciu czasowym, co pozwala na ocenę długookresowych trendów cenowych w segmencie pojazdów premium.
3.1 Analiza Diesel + Gasoline
Wykres punktowy obrazuje relację między przebiegiem a ceną dla aut spalinowych (benzyna, diesel). Widoczna jest wyraźna ujemna korelacja, podkreślona przez opadającą linię trendu – wyższy przebieg wiąże się ze statystycznie niższą ceną. Zastosowanie skali logarytmicznej uwydatnia dużą zmienność cen, szczególnie wśród aut o niskim przebiegu (lewa strona wykresu), gdzie odnotowano zarówno modele tanie, jak i luksusowe egzemplarze o wartości powyżej 2 mln USD.
Wykres punktowy z naniesioną krzywą lokalnej regresji (LOESS) ukazuje wyraźnie nieliniową charakterystykę zmian cen w czasie. Rozkład punktów oraz kształt zielonej krzywej trendu wskazują na trzy fazy rynkowe:
Wzrost wykładniczy dla aut nowych: Dla roczników po 2010 roku obserwujemy gwałtowny wzrost cen, osiągający dla najnowszych modeli wartości maksymalne (często powyżej 1-2 mln USD dla marek premium).
Minimum cenowe: Najniższe wyceny dotyczą samochodów z lat 90. i wczesnych 2000. (wiek ok. 20–30 lat) – jest to moment, w którym auto jest postrzegane jako stare, ale jeszcze nie zabytkowe.
Efekt aut kolekcjonerskich: W przypadku pojazdów wyprodukowanych przed 1980 rokiem trend się odwraca – ceny rosną, a niektóre egzemplarze (klasyki) osiągają wartości porównywalne z nowymi autami luksusowymi.
Wniosek: Ceny samochodów nie spadają liniowo. Po okresie gwałtownej utraty wartości (deprecjacji), następuje stabilizacja, a w przypadku aut najstarszych – ponowny wzrost wartości (aprecjacja) wynikający z ich statusu zabytkowego.
3.2 Analiza Hybrid + Electric
Wykres obrazuje relację ceny do przebiegu dla pojazdów niskoemisyjnych. Podobnie jak w przypadku aut spalinowych, widoczna jest ujemna korelacja (czerwona linia trendu opada), jednak struktura danych jest odmienna. Ze względu na fakt, że technologie te są młodsze na rynku, próba badawcza jest mocniej skoncentrowana w obszarze niższych i średnich przebiegów.
Przebieg pozostaje istotnym czynnikiem cenotwórczym również dla aut elektrycznych i hybrydowych. Mniejsza liczba punktów w skrajnie prawej części wykresu potwierdza, że rynek wtórny tych pojazdów jest wciąż w fazie rozwoju i brakuje na nim aut bardzo mocno wyeksploatowanych.
Wykres punktowy dla pojazdów niskoemisyjnych ukazuje zupełnie inną strukturę rynku niż w przypadku aut tradycyjnych. Krzywa trendu (LOESS) wskazuje na wykładniczy wzrost cen wraz z nowszym rocznikiem, jednak historia tych pojazdów w bazie zaczyna się realnie dopiero w okolicach 2005 roku.
Brak efektu aut zabytkowych: W przeciwieństwie do silników spalinowych, tutaj nie występuje zjawisko wzrostu wartości dla najstarszych roczników. Starsze hybrydy/elektryki (sprzed 2010 r.) są po prostu tanie, co wynika prawdopodobnie z przestarzałej technologii bateryjnej i obaw o ich żywotność.
Rosnące rozwarstwienie cenowe: Dla roczników po 2015 roku obserwujemy ogromną wariancję cen (tzw. efekt wachlarza). Na rynku dostępne są zarówno relatywnie tanie hybrydy miejskie, jak i luksusowe modele elektryczne osiągające ceny rzędu 800 tys. USD, co sugeruje, że segment ten stał się bardzo zróżnicowany.
W segmencie aut elektrycznych i hybrydowych wiek pojazdu jest krytycznym czynnikiem cenotwórczym. Utrata wartości starszych modeli jest głębsza i nieodwracalna, co wiąże się z szybkim postępem technologicznym w tej dziedzinie.
3.3 Analiza ogólna cen i czynników wpływających na cene
Analiza statystyczna dla wpływu roku, przebiegu i mocy silnika na cene
| (1) | |
|---|---|
| (Intercept) | -13146835.619 |
| (85287.651) | |
| year | 6534.596 |
| (42.233) | |
| mileage | -0.286 |
| (0.003) | |
| vol_engine | 57.294 |
| (0.260) | |
| Num.Obs. | 117927 |
| R2 | 0.561 |
| R2 Adj. | 0.561 |
| AIC | 2914209.2 |
| BIC | 2914257.6 |
| Log.Lik. | -1457099.581 |
| F | 50177.999 |
| RMSE | 56218.82 |
Przy pozostałych zmiennych stałych (ceteris paribus), wzrost roku produkcji pojazdu o jeden rok wiąże się ze wzrostem przeciętnej ceny samochodu o około 6 535 PLN.
Zwiększenie przebiegu pojazdu o jeden kilometr powoduje przeciętny spadek ceny o około 0,29 PLN, co oznacza obniżenie wartości pojazdu o około 290 PLN przy wzroście przebiegu o 1 000 km.
Z kolei wzrost pojemności silnika o jedną jednostkę prowadzi do przeciętnego wzrostu ceny samochodu o około 57 PLN.
Model wyjaśnia około 56% zróżnicowania cen samochodów, co wskazuje na dobre dopasowanie przy uwzględnieniu podstawowych cech technicznych pojazdu. Wszystkie powyższe efekty należy interpretować przy założeniu niezmienności pozostałych cech pojazdu.
Macierz korelacji przedstawia siłę i kierunek zależności liniowych pomiędzy analizowanymi zmiennymi. Najwyższą dodatnią korelację obserwujemy między ceną a rokiem produkcji (r = 0,60), co oznacza, że nowsze samochody są przeciętnie droższe. Z kolei najsilniejsza ujemna korelacja występuje między rokiem produkcji a przebiegiem (r = −0,73), co wskazuje, że starsze pojazdy mają zwykle większy przebieg, co jest zgodne z intuicją.
Dodatkowo cena jest umiarkowanie ujemnie skorelowana z przebiegiem (r = −0,54), co potwierdza, że większa eksploatacja obniża wartość rynkową pojazdu. Natomiast pojemność silnika (vol_engine) wykazuje jedynie słabe związki z pozostałymi zmiennymi (np. z ceną r = 0,30), co sugeruje, że w tym zbiorze danych nie jest ona czynnikiem silnie powiązanym liniowo ani z wiekiem, ani z przebiegiem.
Wykres przedstawia zmiany średniej ceny samochodów w czasie w podziale na rodzaj paliwa. Dla wszystkich analizowanych typów paliwa obserwowany jest ogólny trend wzrostowy cen, szczególnie widoczny w ostatnich latach okresu badawczego.
Najsilniejszy wzrost średnich cen dotyczy samochodów z silnikami Diesel oraz Electric, co wskazuje na rosnącą wartość pojazdów wysokoprężnych oraz elektrycznych na rynku. Pozostałe typy paliwa również wykazują wzrost cen, jednak o wyraźnie mniejszej dynamice.
| mark | Srednia cena (PLN) | Mediana ceny (PLN) | Najdrozszy egzemplarz (PLN) | Najtanszy egzemplarz (PLN) | Liczba ofert |
|---|---|---|---|---|---|
| mercedes-benz | 194919 | 155000 | 2399900 | 9225 | 4683 |
| bmw | 168428 | 122987 | 1100000 | 2700 | 7537 |
| audi | 153631 | 117500 | 1100000 | 2000 | 7533 |
| volvo | 135056 | 128500 | 489500 | 13500 | 3456 |
| alfa-romeo | 97640 | 51900 | 446890 | 10200 | 465 |
| mini | 95559 | 94900 | 245800 | 16900 | 769 |
| volkswagen | 86329 | 67000 | 535851 | 4900 | 7026 |
| honda | 78468 | 66999 | 201900 | 15900 | 1143 |
| mazda | 74675 | 69900 | 199592 | 9999 | 2008 |
| skoda | 71106 | 57900 | 999999 | 4500 | 4916 |
| toyota | 68653 | 59900 | 665000 | 900 | 3613 |
| kia | 67405 | 59490 | 270000 | 8999 | 3162 |
| ford | 66414 | 48900 | 849000 | 7990 | 6774 |
| mitsubishi | 63459 | 52490 | 225029 | 8400 | 819 |
| peugeot | 59431 | 42800 | 311100 | 8200 | 3744 |
| hyundai | 58307 | 49900 | 219200 | 9900 | 3685 |
| nissan | 58014 | 47500 | 279000 | 8950 | 2375 |
| renault | 57710 | 48000 | 284000 | 4800 | 4970 |
| seat | 56669 | 48250 | 195000 | 6000 | 1746 |
| fiat | 49612 | 45000 | 389950 | 4999 | 2076 |
| opel | 47313 | 39900 | 999999 | 4700 | 7595 |
| chevrolet | 44964 | 24900 | 554900 | 7900 | 516 |
| citroen | 43092 | 36900 | 197900 | 9900 | 1837 |
Analizę przeprowadzono dla samochodów wyprodukowanych po 2010 roku, obliczając podstawowe statystyki cen w podziale na markę pojazdu. Wyniki wskazują na wyraźne zróżnicowanie cen pomiędzy markami.
Najwyższą średnią ceną charakteryzują się marki Mercedes-Benz, BMW, Audi, Volvo oraz Alfa Romeo, co odzwierciedla ich pozycję w wyższych segmentach rynku. W przypadku tych marek obserwuje się również dużą rozpiętość cen, obejmującą zarówno pojazdy relatywnie tanie, jak i bardzo drogie modele.
Na podstawie średniej ceny wybrano pięć najdroższych marek, dla których w dalszej części analizy zostanie zbadana zmiana cen w kolejnych latach, co pozwoli ocenić długookresowe trendy cenowe.
Na wykresie przedstawiono wykres pudełkowy (boxplot) rozkładu cen dla wybranych marek samochodów. Boxplot ilustruje medianę ceny, rozstęp międzykwartylowy (IQR) oraz wartości odstające, co pozwala na porównanie poziomu cen i ich zróżnicowania pomiędzy markami.
Marki Mercedes-Benz, BMW oraz Audi charakteryzują się wyższą medianą cen oraz większą zmiennością, co potwierdza ich pozycję w segmencie premium. W przypadku Mercedes-Benz widoczna jest również największa liczba obserwacji odstających, sięgających cen powyżej 2 mln PLN, co wskazuje na obecność bardzo drogich, luksusowych modeli.
Z kolei Alfa Romeo prezentuje relatywnie niższe ceny oraz mniejszy rozrzut, natomiast Volvo zajmuje pozycję pośrednią, z umiarkowaną medianą i zauważalnym, choć mniejszym, zróżnicowaniem cen.
Wykres umożliwia jednoznaczne porównanie rozkładów cen pomiędzy markami oraz identyfikację marek o największej zmienności i liczbie obserwacji odstających.
W analizowanym okresie dla wszystkich marek obserwowany jest wzrost średnich cen, jednak największą dynamiką wzrostu w ostatnich latach charakteryzuje się marka Alfa Romeo, dla której średnia cena wyraźnie przyspiesza pod koniec próby.
Jednocześnie w przypadku marki Volvo widoczny jest wyraźny spadek średniej ceny w końcowych latach analizy, co może wskazywać na zmianę struktury oferowanych modeli, większy udział tańszych pojazdów lub krótkookresowe wahania rynkowe.
Na wykresie przedstawiono liczbę rejestracji samochodów według marki w latach od 1990 roku. Dla wszystkich analizowanych marek widoczny jest wyraźny pik liczby rejestracji w 2021 roku, co wskazuje na skokowy wzrost liczby nowych rejestracji w okresie COVID.
Najsilniejszy wzrost odnotowano dla marki BMW, dla której liczba rejestracji osiągnęła 1745, oraz dla marki Audi, gdzie liczba rejestracji wyniosła 1262. Pozostałe marki również wykazują zwiększoną aktywność w 2021 roku, jednak na niższym poziomie.
4 Testy Statystyczne
W celu oceny istotności wpływu roku produkcji, przebiegu oraz pojemności silnika na cenę samochodu, przeprowadzono analizę regresji liniowej wielorakiej. Model ten pozwala na jednoczesne uwzględnienie kilku zmiennych niezależnych i ocenę ich wpływu na zmienną zależną (cenę).
Na podstawie przeprowadzonego testu porównania cen samochodów względem rodzaju paliwa stwierdzono, że rodzaj paliwa ma statystycznie istotny wpływ na cenę pojazdu (p < 0,001). Oznacza to, że obserwowane różnice cen pomiędzy grupami paliwowymi nie są dziełem przypadku.
Wielkość efektu jest bardzo wysoka (η²ₚ = 0,97), co wskazuje, że rodzaj paliwa wyjaśnia około 97% zróżnicowania cen samochodów w analizowanym zbiorze danych. Świadczy to o istotności praktycznej wyniku, a nie jedynie istotności statystycznej.
Dodatkowo, przedział ufności dla miary efektu jest bardzo wąski i mieści się w zakresie [0,97; 1,00], co potwierdza wysoką precyzję oszacowania oraz stabilność uzyskanych wyników.
Podsumowując, rodzaj paliwa stanowi jeden z kluczowych czynników różnicujących ceny samochodów, a jego wpływ ma zarówno znaczenie statystyczne, jak i praktyczne
Na podstawie przeprowadzonego testu stwierdzono, że marka samochodu z segmentu premium ma statystycznie istotny wpływ na jego cenę (p < 0,001). Oznacza to, że różnice cen pomiędzy analizowanymi markami nie są przypadkowe.
Jednocześnie wielkość efektu jest relatywnie niewielka (η²ₚ = 0,10), co wskazuje, że marka wyjaśnia jedynie około 10% zróżnicowania cen w badanym zbiorze danych. Dodatkowo, przedział ufności dla miary efektu jest szeroki i obejmuje zakres od 0,09 do 1,00, co sugeruje umiarkowaną precyzję oszacowania.
Wyniki te wskazują, że choć marka premium istotnie różnicuje ceny samochodów w sensie statystycznym, jej rzeczywisty wpływ praktyczny jest ograniczony, a ceny w dużej mierze determinowane są również przez inne czynniki, takie jak rok produkcji, przebieg czy parametry techniczne pojazdu.
Zastosowano jednoczynnikową analizę wariancji (ANOVA) w celu oceny wpływu rodzaju paliwa, przebiegu oraz roku produkcji na cenę samochodu. Wyniki wskazują, że wszystkie trzy czynniki mają statystycznie istotny wpływ na cenę pojazdu (p < 0,001).
Analiza wielkości efektu pokazuje jednak istotne różnice w sile oddziaływania poszczególnych zmiennych. Najsilniejszy wpływ na cenę ma przebieg pojazdu (η²ₚ = 0,33), co oznacza, że wyjaśnia on około 33% zróżnicowania cen w badanym zbiorze. Rodzaj paliwa (η²ₚ = 0,09) oraz rok produkcji (η²ₚ = 0,08) wykazują wpływ istotny statystycznie, lecz o wyraźnie mniejszej sile praktycznej.
Otrzymane wyniki sugerują, że choć wszystkie analizowane czynniki są ważne z punktu widzenia statystyki, to przebieg pojazdu odgrywa kluczową rolę w kształtowaniu ceny samochodu, podczas gdy rodzaj paliwa i rok produkcji mają znaczenie uzupełniające.
W poprzednich analizach zaobserwowano wyraźny wzrost liczby rejestracji samochodów w 2021 roku. W celu sprawdzenia, czy różnica ta jest statystycznie istotna w porównaniu do pozostałych lat, zastosowano nieparametryczny test Manna–Whitneya, odpowiedni ze względu na brak normalności rozkładów.
Wyniki testu wskazują na istotną statystycznie różnicę w liczbie rejestracji samochodów pomiędzy rokiem 2021 a pozostałymi latami (p < 0,001). Oznacza to, że obserwowany wzrost liczby rejestracji w 2021 roku nie ma charakteru losowego i stanowi istotne odchylenie od wcześniejszych trendów.
Dodatkowo wielkość efektu na poziomie 0,50 wskazuje na umiarkowanie silny efekt praktyczny, co potwierdza, że różnica ma również znaczenie merytoryczne, a nie wyłącznie statystyczne. Wyniki te potwierdzają wyjątkowy charakter roku 2021 na rynku rejestracji samochodów.
5 Wnioski
Na podstawie przeprowadzonej analizy danych udało się udzielić odpowiedzi na wszystkie postawione pytania badawcze oraz zidentyfikować kluczowe czynniki wpływające na kształtowanie się cen samochodów na polskim rynku.
Przeprowadzona analiza danych pozwoliła zidentyfikować kluczowe czynniki wpływające na ceny samochodów na polskim rynku. Jednym z najistotniejszych determinantów ceny okazał się przebieg pojazdu, który wykazuje wyraźną ujemną zależność z ceną zarówno w segmencie samochodów spalinowych, jak i hybrydowych oraz elektrycznych. Wraz ze wzrostem przebiegu wartość pojazdu systematycznie maleje.
Analiza zależności pomiędzy rokiem produkcji a ceną wykazała nieliniowy charakter deprecjacji samochodów. W przypadku pojazdów spalinowych po okresie spadku wartości występuje efekt wzrostu cen dla najstarszych modeli o charakterze kolekcjonerskim. Zjawisko to nie występuje w segmencie pojazdów hybrydowych i elektrycznych, gdzie starsze modele tracą na wartości w sposób trwały, co wynika z szybkiego postępu technologicznego.
Wyniki modelu regresji potwierdziły, że rok produkcji, przebieg oraz pojemność silnika mają istotny wpływ na cenę samochodu, przy czym model wyjaśnia znaczną część zróżnicowania cen pojazdów. Dodatkowo zaobserwowano, że rodzaj paliwa różnicuje dynamikę cen, a najsilniejszy wzrost średnich cen dotyczy pojazdów z silnikami wysokoprężnymi oraz elektrycznymi.
Analiza marek wykazała wyraźne zróżnicowanie cenowe, z dominacją marek premium takich jak Mercedes-Benz, BMW, Audi, Volvo oraz Alfa Romeo. W ostatnich latach największą dynamikę wzrostu cen odnotowano dla marki Alfa Romeo, natomiast w przypadku Volvo zaobserwowano spadek średnich cen w końcowym okresie analizy. Dodatkowo analiza liczby rejestracji wskazała na wyraźny wzrost aktywności rynkowej w 2021 roku, szczególnie dla marek BMW oraz Audi.
Podsumowując, ceny samochodów kształtowane są przez kombinację cech technicznych, wieku pojazdu, rodzaju napędu oraz uwarunkowań rynkowych, a ich wpływ różni się pomiędzy segmentami rynku.