Niniejszy dokument opisuje projekt zespołowy dotyczący analizy danych przy użycia języka R. Projekt obejmuje zbieranie, przetwarzanie, analizę oraz wizualizację danych. Jego celem jest porównawcza analiza cenowa i predykcja wartości samochodów premium na polskim rynku wtórnym.
Dane do analizy pozyskano ze strony: https://www.kaggle.com/datasets/bartoszpieniak/poland-cars-for-sale-dataset.
Analizę ograniczono do samochodów marek BMW i Mercedes-Benz, co wynika z konieczności zapewnienia wysokiej jakości statystycznej danych. Szeroki zakres wszystkich marek (~200k obserwacji, 20+ brandów) wprowadza znaczną heteroskedastyczność (różną wariancję reszt w modelach regresji) oraz nadmiar obserwacji odstających, co destabilizuje estymatory i obniża moc testów hipotez. Aby analizowane wartosci były bardziej miarodajne do badania posłużyły ogłoszenia dla samochodów używanych.
Index - unikalny identyfikator ogłoszenia
Price - cena samochodu
Currency - waluta, w której podana jest cena
Condition - stan samochodu (nowy/używany)
Vehicle_brand - marka samochodu
Vehicle_model - model samochodu
Vehicle_version - wersja samochodu
Vehicle__generation - generacja samochodu
Production_year - rok produkcji samochodu
Mileage__km - przebieg samochodu w kilometrach
Power_HP - moc samochodu w koniach mechanicznych
Displacement__cm3 - pojemność silnika w centymetrach
sześciennych
Fuel_type - rodzaj paliwa
CO2_emission - emisja CO2 w gramach na kilometr
Drive - typ napędu
Transmission - rodzaj skrzyni biegów
Type - typ nadwozia
Doors_nuber1 - liczba drzwi
Colour - kolor samochodu
Orgin_country - kraj pochodzenia
First_owner - czy właściciel jest pierwszym
właścicielem
First_registration_date - data pierwszej rejestracji
Offer_publication_date - data publikacji ogłoszenia
Offer_location - lokalizacja oferty
Features - cechy dodatkowe samochodu
W tej części definiujemy hipotezy, które będą weryfikowane w dalszej analizie eksploracyjnej oraz modelowaniu.
H1 (Cena a przebieg)
Samochody BMW i Mercedes z większym przebiegiem mają istotnie niższą
cenę niż z mniejszym przebiegiem, z potencjalnie silniejszą zależnością
u Mercedes. Weryfikacja: analiza zależności między zmiennymi
Price i Mileage_km (wykresy rozrzutu,
korelacja, model regresji).
H2 (Cena a rok produkcji)
Nowsze modele BMW i Mercedes są droższe niż starsze, przy czym BMW może
szybciej tracić na wartości w porównaniu do Mercedes. Weryfikacja:
analiza związku Price z Production_year
(przedziały roczników, wykresy pudełkowe, modele regresji).
H3 (Typ nadwozia a cena)
W segmencie BMW i Mercedes SUV-y/crossovery są droższe niż
sedany/hatchbacki, z różnicami między markami (np. większe premiowanie
SUV-ów u BMW). Weryfikacja: porównanie rozkładów
Pricemiędzy kategoriami zmiennej Type
(boxploty, testy różnic średnich / ANOVA).
H4 (Skrzynia biegów a cena)
Samochody BMW i Mercedes z automatyczną skrzynią biegów są średnio
droższe niż samochody z manualną skrzynią biegów (mocniej dla Mercedesa)
Weryfikacja: porównanie cen w dwóch grupach (Transmission =
automat vs manual) z użyciem odpowiednich testów statystycznych i
wizualizacji - proponowane wykorzystanie t-test lub Wilcoxon Price ~
Transmission w podzbiorach marek, wizualizacja violin plots.
H5 (Pierwszy właściciel a cena)
BMW i Mercedes od pierwszego właściciela są droższe, z większą premią u
Mercedes ze względu na prestiż. Weryfikacja: porównanie cen dla zmiennej
First_owner (tak vs nie) z wykorzystaniem wykresów oraz
testów różnic średnich.
H6 (Napęd a cena)
Samochody BMW i Mercedes z napędem na cztery koła (4x4) są średnio
droższe niż samochody z napędem na jedną oś, przy porównywalnych
pozostałych parametrach, szczególnie w modelach BMW. Weryfikacja:
porównanie rozkładów ceny pomiędzy kategoriami zmiennej
Drive (np. FWD, RWD, 4x4) z uwzględnieniem innych cech w
modelu (m.in. Power_HP, Production_year), np.
regresja Price ~ Drive *
Vehicle_brand + Power_HP +
Production_year
H7 (Moc silnika a cena)
Wyższa moc (Power_HP) koreluje z ceną w obu markach po kontroli
przebiegu i roku, z silniejszą relacją u BMW sportowych modeli.
Weryfikacja: model regresji z ceną jako zmienną zależną i
Power_HP, Mileage_km,
Production_year jako głównymi zmiennymi objaśniającymi.
H8 (Paliwo a cena – BMW vs Mercedes) Hybrydy i
elektryki BMW/Mercedes są droższe niż diesle/benzyna przy porównywalnym
przebiegu i roku, z większą premią u Mercedes (ekoprestiż). Weryfikacja:
boxplot Price ~ Fuel_type *
Vehicle_brand, regresja z kontrolą Mileage_km
+ Production_year.
H9 (Kolor a cena – premium psychologia) Popularne
kolory kojarzone z markami premium (czarny, szary, biały) osiągają
wyższe ceny niż mniej typowe (czerwony, zielony), mocniej u Mercedes.
Weryfikacja: violin plot Price ~ Coluor *
Vehicle_brand, ANOVA z TukeyHSD post-hoc.
H10 (Trwałość marki – cena/km) Mercedes ma wyższy
stosunek Price/Mileage_km niż BMW (lepsza
wartość rezydualna) dla aut >10 lat. Weryfikacja: cena_per_km <-
Price / Mileage_km, boxplot po grupach
Production_year + marka, t-test.
H11 (Cena a moc i lokalizacja – BMW vs Mercedes
(województwa)) Średnia moc silnika Power_HP BMW i
Mercedesa jest wyższa w regionach o wyższej średniej cenie
Price ofert.
W tym rozdziale opisano proces porządkowania danych, w tym obsługę braków danych, transformacje zmiennych oraz usuwanie obserwacji odstających. Podjęte zdiałania mają na celu przygotowanie danych do dalszej analizy opisowej i testowania statystycznego.
Pierszym krokiem będzie identyfikacja zmiennych, które zawierają
braki. Za pomocą funkcji aggr z pakietu VIM
utworzono wykres pokazujący braki danych w poszczególnych zmiennych.
Wykres pokazuje bardzo duże braki w zmiennej
CO2_emissions, która nie jest parametrem kluczowym dla
naszych analiz, dlatego zostanie usunięta z dalszej analizy. Pozostałe
zmienne z brakami danych będą poddane dalszej analizie w celu
określenia, czy braki są losowe, czy systematyczne.
Następnie, za pomocą funkcji geom_miss_point z pakietu
naniar, wizualizujemy braki danych w dwóch kluczowych
zmiennych: Displacement_cm3 i Power_HP.
Pozwoli to ocenić, czy braki w tych zmiennych są powiązane ze sobą lub z
innymi cechami danych.
Na podstawie wykresu możemy zauważyć występowanie liniowej zależności
między zmiennymi Displacement_cm3 i Power_HP,
dlatego braki w danych zostały uzupełnione za pomocą metody
mice. Po wykonanej implementacji danych sprawdzamy za
pomocą takiego samego wykresu, czy wszystkie braki dla wymienionych
zmiennych zostały wyeliminowane.
Dla pozostałych zmiennych, wktórych występowały braki danych również
zastosowano metodę mice, zmienna Mileage
została wyestymowana za pomocą zależności od zmiennych:
Production_yea oraz Power_HP, natomiast
zmienna Doors_number na podstawie zmiennej
Type.
Na koniec sprawdzono czy wszystkie braki danych zostały usunięte.
W celu eliminacji obserwacji odstających, które mogą zniekształcić wyniki analizy, przeprowadzono walidację danych dla kluczowych zmiennych. Poniżej przedstawiono przyjęte kryteria walidacji:
Price - powinna być większa od 0.
Mileage_km - musi być liczbą nieujemną i mniejsze od
999999 km.
Production_year - musi być liczbą całkowitą mieszczącą
się w rozsądnym zakresie od 1886 do 2025r.
Power_HP - musi być liczbą większą niż 1.
Displacement_cm3 - musi być liczbą większą niż 1.
Doors_number - musi być liczbą całkowitą z przedziału
1-6.
Poniższa tabela przedstawia liczebności obserwacji spełniających oraz niespełnijących powyższe kryteria:
| Reguła | Łącznie | Spełnione | Niespełnione |
|---|---|---|---|
| V1 | 208304 | 208304 | 0 |
| V2 | 208304 | 208304 | 0 |
| V3 | 208304 | 208304 | 0 |
| V4 | 208304 | 208260 | 44 |
| V5 | 208304 | 208251 | 53 |
| V6 | 208304 | 208304 | 0 |
| V7 | 208304 | 208291 | 13 |
Zmienne niespełniające kryteria walidacji zostały oznaczone jako braki danych (NA). Natępnie przeprowadzono kolejną walidację dla nowych braków zmiennych analogicznie jak w kroku 2.1.
Po walidacji sprawdzono czy wszystkie braki danych zostały usunięte.
Finalna procentowa zawartość danych bez braków: 100 %
Ostatecznie mamy dane, które spełniają kryteria walidacji i nie zawierają braków danych. Możemy przejść do dalszej analizy danych. Dla uzyskanych danych wybieramy marki Mercedes i BMW do dalszej analizy.
Poniżej przedstawiono główne statystyki opisowe dla zmiennych numerycznych w zbiorze danych. Statystyki dotyczą używanych samochodów marek BMW oraz Mercedes Benz. Poniżej przedstawiono tabelę zawierającą liczebność próby, średnie wartości kluczonych zmiennych.
| Marka | Liczba ogłoszeń | Średnia | SD | Min | Q1 | Mediana | Q3 | Max |
|---|---|---|---|---|---|---|---|---|
| BMW | 15150 | 78 568 | 100 574 | 1 300 | 24 500 | 51 900 | 99 000 | 6 999 000 |
| Mercedes-Benz | 10928 | 91 710 | 111 847 | 1 000 | 22 500 | 52 500 | 120 824 | 1 398 999 |
W tabeli widać, że po czyszczeniu danych liczba ogłoszeń
aut używanych jest większa dla BMW (n = 15168)niż dla
Mercedes-Benz (n = 10983), co sugeruje większą
reprezentację BMW w tej próbce.
Średnia cena Mercedesa jest wyższa (91645)
niż BMW (78490), ale jednocześnie mediany są do siebie
bardzo zbliżone (52500 vs 51800), co wskazuje, że „typowa”
oferta w obu markach kosztuje podobnie, a różnica w średniej wynika
raczej z droższych, nietypowych ogłoszeń.
Rozrzut cen jest duży w obu markach
(SD ok. 100–112 tys.), a skrajne wartości mocno podbijają
zmienność: szczególnie w BMW widać bardzo wysoki maks
(6999000) przy niskim minimum (500).
Kwartyle pokazują też, że górna część rozkładu jest
droższa dla Mercedesa: Q3 to 120649,5 wobec
99000 dla BMW, czyli 25% najdroższych Mercedesów zaczyna
się wyżej niż 25% najdroższych BMW
Cena a przebieg)Wyniki dla aut używanych (po odcięciu górnego 1% wartości
Price i Mileage_km w obrębie każdej marki)
wspierają hipotezę H1: wraz ze wzrostem przebiegu cena spada, co widać
po wyraźnie opadającej linii trendu w obu panelach (BMW i
Mercedes-Benz). Zależność tę potwierdza także
współczynnik korelacji Pearsona między przebiegiem a ceną,
który jest ujemny dla obu marek (BMW: r ≈ −0.67,
Mercedes-Benz: r ≈ −0.61), co oznacza, że większy przebieg
wiąże się przeciętnie z niższą ceną (nieco silniej w BMW).
Z tabeli wynika, że „typowe” ceny są bardzo zbliżone
(mediany ok. 52 tys. PLN dla obu marek), ale
Mercedes ma wyżej położoną górną część rozkładu cen (Q3
wyższe niż w BMW), co widać też w większej liczbie droższych punktów
przy mniejszych przebiegach.
Na wykresie widać również skośność cen: większość
obserwacji skupia się przy niższych poziomach cen, a jednocześnie
występuje „ogon” droższych ofert (zwłaszcza przy niskich przebiegach),
co jest typowym obrazem prawostronnie skośnego rozkładu cen i tłumaczy,
dlaczego średnia bywa wyższa od mediany.
Cena a rok produkcji)| Marka | Rok grupy | Liczba | Średnia | Q1 | Mediana | Q3 |
|---|---|---|---|---|---|---|
| BMW | 96–00 | 393 | 16 253 | 6 990 | 11 500 | 20 000 |
| BMW | 01–05 | 1 433 | 17 680 | 8 900 | 13 900 | 22 500 |
| BMW | 06–10 | 3 825 | 28 043 | 18 500 | 23 800 | 30 900 |
| BMW | 11–15 | 4 120 | 60 804 | 39 969 | 53 900 | 71 999 |
| BMW | 16–20 | 4 391 | 128 356 | 79 900 | 109 900 | 163 590 |
| BMW | 21–24 | 670 | 216 332 | 159 900 | 199 900 | 259 900 |
| Mercedes-Benz | 96–00 | 380 | 29 587 | 7 952 | 16 000 | 42 600 |
| Mercedes-Benz | 01–05 | 1 347 | 21 395 | 8 900 | 14 900 | 22 200 |
| Mercedes-Benz | 06–10 | 2 597 | 34 157 | 16 900 | 26 900 | 39 900 |
| Mercedes-Benz | 11–15 | 2 236 | 71 883 | 42 000 | 57 350 | 84 900 |
| Mercedes-Benz | 16–20 | 2 839 | 153 661 | 93 900 | 135 000 | 186 050 |
| Mercedes-Benz | 21–24 | 516 | 226 295 | 160 490 | 199 900 | 279 900 |
Dla aut używanych (BMW i Mercedes-Benz) porównano
ceny w przedziałach rocznika produkcji, a do analizy
przyjęto ten sam zakres co na wykresie (ceny ograniczone do 450000
PLN).
Z tabeli widać konsekwentny
wzrost cen wraz z nowszym rokiem produkcji, co wspiera
hipotezę H2: w BMW mediana rośnie od 10900 PLN (96–00) do 219900 PLN
(21–24), a w Mercedes-Benz od 12900 PLN (96–00) do 229900 PLN (21–24).
Podobny wzrost widać też w kwartylach (Q1 i Q3), czyli cały „środek”
rozkładu cen przesuwa się w górę w nowszych rocznikach.
Boxploty potwierdzają te obserwacje wizualnie: mediany w kolejnych
grupach rocznika układają się „schodkowo” coraz wyżej, a
rozrzut jest większy w nowszych przedziałach (16–20 i
21–24), co sugeruje
większą różnorodność cen w nowszych autach (różne
wersje/wyposażenia).
Typ nadwozia a cena)Weryfikacja: porównanie rozkładów Pricemiędzy
kategoriami zmiennej Type
| Marka | Typ nadwozia | Liczba | Średnia | Q1 | Mediana | Q3 |
|---|---|---|---|---|---|---|
| BMW | SUV | 3 090 | 101 069 | 43 900 | 79 900 | 139 900 |
| BMW | coupe | 1 106 | 91 677 | 35 900 | 76 950 | 121 500 |
| BMW | city_cars | 292 | 76 192 | 21 498 | 70 450 | 109 118 |
| BMW | small_cars | 34 | 70 598 | 48 500 | 64 900 | 92 625 |
| BMW | minivan | 182 | 67 805 | 51 925 | 63 572 | 77 975 |
| BMW | sedan | 5 370 | 73 048 | 22 900 | 51 000 | 94 900 |
| BMW | convertible | 326 | 66 046 | 29 900 | 47 200 | 84 975 |
| BMW | station_wagon | 2 969 | 49 656 | 19 900 | 32 900 | 61 700 |
| BMW | compact | 1 584 | 44 467 | 17 000 | 24 900 | 55 900 |
| Mercedes-Benz | SUV | 1 545 | 131 325 | 59 000 | 116 000 | 179 900 |
| Mercedes-Benz | convertible | 524 | 91 020 | 39 900 | 66 500 | 100 000 |
| Mercedes-Benz | coupe | 1 190 | 94 181 | 25 475 | 58 850 | 133 884 |
| Mercedes-Benz | sedan | 3 724 | 77 167 | 22 900 | 48 542 | 106 000 |
| Mercedes-Benz | minivan | 692 | 75 288 | 22 900 | 46 900 | 102 356 |
| Mercedes-Benz | station_wagon | 1 493 | 56 910 | 18 900 | 36 600 | 73 000 |
| Mercedes-Benz | compact | 1 113 | 51 351 | 14 700 | 24 999 | 70 110 |
| Mercedes-Benz | city_cars | 352 | 21 356 | 7 875 | 11 900 | 19 925 |
| Mercedes-Benz | small_cars | 38 | 19 900 | 5 118 | 9 450 | 15 675 |
Wyniki dla aut używanych (Price ≤ 400000) pokazują, że cena
różni się między typami nadwozia, co jest zgodne z hipotezą
H3. Zarówno na boxplotach, jak i w tabeli kwartylowej widać, że
SUV ma najwyższą medianę ceny w obu markach: BMW 79900 PLN,
Mercedes-Benz 115945 PLN.
W porównaniu do popularnych segmentów „bardziej codziennych” SUV-y są wyraźnie wyżej wyceniane:
dla BMW mediana SUV (79900) jest wyższa niż dla compact (24900) i sedana
(51000), a dla Mercedesa SUV (115945) jest wyższy niż compact (24900) i
sedan (485875). To bezpośrednio wspiera tezę H3 o przewadze cenowej
SUV-ów nad hatchbackami/kompaktami i sedanami.
Warto też zauważyć, że
rozrzut cen (Q1–Q3) dla SUV jest szeroki, co widać na
wysokości pudełek na wykresie i sugeruje
duże zróżnicowanie ofert w tym typie (różne roczniki,
wersje i wyposażenie).
Skrzynia biegów a cena)Weryfikacja: porównanie cen Price w dwóch grupach
(Transmission = automat vs manual) z użyciem odpowiednich
testów statystycznych i wizualizacji
| Marka | Skrzynia biegów | Liczba | Średnia | Q1 | Mediana | Q3 |
|---|---|---|---|---|---|---|
| BMW | Automatic | 9 455 | 97 287 | 46 900 | 78 900 | 131 900 |
| BMW | Manual | 5 435 | 29 276 | 16 500 | 23 400 | 36 900 |
| Mercedes-Benz | Automatic | 7 753 | 98 214 | 34 900 | 73 900 | 139 900 |
| Mercedes-Benz | Manual | 2 884 | 30 667 | 11 900 | 19 900 | 38 500 |
Na wykresie violin oraz w tabeli kwartylowej widać, że w
obu markach
rozkład cen dla aut z automatem jest przesunięty w górę względem manuali
(Price ≤ 400000). Dla BMW mediana automatu to 78900 PLN, a
manuala 23300 PLN (różnica median 55600 PLN), natomiast dla
Mercedes-Benz odpowiednio 73900 PLN vs
19900 PLN (różnica 54000 PLN). Wniosek wspiera hipotezę H4
na poziomie opisu danych, przy czym obserwowana różnica może wynikać
także z tego, że automaty częściej występują w droższych konfiguracjach
(np. nowsze roczniki/wyższe wersje), a nie wyłącznie z samego typu
skrzyni.
Pierwszy właściciel a cena)Weryfikacja: porównanie Price dla zmiennej
First_owner (tak vs nie) z wykorzystaniem wykresów oraz
testów różnic średnich.
| Marka | Pierwszy właściciel | Liczba | Średnia | Q1 | Mediana | Q3 |
|---|---|---|---|---|---|---|
| BMW | Nie | 10 515 | 57 557 | 20 900 | 38 900 | 72 900 |
| BMW | Tak | 4 438 | 107 512 | 49 900 | 89 900 | 149 900 |
| Mercedes-Benz | Nie | 7 390 | 59 565 | 17 900 | 38 275 | 77 000 |
| Mercedes-Benz | Tak | 3 281 | 125 676 | 49 900 | 114 900 | 176 000 |
Na podstawie tabeli i wykresu widać, że samochody oznaczone jako
„pierwszy właściciel = Tak” są
wyraźnie droższe od pozostałych w obu markach. Dla BMW
mediana rośnie z ok. 38900 PLN („Nie”) do ok.
89900 PLN („Tak”), a dla Mercedes-Benz z ok.
38499 PLN („Nie”) do ok. 114900 PLN („Tak”),
co pokazuje silne przesunięcie „typowej” ceny w górę.
Dodatkowo wyższe wartości Q1 i Q3 w grupie „Tak” wskazują, że przewaga
cenowa dotyczy nie tylko mediany, ale też całej pozostałej
części rozkładu, co wspiera hipotezę H5 na poziomie opisu danych.
Napęd a cena)Weryfikacja: porównanie rozkładów ceny pomiędzy kategoriami zmiennej
Drive (np. FWD, RWD, 4x4) z uwzględnieniem innych cech w
modelu (m.in. Power_HP, Production_year)
| Marka | Typ napędu | Liczba | Średnia | Q1 | Mediana | Q3 |
|---|---|---|---|---|---|---|
| BMW | 4x4 dołączany (automat) | 2 157 | 110 739 | 45 700 | 86 500 | 159 900 |
| BMW | 4x4 dołączany (manual) | 8 | 80 640 | 37 650 | 71 350 | 103 155 |
| BMW | 4x4 stały | 2 758 | 119 767 | 61 900 | 99 500 | 165 289 |
| BMW | Napęd na przód | 572 | 91 914 | 58 868 | 85 700 | 129 900 |
| BMW | Napęd na tył | 8 473 | 48 448 | 19 000 | 32 900 | 62 900 |
| Mercedes-Benz | 4x4 dołączany (automat) | 571 | 142 613 | 54 950 | 131 500 | 199 000 |
| Mercedes-Benz | 4x4 dołączany (manual) | 15 | 120 774 | 85 000 | 129 900 | 174 950 |
| Mercedes-Benz | 4x4 stały | 2 027 | 149 111 | 69 900 | 135 792 | 202 864 |
| Mercedes-Benz | Napęd na przód | 1 917 | 56 048 | 14 500 | 38 745 | 85 000 |
| Mercedes-Benz | Napęd na tył | 5 109 | 59 822 | 20 900 | 39 900 | 77 900 |
Dla aut używanych
widać wyraźną zależność ceny od typu napędu: warianty
4x4 osiągają najwyższe poziomy cen w obu markach, co jest
spójne z hipotezą H6. Zarówno w BMW, jak i w Mercedes-Benz mediany oraz
kwartyle (Q1 i Q3) dla 4x4 są istotnie wyżej położone niż dla napędów na
jedną oś, co wsazuje przewagę cenową 4x4.
Jednocześnie
rozkłady dla napędów na jedną oś nie są identyczne między markami:
w BMW „napęd na przód” jest cenowo zbliżony do 4x4 dołączanego (automat)
i wyraźnie wyższy niż „napęd na tył”. W Mercedes-Benz sytuacja jest
bardziej jednoznaczna: napęd na przód i na tył mają podobne poziomy cen,
natomiast 4x4 (stały i dołączany) tworzy wyraźnie droższy segment, co
wzmacnia ogólny wniosek o przewadze cenowej 4x4.
Moc silnika a cena)Weryfikacja: model regresji z ceną Price jako zmienną
zależną i Power_HP, Mileage_km,
Production_year jako głównymi zmiennymi objaśniającymi.
| Marka | Liczba | Średnia | Q1 | Mediana | Q3 | Wsp korelacji |
|---|---|---|---|---|---|---|
| BMW | 15 068 | 75 308 | 24 470 | 51 000 | 98 000 | 0.55 |
| Mercedes-Benz | 10 796 | 84 160 | 22 000 | 50 999 | 119 000 | 0.55 |
Dane na wykresie i w tabeli wspierają Hipotezę 7:
mocniejsze samochody używane są przeciętnie droższe, a
zależność ma zbliżoną siłę w BMW i Mercedes-Benz (r ≈
0.55). Jednocześnie widoczny rozrzut punktów wokół linii
trendu pokazuje, że
sama moc nie wyjaśnia całej zmienności ceny, ale
stanowi ważny czynnik różnicujący oferty.
Paliwo a cena – BMW vs Mercedes)Weryfikacja: boxplot Price ~ Fuel_type *
Vehicle_brand, regresja z kontrolą Mileage_km +
Production_year.
| Marka | Rodzaj paliwa | Liczba | Średnia | Q1 | Mediana | Q3 |
|---|---|---|---|---|---|---|
| BMW | Benzyna | 5 181 | 73 639 | 20 900 | 50 900 | 100 860 |
| BMW | Benzyna + LPG | 451 | 19 104 | 10 000 | 16 900 | 24 950 |
| BMW | Diesel | 8 979 | 71 139 | 26 500 | 50 999 | 90 000 |
| BMW | Elektryczny | 182 | 121 928 | 89 572 | 98 088 | 159 900 |
| BMW | Hybrydowy | 160 | 195 431 | 124 975 | 197 900 | 248 175 |
| Mercedes-Benz | Benzyna | 4 949 | 87 454 | 25 900 | 62 000 | 123 500 |
| Mercedes-Benz | Benzyna + CNG | 4 | 48 025 | 42 425 | 49 250 | 54 850 |
| Mercedes-Benz | Benzyna + LPG | 362 | 26 681 | 12 900 | 22 000 | 32 900 |
| Mercedes-Benz | Diesel | 5 263 | 73 900 | 19 900 | 45 900 | 99 900 |
| Mercedes-Benz | Elektryczny | 32 | 316 318 | 302 375 | 336 450 | 351 644 |
| Mercedes-Benz | Hybrydowy | 61 | 177 251 | 88 800 | 174 900 | 219 800 |
W autach
używanych widać wyraźne różnice cen między rodzajami paliwa
i są one podobnie uporządkowane w BMW oraz Mercedes-Benz.
Najwyżej wyceniane są napędy alternatywne: w BMW najwyższą medianę mają
hybrydy (ok. 197900 PLN) oraz auta elektryczne (ok. 97900 PLN), a w
Mercedes-Benz elektryki są zdecydowanie najdroższe (mediana ok. 336450
PLN) i wyraźnie odstają od pozostałych typów.
W „klasycznych” paliwach Mercedes-Benz jest przeciętnie droższy od BMW:
mediana dla benzyny to ok. 62000 PLN w Mercedesie vs 50000 PLN w BMW, a
dla diesla ok. 45900 PLN vs 50900 PLN (tu BMW wypada nieco wyżej
medianą, ale Mercedes ma szerszą górę rozkładu w benzynie).
W obu markach instalacje gazowe (Benzyna + LPG) są najtańszą kategorią
(BMW mediana ok. 16900 PLN, Mercedes ok. 22000 PLN), co tworzy wyraźny
kontrast względem hybryd i elektryków.
Dodatkowo widać, że
kategorie alternatywne mają mniejsze liczebności (np.
elektryki i hybrydy), ale jednocześnie bardzo wysokie kwartyle, co
przekłada się na „drogi” profil tych ofert w całym środkowym zakresie
rozkładu (Q1–Q3). W efekcie
paliwo jest jedną z cech, która najsilniej segmentuje ceny:
od najtańszych aut LPG przez benzynę/diesla po wyraźnie droższe hybrydy
i elektryki, szczególnie w Mercedes-Benz.
Trwałość marki – cena/km)Weryfikacja: cena_per_km <- Price /
Mileage_km, boxplot po grupach Production_year
+ Brand, t-test.
| Marka | Grupa roku produkcji | Liczba | Średnia | Q1 | Mediana | Q3 |
|---|---|---|---|---|---|---|
| BMW | 2001-2010 | 5 847 | 0.55 | 0.07 | 0.10 | 0.16 |
| BMW | Do 2000 | 749 | 273.66 | 0.03 | 0.05 | 0.12 |
| BMW | Po 2010 | 8 554 | 244.27 | 0.35 | 0.87 | 2.89 |
| Mercedes-Benz | 2001-2010 | 4 332 | 0.22 | 0.06 | 0.11 | 0.19 |
| Mercedes-Benz | Do 2000 | 1 332 | 26.43 | 0.04 | 0.11 | 0.32 |
| Mercedes-Benz | Po 2010 | 5 264 | 519.50 | 0.52 | 1.56 | 5.61 |
Wyniki dla „ceny za kilometr” pokazują
bardzo wyraźny podział według rocznika: w obu markach
najnowsze auta (Po 2010) mają zdecydowanie wyższą medianę ceny/km niż
starsze grupy, co widać też na boxplotach jako przesunięcie rozkładu w
górę. Dla BMW mediana rośnie z ok. 0.05–0.10 PLN/km w grupach „Do 2000”
i „2001–2010” do ok. 0.87 PLN/km po 2010, a dla Mercedes-Benz z ok. 0.11
PLN/km do ok. 1.55 PLN/km.
Porównując marki w tej samej grupie rocznika, Mercedes-Benz jest droższy „na kilometr” w najnowszej grupie: po 2010 mediana to ok. 1.55 PLN/km wobec ok. 0.87 PLN/km w BMW, a także wyższy jest cały środek rozkładu (Q1–Q3). Dla roczników 2001–2010 mediany są bardzo zbliżone (ok. 0.10–0.11 PLN/km), co sugeruje, że różnice między markami najmocniej ujawniają się w segmencie nowszych aut.
Widać też silną prawostronną skośność „ceny/km”
(szczególnie w grupach „Do 2000” i „Po 2010”), gdzie mediany są
relatywnie niskie, ale średnie są wielokrotnie wyższe, co wynika z
pojedynczych przypadków ekstremalnie wysokiej ceny/km (np. bardzo mały
przebieg przy wysokiej cenie). Dlatego w tej hipotezie najbardziej
miarodajne do porównań są mediana i kwartyle, które
stabilnie pokazują wzrost ceny/km wraz z nowszym rokiem produkcji
oraz przewagę Mercedesa w autach po 2010.
Cena a moc i lokalizacja – BMW vs Mercedes (województwa) -
kilka mapŚrednie ceny aut używanych różnią się między województwami,
a w wielu regionach
Mercedes-Benz osiąga wyższe wartości niż BMW (np.
dolnośląskie: ok. 80 tys. PLN vs ok. 61 tys. PLN). Na mapach widać więc,
że
poziom cen nie jest przestrzennie jednolity i zależy od regionu,
co sugeruje zróżnicowanie „profilu” ofert w skali kraju.
Mapy średniej mocy pokazują podobny regionalny wzorzec:
województwa z wyższymi średnimi cenami często mają też wyższą przeciętną moc silnika
(np. w dolnośląskim średnia moc jest wyższa dla Mercedes-Benz niż dla
BMW: ok. 202 KM vs ok. 198 KM). Oznacza to, że
w części regionów struktura ogłoszeń przesuwa się w stronę mocniejszych wersji,
co naturalnie podnosi ogólny poziom ofert.
Udział aut o mocy powyżej 200 KM domyka ten obraz:
różnice między województwami są widoczne i spójne kierunkowo dla obu marek.
Najwyższe udziały występują w podlaskim (BMW ok. 50%, Mercedes-Benz ok.
46%), a najniższe odpowiednio w lubuskim (BMW ok. 31%) i opolskim
(Mercedes-Benz ok. 30%), co pokazuje, że „mocny” segment rynku ma
wyraźną koncentrację regionalną.
Analiza korelacji dostarczyła informacji o zależnościach między
zmiennymi numerycznymi w zbiorze danych dotyczących samochodów
używanych. Najbardziej skorelowane ze sobą są zmienne
Displacement_cm3 oraz Power_HP (korelacja =
0.82 - dość silna). Umiarkowaną korelacją charakteryzują
się zmienne Price i Power_HP (korelacja =
0.64). Słabaszą, ale wartą uwagi zależnością charakteryzują
się zmienne Price i Production_year oraz
Production_year i Doors_number.
## Df Sum Sq Mean Sq F value Pr(>F)
## Vehicle_brand 1 1.174e+12 1.174e+12 204.7 <2e-16 ***
## Mileage_km 1 8.324e+13 8.324e+13 14516.0 <2e-16 ***
## Production_year 1 9.293e+12 9.293e+12 1620.7 <2e-16 ***
## Residuals 26073 1.495e+14 5.734e+09
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
| Źródło | Df | Sum Sq | Mean Sq | F value | Pr(>F) |
|---|---|---|---|---|---|
| Vehicle_brand | 1 | 1.173934e+12 | 1.173934e+12 | 204.7296 | 0 |
| Mileage_km | 1 | 8.323554e+13 | 8.323554e+13 | 14515.9567 | 0 |
| Production_year | 1 | 9.292950e+12 | 9.292950e+12 | 1620.6546 | 0 |
| Residuals | 26073 | 1.495045e+14 | 5.734072e+09 | NA | NA |
Wyniki ANCOVA dla hipotezy H1 pokazują, że marka pojazdu
(Vehicle_brand) ma istotny wpływ na cenę
(Price) po kontrolowaniu przebiegu
(Mileage_km) i roku produkcji
(Production_year). Wartość p dla Vehicle_brand jest
mniejsza niż 0.05, co pozwala odrzucić hipotezę zerową o braku różnic
cen między markami po uwzględnieniu tych czynników kontrolnych. Oznacza
to, że
nawet po uwzględnieniu wpływu przebiegu i roku produkcji, marka samochodu pozostaje istotnym czynnikiem różnicującym ceny
samochodów używanych.
## Df Sum Sq Mean Sq F value Pr(>F)
## Fuel_type 5 1.030e+13 2.059e+12 268.7 <2e-16 ***
## Transmission 1 3.163e+13 3.163e+13 4126.5 <2e-16 ***
## Fuel_type:Transmission 2 1.754e+12 8.771e+11 114.4 <2e-16 ***
## Residuals 25971 1.991e+14 7.665e+09
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
| Typ paliwa | Skrzynia biegów | Mediana | Q1 | Q3 | Liczba obserwacji |
|---|---|---|---|---|---|
| Diesel | Automatic | 70355 | 39900.00 | 132000 | 9646 |
| Diesel | Manual | 24990 | 16700.00 | 41600 | 4663 |
| Electric | Automatic | 119900 | 90224.25 | 186556 | 214 |
| Gasoline | Automatic | 89900 | 48900.00 | 151000 | 7114 |
| Gasoline | Manual | 19970 | 13900.00 | 32999 | 3292 |
| Gasoline + CNG | Automatic | 49250 | 42425.00 | 54850 | 4 |
| Gasoline + LPG | Automatic | 24900 | 16900.00 | 35900 | 433 |
| Gasoline + LPG | Manual | 13500 | 8675.00 | 20900 | 376 |
| Hybrid | Automatic | 199900 | 128475.00 | 252851 | 238 |
Na podstawie wyników analizy ANOVA można stwierdzić, że zarówno typ
paliwa (Fuel_type), jak i skrzynia biegów
(Transmission) mają istotny wpływ na cenę
samochodów używanych (p < 0.05). Ponadto,
interakcja między tymi dwoma czynnikami również jest
istotna statystycznie (p < 0.05). Odrzucamy hipotezy
zerowe i przyjmujemy hipotezę alternatywną, co oznacza, że
ceny używanych samochodów różnią się istotnie w zależności od typu paliwa i skrzyni biegów.
Boxplot wizualizuje te różnice, pokazując zróżnicowanie cen dla różnych
kombinacji typu paliwa i skrzyni biegów. Tabela z medianami cen
dodatkowo ilustruje, które kombinacje są związane z wyższymi lub
niższymi medianami cen samochodów używanych.
##
## Kruskal-Wallis rank sum test
##
## data: Price by Fuel_type
## Kruskal-Wallis chi-squared = 1486.8, df = 5, p-value < 2.2e-16
| Typ paliwa | Mediana | Q1 | Q3 | Liczba obserwacji |
|---|---|---|---|---|
| Diesel | 49900 | 24900.00 | 95900 | 14363 |
| Electric | 119900 | 90224.25 | 186556 | 214 |
| Gasoline | 58500 | 23500.00 | 120900 | 10445 |
| Gasoline + CNG | 49250 | 42425.00 | 54850 | 4 |
| Gasoline + LPG | 18900 | 11500.00 | 28700 | 813 |
| Hybrid | 199900 | 128475.00 | 252851 | 238 |
Na podstawie testu Kruskala-Wallisa można stwierdzić, że
istnieje istotna różnica w medianach cen samochodów używanych w zależności od typu paliwa
(p < 0.05). Odrzucamy hipotezę zerową i przyjmujemy hipotezę
alternatywną, co oznacza, że ceny samochodów różnią się istotnie
statystycznie w zależności od rodzaju paliwa. Boxplot wizualizuje te
różnice, pokazując zróżnicowanie cen dla różnych typów paliwa. Tabela z
medianami cen dodatkowo ilustruje, które typy paliwa są związane z
wyższymi lub niższymi medianami cen samochodów używanych.
Projekt stanowi kompleksową analizę porównawczą cen i wartości samochodów marek BMW i Mercedes-Benz na polskim rynku wtórnym. Badanie opiera się na zbiorze danych z platformy Kaggle zawierającym ogłoszenia sprzedaży używanych samochodów w Polsce. Autorzy (Paweł Cyrocki, Damian Skinder, Patryk Siuda) zastosowali metodykę opracowaną w języku R z zamiarem identyfikacji kluczowych czynników wpływających na wycenę pojazdów premium.
| Hipoteza | Opis | Rezultat |
|---|---|---|
| H1 | Przebieg a cena | Potwierdzona – ujemna korelacja (r ≈ −0.67 BMW; −0.61 Mercedes) |
| H2 | Rok produkcji a cena | Potwierdzona – nowsze roczniki znacznie droższe |
| H3 | Typ nadwozia a cena | Potwierdzona – SUV-y droższe niż sedany/kompakty |
| H4 | Skrzynia biegów a cena | Potwierdzona – automaty o 55–54 tys. PLN droższe |
| H5 | Pierwszy właściciel a cena | Potwierdzona – auta od 1. właściciela zdecydowanie droższe |
| H6 | Typ napędu a cena | Potwierdzona – napęd 4×4 najwyżej wyceniany |
| H7 | Moc silnika a cena | Potwierdzona – moc istotnie koreluje z ceną (r ≈ 0.55) |
| H8 | Typ paliwa a cena | Potwierdzona – elektryki/hybrydy droższe (Mercedes szczególnie) |
| H9 | Kolor a cena | Częściowo – biały i czerwony wyżej, ale nie ‘czysty’ efekt premium |
| H10 | Cena/km a rok produkcji | Potwierdzona – Mercedes ma wyższy stosunek ceny/km w nowych autach |
| H11 | Cena, moc i lokalizacja | Potwierdzona – zróżnicowanie regionalne (województwa) |
Mediana cen aut używanych jest zbliżona w obu markach (BMW: 51 800 PLN; Mercedes-Benz: 52 500 PLN), jednak Mercedes ma wyżej umiejscowioną górną część rozkładu (Q3: 120 650 PLN vs 99 000 PLN w BMW). Średnie ceny znacznie się różnią (BMW: 78 490 PLN; Mercedes: 91 645 PLN), co wynika z obecności droższych outlierów.
Najsilniej ceny różnicują:
Rok produkcji i przebieg (negatywna korelacja z przebiegiem)
Typ paliwa (elektryki/hybrydy premiowane, szczególnie u Mercedes)
Typ napędu (4×4 najdroższy)
Historia właściciela (pierwszy właściciel daje znaczną premię)
Mercedes-Benz wykazuje wyższą premię za auta ekologiczne (elektryki: mediana 336 450 PLN vs niska reprezentacja w BMW). W segmencie klasycznych paliw (benzyna/diesel) różnice są mniejsze, jednak Mercedes utrzymuje wyższe kwartyle górne.
Test ANCOVA potwierdził istotność marki na cenę po kontrolowaniu przebiegu i roku (p < 0.05)
Test Kruskala-Wallisa wykazał, że typ paliwa istotnie wpływa na ceny (p < 0.05)
Interakcja między paliwem a skrzynią biegów również istotna statystycznie
Analiza Przestrzenna Ceny i moc silników wykazują wyraźne zróżnicowanie regionalne. Województwa takie jak podlaskie charakteryzują się wyższym udziałem aut o mocy >200 KM, co wskazuje na heterogeniczność struktury ofert w kraju.
Projekt stanowi praktyczną aplikację technik analitycznych do rzeczywistego problemu rynku wtórnego. Wyniki mogą być użyteczne dla:
Dealerów i sprzedawców (wycena pojazdów)
Nabywców (identyfikacja uczciwej ceny za samochód)
Analityków rynku (trendy w segmencie premium)
Dokument jest napisany w RMarkdown z formatem bookdown, co ułatwia odtwarzalność i interaktywne przeglądanie wyników.