1.Wstęp

Niniejszy dokument opisuje projekt zespołowy dotyczący analizy danych przy użycia języka R. Projekt obejmuje zbieranie, przetwarzanie, analizę oraz wizualizację danych. Jego celem jest porównawcza analiza cenowa i predykcja wartości samochodów premium na polskim rynku wtórnym.

Dane do analizy pozyskano ze strony: https://www.kaggle.com/datasets/bartoszpieniak/poland-cars-for-sale-dataset.

1.1 Założenia projektu

Analizę ograniczono do samochodów marek BMW i Mercedes-Benz, co wynika z konieczności zapewnienia wysokiej jakości statystycznej danych. Szeroki zakres wszystkich marek (~200k obserwacji, 20+ brandów) wprowadza znaczną heteroskedastyczność (różną wariancję reszt w modelach regresji) oraz nadmiar obserwacji odstających, co destabilizuje estymatory i obniża moc testów hipotez. Aby analizowane wartosci były bardziej miarodajne do badania posłużyły ogłoszenia dla samochodów używanych.

1.2 Opis zmiennych

Index - unikalny identyfikator ogłoszenia

Price - cena samochodu

Currency - waluta, w której podana jest cena

Condition - stan samochodu (nowy/używany)

Vehicle_brand - marka samochodu

Vehicle_model - model samochodu

Vehicle_version - wersja samochodu

Vehicle__generation - generacja samochodu

Production_year - rok produkcji samochodu

Mileage__km - przebieg samochodu w kilometrach

Power_HP - moc samochodu w koniach mechanicznych

Displacement__cm3 - pojemność silnika w centymetrach sześciennych

Fuel_type - rodzaj paliwa

CO2_emission - emisja CO2 w gramach na kilometr

Drive - typ napędu

Transmission - rodzaj skrzyni biegów

Type - typ nadwozia

Doors_nuber1 - liczba drzwi

Colour - kolor samochodu

Orgin_country - kraj pochodzenia

First_owner - czy właściciel jest pierwszym właścicielem

First_registration_date - data pierwszej rejestracji

Offer_publication_date - data publikacji ogłoszenia

Offer_location - lokalizacja oferty

Features - cechy dodatkowe samochodu

1.3 Hipotezy badawcze

W tej części definiujemy hipotezy, które będą weryfikowane w dalszej analizie eksploracyjnej oraz modelowaniu.

H1 (Cena a przebieg)
Samochody BMW i Mercedes z większym przebiegiem mają istotnie niższą cenę niż z mniejszym przebiegiem, z potencjalnie silniejszą zależnością u Mercedes. Weryfikacja: analiza zależności między zmiennymi Price i Mileage_km (wykresy rozrzutu, korelacja, model regresji).

H2 (Cena a rok produkcji)
Nowsze modele BMW i Mercedes są droższe niż starsze, przy czym BMW może szybciej tracić na wartości w porównaniu do Mercedes. Weryfikacja: analiza związku Price z Production_year (przedziały roczników, wykresy pudełkowe, modele regresji).

H3 (Typ nadwozia a cena)
W segmencie BMW i Mercedes SUV-y/crossovery są droższe niż sedany/hatchbacki, z różnicami między markami (np. większe premiowanie SUV-ów u BMW). Weryfikacja: porównanie rozkładów Pricemiędzy kategoriami zmiennej Type (boxploty, testy różnic średnich / ANOVA).

H4 (Skrzynia biegów a cena)
Samochody BMW i Mercedes z automatyczną skrzynią biegów są średnio droższe niż samochody z manualną skrzynią biegów (mocniej dla Mercedesa) Weryfikacja: porównanie cen w dwóch grupach (Transmission = automat vs manual) z użyciem odpowiednich testów statystycznych i wizualizacji - proponowane wykorzystanie t-test lub Wilcoxon Price ~ Transmission w podzbiorach marek, wizualizacja violin plots.

H5 (Pierwszy właściciel a cena)
BMW i Mercedes od pierwszego właściciela są droższe, z większą premią u Mercedes ze względu na prestiż. Weryfikacja: porównanie cen dla zmiennej First_owner (tak vs nie) z wykorzystaniem wykresów oraz testów różnic średnich.

H6 (Napęd a cena)
Samochody BMW i Mercedes z napędem na cztery koła (4x4) są średnio droższe niż samochody z napędem na jedną oś, przy porównywalnych pozostałych parametrach, szczególnie w modelach BMW. Weryfikacja: porównanie rozkładów ceny pomiędzy kategoriami zmiennej Drive (np. FWD, RWD, 4x4) z uwzględnieniem innych cech w modelu (m.in. Power_HP, Production_year), np. regresja Price ~ Drive * Vehicle_brand + Power_HP + Production_year

H7 (Moc silnika a cena)
Wyższa moc (Power_HP) koreluje z ceną w obu markach po kontroli przebiegu i roku, z silniejszą relacją u BMW sportowych modeli. Weryfikacja: model regresji z ceną jako zmienną zależną i Power_HP, Mileage_km, Production_year jako głównymi zmiennymi objaśniającymi.

H8 (Paliwo a cena – BMW vs Mercedes) Hybrydy i elektryki BMW/Mercedes są droższe niż diesle/benzyna przy porównywalnym przebiegu i roku, z większą premią u Mercedes (ekoprestiż). Weryfikacja: boxplot Price ~ Fuel_type * Vehicle_brand, regresja z kontrolą Mileage_km + Production_year.

H9 (Kolor a cena – premium psychologia) Popularne kolory kojarzone z markami premium (czarny, szary, biały) osiągają wyższe ceny niż mniej typowe (czerwony, zielony), mocniej u Mercedes. Weryfikacja: violin plot Price ~ Coluor * Vehicle_brand, ANOVA z TukeyHSD post-hoc.

H10 (Trwałość marki – cena/km) Mercedes ma wyższy stosunek Price/Mileage_km niż BMW (lepsza wartość rezydualna) dla aut >10 lat. Weryfikacja: cena_per_km <- Price / Mileage_km, boxplot po grupach Production_year + marka, t-test.

H11 (Cena a moc i lokalizacja – BMW vs Mercedes (województwa)) Średnia moc silnika Power_HP BMW i Mercedesa jest wyższa w regionach o wyższej średniej cenie Price ofert.

2. Porządkowanie danych

W tym rozdziale opisano proces porządkowania danych, w tym obsługę braków danych, transformacje zmiennych oraz usuwanie obserwacji odstających. Podjęte zdiałania mają na celu przygotowanie danych do dalszej analizy opisowej i testowania statystycznego.

2.1 Braki danych

Pierszym krokiem będzie identyfikacja zmiennych, które zawierają braki. Za pomocą funkcji aggr z pakietu VIM utworzono wykres pokazujący braki danych w poszczególnych zmiennych.

Wykres pokazuje bardzo duże braki w zmiennej CO2_emissions, która nie jest parametrem kluczowym dla naszych analiz, dlatego zostanie usunięta z dalszej analizy. Pozostałe zmienne z brakami danych będą poddane dalszej analizie w celu określenia, czy braki są losowe, czy systematyczne.

Następnie, za pomocą funkcji geom_miss_point z pakietu naniar, wizualizujemy braki danych w dwóch kluczowych zmiennych: Displacement_cm3 i Power_HP. Pozwoli to ocenić, czy braki w tych zmiennych są powiązane ze sobą lub z innymi cechami danych.

Na podstawie wykresu możemy zauważyć występowanie liniowej zależności między zmiennymi Displacement_cm3 i Power_HP, dlatego braki w danych zostały uzupełnione za pomocą metody mice. Po wykonanej implementacji danych sprawdzamy za pomocą takiego samego wykresu, czy wszystkie braki dla wymienionych zmiennych zostały wyeliminowane.

Dla pozostałych zmiennych, wktórych występowały braki danych również zastosowano metodę mice, zmienna Mileage została wyestymowana za pomocą zależności od zmiennych: Production_yea oraz Power_HP, natomiast zmienna Doors_number na podstawie zmiennej Type.

Na koniec sprawdzono czy wszystkie braki danych zostały usunięte.

2.2 Walidacja danych

W celu eliminacji obserwacji odstających, które mogą zniekształcić wyniki analizy, przeprowadzono walidację danych dla kluczowych zmiennych. Poniżej przedstawiono przyjęte kryteria walidacji:

Price - powinna być większa od 0.

Mileage_km - musi być liczbą nieujemną i mniejsze od 999999 km.

Production_year - musi być liczbą całkowitą mieszczącą się w rozsądnym zakresie od 1886 do 2025r.

Power_HP - musi być liczbą większą niż 1.

Displacement_cm3 - musi być liczbą większą niż 1.

Doors_number - musi być liczbą całkowitą z przedziału 1-6.

Poniższa tabela przedstawia liczebności obserwacji spełniających oraz niespełnijących powyższe kryteria:

(#tab:unnamed-chunk-10)Podsumowanie reguł walidacyjnych danych
Reguła Łącznie Spełnione Niespełnione
V1 208304 208304 0
V2 208304 208304 0
V3 208304 208304 0
V4 208304 208260 44
V5 208304 208251 53
V6 208304 208304 0
V7 208304 208291 13

Zmienne niespełniające kryteria walidacji zostały oznaczone jako braki danych (NA). Natępnie przeprowadzono kolejną walidację dla nowych braków zmiennych analogicznie jak w kroku 2.1.

Po walidacji sprawdzono czy wszystkie braki danych zostały usunięte.

Finalna procentowa zawartość danych bez braków: 100 %

Ostatecznie mamy dane, które spełniają kryteria walidacji i nie zawierają braków danych. Możemy przejść do dalszej analizy danych. Dla uzyskanych danych wybieramy marki Mercedes i BMW do dalszej analizy.

3. Weryfikacja hipotez, wizualizacja, analiza opisowa oraz testy statystyczne

3.1 Główna statystyka opisowa

Poniżej przedstawiono główne statystyki opisowe dla zmiennych numerycznych w zbiorze danych. Statystyki dotyczą używanych samochodów marek BMW oraz Mercedes Benz. Poniżej przedstawiono tabelę zawierającą liczebność próby, średnie wartości kluczonych zmiennych.

(#tab:opisowa-tabela)Statystyki opisowe dla cen w PLN – BMW vs Mercedes-Benz
Marka Liczba ogłoszeń Średnia SD Min Q1 Mediana Q3 Max
BMW 15150 78 568 100 574 1 300 24 500 51 900 99 000 6 999 000
Mercedes-Benz 10928 91 710 111 847 1 000 22 500 52 500 120 824 1 398 999

W tabeli widać, że po czyszczeniu danych liczba ogłoszeń aut używanych jest większa dla BMW (n = 15168)niż dla Mercedes-Benz (n = 10983), co sugeruje większą reprezentację BMW w tej próbce.

Średnia cena Mercedesa jest wyższa (91645) niż BMW (78490), ale jednocześnie mediany są do siebie bardzo zbliżone (52500 vs 51800), co wskazuje, że „typowa” oferta w obu markach kosztuje podobnie, a różnica w średniej wynika raczej z droższych, nietypowych ogłoszeń.

Rozrzut cen jest duży w obu markach (SD ok. 100–112 tys.), a skrajne wartości mocno podbijają zmienność: szczególnie w BMW widać bardzo wysoki maks (6999000) przy niskim minimum (500).

Kwartyle pokazują też, że górna część rozkładu jest droższa dla Mercedesa: Q3 to 120649,5 wobec 99000 dla BMW, czyli 25% najdroższych Mercedesów zaczyna się wyżej niż 25% najdroższych BMW

3.2 Weryfikacja hipotez

3.2.1 Hipoteza H1 (Cena a przebieg)

Wyniki dla aut używanych (po odcięciu górnego 1% wartości Price i Mileage_km w obrębie każdej marki) wspierają hipotezę H1: wraz ze wzrostem przebiegu cena spada, co widać po wyraźnie opadającej linii trendu w obu panelach (BMW i Mercedes-Benz). Zależność tę potwierdza także współczynnik korelacji Pearsona między przebiegiem a ceną, który jest ujemny dla obu marek (BMW: r ≈ −0.67, Mercedes-Benz: r ≈ −0.61), co oznacza, że większy przebieg wiąże się przeciętnie z niższą ceną (nieco silniej w BMW).

Z tabeli wynika, że „typowe” ceny są bardzo zbliżone (mediany ok. 52 tys. PLN dla obu marek), ale Mercedes ma wyżej położoną górną część rozkładu cen (Q3 wyższe niż w BMW), co widać też w większej liczbie droższych punktów przy mniejszych przebiegach.

Na wykresie widać również skośność cen: większość obserwacji skupia się przy niższych poziomach cen, a jednocześnie występuje „ogon” droższych ofert (zwłaszcza przy niskich przebiegach), co jest typowym obrazem prawostronnie skośnego rozkładu cen i tłumaczy, dlaczego średnia bywa wyższa od mediany.

3.2.2 Hipoteza H2 (Cena a rok produkcji)

(#tab:unnamed-chunk-21)Cena samochodów W PLN według roku produkcji
Marka Rok grupy Liczba Średnia Q1 Mediana Q3
BMW 96–00 393 16 253 6 990 11 500 20 000
BMW 01–05 1 433 17 680 8 900 13 900 22 500
BMW 06–10 3 825 28 043 18 500 23 800 30 900
BMW 11–15 4 120 60 804 39 969 53 900 71 999
BMW 16–20 4 391 128 356 79 900 109 900 163 590
BMW 21–24 670 216 332 159 900 199 900 259 900
Mercedes-Benz 96–00 380 29 587 7 952 16 000 42 600
Mercedes-Benz 01–05 1 347 21 395 8 900 14 900 22 200
Mercedes-Benz 06–10 2 597 34 157 16 900 26 900 39 900
Mercedes-Benz 11–15 2 236 71 883 42 000 57 350 84 900
Mercedes-Benz 16–20 2 839 153 661 93 900 135 000 186 050
Mercedes-Benz 21–24 516 226 295 160 490 199 900 279 900

Dla aut używanych (BMW i Mercedes-Benz) porównano ceny w przedziałach rocznika produkcji, a do analizy przyjęto ten sam zakres co na wykresie (ceny ograniczone do 450000 PLN).

Z tabeli widać konsekwentny wzrost cen wraz z nowszym rokiem produkcji, co wspiera hipotezę H2: w BMW mediana rośnie od 10900 PLN (96–00) do 219900 PLN (21–24), a w Mercedes-Benz od 12900 PLN (96–00) do 229900 PLN (21–24). Podobny wzrost widać też w kwartylach (Q1 i Q3), czyli cały „środek” rozkładu cen przesuwa się w górę w nowszych rocznikach.

Boxploty potwierdzają te obserwacje wizualnie: mediany w kolejnych grupach rocznika układają się „schodkowo” coraz wyżej, a rozrzut jest większy w nowszych przedziałach (16–20 i 21–24), co sugeruje większą różnorodność cen w nowszych autach (różne wersje/wyposażenia).

3.2.3 Hipoteza H3 (Typ nadwozia a cena)

Weryfikacja: porównanie rozkładów Pricemiędzy kategoriami zmiennej Type

(#tab:unnamed-chunk-23)Cena w PLN według typów nadwozia BMW vs Mercedes-Benz
Marka Typ nadwozia Liczba Średnia Q1 Mediana Q3
BMW SUV 3 090 101 069 43 900 79 900 139 900
BMW coupe 1 106 91 677 35 900 76 950 121 500
BMW city_cars 292 76 192 21 498 70 450 109 118
BMW small_cars 34 70 598 48 500 64 900 92 625
BMW minivan 182 67 805 51 925 63 572 77 975
BMW sedan 5 370 73 048 22 900 51 000 94 900
BMW convertible 326 66 046 29 900 47 200 84 975
BMW station_wagon 2 969 49 656 19 900 32 900 61 700
BMW compact 1 584 44 467 17 000 24 900 55 900
Mercedes-Benz SUV 1 545 131 325 59 000 116 000 179 900
Mercedes-Benz convertible 524 91 020 39 900 66 500 100 000
Mercedes-Benz coupe 1 190 94 181 25 475 58 850 133 884
Mercedes-Benz sedan 3 724 77 167 22 900 48 542 106 000
Mercedes-Benz minivan 692 75 288 22 900 46 900 102 356
Mercedes-Benz station_wagon 1 493 56 910 18 900 36 600 73 000
Mercedes-Benz compact 1 113 51 351 14 700 24 999 70 110
Mercedes-Benz city_cars 352 21 356 7 875 11 900 19 925
Mercedes-Benz small_cars 38 19 900 5 118 9 450 15 675

Wyniki dla aut używanych (Price ≤ 400000) pokazują, że cena różni się między typami nadwozia, co jest zgodne z hipotezą H3. Zarówno na boxplotach, jak i w tabeli kwartylowej widać, że SUV ma najwyższą medianę ceny w obu markach: BMW 79900 PLN, Mercedes-Benz 115945 PLN.

W porównaniu do popularnych segmentów „bardziej codziennych” SUV-y są wyraźnie wyżej wyceniane: dla BMW mediana SUV (79900) jest wyższa niż dla compact (24900) i sedana (51000), a dla Mercedesa SUV (115945) jest wyższy niż compact (24900) i sedan (485875). To bezpośrednio wspiera tezę H3 o przewadze cenowej SUV-ów nad hatchbackami/kompaktami i sedanami.

Warto też zauważyć, że rozrzut cen (Q1–Q3) dla SUV jest szeroki, co widać na wysokości pudełek na wykresie i sugeruje duże zróżnicowanie ofert w tym typie (różne roczniki, wersje i wyposażenie).

3.2.4 Hipoteza H4 (Skrzynia biegów a cena)

Weryfikacja: porównanie cen Price w dwóch grupach (Transmission = automat vs manual) z użyciem odpowiednich testów statystycznych i wizualizacji

(#tab:unnamed-chunk-25)Cena a skrzynia biegów (używane, Price ≤ 400 000)
Marka Skrzynia biegów Liczba Średnia Q1 Mediana Q3
BMW Automatic 9 455 97 287 46 900 78 900 131 900
BMW Manual 5 435 29 276 16 500 23 400 36 900
Mercedes-Benz Automatic 7 753 98 214 34 900 73 900 139 900
Mercedes-Benz Manual 2 884 30 667 11 900 19 900 38 500

Na wykresie violin oraz w tabeli kwartylowej widać, że w obu markach rozkład cen dla aut z automatem jest przesunięty w górę względem manuali (Price ≤ 400000). Dla BMW mediana automatu to 78900 PLN, a manuala 23300 PLN (różnica median 55600 PLN), natomiast dla Mercedes-Benz odpowiednio 73900 PLN vs 19900 PLN (różnica 54000 PLN). Wniosek wspiera hipotezę H4 na poziomie opisu danych, przy czym obserwowana różnica może wynikać także z tego, że automaty częściej występują w droższych konfiguracjach (np. nowsze roczniki/wyższe wersje), a nie wyłącznie z samego typu skrzyni.

3.2.5 Hipoteza H5 (Pierwszy właściciel a cena)

Weryfikacja: porównanie Price dla zmiennej First_owner (tak vs nie) z wykorzystaniem wykresów oraz testów różnic średnich.

(#tab:unnamed-chunk-27)Cena samochodu w zależności od bycia pierwszym właścicielem (używane, Price ≤ 400 000)
Marka Pierwszy właściciel Liczba Średnia Q1 Mediana Q3
BMW Nie 10 515 57 557 20 900 38 900 72 900
BMW Tak 4 438 107 512 49 900 89 900 149 900
Mercedes-Benz Nie 7 390 59 565 17 900 38 275 77 000
Mercedes-Benz Tak 3 281 125 676 49 900 114 900 176 000

Na podstawie tabeli i wykresu widać, że samochody oznaczone jako „pierwszy właściciel = Tak” są wyraźnie droższe od pozostałych w obu markach. Dla BMW mediana rośnie z ok. 38900 PLN („Nie”) do ok. 89900 PLN („Tak”), a dla Mercedes-Benz z ok. 38499 PLN („Nie”) do ok. 114900 PLN („Tak”), co pokazuje silne przesunięcie „typowej” ceny w górę. Dodatkowo wyższe wartości Q1 i Q3 w grupie „Tak” wskazują, że przewaga cenowa dotyczy nie tylko mediany, ale też całej pozostałej części rozkładu, co wspiera hipotezę H5 na poziomie opisu danych.

3.2.6 Hipoteza H6 (Napęd a cena)

Weryfikacja: porównanie rozkładów ceny pomiędzy kategoriami zmiennej Drive (np. FWD, RWD, 4x4) z uwzględnieniem innych cech w modelu (m.in. Power_HP, Production_year)

(#tab:unnamed-chunk-29)Cena samochodu w zależności od typu napędu (używane, Price ≤ 400 000)
Marka Typ napędu Liczba Średnia Q1 Mediana Q3
BMW 4x4 dołączany (automat) 2 157 110 739 45 700 86 500 159 900
BMW 4x4 dołączany (manual) 8 80 640 37 650 71 350 103 155
BMW 4x4 stały 2 758 119 767 61 900 99 500 165 289
BMW Napęd na przód 572 91 914 58 868 85 700 129 900
BMW Napęd na tył 8 473 48 448 19 000 32 900 62 900
Mercedes-Benz 4x4 dołączany (automat) 571 142 613 54 950 131 500 199 000
Mercedes-Benz 4x4 dołączany (manual) 15 120 774 85 000 129 900 174 950
Mercedes-Benz 4x4 stały 2 027 149 111 69 900 135 792 202 864
Mercedes-Benz Napęd na przód 1 917 56 048 14 500 38 745 85 000
Mercedes-Benz Napęd na tył 5 109 59 822 20 900 39 900 77 900

Dla aut używanych widać wyraźną zależność ceny od typu napędu: warianty 4x4 osiągają najwyższe poziomy cen w obu markach, co jest spójne z hipotezą H6. Zarówno w BMW, jak i w Mercedes-Benz mediany oraz kwartyle (Q1 i Q3) dla 4x4 są istotnie wyżej położone niż dla napędów na jedną oś, co wsazuje przewagę cenową 4x4.

Jednocześnie rozkłady dla napędów na jedną oś nie są identyczne między markami: w BMW „napęd na przód” jest cenowo zbliżony do 4x4 dołączanego (automat) i wyraźnie wyższy niż „napęd na tył”. W Mercedes-Benz sytuacja jest bardziej jednoznaczna: napęd na przód i na tył mają podobne poziomy cen, natomiast 4x4 (stały i dołączany) tworzy wyraźnie droższy segment, co wzmacnia ogólny wniosek o przewadze cenowej 4x4.

3.2.7 Hipoteza H7 (Moc silnika a cena)

Weryfikacja: model regresji z ceną Price jako zmienną zależną i Power_HP, Mileage_km, Production_year jako głównymi zmiennymi objaśniającymi.

(#tab:unnamed-chunk-31)Cena a moc silnika samochodu używanego (używane, Price ≤ 500 000) – korelacja r
Marka Liczba Średnia Q1 Mediana Q3 Wsp korelacji
BMW 15 068 75 308 24 470 51 000 98 000 0.55
Mercedes-Benz 10 796 84 160 22 000 50 999 119 000 0.55

Dane na wykresie i w tabeli wspierają Hipotezę 7: mocniejsze samochody używane są przeciętnie droższe, a zależność ma zbliżoną siłę w BMW i Mercedes-Benz (r ≈ 0.55). Jednocześnie widoczny rozrzut punktów wokół linii trendu pokazuje, że sama moc nie wyjaśnia całej zmienności ceny, ale stanowi ważny czynnik różnicujący oferty.

3.2.8 Hipoteza H8 (Paliwo a cena – BMW vs Mercedes)

Weryfikacja: boxplot Price ~ Fuel_type * Vehicle_brand, regresja z kontrolą Mileage_km + Production_year.

(#tab:unnamed-chunk-33)Cena samochodu w zależności od rodzaju paliwa (używane, Price ≤ 400 000)
Marka Rodzaj paliwa Liczba Średnia Q1 Mediana Q3
BMW Benzyna 5 181 73 639 20 900 50 900 100 860
BMW Benzyna + LPG 451 19 104 10 000 16 900 24 950
BMW Diesel 8 979 71 139 26 500 50 999 90 000
BMW Elektryczny 182 121 928 89 572 98 088 159 900
BMW Hybrydowy 160 195 431 124 975 197 900 248 175
Mercedes-Benz Benzyna 4 949 87 454 25 900 62 000 123 500
Mercedes-Benz Benzyna + CNG 4 48 025 42 425 49 250 54 850
Mercedes-Benz Benzyna + LPG 362 26 681 12 900 22 000 32 900
Mercedes-Benz Diesel 5 263 73 900 19 900 45 900 99 900
Mercedes-Benz Elektryczny 32 316 318 302 375 336 450 351 644
Mercedes-Benz Hybrydowy 61 177 251 88 800 174 900 219 800

W autach używanych widać wyraźne różnice cen między rodzajami paliwa i są one podobnie uporządkowane w BMW oraz Mercedes-Benz. Najwyżej wyceniane są napędy alternatywne: w BMW najwyższą medianę mają hybrydy (ok. 197900 PLN) oraz auta elektryczne (ok. 97900 PLN), a w Mercedes-Benz elektryki są zdecydowanie najdroższe (mediana ok. 336450 PLN) i wyraźnie odstają od pozostałych typów.

W „klasycznych” paliwach Mercedes-Benz jest przeciętnie droższy od BMW: mediana dla benzyny to ok. 62000 PLN w Mercedesie vs 50000 PLN w BMW, a dla diesla ok. 45900 PLN vs 50900 PLN (tu BMW wypada nieco wyżej medianą, ale Mercedes ma szerszą górę rozkładu w benzynie). W obu markach instalacje gazowe (Benzyna + LPG) są najtańszą kategorią (BMW mediana ok. 16900 PLN, Mercedes ok. 22000 PLN), co tworzy wyraźny kontrast względem hybryd i elektryków.

Dodatkowo widać, że kategorie alternatywne mają mniejsze liczebności (np. elektryki i hybrydy), ale jednocześnie bardzo wysokie kwartyle, co przekłada się na „drogi” profil tych ofert w całym środkowym zakresie rozkładu (Q1–Q3). W efekcie paliwo jest jedną z cech, która najsilniej segmentuje ceny: od najtańszych aut LPG przez benzynę/diesla po wyraźnie droższe hybrydy i elektryki, szczególnie w Mercedes-Benz.

3.2.9 Hipoteza H9 (Kolor a cena – premium psychologia)

Weryfikacja: boxplot Price ~ Colour * Vehicle_brand, ANOVA z TukeyHSD post-hoc.

(#tab:unnamed-chunk-35)Cena samochodów używanych według koloru (10 najczęstszych, Price ≤ 500 000)
Marka Kolor Liczba Średnia Q1 Mediana Q3
BMW biały 2 219 105 699 57 900 89 900 135 900
BMW brązowy 376 78 656 41 900 59 800 94 625
BMW czarny 5 458 73 601 24 999 49 900 93 000
BMW czerwony 222 86 895 33 150 62 700 129 675
BMW inny 997 66 498 22 500 45 900 82 000
BMW niebieski 1 486 82 554 21 900 49 900 124 800
BMW srebrny 1 616 41 201 15 800 24 650 49 900
BMW szary 2 212 75 187 22 900 44 900 90 000
BMW zielony 165 27 067 10 900 18 900 26 500
BMW złoty 167 74 767 30 256 49 900 79 300
Mercedes-Benz biały 1 510 117 272 55 500 96 950 154 980
Mercedes-Benz brązowy 166 75 220 27 475 53 350 94 775
Mercedes-Benz czarny 3 582 95 641 28 900 60 900 129 900
Mercedes-Benz czerwony 210 119 940 58 175 98 500 169 250
Mercedes-Benz inny 613 54 697 14 900 25 900 64 900
Mercedes-Benz niebieski 785 72 547 15 999 32 900 109 900
Mercedes-Benz srebrny 2 044 45 592 14 900 25 900 49 900
Mercedes-Benz szary 1 238 108 822 35 900 76 750 158 750
Mercedes-Benz zielony 145 55 445 12 900 24 000 55 900
Mercedes-Benz złoty 190 48 409 16 900 29 850 54 350

W analizie 10 najczęstszych kolorów wśród aut używanych widać, że różnice cen między kolorami istnieją, ale ich kierunek nie jest jednolity „premium vs nie-premium” — bardziej przypominają efekt tego, jakie modele i roczniki dominują w danym kolorze. W obu markach wyraźnie wyżej wypadają kolory takie jak biały i czerwony: w BMW mediana dla białych aut to 89900 PLN, a dla czerwonych 62700 PLN, natomiast w Mercedes-Benz białe mają medianę 96000 PLN, a czerwone 99000 PLN.

Kolory „popularne” (czarny, szary) zwykle plasują się w środku rozkładu: w BMW czarny ma medianę 49900 PLN, a szary 44900 PLN, a w Mercedes-Benz czarny 60950 PLN i szary 76900 PLN. Jednocześnie w obu markach srebrny oraz „inne” kolory mają relatywnie niższe mediany (BMW srebrny 24800 PLN; Mercedes srebrny 25900 PLN), co sugeruje, że w tych barwach częściej występują tańsze oferty.

Warto też zwrócić uwagę na to, że rozkłady cen dla części kolorów mają szeroką górę (wysokie Q3), co widać szczególnie dla białego i czerwonego w Mercedesie (Q3 odpowiednio ok. 154979 i 169900 PLN) oraz dla białego w BMW (Q3 ok. 135900 PLN). Całościowo kolor może różnicować ceny, ale nie jest to „prosty” wzorzec — w tej próbce najwyżej wyceniane są wybrane barwy (zwłaszcza biały i czerwony), podczas gdy srebrny i część mniej typowych kolorów częściej pojawiają się w niższych segmentach cenowych.

3.2.10 Hipoteza H10 (Trwałość marki – cena/km)

Weryfikacja: cena_per_km <- Price / Mileage_km, boxplot po grupach Production_year + Brand, t-test.

(#tab:unnamed-chunk-37)Cena za kilometr samochodu używanego w zależności od grupy roku produkcji
Marka Grupa roku produkcji Liczba Średnia Q1 Mediana Q3
BMW 2001-2010 5 847 0.55 0.07 0.10 0.16
BMW Do 2000 749 273.66 0.03 0.05 0.12
BMW Po 2010 8 554 244.27 0.35 0.87 2.89
Mercedes-Benz 2001-2010 4 332 0.22 0.06 0.11 0.19
Mercedes-Benz Do 2000 1 332 26.43 0.04 0.11 0.32
Mercedes-Benz Po 2010 5 264 519.50 0.52 1.56 5.61

Wyniki dla „ceny za kilometr” pokazują bardzo wyraźny podział według rocznika: w obu markach najnowsze auta (Po 2010) mają zdecydowanie wyższą medianę ceny/km niż starsze grupy, co widać też na boxplotach jako przesunięcie rozkładu w górę. Dla BMW mediana rośnie z ok. 0.05–0.10 PLN/km w grupach „Do 2000” i „2001–2010” do ok. 0.87 PLN/km po 2010, a dla Mercedes-Benz z ok. 0.11 PLN/km do ok. 1.55 PLN/km.

Porównując marki w tej samej grupie rocznika, Mercedes-Benz jest droższy „na kilometr” w najnowszej grupie: po 2010 mediana to ok. 1.55 PLN/km wobec ok. 0.87 PLN/km w BMW, a także wyższy jest cały środek rozkładu (Q1–Q3). Dla roczników 2001–2010 mediany są bardzo zbliżone (ok. 0.10–0.11 PLN/km), co sugeruje, że różnice między markami najmocniej ujawniają się w segmencie nowszych aut.

Widać też silną prawostronną skośność „ceny/km” (szczególnie w grupach „Do 2000” i „Po 2010”), gdzie mediany są relatywnie niskie, ale średnie są wielokrotnie wyższe, co wynika z pojedynczych przypadków ekstremalnie wysokiej ceny/km (np. bardzo mały przebieg przy wysokiej cenie). Dlatego w tej hipotezie najbardziej miarodajne do porównań są mediana i kwartyle, które stabilnie pokazują wzrost ceny/km wraz z nowszym rokiem produkcji oraz przewagę Mercedesa w autach po 2010.

3.2.11 Hipoteza H11 (Cena a moc i lokalizacja – BMW vs Mercedes (województwa) - kilka map

Średnie ceny aut używanych różnią się między województwami, a w wielu regionach Mercedes-Benz osiąga wyższe wartości niż BMW (np. dolnośląskie: ok. 80 tys. PLN vs ok. 61 tys. PLN). Na mapach widać więc, że poziom cen nie jest przestrzennie jednolity i zależy od regionu, co sugeruje zróżnicowanie „profilu” ofert w skali kraju.

Mapy średniej mocy pokazują podobny regionalny wzorzec: województwa z wyższymi średnimi cenami często mają też wyższą przeciętną moc silnika (np. w dolnośląskim średnia moc jest wyższa dla Mercedes-Benz niż dla BMW: ok. 202 KM vs ok. 198 KM). Oznacza to, że w części regionów struktura ogłoszeń przesuwa się w stronę mocniejszych wersji, co naturalnie podnosi ogólny poziom ofert.

Udział aut o mocy powyżej 200 KM domyka ten obraz: różnice między województwami są widoczne i spójne kierunkowo dla obu marek. Najwyższe udziały występują w podlaskim (BMW ok. 50%, Mercedes-Benz ok. 46%), a najniższe odpowiednio w lubuskim (BMW ok. 31%) i opolskim (Mercedes-Benz ok. 30%), co pokazuje, że „mocny” segment rynku ma wyraźną koncentrację regionalną.

4. Analiza opisowa

4.1 Wykres korelacji

Analiza korelacji dostarczyła informacji o zależnościach między zmiennymi numerycznymi w zbiorze danych dotyczących samochodów używanych. Najbardziej skorelowane ze sobą są zmienne Displacement_cm3 oraz Power_HP (korelacja = 0.82 - dość silna). Umiarkowaną korelacją charakteryzują się zmienne Price i Power_HP (korelacja = 0.64). Słabaszą, ale wartą uwagi zależnością charakteryzują się zmienne Price i Production_year oraz Production_year i Doors_number.

5. Wnioskowanie statystyczne

5.1 Test ANCOVA

##                    Df    Sum Sq   Mean Sq F value Pr(>F)    
## Vehicle_brand       1 1.174e+12 1.174e+12   204.7 <2e-16 ***
## Mileage_km          1 8.324e+13 8.324e+13 14516.0 <2e-16 ***
## Production_year     1 9.293e+12 9.293e+12  1620.7 <2e-16 ***
## Residuals       26073 1.495e+14 5.734e+09                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(#tab:unnamed-chunk-42)Tabela wyników ANCOVA dla ceny w zależności od marki, wielkości przebiegu i roku produkcji
Źródło Df Sum Sq Mean Sq F value Pr(>F)
Vehicle_brand 1 1.173934e+12 1.173934e+12 204.7296 0
Mileage_km 1 8.323554e+13 8.323554e+13 14515.9567 0
Production_year 1 9.292950e+12 9.292950e+12 1620.6546 0
Residuals 26073 1.495045e+14 5.734072e+09 NA NA

Wyniki ANCOVA dla hipotezy H1 pokazują, że marka pojazdu (Vehicle_brand) ma istotny wpływ na cenę (Price) po kontrolowaniu przebiegu (Mileage_km) i roku produkcji (Production_year). Wartość p dla Vehicle_brand jest mniejsza niż 0.05, co pozwala odrzucić hipotezę zerową o braku różnic cen między markami po uwzględnieniu tych czynników kontrolnych. Oznacza to, że nawet po uwzględnieniu wpływu przebiegu i roku produkcji, marka samochodu pozostaje istotnym czynnikiem różnicującym ceny samochodów używanych.

5.2 ANOVA Price ~ Fuel_type + Transmission

##                           Df    Sum Sq   Mean Sq F value Pr(>F)    
## Fuel_type                  5 1.030e+13 2.059e+12   268.7 <2e-16 ***
## Transmission               1 3.163e+13 3.163e+13  4126.5 <2e-16 ***
## Fuel_type:Transmission     2 1.754e+12 8.771e+11   114.4 <2e-16 ***
## Residuals              25971 1.991e+14 7.665e+09                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(#tab:unnamed-chunk-43)Mediany cen samochodów używanych w zależności od typu paliwa i skrzyni biegów
Typ paliwa Skrzynia biegów Mediana Q1 Q3 Liczba obserwacji
Diesel Automatic 70355 39900.00 132000 9646
Diesel Manual 24990 16700.00 41600 4663
Electric Automatic 119900 90224.25 186556 214
Gasoline Automatic 89900 48900.00 151000 7114
Gasoline Manual 19970 13900.00 32999 3292
Gasoline + CNG Automatic 49250 42425.00 54850 4
Gasoline + LPG Automatic 24900 16900.00 35900 433
Gasoline + LPG Manual 13500 8675.00 20900 376
Hybrid Automatic 199900 128475.00 252851 238

Na podstawie wyników analizy ANOVA można stwierdzić, że zarówno typ paliwa (Fuel_type), jak i skrzynia biegów (Transmission) mają istotny wpływ na cenę samochodów używanych (p < 0.05). Ponadto, interakcja między tymi dwoma czynnikami również jest istotna statystycznie (p < 0.05). Odrzucamy hipotezy zerowe i przyjmujemy hipotezę alternatywną, co oznacza, że ceny używanych samochodów różnią się istotnie w zależności od typu paliwa i skrzyni biegów. Boxplot wizualizuje te różnice, pokazując zróżnicowanie cen dla różnych kombinacji typu paliwa i skrzyni biegów. Tabela z medianami cen dodatkowo ilustruje, które kombinacje są związane z wyższymi lub niższymi medianami cen samochodów używanych.

5.3 Test ANOVA / Kruskal–Wallis Price ~ Fuel_type

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Price by Fuel_type
## Kruskal-Wallis chi-squared = 1486.8, df = 5, p-value < 2.2e-16
(#tab:unnamed-chunk-45)Mediany cen samochodów używanych w zależności od typu paliwa
Typ paliwa Mediana Q1 Q3 Liczba obserwacji
Diesel 49900 24900.00 95900 14363
Electric 119900 90224.25 186556 214
Gasoline 58500 23500.00 120900 10445
Gasoline + CNG 49250 42425.00 54850 4
Gasoline + LPG 18900 11500.00 28700 813
Hybrid 199900 128475.00 252851 238

Na podstawie testu Kruskala-Wallisa można stwierdzić, że istnieje istotna różnica w medianach cen samochodów używanych w zależności od typu paliwa (p < 0.05). Odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną, co oznacza, że ceny samochodów różnią się istotnie statystycznie w zależności od rodzaju paliwa. Boxplot wizualizuje te różnice, pokazując zróżnicowanie cen dla różnych typów paliwa. Tabela z medianami cen dodatkowo ilustruje, które typy paliwa są związane z wyższymi lub niższymi medianami cen samochodów używanych.

6. Podsumowanie

6.1 Cel Badawczy

Projekt stanowi kompleksową analizę porównawczą cen i wartości samochodów marek BMW i Mercedes-Benz na polskim rynku wtórnym. Badanie opiera się na zbiorze danych z platformy Kaggle zawierającym ogłoszenia sprzedaży używanych samochodów w Polsce. Autorzy (Paweł Cyrocki, Damian Skinder, Patryk Siuda) zastosowali metodykę opracowaną w języku R z zamiarem identyfikacji kluczowych czynników wpływających na wycenę pojazdów premium.

6.2 Kluczowe Hipotezy i Wyniki

(#tab:unnamed-chunk-46)Kluczowe Hipotezy i Wyniki
Hipoteza Opis Rezultat
H1 Przebieg a cena Potwierdzona – ujemna korelacja (r ≈ −0.67 BMW; −0.61 Mercedes)
H2 Rok produkcji a cena Potwierdzona – nowsze roczniki znacznie droższe
H3 Typ nadwozia a cena Potwierdzona – SUV-y droższe niż sedany/kompakty
H4 Skrzynia biegów a cena Potwierdzona – automaty o 55–54 tys. PLN droższe
H5 Pierwszy właściciel a cena Potwierdzona – auta od 1. właściciela zdecydowanie droższe
H6 Typ napędu a cena Potwierdzona – napęd 4×4 najwyżej wyceniany
H7 Moc silnika a cena Potwierdzona – moc istotnie koreluje z ceną (r ≈ 0.55)
H8 Typ paliwa a cena Potwierdzona – elektryki/hybrydy droższe (Mercedes szczególnie)
H9 Kolor a cena Częściowo – biały i czerwony wyżej, ale nie ‘czysty’ efekt premium
H10 Cena/km a rok produkcji Potwierdzona – Mercedes ma wyższy stosunek ceny/km w nowych autach
H11 Cena, moc i lokalizacja Potwierdzona – zróżnicowanie regionalne (województwa)

6.3 Główne Ustalenia

6.3.1 Ceny i Rozkłady

Mediana cen aut używanych jest zbliżona w obu markach (BMW: 51 800 PLN; Mercedes-Benz: 52 500 PLN), jednak Mercedes ma wyżej umiejscowioną górną część rozkładu (Q3: 120 650 PLN vs 99 000 PLN w BMW). Średnie ceny znacznie się różnią (BMW: 78 490 PLN; Mercedes: 91 645 PLN), co wynika z obecności droższych outlierów.

6.3.2 Czynniki Cenowe

Najsilniej ceny różnicują:

Rok produkcji i przebieg (negatywna korelacja z przebiegiem)

Typ paliwa (elektryki/hybrydy premiowane, szczególnie u Mercedes)

Typ napędu (4×4 najdroższy)

Historia właściciela (pierwszy właściciel daje znaczną premię)

6.3.3 Różnice Między Markami

Mercedes-Benz wykazuje wyższą premię za auta ekologiczne (elektryki: mediana 336 450 PLN vs niska reprezentacja w BMW). W segmencie klasycznych paliw (benzyna/diesel) różnice są mniejsze, jednak Mercedes utrzymuje wyższe kwartyle górne.

6.3.4 Wnioskowanie Statystyczne

Test ANCOVA potwierdził istotność marki na cenę po kontrolowaniu przebiegu i roku (p < 0.05)

Test Kruskala-Wallisa wykazał, że typ paliwa istotnie wpływa na ceny (p < 0.05)

Interakcja między paliwem a skrzynią biegów również istotna statystycznie

Analiza Przestrzenna Ceny i moc silników wykazują wyraźne zróżnicowanie regionalne. Województwa takie jak podlaskie charakteryzują się wyższym udziałem aut o mocy >200 KM, co wskazuje na heterogeniczność struktury ofert w kraju.

6.4 Wkład Projektu

Projekt stanowi praktyczną aplikację technik analitycznych do rzeczywistego problemu rynku wtórnego. Wyniki mogą być użyteczne dla:

Dealerów i sprzedawców (wycena pojazdów)

Nabywców (identyfikacja uczciwej ceny za samochód)

Analityków rynku (trendy w segmencie premium)

Dokument jest napisany w RMarkdown z formatem bookdown, co ułatwia odtwarzalność i interaktywne przeglądanie wyników.