Analiza danych - projekt
2026-01-31
1 Wstęp
Niniejszy dokument opisuje projekt zespołowy dotyczący analizy danych przy użycia języka R. Projekt obejmuje zbieranie, przetwarzanie, analizę oraz wizualizację danych. Jego celem jest porównawcza analiza cenowa i predykcja wartości samochodów premium na polskim rynku wtórnym.
Dane do analizy pozyskano ze strony: https://www.kaggle.com/datasets/bartoszpieniak/poland-cars-for-sale-dataset.
1.1 Założenia projektu
Analizę ograniczono do samochodów marek BMW i Mercedes-Benz, co wynika z konieczności zapewnienia wysokiej jakości statystycznej danych. Szeroki zakres wszystkich marek (~200k obserwacji, 20+ brandów) wprowadza znaczną heteroskedastyczność (różną wariancję reszt w modelach regresji) oraz nadmiar obserwacji odstających, co destabilizuje estymatory i obniża moc testów hipotez. Aby analizowane wartosci były bardziej miarodajne do badania posłużyły ogłoszenia dla samochodów używanych.
1.2 Opis zmiennych
Index - unikalny identyfikator ogłoszenia
Price - cena samochodu
Currency - waluta, w której podana jest cena
Condition - stan samochodu (nowy/używany)
Vehicle_brand - marka samochodu
Vehicle_model - model samochodu
Vehicle_version - wersja samochodu
Vehicle__generation - generacja samochodu
Production_year - rok produkcji samochodu
Mileage__km - przebieg samochodu w kilometrach
Power_HP - moc samochodu w koniach mechanicznych
Displacement__cm3 - pojemność silnika w centymetrach sześciennych
Fuel_type - rodzaj paliwa
CO2_emission - emisja CO2 w gramach na kilometr
Drive - typ napędu
Transmission - rodzaj skrzyni biegów
Type - typ nadwozia
Doors_nuber1 - liczba drzwi
Colour - kolor samochodu
Orgin_country - kraj pochodzenia
First_owner - czy właściciel jest pierwszym właścicielem
First_registration_date - data pierwszej rejestracji
Offer_publication_date - data publikacji ogłoszenia
Offer_location - lokalizacja oferty
Features - cechy dodatkowe samochodu
1.3 Hipotezy badawcze
W tej części definiujemy hipotezy, które będą weryfikowane w dalszej analizie eksploracyjnej oraz modelowaniu.
H1 (Cena a przebieg)
Samochody BMW i Mercedes z większym przebiegiem mają istotnie niższą cenę niż z mniejszym przebiegiem, z potencjalnie silniejszą zależnością u Mercedes. Weryfikacja: analiza zależności między zmiennymi Price i Mileage_km (wykresy rozrzutu, korelacja, model regresji).
H2 (Cena a rok produkcji)
Nowsze modele BMW i Mercedes są droższe niż starsze, przy czym BMW może szybciej tracić na wartości w porównaniu do Mercedes. Weryfikacja: analiza związku Price z Production_year (przedziały roczników, wykresy pudełkowe, modele regresji).
H3 (Typ nadwozia a cena)
W segmencie BMW i Mercedes SUV-y/crossovery są droższe niż sedany/hatchbacki, z różnicami między markami (np. większe premiowanie SUV-ów u BMW). Weryfikacja: porównanie rozkładów Pricemiędzy kategoriami zmiennej Type (boxploty, testy różnic średnich / ANOVA).
H4 (Skrzynia biegów a cena)
Samochody BMW i Mercedes z automatyczną skrzynią biegów są średnio droższe niż samochody z manualną skrzynią biegów (mocniej dla Mercedesa) Weryfikacja: porównanie cen w dwóch grupach (Transmission = automat vs manual) z użyciem odpowiednich testów statystycznych i wizualizacji - proponowane wykorzystanie t-test lub Wilcoxon Price ~ Transmission w podzbiorach marek, wizualizacja violin plots.
H5 (Pierwszy właściciel a cena)
BMW i Mercedes od pierwszego właściciela są droższe, z większą premią u Mercedes ze względu na prestiż. Weryfikacja: porównanie cen dla zmiennej First_owner (tak vs nie) z wykorzystaniem wykresów oraz testów różnic średnich.
H6 (Napęd a cena)
Samochody BMW i Mercedes z napędem na cztery koła (4x4) są średnio droższe niż samochody z napędem na jedną oś, przy porównywalnych pozostałych parametrach, szczególnie w modelach BMW. Weryfikacja: porównanie rozkładów ceny pomiędzy kategoriami zmiennej Drive (np. FWD, RWD, 4x4) z uwzględnieniem innych cech w modelu (m.in. Power_HP, Production_year), np. regresja Price ~ Drive * Vehicle_brand + Power_HP + Production_year
H7 (Moc silnika a cena)
Wyższa moc (Power_HP) koreluje z ceną w obu markach po kontroli przebiegu i roku, z silniejszą relacją u BMW sportowych modeli. Weryfikacja: model regresji z ceną jako zmienną zależną i Power_HP, Mileage_km, Production_year jako głównymi zmiennymi objaśniającymi.
H8 (Paliwo a cena – BMW vs Mercedes) Hybrydy i elektryki BMW/Mercedes są droższe niż diesle/benzyna przy porównywalnym przebiegu i roku, z większą premią u Mercedes (ekoprestiż). Weryfikacja: boxplot Price ~ Fuel_type * Vehicle_brand, regresja z kontrolą Mileage_km + Production_year.
H9 (Kolor a cena – premium psychologia) Popularne kolory kojarzone z markami premium (czarny, szary, biały) osiągają wyższe ceny niż mniej typowe (czerwony, zielony), mocniej u Mercedes. Weryfikacja: violin plot Price ~ Coluor * Vehicle_brand, ANOVA z TukeyHSD post-hoc.
H10 (Trwałość marki – cena/km) Mercedes ma wyższy stosunek Price/Mileage_km niż BMW (lepsza wartość rezydualna) dla aut >10 lat. Weryfikacja: cena_per_km <- Price / Mileage_km, boxplot po grupach Production_year + marka, t-test.
H11 (Cena a moc i lokalizacja – BMW vs Mercedes (województwa)) Średnia moc silnika Power_HP BMW i Mercedesa jest wyższa w regionach o wyższej średniej cenie Price ofert.