Dominik Łukasiuk, Igor Korusiewicz, Szymon Chodun, Nicholas Pachos

1 Data Cleansing & Data Wrangling

1.1 Wczytanie danych

Wczytujemy plik z surowymi danymi samochody_new.csv

1.2 Usunięcie brakujących wartości

Badamy i usuwamy brakujące wartości w danych, używamy do tego pakietów (tidyverse) i (naniar).

# Wczytanie pliku CSV
samochody_new <- read_csv("samochody_new.csv")

# Podgląd danych
head(samochody_new)
## # A tibble: 6 × 10
##   brand      model  price_in_pln mileage gearbox engine_capacity fuel_type city 
##   <chr>      <chr>         <dbl> <chr>   <chr>   <chr>           <chr>     <chr>
## 1 alfa-romeo Alfa …        14700 133 76… manual  1 970 cm3       Benzyna   Łask 
## 2 alfa-romeo Alfa …        14000 133 76… manual  1 970 cm3       Benzyna   Mława
## 3 alfa-romeo Alfa …         4500 227 00… manual  1 970 cm3       Benzyna   Cheł…
## 4 alfa-romeo Alfa …        17100 227 00… manual  1 970 cm3       Benzyna   Jasło
## 5 alfa-romeo Alfa …         3900 239 00… manual  1 995 cm3       Benzyna+… Pabi…
## 6 alfa-romeo Alfa …        17200 239 00… manual  1 995 cm3       Benzyna+… Wars…
## # ℹ 2 more variables: voivodeship <chr>, year <chr>
#Brakujace obserwacje
n_miss(samochody_new) #liczba brakujacych danych
## [1] 5100
n_complete(samochody_new) #liczba kompletynch obserwacji
## [1] 910130
prop_miss(samochody_new) #proporcja
## [1] 0.00557237
# Sprawdzanie brakujących wartości
samochody_new %>% 
  miss_case_table()
## # A tibble: 4 × 3
##   n_miss_in_case n_cases pct_cases
##            <int>   <int>     <dbl>
## 1              0   86504  94.5    
## 2              1    4939   5.40   
## 3              2      79   0.0863 
## 4              3       1   0.00109
# Wizualizacja braków danych

#Wizualizacja brakujacych obserwacji
vis_miss(samochody_new, warn_large_data = FALSE)

#wizualizacja brakujacych danych
gg_miss_fct(samochody_new, fct = gearbox) 

#brakujace dane ze wzgledu na typ skrzyni biegow
gg_miss_upset(samochody_new, 
              nsets = 10)

1.3 Poprawa formatowania i eliminacja ocena brakujących

Zamieniami dane w odpowiednich kolumnach (np. year z milage, do swojej kolumy)

1.4 Imputowanie wartości dla brakujących lub błędnych danych

# Uzyskanie pierwszej imputacji
fuel_brand_imputed <- complete(imputed_data, 1)

# Zaktualizowanie oryginalnych kolumn fuel_type i brand w samochody_new
samochody_new$fuel_type <- fuel_brand_imputed$fuel_type
samochody_new$brand <- fuel_brand_imputed$brand

vis_miss(samochody_new, warn_large_data = FALSE)

1.5 Oczyszcenie danych z dalszych brakujących wartości

# Usunięcie wierszy z NA w kolumnie 'fuel_type'
samochody_new_cleaned <- samochody_new[!is.na(samochody_new$fuel_type), ]

# Wyświetlenie oczyszczonej ramki danych
print(samochody_new_cleaned)
## # A tibble: 86,543 × 10
##    brand      model price_in_pln mileage gearbox engine_capacity fuel_type city 
##    <chr>      <chr>        <dbl> <chr>   <chr>   <chr>           <chr>     <chr>
##  1 alfa-romeo Alfa…        14700 133 76… manual  1 970 cm3       Benzyna   Łask 
##  2 alfa-romeo Alfa…        14000 133 76… manual  1 970 cm3       Benzyna   Mława
##  3 alfa-romeo Alfa…         4500 227 00… manual  1 970 cm3       Benzyna   Cheł…
##  4 alfa-romeo Alfa…        17100 227 00… manual  1 970 cm3       Benzyna   Jasło
##  5 alfa-romeo Alfa…         3900 239 00… manual  1 995 cm3       Benzyna+… Pabi…
##  6 alfa-romeo Alfa…        17200 239 00… manual  1 995 cm3       Benzyna+… Wars…
##  7 alfa-romeo Alfa…        15500 180 71… manual  1 970 cm3       Benzyna   Legi…
##  8 alfa-romeo Alfa…        24900 180 71… manual  1 970 cm3       Benzyna   Prus…
##  9 alfa-romeo Alfa…         5800 195 00… manual  1 598 cm3       Benzyna   Opal…
## 10 alfa-romeo Alfa…        17500 195 00… manual  1 598 cm3       Benzyna   Wars…
## # ℹ 86,533 more rows
## # ℹ 2 more variables: voivodeship <chr>, year <chr>
vis_miss(samochody_new_cleaned, warn_large_data = FALSE)

#decyzja o usunięciu obserwacji z NA 
samochody_dowiz <- samochody_new[complete.cases(samochody_new), ]

Wynikiem jest poniższa tabela z danymi po oczyszczeniu z brakujących wartości:

## # A tibble: 81,387 × 10
##    brand      model price_in_pln mileage gearbox engine_capacity fuel_type city 
##    <chr>      <chr>        <dbl> <chr>   <chr>   <chr>           <chr>     <chr>
##  1 alfa-romeo Alfa…        14700 133 76… manual  1 970 cm3       Benzyna   Łask 
##  2 alfa-romeo Alfa…        14000 133 76… manual  1 970 cm3       Benzyna   Mława
##  3 alfa-romeo Alfa…         4500 227 00… manual  1 970 cm3       Benzyna   Cheł…
##  4 alfa-romeo Alfa…        17100 227 00… manual  1 970 cm3       Benzyna   Jasło
##  5 alfa-romeo Alfa…         3900 239 00… manual  1 995 cm3       Benzyna+… Pabi…
##  6 alfa-romeo Alfa…        17200 239 00… manual  1 995 cm3       Benzyna+… Wars…
##  7 alfa-romeo Alfa…        15500 180 71… manual  1 970 cm3       Benzyna   Legi…
##  8 alfa-romeo Alfa…        24900 180 71… manual  1 970 cm3       Benzyna   Prus…
##  9 alfa-romeo Alfa…         5800 195 00… manual  1 598 cm3       Benzyna   Opal…
## 10 alfa-romeo Alfa…        17500 195 00… manual  1 598 cm3       Benzyna   Wars…
## # ℹ 81,377 more rows
## # ℹ 2 more variables: voivodeship <chr>, year <chr>

Możemy zauważyc kompletnosc danych po oczyszczeniu z brakujących wartości

2 Wizualizacja danych

Wizualizacja danych to kluczowy proces w analizie danych, który pozwala na skuteczne przedstawienie informacji w formie graficznej. Dzięki odpowiednim wykresom i diagramom, możemy w łatwy sposób zobaczyć wzorce, zależności i trendy, które mogą być trudne do uchwycenia w surowych danych liczbowych. Celem wizualizacji jest uczynienie danych bardziej przystępnymi i zrozumiałymi, zarówno dla specjalistów, jak i osób nieznających się na analizie danych.

2.1. Wykresy zmiennej ilościowej

Wykres liniowy (line plot) - Trend cen samochodów w zależności od roku produkcji

## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?

Średnia cena samochodów jest najwyższa dla nowych modeli, ale ciekawe jest to, że samochody z 1999 roku bywają droższe od tych z 1998 czy 1997 🤔.

Wykres średniej ceny w zależności od rodzaju paliwa

Najdroższe są samochody elektryczne, które zyskują na popularności z powodu rosnącego zainteresowania ekologicznymi i nowoczesnymi technologiami. Wysoka cena tych pojazdów wynika z kosztów baterii, zaawansowanej technologii oraz innowacyjnych rozwiązań, które zapewniają ich dużą wydajność i zasięg. Oprócz elektrycznych, drogie są także pojazdy hybrydowe, które łączą napęd spalinowy z elektrycznym, oferując większą oszczędność paliwa i mniejsze emisje spalin 🌱🚗.

2.2 Wykresy zmiennej jakościowej

Wykres kołowy - Typ paliwa, liczba samochodów w zależności od roku produkcji

Wykres pokazuje procentowy udział paliw w samochodach. Benzyna i Diesel dominują, podczas gdy paliwa alternatywne (LPG, CNG, elektryczne, hybrydy) mają niewielki udział. 🚗💨

Top 10 najczęstszych marek samochodów

Z analizowanego wykresu dotyczącego najczęściej rejestrowanych marek samochodów w Polsce wynika, że Volkswagen zajmuje pierwsze miejsce, z liczbą rejestracji przekraczającą 10 000 sztuk, co czyni go jedyną marką w tej czołówce, której wynik wyraźnie przekracza tę granicę. Obok Volkswagena, w zestawieniu znalazły się takie marki jak Opel i BMW, które również cieszą się dużą popularnością na polskim rynku motoryzacyjnym.

2.3 Wykresy dwóch zmiennych jakościowych

Wykresy dwóch zmiennych jakościowych

Wykres pokazuje liczbę samochodów według rodzaju paliwa w województwach. Benzyna i Diesel dominują, szczególnie w Mazowieckim, Śląskim i Wielkopolskim. Paliwa alternatywne (LPG, CNG, hybrydy, elektryczne) stanowią niewielki udział. 🚗🔋

2.4 Wykresy dwóch zmiennych ilościowych

Wykres liczby samochodów (rodzaju paliwa) w zależności od województwa

Wykres pokazuje liczbę samochodów według roku produkcji. Najwięcej aut pochodzi z ostatnich kilkunastu lat, a produkcja wzrosła po 2000 r., osiągając szczyt ok. 2018 r. 📈🚗

Wykres cena vs przebieg w zaleznosci od roku produkcji

Cena samochodu w zależności od przebiegu i rocznika pokazuje wyraźną zależność między wiekiem pojazdu a jego wartością rynkową. Zwykle najdroższe są samochody nowe lub z niewielkim przebiegiem, ponieważ są wciąż objęte gwarancją, oferują nowoczesne technologie, mają mniejsze zużycie części i są bardziej efektywne pod względem paliwowym. Takie auta zazwyczaj utrzymują swoją wartość na rynku przez dłuższy czas.

3 Analiza opisowa

W tej sekcji przeanalizujemy podstawowe miary statystyczne, takie jak średnia, mediana, minimalne i maksymalne wartości oraz odchylenie standardowe dla kluczowych zmiennych, takich jak przebieg, czy pojemność silnika, a bliżej zbadamy właściowości na przykład skośność i kurtoza dla cen samochodów w zależności od marki. Ponadto, zbadamy istniejące korelacje między zmiennymi numerycznymi i sprawdzimy jakie mają wpływ na cenę samochodu.

Średnia cena samochodów w całym zbiorze wynosi 76 580,2 PLN, przy odchyleniu standardowym równym 100 937 PLN, co wskazuje na znaczną zmienność cen w analizowanym zestawie danych. Minimalna cena samochodu to 1 111 PLN, mediana wynosi 46 900 PLN, a maksymalna cena osiąga aż 2 550 000 PLN, co świadczy o dużej rozpiętości cen w zbiorze.

Rozstęp międzykwartylowy (IQR), czyli różnica między trzecim a pierwszym kwartylem, wynosi 66 099 PLN, co pokazuje zakres, w którym znajduje się środkowe 50% cen samochodów. Współczynnik zmienności (CV), obliczony jako stosunek odchylenia standardowego do średniej, wynosi 1,3 (130%), co dodatkowo podkreśla znaczną rozbieżność cen w analizie.

  1. Rok produkcji ma silny związek z przebiegiem (korelacja -0,7) – nowsze samochody mają zazwyczaj niższy przebieg.

  2. Cena samochodu jest najbardziej zależna od roku produkcji (korelacja 0,5) – nowsze modele są droższe.

  3. Przebieg również wpływa na cenę (korelacja -0,4) – samochody z niższym przebiegiem są droższe.

  4. Pozostałe zależności, np. między pojemnością silnika a ceną lub przebiegiem, są słabe i nie mają znaczącego wpływu.

Podsumowując, rok produkcji i przebieg to kluczowe czynniki wpływające na cenę samochodu w tym zbiorze danych.

Podsumowanie cen samochodów według marki (w tym ogólnie)
Marka Min Max Kwartyl dolny Mediana Kwartyl górny Średnia Odch. std. IQR Odchylenie ćwiartkowe Skośność Kurtoza
Ogólnie 1111 2550000 23900.00 46900.0 89999.0 76580.17 100936.95 66099.00 33049.50 5.20 52.04
alfa-romeo 1900 419000 14700.00 19000.0 39999.0 41600.59 57213.65 25299.00 12649.50 3.11 11.01
aston-martin 83000 666666 279007.00 349800.0 429000.0 371430.05 136509.47 149993.00 74996.50 0.51 0.02
audi 2150 759000 19999.00 42900.0 109400.0 91301.69 116632.83 89401.00 44700.50 2.53 7.63
bentley 60000 1290000 316250.00 404000.0 824250.0 576481.09 343619.24 508000.00 254000.00 0.54 -0.96
bmw 3999 1285000 70000.00 124900.0 209550.0 166997.42 143135.71 139550.00 69775.00 2.09 5.95
cadillac 8990 909900 17950.00 37999.0 72900.0 91445.51 154650.87 54950.00 27475.00 3.21 11.82
chevrolet 3200 799999 21350.00 45499.5 149900.0 122174.16 174512.93 128550.00 64275.00 2.46 5.68
citroen 1500 224852 7900.00 18900.0 55700.0 36281.72 38872.09 47800.00 23900.00 1.62 2.81
dacia 2900 113400 26199.25 40745.0 72850.0 48918.33 28227.11 46650.75 23325.38 0.42 -0.96
daewoo 1230 16000 2900.00 3745.0 5575.0 4529.64 2539.77 2675.00 1337.50 1.94 4.83
daihatsu 3999 27600 7500.00 9900.0 14350.0 11425.63 5890.10 6850.00 3425.00 1.12 0.48
dodge 5000 829990 19399.00 36450.0 149250.0 110659.50 146543.86 129851.00 64925.50 2.02 4.10
ferrari 490770 2490000 590400.00 750000.0 1300000.0 1001735.41 503736.36 709600.00 354800.00 1.07 0.45
fiat 1600 355000 16900.00 45900.0 62900.0 48303.64 39181.69 46000.00 23000.00 1.95 8.12
ford 1500 328700 24500.00 35900.0 57900.0 45850.93 35642.71 33400.00 16700.00 2.38 8.70
honda 1500 249900 14900.00 30950.0 58000.0 42311.98 39746.06 43100.00 21550.00 2.06 5.81
hyundai 2950 315800 34000.00 51900.0 83900.0 62264.97 39625.05 49900.00 24950.00 1.50 4.01
infiniti 11000 299900 36000.00 59500.0 77000.0 63288.49 37420.48 41000.00 20500.00 1.32 3.70
isuzu 18600 290000 37000.00 90999.0 140000.0 96771.53 61770.78 103000.00 51500.00 0.57 -0.65
jaguar 2900 515000 18500.00 57900.0 119000.0 81953.54 85464.32 100500.00 50250.00 2.13 5.71
jeep 7500 889800 44900.00 84900.0 134500.0 110684.30 98558.23 89600.00 44800.00 2.41 8.83
kia 2900 299000 37900.00 58000.0 84900.0 62737.83 35179.67 47000.00 23500.00 0.69 1.27
lamborghini 289000 2550000 810000.00 1365000.0 1512250.0 1271214.29 714259.83 702250.00 351125.00 0.43 -0.96
lancia 3499 88129 18172.50 24700.0 34900.0 32130.21 24460.78 16727.50 8363.75 1.21 0.22
land-rover 8000 908220 80124.25 155000.0 265022.2 202113.26 171048.04 184898.00 92449.00 1.52 2.43
maserati 30750 530000 115000.00 159450.0 237000.0 182977.50 102752.12 122000.00 61000.00 1.21 1.55
mazda 1800 213800 15000.00 61900.0 104000.0 65434.11 51071.99 89000.00 44500.00 0.48 -0.83
mercedes-benz 1500 2298999 55000.00 116900.0 208000.0 164613.91 174014.86 153000.00 76500.00 3.14 16.00
mini 4000 241400 25000.00 41900.0 70399.0 55868.47 45216.12 45399.00 22699.50 1.64 2.39
mitsubishi 1600 213890 21600.00 41900.0 75000.0 55136.29 46713.11 53400.00 26700.00 1.45 1.78
nissan 1300 301900 22900.00 35500.0 54500.0 42341.35 32217.08 31600.00 15800.00 2.46 11.05
opel 1111 264000 17499.00 30900.0 52900.0 39309.32 30372.88 35401.00 17700.50 1.70 4.11
peugeot 1750 270600 14387.50 29700.0 49900.0 39827.09 36357.96 35512.50 17756.25 1.90 4.14
porsche 16800 1359000 94000.00 189500.0 309999.5 244985.93 200356.78 215999.50 107999.75 1.63 3.06
renault 1500 289000 21000.00 34900.0 59999.0 46414.34 38302.64 38999.00 19499.50 1.84 4.28
rover 1950 17000 3900.00 4900.0 5900.0 5629.82 3406.80 2000.00 1000.00 2.36 5.13
saab 3500 94000 10000.00 17350.0 25900.0 21188.74 14536.50 15900.00 7950.00 1.84 4.37
seat 2200 192800 21900.00 37949.5 64922.5 47084.68 33434.49 43022.50 21511.25 1.17 1.22
skoda 1500 318794 16100.00 48900.0 104400.0 63034.31 52032.58 88300.00 44150.00 0.80 0.19
smart 1800 55350 6750.00 8100.0 10850.0 9964.44 6190.27 4100.00 2050.00 3.56 18.32
toyota 2800 519410 39900.00 64000.0 102000.0 77284.01 52493.30 62100.00 31050.00 1.71 4.95
volkswagen 1300 470000 20900.00 43500.0 81500.0 62817.90 63268.11 60600.00 30300.00 2.46 8.16
volvo 2000 479900 17900.00 47900.0 119900.0 75681.29 74555.75 102000.00 51000.00 1.40 1.78

Statystyki zbiorcze dla wszystkich marek samochodów kształtują się następująco: średnia cena samochodów wynosi 76 580,17 PLN, ale rozkład cen jest bardzo szeroki, co wskazuje na dużą różnorodność oferty. Ceny wahają się od 1 111 PLN do 2 550 000 PLN, co pokazuje, że w zbiorze znajdują się zarówno bardzo tanie, jak i luksusowe modele. Mediana wynosi 46 900 PLN, co sugeruje, że połowa samochodów jest tańsza niż ta kwota. Duże odchylenie standardowe (100 936,95 PLN) oraz wysoka skośność (5,2) i kurtoza (52,04) wskazują na silną prawostronną skośność rozkładu – większość samochodów ma stosunkowo niskie ceny, ale istnieje spora liczba bardzo drogich modeli, które podnoszą średnią.

Lamborghini to marka z najwyższymi cenami. Średnia cena wynosi 1 271 214,29 PLN, a zakres cen to 289 000–2 550 000 PLN. To jedyna marka, której ceny przekraczają 2 miliony PLN.

Smart ma najniższą medianę cen (8 100 PLN) i jednocześnie najwyższą skośność (3,56) oraz kurtozę (18,32), co wskazuje na silne skupienie się na niskich cenach z nielicznymi wyjątkami.

Mercedes-Benz marka o szerokim zakresie cen (1 500–2 298 999 PLN) i wysokim odchyleniu standardowym (174 014,86 PLN), co pokazuje, że oferuje zarówno modele budżetowe, jak i luksusowe.

Luksusowe marki (Lamborghini, Ferrari, Bentley) mają bardzo wysokie ceny, często przekraczające milion PLN, co wpływa na ogólne statystyki, podnosząc średnią i odchylenie standardowe.

Marki budżetowe (Daewoo, Dacia, Smart) oferują samochody w niskich cenach, ale ich udział w ogólnej ofercie jest niewielki.

Marki popularne (Toyota, Volkswagen, Ford) mają umiarkowane ceny i stosunkowo stabilny rozkład, co czyni je atrakcyjnymi dla większości klientów.

4 Wnioskowanie statystyczne

W tym rozdziale przeprowadzona została analiza statystyczna, mająca na celu identyfikację zależności między różnymi cechami samochodów a ich ceną. Wykorzystano do tego różne testy statystyczne i metody wizualizacji danych z pakietu ggstatsplot.

1.Histogram cen samochodów i test normalności

📌Rozkład cen samochodów nie jest normalny – jest prawostronnie asymetryczny (duża liczba tańszych aut, kilka bardzo drogich). 📌 Nie można stosować testów parametrycznych opartych na rozkładzie normalnym. 📌 Przedział ufności dla średniej ceny samochodu wynosi od 75 931 PLN do 77 270 PLN (95% pewności).

📊 Wizualizacja: Histogram cen samochodów, pokazujący asymetrię w rozkładzie.

## Scale for x is already present.
## Adding another scale for x, which will replace the existing scale.
## Warning: Removed 93 rows containing non-finite outside the scale range
## (`stat_bin()`).
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_bar()`).

2.Porównanie cen samochodów w zależności od rodzaju paliwa.

Za pomocą testu F Welcha sprawdzono, czy różnice w średnich cenach między samochodami elektrycznymi, benzynowymi, hybrydowymi i dieslami są statystycznie istotne.

Wyniki wskazują, że: ✅ Istnieją istotne różnice cenowe między rodzajami paliwa (p < 0.001). ✅ Samochody elektryczne mają wyraźnie wyższe ceny w porównaniu do innych typów paliwa. ✅ Współczynnik efektu (0.96) sugeruje, że rodzaj paliwa silnie wpływa na cenę. ✅ Bardzo duża liczba obserwacji (n = 83,625) sprawia, że test jest bardzo wiarygodny

📊 Wizualizacja: Wykres pudełkowy przedstawiający średnie ceny w zależności od rodzaju paliwa.

3.Korelacja między przebiegiem a ceną samochodu.

Badanie związku między liczbą przejechanych kilometrów a ceną samochodu wykazało:

-Wartość współczynnika korelacji Spearmana wynosi -0.59. To oznacza umiarkowaną negatywną korelację między przebiegiem a ceną samochodu. Im większy przebieg, tym niższa cena samochodu. -Jest to zgodne z intuicją, ponieważ samochody z większym przebiegiem są zazwyczaj starsze i mogą być bardziej zużyte.

-Istotność statystyczna: Korelacja jest statystycznie istotna, więc możemy z dużą pewnością stwierdzić, że ta zależność jest prawdziwa w populacji samochodów.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  price_in_pln by mileage
## Kruskal-Wallis chi-squared = 46417, df = 14072, p-value < 2.2e-16

Wynik dla statystyka testu Kruskala-Wallisa 47625. Jest to miara różnic między grupami. Wartość 47625 wskazuje, że różnice między grupami (w tym przypadku cenami samochodów w zależności od przebiegu) są dość duże.

Interpretacja: Hipoteza zerowa (H₀): Zakłada, że nie ma różnic między grupami (w tym przypadku brak różnic w cenach samochodów w zależności od przebiegu). Hipoteza alternatywna (H₁): Zakłada, że istnieją różnice między grupami (w tym przypadku ceny samochodów różnią się w zależności od przebiegu). Ponieważ p-wartość jest mniejsza niż 0.05 (a konkretnie jest znacznie mniejsza), oznacza to, że odrzucamy hipotezę zerową. W związku z tym możemy stwierdzić, że istnieją statystycznie istotne różnice w cenach samochodów w zależności od przebiegu.

Wnioski: Test Kruskala-Wallisa wykazuje, że ceny samochodów różnią się w zależności od ich przebiegu. Oznacza to,że w populacji samochodów przebieg może mieć znaczenie dla kształtowania ceny samochodu. Warto także zauważyć, że test Kruskala-Wallisa jest testem nieparametrycznym, co oznacza, że nie zakłada on rozkładu normalnego danych. Jest to dobry wybór, gdy dane mają rozkład nienormalny lub zawierają wartości odstające.

📊 Wizualizacja: Wykres rozrzutu pokazujący negatywną zależność między przebiegiem a ceną.

plot(dane$mileage, dane$price_in_pln,
     xlab = "Przebieg (km)",
     ylab = "Cena (PLN)",
     main = "Zależność między ceną a przebiegiem samochodu")

4.Wpływ marki na cenę samochodu.

Porównano ceny samochodów pięciu najpopularniejszych marek, stosując test Kruskala-Wallisa. 🔹 BMW i Mercedes-Benz są najdroższymi markami. 🔹 Opel, Peugeot i Volkswagen mają znacząco niższe ceny. 🔹 Test wykazał istotne różnice między markami (p < 0.001). 🔹 Wykres wyraźnie pokazuje, że średnie ceny samochodów różnią się w zależności od marki 📊 Wizualizacja: Wykres przedstawiający medianowe ceny samochodów różnych marek.

## Scale for y is already present.
## Adding another scale for y, which will replace the existing scale.

5.Wpływ roku produkcji na cenę

📌Korelacja Spearmana wynosi 0.77, co potwierdza istotność statystyczną tej zależności 📌 Wykres pokazuje silną dodatnią korelację między rokiem produkcji a ceną samochodu, co oznacza, że nowsze samochody są zazwyczaj droższe. 📌Zauważalna jest pewna rozbieżność punktów, co sugeruje, że na cenę wpływają także inne czynniki, takie jak marka czy stan techniczny. 📌 Histogramy wskazują, że większość samochodów pochodzi z lat 2010-2020, a ceny większości pojazdów są poniżej 1 miliona PLN.

📊 Wizualizacja: Wykres rozrzutu pokazujący wzrost cen wraz z nowszym rokiem produkcji.

5. Podsumowanie

📌 Trendy cenowe i wpływ roku produkcji:

  • Analiza cen samochodów w zależności od roku produkcji ujawnia wyraźny trend wzrostu cen wśród nowszych modeli. Najdroższe samochody to te produkowane w ostatnich latach, co jest naturalne ze względu na technologię, nowoczesność oraz gwarancje związane z nowymi pojazdami.

  • Interesującym zjawiskiem jest jednak wyższa cena samochodów z 1999 roku w porównaniu do niektórych modeli z lat 1997 czy 1998, co może wynikać z unikalnych cech, poszukiwanych modeli lub niskiej dostępności tych aut na rynku wtórnym.

📌 Rodzaj paliwa a cena samochodów - samochody elektryczne oraz hybrydowe są najdroższe spośród analizowanych typów paliwa, co wynika z kosztów zaawansowanej technologii (np. kosztów baterii w przypadku samochodów elektrycznych) oraz rosnącego zainteresowania ekologicznymi rozwiązaniami.

📌 Podział rynku według marek:

  • Z analizy wynika, że najbardziej popularne marki to Volkswagen, Opel, i BMW, z czego Volkswagen jest zdecydowanym liderem na rynku samochodów używanych w Polsce, przekraczając liczbę 10 000 rejestracji.

  • Warto zauważyć duże zróżnicowanie cenowe pomiędzy markami premium (np. Lamborghini, Ferrari) a budżetowymi (np. Smart, Dacia). Wysokie ceny luksusowych marek znacząco podnoszą średnią cenę całego zbioru, a pojazdy budżetowe dominują w sprzedaży pod względem liczby rejestracji.