Wczytujemy plik z surowymi danymi samochody_new.csv
Badamy i usuwamy brakujące wartości w danych, używamy do tego pakietów (tidyverse) i (naniar).
# Wczytanie pliku CSV
samochody_new <- read_csv("samochody_new.csv")
# Podgląd danych
head(samochody_new)
## # A tibble: 6 × 10
## brand model price_in_pln mileage gearbox engine_capacity fuel_type city
## <chr> <chr> <dbl> <chr> <chr> <chr> <chr> <chr>
## 1 alfa-romeo Alfa … 14700 133 76… manual 1 970 cm3 Benzyna Łask
## 2 alfa-romeo Alfa … 14000 133 76… manual 1 970 cm3 Benzyna Mława
## 3 alfa-romeo Alfa … 4500 227 00… manual 1 970 cm3 Benzyna Cheł…
## 4 alfa-romeo Alfa … 17100 227 00… manual 1 970 cm3 Benzyna Jasło
## 5 alfa-romeo Alfa … 3900 239 00… manual 1 995 cm3 Benzyna+… Pabi…
## 6 alfa-romeo Alfa … 17200 239 00… manual 1 995 cm3 Benzyna+… Wars…
## # ℹ 2 more variables: voivodeship <chr>, year <chr>
#Brakujace obserwacje
n_miss(samochody_new) #liczba brakujacych danych
## [1] 5100
n_complete(samochody_new) #liczba kompletynch obserwacji
## [1] 910130
prop_miss(samochody_new) #proporcja
## [1] 0.00557237
# Sprawdzanie brakujących wartości
samochody_new %>%
miss_case_table()
## # A tibble: 4 × 3
## n_miss_in_case n_cases pct_cases
## <int> <int> <dbl>
## 1 0 86504 94.5
## 2 1 4939 5.40
## 3 2 79 0.0863
## 4 3 1 0.00109
# Wizualizacja braków danych
#Wizualizacja brakujacych obserwacji
vis_miss(samochody_new, warn_large_data = FALSE)
#wizualizacja brakujacych danych
gg_miss_fct(samochody_new, fct = gearbox)
#brakujace dane ze wzgledu na typ skrzyni biegow
gg_miss_upset(samochody_new,
nsets = 10)
Zamieniami dane w odpowiednich kolumnach (np. year z milage, do swojej kolumy)
# Uzyskanie pierwszej imputacji
fuel_brand_imputed <- complete(imputed_data, 1)
# Zaktualizowanie oryginalnych kolumn fuel_type i brand w samochody_new
samochody_new$fuel_type <- fuel_brand_imputed$fuel_type
samochody_new$brand <- fuel_brand_imputed$brand
vis_miss(samochody_new, warn_large_data = FALSE)
# Usunięcie wierszy z NA w kolumnie 'fuel_type'
samochody_new_cleaned <- samochody_new[!is.na(samochody_new$fuel_type), ]
# Wyświetlenie oczyszczonej ramki danych
print(samochody_new_cleaned)
## # A tibble: 86,543 × 10
## brand model price_in_pln mileage gearbox engine_capacity fuel_type city
## <chr> <chr> <dbl> <chr> <chr> <chr> <chr> <chr>
## 1 alfa-romeo Alfa… 14700 133 76… manual 1 970 cm3 Benzyna Łask
## 2 alfa-romeo Alfa… 14000 133 76… manual 1 970 cm3 Benzyna Mława
## 3 alfa-romeo Alfa… 4500 227 00… manual 1 970 cm3 Benzyna Cheł…
## 4 alfa-romeo Alfa… 17100 227 00… manual 1 970 cm3 Benzyna Jasło
## 5 alfa-romeo Alfa… 3900 239 00… manual 1 995 cm3 Benzyna+… Pabi…
## 6 alfa-romeo Alfa… 17200 239 00… manual 1 995 cm3 Benzyna+… Wars…
## 7 alfa-romeo Alfa… 15500 180 71… manual 1 970 cm3 Benzyna Legi…
## 8 alfa-romeo Alfa… 24900 180 71… manual 1 970 cm3 Benzyna Prus…
## 9 alfa-romeo Alfa… 5800 195 00… manual 1 598 cm3 Benzyna Opal…
## 10 alfa-romeo Alfa… 17500 195 00… manual 1 598 cm3 Benzyna Wars…
## # ℹ 86,533 more rows
## # ℹ 2 more variables: voivodeship <chr>, year <chr>
vis_miss(samochody_new_cleaned, warn_large_data = FALSE)
#decyzja o usunięciu obserwacji z NA
samochody_dowiz <- samochody_new[complete.cases(samochody_new), ]
Wynikiem jest poniższa tabela z danymi po oczyszczeniu z brakujących wartości:
## # A tibble: 81,387 × 10
## brand model price_in_pln mileage gearbox engine_capacity fuel_type city
## <chr> <chr> <dbl> <chr> <chr> <chr> <chr> <chr>
## 1 alfa-romeo Alfa… 14700 133 76… manual 1 970 cm3 Benzyna Łask
## 2 alfa-romeo Alfa… 14000 133 76… manual 1 970 cm3 Benzyna Mława
## 3 alfa-romeo Alfa… 4500 227 00… manual 1 970 cm3 Benzyna Cheł…
## 4 alfa-romeo Alfa… 17100 227 00… manual 1 970 cm3 Benzyna Jasło
## 5 alfa-romeo Alfa… 3900 239 00… manual 1 995 cm3 Benzyna+… Pabi…
## 6 alfa-romeo Alfa… 17200 239 00… manual 1 995 cm3 Benzyna+… Wars…
## 7 alfa-romeo Alfa… 15500 180 71… manual 1 970 cm3 Benzyna Legi…
## 8 alfa-romeo Alfa… 24900 180 71… manual 1 970 cm3 Benzyna Prus…
## 9 alfa-romeo Alfa… 5800 195 00… manual 1 598 cm3 Benzyna Opal…
## 10 alfa-romeo Alfa… 17500 195 00… manual 1 598 cm3 Benzyna Wars…
## # ℹ 81,377 more rows
## # ℹ 2 more variables: voivodeship <chr>, year <chr>
Możemy zauważyc kompletnosc danych po oczyszczeniu z brakujących wartości
Wizualizacja danych to kluczowy proces w analizie danych, który pozwala na skuteczne przedstawienie informacji w formie graficznej. Dzięki odpowiednim wykresom i diagramom, możemy w łatwy sposób zobaczyć wzorce, zależności i trendy, które mogą być trudne do uchwycenia w surowych danych liczbowych. Celem wizualizacji jest uczynienie danych bardziej przystępnymi i zrozumiałymi, zarówno dla specjalistów, jak i osób nieznających się na analizie danych.
Wykres liniowy (line plot) - Trend cen samochodów w zależności od roku produkcji
## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?
Średnia cena samochodów jest najwyższa dla nowych modeli, ale ciekawe jest to, że samochody z 1999 roku bywają droższe od tych z 1998 czy 1997 🤔.
Wykres średniej ceny w zależności od rodzaju paliwa
Najdroższe są samochody elektryczne, które zyskują na popularności z powodu rosnącego zainteresowania ekologicznymi i nowoczesnymi technologiami. Wysoka cena tych pojazdów wynika z kosztów baterii, zaawansowanej technologii oraz innowacyjnych rozwiązań, które zapewniają ich dużą wydajność i zasięg. Oprócz elektrycznych, drogie są także pojazdy hybrydowe, które łączą napęd spalinowy z elektrycznym, oferując większą oszczędność paliwa i mniejsze emisje spalin 🌱🚗.
Wykres kołowy - Typ paliwa, liczba samochodów w zależności od roku produkcji
Wykres pokazuje procentowy udział paliw w samochodach. Benzyna i Diesel dominują, podczas gdy paliwa alternatywne (LPG, CNG, elektryczne, hybrydy) mają niewielki udział. 🚗💨
Top 10 najczęstszych marek samochodów
Z analizowanego wykresu dotyczącego najczęściej rejestrowanych marek samochodów w Polsce wynika, że Volkswagen zajmuje pierwsze miejsce, z liczbą rejestracji przekraczającą 10 000 sztuk, co czyni go jedyną marką w tej czołówce, której wynik wyraźnie przekracza tę granicę. Obok Volkswagena, w zestawieniu znalazły się takie marki jak Opel i BMW, które również cieszą się dużą popularnością na polskim rynku motoryzacyjnym.
Wykresy dwóch zmiennych jakościowych
Wykres pokazuje liczbę samochodów według rodzaju paliwa w województwach. Benzyna i Diesel dominują, szczególnie w Mazowieckim, Śląskim i Wielkopolskim. Paliwa alternatywne (LPG, CNG, hybrydy, elektryczne) stanowią niewielki udział. 🚗🔋
Wykres liczby samochodów (rodzaju paliwa) w zależności od województwa
Wykres pokazuje liczbę samochodów według roku produkcji. Najwięcej aut pochodzi z ostatnich kilkunastu lat, a produkcja wzrosła po 2000 r., osiągając szczyt ok. 2018 r. 📈🚗
Wykres cena vs przebieg w zaleznosci od roku produkcji
Cena samochodu w zależności od przebiegu i rocznika pokazuje wyraźną zależność między wiekiem pojazdu a jego wartością rynkową. Zwykle najdroższe są samochody nowe lub z niewielkim przebiegiem, ponieważ są wciąż objęte gwarancją, oferują nowoczesne technologie, mają mniejsze zużycie części i są bardziej efektywne pod względem paliwowym. Takie auta zazwyczaj utrzymują swoją wartość na rynku przez dłuższy czas.
W tej sekcji przeanalizujemy podstawowe miary statystyczne, takie jak średnia, mediana, minimalne i maksymalne wartości oraz odchylenie standardowe dla kluczowych zmiennych, takich jak przebieg, czy pojemność silnika, a bliżej zbadamy właściowości na przykład skośność i kurtoza dla cen samochodów w zależności od marki. Ponadto, zbadamy istniejące korelacje między zmiennymi numerycznymi i sprawdzimy jakie mają wpływ na cenę samochodu.
Średnia cena samochodów w całym zbiorze wynosi 76 580,2 PLN, przy odchyleniu standardowym równym 100 937 PLN, co wskazuje na znaczną zmienność cen w analizowanym zestawie danych. Minimalna cena samochodu to 1 111 PLN, mediana wynosi 46 900 PLN, a maksymalna cena osiąga aż 2 550 000 PLN, co świadczy o dużej rozpiętości cen w zbiorze.
Rozstęp międzykwartylowy (IQR), czyli różnica między trzecim a pierwszym kwartylem, wynosi 66 099 PLN, co pokazuje zakres, w którym znajduje się środkowe 50% cen samochodów. Współczynnik zmienności (CV), obliczony jako stosunek odchylenia standardowego do średniej, wynosi 1,3 (130%), co dodatkowo podkreśla znaczną rozbieżność cen w analizie.
Rok produkcji ma silny związek z przebiegiem (korelacja -0,7) – nowsze samochody mają zazwyczaj niższy przebieg.
Cena samochodu jest najbardziej zależna od roku produkcji (korelacja 0,5) – nowsze modele są droższe.
Przebieg również wpływa na cenę (korelacja -0,4) – samochody z niższym przebiegiem są droższe.
Pozostałe zależności, np. między pojemnością silnika a ceną lub przebiegiem, są słabe i nie mają znaczącego wpływu.
Podsumowując, rok produkcji i przebieg to kluczowe czynniki wpływające na cenę samochodu w tym zbiorze danych.
| Marka | Min | Max | Kwartyl dolny | Mediana | Kwartyl górny | Średnia | Odch. std. | IQR | Odchylenie ćwiartkowe | Skośność | Kurtoza |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Ogólnie | 1111 | 2550000 | 23900.00 | 46900.0 | 89999.0 | 76580.17 | 100936.95 | 66099.00 | 33049.50 | 5.20 | 52.04 |
| alfa-romeo | 1900 | 419000 | 14700.00 | 19000.0 | 39999.0 | 41600.59 | 57213.65 | 25299.00 | 12649.50 | 3.11 | 11.01 |
| aston-martin | 83000 | 666666 | 279007.00 | 349800.0 | 429000.0 | 371430.05 | 136509.47 | 149993.00 | 74996.50 | 0.51 | 0.02 |
| audi | 2150 | 759000 | 19999.00 | 42900.0 | 109400.0 | 91301.69 | 116632.83 | 89401.00 | 44700.50 | 2.53 | 7.63 |
| bentley | 60000 | 1290000 | 316250.00 | 404000.0 | 824250.0 | 576481.09 | 343619.24 | 508000.00 | 254000.00 | 0.54 | -0.96 |
| bmw | 3999 | 1285000 | 70000.00 | 124900.0 | 209550.0 | 166997.42 | 143135.71 | 139550.00 | 69775.00 | 2.09 | 5.95 |
| cadillac | 8990 | 909900 | 17950.00 | 37999.0 | 72900.0 | 91445.51 | 154650.87 | 54950.00 | 27475.00 | 3.21 | 11.82 |
| chevrolet | 3200 | 799999 | 21350.00 | 45499.5 | 149900.0 | 122174.16 | 174512.93 | 128550.00 | 64275.00 | 2.46 | 5.68 |
| citroen | 1500 | 224852 | 7900.00 | 18900.0 | 55700.0 | 36281.72 | 38872.09 | 47800.00 | 23900.00 | 1.62 | 2.81 |
| dacia | 2900 | 113400 | 26199.25 | 40745.0 | 72850.0 | 48918.33 | 28227.11 | 46650.75 | 23325.38 | 0.42 | -0.96 |
| daewoo | 1230 | 16000 | 2900.00 | 3745.0 | 5575.0 | 4529.64 | 2539.77 | 2675.00 | 1337.50 | 1.94 | 4.83 |
| daihatsu | 3999 | 27600 | 7500.00 | 9900.0 | 14350.0 | 11425.63 | 5890.10 | 6850.00 | 3425.00 | 1.12 | 0.48 |
| dodge | 5000 | 829990 | 19399.00 | 36450.0 | 149250.0 | 110659.50 | 146543.86 | 129851.00 | 64925.50 | 2.02 | 4.10 |
| ferrari | 490770 | 2490000 | 590400.00 | 750000.0 | 1300000.0 | 1001735.41 | 503736.36 | 709600.00 | 354800.00 | 1.07 | 0.45 |
| fiat | 1600 | 355000 | 16900.00 | 45900.0 | 62900.0 | 48303.64 | 39181.69 | 46000.00 | 23000.00 | 1.95 | 8.12 |
| ford | 1500 | 328700 | 24500.00 | 35900.0 | 57900.0 | 45850.93 | 35642.71 | 33400.00 | 16700.00 | 2.38 | 8.70 |
| honda | 1500 | 249900 | 14900.00 | 30950.0 | 58000.0 | 42311.98 | 39746.06 | 43100.00 | 21550.00 | 2.06 | 5.81 |
| hyundai | 2950 | 315800 | 34000.00 | 51900.0 | 83900.0 | 62264.97 | 39625.05 | 49900.00 | 24950.00 | 1.50 | 4.01 |
| infiniti | 11000 | 299900 | 36000.00 | 59500.0 | 77000.0 | 63288.49 | 37420.48 | 41000.00 | 20500.00 | 1.32 | 3.70 |
| isuzu | 18600 | 290000 | 37000.00 | 90999.0 | 140000.0 | 96771.53 | 61770.78 | 103000.00 | 51500.00 | 0.57 | -0.65 |
| jaguar | 2900 | 515000 | 18500.00 | 57900.0 | 119000.0 | 81953.54 | 85464.32 | 100500.00 | 50250.00 | 2.13 | 5.71 |
| jeep | 7500 | 889800 | 44900.00 | 84900.0 | 134500.0 | 110684.30 | 98558.23 | 89600.00 | 44800.00 | 2.41 | 8.83 |
| kia | 2900 | 299000 | 37900.00 | 58000.0 | 84900.0 | 62737.83 | 35179.67 | 47000.00 | 23500.00 | 0.69 | 1.27 |
| lamborghini | 289000 | 2550000 | 810000.00 | 1365000.0 | 1512250.0 | 1271214.29 | 714259.83 | 702250.00 | 351125.00 | 0.43 | -0.96 |
| lancia | 3499 | 88129 | 18172.50 | 24700.0 | 34900.0 | 32130.21 | 24460.78 | 16727.50 | 8363.75 | 1.21 | 0.22 |
| land-rover | 8000 | 908220 | 80124.25 | 155000.0 | 265022.2 | 202113.26 | 171048.04 | 184898.00 | 92449.00 | 1.52 | 2.43 |
| maserati | 30750 | 530000 | 115000.00 | 159450.0 | 237000.0 | 182977.50 | 102752.12 | 122000.00 | 61000.00 | 1.21 | 1.55 |
| mazda | 1800 | 213800 | 15000.00 | 61900.0 | 104000.0 | 65434.11 | 51071.99 | 89000.00 | 44500.00 | 0.48 | -0.83 |
| mercedes-benz | 1500 | 2298999 | 55000.00 | 116900.0 | 208000.0 | 164613.91 | 174014.86 | 153000.00 | 76500.00 | 3.14 | 16.00 |
| mini | 4000 | 241400 | 25000.00 | 41900.0 | 70399.0 | 55868.47 | 45216.12 | 45399.00 | 22699.50 | 1.64 | 2.39 |
| mitsubishi | 1600 | 213890 | 21600.00 | 41900.0 | 75000.0 | 55136.29 | 46713.11 | 53400.00 | 26700.00 | 1.45 | 1.78 |
| nissan | 1300 | 301900 | 22900.00 | 35500.0 | 54500.0 | 42341.35 | 32217.08 | 31600.00 | 15800.00 | 2.46 | 11.05 |
| opel | 1111 | 264000 | 17499.00 | 30900.0 | 52900.0 | 39309.32 | 30372.88 | 35401.00 | 17700.50 | 1.70 | 4.11 |
| peugeot | 1750 | 270600 | 14387.50 | 29700.0 | 49900.0 | 39827.09 | 36357.96 | 35512.50 | 17756.25 | 1.90 | 4.14 |
| porsche | 16800 | 1359000 | 94000.00 | 189500.0 | 309999.5 | 244985.93 | 200356.78 | 215999.50 | 107999.75 | 1.63 | 3.06 |
| renault | 1500 | 289000 | 21000.00 | 34900.0 | 59999.0 | 46414.34 | 38302.64 | 38999.00 | 19499.50 | 1.84 | 4.28 |
| rover | 1950 | 17000 | 3900.00 | 4900.0 | 5900.0 | 5629.82 | 3406.80 | 2000.00 | 1000.00 | 2.36 | 5.13 |
| saab | 3500 | 94000 | 10000.00 | 17350.0 | 25900.0 | 21188.74 | 14536.50 | 15900.00 | 7950.00 | 1.84 | 4.37 |
| seat | 2200 | 192800 | 21900.00 | 37949.5 | 64922.5 | 47084.68 | 33434.49 | 43022.50 | 21511.25 | 1.17 | 1.22 |
| skoda | 1500 | 318794 | 16100.00 | 48900.0 | 104400.0 | 63034.31 | 52032.58 | 88300.00 | 44150.00 | 0.80 | 0.19 |
| smart | 1800 | 55350 | 6750.00 | 8100.0 | 10850.0 | 9964.44 | 6190.27 | 4100.00 | 2050.00 | 3.56 | 18.32 |
| toyota | 2800 | 519410 | 39900.00 | 64000.0 | 102000.0 | 77284.01 | 52493.30 | 62100.00 | 31050.00 | 1.71 | 4.95 |
| volkswagen | 1300 | 470000 | 20900.00 | 43500.0 | 81500.0 | 62817.90 | 63268.11 | 60600.00 | 30300.00 | 2.46 | 8.16 |
| volvo | 2000 | 479900 | 17900.00 | 47900.0 | 119900.0 | 75681.29 | 74555.75 | 102000.00 | 51000.00 | 1.40 | 1.78 |
Statystyki zbiorcze dla wszystkich marek samochodów kształtują się następująco: średnia cena samochodów wynosi 76 580,17 PLN, ale rozkład cen jest bardzo szeroki, co wskazuje na dużą różnorodność oferty. Ceny wahają się od 1 111 PLN do 2 550 000 PLN, co pokazuje, że w zbiorze znajdują się zarówno bardzo tanie, jak i luksusowe modele. Mediana wynosi 46 900 PLN, co sugeruje, że połowa samochodów jest tańsza niż ta kwota. Duże odchylenie standardowe (100 936,95 PLN) oraz wysoka skośność (5,2) i kurtoza (52,04) wskazują na silną prawostronną skośność rozkładu – większość samochodów ma stosunkowo niskie ceny, ale istnieje spora liczba bardzo drogich modeli, które podnoszą średnią.
Lamborghini to marka z najwyższymi cenami. Średnia cena wynosi 1 271 214,29 PLN, a zakres cen to 289 000–2 550 000 PLN. To jedyna marka, której ceny przekraczają 2 miliony PLN.
Smart ma najniższą medianę cen (8 100 PLN) i jednocześnie najwyższą skośność (3,56) oraz kurtozę (18,32), co wskazuje na silne skupienie się na niskich cenach z nielicznymi wyjątkami.
Mercedes-Benz marka o szerokim zakresie cen (1 500–2 298 999 PLN) i wysokim odchyleniu standardowym (174 014,86 PLN), co pokazuje, że oferuje zarówno modele budżetowe, jak i luksusowe.
Luksusowe marki (Lamborghini, Ferrari, Bentley) mają bardzo wysokie ceny, często przekraczające milion PLN, co wpływa na ogólne statystyki, podnosząc średnią i odchylenie standardowe.
Marki budżetowe (Daewoo, Dacia, Smart) oferują samochody w niskich cenach, ale ich udział w ogólnej ofercie jest niewielki.
Marki popularne (Toyota, Volkswagen, Ford) mają umiarkowane ceny i stosunkowo stabilny rozkład, co czyni je atrakcyjnymi dla większości klientów.
W tym rozdziale przeprowadzona została analiza statystyczna, mająca na celu identyfikację zależności między różnymi cechami samochodów a ich ceną. Wykorzystano do tego różne testy statystyczne i metody wizualizacji danych z pakietu ggstatsplot.
1.Histogram cen samochodów i test normalności
📌Rozkład cen samochodów nie jest normalny – jest prawostronnie asymetryczny (duża liczba tańszych aut, kilka bardzo drogich). 📌 Nie można stosować testów parametrycznych opartych na rozkładzie normalnym. 📌 Przedział ufności dla średniej ceny samochodu wynosi od 75 931 PLN do 77 270 PLN (95% pewności).
📊 Wizualizacja: Histogram cen samochodów, pokazujący asymetrię w rozkładzie.
## Scale for x is already present.
## Adding another scale for x, which will replace the existing scale.
## Warning: Removed 93 rows containing non-finite outside the scale range
## (`stat_bin()`).
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_bar()`).
2.Porównanie cen samochodów w zależności od rodzaju paliwa.
Za pomocą testu F Welcha sprawdzono, czy różnice w średnich cenach między samochodami elektrycznymi, benzynowymi, hybrydowymi i dieslami są statystycznie istotne.
Wyniki wskazują, że: ✅ Istnieją istotne różnice cenowe między rodzajami paliwa (p < 0.001). ✅ Samochody elektryczne mają wyraźnie wyższe ceny w porównaniu do innych typów paliwa. ✅ Współczynnik efektu (0.96) sugeruje, że rodzaj paliwa silnie wpływa na cenę. ✅ Bardzo duża liczba obserwacji (n = 83,625) sprawia, że test jest bardzo wiarygodny
📊 Wizualizacja: Wykres pudełkowy przedstawiający średnie ceny w zależności od rodzaju paliwa.
3.Korelacja między przebiegiem a ceną samochodu.
Badanie związku między liczbą przejechanych kilometrów a ceną samochodu wykazało:
-Wartość współczynnika korelacji Spearmana wynosi -0.59. To oznacza umiarkowaną negatywną korelację między przebiegiem a ceną samochodu. Im większy przebieg, tym niższa cena samochodu. -Jest to zgodne z intuicją, ponieważ samochody z większym przebiegiem są zazwyczaj starsze i mogą być bardziej zużyte.
-Istotność statystyczna: Korelacja jest statystycznie istotna, więc możemy z dużą pewnością stwierdzić, że ta zależność jest prawdziwa w populacji samochodów.
##
## Kruskal-Wallis rank sum test
##
## data: price_in_pln by mileage
## Kruskal-Wallis chi-squared = 46417, df = 14072, p-value < 2.2e-16
Wynik dla statystyka testu Kruskala-Wallisa 47625. Jest to miara różnic między grupami. Wartość 47625 wskazuje, że różnice między grupami (w tym przypadku cenami samochodów w zależności od przebiegu) są dość duże.
Interpretacja: Hipoteza zerowa (H₀): Zakłada, że nie ma różnic między grupami (w tym przypadku brak różnic w cenach samochodów w zależności od przebiegu). Hipoteza alternatywna (H₁): Zakłada, że istnieją różnice między grupami (w tym przypadku ceny samochodów różnią się w zależności od przebiegu). Ponieważ p-wartość jest mniejsza niż 0.05 (a konkretnie jest znacznie mniejsza), oznacza to, że odrzucamy hipotezę zerową. W związku z tym możemy stwierdzić, że istnieją statystycznie istotne różnice w cenach samochodów w zależności od przebiegu.
Wnioski: Test Kruskala-Wallisa wykazuje, że ceny samochodów różnią się w zależności od ich przebiegu. Oznacza to,że w populacji samochodów przebieg może mieć znaczenie dla kształtowania ceny samochodu. Warto także zauważyć, że test Kruskala-Wallisa jest testem nieparametrycznym, co oznacza, że nie zakłada on rozkładu normalnego danych. Jest to dobry wybór, gdy dane mają rozkład nienormalny lub zawierają wartości odstające.
📊 Wizualizacja: Wykres rozrzutu pokazujący negatywną zależność między przebiegiem a ceną.
plot(dane$mileage, dane$price_in_pln,
xlab = "Przebieg (km)",
ylab = "Cena (PLN)",
main = "Zależność między ceną a przebiegiem samochodu")
4.Wpływ marki na cenę samochodu.
Porównano ceny samochodów pięciu najpopularniejszych marek, stosując test Kruskala-Wallisa. 🔹 BMW i Mercedes-Benz są najdroższymi markami. 🔹 Opel, Peugeot i Volkswagen mają znacząco niższe ceny. 🔹 Test wykazał istotne różnice między markami (p < 0.001). 🔹 Wykres wyraźnie pokazuje, że średnie ceny samochodów różnią się w zależności od marki 📊 Wizualizacja: Wykres przedstawiający medianowe ceny samochodów różnych marek.
## Scale for y is already present.
## Adding another scale for y, which will replace the existing scale.
5.Wpływ roku produkcji na cenę
📌Korelacja Spearmana wynosi 0.77, co potwierdza istotność statystyczną tej zależności 📌 Wykres pokazuje silną dodatnią korelację między rokiem produkcji a ceną samochodu, co oznacza, że nowsze samochody są zazwyczaj droższe. 📌Zauważalna jest pewna rozbieżność punktów, co sugeruje, że na cenę wpływają także inne czynniki, takie jak marka czy stan techniczny. 📌 Histogramy wskazują, że większość samochodów pochodzi z lat 2010-2020, a ceny większości pojazdów są poniżej 1 miliona PLN.
📊 Wizualizacja: Wykres rozrzutu pokazujący wzrost cen wraz z nowszym rokiem produkcji.
📌 Trendy cenowe i wpływ roku produkcji:
Analiza cen samochodów w zależności od roku produkcji ujawnia wyraźny trend wzrostu cen wśród nowszych modeli. Najdroższe samochody to te produkowane w ostatnich latach, co jest naturalne ze względu na technologię, nowoczesność oraz gwarancje związane z nowymi pojazdami.
Interesującym zjawiskiem jest jednak wyższa cena samochodów z 1999 roku w porównaniu do niektórych modeli z lat 1997 czy 1998, co może wynikać z unikalnych cech, poszukiwanych modeli lub niskiej dostępności tych aut na rynku wtórnym.
📌 Rodzaj paliwa a cena samochodów - samochody elektryczne oraz hybrydowe są najdroższe spośród analizowanych typów paliwa, co wynika z kosztów zaawansowanej technologii (np. kosztów baterii w przypadku samochodów elektrycznych) oraz rosnącego zainteresowania ekologicznymi rozwiązaniami.
📌 Podział rynku według marek:
Z analizy wynika, że najbardziej popularne marki to Volkswagen, Opel, i BMW, z czego Volkswagen jest zdecydowanym liderem na rynku samochodów używanych w Polsce, przekraczając liczbę 10 000 rejestracji.
Warto zauważyć duże zróżnicowanie cenowe pomiędzy markami premium (np. Lamborghini, Ferrari) a budżetowymi (np. Smart, Dacia). Wysokie ceny luksusowych marek znacząco podnoszą średnią cenę całego zbioru, a pojazdy budżetowe dominują w sprzedaży pod względem liczby rejestracji.