Celem niniejszego raportu jest zbadanie polskiego rynku samochodów na podstawie danych pochodzących z portalu Otomoto.pl. Zbadano jak na cenę auta wpływa nazwa producenta, rok wyprodukowania samochodu oraz przebieg, a także województwo, w którym zostało wystawione na sprzedaż. Raport wykonano na podstawie analizy cen aut oraz ich wybranych cech. Analiza obejmuje liczbę braków danych, procent braków w poszczególnych kolumnach, a także wzorce braków oraz wizualizacje przedstawiające od czego zależy cena wybranych aut.
Krok pierwszy to zainstalowanie bibliotek potrzebnych do prawidłowego wykonania analizy. Między innymi – finalfit do modelowania regresji, mice do imputacji braków danych, qwraps2 do raportów statystycznych oraz ggplo2 do tworzenia wykresów potrzebnych do analizy.
Nasętpnym krokiem jest wczytanie danych, które po wyczyszczeniu będą bazą do przeprowadzenia analizy. Dane zostały wczytane z pliku samochody_new.csv.
## brand model price_in_pln mileage gearbox
## 1 alfa-romeo Alfa Romeo Spider 2.0-16 TSpark 14700 133 760 km manual
## 2 alfa-romeo Alfa Romeo GTV 2.0 16v TSpark 14000 133 760 km manual
## 3 alfa-romeo Alfa Romeo 164 2.0 TSpark Super 4500 227 000 km manual
## 4 alfa-romeo Alfa Romeo Spider 2.0 TSpark 17100 227 000 km manual
## 5 alfa-romeo Alfa Romeo 156 1.6 TSpark 16v 3900 239 000 km manual
## 6 alfa-romeo Alfa Romeo GTV 2.0 TS 17200 239 000 km manual
## engine_capacity fuel_type city voivodeship year
## 1 1 970 cm3 Benzyna Łask Łódzkie 1998
## 2 1 970 cm3 Benzyna Mława Mazowieckie 1998
## 3 1 970 cm3 Benzyna Chełmża Kujawsko-pomorskie 1996
## 4 1 970 cm3 Benzyna Jasło Podkarpackie 1996
## 5 1 995 cm3 Benzyna+LPG Pabianice Łódzkie 1995
## 6 1 995 cm3 Benzyna+LPG Warszawa Mazowieckie 1995
Sprawdzenie czy w kolumnach występują braki danych
## [1] "Liczba braków danych w każdej kolumnie:"
## brand model price_in_pln mileage gearbox
## 1100 0 1550 0 0
## engine_capacity fuel_type city voivodeship year
## 0 0 0 0 2450
Kolejnym krokiem w wykryciu braków danych jest obliczenie procentowego udziału braków danych w każdej kolumnie analizowanego pliku.
## [1] "Procent braków danych w każdej kolumnie:"
## brand model price_in_pln mileage gearbox
## 1.201884 0.000000 1.693563 0.000000 0.000000
## engine_capacity fuel_type city voivodeship year
## 0.000000 0.000000 0.000000 0.000000 2.676923
Ważne jest także określenie, identyfikacja oraz klasyfikacja brakujących wartości.
## [1] "Macierz wzorców braków danych:"
## model mileage gearbox engine_capacity fuel_type city voivodeship brand
## 86504 1 1 1 1 1 1 1 1
## 2385 1 1 1 1 1 1 1 1
## 1490 1 1 1 1 1 1 1 1
## 44 1 1 1 1 1 1 1 1
## 1064 1 1 1 1 1 1 1 0
## 20 1 1 1 1 1 1 1 0
## 15 1 1 1 1 1 1 1 0
## 1 1 1 1 1 1 1 1 0
## 0 0 0 0 0 0 0 1100
## price_in_pln year
## 86504 1 1 0
## 2385 1 0 1
## 1490 0 1 1
## 44 0 0 2
## 1064 1 1 1
## 20 1 0 2
## 15 0 1 2
## 1 0 0 3
## 1550 2450 5100
Macierz braków danych pokazuje, że większość zmiennych zawiera kompletne informacje, a braki koncentrują się tylko w wybranych kolumnach jak “price_in”pln”, “brand” oraz “year”. W zbiorze danych występują trzy wzorce braków danych.
Wykres przedstawia rozkład brakujących danych w zbiorze samochody_new w w zależności od roku. Najwięcej brakujących wartości występuje w zmiennych price_in_pln oraz brand, co było również widoczne w macierzy braków danych. Występowanie braków nie jest losowe – w niektórych latach widoczne są większe luki, co może sugerować problemy z dostępnością danych historycznych lub zmianę sposobu ich zbierania.
Wykres pokazuje, że największa liczba braków danych występuje w zmiennych year price_in_pln i brand, co było również widoczne na wcześniejszej macierzy braków. Najczęstszy wzorzec braków obejmuje brak danych w zmiennej year - 2385 rekordów, a inne kombinacje braków występują rzadziej. Stosunkowo niewielka liczba obserwacji ma braki w więcej niż dwóch zmiennych jednocześnie, co sugeruje, że dane są częściowo uzupełnione, ale pewne zmienne wymagają imputacji lub dalszej analizy.
Wykres Missingness Map pokazuje rozmieszczenie brakujących danych w zbiorze, gdzie niebieski kolor oznacza obserwowane wartości, a jasne linie wskazują braki. Zgodnie z wcześniejszymi wykresami, największa liczba braków występuje w zmiennych price_in_pln oraz year, ale ich udział w całym zbiorze jest niewielki (około 1%).
##
## Variables sorted by number of missings:
## Variable Count
## year 0.02676923
## price_in_pln 0.01693563
## brand 0.01201884
## model 0.00000000
## mileage 0.00000000
## gearbox 0.00000000
## engine_capacity 0.00000000
## fuel_type 0.00000000
## city 0.00000000
## voivodeship 0.00000000
Instalowanie bibliotek potrzebnych do dalszej analizy między innymi editrules, deducorrect oraz ISLR.
Identyfikacja, lokalizacja oraz cena skali braków w danych.
## Liczba kompletnych wierszy: 86504
## Procent kompletnych danych: 94.52 %
## Kolumny zawierające błędne wartości:
## brand price_in_pln year
## 1100 1550 2450
## brand model price_in_pln mileage
## Length:91523 Length:91523 Min. : 1111 Length:91523
## Class :character Class :character 1st Qu.: 24900 Class :character
## Mode :character Mode :character Median : 49900 Mode :character
## Mean : 84146
## 3rd Qu.: 99850
## Max. :2599000
## NA's :1550
## gearbox
## Length:91523
## Class :character
## Mode :character
##
##
##
##
## brand model price_in_pln mileage gearbox
## 1 alfa-romeo Alfa Romeo Spider 2.0-16 TSpark 14700 133 760 km manual
## 2 alfa-romeo Alfa Romeo GTV 2.0 16v TSpark 14000 133 760 km manual
## 3 alfa-romeo Alfa Romeo 164 2.0 TSpark Super 4500 227 000 km manual
## 4 alfa-romeo Alfa Romeo Spider 2.0 TSpark 17100 227 000 km manual
## 5 alfa-romeo Alfa Romeo 156 1.6 TSpark 16v 3900 239 000 km manual
Identyfikacja problemów z niespójnością danych oraz metody naprawy tak aby analiza była rzetelna i wiarygodna.
## brand model price_in_pln mileage gearbox
## 1 alfa-romeo Alfa Romeo Spider 2.0-16 TSpark 14700 133 760 km manual
## 2 alfa-romeo Alfa Romeo GTV 2.0 16v TSpark 14000 133 760 km manual
## 3 alfa-romeo Alfa Romeo 164 2.0 TSpark Super 4500 227 000 km manual
## 4 alfa-romeo Alfa Romeo Spider 2.0 TSpark 17100 227 000 km manual
## 5 alfa-romeo Alfa Romeo Spider 2.0-16 TSpark 15500 180 711 km manual
## 6 alfa-romeo Alfa Romeo GTV 2.0 V6 Turbo 24900 180 711 km manual
## 7 alfa-romeo Alfa Romeo 156 1.8 TSpark 16v 5800 195 000 km manual
## 8 alfa-romeo Alfa Romeo 156 2.5 V6 Distinctive 17500 195 000 km manual
## 9 alfa-romeo Alfa Romeo GTV 2.0 16v TSpark 14999 261 300 km manual
## 10 alfa-romeo Alfa Romeo 166 2.0 V6 TB 18500 261 300 km manual
## engine_capacity fuel_type city voivodeship year
## 1 1 970 cm3 Benzyna Łask Łódzkie 1998
## 2 1 970 cm3 Benzyna Mława Mazowieckie 1998
## 3 1 970 cm3 Benzyna Chełmża Kujawsko-pomorskie 1996
## 4 1 970 cm3 Benzyna Jasło Podkarpackie 1996
## 5 1 970 cm3 Benzyna Legionowo Mazowieckie 1998
## 6 1 970 cm3 Benzyna Pruszków Mazowieckie 1998
## 7 1 598 cm3 Benzyna Opalenica Wielkopolskie 1998
## 8 1 598 cm3 Benzyna Warszawa Mazowieckie 1998
## 9 1 970 cm3 Benzyna Pruszków Mazowieckie 1998
## 10 1 970 cm3 Benzyna Warszawa Mazowieckie 1998
W posidadanych danych znajdują się miasta spoza granic Polski. W naszej analizie chcemy się skupić na danych z polskich województw, więc pozostałe dane zostaną usunięte.
## Regula1 Regula2 Regula3 Regula4 Regula5 Regula6
## 1 NA NA 5414 9594 NA NA
Niespójności znaleziono w rodzaju paliwa, jest to aż 9594 wartości oraz w przebiegu – 5418 wartości.
## Regula1 Regula2 Regula3 Regula4 Regula5 Regula6
## 1 NA NA 5.915453 10.48261 NA NA
Wartości odstające zaburzają rzetelność analizy, więc powinny zostać usunięte.
Sprawdzanie jak wygląda finalny plik z wyczyczonymi danymi i zapisanie ich do osobnego pliku, który będzie użyty w analizie.
## # A tibble: 72,076 × 10
## brand model price_in_pln mileage gearbox engine_capacity fuel_type city
## <chr> <chr> <int> <chr> <chr> <chr> <chr> <chr>
## 1 alfa-romeo Alfa… 14700 133 76… manual 1 970 cm3 Benzyna Łask
## 2 alfa-romeo Alfa… 14000 133 76… manual 1 970 cm3 Benzyna Mława
## 3 alfa-romeo Alfa… 17100 227 00… manual 1 970 cm3 Benzyna Jasło
## 4 alfa-romeo Alfa… 15500 180 71… manual 1 970 cm3 Benzyna Legi…
## 5 alfa-romeo Alfa… 24900 180 71… manual 1 970 cm3 Benzyna Prus…
## 6 alfa-romeo Alfa… 5800 195 00… manual 1 598 cm3 Benzyna Opal…
## 7 alfa-romeo Alfa… 17500 195 00… manual 1 598 cm3 Benzyna Wars…
## 8 alfa-romeo Alfa… 14999 261 30… manual 1 970 cm3 Benzyna Prus…
## 9 alfa-romeo Alfa… 18500 261 30… manual 1 970 cm3 Benzyna Wars…
## 10 alfa-romeo Alfa… 18200 238 25… manual 1 970 cm3 Benzyna Wars…
## # ℹ 72,066 more rows
## # ℹ 2 more variables: voivodeship <chr>, year <chr>
Wykres zawiera informacje na temat marek samochodów, które posiadają najwyższe ceny. Wśród producentów zauważamy znaczną przewagę wysokości cen Lamborghini nad pozostałymi markami aut. Cena modelu Aventador S wynosi 2 550 000 zł. Kolejną najdroższą marką jest Ferrari, następnie Mercedes-Benz.
Wykres zawiera informacje na temat marek samochodów, które posiadają najniższe ceny. Wśród producentów zauważamy, iż najtańsze auta należą do Opla. Najniższym dostępnym modelem jest Opel Corsa 1.0 Swing 12 v dostępny w cenie 1 111 zł. Kolejną marką, która posiada nieznacznie wyższe ceny jest Deawoo, natomiast trzecim producentem, który posiada najtańsze dostępne auta jest Nissan.
Wykres zawiera dane, które ukazują, w którym roku zostały wyprodukowane najdroższe dostępne auta. Dostrzegamy, iż najwięcej najdroższych aut zostało wyprodukowanych w latach 2017-2019. W roku 2018 dostrzegamy największe wartości odstające- są to najdroższe z dostępnych aut- Lamborghini Aventador S, których cena wynosi 2 550 000 złotych.
Większość punktów znajduje się w dolnej części wykresu, co sugeruje, że cena samochodów zazwyczaj mieści się w niższym przedziale, niezależnie od przebiegu. Nie widać wyraźnej korelacji – samochody o różnym przebiegu mogą mieć bardzo różne ceny. Występują pojedyncze punkty znacznie powyżej większości obserwacji – mogą to być luksusowe lub kolekcjonerskie pojazdy, których cena jest bardzo wysoka, niezależnie od przebiegu.
Większość samochodów ma stosunkowo niską cenę, niezależnie od pojemności silnika. Widać duże zagęszczenie punktów w dolnej części wykresu. Brak wyraźnej liniowej zależności między pojemnością silnika a ceną – cena samochodu nie rośnie wprost proporcjonalnie do pojemności silnika. Istnieją pojedyncze punkty w górnej części wykresu, które reprezentują samochody o bardzo wysokiej wartości (np. luksusowe, sportowe lub kolekcjonerskie auta). Widać, że droższe samochody częściej mają większą pojemność silnika, ale nie jest to regułą. Istnieją też samochody o dużej pojemności, które nie są szczególnie drogie, co może wskazywać na starsze modele lub mniej prestiżowe marki.
Wykres pokazuje rozpiętość cen samochodów w różnych województwach w Polsce. Można zauważyć, że województwa o bardziej rozwiniętym rynku samochodowym, takie jak Mazowieckie, Małopolskie, i Śląskie, charakteryzują się najwyższymi cenami.Województwa takie jak Lubuskie, Podlaskie, i Świętokrzyskie mają znacznie niższe ceny samochodów, co może wynikać z mniejszego popytu lub braku dostępu do luksusowych modeli. Wysokość słupków wskazuje na różnorodność cen w każdym województwie. Przykładowo, Mazowieckie i Małopolskie mają większe rozpiętości cen, co może wynikać z większego rynku oraz dostępności zarówno tanich, jak i drogich modeli.
Wśród miast przedstawionych na wykresie, Warszawa wyróżnia się jako miasto z najwyższą średnią ceną samochodów. Może to być związane z wyższą siłą nabywczą mieszkańców stolicy oraz większym zapotrzebowaniem na pojazdy luksusowe.Miasta takie jak Katowice i Poznań mają również wysokie ceny samochodów, co wskazuje na dużą liczbę transakcji w pojazdów. Lubartów oraz Wschowa znajdują się w dolnej części wykresu, co sugeruje, że ceny samochodów w tych miastach są niższe w porównaniu do pozostałych.
Z wykresu można wyczytać, że benzyna i diesel są najpopularniejszymi rodzajami paliwa w Polsce, a ich dominacja jest wyraźna w każdym województwie. Liczba pojazdów hybrydowych i elektrycznych jest niewielka, ale zauważalna w województwach bogatszych.
| Zmienna | alfa-romeo N = 544 |
aston-martin N = 31 |
audi N = 394 |
bentley N = 90 |
bmw N = 5,858 |
cadillac N = 39 |
chevrolet N = 243 |
citroen N = 1,019 |
dacia N = 230 |
daewoo N = 57 |
daihatsu N = 63 |
dodge N = 248 |
ferrari N = 36 |
fiat N = 461 |
ford N = 5,090 |
honda N = 1,581 |
hyundai N = 2,935 |
infiniti N = 281 |
isuzu N = 169 |
jaguar N = 450 |
jeep N = 666 |
kia N = 2,096 |
lamborghini N = 14 |
lancia N = 88 |
land-rover N = 887 |
maserati N = 107 |
mazda N = 482 |
mercedes-benz N = 5,421 |
mini N = 614 |
mitsubishi N = 768 |
nissan N = 2,243 |
opel N = 8,046 |
peugeot N = 5,196 |
porsche N = 581 |
renault N = 4,001 |
rover N = 124 |
saab N = 159 |
seat N = 1,738 |
skoda N = 815 |
smart N = 334 |
toyota N = 4,809 |
volkswagen N = 8,943 |
volvo N = 4,125 |
p-value1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Cena | <0.001 | |||||||||||||||||||||||||||||||||||||||||||
| N Non-missing | 544 | 31 | 394 | 90 | 5,858 | 39 | 243 | 1,019 | 230 | 57 | 63 | 248 | 36 | 461 | 5,090 | 1,581 | 2,935 | 281 | 169 | 450 | 666 | 2,096 | 14 | 88 | 887 | 107 | 482 | 5,421 | 614 | 768 | 2,243 | 8,046 | 5,196 | 581 | 4,001 | 124 | 159 | 1,738 | 815 | 334 | 4,809 | 8,943 | 4,125 | |
| Mean | 43,658 | 372,675 | 96,237 | 582,582 | 166,613 | 120,792 | 132,650 | 37,816 | 40,100 | 4,305 | 11,891 | 126,859 | 990,117 | 45,180 | 46,735 | 44,557 | 61,472 | 66,415 | 99,940 | 82,069 | 115,858 | 64,673 | 1,271,214 | 33,717 | 205,371 | 184,288 | 65,180 | 166,487 | 53,653 | 56,221 | 43,209 | 39,782 | 41,023 | 246,040 | 46,788 | 5,783 | 22,124 | 47,566 | 67,085 | 9,673 | 77,774 | 63,399 | 80,843 | |
| SD | 58,401 | 147,468 | 120,332 | 344,852 | 141,780 | 183,554 | 180,348 | 38,890 | 23,784 | 2,223 | 6,104 | 156,114 | 505,829 | 36,867 | 35,964 | 41,865 | 37,243 | 38,959 | 62,558 | 82,988 | 100,882 | 34,547 | 714,260 | 25,874 | 171,882 | 104,310 | 48,972 | 176,078 | 42,508 | 47,731 | 32,310 | 30,532 | 36,365 | 199,843 | 37,690 | 3,925 | 15,289 | 33,583 | 52,583 | 6,009 | 52,889 | 62,309 | 75,204 | |
| Median | 23,250 | 349,800 | 48,900 | 424,450 | 124,900 | 52,900 | 55,000 | 21,900 | 34,900 | 3,700 | 9,900 | 53,950 | 734,950 | 43,900 | 36,900 | 31,900 | 51,900 | 59,500 | 91,900 | 59,900 | 89,000 | 59,900 | 1,365,000 | 24,450 | 159,000 | 159,450 | 62,400 | 118,900 | 39,999 | 42,500 | 35,900 | 31,150 | 29,999 | 189,999 | 35,400 | 4,700 | 18,800 | 38,900 | 55,900 | 8,000 | 64,900 | 44,900 | 53,900 | |
| Q1 | 14,999 | 269,000 | 22,900 | 320,000 | 71,900 | 15,900 | 24,000 | 8,499 | 22,017 | 2,900 | 7,500 | 19,450 | 590,400 | 15,700 | 24,990 | 14,950 | 34,900 | 39,237 | 37,000 | 18,500 | 48,900 | 39,900 | 790,000 | 14,900 | 84,900 | 111,900 | 15,400 | 56,900 | 25,000 | 21,900 | 23,900 | 17,900 | 15,900 | 94,000 | 22,400 | 3,900 | 10,900 | 22,000 | 19,680 | 6,700 | 39,900 | 21,900 | 21,000 | |
| Q3 | 41,000 | 429,000 | 124,900 | 840,000 | 209,000 | 85,000 | 164,000 | 58,501 | 55,900 | 4,900 | 14,800 | 179,000 | 1,295,000 | 59,900 | 58,800 | 61,900 | 82,800 | 89,999 | 146,950 | 119,900 | 139,900 | 86,000 | 1,550,000 | 41,450 | 269,700 | 239,000 | 103,000 | 209,000 | 68,000 | 76,145 | 54,990 | 52,999 | 50,000 | 309,000 | 59,900 | 5,999 | 27,900 | 65,700 | 109,750 | 10,400 | 103,001 | 82,900 | 129,000 | |
| Min | 1,900 | 83,000 | 2,150 | 60,000 | 3,999 | 9,999 | 3,300 | 1,500 | 3,900 | 1,230 | 4,000 | 7,000 | 490,770 | 1,600 | 1,500 | 1,500 | 2,950 | 11,000 | 18,600 | 2,900 | 7,500 | 2,900 | 289,000 | 3,499 | 8,000 | 30,750 | 1,800 | 3,200 | 4,000 | 1,600 | 1,300 | 1,111 | 1,899 | 16,800 | 1,500 | 1,950 | 3,500 | 2,799 | 1,500 | 1,800 | 2,800 | 1,600 | 2,000 | |
| Max | 419,000 | 666,666 | 759,000 | 1,290,000 | 1,285,000 | 909,900 | 799,999 | 224,852 | 109,900 | 12,950 | 27,600 | 829,990 | 2,490,000 | 355,000 | 328,700 | 249,900 | 314,400 | 299,900 | 290,000 | 515,000 | 889,800 | 279,620 | 2,550,000 | 88,129 | 908,220 | 530,000 | 182,800 | 2,298,999 | 241,400 | 213,890 | 301,900 | 264,000 | 270,600 | 1,359,000 | 289,000 | 17,000 | 94,000 | 192,800 | 318,794 | 55,350 | 519,410 | 470,000 | 479,900 | |
| 1 Kruskal-Wallis rank sum test | ||||||||||||||||||||||||||||||||||||||||||||
W obecnym zestawieniu Volkswagen posiada największa ilość samochodów, średnia cena samochodu tej marki wynosi 63 399 PLN, a zakres cen od 1 600 PLN do 470 000 PLN. Lamborghini jest z najwyższymi cenami. Średnia cena wynosi 1 271 214 PLN, a zakres cen wynosi od 289 000 PLN do 2 550 000 PLN.
| Zmienna | 1995 N = 319 |
1996 N = 436 |
1997 N = 494 |
1998 N = 891 |
1999 N = 945 |
2000 N = 423 |
2001 N = 422 |
2002 N = 612 |
2003 N = 1,135 |
2004 N = 1,681 |
2005 N = 1,286 |
2006 N = 1,686 |
2007 N = 2,148 |
2008 N = 2,270 |
2009 N = 2,389 |
2010 N = 3,514 |
2011 N = 3,973 |
2012 N = 3,681 |
2013 N = 3,432 |
2014 N = 3,830 |
2015 N = 3,973 |
2016 N = 4,345 |
2017 N = 5,178 |
2018 N = 5,395 |
2019 N = 5,154 |
2020 N = 2,729 |
2021 N = 2,492 |
2022 N = 3,387 |
2023 N = 3,856 |
p-value1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Cena | <0.001 | |||||||||||||||||||||||||||||
| N Non-missing | 319 | 436 | 494 | 891 | 945 | 423 | 422 | 612 | 1,135 | 1,681 | 1,286 | 1,686 | 2,148 | 2,270 | 2,389 | 3,514 | 3,973 | 3,681 | 3,432 | 3,830 | 3,973 | 4,345 | 5,178 | 5,395 | 5,154 | 2,729 | 2,492 | 3,387 | 3,856 | |
| Mean | 27,094 | 22,175 | 19,286 | 17,741 | 34,891 | 17,792 | 16,151 | 18,111 | 17,996 | 14,579 | 28,771 | 27,086 | 29,979 | 30,473 | 22,727 | 39,598 | 41,017 | 41,904 | 42,731 | 45,666 | 84,337 | 89,970 | 92,915 | 96,300 | 101,544 | 159,320 | 164,365 | 185,670 | 192,656 | |
| SD | 47,635 | 25,164 | 32,898 | 25,298 | 70,506 | 29,369 | 22,519 | 25,608 | 21,879 | 22,168 | 60,046 | 37,835 | 59,864 | 58,997 | 23,799 | 38,405 | 37,401 | 40,986 | 35,664 | 49,388 | 73,563 | 87,840 | 93,592 | 106,434 | 93,250 | 134,313 | 128,746 | 168,658 | 158,196 | |
| Median | 13,900 | 11,900 | 6,999 | 11,900 | 9,500 | 9,400 | 9,500 | 9,800 | 10,400 | 9,499 | 17,900 | 17,900 | 18,700 | 19,000 | 17,500 | 31,900 | 32,900 | 33,900 | 34,500 | 35,550 | 64,700 | 67,900 | 68,900 | 71,900 | 76,900 | 120,000 | 122,645 | 131,270 | 139,900 | |
| Q1 | 4,990 | 5,900 | 3,950 | 4,900 | 4,499 | 4,999 | 5,250 | 5,200 | 7,500 | 6,300 | 12,750 | 12,900 | 12,900 | 13,900 | 12,400 | 23,900 | 24,900 | 24,999 | 24,999 | 25,700 | 46,900 | 48,500 | 48,600 | 49,900 | 53,000 | 84,850 | 88,000 | 90,000 | 98,900 | |
| Q3 | 34,900 | 25,950 | 18,900 | 17,500 | 25,900 | 17,900 | 16,900 | 21,200 | 19,800 | 15,900 | 27,900 | 26,900 | 27,000 | 28,500 | 26,500 | 43,500 | 45,100 | 46,500 | 48,500 | 49,999 | 92,900 | 99,900 | 102,100 | 109,000 | 119,900 | 187,329 | 196,900 | 214,900 | 225,800 | |
| Min | 1,999 | 1,600 | 1,500 | 1,300 | 1,500 | 1,111 | 1,800 | 1,600 | 1,550 | 1,900 | 3,200 | 2,299 | 2,700 | 2,990 | 1,999 | 4,999 | 3,500 | 1,899 | 3,690 | 2,800 | 9,999 | 5,500 | 5,999 | 4,499 | 4,750 | 4,900 | 11,900 | 5,400 | 16,900 | |
| Max | 389,660 | 140,999 | 189,500 | 285,000 | 449,000 | 289,911 | 208,000 | 359,000 | 265,000 | 460,000 | 1,550,000 | 339,000 | 849,911 | 799,900 | 599,000 | 699,900 | 549,900 | 1,250,000 | 649,000 | 1,890,000 | 1,129,000 | 1,929,000 | 1,320,000 | 2,550,000 | 1,966,770 | 1,359,000 | 1,249,000 | 2,490,000 | 1,398,000 | |
| 1 Kruskal-Wallis rank sum test | ||||||||||||||||||||||||||||||
Samochody wyprodukowane w 2000 roku posiadają najniższą cene minimalną 1 111 PLN, średnia cen samochodów wynosi 17 792 PLN.
H0: Średnie (lub mediany) cen samochodów są takie same dla wszystkich marek. Marka nie ma wpływu na cenę auta. H1: Przynajmniej jedna marka ma inną medianę ceny niż pozostałe. Marka wpływa na cenę auta. α = 0,05
##
## Anderson-Darling normality test
##
## data: samochody_new_rules$price_in_pln
## A = 6965.1, p-value < 2.2e-16
H0: Średnie (lub mediany) cen samochodów są takie same dla wszystkich lat wyprodukowania. Rok wyprodukowania nie ma wpływu na cenę auta. H1: Przynajmniej jeden rok wyprodukowania ma inną medianę ceny niż pozostałe. Rok wyprodukowania wpływa na cenę auta. α = 0,05
Najistotniejszy wpływ na cenę samochodu ma nazwa producenta- marka. Zgodnie z wykresem ukazanym w punkcie Statystyki opisowe- hipoteza 1, dostrzegamy, iż ceny aut marek takich jak Lamborghini, Ferrari czy Aston Martin sięgają powyżej 2 milionów złotych. Rozkłąd cen tych producentów jest szeroki, co sugeruje dużą zmienność w oferowanych modelach. Samochody klasy premium, takie jak Porshe, Land Rover, Mercedes- Benz, BMW i Maserati również charakteryzują się wysokimi cenami swoich samochodów, ale sięgają one średnio w granicy około 1 do 2 milionów złotych. Kolejno dostrzegamy marki popularne, do których należy Toyota, Volkswagen, Hyundai, Mazda czy Kia. Mają one ceny skoncentrowane w niższych przedziałach cenowych, średnio poniżej 1 miliona złotych, do około 300 tysięcy złotych. Poniżej ceny 300 tysięcy złotych zauważamy takie marki jak Daewoo, Citroen, Smart, które należą do grupy najtańszych aut z całego zbioru. Na wykresach hipotez 2 i 3 nie dostrzegamy aż tak wyraźnych różnic między przedziałami, jak w wykresie hipotezy 1. Na rozkład cen aut w zależności od przebiegu czy roku wyprodukowania nie jest tak jednoznaczny, jak wykres rozkładu cen ze względu na markę auta. Rozkład cen dla każdej marki ukazuje występowanie pojedyńczych bardzo drogich modeli aut, których jest niewiele, w porównaniu do aut niskobudżetowych. Zgodnie z wynikami wykresów hipotez, cena auta jest zależna od roku wyprodukowania i przebiegu, natomiast najistotniejszy wpływ na cenę auta ma jego nazwa producenta, czyli marka.