Wstęp

Celem niniejszego raportu jest zbadanie polskiego rynku samochodów na podstawie danych pochodzących z portalu Otomoto.pl. Zbadano jak na cenę auta wpływa nazwa producenta, rok wyprodukowania samochodu oraz przebieg, a także województwo, w którym zostało wystawione na sprzedaż. Raport wykonano na podstawie analizy cen aut oraz ich wybranych cech. Analiza obejmuje liczbę braków danych, procent braków w poszczególnych kolumnach, a także wzorce braków oraz wizualizacje przedstawiające od czego zależy cena wybranych aut.

Instalacja i wczytanie niezbędnych bibliotek oraz danych

Wczytanie oraz instalacja bibliotek

Krok pierwszy to zainstalowanie bibliotek potrzebnych do prawidłowego wykonania analizy. Między innymi – finalfit do modelowania regresji, mice do imputacji braków danych, qwraps2 do raportów statystycznych oraz ggplo2 do tworzenia wykresów potrzebnych do analizy.

Wczytanie danych

Nasętpnym krokiem jest wczytanie danych, które po wyczyszczeniu będą bazą do przeprowadzenia analizy. Dane zostały wczytane z pliku samochody_new.csv.

##        brand                           model price_in_pln    mileage gearbox
## 1 alfa-romeo Alfa Romeo Spider 2.0-16 TSpark        14700 133 760 km  manual
## 2 alfa-romeo   Alfa Romeo GTV 2.0 16v TSpark        14000 133 760 km  manual
## 3 alfa-romeo Alfa Romeo 164 2.0 TSpark Super         4500 227 000 km  manual
## 4 alfa-romeo    Alfa Romeo Spider 2.0 TSpark        17100 227 000 km  manual
## 5 alfa-romeo   Alfa Romeo 156 1.6 TSpark 16v         3900 239 000 km  manual
## 6 alfa-romeo           Alfa Romeo GTV 2.0 TS        17200 239 000 km  manual
##   engine_capacity   fuel_type      city        voivodeship year
## 1       1 970 cm3     Benzyna      Łask            Łódzkie 1998
## 2       1 970 cm3     Benzyna     Mława        Mazowieckie 1998
## 3       1 970 cm3     Benzyna   Chełmża Kujawsko-pomorskie 1996
## 4       1 970 cm3     Benzyna     Jasło       Podkarpackie 1996
## 5       1 995 cm3 Benzyna+LPG Pabianice            Łódzkie 1995
## 6       1 995 cm3 Benzyna+LPG  Warszawa        Mazowieckie 1995

Sprawdzenie czy w danych są braki

Liczba braków danych w każdej kolumnie

Sprawdzenie czy w kolumnach występują braki danych

## [1] "Liczba braków danych w każdej kolumnie:"
##           brand           model    price_in_pln         mileage         gearbox 
##            1100               0            1550               0               0 
## engine_capacity       fuel_type            city     voivodeship            year 
##               0               0               0               0            2450

Procent braków danych w każdej kolumnie

Kolejnym krokiem w wykryciu braków danych jest obliczenie procentowego udziału braków danych w każdej kolumnie analizowanego pliku.

## [1] "Procent braków danych w każdej kolumnie:"
##           brand           model    price_in_pln         mileage         gearbox 
##        1.201884        0.000000        1.693563        0.000000        0.000000 
## engine_capacity       fuel_type            city     voivodeship            year 
##        0.000000        0.000000        0.000000        0.000000        2.676923

Wzorce braków danych

Ważne jest także określenie, identyfikacja oraz klasyfikacja brakujących wartości.

1. Macierz wzorców braków danych

## [1] "Macierz wzorców braków danych:"

##       model mileage gearbox engine_capacity fuel_type city voivodeship brand
## 86504     1       1       1               1         1    1           1     1
## 2385      1       1       1               1         1    1           1     1
## 1490      1       1       1               1         1    1           1     1
## 44        1       1       1               1         1    1           1     1
## 1064      1       1       1               1         1    1           1     0
## 20        1       1       1               1         1    1           1     0
## 15        1       1       1               1         1    1           1     0
## 1         1       1       1               1         1    1           1     0
##           0       0       0               0         0    0           0  1100
##       price_in_pln year     
## 86504            1    1    0
## 2385             1    0    1
## 1490             0    1    1
## 44               0    0    2
## 1064             1    1    1
## 20               1    0    2
## 15               0    1    2
## 1                0    0    3
##               1550 2450 5100

Macierz braków danych pokazuje, że większość zmiennych zawiera kompletne informacje, a braki koncentrują się tylko w wybranych kolumnach jak “price_in”pln”, “brand” oraz “year”. W zbiorze danych występują trzy wzorce braków danych.

2. Wykres braków danych w zalezności od roku

Wykres przedstawia rozkład brakujących danych w zbiorze samochody_new w w zależności od roku. Najwięcej brakujących wartości występuje w zmiennych price_in_pln oraz brand, co było również widoczne w macierzy braków danych. Występowanie braków nie jest losowe – w niektórych latach widoczne są większe luki, co może sugerować problemy z dostępnością danych historycznych lub zmianę sposobu ich zbierania.

3. Wykres braków danych

Wykres pokazuje, że największa liczba braków danych występuje w zmiennych year price_in_pln i brand, co było również widoczne na wcześniejszej macierzy braków. Najczęstszy wzorzec braków obejmuje brak danych w zmiennej year - 2385 rekordów, a inne kombinacje braków występują rzadziej. Stosunkowo niewielka liczba obserwacji ma braki w więcej niż dwóch zmiennych jednocześnie, co sugeruje, że dane są częściowo uzupełnione, ale pewne zmienne wymagają imputacji lub dalszej analizy.

4. Missigness map dla danych w zbiorze

Wykres Missingness Map pokazuje rozmieszczenie brakujących danych w zbiorze, gdzie niebieski kolor oznacza obserwowane wartości, a jasne linie wskazują braki. Zgodnie z wcześniejszymi wykresami, największa liczba braków występuje w zmiennych price_in_pln oraz year, ale ich udział w całym zbiorze jest niewielki (około 1%).

## 
##  Variables sorted by number of missings: 
##         Variable      Count
##             year 0.02676923
##     price_in_pln 0.01693563
##            brand 0.01201884
##            model 0.00000000
##          mileage 0.00000000
##          gearbox 0.00000000
##  engine_capacity 0.00000000
##        fuel_type 0.00000000
##             city 0.00000000
##      voivodeship 0.00000000

Czyszczenie danych

Wczytanie oraz instalacja bibliotek

Instalowanie bibliotek potrzebnych do dalszej analizy między innymi editrules, deducorrect oraz ISLR.

Wykrywanie braków danych

Identyfikacja, lokalizacja oraz cena skali braków w danych.

## Liczba kompletnych wierszy: 86504
## Procent kompletnych danych: 94.52 %
##  Kolumny zawierające błędne wartości:
##        brand price_in_pln         year 
##         1100         1550         2450
##     brand              model            price_in_pln       mileage         
##  Length:91523       Length:91523       Min.   :   1111   Length:91523      
##  Class :character   Class :character   1st Qu.:  24900   Class :character  
##  Mode  :character   Mode  :character   Median :  49900   Mode  :character  
##                                        Mean   :  84146                     
##                                        3rd Qu.:  99850                     
##                                        Max.   :2599000                     
##                                        NA's   :1550                        
##    gearbox         
##  Length:91523      
##  Class :character  
##  Mode  :character  
##                    
##                    
##                    
## 
##        brand                           model price_in_pln    mileage gearbox
## 1 alfa-romeo Alfa Romeo Spider 2.0-16 TSpark        14700 133 760 km  manual
## 2 alfa-romeo   Alfa Romeo GTV 2.0 16v TSpark        14000 133 760 km  manual
## 3 alfa-romeo Alfa Romeo 164 2.0 TSpark Super         4500 227 000 km  manual
## 4 alfa-romeo    Alfa Romeo Spider 2.0 TSpark        17100 227 000 km  manual
## 5 alfa-romeo   Alfa Romeo 156 1.6 TSpark 16v         3900 239 000 km  manual

Sprawdzanie i naprawa spójności danych

Identyfikacja problemów z niespójnością danych oraz metody naprawy tak aby analiza była rzetelna i wiarygodna.

##         brand                             model price_in_pln    mileage gearbox
## 1  alfa-romeo   Alfa Romeo Spider 2.0-16 TSpark        14700 133 760 km  manual
## 2  alfa-romeo     Alfa Romeo GTV 2.0 16v TSpark        14000 133 760 km  manual
## 3  alfa-romeo   Alfa Romeo 164 2.0 TSpark Super         4500 227 000 km  manual
## 4  alfa-romeo      Alfa Romeo Spider 2.0 TSpark        17100 227 000 km  manual
## 5  alfa-romeo   Alfa Romeo Spider 2.0-16 TSpark        15500 180 711 km  manual
## 6  alfa-romeo       Alfa Romeo GTV 2.0 V6 Turbo        24900 180 711 km  manual
## 7  alfa-romeo     Alfa Romeo 156 1.8 TSpark 16v         5800 195 000 km  manual
## 8  alfa-romeo Alfa Romeo 156 2.5 V6 Distinctive        17500 195 000 km  manual
## 9  alfa-romeo     Alfa Romeo GTV 2.0 16v TSpark        14999 261 300 km  manual
## 10 alfa-romeo          Alfa Romeo 166 2.0 V6 TB        18500 261 300 km  manual
##    engine_capacity fuel_type      city        voivodeship year
## 1        1 970 cm3   Benzyna      Łask            Łódzkie 1998
## 2        1 970 cm3   Benzyna     Mława        Mazowieckie 1998
## 3        1 970 cm3   Benzyna   Chełmża Kujawsko-pomorskie 1996
## 4        1 970 cm3   Benzyna     Jasło       Podkarpackie 1996
## 5        1 970 cm3   Benzyna Legionowo        Mazowieckie 1998
## 6        1 970 cm3   Benzyna  Pruszków        Mazowieckie 1998
## 7        1 598 cm3   Benzyna Opalenica      Wielkopolskie 1998
## 8        1 598 cm3   Benzyna  Warszawa        Mazowieckie 1998
## 9        1 970 cm3   Benzyna  Pruszków        Mazowieckie 1998
## 10       1 970 cm3   Benzyna  Warszawa        Mazowieckie 1998

Czyszczenie regionów niebędących polskimi województwami

W posidadanych danych znajdują się miasta spoza granic Polski. W naszej analizie chcemy się skupić na danych z polskich województw, więc pozostałe dane zostaną usunięte.

Sprawdzenie poprawności danych w pliku samochody_new

##   Regula1 Regula2 Regula3 Regula4 Regula5 Regula6
## 1      NA      NA    5414    9594      NA      NA

Niespójności znaleziono w rodzaju paliwa, jest to aż 9594 wartości oraz w przebiegu – 5418 wartości.

##   Regula1 Regula2  Regula3  Regula4 Regula5 Regula6
## 1      NA      NA 5.915453 10.48261      NA      NA

Wartości odstające

Usuwanie wartości odstających dla wszystkich kolumn numerycznych

Wartości odstające zaburzają rzetelność analizy, więc powinny zostać usunięte.

Podgląd wynikowego zbioru danych

Sprawdzanie jak wygląda finalny plik z wyczyczonymi danymi i zapisanie ich do osobnego pliku, który będzie użyty w analizie.

## # A tibble: 72,076 × 10
##    brand      model price_in_pln mileage gearbox engine_capacity fuel_type city 
##    <chr>      <chr>        <int> <chr>   <chr>   <chr>           <chr>     <chr>
##  1 alfa-romeo Alfa…        14700 133 76… manual  1 970 cm3       Benzyna   Łask 
##  2 alfa-romeo Alfa…        14000 133 76… manual  1 970 cm3       Benzyna   Mława
##  3 alfa-romeo Alfa…        17100 227 00… manual  1 970 cm3       Benzyna   Jasło
##  4 alfa-romeo Alfa…        15500 180 71… manual  1 970 cm3       Benzyna   Legi…
##  5 alfa-romeo Alfa…        24900 180 71… manual  1 970 cm3       Benzyna   Prus…
##  6 alfa-romeo Alfa…         5800 195 00… manual  1 598 cm3       Benzyna   Opal…
##  7 alfa-romeo Alfa…        17500 195 00… manual  1 598 cm3       Benzyna   Wars…
##  8 alfa-romeo Alfa…        14999 261 30… manual  1 970 cm3       Benzyna   Prus…
##  9 alfa-romeo Alfa…        18500 261 30… manual  1 970 cm3       Benzyna   Wars…
## 10 alfa-romeo Alfa…        18200 238 25… manual  1 970 cm3       Benzyna   Wars…
## # ℹ 72,066 more rows
## # ℹ 2 more variables: voivodeship <chr>, year <chr>

Wizualizacja danych

1. Cena samochodu zależna od marki

Wykres zawiera informacje na temat marek samochodów, które posiadają najwyższe ceny. Wśród producentów zauważamy znaczną przewagę wysokości cen Lamborghini nad pozostałymi markami aut. Cena modelu Aventador S wynosi 2 550 000 zł. Kolejną najdroższą marką jest Ferrari, następnie Mercedes-Benz.

Wykres zawiera informacje na temat marek samochodów, które posiadają najniższe ceny. Wśród producentów zauważamy, iż najtańsze auta należą do Opla. Najniższym dostępnym modelem jest Opel Corsa 1.0 Swing 12 v dostępny w cenie 1 111 zł. Kolejną marką, która posiada nieznacznie wyższe ceny jest Deawoo, natomiast trzecim producentem, który posiada najtańsze dostępne auta jest Nissan.

2. Cena samochodu zależna od daty wyprodukowania

Wykres zawiera dane, które ukazują, w którym roku zostały wyprodukowane najdroższe dostępne auta. Dostrzegamy, iż najwięcej najdroższych aut zostało wyprodukowanych w latach 2017-2019. W roku 2018 dostrzegamy największe wartości odstające- są to najdroższe z dostępnych aut- Lamborghini Aventador S, których cena wynosi 2 550 000 złotych.

3. Cena samochodu zależna od przebiegu

Większość punktów znajduje się w dolnej części wykresu, co sugeruje, że cena samochodów zazwyczaj mieści się w niższym przedziale, niezależnie od przebiegu. Nie widać wyraźnej korelacji – samochody o różnym przebiegu mogą mieć bardzo różne ceny. Występują pojedyncze punkty znacznie powyżej większości obserwacji – mogą to być luksusowe lub kolekcjonerskie pojazdy, których cena jest bardzo wysoka, niezależnie od przebiegu.

4. Cena samochodu zależna od pojemności silnika

Większość samochodów ma stosunkowo niską cenę, niezależnie od pojemności silnika. Widać duże zagęszczenie punktów w dolnej części wykresu. Brak wyraźnej liniowej zależności między pojemnością silnika a ceną – cena samochodu nie rośnie wprost proporcjonalnie do pojemności silnika. Istnieją pojedyncze punkty w górnej części wykresu, które reprezentują samochody o bardzo wysokiej wartości (np. luksusowe, sportowe lub kolekcjonerskie auta). Widać, że droższe samochody częściej mają większą pojemność silnika, ale nie jest to regułą. Istnieją też samochody o dużej pojemności, które nie są szczególnie drogie, co może wskazywać na starsze modele lub mniej prestiżowe marki.

5. Średnia cena samochodu w województwie

Wykres pokazuje rozpiętość cen samochodów w różnych województwach w Polsce. Można zauważyć, że województwa o bardziej rozwiniętym rynku samochodowym, takie jak Mazowieckie, Małopolskie, i Śląskie, charakteryzują się najwyższymi cenami.Województwa takie jak Lubuskie, Podlaskie, i Świętokrzyskie mają znacznie niższe ceny samochodów, co może wynikać z mniejszego popytu lub braku dostępu do luksusowych modeli. Wysokość słupków wskazuje na różnorodność cen w każdym województwie. Przykładowo, Mazowieckie i Małopolskie mają większe rozpiętości cen, co może wynikać z większego rynku oraz dostępności zarówno tanich, jak i drogich modeli.

6. 15 miast z najwyższymi cenami samochodów

Wśród miast przedstawionych na wykresie, Warszawa wyróżnia się jako miasto z najwyższą średnią ceną samochodów. Może to być związane z wyższą siłą nabywczą mieszkańców stolicy oraz większym zapotrzebowaniem na pojazdy luksusowe.Miasta takie jak Katowice i Poznań mają również wysokie ceny samochodów, co wskazuje na dużą liczbę transakcji w pojazdów. Lubartów oraz Wschowa znajdują się w dolnej części wykresu, co sugeruje, że ceny samochodów w tych miastach są niższe w porównaniu do pozostałych.

7. Rodzaje paliwa w polskich województwach

Z wykresu można wyczytać, że benzyna i diesel są najpopularniejszymi rodzajami paliwa w Polsce, a ich dominacja jest wyraźna w każdym województwie. Liczba pojazdów hybrydowych i elektrycznych jest niewielka, ale zauważalna w województwach bogatszych.

Statystyki opisowe

Zmiana ceny samochodu według marki

Tabela 1. Zmiana cen według marki
Zmienna alfa-romeo
N = 544
aston-martin
N = 31
audi
N = 394
bentley
N = 90
bmw
N = 5,858
cadillac
N = 39
chevrolet
N = 243
citroen
N = 1,019
dacia
N = 230
daewoo
N = 57
daihatsu
N = 63
dodge
N = 248
ferrari
N = 36
fiat
N = 461
ford
N = 5,090
honda
N = 1,581
hyundai
N = 2,935
infiniti
N = 281
isuzu
N = 169
jaguar
N = 450
jeep
N = 666
kia
N = 2,096
lamborghini
N = 14
lancia
N = 88
land-rover
N = 887
maserati
N = 107
mazda
N = 482
mercedes-benz
N = 5,421
mini
N = 614
mitsubishi
N = 768
nissan
N = 2,243
opel
N = 8,046
peugeot
N = 5,196
porsche
N = 581
renault
N = 4,001
rover
N = 124
saab
N = 159
seat
N = 1,738
skoda
N = 815
smart
N = 334
toyota
N = 4,809
volkswagen
N = 8,943
volvo
N = 4,125
p-value1
Cena










































<0.001
    N Non-missing 544 31 394 90 5,858 39 243 1,019 230 57 63 248 36 461 5,090 1,581 2,935 281 169 450 666 2,096 14 88 887 107 482 5,421 614 768 2,243 8,046 5,196 581 4,001 124 159 1,738 815 334 4,809 8,943 4,125
    Mean 43,658 372,675 96,237 582,582 166,613 120,792 132,650 37,816 40,100 4,305 11,891 126,859 990,117 45,180 46,735 44,557 61,472 66,415 99,940 82,069 115,858 64,673 1,271,214 33,717 205,371 184,288 65,180 166,487 53,653 56,221 43,209 39,782 41,023 246,040 46,788 5,783 22,124 47,566 67,085 9,673 77,774 63,399 80,843
    SD 58,401 147,468 120,332 344,852 141,780 183,554 180,348 38,890 23,784 2,223 6,104 156,114 505,829 36,867 35,964 41,865 37,243 38,959 62,558 82,988 100,882 34,547 714,260 25,874 171,882 104,310 48,972 176,078 42,508 47,731 32,310 30,532 36,365 199,843 37,690 3,925 15,289 33,583 52,583 6,009 52,889 62,309 75,204
    Median 23,250 349,800 48,900 424,450 124,900 52,900 55,000 21,900 34,900 3,700 9,900 53,950 734,950 43,900 36,900 31,900 51,900 59,500 91,900 59,900 89,000 59,900 1,365,000 24,450 159,000 159,450 62,400 118,900 39,999 42,500 35,900 31,150 29,999 189,999 35,400 4,700 18,800 38,900 55,900 8,000 64,900 44,900 53,900
    Q1 14,999 269,000 22,900 320,000 71,900 15,900 24,000 8,499 22,017 2,900 7,500 19,450 590,400 15,700 24,990 14,950 34,900 39,237 37,000 18,500 48,900 39,900 790,000 14,900 84,900 111,900 15,400 56,900 25,000 21,900 23,900 17,900 15,900 94,000 22,400 3,900 10,900 22,000 19,680 6,700 39,900 21,900 21,000
    Q3 41,000 429,000 124,900 840,000 209,000 85,000 164,000 58,501 55,900 4,900 14,800 179,000 1,295,000 59,900 58,800 61,900 82,800 89,999 146,950 119,900 139,900 86,000 1,550,000 41,450 269,700 239,000 103,000 209,000 68,000 76,145 54,990 52,999 50,000 309,000 59,900 5,999 27,900 65,700 109,750 10,400 103,001 82,900 129,000
    Min 1,900 83,000 2,150 60,000 3,999 9,999 3,300 1,500 3,900 1,230 4,000 7,000 490,770 1,600 1,500 1,500 2,950 11,000 18,600 2,900 7,500 2,900 289,000 3,499 8,000 30,750 1,800 3,200 4,000 1,600 1,300 1,111 1,899 16,800 1,500 1,950 3,500 2,799 1,500 1,800 2,800 1,600 2,000
    Max 419,000 666,666 759,000 1,290,000 1,285,000 909,900 799,999 224,852 109,900 12,950 27,600 829,990 2,490,000 355,000 328,700 249,900 314,400 299,900 290,000 515,000 889,800 279,620 2,550,000 88,129 908,220 530,000 182,800 2,298,999 241,400 213,890 301,900 264,000 270,600 1,359,000 289,000 17,000 94,000 192,800 318,794 55,350 519,410 470,000 479,900
1 Kruskal-Wallis rank sum test

W obecnym zestawieniu Volkswagen posiada największa ilość samochodów, średnia cena samochodu tej marki wynosi 63 399 PLN, a zakres cen od 1 600 PLN do 470 000 PLN. Lamborghini jest z najwyższymi cenami. Średnia cena wynosi 1 271 214 PLN, a zakres cen wynosi od 289 000 PLN do 2 550 000 PLN.

Rozkład cen według roku produkcji samochodu.

Tabela 1. Rozkład cen według roku produkcji
Zmienna 1995
N = 319
1996
N = 436
1997
N = 494
1998
N = 891
1999
N = 945
2000
N = 423
2001
N = 422
2002
N = 612
2003
N = 1,135
2004
N = 1,681
2005
N = 1,286
2006
N = 1,686
2007
N = 2,148
2008
N = 2,270
2009
N = 2,389
2010
N = 3,514
2011
N = 3,973
2012
N = 3,681
2013
N = 3,432
2014
N = 3,830
2015
N = 3,973
2016
N = 4,345
2017
N = 5,178
2018
N = 5,395
2019
N = 5,154
2020
N = 2,729
2021
N = 2,492
2022
N = 3,387
2023
N = 3,856
p-value1
Cena




























<0.001
    N Non-missing 319 436 494 891 945 423 422 612 1,135 1,681 1,286 1,686 2,148 2,270 2,389 3,514 3,973 3,681 3,432 3,830 3,973 4,345 5,178 5,395 5,154 2,729 2,492 3,387 3,856
    Mean 27,094 22,175 19,286 17,741 34,891 17,792 16,151 18,111 17,996 14,579 28,771 27,086 29,979 30,473 22,727 39,598 41,017 41,904 42,731 45,666 84,337 89,970 92,915 96,300 101,544 159,320 164,365 185,670 192,656
    SD 47,635 25,164 32,898 25,298 70,506 29,369 22,519 25,608 21,879 22,168 60,046 37,835 59,864 58,997 23,799 38,405 37,401 40,986 35,664 49,388 73,563 87,840 93,592 106,434 93,250 134,313 128,746 168,658 158,196
    Median 13,900 11,900 6,999 11,900 9,500 9,400 9,500 9,800 10,400 9,499 17,900 17,900 18,700 19,000 17,500 31,900 32,900 33,900 34,500 35,550 64,700 67,900 68,900 71,900 76,900 120,000 122,645 131,270 139,900
    Q1 4,990 5,900 3,950 4,900 4,499 4,999 5,250 5,200 7,500 6,300 12,750 12,900 12,900 13,900 12,400 23,900 24,900 24,999 24,999 25,700 46,900 48,500 48,600 49,900 53,000 84,850 88,000 90,000 98,900
    Q3 34,900 25,950 18,900 17,500 25,900 17,900 16,900 21,200 19,800 15,900 27,900 26,900 27,000 28,500 26,500 43,500 45,100 46,500 48,500 49,999 92,900 99,900 102,100 109,000 119,900 187,329 196,900 214,900 225,800
    Min 1,999 1,600 1,500 1,300 1,500 1,111 1,800 1,600 1,550 1,900 3,200 2,299 2,700 2,990 1,999 4,999 3,500 1,899 3,690 2,800 9,999 5,500 5,999 4,499 4,750 4,900 11,900 5,400 16,900
    Max 389,660 140,999 189,500 285,000 449,000 289,911 208,000 359,000 265,000 460,000 1,550,000 339,000 849,911 799,900 599,000 699,900 549,900 1,250,000 649,000 1,890,000 1,129,000 1,929,000 1,320,000 2,550,000 1,966,770 1,359,000 1,249,000 2,490,000 1,398,000
1 Kruskal-Wallis rank sum test

Samochody wyprodukowane w 2000 roku posiadają najniższą cene minimalną 1 111 PLN, średnia cen samochodów wynosi 17 792 PLN.

1. Hipoteza 1 -> marka nie ma wpływu na cenę.

H0: Średnie (lub mediany) cen samochodów są takie same dla wszystkich marek. Marka nie ma wpływu na cenę auta. H1: Przynajmniej jedna marka ma inną medianę ceny niż pozostałe. Marka wpływa na cenę auta. α = 0,05

## 
##  Anderson-Darling normality test
## 
## data:  samochody_new_rules$price_in_pln
## A = 6965.1, p-value < 2.2e-16

2. Hipoteza 2 -> Rok wyprodukwoania auta nie ma wpływu na cenę.

H0: Średnie (lub mediany) cen samochodów są takie same dla wszystkich lat wyprodukowania. Rok wyprodukowania nie ma wpływu na cenę auta. H1: Przynajmniej jeden rok wyprodukowania ma inną medianę ceny niż pozostałe. Rok wyprodukowania wpływa na cenę auta. α = 0,05

Podsumowanie

Najistotniejszy wpływ na cenę samochodu ma nazwa producenta- marka. Zgodnie z wykresem ukazanym w punkcie Statystyki opisowe- hipoteza 1, dostrzegamy, iż ceny aut marek takich jak Lamborghini, Ferrari czy Aston Martin sięgają powyżej 2 milionów złotych. Rozkłąd cen tych producentów jest szeroki, co sugeruje dużą zmienność w oferowanych modelach. Samochody klasy premium, takie jak Porshe, Land Rover, Mercedes- Benz, BMW i Maserati również charakteryzują się wysokimi cenami swoich samochodów, ale sięgają one średnio w granicy około 1 do 2 milionów złotych. Kolejno dostrzegamy marki popularne, do których należy Toyota, Volkswagen, Hyundai, Mazda czy Kia. Mają one ceny skoncentrowane w niższych przedziałach cenowych, średnio poniżej 1 miliona złotych, do około 300 tysięcy złotych. Poniżej ceny 300 tysięcy złotych zauważamy takie marki jak Daewoo, Citroen, Smart, które należą do grupy najtańszych aut z całego zbioru. Na wykresach hipotez 2 i 3 nie dostrzegamy aż tak wyraźnych różnic między przedziałami, jak w wykresie hipotezy 1. Na rozkład cen aut w zależności od przebiegu czy roku wyprodukowania nie jest tak jednoznaczny, jak wykres rozkładu cen ze względu na markę auta. Rozkład cen dla każdej marki ukazuje występowanie pojedyńczych bardzo drogich modeli aut, których jest niewiele, w porównaniu do aut niskobudżetowych. Zgodnie z wynikami wykresów hipotez, cena auta jest zależna od roku wyprodukowania i przebiegu, natomiast najistotniejszy wpływ na cenę auta ma jego nazwa producenta, czyli marka.