US Cars
2025-04-02
1.Περιγραφή του Dataset
Το US Cars Dataset προέρχεται από το Kaggle και αφορά μεταχειρισμένα αυτοκίνητα που πωλούνται στις Ηνωμένες Πολιτείες. Περιέχει 2499 εγγραφές και για κάθε μία 12 μεταβλητές που περιέχουν πληροφορίες όπως η μάρκα, το μοντέλο, το έτος κατασκευής, η κατάσταση του τίτλου, η απόσταση που έχει διανύσει το αυτοκίνητο, η πολιτεία πώλησης και άλλες λεπτομέρειες.
2.Αιτιολόγηση της Επιλογής και Επιχειρηματικά
Ερωτήματα
Το dataset αυτό μπορεί να χρησιμοποιηθεί σε διάφορες περιπτώσεις σε σχέση με την επιχειρηματική αναλυτική. Για παράδειγμα, στην πρόβλεψη των τιμών βάσει χαρακτηριστικών όπως μάρκα, μοντέλο, χιλιομετρική κάλυψη, στην αναγνώριση τάσεων σε διαφορετικές πολιτείες των ΗΠΑ, στην Κατανόηση της επίδρασης της κατάστασης του τίτλου στην τιμή και στην Βελτιστοποίηση αποθεμάτων και στρατηγικών πώλησης για εταιρείες που εμπορεύονται αυτοκίνητα. Πιο συγκεκριμένα, τα πιθανά επιχειρηματικά ερωτήματα που θα μπορούσαν να απαντηθούν είναι τα εξής:
1. Ποιοι παράγοντες επηρεάζουν περισσότερο την τιμή ενός
μεταχειρισμένου αυτοκινήτου;
2. Υπάρχουν πολιτείες όπου οι τιμές είναι σημαντικά υψηλότερες ή
χαμηλότερες;
3. Πώς επηρεάζει η μάρκα και το μοντέλο την πιθανότητα πώλησης ενός
αυτοκινήτου;
4. Ποια είναι η επίδραση της κατάστασης του τίτλου στην αξία
μεταπώλησης;
5. Υπάρχουν συγκεκριμένες χρονικές περιόδοι που επηρεάζουν τις τιμές
(π.χ., αλλαγές σεζόν);
3.Περιγραφή των Μεταβλητών
index: Αναγνωριστικό γραμμής. (integer)
price: Τιμή του αυτοκινήτου σε δολάρια “$”.
(integer)
brand: Μάρκα του αυτοκινήτου (π.χ. Toyota, Ford).
(string)
model: Μοντέλο του αυτοκινήτου. (string)
year: Έτος κατασκευής. (integer)
title_status: Κατάσταση του τίτλου (π.χ. “clean
vehicle”). (string)
mileage: Χιλιόμετρα που έχει διανύσει το αυτοκίνητο (σε
μίλια). (float)
color: Χρώμα αυτοκινήτου. (string)
vin: Αριθμός πλαισίου (μοναδικό χαρακτηριστικό).
(string)
lot: Αριθμός παρτίδας. (integer)
state: Πολιτεία των ΗΠΑ όπου βρίσκεται το όχημα.
(string)
country: Πάντα “USA”. (string)
condition: Χρονικό διάστημα που απομένει για τη
δημοπρασία. (string)
4.Περιγραφά Στατιστικά
4.1 Ανάγνωση Dataset
library(readxl)
dataset <- read_excel("C:\\Users\\maria\\Downloads\\US_Cars.xlsx")## New names:
## • `` -> `...1`
head(dataset)## # A tibble: 6 × 13
## ...1 price brand model year title_status mileage color vin lot state
## <dbl> <dbl> <chr> <chr> <dbl> <chr> <dbl> <chr> <chr> <dbl> <chr>
## 1 0 6300 toyota crui… 2008 clean vehic… 274117 black jtez… 1.59e8 new …
## 2 1 2899 ford se 2011 clean vehic… 190552 silv… 2fmd… 1.67e8 tenn…
## 3 2 5350 dodge mpv 2018 clean vehic… 39590 silv… 3c4p… 1.68e8 geor…
## 4 3 25000 ford door 2014 clean vehic… 64146 blue 1ftf… 1.68e8 virg…
## 5 4 27700 chevrol… 1500… 2018 clean vehic… 6654 red 3gcp… 1.68e8 flor…
## 6 5 5700 dodge mpv 2018 clean vehic… 45561 white 2c4r… 1.68e8 texas
## # ℹ 2 more variables: country <chr>, condition <chr>
4.2 Περιγραφικά Στατιστικά
Price:
summary(dataset$price)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 10200 16900 18768 25556 84900
mode_price <- as.numeric(names(sort(table(dataset$price), decreasing = TRUE)[1]))
std_dev_price <- sd(dataset$price, na.rm = TRUE)
var_price <- var(dataset$price, na.rm = TRUE)
range_price <- range(dataset$price, na.rm = TRUE) Επικρατούσα τιμή: 0
Τυπική Απόκλιση: 1.2116095^{4}
Διακύμανση: 1.4679976^{8}
Year:
summary(dataset$year)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1973 2016 2018 2017 2019 2020
mode_year <- as.numeric(names(sort(table(dataset$year), decreasing = TRUE)[1]))
std_dev_year <- sd(dataset$year, na.rm = TRUE)
var_year <- var(dataset$year, na.rm = TRUE)
range_year <- range(dataset$year, na.rm = TRUE) Επικρατούσα τιμή: 2019
Τυπική Απόκλιση: 3.4426562
Διακύμανση: 11.8518815
Mileage:
summary(dataset$mileage)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 21467 35365 52299 63473 1017936
mode_mileage <- as.numeric(names(sort(table(dataset$mileage), decreasing = TRUE)[1]))
std_dev_mileage <- sd(dataset$mileage, na.rm = TRUE)
var_mileage <- var(dataset$mileage, na.rm = TRUE)
range_mileage <- range(dataset$mileage, na.rm = TRUE) Επικρατούσα τιμή: 1
Τυπική Απόκλιση: 5.9705516^{4}
Διακύμανση: 3.5647487^{9}
5.Διερεύνηση Συσχετίσεων
library(ggplot2)
ggplot(dataset, aes(x = mileage, y = price)) +
geom_point(alpha = 0.5, color = "blue") +
theme_minimal() +
labs(
title = "Σχέση μεταξύ Mileage και Price",
x = "Mileage (miles)",
y = "Price (USD)"
) +
theme(
plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
axis.title = element_text(size = 14),
panel.grid.major = element_line(color = "gray80")
)
Παρατηρούμε ότι υπάρχει αρνητική συσχέτηση ανάμεσα στο price και στο
mileage, καθώς όσο λιγότερα είναι τα μίλια, τόσο μεγαλύτερη είναι η
τιμή.
ggplot(dataset, aes(x = year, y = price)) +
geom_point(alpha = 0.5, color = "orange") +
theme_minimal() +
labs(
title = "Σχέση μεταξύ Year και Price",
x = "Year",
y = "Price (USD)"
) +
theme(
plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
axis.title = element_text(size = 14),
panel.grid.major = element_line(color = "gray80")
)
Παρατηρούμε ότι υπάρχει θετική συσχέτηση ανάμεσα στο price και στο year,
καθώς όσο νεότερης κατασκευής είναι το αυτοκίνητο, τόσο μεγαλύτερη είναι
η τιμή.
6.Διαγράμματα
Scatterplot
ggplot(dataset, aes(x = year, y = mileage)) +
geom_point(alpha = 0.5, color = "maroon") +
theme_minimal() +
labs(
title = "Σχέση μεταξύ Year και Mileage",
x = "Year",
y = "Mileage (miles)"
) +
theme(
plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
axis.title = element_text(size = 14),
panel.grid.major = element_line(color = "gray80")
)
Παρατηρούμε ότι υπάρχει ελαφρυά αρνητική συσχέτηση ανάμεσα στο year και
στο mileage, καθώς όσο νεότερης κατασκευής είναι το αυτοκίνητο, τόσο
λιγότερα είναι τα μίλια που έχει διανύσει.
Boxplot
ggplot(dataset, aes(x = factor(year), y = mileage)) +
geom_boxplot(fill = "lightblue", color = "black") +
labs(title = "Boxplot of Mileage by Year",
x = "Year",
y = "Mileage") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
Παρατηρούμε ότι τα νεότερα αυτοκίνητα (2015-2020) έχουν γενικά
χαμηλότερα χιλιόμετρα, καθώς είναι πιο πρόσφατα. Τα παλαιότερα
αυτοκίνητα εμφανίζουν μεγαλύτερη διασπορά στα χιλιόμετρα, με κάποια να
έχουν υπερβολικά υψηλές τιμές (outliers). Επιπλέον, υπάρχουν αρκετά
ακραία σημεία, ιδιαίτερα για τα έτη 2003-2013, που υποδεικνύουν ότι
κάποια οχήματα έχουν διανύσει πολύ περισσότερα χιλιόμετρα από το μέσο
όρο και μπορεί να είναι είτε ταξί, επαγγελματικά οχήματα, είτε
λαναθασμένες καταχωρήσεις δεδομένων.
Histogram
ggplot(dataset, aes(x = mileage)) +
geom_histogram(fill = "purple", color = "black", bins = 30, alpha = 0.7) +
labs(title = "Histogram of Mileage",
x = "Mileage",
y = "Count") +
theme_minimal()
Παρατηρούμε ότι η πλειονότητα των αυτοκινήτων έχει χαμηλά χιλιόμετρα
(0-100.000). Καθώς τα χιλιόμετρα αυξάνονται, η συχνότητα μειώνεται
σταδιακά. Ακόμα, υπάρχουν λίγα οχήματα με πολύ υψηλά χιλιόμετρα
(outliers), όπως 500.000 και 1.000.000.
Bar Chart
ggplot(dataset, aes(x = factor(year))) +
geom_bar(fill = "darkgreen", color = "black") +
labs(title = "Bar Chart of Car Count per Year",
x = "Year",
y = "Count") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
Παρατηρούμε ότι από το 2010 και μετά, υπάρχει μια έντονη αύξηση στον
αριθμό των αυτοκινήτων, με μια εκρηκτική αύξηση το 2019. Αυτό μπορεί να
οφείλεται στις τεχνολογικές εξελίξεις και στην αύξηση της παραγωγής και
χρήσης των αυτοκινήτων,. Πριν το 2000, ο αριθμός των αυτοκινήτων
φαίνεται πολύ χαμηλός έως σχεδόν μηδενικός. Το 2020 υπάρχει σημαντική
μείωση σε σχέση με το 2019, κάτι που μπορεί να σχετίζεται με την
πανδημία COVID-19 ή άλλους παράγοντες.