🔹 Περιγραφή του συνόλου δεδομένων

Το επιλεγμένο σύνολο δεδομένων περιέχει πληροφορίες σχετικά με διάφορα μοντέλα φορητών υπολογιστών, τις προδιαγραφές τους και τις αντίστοιχες τιμές τους. Είναι χρήσιμο για την ανάλυση του τρόπου με τον οποίο διάφορα χαρακτηριστικά (όπως η μάρκα, το μέγεθος της οθόνης, η μνήμη RAM και ο επεξεργαστής) επηρεάζουν την τιμή ενός φορητού υπολογιστή. Αυτό το σύνολο δεδομένων μπορεί να βοηθήσει τις επιχειρήσεις, τους καταναλωτές και τους αναλυτές να κατανοήσουν τις τάσεις της αγοράς και τις στρατηγικές τιμολόγησης.

Link for the dataset(Kaggle.com)

🔹 Προετοιμασία του συνόλου δεδομένων

  1. Μετατροπή των Inches και RAM.
    Στο αρχικό Dataset, τα attributes Inches, Weight και RAM ήταν τύπου Categorical, παρά το γεγονός ότι ήταν νούμερα.
    Έγινε η μετατροπή τους σε Numeric για την καλύτερη ερμηνεία του συνόλου.

  2. Μετατροπή των τιμών.
    Οι τιμές των φορητών υπολογιστών ήταν εκφρασμένες σε Ρουπία Ινδίας.
    Αυτές μετατράπηκαν σε ευρώ και έγινε στρογγυλοποίηση των 2 δεκαδικών στοιχείων για καλύτερη κατανόηση του συνόλου.

  3. Έλεγχος και χειρισμός ελλιπών τιμών.
    Τα αντικείμενα του συνόλου δεδομένων ήταν 1303.
    Μετά τον έλεγχο για διπλότυπα και την αφαίρεση των ελλιπών τιμών,
    έμειναν 1273 αντικείμενα.

    Εικόνα 1: OpenRefine Preproccesing Steps
    Εικόνα 1: OpenRefine Preproccesing Steps

🔹 Χαρακτηριστικά του συνόλου δεδομένων

kable(df, format = "html", align = "c", escape = FALSE) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
                full_width = FALSE, position = "center") %>%
  column_spec(3, bold = TRUE)
Χαρακτηριστικό Περιγραφή Τύπος
Εταιρεία Η μάρκα του φορητού υπολογιστή (π.χ. Dell, HP, Apple). Categorical
TypeName Η κατηγορία/ο τύπος του φορητού υπολογιστή (π.χ. Gaming, Ultrabook, Notebook). Categorical
Inches Το μέγεθος της οθόνης του φορητού υπολογιστή σε ίντσες. Numeric
ScreenResolution Η ανάλυση της οθόνης (π.χ. 1920x1080, 4K). Categorical
CPU Τα στοιχεία του επεξεργαστή (π.χ. Intel Core i5, AMD Ryzen 7). Categorical
RAM Η ποσότητα της μνήμης τυχαίας προσπέλασης (RAM) σε gigabytes (GB). Numeric
Μνήμη Ο τύπος και το μέγεθος του αποθηκευτικού χώρου (π.χ. 256 GB SSD, 1 TB HDD). Categorical
GPU Η μονάδα επεξεργασίας γραφικών (π.χ. NVIDIA GTX 1650, Intel HD Graphics). Categorical
Λειτουργικό Σύστημα Το λειτουργικό σύστημα του φορητού υπολογιστή (π.χ. Windows, macOS, Linux). Categorical
Τιμή Η τιμή του φορητού υπολογιστή σε Ευρώ. Numeric

🔹 Υπολογισμός και παρουσίαση περιγραφικών στατιστικών

Σταστικά αριθμητικών χαρακτηριστικών

summary(laptopData %>% select(Inches, Ram, Price))
##      Inches           Ram             Price        
##  Min.   :10.10   Min.   : 1.000   Min.   :  98.62  
##  1st Qu.:14.00   1st Qu.: 4.000   1st Qu.: 339.52  
##  Median :15.60   Median : 8.000   Median : 554.34  
##  Mean   :15.13   Mean   : 8.463   Mean   : 637.23  
##  3rd Qu.:15.60   3rd Qu.: 8.000   3rd Qu.: 843.03  
##  Max.   :35.60   Max.   :64.000   Max.   :3456.97
# Creating a data frame with the attributes: Inches, Ram, and Price
df <- data.frame(laptopData$Inches, laptopData$Ram, laptopData$Price)

# Function to calculate dispersion measures
dispersion_stats <- function(x) {
  c(Variance = var(x),
    Std_Dev = sd(x),
    Range = diff(range(x)))
}

# Creating a data frame where rows are measures and columns are attributes
dispersion_df <- as.data.frame(sapply(df, dispersion_stats))

# Adding row names for clarity
rownames(dispersion_df) <- c("Variance", "Standard Deviation", "Range")

# Printing the formatted data frame
dispersion_df
##                    laptopData.Inches laptopData.Ram laptopData.Price
## Variance                    3.819821      30.986832      157431.7668
## Standard Deviation          1.954436       5.566582         396.7767
## Range                      25.500000      63.000000        3358.3404

🔹 Διερεύνηση συσχετίσεων χαρακτηριστικών με Pearson.

⦿ Πίνακας σύγκρισης

# Υπολογισμός του πίνακα συντελεστών συσχέτισης
cor_matrix <- cor(df)

# Εμφάνιση του πίνακα συσχέτισης
cor_matrix
##                   laptopData.Inches laptopData.Ram laptopData.Price
## laptopData.Inches        1.00000000      0.1421366       0.04470401
## laptopData.Ram           0.14213664      1.0000000       0.68668545
## laptopData.Price         0.04470401      0.6866854       1.00000000

⦿ Συμπεράσματα συγκρίσεων

📌 Η τιμή (Price) έχει ισχυρή θετική συσχέτιση με τη RAM (0.687), δηλαδή όσο αυξάνεται η RAM, αυξάνεται και η τιμή.

📌 Η σχέση Inches – Price (0.045) είναι σχεδόν μηδενική, δείχνοντας ότι το μέγεθος της οθόνης δεν επηρεάζει την τιμή.

📌 Η συσχέτιση Inches – RAM (0.142) είναι αδύναμη, άρα το μέγεθος οθόνης δεν σχετίζεται σημαντικά με τη μνήμη.

🔹 Διαγράμματα συσχετίσεων

⦿ Γράφημα 1: Σύγκριση τιμής και εταιρίας παραγωγής λάπτοπ

#Price vs Company
ggplot(laptopData, aes(x = Company, y = Price, color = Company)) +
  geom_boxplot(alpha = 0.6) +
  labs(title = "Κατανομή Τιμών ανά Εταιρεία",
       x = "Εταιρεία",
       y = "Τιμή (€)") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

→ Οι Apple και Razer έχουν τις υψηλότερες μέσες τιμές, ενώ Acer και HP είναι πιο προσιτές.

→ Η Lenovo και Dell έχουν μεγάλο εύρος τιμών, καλύπτοντας διάφορα budget.

⦿ Γράφημα 2: Σύγκριση τιμής και μνήμης RAM λάπτοπ

#Price vs RAM
ggplot(laptopData, aes(x = Ram, y = Price)) +
  geom_point(color = "blue", alpha = 0.6) +  
  geom_smooth(method = "lm", col = "red", se = FALSE) +
  labs(title = "Σχέση RAM και Τιμής",
       x = "RAM (GB)",
       y = "Τιμή (€)") +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

→ Όσο αυξάνεται η RAM, η τιμή του laptop τείνει να αυξάνεται.

→ Υπάρχουν ακριβότερα laptops ακόμα και με μικρότερη RAM, πιθανότατα λόγω άλλων χαρακτηριστικών (π.χ. CPU, GPU).

⦿ Γράφημα 3: Σύγκριση βάρους των φορητών υπολογιστών

#Histogram for Weight
ggplot(laptopData, aes(x = Weight)) +
  geom_histogram(binwidth = 0.5, fill = "dodgerblue",
                 color = "black", alpha = 0.7) +
  labs(title = "Distribution of Laptop Weights",
       x = "Weight (kg)",
       y = "Count") +
  theme_minimal()

→ Οι περισσότεροι φορητοί υπολογιστές είναι κάτω από 2 κιλά, αυτό δείχνει μια τάση προς ελαφριές και φορητές συσκευές.

→ Υπάρχουν ορισμένες ακραίες τιμές γύρω στα 6-10 kg, οι οποίες θα μπορούσαν να είναι σφάλματα καταχώρησης δεδομένων ή εξειδικευμένοι φορητοί υπολογιστές.

⦿ Γράφημα 4: Σύγκριση μέσου όρου τιμής ανά μέγεθος οθόνης

#Screen Size vs Average Price
# Group by screen size and calculate average price
avg_price_by_size <- laptopData %>%
  group_by(Inches) %>%
  summarise(AveragePrice = mean(Price, na.rm = TRUE))

# Bar chart 
ggplot(avg_price_by_size, aes(x = factor(Inches),
                              y = AveragePrice)) +
  geom_bar(stat = "identity", fill = "steelblue", color = "black", 
           alpha = 0.7) +
  labs(title = "Average Laptop Price by Screen Size",
       x = "Screen Size (Inches)",
       y = "Average Price ($)") +
  theme_minimal()

→ Οι φορητοί υπολογιστές με οθόνες 18,4’’ και 27,3’’ έχουν τις υψηλότερες μέσες τιμές. Πρόκειται πιθανότατα για gaming φορητούς υπολογιστές, high-end workstations ή εξειδικευμένες συσκευές.

→ Παρά το γεγονός ότι είναι ένα από τα πιο συνηθισμένα μεγέθη φορητών υπολογιστών, οι 15,6’’ έχουν μέση τιμή χαμηλότερη από πολλά άλλα μεγέθη.