Περιγραφή του Dataset και Πηγή

Το dataset “Global Energy Consumption 2000-2024” περιλαμβάνει πληροφορίες σχετικά με την κατανάλωση ενέργειας σε παγκόσμιο επίπεδο από το 2000 μέχρι το 2024. Συγκεκριμένα, περιλαμβάνει δεδομένα για τη συνολική κατανάλωση ενέργειας, την κατανάλωση ανά άτομο, την αναλογία ανανεώσιμων πηγών ενέργειας, τις εκπομπές CO2, τις τιμές ενέργειας, και άλλες σχετικές παραμέτρους για διάφορες χώρες και περιοχές.

Πηγή: Το dataset διατίθεται από το Kaggle.

Επιχειρηματική Αναλυτική – Αιτιολόγηση Επιλογής

Η επιχειρηματική αναλυτική του dataset “Global Energy Consumption 2000-2024” βοηθά στην ανάλυση των τάσεων κατανάλωσης ενέργειας, της χρήσης ανανεώσιμων πηγών και των εκπομπών CO2, επιτρέποντας τη λήψη στρατηγικών αποφάσεων για τη βιωσιμότητα και την ενεργειακή αποδοτικότητα.

Πιθανά Επιχειρηματικά Ερωτήματα

-Ποιες χώρες έχουν τη μεγαλύτερη αύξηση στην κατανάλωση ενέργειας τα τελευταία 10 χρόνια;

-Ποιο ποσοστό της ενέργειας προέρχεται από ανανεώσιμες πηγές σε κάθε χώρα και πώς εξελίσσεται αυτό με την πάροδο του χρόνου;

-Ποιες χώρες εξαρτώνται περισσότερο από ορυκτά καύσιμα και ποιες έχουν μειώσει την εξάρτησή τους;

Διάβασμα δεδομένων

mydata <- read.csv("C:/Apps/global_energy_consumption.csv")

Περιγραφή Μεταβλητών

Πίνακας Μεταβλητών του Dataset ‘Global Energy Consumption’
Μεταβλητή Τύπος
Country Κατηγορική
Year Αριθμητικό
Total_Energy_Consumption Αριθμητικό
Per_Capita_Energy_Use Αριθμητικό
Renewable_Energy_Share Αριθμητικό
Fossil_Fuel_Dependency Αριθμητικό
Industrial_Energy_Use Αριθμητικό
Household_Energy_Use Αριθμητικό
Carbon_Emissions Αριθμητικό
Energy_Price_Index Αριθμητικό

Περιγραφικά Στατιστικά

summary(mydata)
##    Country               Year      Total.Energy.Consumption..TWh.
##  Length:10000       Min.   :2000   Min.   : 100.5                
##  Class :character   1st Qu.:2006   1st Qu.:2713.9                
##  Mode  :character   Median :2012   Median :5190.9                
##                     Mean   :2012   Mean   :5142.6                
##                     3rd Qu.:2018   3rd Qu.:7580.0                
##                     Max.   :2024   Max.   :9999.3                
##  Per.Capita.Energy.Use..kWh. Renewable.Energy.Share....
##  Min.   :  500.3             Min.   : 5.00             
##  1st Qu.:12683.2             1st Qu.:26.11             
##  Median :25098.8             Median :47.15             
##  Mean   :25040.0             Mean   :47.32             
##  3rd Qu.:37113.3             3rd Qu.:68.68             
##  Max.   :49989.6             Max.   :90.00             
##  Fossil.Fuel.Dependency.... Industrial.Energy.Use.... Household.Energy.Use....
##  Min.   :10.01              Min.   :20.00             Min.   :10.00           
##  1st Qu.:27.34              1st Qu.:30.22             1st Qu.:17.61           
##  Median :45.11              Median :39.98             Median :25.09           
##  Mean   :44.93              Mean   :40.06             Mean   :25.04           
##  3rd Qu.:62.43              3rd Qu.:50.15             3rd Qu.:32.57           
##  Max.   :80.00              Max.   :60.00             Max.   :40.00           
##  Carbon.Emissions..Million.Tons. Energy.Price.Index..USD.kWh.
##  Min.   :  50.64                 Min.   :0.0500              
##  1st Qu.:1293.33                 1st Qu.:0.1600              
##  Median :2568.01                 Median :0.2700              
##  Mean   :2536.15                 Mean   :0.2735              
##  3rd Qu.:3766.18                 3rd Qu.:0.3900              
##  Max.   :4999.34                 Max.   :0.5000

Δημιουργία του καθαρισμένου dataset (αφαίρεση outliers)

# Φόρτωση βιβλιοθήκης dplyr
library(dplyr)

remove_outliers <- function(data) {
  data %>%
    mutate(across(where(is.numeric), 
                  ~ ifelse(. < (quantile(., 0.25, na.rm = TRUE) - 1.5 * IQR(., na.rm = TRUE)) | 
                             . > (quantile(., 0.75, na.rm = TRUE) + 1.5 * IQR(., na.rm = TRUE)), 
                           NA, .))) %>%
    na.omit()  # Χρησιμοποιούμε base R συνάρτηση για αφαίρεση των NA
}

# Εφαρμογή της συνάρτησης στο dataset
mydata_clean <- remove_outliers(mydata)

# Προβολή των πρώτων γραμμών του καθαρισμένου dataset
head(mydata)
##   Country Year Total.Energy.Consumption..TWh. Per.Capita.Energy.Use..kWh.
## 1  Canada 2018                        9525.38                    42301.43
## 2 Germany 2020                        7922.08                    36601.38
## 3  Russia 2002                        6630.01                    41670.20
## 4  Brazil 2010                        8580.19                    10969.58
## 5  Canada 2006                         848.88                    32190.85
## 6      UK 2016                        4682.02                     2491.92
##   Renewable.Energy.Share.... Fossil.Fuel.Dependency....
## 1                      13.70                      70.47
## 2                      33.63                      41.95
## 3                      10.82                      39.32
## 4                      73.24                      16.71
## 5                      73.60                      74.86
## 6                      40.47                      69.06
##   Industrial.Energy.Use.... Household.Energy.Use....
## 1                     45.18                    19.96
## 2                     34.32                    22.27
## 3                     53.66                    26.44
## 4                     30.55                    27.60
## 5                     42.39                    23.43
## 6                     20.07                    23.39
##   Carbon.Emissions..Million.Tons. Energy.Price.Index..USD.kWh.
## 1                         3766.11                         0.12
## 2                         2713.12                         0.08
## 3                          885.98                         0.26
## 4                         1144.11                         0.47
## 5                          842.39                         0.48
## 6                         2242.11                         0.35

Διαγράμματα

1. Scatterplot – “Ποσοστό Ανανεώσιμων Πηγών Ενέργειας vs. Εκπομπές Άνθρακα”

# Φόρτωση της βιβλιοθήκης ggplot2
library(ggplot2)

# Φόρτωση του dataset
df <- read.csv("C:/Apps/global_energy_consumption.csv")

# Μετονομασία στηλών για αποφυγή προβλημάτων με κενά και ειδικούς χαρακτήρες
colnames(df) <- c("Country", "Year", "Total_Energy_Consumption", 
                   "Per_Capita_Energy_Use", "Renewable_Energy_Share", 
                   "Fossil_Fuel_Dependency", "Industrial_Energy_Use", 
                   "Household_Energy_Use", "Carbon_Emissions", 
                   "Energy_Price_Index")

# Scatterplot με πορτοκαλί-πράσινο χρωματισμό
ggplot(df, aes(x = Renewable_Energy_Share, 
               y = Carbon_Emissions, 
               color = Fossil_Fuel_Dependency)) +  
  geom_jitter(alpha = 0.7, width = 0.05, height = 50) + 
  labs(title = "Ποσοστό Ανανεώσιμων Πηγών Ενέργειας vs. Εκπομπές Άνθρακα",
       x = "Ποσοστό Ανανεώσιμων Πηγών Ενέργειας (%)", 
       y = "Εκπομπές Άνθρακα (εκατομμύρια τόνοι)",
       color = "Εξάρτηση από Ορυκτά Καύσιμα (%)") +
  scale_color_gradient(low = "green", high = "orange") +  # Πράσινο = χαμηλή εξάρτηση, Πορτοκαλί = υψηλή εξάρτηση
  theme_minimal()

Διάγραμμα 1. “Ποσοστό Ανανεώσιμων Πηγών Ενέργειας vs. Εκπομπές Άνθρακα”

Σχόλιο: Δεν φαίνεται σαφής τάση που να δείχνει ότι οι χώρες με υψηλότερο ποσοστό ανανεώσιμων πηγών (δεξιά) έχουν χαμηλότερες εκπομπές άνθρακα (κάτω).

2. Boxplot – “Εκπομπές Άνθρακα ανά Κατηγορία Ανανεώσιμων Πηγών Ενέργειας”

# Φορτώνουμε τα απαραίτητα πακέτα
library(ggplot2)
library(readxl)  # Αν θέλετε να διαβάσετε Excel αρχεία

# --- Φόρτωση δεδομένων ---
df <- read.csv("C:/Apps/global_energy_consumption.csv")

# --- Μετονομασία των στηλών ---
colnames(df) <- c("Country", "Year", "Total_Energy_Consumption", 
                   "Per_Capita_Energy_Use", "Renewable_Energy_Share", 
                   "Fossil_Fuel_Dependency", "Industrial_Energy_Use", 
                   "Household_Energy_Use", "Carbon_Emissions", 
                   "Energy_Price_Index")

# --- Κατηγοριοποίηση του ποσοστού ανανεώσιμης ενέργειας ---
df$Renewable_Category <- cut(df$Renewable_Energy_Share, 
                             breaks = c(0, 15, 30, 50, 100), 
                             labels = c("Very Low", "Low", "Medium", "High"))

# --- Δημιουργία του Boxplot ---
ggplot(df, aes(x = Renewable_Category, y = Carbon_Emissions, fill = Renewable_Category)) +
  geom_boxplot() +
  labs(title = "Εκπομπές Άνθρακα ανά Κατηγορία Ανανεώσιμων Πηγών Ενέργειας",
       x = "Κατηγορία Ανανεώσιμων Πηγών Ενέργειας", 
       y = "Εκπομπές Άνθρακα (εκατομμύρια τόνοι)",
       fill = "Κατηγορία Ανανεώσιμων Πηγών Ενέργειας") +
  scale_fill_manual(values = c("Very Low" = "red", "Low" = "orange", "Medium" = "yellow", "High" = "green")) +
  theme_minimal()

Διάγραμμα 2. “Εκπομπές Άνθρακα ανά Κατηγορία Ανανεώσιμων Πηγών Ενέργειας”

Σχόλιο: Οι χώρες με πολύ χαμηλό ή πολύ υψηλό ποσοστό ανανεώσιμων πηγών ενέργειας έχουν μεγαλύτερες εκπομπές άνθρακα

3. Ιστόγραμμα – Βιομηχανική κατανάλωση ενέργειας

library(ggplot2)

# Δημιουργία ιστογράμματος για τη βιομηχανική κατανάλωση ενέργειας
ggplot(df, aes(x = Industrial_Energy_Use, fill = factor(Country))) + 
  geom_histogram(position = "identity", alpha = 0.6, bins = 30) + 
  labs(title = "Κατανομή Βιομηχανικής Κατανάλωσης Ενέργειας",
       x = "Βιομηχανική Κατανάλωση Ενέργειας", 
       y = "Συχνότητα", 
       fill = "Χώρα") + 
  theme_minimal()

Διάγραμμα 3. Κατανομή Βιομηχανικής κατανάλωση ενέργειας.

Σχόλιο: Οι περισσότερες χώρες έχουν μέτρια κατανάλωση.

4. Bar Chart – Σύγκριση κατανάλωσης ενέργειας ανά τομέα για κάθε έτος

# Δημιουργία του γραφήματος: Σύγκριση κατανάλωσης ενέργειας ανά τομέα για κάθε έτος
ggplot(df, aes(x = Year)) +
  geom_bar(aes(y = Industrial_Energy_Use, fill = "Βιομηχανική Χρήση Ενέργειας"), 
           stat = "identity", position = "dodge", color = "black") +
  geom_bar(aes(y = Household_Energy_Use, fill = "Οικιακή Χρήση Ενέργειας"), 
           stat = "identity", position = "dodge", color = "black") +
  labs(title = "Σύγκριση Κατανάλωσης Ενέργειας Ανά Τομέα",
       x = "Έτος", y = "Ποσοστό Κατανάλωσης Ενέργειας (%)",
       fill = "Τομέας Ενέργειας") +
  scale_fill_manual(values = c("Βιομηχανική Χρήση Ενέργειας" = "blue", 
                               "Οικιακή Χρήση Ενέργειας" = "green")) +  # Χρώματα μπλε και πράσινο
  theme_minimal()

Διάγραμμα 4. Σύγκριση κατανάλωσης ενέργειας ανά τομέα για κάθε έτος

Σχόλιο: Η βιομηχανία καταναλώνει σημαντικά μεγαλύτερη ποσότητα ενέργειας σε σύγκριση με τα νοικοκυριά για κάθε έτος.