1. Tentang Data

Deskripsi

Data berjudul “Steel Industri Energy Consumption Prediction” merupakan data berisi informasi konsumsi energi dalam industri pabrik baja yang dikumpulkan dari DAEWOO Steel Co. Ltd di Gwangyang, Korea Selatan. Perusahaan ini memproduksi beberapa jenis gulungan, pelat baja, dan pelat besi. Informasi tentang konsumsi listrik disimpan dalam sistem berbasis cloud. Informasi tentang konsumsi energi industri ini disimpan di situs web Korea Electric Power Corporation http://pccs.kepco.go.kr, dan perspektif data harian, bulanan, dan tahunan dihitung dan ditampilkan.

Metode pengambilan data

Data diambil pada tanggal 9 November 2023 melalui website http://kaggle.com dengan judul Steel Industry Energy Consumption Prediction.

Informasi variabel

Data Heading

##       date Usage_kWh Lagging_Current_Reactive.Power_kVarh
## 1 1/1/2018      3.17                                 2.95
## 2 1/1/2018      4.00                                 4.46
## 3 1/1/2018      3.24                                 3.28
## 4 1/1/2018      3.31                                 3.56
## 5 1/1/2018      3.82                                 4.50
## 6 1/1/2018      3.28                                 3.56
##   Leading_Current_Reactive_Power_kVarh CO2.tCO2. Lagging_Current_Power_Factor
## 1                                    0         0                        73.21
## 2                                    0         0                        66.77
## 3                                    0         0                        70.28
## 4                                    0         0                        68.09
## 5                                    0         0                        64.72
## 6                                    0         0                        67.76
##   Leading_Current_Power_Factor  NSM WeekStatus Day_of_week
## 1                          100  900    Weekday      Monday
## 2                          100 1800    Weekday      Monday
## 3                          100 2700    Weekday      Monday
## 4                          100 3600    Weekday      Monday
## 5                          100 4500    Weekday      Monday
## 6                          100 5400    Weekday      Monday

2. Analisis Statistik Sederhana

Statistika Desktriptif

##      date             Usage_kWh      Lagging_Current_Reactive.Power_kVarh
##  Length:35040       Min.   :  0.00   Min.   : 0.00                       
##  Class :character   1st Qu.:  3.20   1st Qu.: 2.30                       
##  Mode  :character   Median :  4.57   Median : 5.00                       
##                     Mean   : 27.39   Mean   :13.04                       
##                     3rd Qu.: 51.24   3rd Qu.:22.64                       
##                     Max.   :157.18   Max.   :96.91                       
##  Leading_Current_Reactive_Power_kVarh   CO2.tCO2.      
##  Min.   : 0.000                       Min.   :0.00000  
##  1st Qu.: 0.000                       1st Qu.:0.00000  
##  Median : 0.000                       Median :0.00000  
##  Mean   : 3.871                       Mean   :0.01152  
##  3rd Qu.: 2.090                       3rd Qu.:0.02000  
##  Max.   :27.760                       Max.   :0.07000  
##  Lagging_Current_Power_Factor Leading_Current_Power_Factor      NSM       
##  Min.   :  0.00               Min.   :  0.00               Min.   :    0  
##  1st Qu.: 63.32               1st Qu.: 99.70               1st Qu.:21375  
##  Median : 87.96               Median :100.00               Median :42750  
##  Mean   : 80.58               Mean   : 84.37               Mean   :42750  
##  3rd Qu.: 99.02               3rd Qu.:100.00               3rd Qu.:64125  
##  Max.   :100.00               Max.   :100.00               Max.   :85500  
##   WeekStatus        Day_of_week       
##  Length:35040       Length:35040      
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
## 

Interpretasi

  1. Date
  • Jumlah data = 35040
  • Tipe data = Date
  1. Usage_kWh
  • Minimum = 0
  • Median = 4.57
  • Mean = 27.39
  • Maximum = 157.18
  1. Lagging_Current_Reactive.Power_kVarh
  • Minimum = 0
  • Median = 5
  • Mean = 13.04
  • Maximum = 96.91
  1. Leading_Current_Reactive_Power_kVarh
  • Minimum = 0
  • Median = 0
  • Mean = 3.871
  • Maximum = 27.76
  1. CO2.tCO2.
  • Minimum = 0
  • Median = 0
  • Mean = 0.01152
  • Maximum = 0.07
  1. Lagging_Current_Power_Factor
  • Minimum = 0
  • Median = 87.96
  • Mean = 80.58
  • Maximum = 100
  1. Leading_Current_Power_Factor
  • Minimum = 0
  • Median = 100
  • Mean = 84.37
  • Maximum = 100
  1. NSM
  • Minimum = 0
  • Median = 42750
  • Mean = 42750
  • Maximum = 85500
  1. WeekStatus
  • Jumlah data = 35040
  • Tipe data = Kategorik
  1. Day_of_week
  • Jumlah data = 35040
  • Tipe data = Kategorik

Visualisasi

Visualisasi data kategorik

WeekStatus

Interpretasi

Jumlah status weekday lebih banyak dari status weekend yakni sebesar 72%

Day_of_week Interpretasi

Jumlah hari Monday (Senin) lebih banyak dari hari lainya yakni sebesar 15% dan hari lain sama dengan proporsi 14%

Visualisasi data numerik

Histogram

Usage_kWh

## Warning: package 'ggplot2' was built under R version 4.2.3
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Lagging_Current_Reactive.Power_kVarh

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Leading_Current_Reactive_Power_kVarh

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

CO2.tCO2.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Lagging_Current_Power_Factor

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Leading_Current_Power_Factor

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

NSM

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Scatter Plot

Lagging_Current_Reactive.Power_kVarh Vs Leading_Current_Reactive_Power_kVarh

Lagging_Current_Power_Factor Vs Leading_Current_Power_Factor

3. Analisis Korelasi

cor(DataBaru,method = "pearson")
##                                           Data.Usage_kWh
## Data.Usage_kWh                                 1.0000000
## Data.Lagging_Current_Reactive.Power_kVarh      0.8961499
## Data.Leading_Current_Reactive_Power_kVarh     -0.3249218
## Data.CO2.tCO2.                                 0.9881798
## Data.Lagging_Current_Power_Factor              0.3859605
## Data.Leading_Current_Power_Factor              0.3535657
## Data.NSM                                       0.2346103
##                                           Data.Lagging_Current_Reactive.Power_kVarh
## Data.Usage_kWh                                                           0.89614990
## Data.Lagging_Current_Reactive.Power_kVarh                                1.00000000
## Data.Leading_Current_Reactive_Power_kVarh                               -0.40514168
## Data.CO2.tCO2.                                                           0.88694771
## Data.Lagging_Current_Power_Factor                                        0.14453376
## Data.Leading_Current_Power_Factor                                        0.40771628
## Data.NSM                                                                 0.08266237
##                                           Data.Leading_Current_Reactive_Power_kVarh
## Data.Usage_kWh                                                           -0.3249218
## Data.Lagging_Current_Reactive.Power_kVarh                                -0.4051417
## Data.Leading_Current_Reactive_Power_kVarh                                 1.0000000
## Data.CO2.tCO2.                                                           -0.3327766
## Data.Lagging_Current_Power_Factor                                         0.5267705
## Data.Leading_Current_Power_Factor                                        -0.9440390
## Data.NSM                                                                  0.3716046
##                                           Data.CO2.tCO2.
## Data.Usage_kWh                                 0.9881798
## Data.Lagging_Current_Reactive.Power_kVarh      0.8869477
## Data.Leading_Current_Reactive_Power_kVarh     -0.3327766
## Data.CO2.tCO2.                                 1.0000000
## Data.Lagging_Current_Power_Factor              0.3796047
## Data.Leading_Current_Power_Factor              0.3600191
## Data.NSM                                       0.2317260
##                                           Data.Lagging_Current_Power_Factor
## Data.Usage_kWh                                                    0.3859605
## Data.Lagging_Current_Reactive.Power_kVarh                         0.1445338
## Data.Leading_Current_Reactive_Power_kVarh                         0.5267705
## Data.CO2.tCO2.                                                    0.3796047
## Data.Lagging_Current_Power_Factor                                 1.0000000
## Data.Leading_Current_Power_Factor                                -0.5199669
## Data.NSM                                                          0.5652695
##                                           Data.Leading_Current_Power_Factor
## Data.Usage_kWh                                                    0.3535657
## Data.Lagging_Current_Reactive.Power_kVarh                         0.4077163
## Data.Leading_Current_Reactive_Power_kVarh                        -0.9440390
## Data.CO2.tCO2.                                                    0.3600191
## Data.Lagging_Current_Power_Factor                                -0.5199669
## Data.Leading_Current_Power_Factor                                 1.0000000
## Data.NSM                                                         -0.3605630
##                                              Data.NSM
## Data.Usage_kWh                             0.23461033
## Data.Lagging_Current_Reactive.Power_kVarh  0.08266237
## Data.Leading_Current_Reactive_Power_kVarh  0.37160457
## Data.CO2.tCO2.                             0.23172600
## Data.Lagging_Current_Power_Factor          0.56526951
## Data.Leading_Current_Power_Factor         -0.36056299
## Data.NSM                                   1.00000000

Interpretasi

dengan fungsi cor() dapat dilihat besar nilai korelasi antar variabel, terdapat beberapa variabel yang berkorelasi positif maupun negatif antara satu dengan lainnya. untuk lebih jelasnya data tersebut dapat disajikan dalam grafik sebagai berikut:

grafik korelasi

plot(DataBaru)

Interpretasi

Dengan fungsi plot() dapat memunculkan grafik korelasi antara variabel satu dengan lainnya sehingga bisa lebih memudahkan dalam melakukan analisis dan mengetahui variabel mana yang berkorelasi signifikan dengan variabel lain. Namun tampilan grafik ini masih agak sulit dipahami oleh orang awam. Oleh karena itu dibuat grafik yang lebih mudah dipahami menggunakan library ggplot2

library(ggplot2)
library(reshape2)
## Warning: package 'reshape2' was built under R version 4.2.2
cordat<-cor(DataBaru)
meltcordat <- melt(cordat)
meltcordat$value=round(meltcordat$value,digits = 4)
ggplot(meltcordat,aes(x=Var1,y=Var2,fill=value))+geom_tile()+
  geom_text(data=meltcordat,aes(x=Var1,y=Var2,label=value), size = 7, fontface = "bold",color="white")

Interpretasi

Dengan library ggplot2 dapat dengan mudah kita ambil kesimpulan tingkat korelasi antar variabel. untuk korelasi antar varibel dengan nilai > 0.5 maka variabel-variabel tersebut berkorelasi kuat. Kemudian, untuk nilai korelasi positif maka kedua variabel berhubungan sama yakni apabila X naik maka Y juga naik. Sedangkan untuk nilai korelasi negatif maka kedua variabel berbanding terbalik yakni apabila X naik maka Y turun begitu pula sebaliknya.

4. Model Regresi Linear

Regresi Linear Sederhana

model1<-lm(Usage_kWh~Lagging_Current_Reactive.Power_kVarh,Data)
summary(model1)
## 
## Call:
## lm(formula = Usage_kWh ~ Lagging_Current_Reactive.Power_kVarh, 
##     data = Data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -68.658  -8.945  -3.184   3.982  72.238 
## 
## Coefficients:
##                                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                          3.427258   0.101505   33.76   <2e-16 ***
## Lagging_Current_Reactive.Power_kVarh 1.838046   0.004862  378.02   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 14.84 on 35038 degrees of freedom
## Multiple R-squared:  0.8031, Adjusted R-squared:  0.8031 
## F-statistic: 1.429e+05 on 1 and 35038 DF,  p-value: < 2.2e-16
  1. Uji serentak
  1. Hipotesis: * H0: β1=β2=⋯=βj=0; j=0,1,2,… * H1: Paling tidak ada satu βj≠0; j=0,1,2,…
  2. Taraf Signifikansi: Alpha = 0.05
  3. Statistik Uji: p-value = 2.2e-16
  4. Daerah Kritis: * Tolak H0 jika p-value < 0.05
  5. Keputusan: * Karena p-value = 2.2e-16 < 0.05 maka tolak H0
  6. Kesimpulan: * Paling tidak ada satu parameter βj≠0; j=0,1,2. Dengan kata lain, semua variabel prediktor berpengaruh signifikan secara serentak terhadap model.
  1. Uji Parsial
  1. Hipotesis: * H0: βj=0; j=0,1,2,… * H1: βj≠0; j=0,1,2,…
  2. Taraf Signifikansi: Alpha = 0.05
  3. Statistik Uji: p-value = 2e-16
  4. Daerah Kritis: * Tolak H0 jika p-value < 0.05
  5. Keputusan: * Karena p-value = 2e-16 < 0.05 maka tolak H0
  6. Kesimpulan: * Variabel Lagging_Current_Reactive.Power_kVarh berpengaruh secara signifikan.
  1. Uji Kebaikan Model
  • Jika dilihat dari nilai R-square sebesar 80.31%, menunjukkan bahwa model bisa dikatakan baik karena > 75%.
  1. Model Regresi
  • Usage_kWh = 3.427258 + 1.838046 Lagging_Current_Reactive.Power_kVarh
  • Y = 3.427258 + 1.838046X

Interpretasi

Apabila variabel Lagging_Current_Reactive.Power_kVarh bertambah sebesar satu satuan maka akan menaikkan nilai Usage_kWh sebesar 1.838046 satuan.

Regresi Linear Berganda

model2<-lm(Usage_kWh~Lagging_Current_Reactive.Power_kVarh+
             Leading_Current_Reactive_Power_kVarh+CO2.tCO2.+
             Lagging_Current_Power_Factor+
             Leading_Current_Power_Factor+NSM,Data)
summary(model2)
## 
## Call:
## lm(formula = Usage_kWh ~ Lagging_Current_Reactive.Power_kVarh + 
##     Leading_Current_Reactive_Power_kVarh + CO2.tCO2. + Lagging_Current_Power_Factor + 
##     Leading_Current_Power_Factor + NSM, data = Data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -16.269  -0.926   0.111   1.098 121.455 
## 
## Coefficients:
##                                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                          -1.346e+01  3.600e-01 -37.405  < 2e-16 ***
## Lagging_Current_Reactive.Power_kVarh  3.034e-01  3.887e-03  78.050  < 2e-16 ***
## Leading_Current_Reactive_Power_kVarh  1.364e-01  1.049e-02  13.002  < 2e-16 ***
## CO2.tCO2.                             1.685e+03  4.862e+00 346.537  < 2e-16 ***
## Lagging_Current_Power_Factor          1.266e-01  2.562e-03  49.391  < 2e-16 ***
## Leading_Current_Power_Factor          7.539e-02  2.689e-03  28.033  < 2e-16 ***
## NSM                                   9.234e-06  1.244e-06   7.423 1.17e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.707 on 35033 degrees of freedom
## Multiple R-squared:  0.9802, Adjusted R-squared:  0.9802 
## F-statistic: 2.89e+05 on 6 and 35033 DF,  p-value: < 2.2e-16
  1. Uji serentak
  1. Hipotesis: * H0: β1=β2=⋯=βj=0; j=0,1,2,… * H1: Paling tidak ada satu βj≠0; j=0,1,2,…
  2. Taraf Signifikansi: Alpha = 0.05
  3. Statistik Uji: p-value = 2.2e-16
  4. Daerah Kritis: * Tolak H0 jika p-value < 0.05
  5. Keputusan: * Karena p-value = 2.2e-16 < 0.05 maka tolak H0
  6. Kesimpulan: * Paling tidak ada satu parameter βj≠0; j=0,1,2. Dengan kata lain, semua variabel prediktor berpengaruh signifikan secara serentak terhadap model.
  1. Uji Parsial
  1. Hipotesis: * H0: βj=0; j=0,1,2,… * H1: βj≠0; j=0,1,2,…
  2. Taraf Signifikansi: Alpha = 0.05
  3. Statistik Uji: * p-value Lagging_Current_Reactive.Power_kVarh = 2e-16 * p-value Leading_Current_Reactive_Power_kVarh = 2e-16 * p-value CO2.tCO2. = 2e-16 * p-value Lagging_Current_Power_Factor = 2e-16 * p-value Leading_Current_Power_Factor = 2e-16 * p-value NSM = 1.17e-13
  4. Daerah Kritis: * Tolak H0 jika p-value < 0.05
  5. Keputusan: * Karena p-value < 0.05 maka tolak H0
  6. Kesimpulan: * Variabel Lagging_Current_Reactive.Power_kVarh, Leading_Current_Reactive_Power_kVarh, CO2.tCO2., Lagging_Current_Power_Factor, Leading_Current_Power_Factor, dan NSM berpengaruh secara signifikan.
  1. Uji Kebaikan Model
  • Jika dilihat dari nilai R-square sebesar 98.02%, menunjukkan bahwa model bisa dikatakan baik karena > 75%.
  1. Model Regresi
  • Y = -13.46 + 3.034e-01X1 + 1.364e-01X2 + 1.685e+03X3 + 1.266e-01X4 + 7.539e-02X5 + 9.234e-06X6

Interpretasi

  1. Apabila variabel Lagging_Current_Reactive.Power_kVarh bertambah sebesar 1 satuan maka akan menaikkan nilai Usage_kWh sebesar 3.034e-01 satuan.

  2. Apabila variabel Leading_Current_Reactive.Power_kVarh bertambah sebesar 1 satuan maka akan menaikkan nilai Usage_kWh sebesar 1.364e-01 satuan.

  3. Apabila variabel CO2.tCO2. bertambah sebesar 1 satuan maka akan menaikkan nilai Usage_kWh sebesar 1.685e+03 satuan.

  4. Apabila variabel Lagging_Current_Power_Factor bertambah sebesar 1 satuan maka akan menaikkan nilai Usage_kWh sebesar 1.266e-01 satuan.

  5. Apabila variabel Leading_Current_Power_Factor bertambah sebesar 1 satuan maka akan menaikkan nilai Usage_kWh sebesar 7.539e-02 satuan.

  6. Apabila variabel NSM bertambah sebesar 1 satuan maka akan menaikkan nilai Usage_kWh sebesar 9.234e-06 satuan.