Menarik Data

library(car)
data<-read.csv("/home/peopleanalytics/data-aya-2015.csv")
summary(data)
##         Country        GIEI             IHDI             GDP         
##  Afghanistan: 1   Min.   :  0.31   Min.   :0.2196   Min.   :-25.772  
##  Albania    : 1   1st Qu.:  7.48   1st Qu.:0.4106   1st Qu.:  1.802  
##  Algeria    : 1   Median : 12.88   Median :0.4813   Median :  3.733  
##  Azerbaijan : 1   Mean   : 21.07   Mean   :0.4780   Mean   :  2.914  
##  Bahrain    : 1   3rd Qu.: 26.64   3rd Qu.:0.5684   3rd Qu.:  4.840  
##  Bangladesh : 1   Max.   :120.80   Max.   :0.7207   Max.   :  8.394  
##  (Other)    :42

Menguji Normalitas

shapiro.test(data$GDP)
## 
##  Shapiro-Wilk normality test
## 
## data:  data$GDP
## W = 0.55852, p-value = 8.583e-11
shapiro.test(data$GIEI)
## 
##  Shapiro-Wilk normality test
## 
## data:  data$GIEI
## W = 0.72195, p-value = 3.311e-08
shapiro.test(data$IHDI)
## 
##  Shapiro-Wilk normality test
## 
## data:  data$IHDI
## W = 0.98015, p-value = 0.5849

ternyata nilai p yang dibawah 0.05 terdapat pada data GIEI dan data GDP, artinya data GIEI tidak berdistribusi normal

Melakukan Transformasi data GIEI dan data GDP ke Distribusi Normal via Transformasi Johnson

library(Johnson)
newGIEI <- RE.Johnson(data$GIEI)
newGDP <- RE.Johnson(data$GDP)
shapiro.test(newGIEI$transformed)
## 
##  Shapiro-Wilk normality test
## 
## data:  newGIEI$transformed
## W = 0.97936, p-value = 0.5523
shapiro.test(newGDP$transformed)
## 
##  Shapiro-Wilk normality test
## 
## data:  newGDP$transformed
## W = 0.97905, p-value = 0.5396
newGIEI<-data.frame(newGIEI$transformed)
newGDP<-data.frame(newGDP$transformed)
newdata1<-cbind(newGIEI,newGDP)
newdata<-cbind(newdata1,data)

setelah diuji normalitas kembali data GIEI nilai p pada uji saphironya sdh ada diatas 0,05 artinya distribusinya sudah normal

Memodelkan Regresi Linier

reg1<-lm(newGDP.transformed~newGIEI.transformed+IHDI,data=newdata)
summary(reg1)
## 
## Call:
## lm(formula = newGDP.transformed ~ newGIEI.transformed + IHDI, 
##     data = newdata)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.35161 -0.09512  0.01910  0.12553  2.15754 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          -1.7499     0.4584  -3.817 0.000410 ***
## newGIEI.transformed   0.4896     0.1273   3.847 0.000374 ***
## IHDI                  3.7752     0.9671   3.904 0.000314 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4972 on 45 degrees of freedom
## Multiple R-squared:  0.755,  Adjusted R-squared:  0.7441 
## F-statistic: 69.35 on 2 and 45 DF,  p-value: 1.798e-14

Nilai koefisien masing masing variabel untuk IHDI dan GIEI signifikan karena dibawah 0.05. dan nilai R kuadratnya tinggi berada pada 0.755 dan hubungannya sangat signifikan karena nilai F statistiknya mempunyai nilai p jauh dibawah 0.05. artinya hipotesa bahwa GDP sangat dipengaruhi oleh GIEI dan IHDI terbukti melalui persamaan linier GDP = 0.4896GIEI + 3.7752IHDI - 1.7499

Uji Kolinieritas

vif(reg1) # variance inflation factors 
## newGIEI.transformed                IHDI 
##            2.588995            2.588995
sqrt(vif(reg1)) > 2 # problem?
## newGIEI.transformed                IHDI 
##               FALSE               FALSE

karena nilai akar dari VIFnya < dari nilai 2 ternyata tidak terjadi kolinieritas

PLot Regresi

plot(reg1, which=2)

Nilai RMSEA Model

pred1<-predict(reg1, newdata)
rmse1 <-sqrt(mean((newdata$newGDP.transformed - pred1)^2))
print(rmse1)
## [1] 0.4813764

Nilai RMSEA untuk data diatas : 0.483 Kesimpulan dibanding 2014 angka RMSE ini lebih kecil jadi model regresinya lebih baik.