Menarik Data

library(car)
data<-read.csv("/home/peopleanalytics/data_aya-2014.csv")
summary(data)
##         Country        GIEI              IHDI             GDP        
##  Afghanistan: 1   Min.   :  0.400   Min.   :0.1646   Min.   :-2.406  
##  Albania    : 1   1st Qu.:  8.495   1st Qu.:0.3486   1st Qu.: 2.478  
##  Algeria    : 1   Median : 14.220   Median :0.4140   Median : 4.024  
##  Azerbaijan : 1   Mean   : 20.612   Mean   :0.4198   Mean   : 3.842  
##  Bahrain    : 1   3rd Qu.: 27.185   3rd Qu.:0.5035   3rd Qu.: 5.669  
##  Bangladesh : 1   Max.   :116.340   Max.   :0.6267   Max.   : 9.338  
##  (Other)    :44

Menguji Normalitas

shapiro.test(data$GDP)
## 
##  Shapiro-Wilk normality test
## 
## data:  data$GDP
## W = 0.98718, p-value = 0.8598
shapiro.test(data$GIEI)
## 
##  Shapiro-Wilk normality test
## 
## data:  data$GIEI
## W = 0.75437, p-value = 9.033e-08
shapiro.test(data$IHDI)
## 
##  Shapiro-Wilk normality test
## 
## data:  data$IHDI
## W = 0.98064, p-value = 0.5791

ternyata nilai p yang dibawah 0.05 terdapat pada data GIEI saja, artinya data GIEI tidak berdistribusi normal

Melakukan Transformasi data GIEI ke Distribusi Normal via Transformasi Johnson

library(Johnson)
newGIEI <- RE.Johnson(data$GIEI)
shapiro.test(newGIEI$transformed)
## 
##  Shapiro-Wilk normality test
## 
## data:  newGIEI$transformed
## W = 0.97815, p-value = 0.4767

setelah diuji normalitas kembali data GIEI nilai p pada uji saphironya sdh ada diatas 0,05 artinya distribusinya sudah normal

Memodelkan Regresi Linier

reg1<-lm(GDP~newGIEI.transformed+IHDI,data=newdata)
summary(reg1)
## 
## Call:
## lm(formula = GDP ~ newGIEI.transformed + IHDI, data = newdata)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.8638 -0.2108  0.3352  0.6593  4.3092 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          -0.6976     0.9460  -0.737 0.464512    
## newGIEI.transformed   0.9846     0.2557   3.850 0.000356 ***
## IHDI                 10.6546     2.2242   4.790  1.7e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.44 on 47 degrees of freedom
## Multiple R-squared:  0.6538, Adjusted R-squared:  0.6391 
## F-statistic: 44.38 on 2 and 47 DF,  p-value: 1.494e-11

Nilai koefisien masing masing variabel untuk IHDI dan GIEI signifikan karena dibawah 0.05. dan nilai R kuadratnya tinggi berada pada 0.6538 dan hubungannya sangat signifikan karena nilai F statistiknya mempunyai nilai p jauh dibawah 0.05. artinya hipotesa bahwa GDP sangat dipengaruhi oleh GIEI dan IHDI terbukti melalui persamaan linier GDP = 0.986GIEI + 10.6546IHDI - 0.6979

Uji Kolinieritas

vif(reg1) # variance inflation factors 
## newGIEI.transformed                IHDI 
##            1.501974            1.501974
sqrt(vif(reg1)) > 2 # problem?
## newGIEI.transformed                IHDI 
##               FALSE               FALSE

karena nilai akar dari VIFnya < dari nilai 2 ternyata tidak terjadi kolinieritas

PLot Regresi

plot(reg1, which=2)

Nilai RMSEA Model

pred1<-predict(reg1, newdata)
rmse1 <-sqrt(mean((newdata$GDP - pred1)^2))
print(rmse1)
## [1] 1.396496

Nilai RMSEA untuk data diatas : 1.39