library(car)
data<-read.csv("/home/peopleanalytics/data-aya-2015.csv")
summary(data)
## Country GIEI IHDI GDP
## Afghanistan: 1 Min. : 0.31 Min. :0.2196 Min. :-25.772
## Albania : 1 1st Qu.: 7.48 1st Qu.:0.4106 1st Qu.: 1.802
## Algeria : 1 Median : 12.88 Median :0.4813 Median : 3.733
## Azerbaijan : 1 Mean : 21.07 Mean :0.4780 Mean : 2.914
## Bahrain : 1 3rd Qu.: 26.64 3rd Qu.:0.5684 3rd Qu.: 4.840
## Bangladesh : 1 Max. :120.80 Max. :0.7207 Max. : 8.394
## (Other) :42
shapiro.test(data$GDP)
##
## Shapiro-Wilk normality test
##
## data: data$GDP
## W = 0.55852, p-value = 8.583e-11
shapiro.test(data$GIEI)
##
## Shapiro-Wilk normality test
##
## data: data$GIEI
## W = 0.72195, p-value = 3.311e-08
shapiro.test(data$IHDI)
##
## Shapiro-Wilk normality test
##
## data: data$IHDI
## W = 0.98015, p-value = 0.5849
ternyata nilai p yang dibawah 0.05 terdapat pada data GIEI dan data GDP, artinya data GIEI tidak berdistribusi normal
library(Johnson)
newGIEI <- RE.Johnson(data$GIEI)
newGDP <- RE.Johnson(data$GDP)
shapiro.test(newGIEI$transformed)
##
## Shapiro-Wilk normality test
##
## data: newGIEI$transformed
## W = 0.97936, p-value = 0.5523
shapiro.test(newGDP$transformed)
##
## Shapiro-Wilk normality test
##
## data: newGDP$transformed
## W = 0.97905, p-value = 0.5396
newGIEI<-data.frame(newGIEI$transformed)
newGDP<-data.frame(newGDP$transformed)
newdata1<-cbind(newGIEI,newGDP)
newdata<-cbind(newdata1,data)
setelah diuji normalitas kembali data GIEI nilai p pada uji saphironya sdh ada diatas 0,05 artinya distribusinya sudah normal
reg1<-lm(newGDP.transformed~newGIEI.transformed+IHDI,data=newdata)
summary(reg1)
##
## Call:
## lm(formula = newGDP.transformed ~ newGIEI.transformed + IHDI,
## data = newdata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.35161 -0.09512 0.01910 0.12553 2.15754
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.7499 0.4584 -3.817 0.000410 ***
## newGIEI.transformed 0.4896 0.1273 3.847 0.000374 ***
## IHDI 3.7752 0.9671 3.904 0.000314 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4972 on 45 degrees of freedom
## Multiple R-squared: 0.755, Adjusted R-squared: 0.7441
## F-statistic: 69.35 on 2 and 45 DF, p-value: 1.798e-14
Nilai koefisien masing masing variabel untuk IHDI dan GIEI signifikan karena dibawah 0.05. dan nilai R kuadratnya tinggi berada pada 0.755 dan hubungannya sangat signifikan karena nilai F statistiknya mempunyai nilai p jauh dibawah 0.05. artinya hipotesa bahwa GDP sangat dipengaruhi oleh GIEI dan IHDI terbukti melalui persamaan linier GDP = 0.4896GIEI + 3.7752IHDI - 1.7499
vif(reg1) # variance inflation factors
## newGIEI.transformed IHDI
## 2.588995 2.588995
sqrt(vif(reg1)) > 2 # problem?
## newGIEI.transformed IHDI
## FALSE FALSE
karena nilai akar dari VIFnya < dari nilai 2 ternyata tidak terjadi kolinieritas
plot(reg1, which=2)
pred1<-predict(reg1, newdata)
rmse1 <-sqrt(mean((newdata$newGDP.transformed - pred1)^2))
print(rmse1)
## [1] 0.4813764
Nilai RMSEA untuk data diatas : 0.483 Kesimpulan dibanding 2014 angka RMSE ini lebih kecil jadi model regresinya lebih baik.