library(car)
data<-read.csv("/home/peopleanalytics/data_aya-2014.csv")
summary(data)
## Country GIEI IHDI GDP
## Afghanistan: 1 Min. : 0.400 Min. :0.1646 Min. :-2.406
## Albania : 1 1st Qu.: 8.495 1st Qu.:0.3486 1st Qu.: 2.478
## Algeria : 1 Median : 14.220 Median :0.4140 Median : 4.024
## Azerbaijan : 1 Mean : 20.612 Mean :0.4198 Mean : 3.842
## Bahrain : 1 3rd Qu.: 27.185 3rd Qu.:0.5035 3rd Qu.: 5.669
## Bangladesh : 1 Max. :116.340 Max. :0.6267 Max. : 9.338
## (Other) :44
shapiro.test(data$GDP)
##
## Shapiro-Wilk normality test
##
## data: data$GDP
## W = 0.98718, p-value = 0.8598
shapiro.test(data$GIEI)
##
## Shapiro-Wilk normality test
##
## data: data$GIEI
## W = 0.75437, p-value = 9.033e-08
shapiro.test(data$IHDI)
##
## Shapiro-Wilk normality test
##
## data: data$IHDI
## W = 0.98064, p-value = 0.5791
ternyata nilai p yang dibawah 0.05 terdapat pada data GIEI saja, artinya data GIEI tidak berdistribusi normal
library(Johnson)
newGIEI <- RE.Johnson(data$GIEI)
shapiro.test(newGIEI$transformed)
##
## Shapiro-Wilk normality test
##
## data: newGIEI$transformed
## W = 0.97815, p-value = 0.4767
setelah diuji normalitas kembali data GIEI nilai p pada uji saphironya sdh ada diatas 0,05 artinya distribusinya sudah normal
reg1<-lm(GDP~newGIEI.transformed+IHDI,data=newdata)
summary(reg1)
##
## Call:
## lm(formula = GDP ~ newGIEI.transformed + IHDI, data = newdata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.8638 -0.2108 0.3352 0.6593 4.3092
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.6976 0.9460 -0.737 0.464512
## newGIEI.transformed 0.9846 0.2557 3.850 0.000356 ***
## IHDI 10.6546 2.2242 4.790 1.7e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.44 on 47 degrees of freedom
## Multiple R-squared: 0.6538, Adjusted R-squared: 0.6391
## F-statistic: 44.38 on 2 and 47 DF, p-value: 1.494e-11
Nilai koefisien masing masing variabel untuk IHDI dan GIEI signifikan karena dibawah 0.05. dan nilai R kuadratnya tinggi berada pada 0.6538 dan hubungannya sangat signifikan karena nilai F statistiknya mempunyai nilai p jauh dibawah 0.05. artinya hipotesa bahwa GDP sangat dipengaruhi oleh GIEI dan IHDI terbukti melalui persamaan linier GDP = 0.986GIEI + 10.6546IHDI - 0.6979
vif(reg1) # variance inflation factors
## newGIEI.transformed IHDI
## 1.501974 1.501974
sqrt(vif(reg1)) > 2 # problem?
## newGIEI.transformed IHDI
## FALSE FALSE
karena nilai akar dari VIFnya < dari nilai 2 ternyata tidak terjadi kolinieritas
plot(reg1, which=2)
pred1<-predict(reg1, newdata)
rmse1 <-sqrt(mean((newdata$GDP - pred1)^2))
print(rmse1)
## [1] 1.396496
Nilai RMSEA untuk data diatas : 1.39