Dalam analisis regresi, diperlukan pengujian asumsi agar model yang
dihasilkan valid dan dapat digunakan untuk mengambil kesimpulan. Uji
asumsi meliputi: 1. Uji Normalitas
Uji normalitas dilakukan untuk
menguji apakah variabel independen dan variabel dependen berdistribusi
normal atau tidak normal. Model regresi yang baik adalah model regresi
yang memiliki variabel independen dan dependen yang berdistribusi secara
normal. Hipotesis yang digunakan dalam uji normalitas adalah: H0: data
berdistribusi normal H1: data tidak berdistribusi normal a) 𝐻0 diterima
jika nilai signifikan > 0,05 maka data disimpulkan berdistribusi
normal b) 𝐻0 ditolak jika nilai signifikan < 0,05 maka data
disimpulkan tidak berdistribusi normal
Uji Autokorelasi
Untuk menguji apakah terjadi korelasi antara suatu periode t dengan
periode sebelumnya (t-1) digunakan Uji autokorelasi. Analisis regresi
melibatkan pengujian pengaruh variabel bebas terhadap variabel terikat,
hal ini berarti tidak ada korelasi antara pengamatan dan data observasi
sebelumnya.
Uji Linieritas
Untuk menguji variabel bebas dan variabel terikat apakah keduanya
memiliki hubungan yang berbentuk linier atau tidak, maka dilakukan Uji
linearitas. Dalam menentukan hipotesis yang diambil dalam uji
linearitas, di antaranya:
data <- read.csv("C:/Users/LENOVO/Downloads/archive/insurance.csv")
data$sex <- ifelse(data$sex=="male",1,0)
data$smoker <- ifelse(data$smoker=="yes",1,0)
summary(data)## age sex bmi children
## Min. :18.00 Min. :0.0000 Min. :15.96 Min. :0.000
## 1st Qu.:27.00 1st Qu.:0.0000 1st Qu.:26.30 1st Qu.:0.000
## Median :39.00 Median :1.0000 Median :30.40 Median :1.000
## Mean :39.21 Mean :0.5052 Mean :30.66 Mean :1.095
## 3rd Qu.:51.00 3rd Qu.:1.0000 3rd Qu.:34.69 3rd Qu.:2.000
## Max. :64.00 Max. :1.0000 Max. :53.13 Max. :5.000
## smoker region charges
## Min. :0.0000 Length:1338 Min. : 1122
## 1st Qu.:0.0000 Class :character 1st Qu.: 4740
## Median :0.0000 Mode :character Median : 9382
## Mean :0.2048 Mean :13270
## 3rd Qu.:0.0000 3rd Qu.:16640
## Max. :1.0000 Max. :63770
plot(data$age,data$charges,
main="scatter plot age vs charges",
xlab="age",
ylab="charges",
pch=19,
col="pink")plot(data$sex,data$charges,
main="scatter plot sex vs charges",
xlab="sex",
ylab="charges",
pch=19,
col="yellow")plot(data$bmi,data$charges,
main="scatter plot bmi vs charges",
xlab="bmi",
ylab="charges",
pch=19,
col="magenta")plot(data$children,data$charges,
main="scatter plot children vs charges",
xlab="children",
ylab="charges",
pch=19,
col="orange")plot(data$smoker,data$charges,
main="scatter plot smoker vs charges",
xlab="smoker",
ylab="charges",
pch=19,
col="skyblue")##
## Call:
## lm(formula = charges ~ age + sex + bmi + children + smoker, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11837.2 -2916.7 -994.2 1375.3 29565.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -12052.46 951.26 -12.670 < 2e-16 ***
## age 257.73 11.90 21.651 < 2e-16 ***
## sex -128.64 333.36 -0.386 0.699641
## bmi 322.36 27.42 11.757 < 2e-16 ***
## children 474.41 137.86 3.441 0.000597 ***
## smoker 23823.39 412.52 57.750 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6070 on 1332 degrees of freedom
## Multiple R-squared: 0.7497, Adjusted R-squared: 0.7488
## F-statistic: 798 on 5 and 1332 DF, p-value: < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: residual
## W = 0.8994, p-value < 2.2e-16
## Warning: package 'car' was built under R version 4.4.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.4.3
## Warning: package 'lmtest' was built under R version 4.4.3
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## age sex bmi children smoker
## 1.015129 1.008878 1.014578 1.002242 1.006457
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 118.02, df = 5, p-value < 2.2e-16
##
## Durbin-Watson test
##
## data: model
## DW = 2.0869, p-value = 0.944
## alternative hypothesis: true autocorrelation is greater than 0
##
## RESET test
##
## data: model
## RESET = 71.235, df1 = 2, df2 = 1330, p-value < 2.2e-16
Berdasarkan hasil analisis regresi linear berganda pada data insurance, diperoleh kesimpulan bahwa variabel age, bmi, children, dan smoker berpengaruh signifikan terhadap biaya asuransi kesehatan (charges), sedangkan variabel sex tidak berpengaruh signifikan terhadap charges. Hasil uji F menunjukkan bahwa seluruh variabel independen secara simultan berpengaruh signifikan terhadap variabel dependen Berdasarkan uji asumsi, model regresi tidak mengalami multikolinearitas dan autokorelasi. Namun, hasil uji normalitas menunjukkan residual tidak berdistribusi normal dan hasil uji heteroskedastisitas menunjukkan adanya heteroskedastisitas pada model regresi. Selain itu, uji linearitas menunjukkan bahwa model belum sepenuhnya memenuhi asumsi linearitas. Secara keseluruhan, model regresi linear berganda yang digunakan sudah cukup baik dalam menjelaskan pengaruh variabel independen terhadap biaya asuransi kesehatan.