BAB I STUDI KASUS

Ketentuan Data 1. Carilah dataset sendiri dari sumber terbuka (Kaggle, BPS, WHO, atau sumber lain yang relevan). 2. Dataset harus memiliki minimal 2 variabel prediktor yang dapat dianalisis dengan analisis regresi. 3. Tentukan: ○ Variabel independen (X) ○ Variabel dependen (Y) 4. Jumlah observasi minimal 30 data. Langkah Analisis Lakukan analisis berikut menggunakan software R: 1. Eksplorasi Data ○ Tampilkan ringkasan statistik deskriptif. ○ Buat scatter plot antara variabel X dan Y. ○ Jelaskan secara singkat hubungan awal yang terlihat. 2. Membangun Model Regresi Linier Sederhana ○ Bentuk model regresi linier sederhana. ○ Tuliskan persamaan model yang diperoleh. ○ Interpretasikan koefisien regresi. 3. Uji Signifikansi Model Lakukan uji signifikansi parameter regresi dan interpretasikan hasil yang didapatkan. 4. Uji Asumsi Regresi Lakukan dan interpretasikan uji asumsi hasil pemodelan.
5. Tuliskan kesimpulan dari hasil analisis regresi yang dilakukan.

BAB II TINJAUAN PUSTAKA

2.1 Analisis Regresi

Analisis regresi merupakan metode statistij yang digunakan untuk mengetahui pengaruh antara variabel bebas (independen) terhadap variabel terikat (dependen). Regresi linier dibedakan menjadi regresi linier sederhana dan regresi linier berganda. Regresi linier sederhana digunakan apabila hanya terdapat satu variabel independen dan satu variabel dependen, sedangkan regresi linier berganda digunakan jika terdapat lebih dari satu variabel independen. Analisis regresi linier bertujuan untuk mengetahui arah hubungan serta besarnya pengaruh variabel independen terhadap variabel dependen. Variabel yang dapat mempengaruhi disebut variabel independen atau variabel bebas, sedangkan variabel yang dipengaruhi disebut dengan variabel dependen atau variabel terikat.

2.2 Analisis Regresi Linier Berganda

Analsisi regresi linier berganda adalah analisis data statistika dimana terdapat satu variabel dependen (Y) dan lebih dari satu variabel independen (X), yakni (𝑋1,𝑋2,𝑋3,…,𝑋𝑚). Salah satu tujuan dari analisis regresi linier berganda yakni untuk menguji apakah variabel independen berpengaruh signifikan terhadap variabel dependen.

2.3 Uji Asumsi

Dalam analisis regresi, diperlukan pengujian asumsi agar model yang dihasilkan valid dan dapat digunakan untuk mengambil kesimpulan. Uji asumsi meliputi: 1. Uji Normalitas
Uji normalitas dilakukan untuk
menguji apakah variabel independen dan variabel dependen berdistribusi normal atau tidak normal. Model regresi yang baik adalah model regresi yang memiliki variabel independen dan dependen yang berdistribusi secara normal. Hipotesis yang digunakan dalam uji normalitas adalah: H0: data berdistribusi normal H1: data tidak berdistribusi normal a) 𝐻0 diterima jika nilai signifikan > 0,05 maka data disimpulkan berdistribusi normal b) 𝐻0 ditolak jika nilai signifikan < 0,05 maka data disimpulkan tidak berdistribusi normal

  1. Uji Multikolinearitas
    Dalam persamaan regresi, apabila nilai koefisien korelasi antar variabel independent sangat tinggi, maka akan menyebabkan estimasi yang tidak tepat, karena nilai batasan koefisien korelasi yang sangat kuat adalah pada batasan 0,9 dan sempurna adalah Model regresi linier berganda disebut bagus jika stabil atau tidak terjadi multikolinieritas antar variabel independent. Ketetapan hipotesis dalam uji multikolinieritas adalah sebagai berikut:
  1. 𝐻0 diterima jika nilai r square = VIF > nilai 10 maka data disimpulkan terjadi multikolinieritas
  2. 𝐻0 ditolak jika nilai r square = VIF < nilai 10 maka data disimpulkan tidak terjadi multikolinieritas
  1. Uji Heteroskedastisitas Salah satu cara untuk mengetahui ada tidaknya masalah heteroskedastisitas pada suatu model regresi linier berganda adalah dengan melihat grafiik scatterplot. Uji heteroskedastisitas adalah uji untuk mengetahui apakah pada suatu model regresi terjadi ketidaknyamanan varian dari residual dalam satu pengamatan ke pengamatan lainnya. Jika varian berbeda, disebut heteroskedastisitas. Apabila tidak terdapat pola tertentu dan tidak menyebar diatas maupun dibawah angka nol pada sumbu y, maka dapat disimpulkan bahwa tidak terjadi heteroskedastisitas. Dalam menentukan hipotesis yang diambil dalam uji heteroskedastisitas, di antaranya:
  1. 𝐻0 ditolak jika nilai r < nilai taraf signifikansi maka data disimpulkan terdapat heteroskedastisitas
  2. 𝐻0 ditolak jika nilai r > nilai taraf signifikansi maka data disimpulkan tidak terdapat heteroskedastisitas
  1. Uji Autokorelasi
    Untuk menguji apakah terjadi korelasi antara suatu periode t dengan periode sebelumnya (t-1) digunakan Uji autokorelasi. Analisis regresi melibatkan pengujian pengaruh variabel bebas terhadap variabel terikat, hal ini berarti tidak ada korelasi antara pengamatan dan data observasi sebelumnya.

  2. Uji Linieritas
    Untuk menguji variabel bebas dan variabel terikat apakah keduanya memiliki hubungan yang berbentuk linier atau tidak, maka dilakukan Uji linearitas. Dalam menentukan hipotesis yang diambil dalam uji linearitas, di antaranya:

  1. 𝐻0 ditolak jika nilai DVL < nilai taraf signifikansi maka data disimpulkan tidak terdapat linieritas
  2. 𝐻0 ditolak jika nilai DVL > nilai taraf signifikansi maka data disimpulkan terdapat linieritas

BAB III SOURCE CODE DAN PENJELASAN

data <- read.csv("C:/Users/LENOVO/Downloads/archive/insurance.csv")

data$sex <- ifelse(data$sex=="male",1,0)
data$smoker <- ifelse(data$smoker=="yes",1,0)

summary(data)
##       age             sex              bmi           children    
##  Min.   :18.00   Min.   :0.0000   Min.   :15.96   Min.   :0.000  
##  1st Qu.:27.00   1st Qu.:0.0000   1st Qu.:26.30   1st Qu.:0.000  
##  Median :39.00   Median :1.0000   Median :30.40   Median :1.000  
##  Mean   :39.21   Mean   :0.5052   Mean   :30.66   Mean   :1.095  
##  3rd Qu.:51.00   3rd Qu.:1.0000   3rd Qu.:34.69   3rd Qu.:2.000  
##  Max.   :64.00   Max.   :1.0000   Max.   :53.13   Max.   :5.000  
##      smoker          region             charges     
##  Min.   :0.0000   Length:1338        Min.   : 1122  
##  1st Qu.:0.0000   Class :character   1st Qu.: 4740  
##  Median :0.0000   Mode  :character   Median : 9382  
##  Mean   :0.2048                      Mean   :13270  
##  3rd Qu.:0.0000                      3rd Qu.:16640  
##  Max.   :1.0000                      Max.   :63770
plot(data$age,data$charges,
     main="scatter plot age vs charges",
     xlab="age",
     ylab="charges",
     pch=19,
     col="pink")

plot(data$sex,data$charges,
     main="scatter plot sex vs charges",
     xlab="sex",
     ylab="charges",
     pch=19,
     col="yellow")

plot(data$bmi,data$charges,
     main="scatter plot bmi vs charges",
     xlab="bmi",
     ylab="charges",
     pch=19,
     col="magenta")

plot(data$children,data$charges,
     main="scatter plot children vs charges",
     xlab="children",
     ylab="charges",
     pch=19,
     col="orange")

plot(data$smoker,data$charges,
     main="scatter plot smoker vs charges",
     xlab="smoker",
     ylab="charges",
     pch=19,
     col="skyblue")

model <- lm(charges~age+sex+bmi+children+smoker,
            data=data)

summary(model)
## 
## Call:
## lm(formula = charges ~ age + sex + bmi + children + smoker, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11837.2  -2916.7   -994.2   1375.3  29565.5 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -12052.46     951.26 -12.670  < 2e-16 ***
## age            257.73      11.90  21.651  < 2e-16 ***
## sex           -128.64     333.36  -0.386 0.699641    
## bmi            322.36      27.42  11.757  < 2e-16 ***
## children       474.41     137.86   3.441 0.000597 ***
## smoker       23823.39     412.52  57.750  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6070 on 1332 degrees of freedom
## Multiple R-squared:  0.7497, Adjusted R-squared:  0.7488 
## F-statistic:   798 on 5 and 1332 DF,  p-value: < 2.2e-16
residual <- residuals(model)

shapiro.test(residual)
## 
##  Shapiro-Wilk normality test
## 
## data:  residual
## W = 0.8994, p-value < 2.2e-16
library(car)
## Warning: package 'car' was built under R version 4.4.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.4.3
library(lmtest)
## Warning: package 'lmtest' was built under R version 4.4.3
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
vif(model)
##      age      sex      bmi children   smoker 
## 1.015129 1.008878 1.014578 1.002242 1.006457
bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 118.02, df = 5, p-value < 2.2e-16
dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 2.0869, p-value = 0.944
## alternative hypothesis: true autocorrelation is greater than 0
resettest(model)
## 
##  RESET test
## 
## data:  model
## RESET = 71.235, df1 = 2, df2 = 1330, p-value < 2.2e-16

BAB IV KESIMPULAN

Berdasarkan hasil analisis regresi linear berganda pada data insurance, diperoleh kesimpulan bahwa variabel age, bmi, children, dan smoker berpengaruh signifikan terhadap biaya asuransi kesehatan (charges), sedangkan variabel sex tidak berpengaruh signifikan terhadap charges. Hasil uji F menunjukkan bahwa seluruh variabel independen secara simultan berpengaruh signifikan terhadap variabel dependen Berdasarkan uji asumsi, model regresi tidak mengalami multikolinearitas dan autokorelasi. Namun, hasil uji normalitas menunjukkan residual tidak berdistribusi normal dan hasil uji heteroskedastisitas menunjukkan adanya heteroskedastisitas pada model regresi. Selain itu, uji linearitas menunjukkan bahwa model belum sepenuhnya memenuhi asumsi linearitas. Secara keseluruhan, model regresi linear berganda yang digunakan sudah cukup baik dalam menjelaskan pengaruh variabel independen terhadap biaya asuransi kesehatan.