Email: abigaylerachman2009@gmail.com
RPubs: https://rpubs.com/abgylrchmn/
Dalam proyek ini saya memberikan anda dataset insurance.csv, informasi lanjut mengenai data ini dapat anda baca di Kaggle.
Tugas kalian adalah sebagai berikut:
Sebelum meringkas informasi penting yang ada di data insurance.csv, saya akan memanggil library yang akan digunakan dari koding yg akan kita jalankan dan memanggil data insurance.csv dengan koding berikut.
## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.2 v purrr 0.3.4
## v tibble 3.0.4 v dplyr 1.0.2
## v tidyr 1.1.2 v stringr 1.4.0
## v readr 1.4.0 v forcats 0.5.0
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
Lalu setelah, kita memanggil datanya, kita akan meringkas informasi penting dari data tersebut dengan koding berikut.
## [1] "age" "sex" "bmi" "children" "smoker" "region" "charges"
## age sex bmi children
## Min. :18.00 Length:1338 Min. :15.96 Min. :0.000
## 1st Qu.:27.00 Class :character 1st Qu.:26.30 1st Qu.:0.000
## Median :39.00 Mode :character Median :30.40 Median :1.000
## Mean :39.21 Mean :30.66 Mean :1.095
## 3rd Qu.:51.00 3rd Qu.:34.69 3rd Qu.:2.000
## Max. :64.00 Max. :53.13 Max. :5.000
## smoker region charges
## Length:1338 Length:1338 Min. : 1122
## Class :character Class :character 1st Qu.: 4740
## Mode :character Mode :character Median : 9382
## Mean :13270
## 3rd Qu.:16640
## Max. :63770
## [1] 0
dari koding diatas, kita tau bahwa ada 7 variabel yang di dalam data tersebut dan tidak ada data kosong (NA) dalam data tersebut. 2. Memahami faktor-faktor apa yang mempengaruhi premi asuransi konsumen. Setelah kita mendapatkan informasi data tersebut, mari kita jalankan model regresi linier berganda untuk data ini dengan memasukkan semua variabel yang ada
multiple_lm1 <- lm(charges ~ age + sex + bmi + children + smoker + region,data = insurance)
summary(multiple_lm1)##
## Call:
## lm(formula = charges ~ age + sex + bmi + children + smoker +
## region, data = insurance)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11304.9 -2848.1 -982.1 1393.9 29992.8
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -11938.5 987.8 -12.086 < 2e-16 ***
## age 256.9 11.9 21.587 < 2e-16 ***
## sexmale -131.3 332.9 -0.394 0.693348
## bmi 339.2 28.6 11.860 < 2e-16 ***
## children 475.5 137.8 3.451 0.000577 ***
## smokeryes 23848.5 413.1 57.723 < 2e-16 ***
## regionnorthwest -353.0 476.3 -0.741 0.458769
## regionsoutheast -1035.0 478.7 -2.162 0.030782 *
## regionsouthwest -960.0 477.9 -2.009 0.044765 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6062 on 1329 degrees of freedom
## Multiple R-squared: 0.7509, Adjusted R-squared: 0.7494
## F-statistic: 500.8 on 8 and 1329 DF, p-value: < 2.2e-16
Dapat kita lihat, kita mendapatkan nilai p <2.2e-16 yang sangat signifikan. Hal ini menunjukkan bahwa satu atau lebih variabel prediktor berhubungan secara signifikan dengan variabel target. Melihat koefisien berikutnya, nilai-t menunjukkan bahwa jika perokok memiliki kapasitas prediksi tertinggi dari variabel data tsb (karena memiliki nilai-t terbesar), diikuti oleh usia, bmi dan anak-anak. Masing-masing variabel ini dianggap signifikan secara statistik. Nilai lainnya (jenis kelamin, wilayah) tidak signifikan, jadi kita akan menghapusnya dari model.
Dan kita bisa lihat r-squared dari model kita menunjukkan bahwa data kita sangat hampir sesuai dengan garis regresi. Hasil model ini menunjukkan bahwa 75% variabel dijelaskan oleh model ini.
##
## Call:
## lm(formula = charges ~ bmi + age + smoker + children, data = insurance)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11897.9 -2920.8 -986.6 1392.2 29509.6
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -12102.77 941.98 -12.848 < 2e-16 ***
## bmi 321.85 27.38 11.756 < 2e-16 ***
## age 257.85 11.90 21.675 < 2e-16 ***
## smokeryes 23811.40 411.22 57.904 < 2e-16 ***
## children 473.50 137.79 3.436 0.000608 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6068 on 1333 degrees of freedom
## Multiple R-squared: 0.7497, Adjusted R-squared: 0.7489
## F-statistic: 998.1 on 4 and 1333 DF, p-value: < 2.2e-16
Dengan menghilangkan variabel non-signifikan, F-statistic melonjak dari 500 menjadi 998 yang berarti model lebih cocok dengan data.
Setelah kita memodelkan data tersebut di jawaban nomor 2, selanjutnya kita dapat menggunakan ANOVA test untuk membandingkan model pertama dan kedua dan manakah model yang terbaik dengan koding berikut.
## Analysis of Variance Table
##
## Model 1: charges ~ age + sex + bmi + children + smoker + region
## Model 2: charges ~ bmi + age + smoker + children
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 1329 4.8840e+10
## 2 1333 4.9078e+10 -4 -238917273 1.6253 0.1654
Dari hasil diatas, kita tau bahwa model 2 (multiple_lm2) lebih baik daripada model pertama (multiple_lm1) untuk memprediksi premi asuransi konsumen.
Suatu perusahaan di Amerika Serikat ingin mempekerjakan seseorang dari luar Amerika Serikat untuk posisi teknis, mereka perlu mengajukan aplikasi ke pemerintah Amerika Serikat untuk mendapatkan kartu hijau atau visa bagi pelamar asing. Untuk menunjukkan ekuitas bagi karyawan AS dan non-AS, perusahaan perlu menyatakan seberapa banyak mereka bersedia membayar karyawan ketika mereka mengajukan permohonan visa atau kartu hijau. Sementara itu, mereka perlu memberikan jumlah rata-rata, yang disebut “prevailing wage” seorang karyawan dengan keterampilan dan latar belakang serupa biasanya dibayar untuk posisi yang sama.
Perbedaan antara upah yang dibayar dan upah yang berlaku dapat menunjukkan apakah perusahaan AS bersedia membayar lebih banyak gaji kepada karyawan non-AS. Gaji lebih banyak untuk calon karyawan asing akan menarik. Selain itu, perlu diperhatikan bahwa untuk area dan pekerjaan yang berbeda, gaji dapat menunjukkan perbedaan. Oleh karena itu perlu untuk mencari tahu hubungan antara gaji, area dan posisi dapat membantu karyawan non-AS untuk memilih pekerjaan di AS.
Berdasarkan klasifikasi VISA yang mereka miliki disimpulkan bahwa ada lima jenis yang berbeda: “green card”, “H-1B”, “H-1B1 Chile”, “H- 1B1 Singapore” dan “E-3 Australia”. Untuk projek ini, silahkan anda memilih kelas VISA “H-1B” untuk melakukan data mentah pelamar yang berpenduduk tetap tahun 2018 atau 2019. Kalian dapat mendwonload Data asli yang dikumpulkan oleh Kantor Sertifikasi Tenaga Kerja Asing Departemen Tenaga Kerja AS