Regresi Linear Tiga Model
~ Covid 19 DKI JKT Bulan September 2021 ~
| Oleh | Muhammad Isa Ansori (Cak Isa) |
| Dosen Pengampu | Prof. Dr M. Suhartono, M.Kom |
| Program | Magister Informatika |
| Tanggal | 24 April 2022 |
1. Overview
Analisa Regresi Linear Tiga Model Linear Model, SS Model, Smooth Spline Model untuk data Covid-19 DKI Jakarta bulan September 2021 pada data status penderita yang Dirawat.
Tujuanna adalah dapat memprediksi jumlah pasien yang Dirawat berdasarkan informasi data tanggal dari data covid 19 DKI Jakarta pada bulan September 2021
Tiga model ini akan menyajikan prediksi terdekat jumlah pasien yang seharusnya dirawat sebagai Learning Machine
2. Aktivasi Library
Pada Analisa regrresi tiga model memerlukan sejumlah library. Library yang digunakan dalam analisa studi kasus ini antara lain:
readxl: library ini digunakan untuk membaca file xls/xlsxtidyverse: library yang berisi kumpulan fungsi untuk analisa data.skimr: library untuk membuat ringkasan data.npreg: library ini digunakan untuk membuat model ssstats: library ini digunakan untuk membuat model smooth spline
3. Import Dataset
Dataset yang digunakan dalam analisa ini adalah file excell
c19jakartasep21.xlsx. Berikut view dataset :
View
Dataset
Cek Struktur Data
## Rows: 30
## Columns: 12
## $ Tanggal <dttm> 2021-09-01, 2021-0~
## $ Positif <dbl> 851256, 851686, 852~
## $ Dirawat <dbl> 2172, 2043, 1914, 1~
## $ Sembuh <dbl> 831293, 832130, 832~
## $ Meninggal <dbl> 13302, 13312, 13322~
## $ SelfIsolation <dbl> 4489, 4201, 3841, 3~
## $ retail_and_recreation_percent_change_from_baseline <dbl> -21, -20, -18, -21,~
## $ grocery_and_pharmacy_percent_change_from_baseline <dbl> 8, 7, 8, 9, 3, 4, -~
## $ parks_percent_change_from_baseline <dbl> -45, -43, -37, -39,~
## $ transit_stations_percent_change_from_baseline <dbl> -41, -42, -41, -35,~
## $ workplaces_percent_change_from_baseline <dbl> -34, -34, -32, -19,~
## $ residential_percent_change_from_baseline <dbl> 12, 12, 13, 6, 6, 1~
Ringkasan Data
| Name | datacovidjkt |
| Number of rows | 30 |
| Number of columns | 12 |
| _______________________ | |
| Column type frequency: | |
| numeric | 11 |
| POSIXct | 1 |
| ________________________ | |
| Group variables | None |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| Positif | 0 | 1 | 855111.87 | 1938.39 | 851256 | 853676.00 | 855512.0 | 856708.75 | 857765 | ▃▃▅▆▇ |
| Dirawat | 0 | 1 | 1155.80 | 499.96 | 510 | 708.75 | 1044.0 | 1521.50 | 2172 | ▇▆▃▃▂ |
| Sembuh | 0 | 1 | 838165.27 | 3344.65 | 831293 | 835821.75 | 838851.0 | 841001.75 | 842541 | ▃▃▃▆▇ |
| Meninggal | 0 | 1 | 13438.00 | 67.81 | 13302 | 13389.25 | 13459.5 | 13492.25 | 13519 | ▃▂▂▅▇ |
| SelfIsolation | 0 | 1 | 2352.80 | 980.40 | 1195 | 1506.00 | 2157.5 | 2943.50 | 4489 | ▇▅▃▃▂ |
| retail_and_recreation_percent_change_from_baseline | 0 | 1 | -20.30 | 3.32 | -28 | -21.00 | -20.0 | -18.00 | -15 | ▁▂▃▇▃ |
| grocery_and_pharmacy_percent_change_from_baseline | 0 | 1 | 3.30 | 4.26 | -8 | 1.00 | 4.0 | 6.00 | 10 | ▁▂▂▇▃ |
| parks_percent_change_from_baseline | 0 | 1 | -41.77 | 4.61 | -55 | -44.75 | -42.0 | -39.00 | -33 | ▁▁▇▅▃ |
| transit_stations_percent_change_from_baseline | 0 | 1 | -37.53 | 3.23 | -44 | -39.00 | -38.0 | -36.00 | -29 | ▃▇▅▂▁ |
| workplaces_percent_change_from_baseline | 0 | 1 | -28.17 | 7.99 | -38 | -34.00 | -31.5 | -21.50 | -12 | ▇▇▁▂▃ |
| residential_percent_change_from_baseline | 0 | 1 | 10.13 | 2.71 | 5 | 7.75 | 11.0 | 12.00 | 15 | ▆▁▇▇▁ |
Variable type: POSIXct
| skim_variable | n_missing | complete_rate | min | max | median | n_unique |
|---|---|---|---|---|---|---|
| Tanggal | 0 | 1 | 2021-09-01 | 2021-09-30 | 2021-09-15 12:00:00 | 30 |
4. Distribusi Data
Distribusi Data ditampilkan melalui Histogram dan Grafik menunjukkan trend pasien yang dirawat di RS. Pada Histogram menampilkan mean Variable dalam bentuk Vertikal.
Histogram pasien Covid-19 yang dirawat di RS (Frequency)
Grafik pasien Covid-19 yang dirawat di RS (Density Variabel)
5. Model
5.1 Linear Model
Linear Model (lm) merupakan bentuk regresi model yang paling simple, model ini akan memberikan nilai yang menunjukkan antara Tanggal dan Jumlah Pasien yang dirawat dengan visualisasi plot dalam bentuk garis lurus. Dapat dikatakan lm lebih mengarah pada nilai rata rata (mean) dari data set/data test/data real yang diolah.
##
## Call:
## lm(formula = datacovidjkt$Dirawat ~ datacovidjkt$Tanggal, data = datacovidjkt)
##
## Coefficients:
## (Intercept) datacovidjkt$Tanggal
## 1.059e+06 -6.484e-04
5.2 SS Model
Smoothing merupakan salah satu metode yang digunakan dalam analisis data non parametrik. Tujuan dari smoothing adalah untuk meminimalkan keragaman karakteristik data dari data yang tidak memiliki pengaruh sehingga ciri-ciri dari data akan tampak lebih jelas. Smoothing telah menjadi teknik umum di dalam metode-metode nonparametrik yang digunakan untuk menduga fungsi
##
## Call:
## ss(x = datacovidjkt$Tanggal, y = datacovidjkt$Dirawat, nknots = 10)
##
## Smoothing Parameter spar = 0.1836522 lambda = 1.265074e-06
## Equivalent Degrees of Freedom (Df) 9.294061
## Penalized Criterion (RSS) 18187.95
## Generalized Cross-Validation (GCV) 1272.668
5.3 Smooth Spline Model
Hampir sama dengan SS Model, Smooth Spline Model adalah Salah satu model regresi dengan pendekatan non parametrik yang dapat digunakan untuk menduga kurva regresi adalah regresi spline.
Regresi spline merupakan smoothing untuk memplot data dengan mempertimbangkan kemulusan kurva. Spline adalah model polinomial yang tersegmentasi atau terbagi, dan sifat segmen ini memberikan fleksibilitas yang lebih besar daripada model polinomial biasa. Properti ini memungkinkan model regresi spline untuk secara efektif disesuaikan dengan properti lokal data.
## Call:
## smooth.spline(x = datacovidjkt$Tanggal, y = datacovidjkt$Dirawat,
## nknots = 10)
##
## Smoothing Parameter spar= 0.1909029 lambda= 5.863705e-05 (14 iterations)
## Equivalent Degrees of Freedom (Df): 8.959171
## Penalized Criterion (RSS): 19714.47
## GCV: 1335.921
6. Plot Regresi Linear Tiga Model
Dari ketiga model tersebut kemudian di visualkan melalui Plot, dimana masing masing model menunjukkan pendekatan prediksi linearnya dengan Data Real. Seperti pada gambar dibawah ini.
7. Kesimpulan
Dari Visualisasi Plot untuk Regresi Linear Tiga Model dapat disimpulkan sebagai berikut :
Bahwa antara SS Model dan Smooth Spline Model mempunyai kesamaan Linear, dan sebaiknya cukup menggunakan salah satu saja untuk Analisis berikutnya.
Pada tanggal 11 September 2021 justru lm model yang mempunyai kedekatan dengan Data Real sedangkan SS Model dan Smooth Spline lebih menurun kebawah mengikuti Data Real berikutnya lebih smooth/halus.