Regresi Linear Tiga Model

~ Covid 19 DKI JKT Bulan September 2021 ~


Oleh Muhammad Isa Ansori (Cak Isa)
Dosen Pengampu Prof. Dr M. Suhartono, M.Kom
Program Magister Informatika
Tanggal 24 April 2022

1. Overview

Analisa Regresi Linear Tiga Model Linear Model, SS Model, Smooth Spline Model untuk data Covid-19 DKI Jakarta bulan September 2021 pada data status penderita yang Dirawat.

Tujuanna adalah dapat memprediksi jumlah pasien yang Dirawat berdasarkan informasi data tanggal dari data covid 19 DKI Jakarta pada bulan September 2021

Tiga model ini akan menyajikan prediksi terdekat jumlah pasien yang seharusnya dirawat sebagai Learning Machine

2. Aktivasi Library

Pada Analisa regrresi tiga model memerlukan sejumlah library. Library yang digunakan dalam analisa studi kasus ini antara lain:

  1. readxl : library ini digunakan untuk membaca file xls/xlsx
  2. tidyverse : library yang berisi kumpulan fungsi untuk analisa data.
  3. skimr : library untuk membuat ringkasan data.
  4. npreg : library ini digunakan untuk membuat model ss
  5. stats : library ini digunakan untuk membuat model smooth spline

3. Import Dataset

Dataset yang digunakan dalam analisa ini adalah file excell c19jakartasep21.xlsx. Berikut view dataset :

View Dataset

Cek Struktur Data

## Rows: 30
## Columns: 12
## $ Tanggal                                            <dttm> 2021-09-01, 2021-0~
## $ Positif                                            <dbl> 851256, 851686, 852~
## $ Dirawat                                            <dbl> 2172, 2043, 1914, 1~
## $ Sembuh                                             <dbl> 831293, 832130, 832~
## $ Meninggal                                          <dbl> 13302, 13312, 13322~
## $ SelfIsolation                                      <dbl> 4489, 4201, 3841, 3~
## $ retail_and_recreation_percent_change_from_baseline <dbl> -21, -20, -18, -21,~
## $ grocery_and_pharmacy_percent_change_from_baseline  <dbl> 8, 7, 8, 9, 3, 4, -~
## $ parks_percent_change_from_baseline                 <dbl> -45, -43, -37, -39,~
## $ transit_stations_percent_change_from_baseline      <dbl> -41, -42, -41, -35,~
## $ workplaces_percent_change_from_baseline            <dbl> -34, -34, -32, -19,~
## $ residential_percent_change_from_baseline           <dbl> 12, 12, 13, 6, 6, 1~

Ringkasan Data

Data summary
Name datacovidjkt
Number of rows 30
Number of columns 12
_______________________
Column type frequency:
numeric 11
POSIXct 1
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Positif 0 1 855111.87 1938.39 851256 853676.00 855512.0 856708.75 857765 ▃▃▅▆▇
Dirawat 0 1 1155.80 499.96 510 708.75 1044.0 1521.50 2172 ▇▆▃▃▂
Sembuh 0 1 838165.27 3344.65 831293 835821.75 838851.0 841001.75 842541 ▃▃▃▆▇
Meninggal 0 1 13438.00 67.81 13302 13389.25 13459.5 13492.25 13519 ▃▂▂▅▇
SelfIsolation 0 1 2352.80 980.40 1195 1506.00 2157.5 2943.50 4489 ▇▅▃▃▂
retail_and_recreation_percent_change_from_baseline 0 1 -20.30 3.32 -28 -21.00 -20.0 -18.00 -15 ▁▂▃▇▃
grocery_and_pharmacy_percent_change_from_baseline 0 1 3.30 4.26 -8 1.00 4.0 6.00 10 ▁▂▂▇▃
parks_percent_change_from_baseline 0 1 -41.77 4.61 -55 -44.75 -42.0 -39.00 -33 ▁▁▇▅▃
transit_stations_percent_change_from_baseline 0 1 -37.53 3.23 -44 -39.00 -38.0 -36.00 -29 ▃▇▅▂▁
workplaces_percent_change_from_baseline 0 1 -28.17 7.99 -38 -34.00 -31.5 -21.50 -12 ▇▇▁▂▃
residential_percent_change_from_baseline 0 1 10.13 2.71 5 7.75 11.0 12.00 15 ▆▁▇▇▁

Variable type: POSIXct

skim_variable n_missing complete_rate min max median n_unique
Tanggal 0 1 2021-09-01 2021-09-30 2021-09-15 12:00:00 30

4. Distribusi Data

Distribusi Data ditampilkan melalui Histogram dan Grafik menunjukkan trend pasien yang dirawat di RS. Pada Histogram menampilkan mean Variable dalam bentuk Vertikal.

Histogram pasien Covid-19 yang dirawat di RS (Frequency)

Grafik pasien Covid-19 yang dirawat di RS (Density Variabel)

5. Model

5.1 Linear Model

Linear Model (lm) merupakan bentuk regresi model yang paling simple, model ini akan memberikan nilai yang menunjukkan antara Tanggal dan Jumlah Pasien yang dirawat dengan visualisasi plot dalam bentuk garis lurus. Dapat dikatakan lm lebih mengarah pada nilai rata rata (mean) dari data set/data test/data real yang diolah.

## 
## Call:
## lm(formula = datacovidjkt$Dirawat ~ datacovidjkt$Tanggal, data = datacovidjkt)
## 
## Coefficients:
##          (Intercept)  datacovidjkt$Tanggal  
##            1.059e+06            -6.484e-04

5.2 SS Model

Smoothing merupakan salah satu metode yang digunakan dalam analisis data non parametrik. Tujuan dari smoothing adalah untuk meminimalkan keragaman karakteristik data dari data yang tidak memiliki pengaruh sehingga ciri-ciri dari data akan tampak lebih jelas. Smoothing telah menjadi teknik umum di dalam metode-metode nonparametrik yang digunakan untuk menduga fungsi

## 
## Call:
## ss(x = datacovidjkt$Tanggal, y = datacovidjkt$Dirawat, nknots = 10)
## 
## Smoothing Parameter  spar = 0.1836522   lambda = 1.265074e-06
## Equivalent Degrees of Freedom (Df) 9.294061
## Penalized Criterion (RSS) 18187.95
## Generalized Cross-Validation (GCV) 1272.668

5.3 Smooth Spline Model

Hampir sama dengan SS Model, Smooth Spline Model adalah Salah satu model regresi dengan pendekatan non parametrik yang dapat digunakan untuk menduga kurva regresi adalah regresi spline.

Regresi spline merupakan smoothing untuk memplot data dengan mempertimbangkan kemulusan kurva. Spline adalah model polinomial yang tersegmentasi atau terbagi, dan sifat segmen ini memberikan fleksibilitas yang lebih besar daripada model polinomial biasa. Properti ini memungkinkan model regresi spline untuk secara efektif disesuaikan dengan properti lokal data.

## Call:
## smooth.spline(x = datacovidjkt$Tanggal, y = datacovidjkt$Dirawat, 
##     nknots = 10)
## 
## Smoothing Parameter  spar= 0.1909029  lambda= 5.863705e-05 (14 iterations)
## Equivalent Degrees of Freedom (Df): 8.959171
## Penalized Criterion (RSS): 19714.47
## GCV: 1335.921

6. Plot Regresi Linear Tiga Model

Dari ketiga model tersebut kemudian di visualkan melalui Plot, dimana masing masing model menunjukkan pendekatan prediksi linearnya dengan Data Real. Seperti pada gambar dibawah ini.

7. Kesimpulan

Dari Visualisasi Plot untuk Regresi Linear Tiga Model dapat disimpulkan sebagai berikut :

  • Bahwa antara SS Model dan Smooth Spline Model mempunyai kesamaan Linear, dan sebaiknya cukup menggunakan salah satu saja untuk Analisis berikutnya.

  • Pada tanggal 11 September 2021 justru lm model yang mempunyai kedekatan dengan Data Real sedangkan SS Model dan Smooth Spline lebih menurun kebawah mengikuti Data Real berikutnya lebih smooth/halus.