Proses analisis data pada prinsipnya merupakan upaya untuk mendapatkan informasi relevan yang terkandung di dalam data melalui struktur, pola data serta penyajian hasil dalam bentuk yang lebih ringkas dan sederhana. Penelusuran struktur data bertujuan untuk memeriksa apakah suatu data dapat membentuk suatu model tertentu, sedangkan penelusuran pola data bertujuan untuk memeriksa bagaimana sebaran data. Salah satu cara untuk memeriksa sebaran data adalah dengan menentukan fungsi kepekatan peluang (fkp) atau probability density function (pdf). Fungsi kepekatan memiliki sifat non negatif dan integral (luas di bawah kurvanya) sama dengan 1. Selain itu, manfaat fungsi kepekatan peluang diantaranya mengenali dengan baik sebaran datanya dan membantu proses analisis dengan teknik simulasi statistika. Untuk menduga fungsi kepekatan f(x) jika informasi tentang model sebaran dari X tidak diketahui, dapat dilakukan dengan menggunakan pendekatan nonparametrik. Salah satu pendekatan non-parametrik adalah menggunakan metode Naive Estimator.
Dari definisi kepekatan peluang, jika peubah acak X memiliki fungsi kepekatan f dengan lebar jendela h, maka f(x) = lim \frac{1}{2h}P(x − h < X < x + h)
Untuk setiap nilai h, nilai P(x − h < X < x + h) dapat diduga dengan proporsi sampel yang terletak pada selang (x − h, x + h). Dengan demikian, penduga fungsi kepekatan fb dapat diperoleh dengan memilih nilai h yang kecil dan \hat{f} (x) = \frac{1}{2h}[banyaknya X1, …, Xn yang terletak pada selang (x − h, x + h)]. Pendekatan pertama untuk menduga fungsi kepekatan peluang berdasarkan data contoh yang kita miliki disebut sebagai penduga naive (naive estimator). Untuk menyatakan penduga secara lebih nyata, didefinisikan fungsi pembobot w sebagai berikut :
w(x) = \frac{1}{2} jika |x| < 1
w(x) = 0 untuk selain |x| < 1
Oleh karena itu, penduga naive dapat dituliskan sebagai : \hat{f} (x) = \frac{1}{hn} \sum_{i=1}^{n} w ( \frac{x-Xi}{h} )
Dataset yang digunakan adalah dataset usia pasien penderita Covid-19 yang didalamnya terdapat peubah “usia pasien covid” yang juga digunakan pada eksplorasi data menggunakan histogram.
usia <- read.csv("Usia pasien covid 19.csv", sep =";")
attach(usia)
hist(Usia.pasien.covid, breaks=10, col="yellow", main = 'Histogram dan Penduga Fungsi Kepekatan Peluang
Usia Pasien Covid-19', xlab = 'usia pasien covid-19', freq=FALSE)
h = 3
x <- seq(0, 100 ,by= 1)
f <- 1:length(x)
for (i in 1:length(x)){
f[i] = sum(ifelse( abs((Usia.pasien.covid - x[i])/h) < 1 , 1, 0)) / (2*h*length(Usia.pasien.covid))
}
lines(x, f, type="l", col="red", lwd=2)
Perintah sum(ifelse( abs((usia_pasien_covid - x[i])/h)
digunakan untuk menghitung banyaknya amatan yang berada pada selang (x − h, x + h) dengan terlebih dahulu mengkonversi amatan yang bernilai dalam selang tersebut menjadi 1 dan yang diluar selang dikonversi menjadi 0. Dari keseluruh baris perintah f[i] menyimpan seluruh fungsi kepekatan untuk setiap nilai x yang berada pada selang 0 sampai 100 dengan interval 1.
Setelah beberapa tahapan dalam menduga kurva fungsi kepekatan peluang dengan metode Naive sebagai metode Pendugaan non parametrik, kita perlu mengetahui ketepatan kurva yang telah kita buat dengan memperhatikan tingkat kemulusan kurva. Pendugaan fungsi kepekatan peluang dengan metode Naive sangat bergantung pada nilai ℎ yang merupakan lebar jendela. Semakin besar ℎ maka kurva pemulusan yang diperoleh semakin mulus. Hal tersebut menunjukkan bias pendugaan semakin besar dan ragam semakin kecil, sehingga informasi yang besar dari data akan hilang. Sebaliknya, jika ℎ diperkecil maka kurva pemulusan akan semakin kasar mengikuti data yang mengakibatkan bias semakin kecil dan ragam semakin besar. Berikut ini ilustrasi pendugaan kurva fungsi kepekatan peluang dengan menggunakan nilai h beragam yaitu h = 1, 3, 5, 10 pada data usia pasien covid-19 yang telah digunakan sebelumnya.
par(mfrow =c(2,2))
#####################
h = 1
x <- seq(0, 100 ,by= 1)
f <- 1:length(x)
for (i in 1:length(x)){
f[i] = sum(ifelse( abs((Usia.pasien.covid - x[i])/h) < 1 , 1, 0)) / (2*h*length(Usia.pasien.covid))
}
hist(Usia.pasien.covid, breaks=20, col="yellow", main = 'h = 1', xlab = 'usia pasien covid-19', freq=FALSE)
lines(x, f, type="l", col="red", lwd=2)
#####################
h = 3
x <- seq(0, 100 ,by= 1)
f <- 1:length(x)
for (i in 1:length(x)){
f[i] = sum(ifelse( abs((Usia.pasien.covid - x[i])/h) < 1 , 1, 0)) / (2*h*length(Usia.pasien.covid))
}
hist(Usia.pasien.covid, breaks=20, col="yellow", main = 'h = 3', xlab = 'usia pasien covid-19', freq=FALSE)
lines(x, f, type="l", col="red", lwd=2)
#####################
h = 5
x <- seq(0, 100 ,by= 1)
f <- 1:length(x)
for (i in 1:length(x)){
f[i] = sum(ifelse( abs((Usia.pasien.covid - x[i])/h) < 1 , 1, 0)) / (2*h*length(Usia.pasien.covid))
}
hist(Usia.pasien.covid, breaks=20, col="yellow", main = 'h = 5', xlab = 'usia pasien covid-19', freq=FALSE)
lines(x, f, type="l", col="red", lwd=2)
#####################
h = 10
x <- seq(0, 100 ,by= 1)
f <- 1:length(x)
for (i in 1:length(x)){
f[i] = sum(ifelse( abs((Usia.pasien.covid - x[i])/h) < 1 , 1, 0)) / (2*h*length(Usia.pasien.covid))
}
hist(Usia.pasien.covid, breaks=20, col="yellow", main = 'h = 10', xlab = 'usia pasien covid-19', freq=FALSE)
lines(x, f, type="l", col="red", lwd=2)
Berdasarkan penduga kurva fungsi kepekatan peluang overlay dengan histogram di atas, terlihat pada lebar jendela h = 1 terbentuk gerigi yang sangat banyak. Kurva fungsi kepekatan semakin mulus jika h diperbesar. Pada metode ini, lebar jendela h merupakan parameter pemulusan.