Identifikasi Pencilan Peubah Tunggal dan Penduga Kekar Bagi parameter Pemusatan dan Penyebaran Data

INPUT DATA

library(readxl)
## Warning: package 'readxl' was built under R version 4.1.2
dataPrak121 <- read_excel("C:/SMT 4/Analisis Eksplorasi Data/aed 12/Data praktikum 12.xlsx", sheet=1)
dataPrak122 <- read_excel("C:/SMT 4/Analisis Eksplorasi Data/aed 12/Data praktikum 12.xlsx", sheet=2)

A. IDENTIFIKASI PENCILAN

Untuk mengidentifikasi pencilan pada data, akan digunakan dua metode yaitu:

  1. Metode nilai rata-rata Dengan asumsi data cenderung menyebar normal, simpangan baku dari rata-rata jarak suatu amatan dapat digunakan sebagai batasan bagi amatan untuk dikategorikan sebagai pencilan.Suatu amatan dikatakan sebagai pencilan jika selisih antara nilai amatan tersebut dengan rata-rata (𝑥̅) lebih besar dari 3s dengan s adalah nilai simpangan baku . (𝑥̅ – 3s, 𝑥̅ + 3s)

  2. Boxplot dan IQR Metode boxplot merupakan metode grafik dengan menggunakan nilai kuartil dari jangkauan.IQR adalah Inter Quartile Range atau Jarak Antar Kuartil yang merupakan selisih antara Q3 dengan Q1. Amatan yang bernilai lebih kecil daripada Batas Bawah atau amatan yang bernilai lebih besar daripada Batas Atas diidentifikasi sebagai pencilan.

1. Data y1

  1. Metode Nilai Rata-rata
# membaca data
nilai <- dataPrak121$y1
m <- mean(nilai)
s <- sd(nilai)
pencilan <- (nilai > m+3*s) | (nilai < m-3*s)
p<-m+3*s
p
## [1] 1.535299
q<-m-3*s
q
## [1] -0.5539037
# menghitung banyaknya amatan pencilan
sum(pencilan)
## [1] 0
# mengidentifikasi nomor amatan yang menjadi pencilan
which(pencilan)
## integer(0)
# nilai pencilan
nilai[which(pencilan)]
## numeric(0)

Dengan menggunakan metode nilai rata-rata diperoleh hasil bahwa data y1 tidak memiliki pencilan. Dengan kata lain, tidak ada amatan yang berada diluar selang (1.535299, -0.5539037).

  1. Metode Boxplot dan IQR
nilai <- dataPrak121$y1
# BOXPLOT
boxplot(dataPrak121$y1, horizontal = T,
        main = "Boxplot Peubah y1", col="pink")

# Identifikasi pencilan
nilai.pencilan <- boxplot.stats(nilai)$out
nilai.pencilan
## numeric(0)

Berdasarkan visualisasi boxplot, terlihat bahwa tidak ada pencilan dan juga diketahui bahwa datanya menjulur ke kiri yang artinya data banyak tersebar disebelah kanan.

Pada data y1 dengan menggunakan kedua metode tersebut menghasilkan output yang sama, dimana keduanya menunjukkan bahwa data y1 tidak mengandung pencilan.

2. Data y2

  1. Metode Nilai Rata-rata
# membaca data
nilai <- dataPrak121$y2
m <- mean(nilai)
s <- sd(nilai)
pencilan <- (nilai > m+3*s) | (nilai < m-3*s)
p<-m+3*s
p
## [1] 32.06459
q<-m-3*s
q
## [1] -10.42204
# menghitung banyaknya amatan pencilan
sum(pencilan)
## [1] 3
# mengidentifikasi nomor amatan yang menjadi pencilan
which(pencilan)
## [1]  98  99 100
# nilai pencilan
nilai[which(pencilan)]
## [1] 37.56401 43.29616 48.86305

Dengan menggunakan metode nilai rata-rata diperoleh hasil bahwa data y2 memiliki pencilan. Dengan kata lain, ada amatan yang berada diluar selang (32.06459, -10.42204). Pencilan pada data y2 adalah 37.56401, 43.29616, dan 48.86305.

  1. Metode Boxplot dan IQR
nilai <- dataPrak121$y2
# BOXPLOT
boxplot(dataPrak121$y2, horizontal = T,
        main = "Boxplot Peubah y2", col="pink")

# Identifikasi pencilan
nilai.pencilan <- boxplot.stats(nilai)$out
nilai.pencilan
## [1] 37.56401 43.29616 48.86305

Berdasarkan visualisasi boxplot, terlihat bahwa terdapat tiga pencilan dan juga diketahui bahwa datanya menjulur ke kanan yang artinya data banyak tersebar disebelah kiri.

Pada data y2 dengan menggunakan kedua metode tersebut menghasilkan output yang sama, dimana keduanya menunjukkan bahwa data y2 mengandung pencilan.

3. Data x1

  1. Metode Nilai Rata-rata
# membaca data
nilai <- dataPrak122$x1
m <- mean(nilai)
s <- sd(nilai)
pencilan <- (nilai > m+3*s) | (nilai < m-3*s)
p<-m+3*s
p
## [1] 25.64211
q<-m-3*s
q
## [1] 16.41571
# menghitung banyaknya amatan pencilan
sum(pencilan)
## [1] 0
# mengidentifikasi nomor amatan yang menjadi pencilan
which(pencilan)
## integer(0)
# nilai pencilan
nilai[which(pencilan)]
## numeric(0)

Dengan menggunakan metode nilai rata-rata diperoleh hasil bahwa data x1 tidak memiliki pencilan. Dengan kata lain, tidak ada amatan yang berada diluar selang (25.64211, 16.41571).

  1. Metode Boxplot dan IQR
nilai <- dataPrak122$x1
# BOXPLOT
boxplot(dataPrak122$x1, horizontal = T,
        main = "Boxplot Peubah x1", col="pink")

# Identifikasi pencilan
nilai.pencilan <- boxplot.stats(nilai)$out
nilai.pencilan
## [1] 24.75342

Berdasarkan visualisasi boxplot, terlihat bahwa terdapat satu pencilan dan juga diketahui bahwa datanya menjulur ke kanan yang artinya data banyak tersebar disebelah kiri. Pencilan pada data x1 yaitu 24.75342.

Pada data x1 dengan menggunakan kedua metode tersebut menghasilkan output yang berbeda, dimana pada metode pertama tidak terdeteksi adanya pencilan sedangkan pada metode kedua terdeteksi adanya pencilan.

4. Data x2

  1. Metode Nilai Rata-rata
# membaca data
nilai <- dataPrak122$x2
m <- mean(nilai)
s <- sd(nilai)
pencilan <- (nilai > m+3*s) | (nilai < m-3*s)
p<-m+3*s
p
## [1] 10.42649
q<-m-3*s
q
## [1] -6.385617
# menghitung banyaknya amatan pencilan
sum(pencilan)
## [1] 0
# mengidentifikasi nomor amatan yang menjadi pencilan
which(pencilan)
## integer(0)
# nilai pencilan
nilai[which(pencilan)]
## numeric(0)

Dengan menggunakan metode nilai rata-rata diperoleh hasil bahwa data x1 tidak memiliki pencilan. Dengan kata lain, tidak ada amatan yang berada diluar selang (10.42649, -6.385617).

  1. Metode Boxplot dan IQR
nilai <- dataPrak122$x2
# BOXPLOT
boxplot(dataPrak122$x2, horizontal = T,
        main = "Boxplot Peubah x2", col="pink")

# Identifikasi pencilan
nilai.pencilan <- boxplot.stats(nilai)$out
nilai.pencilan
## numeric(0)

Berdasarkan visualisasi boxplot, terlihat bahwa tidak ada pencilan dan juga diketahui bahwa datanya menjulur ke kanan yang artinya data banyak tersebar disebelah kiri.

Pada data x2 dengan menggunakan kedua metode tersebut menghasilkan output yang sama, dimana keduanya menunjukkan bahwa data x2 tidak mengandung pencilan.

B. MENERAPKAN PENDUGA ROBUST BAGI MEAN

Keberadaan pencilan dalam suatu gugus data akan berpengaruh terhadap penduga ukuran pemusatan yaitu rata-rata. Rata-rata tidak bersifat kekar (robust) karena nilainya mudah terganggu oleh keberadaan pencilan terutama jika ukuran gugus datanya tidak besar.Akan digunakan Dua Metode yaitu:

  1. Trimmed Mean Rataan terpangkas (trimmed mean) merupakan rata-rata dari data yang ada di bagian tengah data, tepatnya data di 1-2𝛼 bagian tengah data dengan 0 < 𝛼 < 1. Penentuan opsi trim = 0.05 mengindikasikan bahwa kita ingin memperoleh rata-rata terpangkas 5% pada masing-masing ujung kiri dan kanan data.

  2. Winsorized Mean Nilai winsorized mean diperoleh dengan menghitung rata-rata setelah kita lakukan penggantian nilai terhadap amatan-amatan terbesar dan terkecil.Perhitungan winsorized mean di R dilakukan dengan memakai pembuatan fungsi winsor.mean() dengan argumen berupa vektor data dan dua buah proporsi data terkecil dan data terbesar yang akan diganti. Default yang diberikan untuk nilai proporsi masing-masing adalah 0.05 dan 0.95.

Untuk data y atau data yang memiliki 100 amatan akan digunakan metode trimmed mean karena mimiliki jumlah amatan yang cukup banyak. Sedangkan data x atau data yang memiliki 10 amatan akan digunakan metode Winsorized Mean karena memiliki jumlah amatan yang sedikit. Hal ini karena jika jumlah amatannya sedikit dan menggunakan metode trimmed mean, maka saat di pangkas sisa jumlah amatannya semakin sedikit sehingga kurang baik digunakan.

1. Data y1

Metode Trimmed Mean

nilai <- dataPrak121$y1
mean(nilai)
## [1] 0.4906979
mean(nilai, trim=0.05)
## [1] 0.5074825

Berdasarkan output diatas diperoleh bahwa rata-rata pada data y1 adalah 0.4906979. Dengan menerapkan penduga robust bagi mean menggunakan metode trimmed mean diperoleh penduga rata-rata dengan opsi trim=0.05 adalah 0.5074825. Data y1 tidak memiliki pencilan sehingga tidak ada perbedaan yang signfikan antara rata-rata awal dengan penduga rata-rata robust.

2. Data y2

Metode Trimmed Mean

nilai <- dataPrak121$y2
mean(nilai)
## [1] 10.82127
mean(nilai, trim=0.05)
## [1] 9.939848

Berdasarkan output diatas diperoleh bahwa rata-rata pada data y2 adalah 10.82127. Dengan menerapkan penduga robust bagi mean menggunakan metode trimmed mean diperoleh penduga rata-rata dengan opsi trim=0.05 adalah 9.939848. Data y2 memiliki pencilan sehingga terdapat perbedaan rata-rata awal dengan penduga rata-rata robust.

3. Data x1

Winsorized Mean

nilai <- dataPrak122$x1
mean(nilai)
## [1] 21.02891
library(psych) 
## Warning: package 'psych' was built under R version 4.1.2
winsor.mean(nilai, trim=0.1) 
## [1] 20.82403
winsor.mean(nilai, trim=0.05) 
## [1] 20.92647

Berdasarkan output diatas diperoleh bahwa rata-rata pada data x1 adalah 21.02891. Dengan menerapkan penduga robust bagi mean menggunakan metode Winsorized Mean diperoleh penduga rata-rata dengan opsi trim=0.1 adalah 20.82403 dan trim=0.05 adalah 20.92647. Data x1 memiliki satu pencilan sehingga ada sedikit perbedaan antara rata-rata awal dengan penduga rata-rata robust.

4. Data x2

Winsorized Mean

nilai <- dataPrak122$x2
mean(nilai)
## [1] 2.020437
library(psych) 
winsor.mean(nilai, trim=0.1) 
## [1] 2.071475
winsor.mean(nilai, trim=0.05) 
## [1] 2.045956

Berdasarkan output diatas diperoleh bahwa rata-rata pada data x2 adalah 2.020437. Dengan menerapkan penduga robust bagi mean menggunakan metode Winsorized Mean diperoleh penduga rata-rata dengan opsi trim=0.1 adalah 2.071475 dan trim=0.05 adalah 2.045956. Data x2 tidak memiliki pencilan sehingga tidak ada perbedaan yang signifikan antara rata-rata awal dengan penduga rata-rata robust.

C. MENERAPKAN PENDUGA ROBUST BAGI SIMPANGAN BAKU

Nilai simpangan baku mudah sekali terpengaruh oleh keberadaan pencilan. Jika ada sebuah amatan ekstrim baik yang bernilai jauh lebih besar maupun jauh lebih kecil dibandingkan amatan lainnya, maka simpangan baku akan membengkak menjadi lebih besar dari yang semestinya jika amatan pencilan tersebut tidak ada.Penduga kekar bagi simpangan baku diperlukan untuk memberikan informasi mengenai simpangan baku yang sesungguhnya tanpa banyak terganggu oleh keberadaan amatan pencilan pada gugus data. Akan digunakan metode MAD (Median Absolute Deviation). MAD merupakan penduga kekar paling populer untuk ukuran penyebaran.

Data yang memiliki pencilan adalah data y2 dan x1 sehingga data tersebut akan dilakukan pendugaan robust bagi simpangan baku

1. Data y2

Metode MAD (Median Absolute Deviation)

secara teori diketahui bahwa MAD(Z) sebesar 1.4826. Nilai MAD dari gugus data y2 diperoleh menggunakan fungsi mad() dengan menggunakan opsi constant=1

nilai <- dataPrak121$y2
nilai.mad<-mad(nilai, constant=1)
simp.baku <- sd(nilai) 
simp.baku.kekar <- mad(nilai) 
c(nilai.mad, simp.baku, simp.baku.kekar) 
## [1] 3.311948 7.081105 4.910295

Berdasarkan output diatas terlihat bahwa simpangan baku data adalah 7.081105 dan dengan menggunakan pendekatan kekar menggunakan MAD, diperoleh penduga simpangan baku adalah sebesar 4.910295 yang merupakan perkalian antara 1.4826 x 3.311948. Dari hasil tersebut diketahui bahwa simpangan baku yang tidak dilakukan pendekatan kekar lebih besar karena adanya amatan pencilan pada data.

2. Data x1

Metode MAD (Median Absolute Deviation) Data x1 memiliki sebaran normal, sehingga secara teori diketahui bahwa MAD(Z) sebesar 1.4826. Nilai MAD dari gugus data x1 diperoleh menggunakan fungsi mad() dengan menggunakan opsi constant=1

nilai <- dataPrak122$x1
nilai.mad<-mad(nilai, constant=1)
simp.baku <- sd(nilai) 
simp.baku.kekar <- mad(nilai) 
c(nilai.mad, simp.baku, simp.baku.kekar) 
## [1] 0.7385415 1.5377346 1.0949616

Berdasarkan output diatas terlihat bahwa simpangan baku data adalah 1.537735 dan dengan menggunakan pendekatan kekar menggunakan MAD, diperoleh penduga simpangan baku adalah sebesar 1.0949616 yang merupakan perkalian antara 1.4826 x 0.7385415. Dari hasil tersebut diketahui bahwa simpangan baku yang tidak dilakukan pendekatan kekar lebih besar karena adanya amatan pencilan pada data.

D. Ringkasan

1. Pencilan

Dengan menggunakan metode nilai rata-rata, Boxplot, dan IQR, diperoleh hasil bahwa data y1 tidak memiliki pencilan, data y2 terdapat 3 pencilan, data x1 terdapat 1 pencilan, dan data x2 tidak ada pencilan.

2. Penduga Robust Bagi Mean

Untuk menduga rObust bagi mean, pada data y yang amatannya 100 digunakan metode trimmed mean, sedangkan pada data x yang amatannya 10 digunakan metode winsorized mean. Pada data y1 dan x2 tidak memiliki perbedaan yang signifikan antara rata-rata awal dengan penduga rata-rata robust. Hal ini karena pada data y1 dan x2 tidak memiliki pencilan. Pada data y2 dan x1 terdapat perbedaan antara rata-rata awal dengan penduga rata-rata robust. Hal ini karena pada data y2 dan x1 memiliki pencilan.

3. Penduga Robust Bagi Simpangan Baku

Untuk menduga robust bagi robust bagi simpangan baku, digunakan metode MAD(Median Absolute Deviation). Pada data y2 dan x1 simpangan baku yang tidak dilakukan pendekatan kekar memiliki nilai yang lebih besar karena pada kedua data tersebut memiliki pencilan.

E. Kesimpulan

Pencilan merupakan nilai yang berbeda jauh dengan amatan yang lain. Adanya pencilan dapat memengaruhi penduga ukuran pemusatan data yaitu rata-rata. Berdasarkan data yang telah dianalisis, diketahui bahwa data yang memiliki pencilan memiliki perbedaan antara rata-rata awal dan rata-rata yang dilakukan pendugaan robust. Data yang memiliki pencilan saat dilakukan pendugaan robust bagi simpangan baku, nilai simpangan bakunya menjadi lebih kecil.