Statistika merupakan suatu ilmu yang mempelajari tentang cara – cara pengumpulan data, penyajian data, dan juga analisis dan interpretasi tentang data tersebut. Dalam statistika terdapat beberapa metode pengumpulan data salah satunya adalah statistika deskriptif, Statistika deskriptif sendiri mempunyai arti yaitu suatu metode yang juga berkaitan dengan pengumpulan dan Penyajian suatu data yang diolah sehingga dapat memberikan informasi yang barguna dan dapat digunakan untuk keperluan tertentu.
Pada statistika deskriptif terdapat penyebaran dan pemusatan data, penyebaran data terdiri dari [Jangkauan, Simpangan Baku, Jangkauan, Standar Deviasi] dan pemusatan data terdiri dari [Mean, Median, Modus].
Disini akan dianalisis data cars yang ada di package kntir yang berisi dua variabel, yaitu variabel dist dan variabel speed dengan 50 observasion, jika ingin menggunakan data yang lainnya bisa menginstall package terlebih dahulu dimana didalam package tersebut terdapat data yang ingin kita gunakan, directory package bisa dilihat pada laman “https://vincentarelbundock.github.io/Rdatasets/datasets.html”, mari kita lakukan analisisnya.
Dalam pemrosesan data ini kita memanggil data dari package yang sudah kita install dan melihat struktur dari data yang ingin kita gunakan
#load package
library(knitr)
#melihat data
df <- cars #mengubah nama dari data agar lebih mudah dalam menganalisis
View(df) #melihat data keseluruhan
head(df) #melihat data teratas (6 data)
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10
tail(df) #melihat data terbawah (6 data)
## speed dist
## 45 23 54
## 46 24 70
## 47 24 92
## 48 24 93
## 49 24 120
## 50 25 85
#melihat struktur data
str(df)
## 'data.frame': 50 obs. of 2 variables:
## $ speed: num 4 4 7 7 8 9 10 10 10 11 ...
## $ dist : num 2 10 4 22 16 10 18 26 34 17 ...
dim(df)
## [1] 50 2
Pada tahap ini, kita melihat ukuran penyebaran dan pemusatand dari data yang telah kita lihat strukturnya tadi,
#mean
mean(df$speed)
## [1] 15.4
mean(df$dist)
## [1] 42.98
# Modus, membuat fungsi
getmode <- function(df) {
uniqv <- unique(df)
uniqv[which.max(tabulate(match(df, uniqv)))]
}
modspeed = getmode(df$speed)
print(modspeed) #modus dari variabel speed
## [1] 20
modspeed = getmode(df$dist)
print(modspeed) #modus dari variabel dist
## [1] 26
#Median
quantile(df$speed, probs = seq(0.50, 0))
## 50%
## 15
quantile(df$dist, probs = seq(0.50, 0))
## 50%
## 36
#max
max(df$speed)
## [1] 25
max(df$dist)
## [1] 120
#min
min(df$speed)
## [1] 4
min(df$dist)
## [1] 2
#Jangkauan
max(df$speed) - min(df$speed)
## [1] 21
max(df$dist) - min (df$dist)
## [1] 118
#Kuartil
quantile(df$speed)
## 0% 25% 50% 75% 100%
## 4 12 15 19 25
quantile(df$dist)
## 0% 25% 50% 75% 100%
## 2 26 36 56 120
#Standar Deviasi
sd(df$speed)
## [1] 5.287644
sd(df$dist)
## [1] 25.76938
#simpangan kuartil
Qs3 = quantile(df$speed, probs = seq(0.75, 0))
Qs1 = quantile(df$speed, probs = seq(0.25, 0))
sk = 0.5*(Qs3-Qs1)
print(sk)
## 75%
## 3.5
Qd3 = quantile(df$dist, probs = seq(0.75, 0))
Qd1 = quantile(df$dist, probs = seq(0.25, 0))
sk1 = 0.5*(Qd3-Qd1)
print(sk1)
## 75%
## 15
Dapat dilihat bahwa hasil analisis diatas banyak sytaxnya dan memakan waktu yang cukup lama. R sendiri mempunyai library psych dan base dimana kita bisa melihat keseluruhan hasil output diatas secara cepat dan menyingkat waktu, mari kita lihat gunakan
#install package dan import library
library(psych)
## Warning: package 'psych' was built under R version 3.6.3
#rangkuman analisis deskriptif
summary(df)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
describe(df)
## vars n mean sd median trimmed mad min max range skew
## speed 1 50 15.40 5.29 15 15.47 5.93 4 25 21 -0.11
## dist 2 50 42.98 25.77 36 40.88 23.72 2 120 118 0.76
## kurtosis se
## speed -0.67 0.75
## dist 0.12 3.64
Dari hasil output diatas kita dapat melihat secara cepat ukuran pemusatan dan penyebaran data di r menggunakan library psych dan base tanpa harus menganalisisnya satu persatu. Kita bisa menggunakan keduanya atau bisa menggunakan salah satunya untuk menganalisis data.
Fauzziyah, R.2020. Ukuran Pemusatan dan Penyebaran Data Berkelompok. (online) https://www.kompas.com/skola/read/2020/10/15/175154669/ukuran-pemusatan-dan-penyebaran-data-berkelompok, diakses 9 Januari 2021. Rahmam, A .2019. Statistik Deskriptif – Pengertian, Materi, Jenis – Jenis, Contoh Soal. (online) https://rumus.co.id/statistik-deskriptif/, diakses 9 Januari 2021.