Konsep Statistika

Statistika adalah ilmu yang mempelajari tentang data dan statistik sendiri merupakan sebuah ilmu yang mempelajari teknik-teknik pengumpulan, pengorganisasian, analisis dan interpretasi atau informasi data. Dalam statistik terdapat dua metode statistik yaitu statistika deskriptif dan statistika inferensia.

Statistika Deskriptif

Statistika Deskriptif merupakan ilmu statistika yang digunakan untuk menganalisis data hasil penelitian tetapi tidak untuk mengambil kesimpulan yang lebih luas terhadap ciri-ciri populasi (Nalim & Salafudin, 2012)

Persiapan Data

Dalam analisis kali ini menggunakan data dari Library knitr yaitu Data cars yang berisi variabel speed dan variabel distance. sebelumnya kita harus menginstall librarynya terlebih dahulu:

library(knitr)

Setelah memanggil librarynya, selanjutnya memanggil dan melihat datanya:

df <- cars #mimisalkan data dengan variabel lain
View(df) #melihat keseluruhan dataset
head(df, 10) #melihat 10 data teratas dari dataset
##    speed dist
## 1      4    2
## 2      4   10
## 3      7    4
## 4      7   22
## 5      8   16
## 6      9   10
## 7     10   18
## 8     10   26
## 9     10   34
## 10    11   17
tail(df, 10) #melihat 10 data terbawah dari dataset
##    speed dist
## 41    20   52
## 42    20   56
## 43    20   64
## 44    22   66
## 45    23   54
## 46    24   70
## 47    24   92
## 48    24   93
## 49    24  120
## 50    25   85

Dapat terlihat bahwa dataset mempunyai 2 variabel dengan jumlah observasi sebanyak 50, dan untuk melihat data teratas maupun data terendah dapat dicustom untuk melihat berapa data yang ingin ditampilkan. selanjutnya dapat melihat struktur dari data tersebut dengan menggunakan fungsi str

str(df)
## 'data.frame':    50 obs. of  2 variables:
##  $ speed: num  4 4 7 7 8 9 10 10 10 11 ...
##  $ dist : num  2 10 4 22 16 10 18 26 34 17 ...

Ukuran Pemusatan Data

Setelah melihat datanya dari jumlah data dan struktur data, selanjutnya dapat melihat ukuran pemusatan dari data tersebut.ukuran pemusatan dapat diartikan sebagai ukuran yang dapat melihat bagaimana nilai yang dapat mewakili dari suatu rangkaian data. Adapun istilah lain dari ukuran pemusatan data adalah tendensi sentral. Dalam ukuran pemusatan data terdapat mean, median dan modus.untuk perhitungannya sebagai berikut

Mean

Melihat rata-rata data menggunakan rumus manual yaitu jumlah data dibagi jumlah observasi

sp <- sum(df$speed) #melihat jumlah variabel speed
dist <- sum(df$dist) #melihat jumlah variabel distance
MS <- sp/50
MD <- dist/50
print(MS)
## [1] 15.4
print(MD)
## [1] 42.98

Menggunakan fungsi dari package base R

mean(df$speed)
## [1] 15.4
mean(df$dist)
## [1] 42.98

Modus

Modus merupakan nilai yang sering muncul pada pengamatan suatu data. cara yang pertama adalah cara manual tanpa menggunakan fungsi

# Create the function.
getmode <- function(df) {
   uniqv <- unique(df)
   uniqv[which.max(tabulate(match(df, uniqv)))]
}
# Calculate the mode using the user function.
result1 <- getmode(df$speed)
result2 <- getmode(df$dist)
print(result1)
## [1] 20
print(result2)
## [1] 26

Median

Median adalah nilai tengah dari suatu data

median(df$speed)
## [1] 15
median(df$dist)
## [1] 36

Ukuran Penyebaran Data

Ukuran pemusatan data hanya memberikan informasi terkait nilai pusat dari sebuah distribusi data dan tidak memberikan informasi terkait sebaran data. Nah penyebaran data sendiri disebut juga ukuran dispersi atau ukuran penyimpangan yaitu ukuran yang menggambarkan seberapa jauh suatu data menyimpang dari rata-ratanya (Nalim & Salafudin, 2012)

Mencari nilai jangkauan atau range dari masing - masing variabel, dengan rumus range = max - min.

maxspd <- max(df$speed) #nilai max dari variabel speed
minspd <- min(df$speed) #nilai min dari variabel speed
maxdis <- max(df$dist) #nilai max dari variabel distance
mindis <- min(df$dist) #nilai min dari variabel distance

rangespd <- maxspd-minspd
rangedis <- maxdis-mindis
print(rangespd)
## [1] 21
print(rangedis)
## [1] 118

Selain itu kita bisa langsung menggunakan rumus seperti dibawah ini:

range(df$speed)
## [1]  4 25
range(df$dist)
## [1]   2 120

Selanjutnya mencari nilai quartile dari masing - masing variabel

QS1 <- quantile(df$speed, 0.25) #kuartil pertama dari variabel speed
QS2 <- quantile(df$speed, 0.50) #kuartil kedua dari variabel speed
QS3 <- quantile(df$speed, 0.75) #kuartil ketiga dari variabel speed

JAKS <- QS3 - QS1 #jangkauan antar kuartil pada variabel speed
print(JAKS)
## 75% 
##   7
QD1 <- quantile(df$dist, 0.25) #kuartil pertama dari variabel Distance
QD2 <- quantile(df$dist, 0.50) #kuartil kedua dari variabel Distance
QD3 <- quantile(df$dist, 0.75) #kuartil ketiga dari variabel Distance

JAKD <- QD3 - QD1 #jangkauan antar kuartil pada variabel Distance
print(JAKD)
## 75% 
##  30

Mencari variance dan standar deviasi dari masing-masing variabel

varspeed <- var(df$speed)
vardist <- var(df$dist)
sdspeed <- sd(df$speed)
sddist <- sd(df$dist)

print(varspeed) #variace dari variabel speed
## [1] 27.95918
print(vardist) #variace dari variabel distance
## [1] 664.0608
print(sdspeed) #Standar deviasi dari variabel speed
## [1] 5.287644
print(sddist) #standar deviasi dari variabel distance
## [1] 25.76938

Dari penjelasan diatas, ukuran pemusatan dan penyebaran data dapat dirangkum secara cepat dan lengkpa dengan menggunakan rumus summary dan describe pada library psych seperti dibawah ini:

library(psych)
## Warning: package 'psych' was built under R version 3.6.3
summary(df) #melihat ouput bebarap penyebaran data dan pemusatan data
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00
describe(df)
##       vars  n  mean    sd median trimmed   mad min max range  skew
## speed    1 50 15.40  5.29     15   15.47  5.93   4  25    21 -0.11
## dist     2 50 42.98 25.77     36   40.88 23.72   2 120   118  0.76
##       kurtosis   se
## speed    -0.67 0.75
## dist      0.12 3.64

Sekian dari pembahasan ukuran pemusatan dan penyebaran data, kita dapat mencarinya dengan rumus manual atau menggunakan fungsi summary dan describe untuk melihatnya.

Referensi

Nalim, N., & Salafudin, S. (2012). Statistika Deskriptif. STAIN Pekalongan PRESS