A. STATISTIK DESKRIPTIF

Statistik adalah nilai yang mencirikan contoh atau penduga parameter. Statistik deskriptif merupakan statistika yang digunakan untuk menggambarkan dan menganalisa data dengan menghitung sedikitnya satu statistik contoh. Dengan membangun grafik/tabel atau dengan membandingkan hasil data yang lain. Ukuran pemusatan dan penyebaran termasuk penyajian data secara deskriptif program R menyediakan fungsi untuk menghitung statistik pada packages stats.

1. Mean (Rata-rata)

Mean adalah suatu ukuran pemusatan data yang menggambarkan nilai rata-rata dari seluruh data dalam sebuah kelompok atau sampel. Mean dihitung dengan cara menjumlahkan semua nilai data kemudian membaginya dengan jumlah data tersebut. Mean sering digunakan untuk mengetahui nilai pusat dari sebaran data, terutama jika data tidak memiliki nilai ekstrem (outlier) yang terlalu jauh dari nilai lainnya.

Dalam R, fungsi yang digunakan untuk menghitung rata-rata sampel adalah mean(x). Rumus mean adalah sebagai berikut:

\[ \bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} \]

atau dapat dituliskan:

\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i \]

2. Median

Median adalah nilai tengah dari suatu kumpulan data yang telah diurutkan dari nilai terkecil hingga terbesar. Median membagi data menjadi dua bagian yang sama besar (50% data berada di bawah median dan 50% di atas median). Median sangat berguna apabila data memiliki pencilan (outlier), karena median tidak terpengaruh oleh nilai ekstrem. Dalam R fungsi yang digunakan untuk mencari nilai tengah (median) sampel dengan menggunakan fungsi median()

jika jumlah data yang digunakan adalah data genap, dapat menggunakan rumus: \[ Me = \frac{X_{\frac{n}{2}} + X_{\left(\frac{n}{2}+1\right)}}{2} \]

sedangkan jika jumlah data yang digunakan adalah data ganjil, dapat menggunakan rumus: \[ Me = X_{\frac{n+1}{2}} \]

Keterangan:

\(Me\) = Median

\(n\) = Banyak data

\(X_i\) = Data ke-i setelah diurutkan

3. Nilai Minimum dan Maksimum

Nilai minimum adalah nilai paling kecil dalam suatu kumpulan data setelah data tersebut diurutkan dari yang terkecil hingga terbesar. Sedangkan nilai maksimum adalah nilai paling besar dalam kumpulan data tersebut. Dalam R fungsi yang digunakan untuk mencari nilai minimum dan maksimum suatu data, yaitu dengan menggunakan perintah min() dan max().

Secara matematis dapat dituliskan:

\[ \text{Minimum} = \min(X_1, X_2, \ldots, X_n) \]

\[ \text{Maksimum} = \max(X_1, X_2, \ldots, X_n) \]

Keterangan:

\(X_1, X_2, \ldots, X_n\) adalah data dalam suatu himpunan data

\(\min\) menyatakan operasi pemilihan nilai terkecil

\(\max\) menyatakan operasi pemilihan nilai terbesar

4. Ringkasan (Summary)

Perhitungan ringkasan deskriptif dari data secara umum ada dua macam, yaitu data metrik (skala interval atau rasio) dan data non metrik (skala nominal atau ordinal. R menyediakan dua macam cara untuk menampilkan ringkasan numerik dari variabel-variabel yang ada pada data, yaitu menampilkan ringkasan numerik dari semua variabel yang ada, dan menampilkan ringkasan numerik hanya dari variabel tertentu saja. Pada data metrik, ringkasan numerik akan menampilkan beberapa besaran statistik yaitu Mean, Min, Max, Kuartil 1, Median dan Kuartil 3. Sedangkan pada data nonmetrik ringkasan numerik hanya menampilkan jumlah atau frekuensi pada masing-masing kategori yang ada. Berikut contoh data hasil summary:

x <- c(12, 15, 18, 20, 22, 25, 27, 30, 33, 35, 38, 40, 42, 45, 48)
y <- c(5, 7, 9, 10, 12, 14, 16, 18, 19, 21, 22, 25, 27, 29, 31)
summary(x)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      12      21      30      30      39      48
summary(y)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.00   11.00   18.00   17.67   23.50   31.00
data_frame_xy <- data.frame(X = x, Y = y)
summary(data_frame_xy)
##        X            Y        
##  Min.   :12   Min.   : 5.00  
##  1st Qu.:21   1st Qu.:11.00  
##  Median :30   Median :18.00  
##  Mean   :30   Mean   :17.67  
##  3rd Qu.:39   3rd Qu.:23.50  
##  Max.   :48   Max.   :31.00

5. Ragam dan Simpangan baku

Ragam adalah ukuran penyebaran dengan menggunakan rataan terbobot dari kuadrat jarak setiap nilai data terhadap pusat data tersebut. Rumus varian:

\[ s^2 = \frac{ \sum_{i=1}^{n} x_i^2 - \frac{ \left( \sum_{i=1}^{n} x_i \right)^2 }{n} } {n-1} = \frac{ \sum_{i=1}^{n} (x_i - \bar{x})^2 } {n-1} \]

Simpangan baku:

\[ s = \pm \sqrt{ \frac{ \sum_{i=1}^{n} x_i^2 - \frac{ \left( \sum_{i=1}^{n} x_i \right)^2 }{n} } {n-1} } = \pm \sqrt{ \frac{ \sum_{i=1}^{n} (x_i - \bar{x})^2 } {n-1} } \]

6. Ukuran Kemiringan (skewness)

Ukuran kemiringan merupakan suatu nilai yang digunakan untuk mengukur kesimetrisan sebaran data. suatu dikatakan simetris jika nilai rata-rata, median dan modus nya berada pada satu nilai yang sama. Berikut rumusnya:

\[ \alpha_3 = \frac{1}{n} \frac{\sum (X - \bar{X})^3}{S^3} \]

Jika kemiringan < 0 (bernilai negatif) maka data memiliki sebaran seperti gambar dibawah ini.

Jika kemiringan mendekati nol atau sama dengan nol maka sebaran data seperti gambar dibawah ini.

Jika kemiringan > 0 (bernilai positif) maka data memiliki sebaran seperti gambar dibawah ini.

7. Ukuran Keruncingan (Kurtosis)

Ukuran keruncingan atau kurtosis merupakan suatu nilai yang digunakan untuk mengukur tingkat keruncingan atau ketinggian puncak sebaran data. Dengan rumus perhitungan sebagai berikut:

\[ \alpha_4 = \frac{1}{2} \frac{\sum (X - \bar{X})^4}{S^4} \]

Tingkat keruncingan suatu kurva (kurtosis) memiliki 3 jenis, yaitu:

  1. Leptokurtis (puncak relative tinggi)

  2. Mesokurtis (puncak normal)

  3. Platikurtis (puncak relative rendah)

B. FUNGSI DISTRIBUSI

Fungsi distribusi merupakan salah satu bahasan penting dalam statistika, terutama dalam analisis data. Fungsi distribusi merupakan salah satu alat pendekatan distribusi suatu data. Fungsi distribusi juga berperan dalam menentukan densitas suatu fungsi data.

Software R mempunyai koleksi fungsi distribusi standar yang lengkap, yang tersedia dalam paket program R dan dapat ditambah dengan mendownload dalam bentuk paket dari situs R.

Fungsi distribusi di R disediakan untuk memfasilitasi fungsi distribusi kumulatif (Cummulative Distributive Function (CDF)) \(P(X = x)\), fungsi probabilitas densitas (Probability Density Function (PDF)), dan fungsi kuantil (diberikan \(q\), \(x\) lebih kecil sedemikian hingga \(P(X = x) > q\)).

Berikut adalah tabel distribusi di R.

Tabel 3.1 Jenis Fungsi Distribusi dalam R
Nama Distribusi Nama Fungsi di R Argument Tambahan
Beta beta shape1, shape2, ncP
Binomial binom size, prob
Cauchy cauchy location, scale
Chi-squared chisq df, ncp
Exponential exp rate
F f df1, df2, ncp
Gamma gamma shape, scale
Geometric geom prob
Hypergeometric hyper m, n, k
Log-normal lnorm meanlog, sdlog
Logistic logis location, scale
Binomial Negative nbinom size, prob
Normal norm mean, sd
Poisson pois lambda
t-Student’s t df, ncp
Uniform unif min, max
Weibull weibull shape, scale
Wilcoxon wilcox m, n

C. PROGRAM R

1. Menggunakan fungsi pada package stats


``` r
data <- c(11.0, 16.2, 7.2, 1.3, 8.3, 10.0, 11.0, 6.2, 7.2, 1.2, 9.3)

mean(data)
## [1] 8.081818
median(data)
## [1] 8.3
min(data)
## [1] 1.2
max(data)
## [1] 16.2
summary(data)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.200   6.700   8.300   8.082  10.500  16.200
####Ragam
var(data)
## [1] 18.65964
####Simpangan baku
simpbaku <- sqrt(var(data))

library(moments)
skewness(data)
## [1] -0.06800807
kurtosis(data)
## [1] 2.804247

2. Membuat fungsi untuk melakukan analisis deskriptif


``` r
terkecil <- function(x) {
  terurut <- sort(x)
  terurut[1]
}

terbesar <- function(x) {
  terurut <- sort(x)
  terurut[length(x)]
}

ragam <- function(x) {
  rerata <- mean(x)
  selisih <- x - rerata
  kuadratselisih <- selisih^2
  total <- sum(kuadratselisih)
  total / (length(x) - 1)
}

#### Memanggil fungsi agar ada output
terkecil(data)
## [1] 1.2
terbesar(data)
## [1] 16.2
ragam(data)
## [1] 18.65964

3. Menggunakan fungsi distribusi

#### a. Binomial
dbinom(x = 4, size = 6, prob = 0.5)
## [1] 0.234375
pbinom(4, 6, 0.5)
## [1] 0.890625
qbinom(0.89, 6, 0.5)
## [1] 4
rbinom(10, 6, 0.5)
##  [1] 2 3 2 4 2 5 3 3 2 4

b. Normal

dnorm(0.5, mean = 0, sd = 1)
## [1] 0.3520653
pnorm(0.5, mean = 0, sd = 1)
## [1] 0.6914625
qnorm(0.5, mean = 0, sd = 1)
## [1] 0
rnorm(10, mean = 0, sd = 1)
##  [1]  2.2704124  0.6481448  0.5489752  1.0989918 -0.4918696 -0.3188872
##  [7]  0.6752673 -0.2005955 -0.3386650 -0.7961761

c. T-student

dt(0.5, df = 10)
## [1] 0.3396951
pt(0.5, df = 10)
## [1] 0.6860532
qt(0.5, df = 10)
## [1] 0
rt(10, df = 10)
##  [1] -0.81775532 -0.37291442 -0.90183031 -0.01467529 -1.22812714 -0.90812954
##  [7]  2.11269250 -1.76451193 -0.72387514 -1.55550779