STATISTIK DESKRIPTIF DAN FUNGSI DISTRIBUSI DENGAN PROGRAM R

A. STATISTIK DESKRIPTIF

Statistik adalah nilai yang mencirikan contoh atau penduga parameter. Statistik deskriptif merupakan statistika yang digunakan untuk menggambarkan dan menganalisa data dengan menghitung sedikitnya satu statistik contoh. Dengan membangun grafik/tabel atau dengan membandingkan hasil data yang lain. Ukuran pemusatan dan penyebaran termasuk penyajian data secara deskriptif program R menyediakan fungsi untuk menghitung statistik pada packages stats.

1. Mean (Rata-rata)

Mean adalah suatu ukuran pemusatan data yang menggambarkan nilai rata-rata dari seluruh data dalam sebuah kelompok atau sampel. Mean dihitung dengan cara menjumlahkan semua nilai data kemudian membaginya dengan jumlah data tersebut. Mean sering digunakan untuk mengetahui nilai pusat dari sebaran data, terutama jika data tidak memiliki nilai ekstrem (outlier) yang terlalu jauh dari nilai lainnya.

Dalam R, fungsi yang digunakan untuk menghitung rata-rata sampel adalah mean(x). Rumus mean adalah sebagai berikut:

\[ \bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} \]

atau dapat dituliskan:

\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i \]

2. Median

Median adalah nilai tengah dari suatu kumpulan data yang telah diurutkan dari nilai terkecil hingga terbesar. Median membagi data menjadi dua bagian yang sama besar (50% data berada di bawah median dan 50% di atas median). Median sangat berguna apabila data memiliki pencilan (outlier), karena median tidak terpengaruh oleh nilai ekstrem. Dalam R fungsi yang digunakan untuk mencari nilai tengah (median) sampel dengan menggunakan fungsi median()

jika jumlah data yang digunakan adalah data genap, dapat menggunakan rumus: \[ Me = \frac{X_{\frac{n}{2}} + X_{\left(\frac{n}{2}+1\right)}}{2} \]

sedangkan jika jumlah data yang digunakan adalah data ganjil, dapat menggunakan rumus: \[ Me = X_{\frac{n+1}{2}} \]

Keterangan:

\(Me\) = Median

\(n\) = Banyak data

\(X_i\) = Data ke-i setelah diurutkan

3. Nilai Minimum dan Maksimum

Nilai minimum adalah nilai paling kecil dalam suatu kumpulan data setelah data tersebut diurutkan dari yang terkecil hingga terbesar. Sedangkan nilai maksimum adalah nilai paling besar dalam kumpulan data tersebut. Dalam R fungsi yang digunakan untuk mencari nilai minimum dan maksimum suatu data, yaitu dengan menggunakan perintah min() dan max().

Secara matematis dapat dituliskan:

\[ \text{Minimum} = \min(X_1, X_2, \ldots, X_n) \]

\[ \text{Maksimum} = \max(X_1, X_2, \ldots, X_n) \]

Keterangan:

\(X_1, X_2, \ldots, X_n\) adalah data dalam suatu himpunan data

\(\min\) menyatakan operasi pemilihan nilai terkecil

\(\max\) menyatakan operasi pemilihan nilai terbesar

4. Ringkasan (Summary)

Perhitungan ringkasan deskriptif dari data secara umum ada dua macam, yaitu data metrik (skala interval atau rasio) dan data non metrik (skala nominal atau ordinal. R menyediakan dua macam cara untuk menampilkan ringkasan numerik dari variabel-variabel yang ada pada data, yaitu menampilkan ringkasan numerik dari semua variabel yang ada, dan menampilkan ringkasan numerik hanya dari variabel tertentu saja. Pada data metrik, ringkasan numerik akan menampilkan beberapa besaran statistik yaitu Mean, Min, Max, Kuartil 1, Median dan Kuartil 3. Sedangkan pada data nonmetrik ringkasan numerik hanya menampilkan jumlah atau frekuensi pada masing-masing kategori yang ada. Berikut contoh data hasil summary:

x <- c(12, 15, 18, 20, 22, 25, 27, 30, 33, 35, 38, 40, 42, 45, 48)
y <- c(5, 7, 9, 10, 12, 14, 16, 18, 19, 21, 22, 25, 27, 29, 31)

summary(x)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      12      21      30      30      39      48

summary(y)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.00   11.00   18.00   17.67   23.50   31.00

data_frame_xy <- data.frame(X = x, Y = y)
summary(data_frame_xy)

##        X            Y        
##  Min.   :12   Min.   : 5.00  
##  1st Qu.:21   1st Qu.:11.00  
##  Median :30   Median :18.00  
##  Mean   :30   Mean   :17.67  
##  3rd Qu.:39   3rd Qu.:23.50  
##  Max.   :48   Max.   :31.00

5. Ragam dan Simpangan baku

Ragam adalah ukuran penyebaran dengan menggunakan rataan terbobot dari kuadrat jarak setiap nilai data terhadap pusat data tersebut. Rumus varian:

\[ s^2 = \frac{ \sum_{i=1}^{n} x_i^2 - \frac{ \left( \sum_{i=1}^{n} x_i \right)^2 }{n} } {n-1} = \frac{ \sum_{i=1}^{n} (x_i - \bar{x})^2 } {n-1} \]

Simpangan baku:

\[ s = \pm \sqrt{ \frac{ \sum_{i=1}^{n} x_i^2 - \frac{ \left( \sum_{i=1}^{n} x_i \right)^2 }{n} } {n-1} } = \pm \sqrt{ \frac{ \sum_{i=1}^{n} (x_i - \bar{x})^2 } {n-1} } \]

6. Ukuran Kemiringan (skewness)

Ukuran kemiringan merupakan suatu nilai yang digunakan untuk mengukur kesimetrisan sebaran data. suatu dikatakan simetris jika nilai rata-rata, median dan modus nya berada pada satu nilai yang sama. Berikut rumusnya:

\[ \alpha_3 = \frac{1}{n} \frac{\sum (X - \bar{X})^3}{S^3} \]

Jika kemiringan < 0 (bernilai negatif) maka data memiliki sebaran seperti gambar dibawah ini.

Jika kemiringan mendekati nol atau sama dengan nol maka sebaran data seperti gambar dibawah ini.

Jika kemiringan > 0 (bernilai positif) maka data memiliki sebaran seperti gambar dibawah ini.

7. Ukuran Keruncingan (Kurtosis)

Ukuran keruncingan atau kurtosis merupakan suatu nilai yang digunakan untuk mengukur tingkat keruncingan atau ketinggian puncak sebaran data. Dengan rumus perhitungan sebagai berikut:

\[ \alpha_4 = \frac{1}{2} \frac{\sum (X - \bar{X})^4}{S^4} \]

Tingkat keruncingan suatu kurva (kurtosis) memiliki 3 jenis, yaitu:

Leptokurtis (puncak relative tinggi)
Mesokurtis (puncak normal)
Platikurtis (puncak relative rendah)

B. FUNGSI DISTRIBUSI

Fungsi distribusi merupakan salah satu bahasan penting dalam statistika, terutama dalam analisis data. Fungsi distribusi merupakan salah satu alat pendekatan distribusi suatu data. Fungsi distribusi juga berperan dalam menentukan densitas suatu fungsi data.

Software R mempunyai koleksi fungsi distribusi standar yang lengkap, yang tersedia dalam paket program R dan dapat ditambah dengan mendownload dalam bentuk paket dari situs R.

Fungsi distribusi di R disediakan untuk memfasilitasi fungsi distribusi kumulatif (Cummulative Distributive Function (CDF)) \(P(X = x)\), fungsi probabilitas densitas (Probability Density Function (PDF)), dan fungsi kuantil (diberikan \(q\), \(x\) lebih kecil sedemikian hingga \(P(X = x) > q\)).

Berikut adalah tabel distribusi di R.

Tabel 3.1 Jenis Fungsi Distribusi dalam R

Nama Distribusi	Nama Fungsi di R	Argument Tambahan
Beta	beta	shape1, shape2, ncP
Binomial	binom	size, prob
Cauchy	cauchy	location, scale
Chi-squared	chisq	df, ncp
Exponential	exp	rate
F	f	df1, df2, ncp
Gamma	gamma	shape, scale
Geometric	geom	prob
Hypergeometric	hyper	m, n, k
Log-normal	lnorm	meanlog, sdlog
Logistic	logis	location, scale
Binomial Negative	nbinom	size, prob
Normal	norm	mean, sd
Poisson	pois	lambda
t-Student’s	t	df, ncp
Uniform	unif	min, max
Weibull	weibull	shape, scale
Wilcoxon	wilcox	m, n

C. PROGRAM R

1. Menggunakan fungsi pada package stats


``` r
data <- c(11.0, 16.2, 7.2, 1.3, 8.3, 10.0, 11.0, 6.2, 7.2, 1.2, 9.3)

mean(data)

## [1] 8.081818

median(data)

## [1] 8.3

min(data)

## [1] 1.2

max(data)

## [1] 16.2

summary(data)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.200   6.700   8.300   8.082  10.500  16.200

####Ragam
var(data)

## [1] 18.65964

####Simpangan baku
simpbaku <- sqrt(var(data))

library(moments)
skewness(data)

## [1] -0.06800807

kurtosis(data)

## [1] 2.804247

2. Membuat fungsi untuk melakukan analisis deskriptif


``` r
terkecil <- function(x) {
  terurut <- sort(x)
  terurut[1]
}

terbesar <- function(x) {
  terurut <- sort(x)
  terurut[length(x)]
}

ragam <- function(x) {
  rerata <- mean(x)
  selisih <- x - rerata
  kuadratselisih <- selisih^2
  total <- sum(kuadratselisih)
  total / (length(x) - 1)
}

#### Memanggil fungsi agar ada output
terkecil(data)

## [1] 1.2

terbesar(data)

## [1] 16.2

ragam(data)

## [1] 18.65964

3. Menggunakan fungsi distribusi

#### a. Binomial

dbinom(x = 4, size = 6, prob = 0.5)

## [1] 0.234375

pbinom(4, 6, 0.5)

## [1] 0.890625

qbinom(0.89, 6, 0.5)

## [1] 4

rbinom(10, 6, 0.5)

##  [1] 2 3 2 4 2 5 3 3 2 4

b. Normal

dnorm(0.5, mean = 0, sd = 1)

## [1] 0.3520653

pnorm(0.5, mean = 0, sd = 1)

## [1] 0.6914625

qnorm(0.5, mean = 0, sd = 1)

## [1] 0

rnorm(10, mean = 0, sd = 1)

##  [1]  2.2704124  0.6481448  0.5489752  1.0989918 -0.4918696 -0.3188872
##  [7]  0.6752673 -0.2005955 -0.3386650 -0.7961761

c. T-student

dt(0.5, df = 10)

## [1] 0.3396951

pt(0.5, df = 10)

## [1] 0.6860532

qt(0.5, df = 10)

## [1] 0

rt(10, df = 10)

##  [1] -0.81775532 -0.37291442 -0.90183031 -0.01467529 -1.22812714 -0.90812954
##  [7]  2.11269250 -1.76451193 -0.72387514 -1.55550779