Nur Imam Masri

Dasar-dasar Statistik

Pendahuluan

Statistika adalah ilmu yang mempelajari cara pengumpulan data, menganalisis data untuk mendapatkan kesimpulan informasi sampai dapat dijadikan dasar pembuatan kebijakan. Definisi diatas mirip dengan tugas dari seorang Data Science yaitu mulai dari ekplorasi data, modelling untuk mendapatakan pola yang tersembunyi dari data kemudian menemukan Insight untuk dasar kebijakan (data-driven).

Kenapa harus belajar statistik ?

Ilmu Statistik fungsinya untuk mengolah data, yang bisa angka maupun bukan angka. Statistik merupakan pondasi awal sebelum belajar Data Science. Alasannya, banyak tools data science merupakan pengembangan dari teknik statistik, mulai dari sederhana sampai yang rumit.

Short cut

Tools > Keyboard Shortcuts Help (Alt + Shift + K)

Shortcut 1

  • Control/Ctrl + 1: Source editor (your script)
  • Control/Ctrl + 2: Console
  • Control/Ctrl + 3: Help
  • Control/Ctrl + 4: History
  • Control/Ctrl + 5: Files
  • Control/Ctrl + 6: Plots
  • Control/Ctrl + 7: Packages
  • Control/Ctrl + 8: Environment
  • Control/Ctrl + 9: Viewer

Shortcut 2

  • <- (Alt + - )
  • %<% (Ctrl + Shift + M)

Shortcut 3

  • Comment or uncomment lines (Control + Shift + C)
  • Move Lines Up/Down (Alt+Up/Down)
  • Delete Line (Ctrl+D)
  • Select (Shift+[Arrow])
  • Select Word (Ctrl+Shift+Left/Right)
  • Select to Line Start (Alt+Shift+Left)
  • Select to Line End (Alt+Shift+Right)

Shortcut 4

  • Run current line (Control + Enter)
  • Run current line (retain cursor position) (Alt+Enter)
  • Run all lines of code (Control + A + Enter)

Shortcut 5

  • Clear Console (Ctrl+L)
  • Restart the current R session (Control + Shift + F10)
  • Search the command history from the Console (Control + [up arrow])

Shortcut 6

  • Quickly Find Files and Functions (control/ctrl + .)
  • Open Files (Ctrl+O)
  • New File R Script (Ctrl+Shift+N)

R Markdown

  • Insert R chunk (Ctrl+Alt+I)
  • Open html/Preview (Alt + Shift + K)
  • Run selected line(s) (Ctrl+Enter)
  • Run Current Chunk (Ctrl+Shift+Enter)
  • Run Next Chunk (Ctrl+Alt+N)
  • Run All (Ctrl+Alt+R)
  • Run Above Chunk (Ctrl+Alt+Shift+P)
  • Reformat Section (Ctrl + Shift + A)

Statistik sebagai Ilmu Peluang

Sebenarnya statistik merupakan ilmu peluang, yaitu untuk mendapatkan generalisasi populasi dari sampel yang kita miliki. Dalam statistik banyak kaitannya dengan sampel dan populasi, berikut pengertiannya

  • Sampel adalah representasi dari sebagian elemen dari populasi
  • Populasi adalah total dari semua elemen

Gambaran diatas dapat menjelaskan fungsi dari statistik, yaitu kita dapat mengetahui karakteristik dari populasi melalui sampel yang kita miliki.

Kemudian untuk mengukur karakteristik dari sampel dan populasi, dengan melihat nilai statistik dan parameter. Untuk lebih jelasnya dapat dilihat pengertian berikut

Perbedaan antara statistik dan parameter adalah sebagai berikut:

  • Statistik adalah nilai estimasi karateristik populasi.
  • Parameter adalah nilai karakteristik populasi atau bisa disebut karakteristik sebenarnya.

Statistik lebih banyak di cari nilainya daripada parameter, alasannya adalah lebih menghemat biaya, waktu dan tenaga. Selain itu, pengambilan sampel sebenarnya sudah dapat mewakili populasi.

Dan secara praktis, kita tidak mungkin melakukan pengambilan populasi karena dapat bersifat merusak. Contoh: pengambilan sampel dari produksi seluruh bola lampu untuk menguji kandungan di dalamnya. Atau pengambilan seluruh populasi udang dari suatu tambak.

Nilai estimasi didapatkan dari data kuantitatif dan kualitatif.

Data Kuantitatif dan Kualitatif

Data Kuantitatif dan Kualitatif Kuantitatif dan Kualitatif

  • Kuantitatif adalah data yang dinyatakan dalam bentuk angka
  • Kualitatif adalah data yang dinyatakan dalam bentuk bukan angka

Selanjutnya bagaimana untuk mendapatkan nilai karakteristik dari data kuantitatif dan kualitatif, jawabannya yaitu kita harus menggolongkan kedalam skala pengukuran data.

Kenapa harus dilakukan?

Agar data mudah untuk diolah sehingga mendapatkan nilai statistik.

Skala Pengukuran Data

Tiap data perlu suatu standar untuk melakukan pengukuran, ini disebut skala.

Dan berikut adalah jenis-jenis skala pengukuran data:

  • Nominal: adalah skala yang diberikan hanya sebagai label saja, tidak mengandung pengertian tingkatan.

    Contoh: Jika pria =1 dan wanita = 2, artinya disini 1 dan 2 adalah nominal yang mewakili pria dan wanita. Disini nilai 2 tidak lebih besar dari nilai 1.

  • Ordinal: adalah skala yang mengandung pengertian tingkatan.

    Contoh: Data kepuasan, 1 = tidak puas, 2 = puas, dan 3 = sangat puas, artinya 1<2<3.

  • Interval: adalah skala yang mempunyai sifat ordinal dan mengandung jarak(interval).

    Misalnya: harga pakaian merk A 100 ribu, harga pakaian merk C 200 ribu, artinya harga pakian merk A dan C memiliki interval 100 ribu

  • Rasio: adalah skala yang mempunyai sifat nominal, ordinal, dan interval, serta mempunyai nilai rasio antar objek yang diukur.

    Contoh: harga pakaian merk A 100 ribu, harga pakaian merk C 200 ribu. Rasio harga pakaian A dengan pakaian C adalah ½. Sehingga dapat dikatakan bahwa harga pakaian C harganya 2 kali pakaian A.

Dari penjelasan diatas dapat kita simpulkan bahwa data kualitatif dapat kita golongkan menjadi skala nominal dan ordinal. Sedangkan untuk data kuantitatif maka digolongkan menjadi Interval dan Rasio. Skala pengukuran nominal dan ordinal pada R di definisikan sebagai factor atau sering disebut data kategorik sedangkan interval dan rasio di definisikan sebagai numerik.

Dataset Tingkat Kepuasan Pelanggan

Dataset yang akan di pakai dalam course ini adalah data tentang kepuasan konsumen terhadap suatu produk pakaian. Dataset ini ada dalam file bentuk format file CSV dengan nama

https://storage.googleapis.com/dqlab-dataset/data_intro.csv

Data ini juga dilengkapi karakteristik umum dari konsumen.

Dataset tersebut terdiri dari sembilan kolom dengan detail berikut:

  • ID Pelanggan: Kode pelanggan yang sifatnya unik, tidak ada data lain dengan kode yang sama. Kode ini dalam bentuk yang sangat sederhana berupa angka integer (bilangan bulat).
  • Nama: Nama pelanggan dalam bentuk teks
  • Jenis Kelamin: Jenis kelamin dari pelanggan, dalam bentuk angka integer. Disini 1 mewakili laki-laki dan 2 mewakili perempuan.
  • Pendapatan: Nilai pendapatan per bulan dari tiap pelanggan (??).
  • Produk: Produk yang disurvei.
  • Harga: Harga produk yang dibeli.
  • Jumlah: Jumlah produk yang dibeli.
  • Total: Total harga pembelian.
  • Tingkat Kepuasan: Indeks tingkat kepuasan pelanggan tersebut terhadap produk yang dibeli.

Membaca Dataset dengan read.csv

Untuk membaca dataset data_intro.csv tersebut kita akan gunakan function read.csv dengan konstruksi berikut:

#Membaca dataset dengan read.csv dan dimasukkan ke variable data_intro
data_intro <- read.csv("https://storage.googleapis.com/dqlab-dataset/data_intro.csv", sep=";")
data_intro

sep = Parameter pemisah (separator) antar kolom data. Kita gunakan tanda titik koma untuk dataset tingkat kepuasan pelanggan.

Melihat Tipe Data dengan Str

Adalah praktek yang sangat baik untuk mengenal atau melakukan profile tiap dataset yang sudah dibaca ke dalam R – dan secara sederhana di R dapat kita lakukan dengan function str.

Function str akan menyajikan informasi tiap kolom dataset dalam format yang compact – satu baris informasi saja per row. Pendekatan singkat dan jelas ini membuat str menjadi function favorit dan efektif untuk mengenal data di tahap awal.

#Membaca dataset dengan read.csv dan dimasukkan ke variable data_intro
data_intro <- read.csv("https://storage.googleapis.com/dqlab-dataset/data_intro.csv",sep=";")
str(data_intro)
## 'data.frame':    20 obs. of  9 variables:
##  $ ID.Pelanggan    : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Nama            : chr  "Arif" "Dian" "Dinda" "Fajar" ...
##  $ Jenis.Kelamin   : int  1 2 2 1 2 1 1 2 2 2 ...
##  $ Pendapatan      : int  600000 1200000 950000 400000 1200000 800000 950000 1100000 800000 1700000 ...
##  $ Produk          : chr  "A" "D" "D" "A" ...
##  $ Harga           : int  100000 250000 250000 100000 250000 150000 150000 300000 300000 300000 ...
##  $ Jumlah          : int  4 4 3 2 4 4 5 3 2 5 ...
##  $ Total           : int  400000 1000000 750000 200000 1000000 600000 750000 900000 600000 1500000 ...
##  $ Tingkat.Kepuasan: int  2 2 3 3 2 3 1 3 1 1 ...

Untuk baris di bawahnya adalah penjelasan dari tiap kolom/variabel data yang terdiri dari:

  • $ -> simbol subscript (accessor)
  • Nama kolom / Variable
  • Tipe data kolom
  • Isi dari kolom tersebut
  • Jika Factor maka ada tambahan indeksnya
    • : Factor w/ 20 levels “Arif”, “Dian”, ..: 1 2 3 4 5 6 7 8 9 10 ..

Mengubah Tipe Data Kolom ID.Pelanggan menjadi Character

Variabel ID.Pelanggan merupakan kode unik dari setiap variabel dan tidak bisa dicari nilai statistiknya. Sehingga tipe data ID.Pelanggan perlu diubah menjadi character agar tidak ikut di analisis.

Untuk mengubah tipe data ID.Pelanggan menjadi character dapat menggunakan syntax :

data_intro$ID.Pelanggan <-as.character(data_intro$ID.Pelanggan)

Function as.character mengubah id tiap pelanggan menjadi string/character - ditandai dengan tanda petik diantara kode unik tersebut.

## mengubah data menjadi karakter karena tidak dilakukan analisis statistik pada variabel ID Pelanggan dan nama
data_intro$ID.Pelanggan <- as.character(data_intro$ID.Pelanggan)
data_intro$Nama <- as.character(data_intro$Nama)
## melihat apakah sudah berhasil dalam mengubah variabel tersebut
str(data_intro$ID.Pelanggan)
##  chr [1:20] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" ...
str(data_intro$Nama)
##  chr [1:20] "Arif" "Dian" "Dinda" "Fajar" "Ika" "Ilham" "Indra" "Kartika" ...

Mengubah Sejumlah Kolom menjadi Data Kategorik (Factor)

Pada data_intro beberapa variabelnya bersifat kualitatif yaitu variabel jenis kelamin, produk, dan Tingkat_Kepuasan. Variabel tersebut harus di ubah jenis datanya menjadi faktor untuk mendapatkan karakteristik dari setiap pelanggan (observasi).

Untuk mengubah tipe data menjadi factor dapat menggunakan syntax berikut:

## Mengubah data menjadi factor untuk membedakan data kualitatif dengan menggunakan functon as.factor
data_intro$Jenis.Kelamin <- as.factor(data_intro$Jenis.Kelamin)

data_intro$Produk <- as.factor(data_intro$Produk)

data_intro$Tingkat.Kepuasan <- as.factor(data_intro$Tingkat.Kepuasan)
## Melihat apakah sudah berhasil dalam mengubah variabel tersebut dengan menggunakan function str
str(data_intro$Jenis.Kelamin)
##  Factor w/ 2 levels "1","2": 1 2 2 1 2 1 1 2 2 2 ...
str(data_intro$Produk)
##  Factor w/ 5 levels "A","B","C","D",..: 1 4 4 1 4 2 2 5 5 5 ...
str(data_intro$Tingkat.Kepuasan)
##  Factor w/ 3 levels "1","2","3": 2 2 3 3 2 3 1 3 1 1 ...

Skala Pengukuran Data

Setelah data diubah jenis tipe datanya, selanjutnya adalah pemeriksaan untuk memastikan apakah tipe data setiap variabel sudah sesuai dengan skala pengukuran masing-masing.

Untuk melihat data dan tipe data dapat menggunakan syntax berikut :

# melihat data/ pemanggilan data
data_intro
# melihat tipe data
str(data_intro)
## 'data.frame':    20 obs. of  9 variables:
##  $ ID.Pelanggan    : chr  "1" "2" "3" "4" ...
##  $ Nama            : chr  "Arif" "Dian" "Dinda" "Fajar" ...
##  $ Jenis.Kelamin   : Factor w/ 2 levels "1","2": 1 2 2 1 2 1 1 2 2 2 ...
##  $ Pendapatan      : int  600000 1200000 950000 400000 1200000 800000 950000 1100000 800000 1700000 ...
##  $ Produk          : Factor w/ 5 levels "A","B","C","D",..: 1 4 4 1 4 2 2 5 5 5 ...
##  $ Harga           : int  100000 250000 250000 100000 250000 150000 150000 300000 300000 300000 ...
##  $ Jumlah          : int  4 4 3 2 4 4 5 3 2 5 ...
##  $ Total           : int  400000 1000000 750000 200000 1000000 600000 750000 900000 600000 1500000 ...
##  $ Tingkat.Kepuasan: Factor w/ 3 levels "1","2","3": 2 2 3 3 2 3 1 3 1 1 ...

Estimasi karakteristik

Ukuran pemusatan (mean, modus, median)

  • Modus adalah nilai yang sering muncul dari suatu distribusi (data nominal-data ordinal).
  • Median adalah nilai tengah dari suatu distribusi (data interval dan rasio).
  • Mean adalah rata-rata aritmatik dari suatu distribusi (data interval dan rasio).

Contoh

Data : 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12

Modus = 9

Median = 9

Mean = 7,81

Estimasi Nilai Statistik Modus

Modus merupakan nilai yang menunjukan nilai yang sering muncul. Modus digunakan untuk data bertipe nominal dan ordinal.

Untuk menampilkan modus dari data dapat menggunakan syntax :

Mode(data_intro$Produk)

Berikut penjelasan function diatas :

  • Mode : akan menampilkan nilai terbanyak pada variabel yang diamati.
  • data_intro$Produk : merupakan kolom Produk dari variabel data_intro.
library(pracma)
## Warning: package 'pracma' was built under R version 4.1.3
## carilah modus untuk kolom Produk pada variable data_intro
Mode(data_intro$Produk)
## [1] "D"
## carilah modus untuk kolom Tingkat.Kepuasan pada variable data_intro
Mode(data_intro$Tingkat.Kepuasan)
## [1] "3"

Estimasi Nilai Statistik Median

Median merupakan nilai tengah dari suatu kumpulan data. median digunakan untuk data bertipe interval dan rasio.

Untuk menampilkan median dari data dapat menggunakan syntax :

median(data_intro$Pendapatan)

Berikut penjelasan function diatas :

  • median : akan menampilkan nilai tengah pada variabel yang diamati.
  • data_intro$Pendapatan : merupakan kolom Pendapatan dari variabel data_intro.
## carilah median untuk kolom Pendapatan dari variable data_intro
median(data_intro$Pendapatan)
## [1] 875000
## carilah median untuk  kolom Harga dari variable data_intro
median(data_intro$Harga)
## [1] 2e+05
## carilah median untuk kolom Jumlah dari variable data_intro
median(data_intro$Jumlah)
## [1] 4
## carilah median untuk  kolom Total dari variable data_intro
median(data_intro$Total)
## [1] 675000

stimasi Nilai Statistik Rata-Rata

Rata-rata merupakan nilai yang menunjukan nilai rata-rata aritmatik. Rata-rata/mean digunakan untuk data bertipe interval dan rasio.

Untuk menampilkan mean dari data dapat menggunakan syntax :

mean(data_intro$Pendapatan)

Berikut penjelasan function diatas:

  • mean : akan menampilkan nilai rata-rata pada variabel yang diamati.
  • data_intro$Pendapatan : merupakan kolom Pendapatan dari variabel data_intro.
## carilah mean untuk kolom Pendapatan pada variable data_intro
mean(data_intro$Pendapatan)
## [1] 1160000
## carilah mean untuk kolom Harga pada variable data_intro
mean(data_intro$Harga)
## [1] 197500
## carilah mean untuk kolom Jumlah pada variable data_intro
mean(data_intro$Jumlah)
## [1] 3.65
## carilah mean untuk kolom Total pada variable data_intro
mean(data_intro$Total)
## [1] 710000

Penggunaan Mean dan Median

Dari contoh praktik sebelumnya ada perbedaan hasil Median dan Mean untuk data interval dan rasio. Maka perlu diperhatikan untuk penggunaanya yaitu: penggunaan mean sebaiknya digunakan jika tidak ada outlier. Sebaliknya jika ada outlier, maka sebaiknya menggunakan Median.

Apa itu Outlier ? Outlier adalah data yang jaraknya jauh dari keseluruhan data.

Penggunaan Mean dan Median

Dari contoh praktik sebelumnya ada perbedaan hasil Median dan Mean untuk data interval dan rasio. Maka perlu diperhatikan untuk penggunaanya yaitu: penggunaan mean sebaiknya digunakan jika tidak ada outlier. Sebaliknya jika ada outlier, maka sebaiknya menggunakan Median.

Apa itu Outlier ? Outlier adalah data yang jaraknya jauh dari keseluruhan data.

Ukuran Sebaran Data

Ukuran sebaran yang sering digunakan adalah sebagai berikut :

  • Range adalah selisih antara nilai terbesar dan nilai terendah
  • Varians adalah simpangan kuadrat data dari nilai rata-ratanya d^2 = sigma(x - u)^2 / (n-1)
  • Simpangan baku adalah simpangan data dari nilai rata-ratanya, simpangan baku nama lainnya adalah standard deviation. Standard deviation dapat digunakan untuk melihat keakuratan dari hasil estimasi, semakin kecil standard deviation semakin akurat hasil estimasi. d = /d^2

Estimasi Nilai Sebaran Data Range

Range adalah selisih antara nilai terbesar dan nilai terendah. Untuk menampilkan range dari data dapat menggunakan syntax sebagai berikut :

max(data_intro$Jumlah)-min(data_intro$Jumlah)

Berikut penjelasan function diatas:

  • max digunakan untuk mendapatkan nilai maksimal dari data.
  • min adalah function yang digunakan mendapatkan nilai minimal dari data.
## carilah range untuk kolom Pendapatan pada variable data_intro
max(data_intro$Pendapatan) - min(data_intro$Pendapatan)
## [1] 6050000

Estimasi Nilai Sebaran Data Varians

Varians merupakan simpangan kuadrat data dari nilai rata-ratanya. Untuk menampilkan varians dari data dapat menggunakan syntax sebagai berikut :

var(data_intro$Pendapatan)

dimana

  • var adalah function yang digunakan untuk mendapatkan nilai varians dari data.
## Carilah varians untuk kolom Pendapatan dari variable data_intro
var(data_intro$Pendapatan)
## [1] 1.645684e+12

Estimasi Nilai Sebaran Data Varians

Varians merupakan simpangan kuadrat data dari nilai rata-ratanya. Untuk menampilkan varians dari data dapat menggunakan syntax sebagai berikut :

var(data_intro$Pendapatan)

dimana

  • var adalah function yang digunakan untuk mendapatkan nilai varians dari data.
## Carilah varians untuk kolom Pendapatan dari variable data_intro
var(data_intro$Pendapatan)
## [1] 1.645684e+12

Estimasi Nilai Sebaran Data Simpangan Baku

Simpangan baku adalah simpangan data dari nilai rata-ratanya, simpangan baku nama lainnya adalah standard deviasi. Standard deviasi dapat digunakan untuk melihat keakuratan dari hasil estimasi, semakin kecil standard deviasi semakin akurat hasil estimasi.

Untuk menampilkan simpangan baku dari data dapat menggunakan syntax sebagai berikut :

sd(data_intro$Jumlah)

dimana

  • sd adalah function yang digunakan untuk mendapatkan nilai simpangan baku dari data.
## Carilah simpangan baku untuk kolom Pendapatan dari variable data_intro
sd(data_intro$Pendapatan)
## [1] 1282842

All Estimation

# melihat data/ pemanggilan data
data_intro
# melihat tipe data
str(data_intro)
## 'data.frame':    20 obs. of  9 variables:
##  $ ID.Pelanggan    : chr  "1" "2" "3" "4" ...
##  $ Nama            : chr  "Arif" "Dian" "Dinda" "Fajar" ...
##  $ Jenis.Kelamin   : Factor w/ 2 levels "1","2": 1 2 2 1 2 1 1 2 2 2 ...
##  $ Pendapatan      : int  600000 1200000 950000 400000 1200000 800000 950000 1100000 800000 1700000 ...
##  $ Produk          : Factor w/ 5 levels "A","B","C","D",..: 1 4 4 1 4 2 2 5 5 5 ...
##  $ Harga           : int  100000 250000 250000 100000 250000 150000 150000 300000 300000 300000 ...
##  $ Jumlah          : int  4 4 3 2 4 4 5 3 2 5 ...
##  $ Total           : int  400000 1000000 750000 200000 1000000 600000 750000 900000 600000 1500000 ...
##  $ Tingkat.Kepuasan: Factor w/ 3 levels "1","2","3": 2 2 3 3 2 3 1 3 1 1 ...
library(pracma)

## carilah modus untuk kolom Produk pada variable data_intro
Mode(data_intro$Produk)
## [1] "D"
## carilah median untuk kolom Pendapatan dari variable data_intro
median(data_intro$Pendapatan)
## [1] 875000
## carilah mean untuk kolom Pendapatan pada variable data_intro
mean(data_intro$Pendapatan)
## [1] 1160000
## carilah range untuk kolom Pendapatan pada variable data_intro
max(data_intro$Pendapatan) - min(data_intro$Pendapatan)
## [1] 6050000
## Carilah varians untuk kolom Pendapatan dari variable data_intro
var(data_intro$Pendapatan)
## [1] 1.645684e+12
## Carilah simpangan baku untuk kolom Pendapatan dari variable data_intro
sd(data_intro$Pendapatan)
## [1] 1282842

Analisis Deskriptif pada variable data_intro

Analisis Deskriptif adalah proses analisa yang digunakan untuk membangun sebuah hipotesis.

Pada bab ini, analisis deskriptif akan dilakukan pada data sebelumnya dengan tujuan untuk mendapatkan informasi berikut:

  • Bagaimana profil pelanggan.
  • Bagaimana gambaran produk.
  • Membangun hipotesis.

Analisis Deskriptif Menggunakan Nilai Statistik

Untuk melakukan analisis deskriptif setiap variabel pada R, kita dapat menggunakan function berikut :

summary(data_intro)

Function summary akan menampilkan kesimpulan pada variabel masing-masing. Untuk variabel bertipe character akan menampilkan panjang datanya. Variabel bertipe factor akan menampilkan jumlah data pada masing-masing kelas. Sedangkan untuk variabel bertipe numerik akan memunculkan nilai minimum, Q1,Q2 (median), Q3, mean, dan maximum.

Pengertian dari masing-masing istilah itu adalah sebagai berikut :

  • Minimum adalah nilai observasi terkecil.
  • Kuartil pertama (Q1), yang memotong 25 % dari data terendah.
  • Median (Q2) atau nilai pertengahan.
  • Kuartil ketiga (Q3), yang memotong 25 % dari data tertinggi.
  • Maksimum adalah nilai observasi terbesar.
## carilah summary data dari data_intro
summary(data_intro)
##  ID.Pelanggan           Nama           Jenis.Kelamin   Pendapatan      Produk
##  Length:20          Length:20          1: 6          Min.   : 400000   A:4   
##  Class :character   Class :character   2:14          1st Qu.: 675000   B:4   
##  Mode  :character   Mode  :character                 Median : 875000   C:4   
##                                                      Mean   :1160000   D:5   
##                                                      3rd Qu.:1125000   E:3   
##                                                      Max.   :6450000         
##      Harga            Jumlah         Total         Tingkat.Kepuasan
##  Min.   :100000   Min.   :1.00   Min.   : 200000   1:7             
##  1st Qu.:150000   1st Qu.:3.00   1st Qu.: 475000   2:5             
##  Median :200000   Median :4.00   Median : 675000   3:8             
##  Mean   :197500   Mean   :3.65   Mean   : 710000                   
##  3rd Qu.:250000   3rd Qu.:4.25   3rd Qu.: 925000                   
##  Max.   :300000   Max.   :5.00   Max.   :1500000

Analisis Deskriptif Menggunakan Visualisasi

Setelah melakukan analisis deskriptif sebelumnya, agar lebih jelas bagaimana gambaran/sebaran dari data maka kita perlu membuat grafik dari masing-masing variabel. Grafik disini juga dapat sebagai analisis eskplorasi yang akan membantu dalam membangun hipotesis.

Untuk mendapatkan visualisasi dasar dari setiap variabel pada R bisa menggunakan perintah berikut :

plot(data_intro$Jenis.Kelamin)

hist(data_intro$Pendapatan)

Berikut penjelasan function diatas :

  • plot digunakan untuk variabel bertipe Factor - function ini menghasilkan grafik Bar Plot.
  • hist untuk variabel bertipe numerik seperti int - function ini menghasilkan grafik Histogram.
## Carilah sebaran data kolom Jenis.Kelamin dari variable data_intro
plot(data_intro$Jenis.Kelamin)

## Carilah sebaran data dari Pendapatan dari variable data_intro
hist(data_intro$Pendapatan)

## Carilah sebaran data dari Produk dari variable data_intro
plot(data_intro$Produk)

## Carilah sebaran data dari Harga dari variable data_intro
hist(data_intro$Harga)

## Carilah sebaran data dari Jumlah dari variable data_intro
hist(data_intro$Jumlah)

## Carilah sebaran data dari Total dari variable data_intro
hist(data_intro$Total)

## Carilah sebaran data dari Tingkat.Kepuasan dari variable data_intro
plot(data_intro$Tingkat.Kepuasan)

Kesimpulan Analisis Deskriptif Menggunakan Visualisasi

Dari hasil analisis deskriptif pada praktek sebelumnya kita mendapatkan:

  • Profil Pelanggan sebagai berikut:
    1. Sebagian besar pelanggan adalah berjenis kelamin perempuan.
    2. Rata-rata pendapatan pelanggan dalam sebulan adalah 875000 (tidak menggunakan ukuran pemusatan mean, karena pada grafik terdapat outlier. Sehinggan ukuran pemusatan yang dipakai adalah median).
    3. Pelanggan sering membeli produk dalam jumlah 3-4 buah.
    4. Rata-rata total belanja yang sering dihabiskan adalah 710000.
    5. Kebanyakan pelanggan sangat puas kepada produk yang dijual.
  • Gambaran produk yang dijual sebagai berikut:
    1. Produk yang sering dibeli adalah produk D.
    2. Rata-rata harga produk yang terjual sebesar 197500.

Dari hasil statistik deskriptif diatas kita dapat membangun hipotesis, agar analisis data yang kita lakukan kaya informasi yang didapatkan. Pembangunan hipotesis berdasarkan intuisi kita terhadap data yang sudah kita lakukan eksplorasi.

Contoh hipotesis yang dapat kita bangun berdasarkan data diatas adalah sebagai berikut:

  1. Apakah ada hubungan pendapatan dengan total belanja?
  2. Apakah ada pengaruh suatu produk dengan kepuasan pelanggan?
  3. Apakah ada hubungan jenis kelamain dengan total belanja?

Pengenalan Uji Hipotesis

Uji hipotesis adalah metode pengambilan keputusan yang didasarkan dari analisis data. Dalam statistik dapat menguji sebuah hipotesis benar atau salah. Ada 2 jenis hipotesis yaitu hipotesis null (hipotesis nihil) dan hipotesis alternatif. Hipotesis nihil (Ho) yaitu hipotesis yang berlawanan dengan teori yang akan dibuktikan. Hipotesis alternatif (Ha) adalah hipotesis yang berhubungan dengan teori yang akan dibuktikan.

Dalam melakukan pengujian statistik kita perlu menggunakan metode statistik uji, yang sering digunakan yaitu z-test, t-test, chi-square test, dan f-test. Pada bab kali ini kita tidak akan membahas detail dari setiap statistik uji diatas, tetapi kita akan fokus cara menggunakannya.

Selanjutnya kita harus paham mengenai p-value dan alpha yang akan digunakan dalam statistik uji.

P-value adalah peluang terkecil dalam menolak Ho. Sedangkan alpha adalah tingkat kesalahan. Nilai alpha biasanya adalah 1%, 5%, dan 10%. Dalam prakteknya alpha 5% sering digunakan, karena lebih moderat.

Hipotesis Ho ditolak jika nilai p-value kurang dari alpha (5%), sedangkan jika p-value lebih dari nilai alpha maka yang Ho diterima. Untuk lebih jelasnya dapat dilihat gambar dibawah ini

https://www.slideshare.net/rhandyprasetyo/statistikauji-hipotesis

Perbedaan Statistik Deskriptif dan Statistik Inferensia

Dalam statistik ada 2 jenis analisis data, yaitu statistik deskriptif dan statistik inferensia. Uji hipotesis, yang dijelaskan pada subbab sebelumnya termasuk kedalam statistik inferensia.

Untuk membedakan antara 2 jenis analisis diatas, maka dapat menyimak penjelasan berikut:

  • Statistik Deskriptif adalah statistik yang digunakan untuk analisa data dengan cara menggambarkan data sampel dengan tanpa membuat kesimpulan untuk data populasi. Beberapa hal yang dapat dilakukan adalah penyajian data melalui tabel, grafik, perhitungan modus, median, mean, perhitungan penyebaran data melalui perhitungan rata-rata dan standar deviasi. Statistik Deskriptif digunakan untuk eksplorasi data.

  • Statistik Inferensia adalah yaitu statistik yang digunakan untuk menganalisis data sampel dan hasilnya diberlakukan untuk populasi. Beberapa hal yang dapat dilakukan adalah menguji hipotesis dengan statistik uji, seperti chi-square test, student-t test, f-test, z-score test.

Tujuan Analisis Inferensia

Tujuan Analisis berikutnya dari dataset kita adalah untuk mendapatkan informasi berikut:

  • Bagaimana hubungan pendapatan dengan total belanja.
  • Bagaimana pengaruh suatu produk dengan kepuasan pelanggan.
  • Bagaimana hubungan jenis kelamin dengan total belanja.

Analisis Hubungan antar Variabel

Pada sub-bab ini kita akan membahas cara pengujian hipotesis yang sudah kita susun diatas. Pengujian hipotesis diatas dengan menggunakan analisis inferensia. Ketiga hipotesis diatas dapat digeneralisasi sebagai hipotesis hubungan antar variabel.

Dari penjelasan sebelumnya, kita akan melakukan analisis hubungan antar variabel yaitu:

  1. Variabel pendapatan dengan total belanja
  2. Variabel pengaruh jenis produk dengan kepuasan pelanggan
  3. Variabel jenis kelamain dengan total belanja

Hubungan Antara Variabel Numerik

Berdasarkan hasil kasus sebelumnya, kita akan melihat hubungan antara data numerik dan numerik.

Ada dua cara untuk melihat hubungan antar variabel, yaitu dengan grafik scatter plot dan analisis korelasi. Grafik scatter plot untuk melihat arah hubungan, poisitif dan negatif. Sedangkan analisis korelasi adalah untuk menguji/konfirmasi apakah kedua variabel tersebut memang berhubungan dan sebearapa kuat hubungannya.

Rentang nilai koefisien korelasi antara -1 sampai 1. Korelasi kuat ketika mendakati -1 atau 1, sedangkan dikatakan lemah jika mendekati 0. Untuk mengetahui ada hubungan atau tidaknya menggunakan analisis korelasi, dengan hipotesis sebagai berikut :

  • Hipotesis Nihil (null): tidak ada hubungan antara kedua variabel.
  • Hipotesis Alternatif: ada hubungan antara kedua variabel.

https://dsmlmdblog.blogspot.com/2016/03/pengertian-dan-perhitungan-korelasi.html

Scatter Plot

Sebelum melakukan analisis korelasi sebaiknya kita melihat hubungan dari dua variabel numerik menggunakan scatter plot. Scatter plot dapat disebut juga analisis deskriptif.

Untuk melakukan scatter plot pada R menggunakan perintah plot seperti berikut :

plot(data_intro$Pendapatan,data_intro$Total)

Variabel pertama yaitu data_intro$Pendapatan akan diplot untuk sumbu x,

sedangkan variabel kedua yaitu data_intro$Total untuk sumbu y.

plot(data_intro$Pendapatan, data_intro$Total)

Hubungan Pendapatan dengan Total Belanja dengan cor.test

Setelah melihat hubungan variabel pendapatan dengan total belanja menggunakan scatter plot diatas maka kita akan mengujinya, apakah benar-benar pendapatan memiliki pengaruh positif terhadap total belanja

Untuk melakukan uji korelasi pada R menggunakan perintah :

cor.test(data_intro$Pendapatan,data_intro$Total)

Berikut penjelasan function diatas :

  • Function cor.test digunakan untuk melihat hubungan secara statistik.
  • Pada korelasi test untuk mengujinya kita memakai t-test. Dengan hipotesis sebagai berikut:
    • Ho : tidak ada hubungan antara pendapatan dan total belanja.
    • Ha : terdapat hubungan antara pendapatan dan total belanja
#Gunakan cor.test untuk mencari hubungan Pendapatan dengan Total Belanja 
cor.test(data_intro$Pendapatan, data_intro$Total)
## 
##  Pearson's product-moment correlation
## 
## data:  data_intro$Pendapatan and data_intro$Total
## t = 3.1168, df = 18, p-value = 0.005957
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2026033 0.8197871
## sample estimates:
##       cor 
## 0.5920437

Hubungan Antara Variabel Kategorik

Hubungannya diantara keduanya dapat dilihat dengan menggunakan tabulasi silang dan dapat juga dilihat kecenderungannya. Pada hubungan antara variabel kategorik dan kategorik tersebut tidak bisa diketahui seberapa kuat hubungan diantara keduanya dan bagimana pengaruhnya (positif atau negatif). Untuk mengetahui ada hubungan atau tidaknya menggunakan uji statistik chi-square test, dengan hipotesis sebagai berikut:

  • Hipotesis Nihil: tidak ada hubungan antara kedua variabel
  • Hipotesis Alternatif : ada hubungan antara kedua variabel

Hubungan Produk dengan Tingkat Kepuasan dengan chisq.test

Berdasarkan kasus diatas kita akan melihat hubungan antara data kategorik dan kategorik, yaitu variabel jenis produk dan tingkat kepuasan. Sebelum menguji hubungannya, sebaiknya dilakukan tabulasi silang sebagai analisis deskriptif. Selanjutnya analisis inferensia yaitu menguji apakah ada hubungan maka dapat digunakan chi-square test.

Untuk melakukan tabulasi dan uji statistik chi-square test pada R tahapannya sebagai berikut :

table(data_intro$Produk,data_intro$Tingkat.Kepuasan)
chisq.test(table(data_intro$Produk,data_intro$Tingkat.Kepuasan))

Perintah table untuk melihat tabulasi antar variabel kategorik, sedangkan perintah chisq.test digunakan untuk melihat hubungan secara statistik.

Dengan hipotesis sebagai berikut :

  • Ho : tidak ada hubungan antara jenis produk dan tingkat kepuasan.
  • Ha : terdapat hubungan antara jenis produk dan tingkat kepuasan
## Carilah tabulasi silang antara kolom jenis produk (Produk) dan tingkat kepuasan (Tingkat.Kepuasan) dari variable data_intro
table(data_intro$Produk, data_intro$Tingkat.Kepuasan)
##    
##     1 2 3
##   A 0 1 3
##   B 2 0 2
##   C 1 2 1
##   D 2 2 1
##   E 2 0 1
## Analisis bagaimana hubungan jenis produk dengan tingkat kepuasan mengunakan uji korelasi
chisq.test(table(data_intro$Produk, data_intro$Tingkat.Kepuasan))
## Warning in chisq.test(table(data_intro$Produk, data_intro$Tingkat.Kepuasan)):
## Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  table(data_intro$Produk, data_intro$Tingkat.Kepuasan)
## X-squared = 7.95, df = 8, p-value = 0.4384

Hubungan Antara Variabel Kategorik dan Variabel Numerik

Hubungannya diantara keduanya dapat dilihat dengan membandingkan rata-rata pada setiap kategori. Jika nilai rata-ratanya berbeda maka kedua variabel memiliki hubungan. Pada hubungan antara variabel kategorik dan numerik tidak bisa diketahui seberapa kuat hubungan diantara keduanya dan bagimana pengaruhnya (positif atau negatif).

Untuk mengetahui ada hubungan atau tidaknya menggunakan uji statistik t-test, dengan hipotesis sebagai berikut

  • Hipotesis Nihil: tidak ada hubungan antara kedua variabel
  • Hipotesis Alternatif: ada hubungan antara kedua variabel

Hubungan Jenis Kelamin dengan Total Belanja dengan t.test

Berdasarkan kasus diatas kita akan melihat hubungan antara data kategorik dan numerik, yaitu variabel jenis kelamin dan total belanja. Sebelum menguji hubungannya, sebaiknya dilihat perbedaan rata-rata total belanja untuk laki-laki dan perempuan dengan visualisasi yaitu menggunakan boxplot. Boxplot grafik statistik dari data dengan komponen lima ukuran statistik yaitu Min, Q1,Q2, Q3, dan Max.

Selanjutnya analisis inferensia yaitu untuk mengetahui apakah ada perbedaan rata-rata total belanja pada laki-laki dan perempuan maka digunakan statistik uji t-test.

Untuk melakukan visualisasi boxplot dan uji statistik t-test pada R tahapannya sebagai berikut :

boxplot(Total~Jenis.Kelamin,data = data_intro)
t.test(Total~Jenis.Kelamin,data = data_intro)

Function boxplot digunakan untuk melihat secara grafik rata-rata total belanja pada laki-laki dan perempuan, sedangkan perintah t.test digunakan untuk melihat hubungan secara statistik. Penggunaan kedua fungsi diatas yaitu variabel pertama yang bertipe numerik, sedangkan variabel kedua variabel kategorik. Hipotesis t-test sebagai berikut :

  • Hipotesis Nihil (null): tidak ada perbedaan rata-rata total belanja antara laki-laki dan perempuan
  • Hipotesis Alternatif : ada perbedaan rata-rata total belanja antara laki-laki dan perempuan
## carilah boxplot antara variabel jenis kelamin dengan total belanja
boxplot(Total~Jenis.Kelamin, data = data_intro)

## analisis bagaimana hubungan jenis kelamin dengan total belanja mengunakan uji statistik t-test
t.test(Total~Jenis.Kelamin, data = data_intro)
## 
##  Welch Two Sample t-test
## 
## data:  Total by Jenis.Kelamin
## t = -1.1498, df = 12.133, p-value = 0.2724
## alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
## 95 percent confidence interval:
##  -488985.4  150890.2
## sample estimates:
## mean in group 1 mean in group 2 
##        591666.7        760714.3

Analisis Inferensia All

  • Untuk menguji hubungan variabel numerik dengan kategorik menggunakan t-test
  • Untuk menguji hubungan variabel kategorik dengan kategorik menggunakan chi-square test
  • Untuk menguji hubungan variabel numerik dengan numerik menggunakan cor.test

Cara analisis yang runtut

  • Eksplorasi data
  • Membuat Hipotesis
  • Analisis Inferensia
  • Memberi Kesimpulan
  • Memberikan rekomendasi berdasarkan analisis data