Training Objective

Statistika Descriptive

Statistika Deskriptif : untuk menggambarkan karakteristik dari data. Dalam menggambarkan karakteristik data bisa menggunakan : grafik, tabel, summary. Contoh: bisa digunakan dalam membuat reporting, digunakan dalam exploratory data analysis

Ukuran Pemusatan Data

Ukuran pemusatan data biasanya kita gunakan untuk melihat gambaran dari data kita secara general seperti apa. Oleh karena itu, nilai ukuran pemusatan data dibuat agar kita memperoleh informasi yang cukup untuk mewakili seluruh nilai yang ada pada data. Ada beberapa acuan yang dapat digunakan untuk menggambarkan data secara umum; yaitu: mean, median, dan modus.

Mean

Mean adalah nilai rataan dari suatu data numerik. Mean dapat diformulasikan sebagai \(\bar x = \frac {\sum x_i}{n}\). Pada R, kita dapat mencari nilai mean dengan fungsi mean().

Studi kasus :

Misal saya seorang pengusaha kuliner. Saya ingin menargetkan profit bulan depan saya namun yang saya miliki adalah data profit selama 10 bulan terakhir. Saya ingin menargetkan target profit kedepan saya dengan metode statistik.

profit <- c(4000, 5000, 3500, 4500, 5500, 6500, 7500, 5500, 4800, 6800)
mean(profit)

#> [1] 5360

harga_rumah <- c(550, 650, 640, 700, 650, 660, 780)
mean(harga_rumah)

#> [1] 661.4286

Catatan: Cara paling sederhana untuk melakukan prediksi nilai kedepan dari sekumpulan data kita yaitu menggunakan nilai mean.

Karakteristik dari mean:

Tidak cocok untuk mendeskripsikan suuatu data ketika data tersebut terdapat nilai ekstrem atau outlier karena hasil mean akan sangat bias bisa saja lebih kecil dari data general atau lebih besar. Solusinya jika kitta ingin mendeskripsikan data namun terdapat nilai ekstrem kita bisa menggunakan nilai median atau bisa juga menggunakan nilai trimmed mean.

Trimmed Mean

Trimmed Mean adalah proses memotong atau membuang data yang jauh dari pusatnya atau bisa juga dikatakan untuk membuang nilai data yang ekstrim. Apabila menggunakan trimmed mean 10% berarti akan memotong data 10% diujung kiri dan 10% diujung kanan distribusi data.

Studi kasus :

Masih menggunakan contoh yang sama seperti yang diatas. Ternyata usaha yang saya miliki pada saat bulan ramadhan permintaannya meningkat pesat sehingga profit yang saya hasilkan sangat besar. Selanjutnya dari profit yang saya peroleh 10 bulan sebelumnya tersebut termasuk bulan ramadhan, saya ingin menargetkan profit dibulan kedepannya.

profit2 <- c(4000, 5000, 3500, 4500, 5500, 6500, 7500, 5500, 4800, 300000)
# cari nilai meannya
mean(profit2)

#> [1] 34680

mean(profit2, trim = 0.1)

#> [1] 5412.5

Catatan: bisa digunakan untuk menggambarkan karakteristik data dengan catatan akan kehilangan informasi sebesar 10% data diujung kanan dan 10% data di ujung kiri.

Kekurangannya dari trimmed mean : kita bisa saja kehilangan informasi yang sebenarnya berguna untuk kita.

Median

Median adalah nilai tengah data. Untuk memperoleh median, sebelumnya data harus diurutkan (sorting) terlebih dahulu. Di R kita dapat menggunakan command median().

Studi kasus :

profit2 <- c(4000, 5000, 3500, 4500, 5500, 6500, 7500, 5500, 4800, 300000)
# cari median
a <- sort(profit2)[-c(1,10)]
mean(a)

#> [1] 5412.5

mean(a, trim = 0.1)

#> [1] 5412.5

median(profit2)

#> [1] 5250

Karakteristik dari median: Nilainya cenderung statis jika nilai pada datanya banyak yang berulang.

Modus

Modus untuk mencari nilai data yang paling sering muncul. Biasanya digunakan untuk data yang kategorik. Untuk mencari nilai modus dapat menggunakan function berikut:

most <- function(x){
  as.character(names(sort(-table(x)))[1])
}

Studi kasus:

Pemilik restoran menawarkan 3 paket hemat yaitu paket hemat1, hemat2, dan hemat3. Pemilik restoran ingin mengetahui bulan berikutnya paket mana yang paling banyak dipesan:

paket <- c("hemat1","hemat2","hemat1","hemat3","hemat2","hemat3","hemat3","hemat3")
# gunakan function most
most(paket)

#> [1] "hemat3"

Kapan menggunakan mean, median, dan modus?

mean digunakan saat data yang kita miliki tidak ada outlier atau sebarannya merata
median digunakan saat data yang kita miliki terdapat outlier atau nilai ektrim
modus digunakan saat data yang kita miliki kategorik

Ukuran Sebaran Data

Variansi

Variansi digunakan untuk melihat variasi dari data yang dimiliki. Bisa digunakan untuk melihat seberapa informatif data yang dimiliki. Semakin besar nilai variansi maka semakin informatif data kita. Untuk melakukan perhitungan variansi pada R kita bisa gunakan var().

Untuk melihat seberapa beragam data yang kita miliki. Semakin mendekati 0 artinya data kita tidak beragam.

Formulasi variansi : \(var = \frac{(x_i - \bar{x})^2}{n-1}\)

Studi kasus:

Misalkan saya memiliki informasi daftar harga rumah di 2 daerah di Jakarta yaitu sebagai berikut.

harga_A <- c(400,400,400,400,400,400,400,400,400,400,400,400,400,550)
harga_B <- c(350,430,670,540,460,320,380,550,650,470,330,300,300)

Berdasarkan dua data harga rumah diatas, manakah yang lebih beragam?

# cari nilai variansi
var(harga_A)

#> [1] 1607.143

var(harga_B)

#> [1] 16485.9

Kita akan coba gunakan data retail yang sudah tersimpan di folder data_input.

retail <- read.csv("data_input/workshop.csv")
str(retail)

#> 'data.frame':    9994 obs. of  17 variables:
#>  $ Order.Date   : chr  "2016-11-08" "2016-11-08" "2016-06-12" "2015-10-11" ...
#>  $ Ship.Date    : chr  "2016-11-11" "2016-11-11" "2016-06-16" "2015-10-18" ...
#>  $ Ship.Mode    : chr  "Second Class" "Second Class" "Second Class" "Standard Class" ...
#>  $ Customer.ID  : chr  "CG-12520" "CG-12520" "DV-13045" "SO-20335" ...
#>  $ Segment      : chr  "Consumer" "Consumer" "Corporate" "Consumer" ...
#>  $ Product.ID   : chr  "FUR-BO-10001798" "FUR-CH-10000454" "OFF-LA-10000240" "FUR-TA-10000577" ...
#>  $ Category     : chr  "Furniture" "Furniture" "Office Supplies" "Furniture" ...
#>  $ Sub.Category : chr  "Bookcases" "Chairs" "Labels" "Tables" ...
#>  $ Product.Name : chr  "Bush Somerset Collection Bookcase" "Hon Deluxe Fabric Upholstered Stacking Chairs, Rounded Back" "Self-Adhesive Address Labels for Typewriters by Universal" "Bretford CR4500 Series Slim Rectangular Table" ...
#>  $ Sales        : num  262 731.9 14.6 957.6 22.4 ...
#>  $ Quantity     : int  2 3 2 5 2 7 4 6 3 5 ...
#>  $ Discount     : num  0 0 0 0.45 0.2 0 0 0.2 0.2 0 ...
#>  $ Profit       : num  41.91 219.58 6.87 -383.03 2.52 ...
#>  $ Ship.Duration: int  3 3 4 7 7 5 5 5 5 5 ...
#>  $ Month        : chr  "November" "November" "June" "October" ...
#>  $ Day          : chr  "Tuesday" "Tuesday" "Sunday" "Sunday" ...
#>  $ IsWeekend    : chr  "Weekday" "Weekday" "Weekend" "Weekend" ...

Bagaimana nilai variance dari variabel Sales dan Profit untuk masing-masing Category?

aggregate(formula = cbind(Sales, Profit)~Category, data = retail, FUN = var)

fungsi aggregate() digunakan untuk mendapatkan summary dari suatu kolom yang ingin kita kelompokkan dengan perhitungan tertentu seperti mean, max, min, variansi, dll.

Standar deviasi

Standar deviasi adalah akar dari variansi. Tujuannya untuk melihat seberapa jauh tiap observasi terhadap rata-rata. Semakin mendekati 0 artinya data tidak jauh berbeda dengan rata-rata. Untuk melakukan perhitungan standar deviasi pada R kita bisa gunakan sd().

Formulasi standar deviasi: \(sd = \sqrt{var}\)

Studi Kasus:

Standar deviasi digunakan untuk mengukur risiko saham. Misal, seseorang ingin mencoba investasi saham. Kemudian, ia mencari informasi mengenai pergerakan saham A dan saham B di 20 periode terakhir.

saham_A <- c(1000,1200,1100,1400,1500,1450,1300,1250,1400,1500,2000,1900,1800,1750,1500,1900,1850,1000,1900, 1850)
# mencari nilai sd saham A
sd(saham_A)

#> [1] 323.4172

saham_B <- c(1000,999,995,1001,990,1002,998,1001,1010,1012,1011,989,1012,1010,1013,995,994,990,1000,1015)
# mencari nilai sd saham B
sd(saham_B)

#> [1] 8.43723

Kesimpulan yang diperoleh:

Nilai saham A dan saham B lebih cenderung informatif yang saham A yaitu sebesar 323.4 dibandingkan dengan saham B yang hanya 8.4. Namun ketika saya seorang yang ingin baru belajar saham, saya akan pilih pergerakan saham yang lebih kecil (kurang informatif atau kurang fluktuatif) karena resiko yang saya terima akan lebih kecil ketika saham tersebut mengalami kerugian.

Dive deeper:

Saya sebagai tim marketing di suatu perusahaan retail tentunya ingin memperoleh profit semaksimal mungkin. Bagaimana keadaan profit yang saya inginkan dari sisi mean dan variansi ?

mean tinggi variansi rendah

Saya sebagai tim pengajar di Algoritma tentunya ingin setiap student memperoleh score yang tinggi. Bagaimana keadaan score yang saya inginkan dari sisi mean dan variansi ?

mean tinggi variansi rendah

Saya sebagai tim sales di suatu perusahaan retail menerapkan diskon dalam penjualan yang dilakukan untuk menarik konsumen, namun tentunya ingin diskon yang diberikan rendah tetapi tetap menarik konsumen. Bagaimana keadaan diskon yang saya inginkan dari sisi mean dan variansi ?

mean rendah variansi tinggi

Jika keadaan pada nomor 3 diterapkan pada sisi konsumen. Bagaiman keadaan diskon yang saya inginkan dari sisi mean dan variansi ?

mean tinggi variansi rendah

Range

Fungsi range mengembalikan 2 buah nilai yaitu nilai minimum dan maksimum. apabila ingin menghitung selisih dari 2 nilai tersebut bisa dilakukan operasi pengurangan. selisih nilai max dan min kurang menggambarkan range dari sebaran, karena bila ada data outlier maka range tidak menggambarkan range sebaran data yang sesungguhnya.

Carilah range nilai dari Sales pada data retail

range(retail$Sales)

#> [1]     0.444 22638.480

IQR (Inter Quantile Range)

IQR merupakan jarak dari Q1 ke Q3. IQR bisa digunakan untuk melihat range sebaran dari data yang ada

Carilah nilai IQR dari variabel Sales pada data retail

quantile(retail$Sales)

#>        0%       25%       50%       75%      100% 
#>     0.444    17.280    54.490   209.940 22638.480

IQR(retail$Sales)

#> [1] 192.66

209.940-17.280

#> [1] 192.66

IQR digunakan untuk menentukan nilai pada data kita termasuk outlier atau bukan.

Boxplot

Boxplot merupakan plot yang menggambarkan sebaran data

Beberapa hal yang harus diperhatikan dalam boxplot:

Bila nilai median (Q2) semakin mendekati Q1 tandanya data mengumpul di bagian bawah (kiri), begitu juga sebaliknya
Banyaknya data dari Q1 ke nilai minimum adalah 25%
Banyaknya data dari Q3 ke nilai maksimum adalah 25%
Banyaknya data dari Q1 ke nilai Q3 (IQR) adalah 50 %

Tampilkan boxplot variabel Sales untuk Sub.Category Copiers.

copiers <- retail[retail$Sub.Category == "Copiers",]
boxplot(copiers$Sales)

copiers[copiers$Sales < 5000,]

Cara melakukan treatment ketika ketemu outlier :

Jika outlier pada data yang kita miliki masih berkisar <5-10% kita bisa buang outlier tersebut
Jika outlier pada data yang kita miliki > dari 10% data kita, maka pertahankan, karena bisa saja outlier tersebut merupakan data kita namun memang nilainya saja yang cukup ekstrim

Covariance and Correlation

Digunakan untuk melihat hubungan antara 2 variabel.

formula covariance: \(Cov(X, Y) = \frac{1}{n-1}\sum\limits^n_{i=1}(X_i - \mu_X)(Y_i - \mu_Y)\)

command di R: cov()

formula correlation: \(Corr(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}\)
command di R: cor()

kovarian dan korelasi digunakan untuk melihat hubungan antar 2 variabel data. Kovarian tidak memiliki interval nilai untuk mengukur kekuatan hubungan antar variabel. Korelasi memiliki interval -1 < korelasi < 1. Semakin mendekati -1 artinya terdapat hubungan negatif yang kuat. Semakin mendekati 1 artinya terdapat hubungan positif yang kuat, ketika korelasinya 0 artinya tidak ada hubungan sama sekali.

Mencari nilai kovariance pada saham_A dan saham_B

cov(x = saham_A, y = saham_B)

#> [1] 714.8684

Hubungan dari saham A dengan saham B adalah positif. Kesimpulannya ketika saham A naik maka saham B juga naik, ketika saham B turun maka saham A juga turun.

cor(x = saham_A, y = saham_B)

#> [1] 0.261977

Kesimpulannya : berdasarkan nilai korelasinya ternyata hubungan antara saham A dengan saham B lemah positif karena nilai korelasinya mendekati 0.

studi kasus:

Pemilihan saham oleh pebisnis tersebut ternyata tepat dan beliau memperoleh keuntungan cukup besar. Sekarang kondisinya ia ingin mencoba investasi dengan membeli dua saham sekalian. Kemudian ia mengumpulkan informasi dan melihat referensi beberapa pergerakan saham.

#>             saham_A     saham_B     saham_C     saham_D     saham_E
#> saham_A  1.00000000  0.26197698  0.07864631 -0.41020398  1.00000000
#> saham_B  0.26197698  1.00000000  0.21244277 -0.04469336  0.26197698
#> saham_C  0.07864631  0.21244277  1.00000000 -0.07121146  0.07864631
#> saham_D -0.41020398 -0.04469336 -0.07121146  1.00000000 -0.41020398
#> saham_E  1.00000000  0.26197698  0.07864631 -0.41020398  1.00000000

library(GGally)
# mencari nilai korelasi
ggcorr(saham, label = T)

Day 2

Normal Distribution

Distribusi adalah sebuah pola suatu peluang data dalam sekumpulan data yang ada. Distribusi yang umum digunakan dalam data kontinu adalah distribusi normal. Menurut Central Limit Theorem, suatu sample yang memiliki banyak observasi semakin mendekati banyak observasi pada populasi, maka distribusi rata-rata mean sample akan berdistribusi normal.

karakteristik distribusi normal : 1. Uni-modal atau hanya memiliki satu puncak 2. Terdistribusi secara simetris atau seimbang 3. Mean, median, dan modus nya sama 4. Berbentuk lonceng

Statistics Inference

Statistika Inferensi : untuk data sampel yang dimiliki apakah sudah bisa digunakan untuk merepresentasikan data populasi yang ada. Contoh: bisa digunakan untuk case seperti quick count, prediksi.

Probability Mass Function

Probabilitas yang digunakan ketika data yang dimiliki adalah data diskrit. Contoh data diskrit : banyak student, banyak barang yang dibeli, dsb. Misalkan kita ingin mencari peluang muncul dadu, jumlah pemain yang mengalami cidera, travel booking tiap customer, banyak nya produk yang terjual, dll.

Contoh kasus :

Suatu bandara dalam satu hari terdapat 100 jadwal penerbangan, dari 100 penerbangan tersebut 20 diantaranya delay. Berapa peluang pesawat tidak delay?

Untuk mencari peluang data diskrit dapat dicari dengan formula: \(p(P) = \frac{n}{S}\)

dimana :

\(p(P)\) : peluang kejadian yang ingin dicari
\(n\) : banyaknya kejadian yang ingin dicari peluangnya
\(S\) : total seluruh kejadian yang ada

(100-20)/100

#> [1] 0.8

Probability Density Function (pdf)

Probability yang digunakan ketika data yang dimiliki merupakan data kontinu. Untuk menghitung nilai pdf, dapat memanfaatkan perhitungan pada distribusi normal.

Z-score

Untuk dapat menghitung peluang data kontinu, kita dapat memanfaatkan nilai Z-score. Z-score adalah cara yang dapat digunakan untuk menstandarisasikan distribusi suatu data menjadi distribusi normal

\(Z-score = \frac{x-\bar x}{\sigma}\)

Contoh kasus :

Misal rata-rata tinggi badan laki-laki di Indonesia 162 cm dan standar deviasi 7 cm. Berapa peluang student yang memiliki tinggi badan lebih dari 170 cm?

# cara 1
zscore <- (170-162)/7
# menghitung peluang kejadian
pnorm(zscore, lower.tail = F)

#> [1] 0.126549

# cara 2
pnorm(q = 170, mean = 162, sd = 7, lower.tail = F)

#> [1] 0.126549

Kesimpulan : Karena rata-rata tinggi badan laki-laki di Indonesia sebesar 162 cm dengan standar deviasi 7 cm, oleh karena itu, tinggi badan laki-laki pada umumnya yang akan lebih sering muncul berkisar dari range 155 cm - 169 cm. Ketika kita mencari tinggi badan seseorang yang lebih dari 170 cm maka kemunculannya akan semakin jarang pada populasi yang kita miliki.

Berapa peluang seorang laki-laki di kelas Iris Day memiliki tinggi badan lebih dari 175 cm ?

pnorm(q = 175, mean = 162, sd = 7, lower.tail = F)

#> [1] 0.03164542

Berapa peluang seorang laki-laki di kelas Jupyter memiliki tinggi badan kurang dari 175 cm ?

pnorm(q = 175, mean = 162, sd = 7, lower.tail = T)

#> [1] 0.9683546

Berapa peluang seorang laki-laki di kelas Jupyter memiliki tinggi badan antara 165 dan 175 cm ?

pnorm(q = 175, mean = 162, sd = 7, lower.tail = T) - pnorm(q = 165, mean = 162, sd = 7, lower.tail = T)

#> [1] 0.3024722

Berapakah peluang seorang laki-laki dikelas Jupyter Night B memiliki tinggi badan antara 155 cm sampai 170 cm?

pnorm(q = 170, mean = 162, sd = 7, lower.tail = T) - pnorm(q = 155, mean = 162, sd = 7, lower.tail = T)

#> [1] 0.7147958

Confidence Interval

Digunakan untuk melihat selang kepercayaan dalam suatu tebakan. Confidence Interval berisi dugaan dari nilai yang ingin ditebak dengan memberikan batas atas dan batas bawah dugaan tersebut.

confidence level : 90%, 95%, 99%
alpha = 10%, 5%, 1%

Cara untuk mendapatkan confidence interval :

\(CI: \bar{x} \pm Z_{\frac{\alpha}{2}}*SE\)

Standard Error

Standar error adalah nilai standar deviasi dibagi dengan akar dari banyak data.

\(SE = \frac{\sigma}{\sqrt n}\)

Standard Error digunakan utnuk mengukur keakuratan sampel yang mewakili populasi dengan menggunakan standar deviasi. Semakin kecil nilai standard error, maka semakin representatif sampel dari keseluruhan populasi.

Confidence Interval digunakan sebagai suatu selang yang digunakan untuk memprediksi suatu nilai, karena dengan menebak suatu nilai menggunakan range nilai tertentu memiliki resiko yang lebih kecil dibandingkan dengan hanya menebak suatu nilai dengan satu nilai tertentu.

Studi Kasus :

Misalkan dari usaha kuliner tersebut, usaha yang dimiliki semakin berkembang pesat. Oleh karena itu, usaha yang dimiliki sudah memiliki cabangbanyak cabang. Sebagai kontroler dari masing-masing cabang agar terus berkembang pesat, maka saya ingin menetapkan target profit bulanan dengan mengambil 50 cabang yang ada. Rata-rata profit dari cabang tersebut sebesar 6700 dengan standar deviasinya sebesar 280.

Berapakah range confidence interval dengan confidence level 95% untuk rata-rata profit seluruh cabang yang ada.

Mencari nilai SE

SE <- 280/sqrt(50)

Mencari nilai z score

alpha_per_2 <- 0.05/2
qnorm(0.025)

#> [1] -1.959964

Mendapatkan nilai CI

# lower bound
6700 - 1.96*SE

#> [1] 6622.388

# upper bound
6700 + 1.96*SE

#> [1] 6777.612

Kesimpulan: Rata-rata profit yang dapat dijadikan acuan untuk target profit kedepan setiap cabang usaha kuliner yang saya miliki berkisar 6622 hingga 6777.

Uji Hipotesis

Digunakan untuk menguji apakah sampel data dapat merepresentasikan populasi dengan sebenarnya.

Hipotesis : dugaan
\(H_0\) / hipotesis null : dugaan awal sebelum dilakukan pengujian (=)
\(H_1\) / hipotesis alternative : dugaan lawan dari dugaan awal (<, > , !=)
\(\alpha\) : tingkat signifikansi yaitu tingkat kesalahan yang masih bisa ditoleransi
\(1-\alpha\) : tingkat kepercayaan

\(p-value\) : pengukuran yang digunakan untuk menolak H0 atau gagal tolak H0/ peluang untuk menolak H0 atau gagal tolak H0

p-value < alpha : tolak H0
p-value > alpha : gagal tolak H0

Contoh 1:

Quicker merupakan startup yang bertugas untuk membantu para startup lain mendapatkan dana hibah dari pemerintah. Umumnya, lama proses penyerahan berkas hingga dana dicairkan adalah 215 hari dan standar deviasinya 24 hari. Ada 35 perusahaan startup yang ingin mencoba jasa dari quicker, dan hasilnya rata-rata lama proses pencairan dananya adalah 178 hari.

Pertanyaannya, apakah durasi 178 hari tersebut benar menyimpang dari populasinya? apakah quicker benar-benar efektif menangani proses pencairan dana hibah pemerintah? (gunakan tingkat kepercayaan 95%).

Jawab :

Perumusan hipotesis

\(H_0\) : quicker memiliki rata-rata pendanaan lebih lama atau sama dengan rata-rata umumnya (mean >= 215)
\(H_1\) : quicker memiliki rata-rata pendanaan lebih cepat dari rata-rata umumnya (mean < 215)

Hitung nilai z-score dan p-value

pnorm(q = 178, mean = 215, sd = 24, lower.tail = T)

#> [1] 0.06157731

Bandingkan nilai p-value dengan alpha

p-value(0.06) > alpha(0.05)

Kesimpulan

Karena nilai p-value lebih besar dari nilai alpha, maka keputusan yang diambil adalah gagal tolak \(H_0\) dimana artinya adalah quicker memiliki rata-rata pendanaan lebih lama atau sama dengan rata-rata pendanaan umumnya atau rata-rata pendanaan quicker tidak berbeda secaara signifikan terhadap rata-rata pendanaan umunya.

Latihan 2:

Lozy merupakan sebuah usaha yang bergerak dibidang fashion. Untuk memasarkan productnya, Lozy memasarkan product lewat digital platform dengan menggunakan seorang influencer untuk menjadi model pemasaran product Lozy. Sebelum menggunakan influenser tersebut, rata-rata likes yang diterima di digital platform Lozy sebesar 14000 likes dengan standar deviasi sebesar 5500 namun setelah menggunakan influencer tersebut dari 40 postingan yang ada ]rata-rata likes yang diterima oleh Lozy menjadi 20000. Sebagai tim marketing, kita ingin menganalisis apakah influencer tersebut memang secara signifkan menaikkan engagement dari konsumer Lozy atau tidak? Kita akan coba gunakan alpha 5%.

Jawab:

Tentukan hypothesis

\(H_0\) :
\(H_1\) :

Hitung nilai z score dan pvalue
bandingkan pvalue dengan alpha
kesimpulan

T-Test

T-test merupakan suatu uji yang digunakan untuk melakukan pengujian signifikansi. T-test digunakan ketika :

sampel yang dimiliki < 30
standar deviasi dari populasi tidak diketahui
fungsi untuk melakukan t-test yaitu t.test()

Contoh 3:

Masih dengan case sama, misalkan sejauh ini terdapat 10 start up yang telah menggunakan jasa quicker, dan berikut ini merupakan durasi waktu yang dibutuhkan masing masing start up sampai mendapatkan dana hibah dari pemerintah.

duration <- c(184, 181, 230, 169, 158, 204, 220, 197, 219, 223)

Pertanyaannya, apakah ketika menggunakan jasa quicker akan menghabiskan waktu lebih singkat untuk memperoleh pendanaan dari pemerintah?

Jawab:

Perumusan hyphotesis

\(H_0\) : quicker memiliki masa pendanaan lebih lama atau sama dengan rata-rata pendanaan umumnya
\(H_1\) : quicker memiliki masa pendanaan lebih cepat dengan rata-rata pendanaan umumnya

Hitung T-test

t.test(duration, mu = 215, alternative = "less")

#> 
#>  One Sample t-test
#> 
#> data:  duration
#> t = -2.1041, df = 9, p-value = 0.03234
#> alternative hypothesis: true mean is less than 215
#> 95 percent confidence interval:
#>     -Inf 212.875
#> sample estimates:
#> mean of x 
#>     198.5

Kesimpulan:

Karena nilai p-value(0.03) < alpha(0.05), oleh karena itu keputusan yang diambil yaitu tolak \(H_0\), artinya masa pendanaan yang dilakukan oleh quicker lebih cepat dibandingkan dengan rata-rata pendanaan umumnya atau masa pendanaan yang dilakukan quicker berbeda secara signifikan dari rata-rata pendanaan umumnya.

Practical Statistics : In-class materials

Inayatus

December 21, 2020

Training Objective

Statistika Descriptive

Ukuran Pemusatan Data

Mean

Trimmed Mean

Median

Modus

Ukuran Sebaran Data

Variansi

Standar deviasi

Range

IQR (Inter Quantile Range)

Boxplot

Covariance and Correlation

Day 2

Normal Distribution

Statistics Inference

Probability Mass Function

Probability Density Function (pdf)

Confidence Interval

Standard Error

Uji Hipotesis

T-Test