Pendahuluan
Sebelum mulai ada beberapa hal yang ingin saya sampaikan :
- Ubah ADS halaman 1.3, 1.5, 1.6, 1.9, 120, 121 (tolong di coret)
- Saya hanya mahasiswa biasa
- Malam ini adalah tentang diskusi bersama bukan tentang siapa yang
lebih jago.
WHAT ADS IS ??
Analisis data statistik adalah proses menyelidiki, menganalisis, dan
menafsirkan data menggunakan berbagai teknik statistik untuk mendapatkan
pemahaman yang lebih dalam tentang fenomena yang diamati. Tujuan
utamanya adalah untuk mengidentifikasi pola, hubungan, dan tren yang
tersembunyi dalam data, serta untuk membuat inferensi atau prediksi yang
dapat digunakan untuk mengambil keputusan yang terinformasi.
Apa yang akan di pelajari pada BAB ini ??
- Menyusun angka
- Ringkasan data
- Penggunaan ringkasan data
- Transformasi data
Pertemuan selanjutnya :
- Sample Random dan Distribusi teoritis
- Uji hipotesis
- Regresi
- Analisis data kategorik
- Analsis Elementer dan analisis variansi dua arah
ADS PREPARATION
Apa yang harus di persiapkan untuk memulai ADS ?
Data dan Pengumpulannya
Sudah ada di materi metode pengumpulan data, apakah masih ingat
?? jika masih ingat mari diskusi..
1. Kapan kita menggunakan data primer dan data sekunder
??
2. Kenapa harus kita harus melakukan sampling ??
3. Apakah ada kumpulan data set untuk praktik (ada di materi
modul 3)
Oh iya saya sudah menulis sedikit sekali tentang data, insyaallah
akan di banyakin bisa cek dengan cara klik Disini.
ADS
Sesi ini mengenai tentang data Cleaning and Data Preparation
Chank1
Perlu di ingat, eksplorasi data bukan sekedar tentang berapa rata-ratanya, berapa nilai tertinggi dan terendahnya !! tapi lebih dari itu yakni berkenalan lebih dalam tentang data.
Modul 1
Membahas tentang Menyusun angka.
Menyusunnya dalam bentuk angkatan (Batch) dan diagram batang dan
daun.
Harapan dari modul kegiatan 1 adalah : mampu mengambil angka
yang menjadi perhatian, menentukan unit unit analisis menyederhanakan
dan mengurutkan
Harapan dari modul kegiatan 2 adalah : Menyajikan data serta
mengambil sari informasi dari angka tersebut
saya sudah menyiapkan mini projek :
Perhatikan gambar berikut : 
Mini projek :
- Jadikan dalam bentuk tabular (Bebas menggunakan aplikasi
apapun)
- Ambil sari Informasi (Buatlah dalam bentuk table)
- Kerjakan dalam 10 Menit
- kumpulkan filenya dengan cara Klik di sini
Modul 2
Membahas tentang Ringkasan Numerik.
Ringkasan numerik di bedakan menjadi 2 jenis :
- Pusat data, yang terdiri dari:
rata-rata = \(\frac{\sum{x_i}}{n}\)
Nilai pusat data, biasanya di gunakan seperti :
- Rata-rata uang yang di hasilkan dalam 1 bulan adalah
271 Triliun
- Rata-rata IPK mhs Statistik adalah 1.5
Perlu di ingat, rata rata ini hanya bisa di gunakan untuk data
numerik atau kuantitatif. data kualitatif tidak bisa di hitung
rata-ratanya. gak percaya? mari kita coba :
Jika dalam diskusi kali ini terdapat 15 orang L dan 9
orang P aturan matematika adalah kualitatif tidak bisa di
lakukan operasi aritmatika.
sehingga kalau kita paksakan kita rubah dari L = 1 dan
P = 2 maka kita bisa hitung :
rata-rata = \(\frac{\sum{(15*1)+(9*2)}}{15+9}=
\frac{{33}}{24}=1.375\)
1.375 ini apa? sedangkan hanya ada 2 kategori
L sm P, kan tidak mungkin setengah dewa.
Median atau nilai tengah. cara menghitungnya :
- Urutkan data: 3, 4, 5, 6, 7, 8, 9, 12.
- Karena jumlah data (n) adalah genap (8), median adalah rata-rata
dari dua nilai tengah, yaitu \(\frac{{(6 +
7)}} {2} = 6.5\).
Kapan di gunakan?
Mencari harga terbaik : contoh kita mau membeli rumah dengan harga
yang fantastis karena lengkap dengan perabotan. Jika terdapat beberapa
properti mewah dengan harga yang jauh lebih tinggi daripada properti
lainnya, median harga rumah mungkin memberikan gambaran yang lebih baik
tentang harga “tengah” di daerah tersebut daripada rata-rata harga
rumah.
Langkah-langkahnya:
Urutkan data: 2,5,7,10,13,17,18,20.
Tentukan posisi kuartil:
n=jumlah data=8
Q1=posisi data 25% * n Q2=posisi data
50% * n Q3=posisi data 75% * n
Tentukan nilai kuartil:
Q1=data ke 2=5
Q2=data ke 4=10
Q3=data ke 6=17
nilai Q1, Q2, dan Q3 memberikan wawasan yang berharga tentang
sebaran, kecenderungan, dan karakteristik data, yang dapat membantu
dalam pengambilan keputusan yang lebih baik dan pemahaman yang lebih
baik tentang fenomena yang diamati.
Modusadalah nilai atau nilai-nilai yang paling sering muncul dalam
sebuah distribusi data. Mengetahui modus membantu kita memahami nilai
yang paling umum atau dominan dalam data tersebut.
rata-rata digunakan untuk memberikan gambaran tentang nilai pusat
dari distribusi data, sementara modus digunakan untuk mengidentifikasi
nilai yang paling umum atau dominan dalam data.
Contoh kasus untuk modus :
sebagai market research kita ingin mengetahui produk mana yang paling
laku. bagaimana caranya? otomatis item yang paling banyak di beli bukan?
ini linear dengan pengertian Modus
- Sebaran data, yang terdiri dari :
Interfal data, dalam perusahaan biasa di tanya ini estimasi selesai
di kerjakannya berapa lama? kita bisa menjawab di interfal 2-5 jam
pak.
\(\int_{1}^{3}x\)
- Variansi & Standar Deviasi
Variance : Nilai variance memberikan gambaran tentang seberapa besar
variasi total dalam data. Namun, karena diukur dalam satuan kuadrat,
nilai variance mungkin sulit diinterpretasikan secara intuitif.
Standar Deviasi : Standar deviasi memberikan ukuran dispersi yang
lebih intuitif, karena diukur dalam satuan yang sama dengan data
aslinya. Ini memberikan informasi tentang sejauh mana nilai-nilai
individual bervariasi dari rata-rata dalam satuan yang dapat
dimengerti.
Ingat kembali salah satu rasio yang biasa digunakan dalam statistika
yang berguna untuk melihat sebaran data dari rata-rata hitungnya. Rasio
tersebut disebut sebagai koefisien variasi.
Formulanya adalah :
\(kv=\frac{{sd}}{mean}*100\)
Semakin kecil rasio koefisien variasi, maka kita bisa simpulkan bahwa
data semakin homogen. Sementara sebaliknya, semakin besar nilai rasionya
maka data akan semakin heterogen.
Modul 3
Membahas tentang Penggunaan ringkasan numerik
Contoh Case :
library(readr)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.3 ✔ purrr 1.0.2
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.4 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(dplyr)
library(vtable)
## Warning: package 'vtable' was built under R version 4.3.3
## Loading required package: kableExtra
## Warning: package 'kableExtra' was built under R version 4.3.3
##
## Attaching package: 'kableExtra'
##
## The following object is masked from 'package:dplyr':
##
## group_rows
library(pastecs)
## Warning: package 'pastecs' was built under R version 4.3.3
##
## Attaching package: 'pastecs'
##
## The following objects are masked from 'package:dplyr':
##
## first, last
##
## The following object is masked from 'package:tidyr':
##
## extract
Contoh kasus :
Kita punya client bertanya : "Mas saya punya data qty penjualan, mau cek mana ya yang lebih fluktuatif?"
#Membuat data set
set.seed(123)
ADS_dataset1 = rnorm(25, mean = 1000, sd = 100)
ADS_dataset2 = rnorm(25, mean = 150, sd = 100)
ADS = data.frame(ADS_dataset1, ADS_dataset2)
sumtable(ADS)
Summary Statistics
|
Variable
|
N
|
Mean
|
Std. Dev.
|
Min
|
Pctl. 25
|
Pctl. 75
|
Max
|
|
ADS_dataset1
|
25
|
997
|
95
|
803
|
937
|
1046
|
1179
|
|
ADS_dataset2
|
25
|
160
|
92
|
-19
|
110
|
232
|
367
|
Fluktuatif artinya data lebih menyebar (tidak homogen). semakin
fluktuatif artinya datanya tidak stabil.
dengan bantuan KF kita bisa melihat data mana yang tidak stabil.
stat.desc(ADS)
## ADS_dataset1 ADS_dataset2
## nbr.val 2.500000e+01 25.0000000
## nbr.null 0.000000e+00 0.0000000
## nbr.na 0.000000e+00 0.0000000
## min 8.033383e+02 -18.6693311
## max 1.178691e+03 366.8955965
## range 3.753530e+02 385.5649276
## sum 2.491667e+04 4005.3434972
## median 9.782025e+02 143.8088289
## mean 9.966670e+02 160.2137399
## SE.mean 1.893465e+01 18.3774673
## CI.mean.0.95 3.907919e+01 37.9292283
## var 8.963022e+03 8443.2825782
## std.dev 9.467324e+01 91.8873363
## coef.var 9.498984e-02 0.5735297
Terlihat data di atas dataset1 lebih besar dari pada
dataset2 sehingga dapat kita simpulkan bahwa
data set1 lebih fluktuatif. Artinya
dataset2 lebih homogen atau
stabil.
Dengan menggunakan R kita bisa menghitung data dengan
gampang pengguna Py minggir dulu.
TAMBAHAN
Membuat grafik as tableau
membuat Grafik mudah di R seperti proplayer degan menggunan package
berikut.
library(esquisse)
#esquisser(data)
Data set dalam R
Untuk latihan data kumpulan data set yang di sediakan R bisa di cek
dengan package berikut.
library(datasets)
data()
data(package = .packages(all.available = TRUE))
Modul 4
Transformasi data
Pendahuluan
Di hampir semua analisis statistik dan pembelajaran mesin, perlu
dilakukan beberapa transformasi data (yaitu transformasi data,
penskalaan, pemusatan, standardisasi, dan normalisasi) pada data mentah
(namun rapi dan bersih!) sebelum dapat digunakan untuk pemodelan.
Macam-macam Transformasi
Macam macam transformasi ini di gunakan sesuai kebutuhan data set
kita, karna beda kebutuhan beda juga jenis transdformasi yang umum di
gunakan. Dalam konten ini akan hanya ada 3 contoh study case saja karena
memang menurut saya jenis transformasi yang sering di gunakan adalah 3
itu saja.
Menggunakan logaritma dari nilai-nilai data. Ini berguna untuk
menangani data dengan skala yang sangat luas atau data yang memiliki
distribusi miring ke satu arah.
Mengambil perbedaan antara nilai-nilai data pada waktu yang berbeda
untuk menghilangkan tren atau musiman dalam data temporal. nah ini biasa
di pakai untuk memenuhi asumsi dalam pembuatan model
time series
Menggunakan nilai kuadrat dari data. Transformasi ini dapat membantu
dalam mengatasi masalah heteroskedastisitas, di mana varians data tidak
konstan.
Heteroskedastisitas adalah istilah dalam statistika yang digunakan untuk menggambarkan ketidakseragaman varians dari residual (kesalahan) dalam sebuah model regresi atau analisis data.
Simpelnya heterogen dah itu..
- Transformasi Akar Kuadrat
Menggunakan akar kuadrat dari nilai-nilai data. Ini sering digunakan
untuk mengurangi kebuntuan dalam distribusi data.
kebuntuan yang di maksud adalahnilai-nilai dalam dataset cenderung terkumpul di salah satu sisi distribusi, sehingga distribusi data menjadi miring atau tidak simetris.
Transformasi statistik yang dapat mengubah distribusi data menjadi
lebih normal. Parameter lambda digunakan untuk menyesuaikan transformasi
berdasarkan data. Box-Cox adalah alat yang berguna dalam analisis
statistik untuk menormalkan distribusi data dan meningkatkan kecocokan
model regresi atau analisis lainnya. Namun, penting untuk diingat bahwa
transformasi ini tidak selalu berhasil untuk semua jenis data, dan
terkadang beberapa variasi transformasi atau pendekatan alternatif
mungkin diperlukan.
- Standarisasi (Z-score Transformation)
Mengubah nilai-nilai data sehingga memiliki rata-rata nol dan
simpangan baku satu. Ini berguna dalam membandingkan variabel yang
diukur dalam unit yang berbeda atau memiliki skala yang besar.
- Normalisasi (Min-Max Scaling)
Mengubah nilai-nilai data ke dalam rentang tertentu, seperti [0, 1]
atau [-1, 1]. Ini memungkinkan data memiliki skala yang seragam.
- Pengurutan Rangking (Rank Transformation)
Mengganti setiap nilai dalam dataset dengan peringkat atau rangking
relatifnya dalam dataset. Ini berguna dalam mengatasi asimetri atau
anomali dalam data.
Mengganti nilai-nilai outlier dengan nilai-nilai tertentu yang berada
di kuartil tertentu dari distribusi data. Ini membantu mengurangi dampak
outlier terhadap analisis statistik.
Study case
Study case ini isinya beberapa contoh yang sering kita dapatkan
ketika dalam membuat model.
Persiapan
PACKAGE
library(tidyverse)
library(dplyr)
library(readr)
# library for data set
library(datasets)
library(boot)
library(agricolae)
## Warning: package 'agricolae' was built under R version 4.3.3
library(BSDA)
## Loading required package: lattice
##
## Attaching package: 'lattice'
## The following object is masked from 'package:boot':
##
## melanoma
##
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':
##
## Orange
Data set
Mencari contoh data set dalam statistika bukanlah hal yang sulit,
dengan R kita bisa mendapatkan ribuan data set. kita bisa menginstall
package (datasets, ggplot2, lubridate, dplyr). cek di sub bab
tambahan,
Let’s Go
Mari menggunakan contoh contoh untuk transformasi data, perlu di
ingat konten ini tidak akan membahas semuanya, namun akan membahas yang
umum dan akan sering kita pakai dalam kehidupan akhirat, eh maksudnya
sehari hari.
Transformasi data dengan logaritma
y = log(x)
Begitulah fungsinya, namun perlu diingat, Yang perlu diperhatikan
adalah bahwa transformasi logaritma hanya berlaku untuk nilai-nilai yang
positif, karena logaritma dari nol atau nilai negatif tidak terdefinisi
dalam matematika. Sebagai alternatif, Anda bisa menggunakan transformasi
Box-Cox untuk menangani data yang berisi nilai nol atau
negatif.
Transformasi logaritma kita gunakan ketika data kita berdistribusi
berada di 1 arah, contohnya kiri atau kanan, contohnya sperti di bawah
ini.
head(esoph,6)
## agegp alcgp tobgp ncases ncontrols
## 1 25-34 0-39g/day 0-9g/day 0 40
## 2 25-34 0-39g/day 10-19 0 10
## 3 25-34 0-39g/day 20-29 0 6
## 4 25-34 0-39g/day 30+ 0 5
## 5 25-34 40-79 0-9g/day 0 27
## 6 25-34 40-79 10-19 0 7
contohxx2 = esoph %>%
select(ncases, ncontrols)
# summary sebelum di tranformasi
summary(contohxx2)
## ncases ncontrols
## Min. : 0.000 Min. : 0.000
## 1st Qu.: 0.000 1st Qu.: 1.000
## Median : 1.000 Median : 4.000
## Mean : 2.273 Mean : 8.807
## 3rd Qu.: 4.000 3rd Qu.:10.000
## Max. :17.000 Max. :60.000
plot(contohxx2, pch =16, col = "darkgreen", xlab ="ncases", ylab = "ncontrols", main = "Sebelum di transformasi")
text(x=15, y=50, labels = "**hanya untuk contoh saja yak...**", pos =2,5, col = "red", cex = 0.9)

kelihatan kan plot di atas cenderung ke kiri, nah dengan
transformation log, kita bisa membuatnya menjadi menyebar ketengah. Mari
kita coba untuk lakukan transformasi.
log_transform = log(contohxx2, base =10)
plot(log_transform, pch =16, col = "darkred", main = "setelah di transformasi")

# Summary setelah di transformasi
summary(log_transform)
## ncases ncontrols
## Min. : -Inf Min. : -Inf
## 1st Qu.: -Inf 1st Qu.:0.0000
## Median :0.0000 Median :0.6021
## Mean : -Inf Mean : -Inf
## 3rd Qu.:0.6021 3rd Qu.:1.0000
## Max. :1.2304 Max. :1.7782
Karena data yang di gunakan ada angka 0, sebenarnya Transformasi log
tidak bisa di gunakan. jadi kita harus menggunakan
transformasi Box-Cox.
