ADS - Analisis Data Statistik

Albani

2024-03-03

Pendahuluan


Kontak
Name Albani
E-mail
LinkedIn Profil LinkedIn Al Bani
Rpubs Rpubs
IG Instagram

Sebelum mulai ada beberapa hal yang ingin saya sampaikan :

  • Ubah ADS halaman 1.3, 1.5, 1.6, 1.9, 120, 121 (tolong di coret)
  • Saya hanya mahasiswa biasa
  • Malam ini adalah tentang diskusi bersama bukan tentang siapa yang lebih jago.

WHAT ADS IS ??

Analisis data statistik adalah proses menyelidiki, menganalisis, dan menafsirkan data menggunakan berbagai teknik statistik untuk mendapatkan pemahaman yang lebih dalam tentang fenomena yang diamati. Tujuan utamanya adalah untuk mengidentifikasi pola, hubungan, dan tren yang tersembunyi dalam data, serta untuk membuat inferensi atau prediksi yang dapat digunakan untuk mengambil keputusan yang terinformasi.

Apa yang akan di pelajari pada BAB ini ??

  1. Menyusun angka
  2. Ringkasan data
  3. Penggunaan ringkasan data
  4. Transformasi data

Pertemuan selanjutnya :

  1. Sample Random dan Distribusi teoritis
  2. Uji hipotesis
  3. Regresi
  4. Analisis data kategorik
  5. Analsis Elementer dan analisis variansi dua arah

ADS PREPARATION

Apa yang harus di persiapkan untuk memulai ADS ?

Data dan Pengumpulannya

Sudah ada di materi metode pengumpulan data, apakah masih ingat ?? jika masih ingat mari diskusi..

1. Kapan kita menggunakan data primer dan data sekunder ??

2. Kenapa harus kita harus melakukan sampling ??

3. Apakah ada kumpulan data set untuk praktik (ada di materi modul 3)

Oh iya saya sudah menulis sedikit sekali tentang data, insyaallah akan di banyakin bisa cek dengan cara klik Disini.

ADS TOOLS

R dan aplikasi lainnya memang sangat penting, namun jangan pernah meninggalkan Excel ~ Rangga Pratama head of Starcore analytics
  1. EXCEL
Excel
Excel
  1. R & Py
R
R
  1. Lainnya

Buanyak bangett cari aja di Google

ADS

Sesi ini mengenai tentang data Cleaning and Data Preparation

Chank1
Chank1
  Perlu di ingat, eksplorasi data bukan sekedar tentang berapa rata-ratanya, berapa nilai tertinggi dan terendahnya !! tapi lebih dari itu yakni berkenalan lebih dalam tentang data.

Modul 1

Membahas tentang Menyusun angka.

Menyusunnya dalam bentuk angkatan (Batch) dan diagram batang dan daun.

Harapan dari modul kegiatan 1 adalah : mampu mengambil angka yang menjadi perhatian, menentukan unit unit analisis menyederhanakan dan mengurutkan

Harapan dari modul kegiatan 2 adalah : Menyajikan data serta mengambil sari informasi dari angka tersebut

saya sudah menyiapkan mini projek :

Perhatikan gambar berikut : Data set

Mini projek :

  • Jadikan dalam bentuk tabular (Bebas menggunakan aplikasi apapun)
  • Ambil sari Informasi (Buatlah dalam bentuk table)
  • Kerjakan dalam 10 Menit
  • kumpulkan filenya dengan cara Klik di sini

Modul 2

Membahas tentang Ringkasan Numerik.

Ringkasan numerik di bedakan menjadi 2 jenis :

  1. Pusat data, yang terdiri dari:
  • Mean

rata-rata = \(\frac{\sum{x_i}}{n}\)

Nilai pusat data, biasanya di gunakan seperti :

  • Rata-rata uang yang di hasilkan dalam 1 bulan adalah 271 Triliun
  • Rata-rata IPK mhs Statistik adalah 1.5

Perlu di ingat, rata rata ini hanya bisa di gunakan untuk data numerik atau kuantitatif. data kualitatif tidak bisa di hitung rata-ratanya. gak percaya? mari kita coba :

Jika dalam diskusi kali ini terdapat 15 orang L dan 9 orang P aturan matematika adalah kualitatif tidak bisa di lakukan operasi aritmatika.

sehingga kalau kita paksakan kita rubah dari L = 1 dan P = 2 maka kita bisa hitung :

rata-rata = \(\frac{\sum{(15*1)+(9*2)}}{15+9}= \frac{{33}}{24}=1.375\)

1.375 ini apa? sedangkan hanya ada 2 kategori L sm P, kan tidak mungkin setengah dewa.

  • Median

Median atau nilai tengah. cara menghitungnya :

  • Urutkan data: 3, 4, 5, 6, 7, 8, 9, 12.
  • Karena jumlah data (n) adalah genap (8), median adalah rata-rata dari dua nilai tengah, yaitu \(\frac{{(6 + 7)}} {2} = 6.5\).

Kapan di gunakan?

Mencari harga terbaik : contoh kita mau membeli rumah dengan harga yang fantastis karena lengkap dengan perabotan. Jika terdapat beberapa properti mewah dengan harga yang jauh lebih tinggi daripada properti lainnya, median harga rumah mungkin memberikan gambaran yang lebih baik tentang harga “tengah” di daerah tersebut daripada rata-rata harga rumah.

  • Trirata

Langkah-langkahnya:

  • Urutkan data: 2,5,7,10,13,17,18,20.

  • Tentukan posisi kuartil:

    n=jumlah data=8

    Q1=posisi data 25% * n Q2=posisi data 50% * n Q3=posisi data 75% * n

  • Tentukan nilai kuartil:

  • Q1=data ke 2=5

  • Q2=data ke 4=10

  • Q3=data ke 6=17

nilai Q1, Q2, dan Q3 memberikan wawasan yang berharga tentang sebaran, kecenderungan, dan karakteristik data, yang dapat membantu dalam pengambilan keputusan yang lebih baik dan pemahaman yang lebih baik tentang fenomena yang diamati.

  • Modus

Modusadalah nilai atau nilai-nilai yang paling sering muncul dalam sebuah distribusi data. Mengetahui modus membantu kita memahami nilai yang paling umum atau dominan dalam data tersebut.

rata-rata digunakan untuk memberikan gambaran tentang nilai pusat dari distribusi data, sementara modus digunakan untuk mengidentifikasi nilai yang paling umum atau dominan dalam data.

Contoh kasus untuk modus :

sebagai market research kita ingin mengetahui produk mana yang paling laku. bagaimana caranya? otomatis item yang paling banyak di beli bukan? ini linear dengan pengertian Modus

  1. Sebaran data, yang terdiri dari :
  • Range

Interfal data, dalam perusahaan biasa di tanya ini estimasi selesai di kerjakannya berapa lama? kita bisa menjawab di interfal 2-5 jam pak.

\(\int_{1}^{3}x\)

  • Variansi & Standar Deviasi

Variance : Nilai variance memberikan gambaran tentang seberapa besar variasi total dalam data. Namun, karena diukur dalam satuan kuadrat, nilai variance mungkin sulit diinterpretasikan secara intuitif.

Standar Deviasi : Standar deviasi memberikan ukuran dispersi yang lebih intuitif, karena diukur dalam satuan yang sama dengan data aslinya. Ini memberikan informasi tentang sejauh mana nilai-nilai individual bervariasi dari rata-rata dalam satuan yang dapat dimengerti.

  • Koefisien Varainsi

Ingat kembali salah satu rasio yang biasa digunakan dalam statistika yang berguna untuk melihat sebaran data dari rata-rata hitungnya. Rasio tersebut disebut sebagai koefisien variasi.

Formulanya adalah :

\(kv=\frac{{sd}}{mean}*100\)

Semakin kecil rasio koefisien variasi, maka kita bisa simpulkan bahwa data semakin homogen. Sementara sebaliknya, semakin besar nilai rasionya maka data akan semakin heterogen.

Modul 3

Membahas tentang Penggunaan ringkasan numerik

Contoh Case :

library(readr)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.3     ✔ purrr     1.0.2
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.4     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(dplyr)
library(vtable)
## Warning: package 'vtable' was built under R version 4.3.3
## Loading required package: kableExtra
## Warning: package 'kableExtra' was built under R version 4.3.3
## 
## Attaching package: 'kableExtra'
## 
## The following object is masked from 'package:dplyr':
## 
##     group_rows
library(pastecs)
## Warning: package 'pastecs' was built under R version 4.3.3
## 
## Attaching package: 'pastecs'
## 
## The following objects are masked from 'package:dplyr':
## 
##     first, last
## 
## The following object is masked from 'package:tidyr':
## 
##     extract

Contoh kasus :

Kita punya client bertanya : "Mas saya punya data qty penjualan, mau cek mana ya yang lebih fluktuatif?"
#Membuat data set
set.seed(123)
ADS_dataset1 = rnorm(25, mean = 1000, sd = 100)
ADS_dataset2 = rnorm(25, mean = 150, sd = 100)

ADS = data.frame(ADS_dataset1, ADS_dataset2)
sumtable(ADS)
Summary Statistics
Variable N Mean Std. Dev. Min Pctl. 25 Pctl. 75 Max
ADS_dataset1 25 997 95 803 937 1046 1179
ADS_dataset2 25 160 92 -19 110 232 367

Fluktuatif artinya data lebih menyebar (tidak homogen). semakin fluktuatif artinya datanya tidak stabil.

dengan bantuan KF kita bisa melihat data mana yang tidak stabil.

stat.desc(ADS)
##              ADS_dataset1 ADS_dataset2
## nbr.val      2.500000e+01   25.0000000
## nbr.null     0.000000e+00    0.0000000
## nbr.na       0.000000e+00    0.0000000
## min          8.033383e+02  -18.6693311
## max          1.178691e+03  366.8955965
## range        3.753530e+02  385.5649276
## sum          2.491667e+04 4005.3434972
## median       9.782025e+02  143.8088289
## mean         9.966670e+02  160.2137399
## SE.mean      1.893465e+01   18.3774673
## CI.mean.0.95 3.907919e+01   37.9292283
## var          8.963022e+03 8443.2825782
## std.dev      9.467324e+01   91.8873363
## coef.var     9.498984e-02    0.5735297

Terlihat data di atas dataset1 lebih besar dari pada dataset2 sehingga dapat kita simpulkan bahwa data set1 lebih fluktuatif. Artinya dataset2 lebih homogen atau stabil.

Dengan menggunakan R kita bisa menghitung data dengan gampang pengguna Py minggir dulu.

TAMBAHAN

Membuat grafik as tableau

membuat Grafik mudah di R seperti proplayer degan menggunan package berikut.

library(esquisse)
#esquisser(data)

Data set dalam R

Untuk latihan data kumpulan data set yang di sediakan R bisa di cek dengan package berikut.

library(datasets)
data()

data(package = .packages(all.available = TRUE))

Modul 4

Transformasi data

Pendahuluan

Di hampir semua analisis statistik dan pembelajaran mesin, perlu dilakukan beberapa transformasi data (yaitu transformasi data, penskalaan, pemusatan, standardisasi, dan normalisasi) pada data mentah (namun rapi dan bersih!) sebelum dapat digunakan untuk pemodelan.

Pengertian Transformasi

Transformasi data sering kali merupakan syarat untuk melanjutkan analisis statistik. Berikut adalah situasi di mana kita mungkin memerlukan transformasi:

  1. Kita mungkin perlu mengubah skala suatu variabel atau menstandardisasi nilai suatu variabel untuk pemahaman yang lebih baik.

  2. Kita mungkin perlu mengubah hubungan non-linier yang kompleks menjadi hubungan linier. Transformasi membantu kita mengubah hubungan non-linier menjadi hubungan linier.

  3. Dalam inferensi statistik, distribusi simetris (normal) lebih disukai daripada distribusi miring. Selain itu, beberapa teknik analisis statistik (yaitu uji parametrik, regresi linier, dll) memerlukan distribusi variabel yang normal dan homogenitas varians. Jadi, setiap kali kita mempunyai distribusi yang miring dan/atau variansi yang heterogen, kita dapat menggunakan transformasi yang dapat mengurangi kecondongan dan/atau heterogenitas varians.

Macam-macam Transformasi

Macam macam transformasi ini di gunakan sesuai kebutuhan data set kita, karna beda kebutuhan beda juga jenis transdformasi yang umum di gunakan. Dalam konten ini akan hanya ada 3 contoh study case saja karena memang menurut saya jenis transformasi yang sering di gunakan adalah 3 itu saja.

  • Tansformasi Logaritmik

Menggunakan logaritma dari nilai-nilai data. Ini berguna untuk menangani data dengan skala yang sangat luas atau data yang memiliki distribusi miring ke satu arah.

  • Differencing

Mengambil perbedaan antara nilai-nilai data pada waktu yang berbeda untuk menghilangkan tren atau musiman dalam data temporal. nah ini biasa di pakai untuk memenuhi asumsi dalam pembuatan model time series

  • Transformasi Kuadrat

Menggunakan nilai kuadrat dari data. Transformasi ini dapat membantu dalam mengatasi masalah heteroskedastisitas, di mana varians data tidak konstan.

Heteroskedastisitas adalah istilah dalam statistika yang digunakan untuk menggambarkan ketidakseragaman varians dari residual (kesalahan) dalam sebuah model regresi atau analisis data.

Simpelnya heterogen dah itu..

  • Transformasi Akar Kuadrat

Menggunakan akar kuadrat dari nilai-nilai data. Ini sering digunakan untuk mengurangi kebuntuan dalam distribusi data.

kebuntuan yang di maksud adalahnilai-nilai dalam dataset cenderung terkumpul di salah satu sisi distribusi, sehingga distribusi data menjadi miring atau tidak simetris.  
  • Transformasi Box-Cox

Transformasi statistik yang dapat mengubah distribusi data menjadi lebih normal. Parameter lambda digunakan untuk menyesuaikan transformasi berdasarkan data. Box-Cox adalah alat yang berguna dalam analisis statistik untuk menormalkan distribusi data dan meningkatkan kecocokan model regresi atau analisis lainnya. Namun, penting untuk diingat bahwa transformasi ini tidak selalu berhasil untuk semua jenis data, dan terkadang beberapa variasi transformasi atau pendekatan alternatif mungkin diperlukan.

  • Standarisasi (Z-score Transformation)

Mengubah nilai-nilai data sehingga memiliki rata-rata nol dan simpangan baku satu. Ini berguna dalam membandingkan variabel yang diukur dalam unit yang berbeda atau memiliki skala yang besar.

  • Normalisasi (Min-Max Scaling)

Mengubah nilai-nilai data ke dalam rentang tertentu, seperti [0, 1] atau [-1, 1]. Ini memungkinkan data memiliki skala yang seragam.

  • Pengurutan Rangking (Rank Transformation)

Mengganti setiap nilai dalam dataset dengan peringkat atau rangking relatifnya dalam dataset. Ini berguna dalam mengatasi asimetri atau anomali dalam data.

  • Winsorization

Mengganti nilai-nilai outlier dengan nilai-nilai tertentu yang berada di kuartil tertentu dari distribusi data. Ini membantu mengurangi dampak outlier terhadap analisis statistik.

Study case

Study case ini isinya beberapa contoh yang sering kita dapatkan ketika dalam membuat model.

Persiapan

PACKAGE

library(tidyverse)
library(dplyr)
library(readr)
# library for data set
library(datasets)
library(boot)
library(agricolae)
## Warning: package 'agricolae' was built under R version 4.3.3
library(BSDA)
## Loading required package: lattice
## 
## Attaching package: 'lattice'
## The following object is masked from 'package:boot':
## 
##     melanoma
## 
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':
## 
##     Orange

Data set

Mencari contoh data set dalam statistika bukanlah hal yang sulit, dengan R kita bisa mendapatkan ribuan data set. kita bisa menginstall package (datasets, ggplot2, lubridate, dplyr). cek di sub bab tambahan,

Let’s Go

Mari menggunakan contoh contoh untuk transformasi data, perlu di ingat konten ini tidak akan membahas semuanya, namun akan membahas yang umum dan akan sering kita pakai dalam kehidupan akhirat, eh maksudnya sehari hari.

Transformasi data dengan logaritma

y = log(x)

Begitulah fungsinya, namun perlu diingat, Yang perlu diperhatikan adalah bahwa transformasi logaritma hanya berlaku untuk nilai-nilai yang positif, karena logaritma dari nol atau nilai negatif tidak terdefinisi dalam matematika. Sebagai alternatif, Anda bisa menggunakan transformasi Box-Cox untuk menangani data yang berisi nilai nol atau negatif.

Transformasi logaritma kita gunakan ketika data kita berdistribusi berada di 1 arah, contohnya kiri atau kanan, contohnya sperti di bawah ini.

head(esoph,6)
##   agegp     alcgp    tobgp ncases ncontrols
## 1 25-34 0-39g/day 0-9g/day      0        40
## 2 25-34 0-39g/day    10-19      0        10
## 3 25-34 0-39g/day    20-29      0         6
## 4 25-34 0-39g/day      30+      0         5
## 5 25-34     40-79 0-9g/day      0        27
## 6 25-34     40-79    10-19      0         7
contohxx2 = esoph %>% 
  select(ncases, ncontrols)
# summary sebelum di tranformasi
summary(contohxx2)
##      ncases         ncontrols     
##  Min.   : 0.000   Min.   : 0.000  
##  1st Qu.: 0.000   1st Qu.: 1.000  
##  Median : 1.000   Median : 4.000  
##  Mean   : 2.273   Mean   : 8.807  
##  3rd Qu.: 4.000   3rd Qu.:10.000  
##  Max.   :17.000   Max.   :60.000
plot(contohxx2, pch =16, col = "darkgreen",  xlab ="ncases", ylab =  "ncontrols", main = "Sebelum di transformasi")
text(x=15, y=50, labels = "**hanya untuk contoh saja yak...**", pos =2,5, col = "red", cex = 0.9)

kelihatan kan plot di atas cenderung ke kiri, nah dengan transformation log, kita bisa membuatnya menjadi menyebar ketengah. Mari kita coba untuk lakukan transformasi.

log_transform = log(contohxx2, base =10)
plot(log_transform, pch =16, col = "darkred", main = "setelah di transformasi")

# Summary setelah di transformasi
summary(log_transform)
##      ncases         ncontrols     
##  Min.   :  -Inf   Min.   :  -Inf  
##  1st Qu.:  -Inf   1st Qu.:0.0000  
##  Median :0.0000   Median :0.6021  
##  Mean   :  -Inf   Mean   :  -Inf  
##  3rd Qu.:0.6021   3rd Qu.:1.0000  
##  Max.   :1.2304   Max.   :1.7782

Karena data yang di gunakan ada angka 0, sebenarnya Transformasi log tidak bisa di gunakan. jadi kita harus menggunakan transformasi Box-Cox.

Transformasi data dengan Diferencing

Transformasi ini banyak di gunakan untuk data yang akan digunakan untuk membuat model dalam analisis time series, transformasi ini di jalankan ketika data set yang kita punya tidak stasioner. penjelasan tentang stasioner akan dibahas di konten yang lain.

summary(ldeaths)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1300    1552    1870    2057    2552    3891
plot(ldeaths, main = "Contoh sebelum di transformasi")

karena di atas hanya contoh, bayangkan saja data di atas tidak stasioner. selanjutnya.

#data sebelum di Transformasi
head(ldeaths)
## [1] 3035 2552 2704 2554 2014 1655
diff_transformation = diff(ldeaths)
# data setelah di transformai
head(diff_transformation)
## [1] -483  152 -150 -540 -359   66
plot(diff_transformation, main = "plot setelah di transformasi")

nah begitulah caranya transformasi data di R, masalah penjelasan stasioiner akan di pelajari di time series.

