Pendahuluan
Sebelum mulai ada beberapa hal yang ingin saya sampaikan :
- Ubah ADS halaman 1.3, 1.5, 1.6, 1.9, 120, 121 (tolong di coret)
- Saya hanya mahasiswa biasa
- Malam ini adalah tentang diskusi bersama bukan tentang siapa yang
lebih jago.
WHAT ADS IS ??
Analisis data statistik adalah proses menyelidiki, menganalisis, dan
menafsirkan data menggunakan berbagai teknik statistik untuk mendapatkan
pemahaman yang lebih dalam tentang fenomena yang diamati. Tujuan
utamanya adalah untuk mengidentifikasi pola, hubungan, dan tren yang
tersembunyi dalam data, serta untuk membuat inferensi atau prediksi yang
dapat digunakan untuk mengambil keputusan yang terinformasi.
Apa yang akan di pelajari pada BAB ini ??
- Menyusun angka
- Ringkasan data
- Penggunaan ringkasan data
- Transformasi data
Pertemuan selanjutnya :
- Sample Random dan Distribusi teoritis
- Uji hipotesis
- Regresi
- Analisis data kategorik
- Analsis Elementer dan analisis variansi dua arah
ADS PREPARATION
Apa yang harus di persiapkan untuk memulai ADS ?
Data dan Pengumpulannya
Sudah ada di materi metode pengumpulan data, apakah masih ingat
?? jika masih ingat mari diskusi..
1. Kapan kita menggunakan data primer dan data sekunder
??
2. Kenapa harus kita harus melakukan sampling ??
3. Apakah ada kumpulan data set untuk praktik (ada di materi
modul 3)
Oh iya saya sudah menulis sedikit sekali tentang data, insyaallah
akan di banyakin bisa cek dengan cara klik Disini.
ADS
Sesi ini mengenai tentang data Cleaning and Data Preparation
Chank1
Perlu di ingat, eksplorasi data bukan sekedar tentang berapa rata-ratanya, berapa nilai tertinggi dan terendahnya !! tapi lebih dari itu yakni berkenalan lebih dalam tentang data.
Modul 1
Membahas tentang Menyusun angka.
Menyusunnya dalam bentuk angkatan (Batch) dan diagram batang dan
daun.
Harapan dari modul kegiatan 1 adalah : mampu mengambil angka
yang menjadi perhatian, menentukan unit unit analisis menyederhanakan
dan mengurutkan
Harapan dari modul kegiatan 2 adalah : Menyajikan data serta
mengambil sari informasi dari angka tersebut
saya sudah menyiapkan mini projek :
Perhatikan gambar berikut : 
Mini projek :
- Jadikan dalam bentuk tabular (Bebas menggunakan aplikasi
apapun)
- Ambil sari Informasi (Buatlah dalam bentuk table)
- Kerjakan dalam 10 Menit
- kumpulkan filenya dengan cara Klik di sini
Modul 2
Membahas tentang Ringkasan Numerik.
Ringkasan numerik di bedakan menjadi 2 jenis :
- Pusat data, yang terdiri dari:
rata-rata = \(\frac{\sum{x_i}}{n}\)
Nilai pusat data, biasanya di gunakan seperti :
- Rata-rata uang yang di hasilkan dalam 1 bulan adalah
271 Triliun
- Rata-rata IPK mhs Statistik adalah 1.5
Perlu di ingat, rata rata ini hanya bisa di gunakan untuk data
numerik atau kuantitatif. data kualitatif tidak bisa di hitung
rata-ratanya. gak percaya? mari kita coba :
Jika dalam diskusi kali ini terdapat 15 orang L dan 9
orang P aturan matematika adalah kualitatif tidak bisa di
lakukan operasi aritmatika.
sehingga kalau kita paksakan kita rubah dari L = 1 dan
P = 2 maka kita bisa hitung :
rata-rata = \(\frac{\sum{(15*1)+(9*2)}}{15+9}=
\frac{{33}}{24}=1.375\)
1.375 ini apa? sedangkan hanya ada 2 kategori
L sm P, kan tidak mungkin setengah dewa.
Median atau nilai tengah. cara menghitungnya :
- Urutkan data: 3, 4, 5, 6, 7, 8, 9, 12.
- Karena jumlah data (n) adalah genap (8), median adalah rata-rata
dari dua nilai tengah, yaitu \(\frac{{(6 +
7)}} {2} = 6.5\).
Kapan di gunakan?
Mencari harga terbaik : contoh kita mau membeli rumah dengan harga
yang fantastis karena lengkap dengan perabotan. Jika terdapat beberapa
properti mewah dengan harga yang jauh lebih tinggi daripada properti
lainnya, median harga rumah mungkin memberikan gambaran yang lebih baik
tentang harga “tengah” di daerah tersebut daripada rata-rata harga
rumah.
Langkah-langkahnya:
Urutkan data: 2,5,7,10,13,17,18,20.
Tentukan posisi kuartil:
n=jumlah data=8
Q1=posisi data 25% * n Q2=posisi data
50% * n Q3=posisi data 75% * n
Tentukan nilai kuartil:
Q1=data ke 2=5
Q2=data ke 4=10
Q3=data ke 6=17
nilai Q1, Q2, dan Q3 memberikan wawasan yang berharga tentang
sebaran, kecenderungan, dan karakteristik data, yang dapat membantu
dalam pengambilan keputusan yang lebih baik dan pemahaman yang lebih
baik tentang fenomena yang diamati.
Modusadalah nilai atau nilai-nilai yang paling sering muncul dalam
sebuah distribusi data. Mengetahui modus membantu kita memahami nilai
yang paling umum atau dominan dalam data tersebut.
rata-rata digunakan untuk memberikan gambaran tentang nilai pusat
dari distribusi data, sementara modus digunakan untuk mengidentifikasi
nilai yang paling umum atau dominan dalam data.
Contoh kasus untuk modus :
sebagai market research kita ingin mengetahui produk mana yang paling
laku. bagaimana caranya? otomatis item yang paling banyak di beli bukan?
ini linear dengan pengertian Modus
- Sebaran data, yang terdiri dari :
Interfal data, dalam perusahaan biasa di tanya ini estimasi selesai
di kerjakannya berapa lama? kita bisa menjawab di interfal 2-5 jam
pak.
\(\int_{1}^{3}x\)
- Variansi & Standar Deviasi
Variance : Nilai variance memberikan gambaran tentang seberapa besar
variasi total dalam data. Namun, karena diukur dalam satuan kuadrat,
nilai variance mungkin sulit diinterpretasikan secara intuitif.
Standar Deviasi : Standar deviasi memberikan ukuran dispersi yang
lebih intuitif, karena diukur dalam satuan yang sama dengan data
aslinya. Ini memberikan informasi tentang sejauh mana nilai-nilai
individual bervariasi dari rata-rata dalam satuan yang dapat
dimengerti.
Ingat kembali salah satu rasio yang biasa digunakan dalam statistika
yang berguna untuk melihat sebaran data dari rata-rata hitungnya. Rasio
tersebut disebut sebagai koefisien variasi.
Formulanya adalah :
\(kv=\frac{{sd}}{mean}*100\)
Semakin kecil rasio koefisien variasi, maka kita bisa simpulkan bahwa
data semakin homogen. Sementara sebaliknya, semakin besar nilai rasionya
maka data akan semakin heterogen.
Modul 3
Membahas tentang Penggunaan ringkasan numerik
Contoh Case :
library(readr)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.3 ✔ purrr 1.0.2
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.4 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(dplyr)
library(vtable)
## Warning: package 'vtable' was built under R version 4.3.3
## Loading required package: kableExtra
## Warning: package 'kableExtra' was built under R version 4.3.3
##
## Attaching package: 'kableExtra'
##
## The following object is masked from 'package:dplyr':
##
## group_rows
library(pastecs)
## Warning: package 'pastecs' was built under R version 4.3.3
##
## Attaching package: 'pastecs'
##
## The following objects are masked from 'package:dplyr':
##
## first, last
##
## The following object is masked from 'package:tidyr':
##
## extract
Contoh kasus :
Kita punya client bertanya : "Mas saya punya data qty penjualan, mau cek mana ya yang lebih fluktuatif?"
#Membuat data set
set.seed(123)
ADS_dataset1 = rnorm(25, mean = 1000, sd = 100)
ADS_dataset2 = rnorm(25, mean = 150, sd = 100)
ADS = data.frame(ADS_dataset1, ADS_dataset2)
sumtable(ADS)
Summary Statistics
|
Variable
|
N
|
Mean
|
Std. Dev.
|
Min
|
Pctl. 25
|
Pctl. 75
|
Max
|
|
ADS_dataset1
|
25
|
997
|
95
|
803
|
937
|
1046
|
1179
|
|
ADS_dataset2
|
25
|
160
|
92
|
-19
|
110
|
232
|
367
|
Fluktuatif artinya data lebih menyebar (tidak homogen). semakin
fluktuatif artinya datanya tidak stabil.
dengan bantuan KF kita bisa melihat data mana yang tidak stabil.
stat.desc(ADS)
## ADS_dataset1 ADS_dataset2
## nbr.val 2.500000e+01 25.0000000
## nbr.null 0.000000e+00 0.0000000
## nbr.na 0.000000e+00 0.0000000
## min 8.033383e+02 -18.6693311
## max 1.178691e+03 366.8955965
## range 3.753530e+02 385.5649276
## sum 2.491667e+04 4005.3434972
## median 9.782025e+02 143.8088289
## mean 9.966670e+02 160.2137399
## SE.mean 1.893465e+01 18.3774673
## CI.mean.0.95 3.907919e+01 37.9292283
## var 8.963022e+03 8443.2825782
## std.dev 9.467324e+01 91.8873363
## coef.var 9.498984e-02 0.5735297
Terlihat data di atas dataset1 lebih besar dari pada
dataset2 sehingga dapat kita simpulkan bahwa
data set1 lebih fluktuatif. Artinya
dataset2 lebih homogen atau
stabil.
Dengan menggunakan R kita bisa menghitung data dengan
gampang pengguna Py minggir dulu.
TAMBAHAN
Membuat grafik as tableau
membuat Grafik mudah di R seperti proplayer degan menggunan package
berikut.
library(esquisse)
#esquisser(data)
Data set dalam R
Untuk latihan data kumpulan data set yang di sediakan R bisa di cek
dengan package berikut.
library(datasets)
data()
data(package = .packages(all.available = TRUE))
Modul 4
Transformasi data
Pendahuluan
Di hampir semua analisis statistik dan pembelajaran mesin, perlu
dilakukan beberapa transformasi data (yaitu transformasi data,
penskalaan, pemusatan, standardisasi, dan normalisasi) pada data mentah
(namun rapi dan bersih!) sebelum dapat digunakan untuk pemodelan.
Macam-macam Transformasi
Macam macam transformasi ini di gunakan sesuai kebutuhan data set
kita, karna beda kebutuhan beda juga jenis transdformasi yang umum di
gunakan. Dalam konten ini akan hanya ada 3 contoh study case saja karena
memang menurut saya jenis transformasi yang sering di gunakan adalah 3
itu saja.
Menggunakan logaritma dari nilai-nilai data. Ini berguna untuk
menangani data dengan skala yang sangat luas atau data yang memiliki
distribusi miring ke satu arah.
Mengambil perbedaan antara nilai-nilai data pada waktu yang berbeda
untuk menghilangkan tren atau musiman dalam data temporal. nah ini biasa
di pakai untuk memenuhi asumsi dalam pembuatan model
time series
Menggunakan nilai kuadrat dari data. Transformasi ini dapat membantu
dalam mengatasi masalah heteroskedastisitas, di mana varians data tidak
konstan.
Heteroskedastisitas adalah istilah dalam statistika yang digunakan untuk menggambarkan ketidakseragaman varians dari residual (kesalahan) dalam sebuah model regresi atau analisis data.
Simpelnya heterogen dah itu..
- Transformasi Akar Kuadrat
Menggunakan akar kuadrat dari nilai-nilai data. Ini sering digunakan
untuk mengurangi kebuntuan dalam distribusi data.
kebuntuan yang di maksud adalahnilai-nilai dalam dataset cenderung terkumpul di salah satu sisi distribusi, sehingga distribusi data menjadi miring atau tidak simetris.
Transformasi statistik yang dapat mengubah distribusi data menjadi
lebih normal. Parameter lambda digunakan untuk menyesuaikan transformasi
berdasarkan data. Box-Cox adalah alat yang berguna dalam analisis
statistik untuk menormalkan distribusi data dan meningkatkan kecocokan
model regresi atau analisis lainnya. Namun, penting untuk diingat bahwa
transformasi ini tidak selalu berhasil untuk semua jenis data, dan
terkadang beberapa variasi transformasi atau pendekatan alternatif
mungkin diperlukan.
- Standarisasi (Z-score Transformation)
Mengubah nilai-nilai data sehingga memiliki rata-rata nol dan
simpangan baku satu. Ini berguna dalam membandingkan variabel yang
diukur dalam unit yang berbeda atau memiliki skala yang besar.
- Normalisasi (Min-Max Scaling)
Mengubah nilai-nilai data ke dalam rentang tertentu, seperti [0, 1]
atau [-1, 1]. Ini memungkinkan data memiliki skala yang seragam.
- Pengurutan Rangking (Rank Transformation)
Mengganti setiap nilai dalam dataset dengan peringkat atau rangking
relatifnya dalam dataset. Ini berguna dalam mengatasi asimetri atau
anomali dalam data.
Mengganti nilai-nilai outlier dengan nilai-nilai tertentu yang berada
di kuartil tertentu dari distribusi data. Ini membantu mengurangi dampak
outlier terhadap analisis statistik.
Study case
Study case ini isinya beberapa contoh yang sering kita dapatkan
ketika dalam membuat model.
Persiapan
PACKAGE
library(tidyverse)
library(dplyr)
library(readr)
# library for data set
library(datasets)
library(boot)
library(agricolae)
## Warning: package 'agricolae' was built under R version 4.3.3
library(BSDA)
## Loading required package: lattice
##
## Attaching package: 'lattice'
## The following object is masked from 'package:boot':
##
## melanoma
##
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':
##
## Orange
Data set
Mencari contoh data set dalam statistika bukanlah hal yang sulit,
dengan R kita bisa mendapatkan ribuan data set. kita bisa menginstall
package (datasets, ggplot2, lubridate, dplyr). cek di sub bab
tambahan,
Let’s Go
Mari menggunakan contoh contoh untuk transformasi data, perlu di
ingat konten ini tidak akan membahas semuanya, namun akan membahas yang
umum dan akan sering kita pakai dalam kehidupan akhirat, eh maksudnya
sehari hari.
Transformasi data dengan logaritma
y = log(x)
Begitulah fungsinya, namun perlu diingat, Yang perlu diperhatikan
adalah bahwa transformasi logaritma hanya berlaku untuk nilai-nilai yang
positif, karena logaritma dari nol atau nilai negatif tidak terdefinisi
dalam matematika. Sebagai alternatif, Anda bisa menggunakan transformasi
Box-Cox untuk menangani data yang berisi nilai nol atau
negatif.
Transformasi logaritma kita gunakan ketika data kita berdistribusi
berada di 1 arah, contohnya kiri atau kanan, contohnya sperti di bawah
ini.
head(esoph,6)
## agegp alcgp tobgp ncases ncontrols
## 1 25-34 0-39g/day 0-9g/day 0 40
## 2 25-34 0-39g/day 10-19 0 10
## 3 25-34 0-39g/day 20-29 0 6
## 4 25-34 0-39g/day 30+ 0 5
## 5 25-34 40-79 0-9g/day 0 27
## 6 25-34 40-79 10-19 0 7
contohxx2 = esoph %>%
select(ncases, ncontrols)
# summary sebelum di tranformasi
summary(contohxx2)
## ncases ncontrols
## Min. : 0.000 Min. : 0.000
## 1st Qu.: 0.000 1st Qu.: 1.000
## Median : 1.000 Median : 4.000
## Mean : 2.273 Mean : 8.807
## 3rd Qu.: 4.000 3rd Qu.:10.000
## Max. :17.000 Max. :60.000
plot(contohxx2, pch =16, col = "darkgreen", xlab ="ncases", ylab = "ncontrols", main = "Sebelum di transformasi")
text(x=15, y=50, labels = "**hanya untuk contoh saja yak...**", pos =2,5, col = "red", cex = 0.9)

kelihatan kan plot di atas cenderung ke kiri, nah dengan
transformation log, kita bisa membuatnya menjadi menyebar ketengah. Mari
kita coba untuk lakukan transformasi.
log_transform = log(contohxx2, base =10)
plot(log_transform, pch =16, col = "darkred", main = "setelah di transformasi")

# Summary setelah di transformasi
summary(log_transform)
## ncases ncontrols
## Min. : -Inf Min. : -Inf
## 1st Qu.: -Inf 1st Qu.:0.0000
## Median :0.0000 Median :0.6021
## Mean : -Inf Mean : -Inf
## 3rd Qu.:0.6021 3rd Qu.:1.0000
## Max. :1.2304 Max. :1.7782
Karena data yang di gunakan ada angka 0, sebenarnya Transformasi log
tidak bisa di gunakan. jadi kita harus menggunakan
transformasi Box-Cox.
---
title: "ADS - Analisis Data Statistik"
author: "Albani"
date: "2024-03-03"
output: 
   rmdformats::downcute:
    code_folding: show
    code_download: yes
    self_contained: true
    lightbox: true
    default_style: "dark"
    highlight: NULL
    downcute_theme: "chaos"
    use_bookdown: false
---

# Pendahuluan

****

|          |                     |
| :---     | :---                |
| **Kontak**   |                    |
| Name     | Albani              |
| E-mail   | al.bani12300@gmail.com   |
| LinkedIn | [Profil LinkedIn Al Bani](https://www.linkedin.com/in/al-bani-532b06294/) |
| Rpubs    |  [Rpubs](https://rpubs.com/albani88) |
| IG       |  [Instagram](https://www.instagram.com/b4n.88/) |

****

Sebelum mulai ada beberapa hal yang ingin saya sampaikan :

- Ubah ADS halaman 1.3, 1.5, 1.6, 1.9, 120, 121  (tolong di coret)
- Saya hanya mahasiswa biasa
- Malam ini adalah tentang diskusi bersama bukan tentang siapa yang lebih jago.

## WHAT ADS IS ??

Analisis data statistik adalah proses menyelidiki, menganalisis, dan menafsirkan data menggunakan berbagai teknik statistik untuk mendapatkan pemahaman yang lebih dalam tentang fenomena yang diamati. Tujuan utamanya adalah untuk mengidentifikasi pola, hubungan, dan tren yang tersembunyi dalam data, serta untuk membuat inferensi atau prediksi yang dapat digunakan untuk mengambil keputusan yang terinformasi. 


Apa yang akan di pelajari pada BAB ini ??

1. Menyusun angka
2. Ringkasan data
3. Penggunaan ringkasan data
4. Transformasi data

Pertemuan selanjutnya :

5. Sample Random dan Distribusi teoritis
6. Uji hipotesis
7. Regresi
8. Analisis data kategorik
9. Analsis Elementer dan analisis variansi dua arah

## ADS PREPARATION

Apa yang harus di persiapkan untuk memulai ADS ?

### Data dan Pengumpulannya

*Sudah ada di materi metode pengumpulan data, apakah masih ingat ??*
jika masih ingat mari diskusi..

**1. Kapan kita menggunakan data primer dan data sekunder ??**

**2. Kenapa harus kita harus melakukan sampling ??**

**3. Apakah ada kumpulan data set untuk praktik (ada di materi modul 3)**

Oh iya saya sudah menulis sedikit sekali tentang data, insyaallah akan di banyakin bisa cek dengan cara klik [Disini](https://rpubs.com/albani88).

### ADS TOOLS

    R dan aplikasi lainnya memang sangat penting, namun jangan pernah meninggalkan Excel ~ Rangga Pratama head of Starcore analytics

1. EXCEL

![Excel](https://qph.cf2.quoracdn.net/main-qimg-5f3cdaf30fecc95bcb3af6c0055dac6d-lq)

2. R & Py

![R](https://dibimbing-cdn.sgp1.cdn.digitaloceanspaces.com/1664769291087-1_d-K19RVdGTl5_fqMRcFXjw.jpeg.webp)

3. Lainnya

Buanyak bangett cari aja di [Google](www.google.com)

# ADS

Sesi ini mengenai tentang data Cleaning and Data Preparation

![Chank1](https://github.com/b4n88/PROJEK-Statistikadasar/blob/main/unnamed-chunk-1-1(1).png?raw=true)

      Perlu di ingat, eksplorasi data bukan sekedar tentang berapa rata-ratanya, berapa nilai tertinggi dan terendahnya !! tapi lebih dari itu yakni berkenalan lebih dalam tentang data.

# Modul 1 

*Membahas tentang Menyusun angka*.

Menyusunnya dalam bentuk angkatan (Batch) dan diagram batang dan daun.

Harapan dari modul kegiatan 1 adalah : **mampu mengambil angka yang menjadi perhatian, menentukan unit unit analisis menyederhanakan dan mengurutkan** 

Harapan dari modul kegiatan 2 adalah : **Menyajikan data serta mengambil sari informasi dari angka tersebut**

saya sudah menyiapkan mini projek :

Perhatikan gambar berikut :
![Data set](https://github.com/b4n88/PROJEK-Statistikadasar/blob/main/Data%20mini%20projek.jpg?raw=true)

Mini projek :

- Jadikan dalam bentuk tabular (Bebas menggunakan aplikasi apapun)
- Ambil sari Informasi (Buatlah dalam bentuk table)
- Kerjakan dalam 10 Menit
- kumpulkan filenya dengan cara [Klik di sini](https://forms.gle/TLUf9mADvtKis3L98)

# Modul 2

*Membahas tentang Ringkasan Numerik*.

Ringkasan numerik di bedakan menjadi 2 jenis :

a. Pusat data, yang terdiri dari:

- Mean

rata-rata = $\frac{\sum{x_i}}{n}$

Nilai pusat data, biasanya di gunakan seperti :

- Rata-rata uang yang di hasilkan dalam 1 bulan adalah `271 Triliun`
- Rata-rata IPK mhs Statistik adalah 1.5

Perlu di ingat, rata rata ini hanya bisa di gunakan untuk data numerik atau kuantitatif. data kualitatif tidak bisa di hitung rata-ratanya. gak percaya? mari kita coba :

Jika dalam diskusi kali ini terdapat 15 orang `L` dan 9 orang `P` aturan matematika adalah kualitatif tidak bisa di lakukan operasi aritmatika. 

sehingga kalau kita paksakan kita rubah dari `L = 1` dan `P = 2` maka kita bisa hitung :

rata-rata = $\frac{\sum{(15*1)+(9*2)}}{15+9}= \frac{{33}}{24}=1.375$

`1.375` ini apa? sedangkan hanya ada 2 kategori `L` sm `P`, kan tidak mungkin setengah dewa.

- Median

Median atau nilai tengah. cara menghitungnya :

- Urutkan data: 3, 4, 5, 6, 7, 8, 9, 12.
- Karena jumlah data (n) adalah genap (8), median adalah rata-rata dari dua nilai tengah, yaitu $\frac{{(6 + 7)}} {2} = 6.5$.

Kapan di gunakan?

Mencari harga terbaik : contoh kita mau membeli rumah dengan harga yang fantastis karena lengkap dengan perabotan. Jika terdapat beberapa properti mewah dengan harga yang jauh lebih tinggi daripada properti lainnya, median harga rumah mungkin memberikan gambaran yang lebih baik tentang harga "tengah" di daerah tersebut daripada rata-rata harga rumah.

- Trirata

Langkah-langkahnya:

- Urutkan data: 2,5,7,10,13,17,18,20.

- Tentukan posisi kuartil:
  
  n=jumlah data=8
  
  Q1=posisi data `25% * n`
  Q2=posisi data `50% * n`
  Q3=posisi data `75% * n`

- Tentukan nilai kuartil:

- Q1=data ke 2=5
- Q2=data ke 4=10
- Q3=data ke 6=17

nilai Q1, Q2, dan Q3 memberikan wawasan yang berharga tentang sebaran, kecenderungan, dan karakteristik data, yang dapat membantu dalam pengambilan keputusan yang lebih baik dan pemahaman yang lebih baik tentang fenomena yang diamati.

- Modus

Modusadalah nilai atau nilai-nilai yang paling sering muncul dalam sebuah distribusi data. Mengetahui modus membantu kita memahami nilai yang paling umum atau dominan dalam data tersebut.

rata-rata digunakan untuk memberikan gambaran tentang nilai pusat dari distribusi data, sementara modus digunakan untuk mengidentifikasi nilai yang paling umum atau dominan dalam data. 

Contoh kasus untuk modus :

sebagai market research kita ingin mengetahui produk mana yang paling laku. bagaimana caranya? otomatis item yang paling banyak di beli bukan? ini linear dengan pengertian Modus

b. Sebaran data, yang terdiri dari :

- Range

Interfal data, dalam perusahaan biasa di tanya ini estimasi selesai di kerjakannya berapa lama? kita bisa menjawab di interfal 2-5 jam pak.

$\int_{1}^{3}x$

- Variansi & Standar Deviasi

Variance          : Nilai variance memberikan gambaran tentang seberapa besar variasi total dalam data. Namun, karena diukur dalam satuan kuadrat, nilai variance mungkin sulit diinterpretasikan secara intuitif. 

Standar Deviasi   : Standar deviasi memberikan ukuran dispersi yang lebih intuitif, karena diukur dalam satuan yang sama dengan data aslinya. Ini memberikan informasi tentang sejauh mana nilai-nilai individual bervariasi dari rata-rata dalam satuan yang dapat dimengerti. 

- Koefisien Varainsi

Ingat kembali salah satu rasio yang biasa digunakan dalam statistika yang berguna untuk melihat sebaran data dari rata-rata hitungnya. Rasio tersebut disebut sebagai koefisien variasi. 

Formulanya adalah :

$kv=\frac{{sd}}{mean}*100$

Semakin kecil rasio koefisien variasi, maka kita bisa simpulkan bahwa data semakin homogen. Sementara sebaliknya, semakin besar nilai rasionya maka data akan semakin heterogen. 


# Modul 3

*Membahas tentang Penggunaan ringkasan numerik*

Contoh Case :

```{r}
library(readr)
library(tidyverse)
library(dplyr)
library(vtable)
library(pastecs)
```

Contoh kasus :

    Kita punya client bertanya : "Mas saya punya data qty penjualan, mau cek mana ya yang lebih fluktuatif?"

```{r}
#Membuat data set
set.seed(123)
ADS_dataset1 = rnorm(25, mean = 1000, sd = 100)
ADS_dataset2 = rnorm(25, mean = 150, sd = 100)

ADS = data.frame(ADS_dataset1, ADS_dataset2)
sumtable(ADS)
```

Fluktuatif artinya data lebih menyebar (tidak homogen). semakin fluktuatif artinya datanya tidak stabil.

dengan bantuan KF kita bisa melihat data mana yang tidak stabil.

```{r}
stat.desc(ADS)
```

Terlihat data di atas `dataset1` lebih besar dari pada `dataset2` sehingga dapat kita simpulkan bahwa `data set1` lebih `fluktuatif`. Artinya `dataset2` lebih `homogen` atau `stabil`.

*Dengan menggunakan R kita bisa menghitung data dengan gampang* pengguna Py minggir dulu.

# TAMBAHAN

## Membuat grafik as tableau

membuat Grafik mudah di R seperti proplayer degan menggunan package berikut.

```{r}
library(esquisse)
#esquisser(data)
```


## Data set dalam R

Untuk latihan data kumpulan data set yang di sediakan R bisa di cek dengan package berikut.

```{r}
library(datasets)
data()

data(package = .packages(all.available = TRUE))
```


# Modul 4

*Transformasi data*

## Pendahuluan

Di hampir semua analisis statistik dan pembelajaran mesin, perlu dilakukan beberapa transformasi data (yaitu transformasi data, penskalaan, pemusatan, standardisasi, dan normalisasi) pada data mentah (namun rapi dan bersih!) sebelum dapat digunakan untuk pemodelan.

### Pengertian  Transformasi

Transformasi data sering kali merupakan syarat untuk melanjutkan analisis statistik. Berikut adalah situasi di mana kita mungkin memerlukan transformasi:

1. Kita mungkin perlu mengubah skala suatu variabel atau menstandardisasi nilai suatu variabel untuk pemahaman yang lebih baik.

2. Kita mungkin perlu mengubah hubungan non-linier yang kompleks menjadi hubungan linier. Transformasi membantu kita mengubah hubungan non-linier menjadi hubungan linier.

3. Dalam inferensi statistik, distribusi simetris (normal) lebih disukai daripada distribusi miring. Selain itu, beberapa teknik analisis statistik (yaitu uji parametrik, regresi linier, dll) memerlukan distribusi variabel yang normal dan homogenitas varians. Jadi, setiap kali kita mempunyai distribusi yang miring dan/atau variansi yang heterogen, kita dapat menggunakan transformasi yang dapat mengurangi kecondongan dan/atau heterogenitas varians.

### Macam-macam Transformasi

Macam macam transformasi ini di gunakan sesuai kebutuhan data set kita, karna beda kebutuhan beda juga jenis transdformasi yang umum di gunakan. Dalam konten ini akan hanya ada 3 contoh study case saja karena memang menurut saya jenis transformasi yang sering di gunakan adalah 3 itu saja.

- **Tansformasi Logaritmik**

Menggunakan logaritma dari nilai-nilai data. Ini berguna untuk menangani data dengan skala yang sangat luas atau data yang memiliki distribusi miring ke satu arah. 

- **Differencing**

Mengambil perbedaan antara nilai-nilai data pada waktu yang berbeda untuk menghilangkan tren atau musiman dalam data temporal. nah ini biasa di pakai untuk memenuhi asumsi dalam pembuatan model `time series`

- **Transformasi Kuadrat**

Menggunakan nilai kuadrat dari data. Transformasi ini dapat membantu dalam mengatasi masalah heteroskedastisitas, di mana varians data tidak konstan. 

    Heteroskedastisitas adalah istilah dalam statistika yang digunakan untuk menggambarkan ketidakseragaman varians dari residual (kesalahan) dalam sebuah model regresi atau analisis data.
    
Simpelnya heterogen dah itu.. 

- **Transformasi Akar Kuadrat**

Menggunakan akar kuadrat dari nilai-nilai data. Ini sering digunakan untuk mengurangi kebuntuan dalam distribusi data. 

    kebuntuan yang di maksud adalahnilai-nilai dalam dataset cenderung terkumpul di salah satu sisi distribusi, sehingga distribusi data menjadi miring atau tidak simetris.  

- **Transformasi Box-Cox**

 Transformasi statistik yang dapat mengubah distribusi data menjadi lebih normal. Parameter lambda digunakan untuk menyesuaikan transformasi berdasarkan data. Box-Cox adalah alat yang berguna dalam analisis statistik untuk menormalkan distribusi data dan meningkatkan kecocokan model regresi atau analisis lainnya. Namun, penting untuk diingat bahwa transformasi ini tidak selalu berhasil untuk semua jenis data, dan terkadang beberapa variasi transformasi atau pendekatan alternatif mungkin diperlukan. 

- **Standarisasi (Z-score Transformation)**

Mengubah nilai-nilai data sehingga memiliki rata-rata nol dan simpangan baku satu. Ini berguna dalam membandingkan variabel yang diukur dalam unit yang berbeda atau memiliki skala yang besar. 

- **Normalisasi (Min-Max Scaling)**

Mengubah nilai-nilai data ke dalam rentang tertentu, seperti [0, 1] atau [-1, 1]. Ini memungkinkan data memiliki skala yang seragam. 

- **Pengurutan Rangking (Rank Transformation)**

Mengganti setiap nilai dalam dataset dengan peringkat atau rangking relatifnya dalam dataset. Ini berguna dalam mengatasi asimetri atau anomali dalam data. 

- **Winsorization**

Mengganti nilai-nilai outlier dengan nilai-nilai tertentu yang berada di kuartil tertentu dari distribusi data. Ini membantu mengurangi dampak outlier terhadap analisis statistik. 

## Study case

Study case ini isinya beberapa contoh yang sering kita dapatkan ketika dalam membuat model.

### Persiapan

#### PACKAGE

```{r}
library(tidyverse)
library(dplyr)
library(readr)
# library for data set
library(datasets)
library(boot)
library(agricolae)
library(BSDA)
```

#### Data set

Mencari contoh data set dalam statistika bukanlah hal yang sulit, dengan R kita bisa mendapatkan ribuan data set. kita bisa menginstall package (datasets, ggplot2, lubridate, dplyr). cek di sub bab tambahan,

## Let's Go

Mari menggunakan contoh contoh untuk transformasi data, perlu di ingat konten ini tidak akan membahas semuanya, namun akan membahas yang umum dan akan sering kita pakai dalam kehidupan akhirat, eh maksudnya sehari hari.

### Transformasi data dengan logaritma

`y = log(x)`

Begitulah fungsinya, namun perlu diingat, Yang perlu diperhatikan adalah bahwa transformasi logaritma hanya berlaku untuk nilai-nilai yang positif, karena logaritma dari nol atau nilai negatif tidak terdefinisi dalam matematika. Sebagai alternatif, Anda bisa menggunakan transformasi `Box-Cox` untuk menangani data yang berisi nilai nol atau negatif.

Transformasi logaritma kita gunakan ketika data kita berdistribusi berada di 1 arah, contohnya kiri atau kanan, contohnya sperti di bawah ini.


```{r}
head(esoph,6)
contohxx2 = esoph %>% 
  select(ncases, ncontrols)
# summary sebelum di tranformasi
summary(contohxx2)
```

```{r}
plot(contohxx2, pch =16, col = "darkgreen",  xlab ="ncases", ylab =  "ncontrols", main = "Sebelum di transformasi")
text(x=15, y=50, labels = "**hanya untuk contoh saja yak...**", pos =2,5, col = "red", cex = 0.9)
```

kelihatan kan plot di atas cenderung ke kiri, nah dengan transformation log, kita bisa membuatnya menjadi menyebar ketengah. Mari kita coba untuk lakukan transformasi.

```{r}
log_transform = log(contohxx2, base =10)
plot(log_transform, pch =16, col = "darkred", main = "setelah di transformasi")
```

```{r}
# Summary setelah di transformasi
summary(log_transform)
```
Karena data yang di gunakan ada angka 0, sebenarnya Transformasi log tidak bisa di gunakan. jadi kita harus menggunakan `transformasi Box-Cox`.

### Transformasi data dengan Diferencing

Transformasi ini banyak di gunakan untuk data yang akan digunakan untuk membuat model dalam analisis `time series`, transformasi ini di jalankan ketika data set yang kita punya tidak stasioner. penjelasan tentang stasioner akan dibahas di konten yang lain.

```{r}
summary(ldeaths)
plot(ldeaths, main = "Contoh sebelum di transformasi")
```

karena di atas hanya contoh, bayangkan saja data di atas tidak stasioner. selanjutnya.
```{r}
#data sebelum di Transformasi
head(ldeaths)
```
```{r}
diff_transformation = diff(ldeaths)
# data setelah di transformai
head(diff_transformation)
```

```{r}
plot(diff_transformation, main = "plot setelah di transformasi")
```

nah begitulah caranya transformasi data di R, masalah penjelasan stasioiner akan di pelajari di time series.



