Pendahuluan

Statistika deskriptif merupakan teknik yang digunakan untuk menggambarkan dan meringkas data secara informatif. Teknik ini meliputi penghitungan ukuran pemusatan seperti mean dan median, serta ukuran penyebaran seperti variansi dan standar deviasi. Dalam laporan ini, kita akan menggunakan dataset mtcars yang berisi berbagai atribut mobil, seperti konsumsi bahan bakar (MPG), jumlah silinder, dan lain-lain.

Import Data

Pertama, kita memuat dataset mtcars yang akan dianalisis. Dataset mtcars adalah kumpulan data yang berisi informasi tentang spesifikasi teknis dari 32 model mobil yang diterbitkan oleh majalah Motor Trend pada tahun 1974. Data ini mencakup variabel-variabel penting seperti konsumsi bahan bakar (mpg), tenaga kuda (hp), jumlah silinder (cyl), dan lainnya, yang memungkinkan kita untuk menganalisis berbagai aspek performa dan efisiensi kendaraan.

data(mtcars)

Ringkasan Data

Kita mulai dengan melihat ringkasan statistik dari dataset menggunakan fungsi summary().

summary(mtcars)
##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000

Ukuran Pemusatan

Mean (Rata-rata)

Mean adalah ukuran pemusatan yang menunjukkan nilai rata-rata dari seluruh data. Rumus mean adalah:

\[ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \]

Di mana:

  • \(\hat{X}\) adalah mean,

  • \(n\) adalah jumlah observasi,

  • \(X_i\) adalah nilai dari setiap observasi.

Sebagai contoh, kita menghitung mean dari variabel mpg (Miles Per Gallon):

mean_mpg <- mean(mtcars$mpg)
mean_mpg
## [1] 20.09062

Hasil analisis menunjukkan bahwa rata-rata konsumsi bahan bakar adalah 20.090625 mil per galon.

Median

Median adalah nilai tengah yang memisahkan data menjadi dua bagian yang sama besar setelah data diurutkan. Median dapat dihitung menggunakan rumus:

Jika Jumlah Data Ganjil

\[ \text{Median} = X_{\left(\frac{n+1}{2}\right)} \]

Jika Jumlah Data Genap

\[ \text{Median} = \frac{X_{\left(\frac{n}{2}\right)} + X_{\left(\frac{n}{2}+1\right)}}{2} \]

Di mana:

  • \(X_{(i)}\) adalah nilai data ke-\(i\) setelah data diurutkan,

  • \(n\) adalah jumlah data.

Kita menghitung median untuk variabel mpg:

median_mpg <- median(mtcars$mpg)
median_mpg
## [1] 19.2

Hasilnya adalah 19.2, yang berarti separuh mobil memiliki konsumsi bahan bakar lebih dari 19.2 mil per galon, dan separuh lainnya kurang dari 19.2.

Ukuran Penyebaran

Rentang (Range)

Rentang adalah selisih antara nilai maksimum dan minimum dalam data:

\[ {Rentang} = X_{ ext{max}} - X_{ ext{min}} \]

range_mpg <- range(mtcars$mpg)
range_mpg
## [1] 10.4 33.9

Rentang dari konsumsi bahan bakar adalah dari 10.4 hingga 33.9 mil per galon.

Variansi

Variansi mengukur seberapa jauh data tersebar dari mean. Rumus variansi adalah:

\[ \sigma^2 = \frac{1}{(n-1)} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]

variance_mpg <- var(mtcars$mpg)
variance_mpg
## [1] 36.3241

Variansi konsumsi bahan bakar adalah 36.3241028.

Standar Deviasi

Standar deviasi adalah akar kuadrat dari variansi dan memberikan ukuran penyebaran dalam satuan yang sama dengan data asli:

\[ \sigma = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2} \]

sd_mpg <- sd(mtcars$mpg)
sd_mpg
## [1] 6.026948

Standar deviasi konsumsi bahan bakar adalah 6.0269481, yang menunjukkan seberapa jauh data menyebar dari rata-rata. Standar deviasi sebesar 6.08 mengindikasikan bahwa sebagian besar nilai konsumsi bahan bakar berada dalam jarak sekitar 6.08 mil per galon dari rata-rata.

Visualisasi Data

Histogram

Histogram adalah alat visualisasi yang menunjukkan distribusi frekuensi dari data. Berikut adalah histogram untuk variabel mpg:

hist(mtcars$mpg, 
     main = "Histogram Miles Per Gallon (MPG)", 
     xlab = "Miles Per Gallon (MPG)", 
     col = "blue", 
     border = "black")

Histogram ini menunjukkan bahwa sebagian besar mobil memiliki konsumsi bahan bakar di sekitar nilai rata-rata, dengan distribusi yang cenderung normal.

Boxplot

Boxplot menggambarkan penyebaran data dan dapat mengidentifikasi outlier. Berikut adalah boxplot untuk variabel mpg:

boxplot(mtcars$mpg, 
        main = "Boxplot Miles Per Gallon (MPG)", 
        ylab = "Miles Per Gallon (MPG)", 
        col = "orange", 
        border = "black")

Boxplot ini menunjukkan bahwa ada beberapa mobil dengan konsumsi bahan bakar yang cukup jauh dari median, mengindikasikan adanya variabilitas yang tinggi dalam data.

Diagram Stem and Leaf untuk Variabel mpg

Variabel mpg dalam dataset mtcars mewakili konsumsi bahan bakar dalam mil per galon. Kita dapat membuat diagram stem and leaf untuk melihat distribusi konsumsi bahan bakar ini.

stem(mtcars$mpg)
## 
##   The decimal point is at the |
## 
##   10 | 44
##   12 | 3
##   14 | 3702258
##   16 | 438
##   18 | 17227
##   20 | 00445
##   22 | 88
##   24 | 4
##   26 | 03
##   28 | 
##   30 | 44
##   32 | 49
  • Stem (Batang): Bagian pertama dari angka (misalnya puluhan) dikelompokkan bersama sebagai batang. Mewakili puluhan dari nilai mpg. Misalnya, batang 10 mewakili nilai antara 10.0 hingga 10.9.

  • Leaf (Daun): Bagian akhir dari angka (misalnya satuan) diwakili sebagai daun.Mewakili satuan dari nilai mpg, setelah batang. Misalnya, pada batang 10, daun 4 mewakili 10.4.

Cara membaca Diagram

  • 10 | 44: Dua mobil memiliki konsumsi bahan bakar 10.4 dan 10.4 mil per galon.

  • 12 | 3: Satu mobil memiliki konsumsi bahan bakar 12.3 mil per galon.

  • 14 | 3702258: Mobil-mobil ini memiliki konsumsi bahan bakar antara 14.3 hingga 14.8 mil per galon, dengan total tujuh mobil dalam rentang ini.

  • 16 | 438: Tiga mobil memiliki konsumsi bahan bakar 16.4, 16.3, dan 16.8 mil per galon.

  • 18 | 17227: Lima mobil memiliki konsumsi bahan bakar antara 18.1 dan 18.7 mil per galon.

  • 20 | 00445: Lima mobil memiliki konsumsi bahan bakar antara 20.0 dan 20.5 mil per galon.

  • 22 | 88: Dua mobil memiliki konsumsi bahan bakar 22.8 mil per galon.

  • 24 | 4: Satu mobil memiliki konsumsi bahan bakar 24.4 mil per galon.

  • 26 | 03: Dua mobil memiliki konsumsi bahan bakar 26.0 dan 26.3 mil per galon.

  • 28 | : Tidak ada mobil dengan konsumsi bahan bakar antara 28.0 dan 28.9 mil per galon.

  • 30 | 44: Dua mobil memiliki konsumsi bahan bakar 30.4 mil per galon.

  • 32 | 49: Dua mobil memiliki konsumsi bahan bakar 32.4 dan 32.9 mil per galon.

Distribusi Data

Konsentrasi Nilai: Kebanyakan mobil memiliki konsumsi bahan bakar di kisaran 14 hingga 20 mil per galon. Batang 14 dan 18 menunjukkan konsentrasi yang cukup besar.

Rentang yang Lebih Tinggi: Beberapa mobil memiliki konsumsi bahan bakar lebih tinggi, di kisaran 30 hingga 32 mil per galon, menunjukkan bahwa ada mobil yang lebih efisien dalam penggunaan bahan bakar.

Celahan: Tidak ada mobil di rentang 28.0 hingga 28.9 mil per galon, yang mungkin menunjukkan adanya celah dalam distribusi data.

Identifikasi Pola

Mobil dengan konsumsi bahan bakar yang lebih rendah (sekitar 10 hingga 12 mpg) mungkin merupakan outlier atau kendaraan yang kurang efisien.

Ada variasi yang cukup besar di seluruh dataset, dengan beberapa mobil sangat efisien (32.4 dan 32.9 mpg) dan beberapa sangat tidak efisien (10.4 mpg).

Kesimpulan

  • Sebagian besar mobil dalam dataset memiliki konsumsi bahan bakar antara 14 hingga 20 mil per galon.

  • Ada beberapa outlier yang perlu diperhatikan, terutama mobil dengan konsumsi bahan bakar sangat rendah atau sangat tinggi.

  • Diagram stem and leaf ini membantu kita memahami penyebaran dan konsentrasi konsumsi bahan bakar di antara mobil-mobil tersebut secara lebih detail.

Scatter Plot: mpg vs hp

Untuk melihat hubungan antara konsumsi bahan bakar (mpg) dan tenaga kuda (hp), kita dapat membuat scatter plot. Scatter plot adalah alat visualisasi yang menunjukkan hubungan antara dua variabel numerik.

plot(mtcars$hp, mtcars$mpg,
     main = "Scatter Plot of MPG vs Horsepower",
     xlab = "Horsepower (hp)",
     ylab = "Miles Per Gallon (mpg)",
     pch = 19,
     col = "blue")

Scatter plot di atas menunjukkan bagaimana konsumsi bahan bakar (mpg) bervariasi dengan tenaga kuda (hp). Jika terdapat pola tertentu, seperti garis lurus atau kurva, itu dapat menunjukkan korelasi antara kedua variabel.

Kesimpulan

Dari analisis deskriptif yang telah dilakukan, kita dapat menyimpulkan bahwa rata-rata konsumsi bahan bakar mobil dalam dataset ini adalah 20.090625 mil per galon dengan median 19.2. Penyebaran data cukup besar, seperti yang ditunjukkan oleh standar deviasi 6.0269481, yang mengindikasikan adanya perbedaan cukup signifikan dalam efisiensi bahan bakar di antara mobil-mobil tersebut.

Latihan

Soal 1: Mean dan Median

Anda diberikan dataset yang berisi nilai ujian dari 20 siswa sebagai berikut:

Nilai: 70, 75, 80, 85, 90, 95, 100, 65, 60, 55, 85, 75, 95, 70, 60, 85, 75, 90, 100, 65
  1. Hitunglah mean (rata-rata) dari nilai ujian tersebut.
  2. Hitunglah median dari nilai ujian tersebut.

Soal 2: Standar Deviasi dan Variansi

Berikut adalah data tinggi badan (dalam cm) dari 10 siswa:

Tinggi: 160, 165, 170, 155, 150, 175, 160, 170, 180, 165
  1. Hitunglah variansi dari data tinggi badan tersebut.
  2. Hitunglah standar deviasi dari data tinggi badan tersebut.

Soal 3: Rentang (Range)

Anda memiliki data pengeluaran harian (dalam ribu rupiah) dari sebuah keluarga selama 7 hari:

Pengeluaran: 150, 175, 200, 180, 190, 160, 210

Hitunglah rentang pengeluaran harian keluarga tersebut.

Soal 4: Membuat Histogram

Dengan menggunakan data berikut, buatlah histogram untuk menunjukkan distribusi nilai:

Nilai: 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 60, 70, 80, 90, 100

Bagaimana bentuk distribusi dari histogram tersebut? Apakah data berdistribusi normal, miring ke kiri, atau miring ke kanan?

Soal 5: Stem and leaf dan Boxplot dan Outlier

Berikut adalah data berat badan (dalam kg) dari 12 orang:

Berat: 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110
  1. Buatlah diagram stem and leaf boxplot dari data berat badan tersebut.

  2. Identifikasilah apakah ada outlier pada data tersebut berdasarkan boxplot yang Anda buat.