Statistika deskriptif merupakan teknik yang digunakan untuk
menggambarkan dan meringkas data secara informatif. Teknik ini meliputi
penghitungan ukuran pemusatan seperti mean dan median, serta ukuran
penyebaran seperti variansi dan standar deviasi. Dalam laporan ini, kita
akan menggunakan dataset mtcars yang berisi berbagai
atribut mobil, seperti konsumsi bahan bakar (MPG), jumlah silinder, dan
lain-lain.
Pertama, kita memuat dataset mtcars yang akan
dianalisis. Dataset mtcars adalah kumpulan data yang berisi informasi
tentang spesifikasi teknis dari 32 model mobil yang diterbitkan oleh
majalah Motor Trend pada tahun 1974. Data ini mencakup variabel-variabel
penting seperti konsumsi bahan bakar (mpg), tenaga kuda (hp), jumlah
silinder (cyl), dan lainnya, yang memungkinkan kita untuk menganalisis
berbagai aspek performa dan efisiensi kendaraan.
data(mtcars)
Kita mulai dengan melihat ringkasan statistik dari dataset
menggunakan fungsi summary().
summary(mtcars)
## mpg cyl disp hp
## Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
## 1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
## Median :19.20 Median :6.000 Median :196.3 Median :123.0
## Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
## 3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
## Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
## drat wt qsec vs
## Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
## 1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
## Median :3.695 Median :3.325 Median :17.71 Median :0.0000
## Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
## 3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
## Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
## am gear carb
## Min. :0.0000 Min. :3.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
## Median :0.0000 Median :4.000 Median :2.000
## Mean :0.4062 Mean :3.688 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :1.0000 Max. :5.000 Max. :8.000
Mean adalah ukuran pemusatan yang menunjukkan nilai rata-rata dari seluruh data. Rumus mean adalah:
\[ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \]
Di mana:
\(\hat{X}\) adalah mean,
\(n\) adalah jumlah observasi,
\(X_i\) adalah nilai dari setiap observasi.
Sebagai contoh, kita menghitung mean dari variabel mpg
(Miles Per Gallon):
mean_mpg <- mean(mtcars$mpg)
mean_mpg
## [1] 20.09062
Hasil analisis menunjukkan bahwa rata-rata konsumsi bahan bakar adalah 20.090625 mil per galon.
Median adalah nilai tengah yang memisahkan data menjadi dua bagian yang sama besar setelah data diurutkan. Median dapat dihitung menggunakan rumus:
Jika Jumlah Data Ganjil
\[ \text{Median} = X_{\left(\frac{n+1}{2}\right)} \]
Jika Jumlah Data Genap
\[ \text{Median} = \frac{X_{\left(\frac{n}{2}\right)} + X_{\left(\frac{n}{2}+1\right)}}{2} \]
Di mana:
\(X_{(i)}\) adalah nilai data ke-\(i\) setelah data diurutkan,
\(n\) adalah jumlah data.
Kita menghitung median untuk variabel mpg:
median_mpg <- median(mtcars$mpg)
median_mpg
## [1] 19.2
Hasilnya adalah 19.2, yang berarti separuh mobil memiliki konsumsi bahan bakar lebih dari 19.2 mil per galon, dan separuh lainnya kurang dari 19.2.
Rentang adalah selisih antara nilai maksimum dan minimum dalam data:
\[ {Rentang} = X_{ ext{max}} - X_{ ext{min}} \]
range_mpg <- range(mtcars$mpg)
range_mpg
## [1] 10.4 33.9
Rentang dari konsumsi bahan bakar adalah dari 10.4 hingga 33.9 mil per galon.
Variansi mengukur seberapa jauh data tersebar dari mean. Rumus variansi adalah:
\[ \sigma^2 = \frac{1}{(n-1)} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]
variance_mpg <- var(mtcars$mpg)
variance_mpg
## [1] 36.3241
Variansi konsumsi bahan bakar adalah 36.3241028.
Standar deviasi adalah akar kuadrat dari variansi dan memberikan ukuran penyebaran dalam satuan yang sama dengan data asli:
\[ \sigma = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2} \]
sd_mpg <- sd(mtcars$mpg)
sd_mpg
## [1] 6.026948
Standar deviasi konsumsi bahan bakar adalah 6.0269481, yang menunjukkan seberapa jauh data menyebar dari rata-rata. Standar deviasi sebesar 6.08 mengindikasikan bahwa sebagian besar nilai konsumsi bahan bakar berada dalam jarak sekitar 6.08 mil per galon dari rata-rata.
Histogram adalah alat visualisasi yang menunjukkan distribusi
frekuensi dari data. Berikut adalah histogram untuk variabel
mpg:
hist(mtcars$mpg,
main = "Histogram Miles Per Gallon (MPG)",
xlab = "Miles Per Gallon (MPG)",
col = "blue",
border = "black")
Histogram ini menunjukkan bahwa sebagian besar mobil memiliki konsumsi bahan bakar di sekitar nilai rata-rata, dengan distribusi yang cenderung normal.
Boxplot menggambarkan penyebaran data dan dapat mengidentifikasi
outlier. Berikut adalah boxplot untuk variabel mpg:
boxplot(mtcars$mpg,
main = "Boxplot Miles Per Gallon (MPG)",
ylab = "Miles Per Gallon (MPG)",
col = "orange",
border = "black")
Boxplot ini menunjukkan bahwa ada beberapa mobil dengan konsumsi bahan bakar yang cukup jauh dari median, mengindikasikan adanya variabilitas yang tinggi dalam data.
mpgVariabel mpg dalam dataset mtcars mewakili
konsumsi bahan bakar dalam mil per galon. Kita dapat membuat diagram
stem and leaf untuk melihat distribusi konsumsi bahan bakar
ini.
stem(mtcars$mpg)
##
## The decimal point is at the |
##
## 10 | 44
## 12 | 3
## 14 | 3702258
## 16 | 438
## 18 | 17227
## 20 | 00445
## 22 | 88
## 24 | 4
## 26 | 03
## 28 |
## 30 | 44
## 32 | 49
Stem (Batang): Bagian pertama dari angka (misalnya puluhan) dikelompokkan bersama sebagai batang. Mewakili puluhan dari nilai mpg. Misalnya, batang 10 mewakili nilai antara 10.0 hingga 10.9.
Leaf (Daun): Bagian akhir dari angka (misalnya satuan) diwakili sebagai daun.Mewakili satuan dari nilai mpg, setelah batang. Misalnya, pada batang 10, daun 4 mewakili 10.4.
Cara membaca Diagram
10 | 44: Dua mobil memiliki konsumsi bahan bakar 10.4 dan 10.4 mil per galon.
12 | 3: Satu mobil memiliki konsumsi bahan bakar 12.3 mil per galon.
14 | 3702258: Mobil-mobil ini memiliki konsumsi bahan bakar antara 14.3 hingga 14.8 mil per galon, dengan total tujuh mobil dalam rentang ini.
16 | 438: Tiga mobil memiliki konsumsi bahan bakar 16.4, 16.3, dan 16.8 mil per galon.
18 | 17227: Lima mobil memiliki konsumsi bahan bakar antara 18.1 dan 18.7 mil per galon.
20 | 00445: Lima mobil memiliki konsumsi bahan bakar antara 20.0 dan 20.5 mil per galon.
22 | 88: Dua mobil memiliki konsumsi bahan bakar 22.8 mil per galon.
24 | 4: Satu mobil memiliki konsumsi bahan bakar 24.4 mil per galon.
26 | 03: Dua mobil memiliki konsumsi bahan bakar 26.0 dan 26.3 mil per galon.
28 | : Tidak ada mobil dengan konsumsi bahan bakar antara 28.0 dan 28.9 mil per galon.
30 | 44: Dua mobil memiliki konsumsi bahan bakar 30.4 mil per galon.
32 | 49: Dua mobil memiliki konsumsi bahan bakar 32.4 dan 32.9 mil per galon.
Distribusi Data
Konsentrasi Nilai: Kebanyakan mobil memiliki konsumsi bahan bakar di kisaran 14 hingga 20 mil per galon. Batang 14 dan 18 menunjukkan konsentrasi yang cukup besar.
Rentang yang Lebih Tinggi: Beberapa mobil memiliki konsumsi bahan bakar lebih tinggi, di kisaran 30 hingga 32 mil per galon, menunjukkan bahwa ada mobil yang lebih efisien dalam penggunaan bahan bakar.
Celahan: Tidak ada mobil di rentang 28.0 hingga 28.9 mil per galon, yang mungkin menunjukkan adanya celah dalam distribusi data.
Identifikasi Pola
Mobil dengan konsumsi bahan bakar yang lebih rendah (sekitar 10 hingga 12 mpg) mungkin merupakan outlier atau kendaraan yang kurang efisien.
Ada variasi yang cukup besar di seluruh dataset, dengan beberapa mobil sangat efisien (32.4 dan 32.9 mpg) dan beberapa sangat tidak efisien (10.4 mpg).
Kesimpulan
Sebagian besar mobil dalam dataset memiliki konsumsi bahan bakar antara 14 hingga 20 mil per galon.
Ada beberapa outlier yang perlu diperhatikan, terutama mobil dengan konsumsi bahan bakar sangat rendah atau sangat tinggi.
Diagram stem and leaf ini membantu kita memahami penyebaran dan konsentrasi konsumsi bahan bakar di antara mobil-mobil tersebut secara lebih detail.
mpg vs hpUntuk melihat hubungan antara konsumsi bahan bakar (mpg)
dan tenaga kuda (hp), kita dapat membuat scatter plot.
Scatter plot adalah alat visualisasi yang menunjukkan hubungan antara
dua variabel numerik.
plot(mtcars$hp, mtcars$mpg,
main = "Scatter Plot of MPG vs Horsepower",
xlab = "Horsepower (hp)",
ylab = "Miles Per Gallon (mpg)",
pch = 19,
col = "blue")
Scatter plot di atas menunjukkan bagaimana konsumsi bahan bakar
(mpg) bervariasi dengan tenaga kuda (hp). Jika
terdapat pola tertentu, seperti garis lurus atau kurva, itu dapat
menunjukkan korelasi antara kedua variabel.
Dari analisis deskriptif yang telah dilakukan, kita dapat menyimpulkan bahwa rata-rata konsumsi bahan bakar mobil dalam dataset ini adalah 20.090625 mil per galon dengan median 19.2. Penyebaran data cukup besar, seperti yang ditunjukkan oleh standar deviasi 6.0269481, yang mengindikasikan adanya perbedaan cukup signifikan dalam efisiensi bahan bakar di antara mobil-mobil tersebut.
Anda diberikan dataset yang berisi nilai ujian dari 20 siswa sebagai berikut:
Nilai: 70, 75, 80, 85, 90, 95, 100, 65, 60, 55, 85, 75, 95, 70, 60, 85, 75, 90, 100, 65
Berikut adalah data tinggi badan (dalam cm) dari 10 siswa:
Tinggi: 160, 165, 170, 155, 150, 175, 160, 170, 180, 165
Anda memiliki data pengeluaran harian (dalam ribu rupiah) dari sebuah keluarga selama 7 hari:
Pengeluaran: 150, 175, 200, 180, 190, 160, 210
Hitunglah rentang pengeluaran harian keluarga tersebut.
Dengan menggunakan data berikut, buatlah histogram untuk menunjukkan distribusi nilai:
Nilai: 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 60, 70, 80, 90, 100
Bagaimana bentuk distribusi dari histogram tersebut? Apakah data berdistribusi normal, miring ke kiri, atau miring ke kanan?
Berikut adalah data berat badan (dalam kg) dari 12 orang:
Berat: 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110
Buatlah diagram stem and leaf boxplot dari data berat badan tersebut.
Identifikasilah apakah ada outlier pada data tersebut berdasarkan boxplot yang Anda buat.