Tujuan

Tujuan dari bab ini adalah menyajikan metode grafis (berbasis grafik atau gambar) dan numerik (berbasis angka) untuk mengeksplorasi, merangkum, dan mendeskripsikan data.

1 Metode Grafis dan Numerik Untuk Mendeskripsikan Data Kualitatif

Pada pembahasan mengenai tipe-tipe data, telah dipelajari bahwa data yang bersifat kategorikal disebut data kualitatif. Saat mendeskripsikan pengamatan kualitatif, kita mendefinisikan kategori sedemikian rupa sehingga setiap pengamatan hanya dapat masuk ke dalam satu dan hanya satu kategori (atau kelas). Data tersebut kemudian dideskripsikan secara numerik dengan memberikan jumlah pengamatan, atau proporsi dari total jumlah pengamatan, yang termasuk dalam setiap kategori.

Pada tulisan ini dipelajari metode-metode grafis (berbasis grafik atau gambar) untuk mendeskripsikan data kualitatif yang meliputi bar chart (diagram batang), pie chart (diagram lingkaran), dan pareto chart (diagram pareto). Selain menggunakan grafik, dapat digunakan metode berbasis angka (numerik) berupa tabel frekuensi untuk mendeskripsikan data kualitatif.

1.1 Tabel Frekuensi

Komponen-komponen pada tabel frekuensi adalah kategori (atau kelas), frekuensi, dan frekuensi relatif. Tabel 1.1 merupakan contoh tabel frekuensi untuk kasus kecelakaan fatal berdasarkan penyebabnya.

Kelas adalah salah satu kategori di mana data kualitatif dapat diklasifikasikan.

Frekuensi kategori (atau kelas) untuk suatu kategori tertentu adalah jumlah pengamatan yang termasuk dalam kategori tersebut.

Frekuensi relatif kategori (atau kelas) untuk suatu kategori tertentu adalah proporsi dari total jumlah pengamatan \(n\) yang termasuk dalam kategori tersebut, yaitu, \[ \text{Frekuensi Relatif} = \frac{\text{Frekuensi}}{n} \]

Tabel 1.1: Tabel frekuensi penyebab kecelakaan fatal terkait energi
Kategori (Penyebab) Frekuensi (Jumlah Kecelakaan) Frekuensi Relatif (Proporsi)
Runtuhnya tambang batu bara 9 0.145
Kerusakan bendungan 4 0.065
Ledakan gas 40 0.645
Reaktor nuklir 1 0.016
Kebakaran minyak 6 0.097
Lainnya (seperti petir, pembangkit listrik) 2 0.032
Total 62 1.000

Tabel 1.1 merangkum temuan peneliti. Dalam hal ini, variabel kualitatif yang menjadi perhatian adalah penyebab kecelakaan fatal terkait energi. Dari Tabel 1.1, dapat dilihat bahwa data untuk 62 kecelakaan terbagi menjadi enam kategori (penyebab). Tabel ringkasan memberikan baik frekuensi maupun frekuensi relatif untuk setiap kategori penyebab. Jelas bahwa ledakan gas adalah penyebab kecelakaan yang paling sering terjadi, terjadi dalam 40 dari 62 kecelakaan (atau sekitar 65%). Penyebab yang paling tidak mungkin (hanya terjadi 1 kali) adalah kegagalan reaktor nuklir.

1.2 Diagram Batang dan Diagram Lingkaran

Deskripsi grafis dari kumpulan data kualitatif biasanya dilakukan dengan menggunakan diagram batang (bar chart) atau diagram lingkaran (pie chart). Diagram batang menampilkan frekuensi (atau frekuensi relatif) yang sesuai untuk setiap kategori, dengan tinggi atau panjang batang yang sebanding dengan frekuensi kategori (atau frekuensi relatif). Diagram lingkaran membagi sebuah lingkaran penuh (seperti kue pie) menjadi beberapa irisan, masing-masing sesuai dengan satu kategori, dengan sudut pusat irisan sebanding dengan frekuensi relatif kategori. Contoh metode grafis yang umum dikenal ini ditampilkan dalam Gambar 1.1 dan Gambar 1.2.

*Bar Chart* (diagram batang)  penyebab kecelakaan fatal

Gambar 1.1: Bar Chart (diagram batang) penyebab kecelakaan fatal

Gambar 1.1 adalah diagram batang vertikal yang mendeskripsikan data dalam Tabel 1.1 (diagram batang dapat berbentuk vertikal atau horizontal.) Setiap batang mewakili salah satu dari enam penyebab, dan tinggi batang merepresentasikan jumlah kecelakaan fatal yang termasuk dalam kategori penyebab tersebut. Tinggi batang vertikal untuk kategori “Ledakan Gas” —jauh lebih tinggi daripada semua kategori lainnya— menunjukkan bahwa ini adalah penyebab yang paling sering terjadi dalam kecelakaan fatal.

*Pie Chart* (Diagram lingkaran) penyebab kecelakaan fatal

Gambar 1.2: Pie Chart (Diagram lingkaran) penyebab kecelakaan fatal

Gambar 1.2 adalah diagram lingkaran yang menunjukkan persentase kecelakaan fatal terkait energi yang dikaitkan dengan kategori penyebab. Diagram lingkaran menampilkan sebuah bagian dari lingkaran untuk setiap kategori, di mana ukuran irisan sebanding dengan frekuensi relatif (persentase) kategori tersebut. Diagram lingkaran tidak hanya memberikan persentase kecelakaan untuk setiap penyebab secara tepat, tetapi juga menyediakan perbandingan visual cepat dari frekuensi relatifnya. Anda dapat dengan jelas melihat bahwa ledakan gas (64,5%) adalah penyebab utama kecelakaan fatal.

1.3 Diagram Pareto

Diagram batang vertikal seperti pada Gambar 1.1 dapat ditingkatkan dengan mengatur batang pada grafik dalam bentuk diagram Pareto. Diagram Pareto (dinamai dari ekonom Italia Vilfredo Pareto) adalah grafik batang frekuensi dengan batang ditampilkan sesuai urutan tinggi, dimulai dari batang tertinggi di sebelah kiri. Diagram Pareto adalah alat grafis yang populer dalam pengendalian proses dan kualitas, di mana tinggi batang sering kali mewakili frekuensi masalah (misalnya, cacat, kecelakaan, kerusakan, dan kegagalan) dalam proses produksi. Karena batang diatur dalam urutan tinggi menurun, mudah untuk mengidentifikasi area dengan masalah yang paling parah.

Diagram Pareto untuk data kecelakaan terkait energi yang dirangkum dalam Tabel 1.1 ditampilkan pada Gambar 1.3. Karena frekuensi relatif yang terkait dengan enam kategori penyebab diatur dalam urutan menurun, mudah untuk mengidentifikasi penyebab (ledakan gas) yang paling banyak menyebabkan kecelakaan dan penyebab (reaktor nuklir) yang paling sedikit menyebabkan kecelakaan. Selain batang dengan tinggi yang menurun, diagram Pareto juga menunjukkan plot proporsi kumulatif kecelakaan (disebut garis “kum”) yang ditumpangkan di atas batang. Skala garis kum muncul di sisi kanan diagram Pareto pada Gambar 1.3.

*Pareto chart* (Diagram pareto) penyebab kecelakaan fatal

Gambar 1.3: Pareto chart (Diagram pareto) penyebab kecelakaan fatal

Diagram Batang (Bar Chart): Kategori (kelas) dari variabel kualitatif direpresentasikan oleh batang, di mana tinggi setiap batang menunjukkan frekuensi kelas, frekuensi relatif kelas, atau persentase kelas.

Diagram Lingkaran (Pie Chart): Kategori (kelas) dari variabel kualitatif direpresentasikan oleh irisan sebuah lingkaran. Ukuran setiap irisan sebanding dengan frekuensi relatif kelas.

Diagram Pareto (Pareto Chart): Diagram batang dengan kategori (kelas) dari variabel kualitatif (yaitu, batang-batangnya) diatur berdasarkan tinggi dalam urutan menurun dari kiri ke kanan.

2 Metode Grafis Untuk Mendeskripsikan Data Kuantitatif

Pada pembahasan mengenai tipe-tipe data, telah dipelajari bahwa kumpulan data kuantitatif terdiri dari data yang dicatat pada skala numerik yang bermakna. Untuk mendeskripsikan, meringkas, dan mendeteksi pola dalam data semacam itu, kita dapat menggunakan tiga metode grafis: dot plot, diagram batang daun (stem-and-leaf displays), dan histogram. Karena sebagian besar perangkat lunak statistik dapat digunakan untuk membuat tampilan ini, di sini kita akan fokus pada interpretasinya daripada pembuatannya.

Misalnya, Environmental Protection Agency (EPA) atau Badan Perlindungan Lingkungan melakukan serangkaian pengujian pada semua model mobil baru untuk menentukan tingkat efisiensi bahan bakarnya. Misalkan 100 pengukuran dalam Tabel 2.1 mewakili hasil (mil per galon) dari pengujian tersebut pada model mobil baru tertentu. Bagaimana kita dapat meringkas informasi dari sampel yang cukup besar ini?

Tabel 2.1: Tingkat jarak tempuh EPA pada 100 mobil
36.3 41.0 36.9 37.1 44.9 36.8 30.0 37.2 42.1 36.7
32.7 37.3 41.2 36.6 32.9 36.5 33.2 37.4 37.5 33.6
40.5 36.5 37.6 33.9 40.2 36.4 37.7 37.7 40.0 34.2
36.2 37.9 36.0 37.9 35.9 38.2 38.3 38.3 35.7 35.1
38.5 39.0 35.5 34.8 38.6 39.4 35.3 34.4 38.8 39.7
36.3 36.8 32.5 36.4 40.5 36.6 36.1 38.2 38.4 39.3
41.0 31.8 37.3 33.1 37.0 37.6 37.0 38.7 39.0 35.8
37.0 37.2 40.7 37.4 37.1 37.8 35.9 35.6 36.7 34.5
37.1 40.3 36.7 37.0 33.9 40.1 38.0 35.2 34.8 39.5
39.9 36.9 32.9 33.8 39.8 34.0 36.8 35.0 38.1 36.9

Inspeksi visual terhadap data menunjukkan beberapa fakta yang jelas. Misalnya, sebagian besar jarak tempuh berada di angka 30-an, dengan sebagian kecil di angka 40-an. Namun, sulit untuk memberikan informasi tambahan pada 100 tingkat jarak tempuh tersebut tanpa menggunakan beberapa metode untuk merangkum data. Salah satu metode tersebut adalah dot plot.

2.1 Dot Plot (Diagram Titik)

Diagram titik untuk 100 data tingkat jarak tempuh mobil ditunjukkan pada Gambar 2.1. Sumbu horizontal pada Gambar 2.1 adalah skala untuk variabel kuantitatif dalam satuan mil per galon (mpg). Nilai numerik yang dibulatkan (ke setengah galon terdekat) dari setiap pengukuran dalam himpunan data terletak pada skala horizontal dengan sebuah titik. Ketika nilai data terulang, titik-titik tersebut ditempatkan di atas satu sama lain, membentuk tumpukan pada lokasi numerik tertentu tersebut. Seperti yang dapat Anda lihat, diagram titik ini membuktikan bahwa hampir semua rating (tingkat) jarak tempuh berada di angka 30-an, dengan sebagian besar berada di antara 35 hingga 40 mil per galon.

*Dot plot* untuk 100 tingkat jarak tempuh mobil

Gambar 2.1: Dot plot untuk 100 tingkat jarak tempuh mobil

2.2 Stem-and-Leaf Display (Diagram Batang Daun)

Representasi grafis lain yang dapat digunakan untuk data yang serupa yaitu stem-and-leaf display (diagram batang daun). Dalam diagram batang daun, batang (stem) adalah bagian dari pengukuran (mpg) di sebelah kiri titik (atau koma) desimal, sedangkan bagian sisanya di sebelah kanan titik (atau koma) desimal adalah daun (leaf). Diagram batang daun untuk data jarak tempuh mobil adalah sebagai berikut.

## [1] "Diagram batang daun untuk data jarak tempuh mobil"
## 
##   The decimal point is at the |
## 
##   30 | 0
##   31 | 8
##   32 | 5799
##   33 | 126899
##   34 | 024588
##   35 | 0123567899
##   36 | 01233445566777888999
##   37 | 000011122334456677899
##   38 | 01223345678
##   39 | 00345789
##   40 | 0123557
##   41 | 002
##   42 | 1
##   43 | 
##   44 | 9

Pada diagram batang daun di atas, batang terletak di sebelah kiri |, sedangkan daun terletak di sebelah kanan |. Batang merupakan angka di sebelah kiri titik (atau koma) desimal, sedangkan daun adalah satu digit angka di sebelah kiri titik (atau koma) desimal. Misalkan, untuk nilai 36.3, maka 30 diletakkan di kolom batang, sedangkan 3 diletakkan di kolom daun pada baris batang 30.

Pada diagram batang daun di atas, batang (stem) untuk himpunan data dicantumkan di kolom pertama dari yang terkecil (30) hingga yang terbesar (44). Kemudian daun (leaf) untuk setiap observasi dicantumkan di sebelah kanan pada baris tampilan yang bersesuaian dengan batang observasi tersebut. Misalnya, daun 3 dari observasi pertama (36.3) di Tabel 2.1 muncul di baris yang sesuai dengan batang 36. Demikian pula, daun 7 untuk observasi kedua (32.7) di Tabel 2.1 muncul di baris yang sesuai dengan batang 32, dan daun 5 untuk observasi ketiga (40.5) muncul di baris yang sesuai dengan batang 40. Biasanya, daun-daun di setiap baris diurutkan seperti yang ditunjukkan dalam diagram batang daun di atas.

Diagram batang daun menyajikan gambaran ringkas lain dari himpunan data. Anda dapat melihat sekilas bahwa 100 pembacaan jarak tempuh tersebar antara 30.0 dan 44.9, dengan sebagian besar berada di baris batang 35 hingga 39. Enam daun di baris batang 34 menunjukkan bahwa enam dari 100 pembacaan memiliki nilai setidaknya 34.0 tetapi kurang dari 35.0. Demikian pula, sebelas daun di baris batang 35 menunjukkan bahwa sebelas dari 100 pembacaan memiliki nilai setidaknya 35.0 tetapi kurang dari 36.0. Hanya lima mobil yang memiliki pembacaan sama dengan 41 atau lebih besar, dan hanya satu yang serendah 30.

Berikut ini adalah langkah-langkah dalam membuat diagram batang daun.

  1. Bagi setiap observasi dalam himpunan data menjadi dua bagian, batang dan daun. Misalnya, batang dan daun dari jarak tempuh 31.8 secara berurutan adalah 31 dan 8.
Batang Daun
31 8
  1. Urutkan batang-batang dalam kolom, mulai dari batang terkecil hingga batang terbesar.
  2. Lakukan langkah di atas ke seluruh himpunan data. Tempatkan daun untuk setiap observasi di baris batang yang sesuai.

2.3 Histogram

Histogram untuk 100 data tingkat jarak tempuh mobil EPA ditampilkan pada Gambar 2.2. Sumbu horizontal pada Gambar 2.2, yang menunjukkan mil per galon (mpg) untuk sebuah mobil tertentu, dibagi ke dalam interval kelas yang dimulai dari interval 30–31 dan berlanjut dalam interval dengan ukuran yang sama hingga 44–45 mpg. Sumbu vertikal menunjukkan jumlah (atau frekuensi) dari 100 pembacaan yang termasuk dalam setiap interval. Tampaknya sekitar 21 dari 100 mobil, atau 21%, mencapai jarak tempuh (mileage) antara 37 dan 38 mpg. Interval kelas ini memiliki frekuensi tertinggi, dan interval lainnya cenderung memiliki jumlah pengukuran yang lebih sedikit seiring dengan semakin kecil atau besarnya nilai mileage.

Histogram untuk data tingkat jarak tempuh mobil

Gambar 2.2: Histogram untuk data tingkat jarak tempuh mobil

Histogram dapat digunakan untuk menampilkan frekuensi atau frekuensi relatif dari pengukuran yang termasuk dalam interval kelas. Interval kelas, frekuensi, dan frekuensi relatif untuk data jarak tempuh mobil EPA ditampilkan dalam tabel ringkasan, yaitu Tabel 2.2 1.

Tabel 2.2: Kelas interval, frekuensi, dan frekuensi relatif untuk data jarak tempuh mobil
Kelas Interval Frekuensi Frekuensi Relatif
30-31 1 0.01
31-32 1 0.01
32-33 4 0.04
33-34 6 0.06
34-35 6 0.06
35-36 10 0.10
36-37 20 0.20
37-38 21 0.21
38-39 11 0.11
39-40 8 0.08
40-41 7 0.07
41-42 3 0.03
42-43 1 0.01
43-44 0 0.00
44-45 1 0.01

Dengan menjumlahkan frekuensi relatif pada interval 35–36, 36–37, 37–38, dan 38–39, dapat dilihat bahwa 65% dari jarak tempuh berada di antara 35.0 dan 39.0. Demikian pula, hanya 2% mobil yang memperoleh tingkat jarak tempuh (mileage rating) di atas 42.0. Banyak pernyataan ringkasan lainnya dapat dibuat dengan mempelajari lebih lanjut histogram dan tabel ringkasan yang menyertainya. Perlu dicatat bahwa jumlah semua frekuensi kelas akan selalu sama dengan ukuran sampel, n.

Meskipun histogram memberikan gambaran visual yang baik tentang kumpulan data —terutama yang sangat besar— histogram tidak memungkinkan kita mengidentifikasi pengukuran individu. Untuk mengidentifikasi pengukuran individu dapat digunakan teknik penyajian lain, seperti diagram titik (dot plot) atau diagram batang daun (stem-and-leaf display). Setiap pengukuran asli terlihat hingga batas tertentu dalam diagram titik (dot plot) dan terlihat jelas dalam diagram batang daun. Diagram batang daun mengatur data dalam urutan menaik, sehingga memudahkan untuk menemukan pengukuran individu. Sebagai contoh, pada diagram batang daun untuk jarak tempuh mobil kita dapat dengan mudah melihat bahwa dua pengukuran konsumsi bahan bakar sama dengan 36,3, tetapi hal itu tidak terlihat hanya dengan mengamati histogram pada Gambar 2.2. Namun, diagram batang daun dapat menjadi sulit digunakan untuk kumpulan data yang sangat besar. Jumlah batang dan daun yang sangat banyak dapat menyebabkan dimensi vertikal dan horizontal menjadi tidak praktis, sehingga mengurangi kegunaan tampilan visual.

Tabel 2.3: Penentuan jumlah kelas pada histogram
Jumlah Observasi Pada Data Jumlah Kelas
Kurang dari 25 5-6
25-50 7-10
Lebih dari 50 11-15

2.3.1 Langkah-Langkah Membuat Histogram

  1. Hitung rentang data
    \[ \text{Rentang} = \text{Pengamatan terbesar} - \text{Pengamatan terkecil} \]

  2. Bagi rentang ke dalam 5 hingga 15 kelas dengan lebar yang sama
    Jumlah kelas bersifat arbitrer (dapat ditentukan secara acak atau bebas), tetapi Anda akan mendapatkan deskripsi grafis yang lebih baik jika menggunakan jumlah kelas yang kecil untuk data berukuran kecil dan jumlah kelas yang lebih besar untuk kumpulan data yang lebih besar (lihat Tabel 2.3). Batas kelas pertama harus berada di bawah pengukuran terkecil, dan lebar kelas harus dipilih sedemikian rupa sehingga tidak ada pengamatan yang berada tepat di batas kelas.

  3. Hitung frekuensi kelas
    Untuk setiap kelas, hitung jumlah pengamatan yang termasuk dalam kelas tersebut. Jumlah ini disebut frekuensi kelas.

  4. Hitung frekuensi relatif kelas
    \[ \text{Frekuensi relatif kelas} = \frac{\text{Frekuensi kelas}}{\text{Jumlah total pengamatan}} \]

  5. Buat histogram
    Histogram pada dasarnya adalah diagram batang di mana kategori adalah kelas. Dalam histogram frekuensi, tinggi batang ditentukan oleh frekuensi kelas. Begitu juga, dalam histogram frekuensi relatif, tinggi batang ditentukan oleh frekuensi relatif kelas.

Referensi

Mendenhall, W.M., & Sincich, T.L. (2016). Statistics for Engineering and the Sciences (6th ed.). Chapman and Hall/CRC. https://doi.org/10.1201/b19628.


  1. Pada Tabel 2.2, suatu pengamatan yang berada di batas interval kelas diklasifikasikan ke dalam interval kelas berikutnya yang lebih tinggi. Sebagai contoh, angka konsumsi bahan bakar 37.0, yang berada di batas antara interval kelas 36–37 dan 37–38, diklasifikasikan ke dalam kelas 37–38. Pengklasifikasian seperti ini menjadi konvensi dalam beberapa software statistik, seperti SPSS. Hal ini dapat disesuaikan atau diubah, yakni dengan mengklasifikasikan pengamatan yang berada di batas interval kelas ke dalam interval kelas yang sama. Misalnya, angka konsumsi bahan bakar 37.0, yang berada di batas antara interval kelas 36–37 dan 37–38, diklasifikasikan ke dalam kelas 36–37.↩︎