Email:
RPubs: https://rpubs.com/putriangelinaw/


Visualisasi Data adalah cara untuk menampilkan informasi pada data kedalam bentuk visual seperti diagram, grafik, dan peta. Visualisasi Data bisa menangani data yang kecil ataupun data yang besar, sehingga mudah dimengerti atau dipahami oleh sesama. Dan Visualisasi data dapat mendeteksi pola, tren, dan outlier pada data.

R merupakan software terbaik untuk data analisis, karena bisa membuat hampir semua bentuk grafik. Pada publikasi ini akan membantu kalian bagaimana membuat visualisasi data yang sering digunakan (populer). Disini kita akan mempelajari bagaimana memvisualisasikan dari data univariate, bivariate, dan multivariate. Mari kita simak materi berikut dengan seksama.

1 Data Univariate

Univariate plot biasa digunakan untuk menampilkan distribusi dara dengan satu variabel. Variabel tersebut bisa berbentuk kategori (mis: jenis kelamin, ras, negara, kota, dll) atau berbentuk kuantitatif (mis: umur, berat badan, inflasi, penilaian, dll).

1.1 Bentuk Kategori

Distribusi dengan satu variabel kategori biasanya divisualisasikan dengan diagram-batang, diagram-lingkaran, atau treemap (cukup jarang).

1.1.1 Diagram Batang

Ini merupakan contoh yang menampilkan frekuensi dari data Marriage, saya dapatkan dari mosaicData. Kita mau menampilkan distribusi undangan pernikahan berdasarkan Zodiac menggunakan diagram batang.

Categorical Bar Chart 1

Categorical Bar Chart 1

diagram batang bisa menampilkan persentase daripada jumlah. Untuk diagram batang (zodiak), kode aes(x=sign) sebetulnya adalah shortcut untuk aes(x = sign, y = ..count..), dimana ..count.. adalah variabel spesial menampilkan frekuensi setiap kategori. Kamu bisa gunakan ini untuk menghitung persentase, dengan mengutamakan variabel y.

Didalam R, warna bisa ditunjukkan dengan nama (misalnya col = “red”). Untuk list nama setiap warna ada pada gambar berikut.

atau kau bisa menampilkan warna menggunakan hexadecimal RGB triplet (seperti col = “#FFCC00”) More. Ada juga, kita bisa menggunakan cara lain yaitu dari package RColorBrewer More dan dari package grDevices (yang ini sudah terdapat pada R) mengandung angka palette, ketik ?rainbow pada Rconsole untuk mengetahui lebih lanjut. Mari kita fokus pada grafik berikut:

 Categorical Bar Chart 2

Categorical Bar Chart 2

Biasanya sangat penting untuk mengurutkan data berdasarkan frekuensi. Pada koding dibawah ini, frekuensi terkalkulasi dengan jelas. Lalu fungsi reorder digunakan untuk mengurutkan kategori berdasarkan frekuensi. Untuk opisi stat="identity" memberitahu bahwa fungsi grafik/ plot tidak menjumlahkan (count).

Categorical Bar Chart 3

Categorical Bar Chart 3

Jika kamu ingin memberi nama setiap batang dengan nilainya, bisa kita lihat dari koding dibawah ini:

Categorical Bar Chart 4

Categorical Bar Chart 4

Terkadang kategori pada variabel x bisa terlalu panjang dan cukup mengganggu. Jadi kita bisa memutar kategori variabel \(x\) nya dengan derajat tertentu.

Categorical Bar Chart 5

Categorical Bar Chart 5

Adapun cara lain dengan memutar balikkan posisi variabel \(x\) dengan variabel \(y\).

Categorical Bar Chart 6

Categorical Bar Chart 6

1.1.2 Diagram Lingkaran

Diagram Lingkaran sangat kontroversial didalam statistika. Jika tujuanmu adalah membandingkan frekuensi kategori, lebih baik menggunakan diagram batang (orang-orang biasanya lebih cocok dalam membandingkan panjang dari batangnya, jadi lebih terlihat) Jika tujuanmu membandingkan setiap kategori dengan keseluruhan (misalnya, proporsi partisipan yang Hispanic dibandingkan dengan seluruh partisipan), dan angka kategosinya kecil, maka diagram lingkaran bisa menjadi pilihan.

Berikut koding membuat diagram lingkaran menggunakan basic ggplot2 di R.

Categorical Pie Chart

Categorical Pie Chart

Diagram Donat sama seperti diagram lingkaran, hanya saja bentuknya seperti donat. Perbedaannya ada pada \(x = 2\) dan xlim = c(0.5, 2.5) untuk membuat lubang ditengahnya seperti donat. Dan argumen width pada fungsi geom_bar() tidak lagi dibutuhkan.

Categorical Donut Chart 1

Categorical Donut Chart 1

Sekarang kita coba memberi label disetiap kategori.

Categorical Donut Chart 2

Categorical Donut Chart 2

1.2 Kontinu

Distribusi dari satu variabel kuantitatif biasanya didistribusikan menggunakan histogram, kernel density plot, atau dot plot.

1.2.1 Histogram

Dengan menggunakan data set Marriage, Mari kita gambarkan histogram umur dari peserta nikah.

Quantitative Histogram

Quantitative Histogram

Kebanyakan peserta yang muncul yaitu di umur 20-an dan 40-an, dan untuk yang paling sedikit yaitu di umur 60-70an. Ini merupakan distribusi multimodel. Warna histogram dapat diatur menggunakan 2 opsi:

  • fill - isi warna pada batang
  • color - warna untuk luaran/border nya

Kita bisa menggunakan binwidth, maka range value pada variabel \(y\) akan mengikuti nilai dari bindwidth

Quantitative Histogram 2

Quantitative Histogram 2

Seperti pada diagram batang, kategori di variabel \(y\) bisa menunjukkan jumlah atau persen dari total keseluruhan.

Quantitative Histogram 3

Quantitative Histogram 3

1.2.2 Kernel Density Plot

Cara lain untuk menampilkan histogram yaitu kernel density plot. Secara teknik, estimasi kepadatan kernel adalah metode non-parameter untuk mengestimasi fungsi kepadatan peluang (PDF) dari variabel random kontinu. (Apa??!) Secara umum, kita mencoba untuk menggambarkan histogram mulus dengan cara Kernel, dimana area dibawah kurva sama dengan satu.

Quantitative Kenel Density Plot

Quantitative Kenel Density Plot

Grafik tersebut menunjukkan nilai distribusi. Sebagai conoth, proporsi pada kasus antara 20 dan 40 tahun ditampilkan dengan area bawah kurva antara 20-40 di kategori variabel \(x\). Seperti pada diagram sebelumnya, Kita juga bisa mengisi dan mewarnai untuk pewarnaan isi dan border.

1.2.3 Parameter Smoothing

Tingkat kehalusan suatu grafik diatur oleh parameter bandwidth bw. Untuk menemukan nilai default untuk nilai tertentu, gunakan fungsi bw.nrd0. Nilai yang besar akan menghasilkan hasil yang lebih smooth/halus, sedangkan nilai yang kecil menghasilkan hasil kehalusan yang sedikit.

## [1] 5.181946
Smoothing Parameter Plot

Smoothing Parameter Plot

Kernel density plots membuat kita mudah untuk melihat nilai mana yang memiliki frekuensi tinggi dan nilai mana yang tidak. Tetapi hal ini bisa membuat kita sulit mengidentifikasi arti dari variabel \(y\).

1.2.4 Diagram Titik

Adapula cara lainnya yaitu Diagram Titik. Bentuknya mirip seperti histogram, hanya saja ditampilkan seperti kumpulan titik-titik. Secara default, lebar sebuah titik sama dengan lebar bin, dan titik-titik bertumpuk dengan setiap titik mewakili satu observasi. Ini bekerja paling baik jika jumlah observasi kecil (katakanlah, kurang dari 150).

Dot Chart

Dot Chart

Ada beberapa opsi disini, Klik disini for details and examples.

2 Data Bivariate

Data Bivariate menampilkan hubungan antara dua variabel. Tipe grafik ini tergantung level pengukuran dari variabel (kategori atau kuantitatif)

2.1 Kategori vs. Kategori

2.1.2 Diagram Btang Berkelompok

Bagan batang yang dikelompokkan menempatkan batang untuk variabel kategori kedua secara berdampingan. Untuk membuat diagram batang yang dikelompokkan, gunakan opsi position =" single ". Perhatikan bahwa opsi ini hanya tersedia di versi pengembangan terbaru ggplot2, tetapi akan segera tersedia secara umum.

Grouped Bar Chart

Grouped Bar Chart

2.1.3 Diagram Batang Bersegmen

Diagram Batang Bersegmen itu sama seperti diagram batang bertumpuk hanya saja ditampilkan dalam 100 persen. Kamu bisa membuat diagram ini menggunakan opsi position = "filled". Tipe diagram ini cukup berguna jika memiliki tujuan untuk membandingkan persentase setiap kategori variabel. Sebagai contoh, proporsi mobil penggerak roda depan naik saat Anda beralih dari kompak ke menengah, ke minivan.

Segmented Bar Chart

Segmented Bar Chart

Catatan: Kamu bisa gunakan opsi tambahan ini untuk meningkatkan pewarnaan dan pelabelan pada diagram,

  • factor mengatur urutan kategori untuk kelas variabel
  • labels untuk variabel drive
  • scale_y_continuous mengubah label tanda centang sumbu y
  • labs menyediakan judul dan mengubah label untuk sumbu x dan y serta legenda
  • scale_fill_brewer mengubah skema warna isian
  • theme_minimal menghapus latar belakang abu-abu dan mengubah warna kisi

Fungsi lainnya dibahas lebih lengkap pada Bab Visualisasi Data Lanjutan.

2.1.4 Mosaic Plots

Diagram Mosaic bisa menampilkan hubungan antara variabel kategorimenggunakan persegi dimana daerahnya menunjukkan proporsi dari kombinasi level yang diberikan. Warnanya bisa juga menunjukkan hubungan derajat antar variabel.

Walaupun diagram mosaic bisa dibuat dengan ggplot2 menggunakan package ggmosaic, saya lebih merekomendasikan menggunakan package vcd. Walau itu tidak membuat grafiknya ggplot2, package ini memberikan pendekatan yang lebih komprehensif untuk memvisualisasikan data kategori.

Orang-orang terkagum dengan Titanic. Pada masalah Titanic, peran apa yang dimainkan gender dan kelas dalam bertahan hidup? Kita dapat memvisualisasikan hubungan antara ketiga variabel kategori ini dengan menggunakan kode di bawah ini.

##                Sex Male Female
## Survived Class                
## No       1st        118      4
##          2nd        154     13
##          3rd        422    106
##          Crew       670      3
## Yes      1st         62    141
##          2nd         25     93
##          3rd         88     90
##          Crew       192     20
## Loading required package: grid
Basic mosaic plot

Basic mosaic plot

Ukuran persegi sebanding dengan persentase kasus dalam kombinasi level tersebut. Jelas, lebih banyak penumpang yang tewas daripada yang selamat. Mereka yang tewas terutama adalah penumpang pria kelas 3 dan crew pria (kelompok terbesar).

Jika kita mengasumsikan bahwa ketiga variabel ini independen, kita bisa memeriksa residual dari model dan memberi bayangan pada persegi agar sesuai. Pada grafik di bawah ini, biru tua menunjukkan lebih banyak kasus daripada yang diharapkan jika diberikan kebebasan. Merah tua mewakili lebih sedikit kasus dari yang diharapkan jika kebebasan berlaku.

Mosaic plot with shading

Mosaic plot with shading

Kita dapat melihat bahwa jika kelas, jenis kelamin, dan kelangsungan hidup independen, kita melihat lebih banyak crew pria yang tewas, dan perempuan kelas 1, 2, dan 3 bertahan hidup daripada yang diharapkan. Sebaliknya, jauh lebih sedikit penumpang kelas satu (pria dan wanita) yang meninggal daripada yang diperkirakan. Dengan demikian asumsi Independence ditolak.

2.2 Kontinu vs. Kontinu

Membahas mengenai hubungan antara dua variabel yang kontinu dan biasa ditampilkan menggunakan scatterplot dan diagram garis.

2.2.1 Scatterplot

Scatterplot digunakan untuk membahas mengenai hubunagan dua variabel. Jadi ini sering bersinggungan dengan koefisien korelasi, yang biasanya mencoba menghitung hibingan liniernya. Akan tetapi, hubungan lainnya juga bisa dideteksi menggunakan scatterplot, dan tugas umum terdiri untuk menyesuaikan model yang menjelaskan \(Y\) dalam fungsi \(X\). Berikut adalah beberapa pola yang dapat kamu deteksi dengan scatterplot.

relationship scatterplots

relationship scatterplots

Cara paling mudah untuk menampilkan dua variabel kuantitatif adalah scatterplot, dengan setiap variabel ada pada sumbu. Sebagai contoh, menggunakan data Gaji, kita menampilkan variabel pengalaman (yrs.since.phd) vs. gaji akademik (salary) dengan scatterplot untuk college Professors.

Scatterplot 1

Scatterplot 1

Notes: opsi geom_point bisa digunakan untuk mengubah

  • color - warna titik
  • size - ukuran titik
  • shape - bentuk titik
  • alpha - kejelasan titik. Jarak kejelasan dari 0 (transparan) to 1 (opak) dan berguna untuk titk parameter yang banyak kategorinya.

Fungsi scale_x_continuous danscale_y_continuous mengontrol penskalaan masing-masing pada sumbu x dan y. Kita dapat menggunakan opsi dan fungsi ini untuk membuat scatterplot yang lebih menarik.

2.2.2 Scatterplot Fit Lines

Seringkali berguna untuk meringkas hubungan yang ditampilkan scatterplot, menggunakan garis yang paling pas. Banyak jenis garis yang didukung, termasuk linier, polinomial, dan nonparametrik (loess). Secara default, batas kepercayaan 95% untuk garis-garis ini ditampilkan.

Scatterplot Linear

Scatterplot Linear

Jelas, gaji meningkat dengan pengalaman. Namun, tampaknya ada penurunan di ujung kanan - profesor dengan pengalaman signifikan, mendapatkan gaji lebih rendah. Garis lurus tidak menangkap efek non-linier ini. Garis dengan lengkungan akan lebih pas di sini.

Regresi polinomial memberikan garis fit dengan formula

\[\begin{equation} \label{eq:1} \hat{y}=\beta_0+\beta_1x+\beta_2x^2+\cdots+\beta_nx^2 \end{equation}\]

Biasanya garis kuadrat (satu tikungan), atau kubik (dua tikungan) digunakan. Sangat jarang perlu menggunakan urutan yang lebih tinggi $ (> 3) $ polynomial.Dengan menerapkan kesesuaian kuadrat ke dataset gaji menghasilkan hasil sebagai berikut.

Scatterplot Quadratic

Scatterplot Quadratic

Akhirnya, garis kesesuaian nonparametrik yang diperhalus sering kali dapat memberikan gambaran yang baik tentang hubungan tersebut. Default di ggplot2 adalah garis loess yang berarti penghalusan scatterplot berbobot lokal.

Scatterplot Smoothed Nonparametric

Scatterplot Smoothed Nonparametric

2.3 Kategori vs. Kontinu

Ketika membuat plot hubungan antara variabel kategori dan variabel kuantitatif, terdapat angka besar pada tipe grafik. Ini termasuk:

  • diagram batang menggunakan summary statistik
  • kernel density plot terkelompok
  • box plot
  • violin plot
  • mean/sem plots
  • ridgeline plots
  • Cleveland plots

2.3.1 Diagram Batang

Pada bagian sebelumnya, diagram batang digunakan untuk menampilkan angka pada kasus kategori untuk satu atau dua variabel. Kita juga bisa menggunakan diagram batang untuk menampilkan summary statistics (sebagai contoh, mean atau median) pada variabel kuantitatif disetiap level variabel kategori.

Sebagai contoh, Diagram berikut menampilkan rata-rata gaji untuk sampel pada universitas professors berdasarkan tingkat akademik mereka.

Bar Chart (Summary statistics)

Bar Chart (Summary statistics)

2.3.2 Plot Kepadatan Kernel Terkelompok

Seseorang dapat membandingkan grup pada variabel numerik dengan meletakkan plot kepadatan kernel dalam satu grafik. Mari kita plot distribusi gaji dengan peringkat menggunakan kernel density plot.

Grouped Kernel Density Plots

Grouped Kernel Density Plots

Opsi alpha membuat plot kepadatan transparan sebagian sehingga kita bisa melihat apa yang terjadi di bawah tumpang tindih. Nilai alfa berkisar dari 0 (transparan) hingga 1 (opak). Grafik tersebut menjelaskan bahwa, secara umum gaji naik sesuai pangkat. Namun, kisaran gaji untuk full profesor sangat luas.

2.3.3 Box Plot

Box plot menampilkan \(25^{th}\) persentil, median, dan \(75^{th}\) persentil dari distribusi. Whisker (garis vertikal) menangkap sekitar 99% dari distribusi normal dan observasi di luar kisaran ini diplot sebagai titik yang mewakili outlier (lihatlah pada gambar berikut)

Box Plots

Box Plots

Box plot sangat berguna untuk membandingkan kelompok (misalnya, level variabel kategori) pada variabel numerik. Mari kita plot distribusi gaji dengan peringkat menggunakan box plot. Box plot memberikan metode perkiraan untuk memvisualisasikan apakah kelompok berbeda. Meskipun bukan tes formal, jika takik dari dua box plot tidak melewati batas, maka ada bukti kuat (kepercayaan 95%) bahwa median dari kedua kelompok berbeda.

Box Plots

Box Plots

Pada contoh diatas, tiga kelompok muncul pada posisi yang berbeda. Salah satu keuntungan dari box plot adalah lebar mereka tidak biasanya memiliki arti. Ini memperbolehkan kamu untuk membandingkan distribusi dari banyak kelompok pada satu grafik. Jika dilihat pada boxplot-nya profesor itu cukup lebar, artinya memungkinkan terdapat outlier didalamnya.

2.3.4 Violin Plot

Violin plots hampir sama dengan plot kepadatan kernel tetapi perbedaanya itu ini dicerminkan dan diputar \(90^\circ\). Mari kita lakukan plot pada distribusi gaji dengan peringkat menggunakan violin plot.

Violin Plots

Violin Plots

2.3.5 Ridgeline Plot

Ridgeline plot (biasa disebut joy plot) menampilkan distribusi variabel kuantitatif beberapa kelompok. Mereka mirip dengan plot kepadatan kernel dengan faceting yang vertikal, tetapi mengambil sedkit tempat/ruang. Ridgeline plot dibuat dengan package ggridges.

Dengan menggunakan dataset Fuel economy, mari kita buat distribusi dari jarak mengemudi ke kota per gallon dengan kelas mobil.

Ridgeline Plots

Ridgeline Plots

Saya telah menyembunyikan legenda di sini karena itu berlebihan (distribusinya sudah diberi label pada sumbu y). Tidak mengherankan, truk pickup memiliki jarak tempuh yang paling rendah, sementara mobil subcompact dan compact cenderung mencapai peringkat. Namun, ada rentang nilai jarak tempuh yang sangat luas untuk mobil-mobil kecil ini.

Perhatikan kemungkinan bersamaannya distribusi adalah trade-off untuk grafik yang lebih kompak. Kamu bisa menambahkan transparansi jika tumpang tindihnya parah menggunakan geom_density_ridges (alpha = n), dengan n berkisar dari 0 (transparan) hingga 1 (buram). Lihat package vingnette untuk lebih jelasnya.

2.3.7 Strip Plot

Hubungan antara variabel berkelompok dan variabel numerik bisa ditampilkan dengan scatterplot. Sebagai contoh, plot distribusi gaji berdasarkan peringkat menggunakan strip plot. Scatterplot satu dimensi ini disebut strip plot. Akan tetapi, pencetakan poin yang berlebihan membuat interpretasi semakin sulit. Hubungannya lebih mudah dilihat jika poinnya goyah. Pada dasarnya, random angka kecil ditambahkan ke setiap koordinat y. Dan akan lebih mudah untuk membandingkan kelompok jika kita menggunakan warna.

Strip Plots

Strip Plots

Opsi legend.position = "none" digunakan untuk menyembunyikan legend (yang mana tidak lagi dibutuhkan disini).

2.3.8 Jitter and Boxplots

Mungkin akan lebih mudah memvisualisasikan distribusi jika kita menambahkan boxplot ke jitter plot. Jittered plot bekerja dengan baik jika jumlah poin tidak terlalu besar. Beberapa opsi telah ditambahkan untuk membuat jitter plot.

  • Untuk boxplot:
    • size = 1 untuk ketebalan garis
    • outlier.color = "black" membuat outlier berwarna hitam
    • outlier.shape = 2 Bentuk outlier
    • outlier.size = 3 menambah ukuran outlier
  • Untuk jitter plot:
    • alpha = 0.5 untuk kejelasan titik (transparan atau tidak)
    • width = .2 menurunkan nilai jitter (.4 adalah nilai jitter default)

Terakhir, sumbu \(x\) dan \(y\) kita putar posisi menggunakan fungsi coord_flip.

Combining Jitter and Boxplots 1

Combining Jitter and Boxplots 1

Sebelum ke bagian selanjutnya, sangat baik untuk terlebih dahulu mengetahui fungsi geom_boxjitter yang ada pada package ggpol. Itu membuat boxplot hibrid - boxplot setengah.

Combining Jitter and Boxplots 2

Combining Jitter and Boxplots 2

2.3.9 Beeswarm Plot

Beeswarm plot (juga disebut violin scatterplot) itu sama seperti jittered scatterplot, dimana plot ini menampilkan distribusi variabel kuantitatif dengan membuat titik-titiknya mengurangi kejadian tumpang tindih. Artinya, plot ini juga membantu menampilkan kepadatan data di setiap titik (caranya mirip dengan violin plot).

Beeswarm Plots

Beeswarm Plots

Plot diatas dibuat menggunakan fungsi geom_quasirandom. Plot ini sangat mudah untuk dibaca dan lebih simpel daripada jittered strip plot. Untuk memahami lebih banyak mengenai plot ini, silakan klik link berikut Beeswarm-style plots.

2.3.10 Diagram Titik Cleveland

Cleveland plot sangat berguna ketika kamu gunakan untuk membandingkan data statistik numerikal untuk kelompok data besar. Sebagai contoh, kamu ingin membandingkan harapan hidup tahun 2007 di Benua Asia menggunakan dataset pada gapminder.

Beeswarm Plots

Beeswarm Plots

Sangat jelas, negara Jepang lah yang menduduki urutan paling atas, artinya memiliki harapan hidup yang tinggi, sedangkan Afganistan berada diurutan paling bawah. Plot ini juga disebut sebagai grafik lollipop.

3 Data Multivariate

Grafik data multivariat menampilkan hubungan antara tiga atau lebih variabel. Ada dua cara yang paling sering dijumpai untuk membahas variabel multipel: grouping and faceting.

3.1 Grouping

Pada grouping, dua nilai pertama dari dua variabel dipetakan ke sumbu \(x\) dan \(y\). Lalu variabel lainnya dipetakan ke visual karakteristik seperti warna, bentuk, ukuran, garis, dan kejelasan. Grouping memperbolehkan kamu untuk membuat datamu di kelompokan menjadi satu grafik. Kita coba menggunakan dataset Salaries untuk menampilkan hubungan antara yrs.since.phd dan gaji.

Multivariate Grouping Plot 1

Multivariate Grouping Plot 1

Selanjutnya, mari tambahkan jenis kelamin dari setiap profesor kedalam grafik, menggunakan shape of the points supaya membedakan titik setiap variabel. Kita coba tambahkan ukurannya dan ketransparannya untuk memberi perbedaan yang lebih jelas.

Multivariate Grouping Plot 2

Multivariate Grouping Plot 2

Kita tidak bisa begitu saja menyebutkan ini merupakan grafik hebat. Ini terlalu ramai, akan sulit untuk membedakan pria dari profesor wanita (sangat tumpang tindih). Faceting (dibahas di bagian selanjutnya) akan menjadi pendekatan yang lebih baik.

Perhatikan perbedaan antara menetapkan nilai konstan (seperti size = 3) dan pemetaan variabel ke karakteristik visual (misalnya, color = rank). Pemetaan selalu ditempatkan di dalam fungsi aes, sedangkan penetapan nilai konstanta selalu muncul di luar fungsi aes.

Ini contoh yang lebih enak dilihat. Kita membuat grafik hubungan antara Tahun sejak Ph.D. dan gaji dimana ukuran setiap titik bergantung dengan lamanya melayani. Ini disebut dengan bubble plot.

Multivariate Grouping Plot 3

Multivariate Grouping Plot 3

Jelas ada hubungan positif yang kuat antara tahun sejak Ph.D. dan tahun melayani. Asisten Profesor jatuh dalam 0-11 tahun sejak Ph.D. dan rentang layanan 0-10 tahun. Profesional yang jelas sangat berpengalaman tidak hanya berada di level Asisten Profesor (mereka mungkin dipromosikan atau keluar dari Universitas). Kami tidak menemukan batasan waktu yang sama antara Associate dan Full Professor. Bubble plot akan dijelaskan lebih detail di bab selanjutnya.

Sebagai contoh terakhir, mari gunakan variabel tahun sejak Ph.D. vs gaji dan tambahkan jenis kelamin menggunakan warna dan quadratic best fit lines.

Multivariate Grouping Plot 4

Multivariate Grouping Plot 4

3.2 Faceting

3.2.1 Faceting 1

Pengelompokan memungkinkan kamu untuk membuat beberapa variabel dalam satu grafik, menggunakan karakteristik visual seperti warna, bentuk, dan ukuran. Dalam faceting, grafik terdiri dari beberapa plot terpisah atau kelipatan kecil, satu untuk setiap tingkat variabel ketiga atau kombinasi variabel. Untuk lebih memahami, kita akan menggunakan contoh.

Multivariate Faceting 1

Multivariate Faceting 1

Fungsi facet_wrap membuat grafik terpisah untuk setiap level pangkat Opsi ncol mengatur angka pada kolom. Contoh selanjutnya, dua variabel digunakan untuk menjelaskan facets.

3.2.2 Faceting 2

Disini, Fungsi menetapkan variabel jenis kelamin ke baris dan variabel pangkat ke kolom, membuat matriks dari 6 plot dalam satu grafik.

Multivariate Faceting 2

Multivariate Faceting 2

3.2.3 Faceting 3

Kita juga bisa menggabungkan grouping dan faceting. Mari kita gunakan plot Mean/SE dan faceting untuk membandingkan gaji profesor pria dan wanita, dalam pangkat dan kedisiplinan. Kita akan menggunakan warna untuk membedakan jenis kelamin dan faceting untuk membuat plot angkat berdasarkan kombinasi kedisiplinan.

Multivariate Faceting 3

Multivariate Faceting 3

Pernyatan facet_grid(. ~ rank + discipline) ynag menentukan tidak ada variabel baris (.) dan kolom ditentukan oleh kombinasi pangkat dan kedisiplinan.

Fungsi theme() membuat tema hitam putih dan mengeliminasi garis kotak-kotak. Fungsi scale_color_brewer() mengubah skema warna setiap titik dan error bars.

Pada pandangan pertama, tampaknya ada perbedaan jenis kelamin dalam gaji untuk associate dan full profesor di bidang teoretis. Saya mengatakan “mungkin” karena kita belum melakukan pengujian hipotesis formal (ANOVA dalam kasus ini). Lihat bagian Customizing untuk mempelajari lebih lanjut tentang menyesuaikan tampilan grafik.

3.2.4 Faceting 4

Sebagai contoh terakhir, kita akan beralih ke dataset berbeda dan buat plot perubahan harapan hidup setiap waktunya untuk negara di Asia. Datanya dari package gapminder. Setiap negara muncul sendiri-sendiri. Fungsi theme digunakan untuk pewarnaan background, putar teks sumbu \(x\), dan buat font lebih kecil.

Multivariate Faceting 4

Multivariate Faceting 4