Email:
RPubs: https://rpubs.com/sherlytaurin/
Github: https://github.com/sherlytaurin/


Visualisasi Data adalah teknik mengambil informasi dari data menjadi visual seperti bagan, grafik, dan peta. Visualisasi data, memungkinkan untuk menangani data kecil atau bahkan data besar sehingga lebih mudah untuk dimengerti oleh otak manusia, Visualisasi juga membuat data lebih bisa dideteksi polanya, garis keseimbangannya, dan pencilan yang terdapat pada data.

R adalah platform yang luat biasa untuk melakukan analisis data, yang mampu membuat hampir semua jenis grafik. Buku ini akan membantu anda membuat visualisasi yang paling populer dari plot yang cepat dan berantakan hingga grafik yang siap untuk dipublikasi. Disini kita akan belajar bersamaa bagaimana memvisualisasikan data dari univariate, bivariate, dan multivariate. Dari yang paling dasar hingga tingkatan yang lebih sulit, diharapkan ikuti instruksi berikut step per step.

1 Data Univariate

Plot univariat biasanya digunakan untuk melakukan distribusi data dari satu variabel. Variabelnya bisa berupa kategoris (contoh, jenis kelamin, ras, Negara, kota, dsb) atau kuantitatif (seperti, umur, berat badan, inflasi, nilai, dsb).

1.1 Kategorikal

Distribusi data dari satu variabel plotnya dapat berupa bar-chart, pie-chart, atau (yang jarang) treemap.

1.1.1 Bar-Chart (Grafik Batang)

Berikut adalah beberapa contoh dari Marriage dataset, Saya mengambilnya dari package mosaicData. Kita menggunakan bar-chart untuk menampilkan distribudi dari partisipan pernikahan (marriage) dengan Zodiac

Categorical Bar Chart 1

Categorical Bar Chart 1

Bars/batang bisa mewakilkan persentase dibandingkan jumlah. Untuk bar-charts (zodiacs), kode aes(x=sign) adalah shortcut untuk aes(x = sign, y = ..count..), dimana ..count.. adalah sebuah variabel spesial yang merepresentasikan frekuensi setiap kategorinya. Kita bisa menggunakan ini untuk menghitung persentasi, dengan y sebagai variabel eksplisitnya.

Pada R, warna bisa ditentukan berdasarkan namanya (contoh col = “red”) seperti yang tercantum pada gambar dibawah ini.

atau bisa juga dengan mengetikkan triplet RGB heksadesimal untuk menentukan warna (seperti col = “#FFCC00”) More. Selain itu, kita juga bisa menggunakan warna lainnya dari sistem seperti yang ada pada package RColorBrewer More dan package grDevices (mungkin kamu sudah mengload package ini) berisi angka dari palettes, ketik ?rainbow pada Rconsole. Mari kita melihat grafik berikut:

 Categorical Bar Chart 2

Categorical Bar Chart 2

Mengurutkan bar berdasarkan frekuensi sering kali dapat sangat membantu. Pada kode dibawah ini, frekuensi dihitung secara eksplisit. Kemudian funsi reorder digunakan untuk mengurutkan kategori berdasarkan frekuensi. Opsi stat="identity" memberiitahu fungsi plotting untuk tidak menghitung jumlah, karena mereka diberikan secara langsung.

Categorical Bar Chart 3

Categorical Bar Chart 3

Jika kita mungkin ingin memberi label nilai numerik pada setiap bar, mari kita coba kode berikut:

Categorical Bar Chart 4

Categorical Bar Chart 4

Terkadang beberapa label kategori mungkin saling tumpang tindih. Hal itu sangat mengganggu bukan?. Jadi kita bisa memutar label sumbunya.

Categorical Bar Chart 5

Categorical Bar Chart 5

Atau jalan lainnya, kita dapat mengatasi situasi ini dengan menukar sumbu x dan y.

Categorical Bar Chart 6

Categorical Bar Chart 6

1.1.2 Pie Chart (Grafik lingkaran)

Grafik lingkaran bersifat kontroversial dalam statistik. Jika tujuanmu adalah membangingkan frekuensi kategori, lebih baik anda menggunakan bar-chart (manusia lebih baik dalam menital panjang bar dari pada volume irisan lingkaran). Jika tujuan ada untuk membandingkan setiap kategori dengan keseluruhan (misalkan, berapa bagian peserta yang merupakan Hispanik jika dibandingkan dengan semua perserta), dan jumlah kategorinya kecil, maka grafik lingkaran mungkin cocok untuk digunakan. Dibutuhkan lebih banyak kode untuk membuat grafik lingkaran yang menarik di R.

Berikut adalah contoh untuk membuat grafik lingkaran ggplot2 dasar:

Categorical Pie Chart

Categorical Pie Chart

Grafik donat hanyalah grafik lingkaran sederhana dengan lubang didalamnya. Perbedaannya hanyalah kita mengatur:x=2 danxlim=c(0,5, 2.5) pada kode diagram lingkaran untuk membuat lubang di dalam diagram lingkaran. Selain itu, argumen width pada fungsi geom_bar() tidak diperlukan lagi.

Categorical Donut Chart 1

Categorical Donut Chart 1

Sekarang mari kita menjadi berangan-angan dan menambahkan label, sambil menghilangkan tulisan.

Categorical Donut Chart 2

Categorical Donut Chart 2

1.2 Continuous (Berkelanjutan)

Distribusi variabel kuantitatif tunggal biasanya diplotkan dengan histogram, kernel density plot, or plot titik

1.2.1 Histogram

Dengan menggunakan data Marriage, mari kita membuat plot dari umur para pastisipan pernikahan.

Quantitative Histogram

Quantitative Histogram

Sebagian besar peserta yang tampaknya berusia awal 20-an dengan kelompok lain berusia 40-an, dan kelompok yang jauh lebih kecil berusia 60-an dan awal 70-an. Ini akan menjadi distribusi multimoda. Warna histogram dapat dimodifikasi menggunakan dua opsi:

  • fill - fill color for the bars
  • color - border color around the bars

Atau kamu dapat menentukannya dengan binwidth, lebarnya bins diwakili oleh barnya.

Quantitative Histogram 2

Quantitative Histogram 2

Seperti grafik bar, sumbu y dapat mewakili perhitungan atau persen dari total.

Quantitative Histogram 3

Quantitative Histogram 3

1.2.2 Kernel Density Plot (Plot kepadatan Kernel)

Sebuah alternatif untuk histogram adalah plot kepadatan kernel. Secara teknis, estimasi kepadatan kernel adalah metode non-parametrik untuk memperkirakan fungsi kepadatan probabilitas dari variabel acak kontinu. Pada dasarnya, kami mencoba menggambar histogram yang dihaluskan, di mana area di bawah kurva sama dengan satu.

Quantitative Kenel Density Plot

Quantitative Kenel Density Plot

Grafik menunjukkan distribusi skor. Sevagai contoh, The graph shows the distribution of scores.proporsi kasus antara 20 dan 40 tahun akan diwakili oleh area di bawah kurva antara 20 dan 40 pada sumbu x. Seperti bagan sebelumnya, kita juga dapat menggunakan isian dan warna untuk menentukan warna isian dan batas.

1.2.3 Smoothing Parameter

Tingkat kehalusan dikontrol oleh parameter bandwidth bw. Untuk menemukan nilai default untuk variabel tertentu, gunakan fungsi bw.nrd0. Nilai yang lebih besar akan menghasilkan hasil yang lebih halus/mulus, sedangkan nilai yang lebih kecil akan menghasilkan hasil yang kurang mulus/halus.

## [1] 5.181946
Smoothing Parameter Plot

Smoothing Parameter Plot

Plot kepadatan kernel memungkinkan kita untuk melihat skor mana yang paling sering dan mana yang relatif jarang dengan lebih mudah. Tetapi sulit untuk menjelaskan arti sumbu-y kepada seseorang yang non-ahli statistik. (Tapi hal itu akan membuat anda terlihat pintar pada party!)

1.2.4 Dot Chart (Diagram titik)

Alternatif lain untuk histogram adalah diagram titik. Sekali lagi, variabel kuantitatif dibagi menjadi beberapa kelompok, tetapi bukannya ringkasan bar, setiap pengamatan diwakili oleh sebuah titik. Secara default,lebar sebuah titik sama dengan lebar bin, dan titik-titik bertumpuk, dengan setiap titik mewakili satu observasi. Hal ini akan bekerja dengan sangat baik ketika jumlah data yang diobservasinya kecil (kurang dari 150).Opsi isian dan warna dapat digunakan untuk menentukan warna isian dan batas masing-masing titik

Dot Chart

Dot Chart

ada banyak pilihan yang tersedia. klik here untuk detail dan contohnya.

2 Data Bivariate

Grafik Bivariate, menampilkan hubungan antara dua variabel. Tipe grafik akan tergantung pada tingkatan dari variabelnya (kategorikal atau kuantitatif).

2.1 Kategorikal vs. Kategorikal

2.1.2 Bar-Chart / Grafik Batang Berkelompok

Grafik batang yang dikelompokkan menempatkan batang untuk variabel kategori kedua secara berdampingan. Untuk membuat plot batang yang dikelompokkan, gunakan opsi position = "single". Perhatikan bahwa opsi ini hanya tersedia di versi pengembangan terbaru ggplot2, tetapi akan segera tersedia secara umum.

Grouped Bar Chart

Grouped Bar Chart

2.1.3 Bar Chart / Grafik Batang Memotong

Grafik Batang memotong adalah grafik batang bertumpuk di mana setiap batang mewakili 100 persen.Kita dapat membuat diagram batang tersegmentasi menggunakan opsi posisi = “terisi”. Jenis plot ini sangat berguna jika tujuannya adalah untuk membandingkan persentase kategori dalam satu variabel di setiap tingkat variabel lain. Misalnya, proporsi penggerak roda depan mobil meningkat saat kamu beralih dari compact, ke ukuran sedang, ke minivan.

Segmented Bar Chart

Segmented Bar Chart

Catatan: Anda bisa menggunakan opsi tambahan untuk meningkatkan warna dan pelabelan pada grafik dibawah ini

  • factor mengubah urutan kategori untuk variabel kelas dan urutan, serta * labels untuk variabel drive
  • scale_y_continuous mengubah label tanda centang sumbu y
  • labs menyediakan judul dan mengubah label untuk sumbu x dan y serta tulisan
  • scale_fill_brewer mengubah skema warna isian
  • theme_minimal menghapus latar belakang abu-abu dan mengubah warna kisi

Fungsi lainnya dibahas lebih lengkap pada bagian pada Bab Visualisasi Data Lanjutan.

2.1.4 Mosaic Plots / Bagan Mosaic

Bagan mosaic dapat menampilkan hubungan antara variabel kategori menggunakan persegi panjang yang luasnya mewakili proporsi kasus untuk kombinasi level tertentu. Warna ubin juga dapat menunjukkan hubungan derajat antar variabel.

Meskipun bagan mosaic dapat dibuat dengan ggplot2 menggunakan package ggmosaic, saya sarankan menggunakan package vcd sebagai gantinya. Meskipun tidak akan membuat grafik ggplot2, package memberikan pendekatan yang lebih komprehensif untuk memvisualisasikan data kategorikal.

Orang-orang terpesona dengan Titanic (atau apakah dengan Leo?). Dalam bencana Titanic , peran apa yang dimainkan berdasarkan jenis kelamin dan kelas dalam bertahan hidup? Kita dapat memvisualisasikan hubungan antara ketiga variabel kategori ini dengan menggunakan kode di bawah ini.

##                Sex Male Female
## Survived Class                
## No       1st        118      4
##          2nd        154     13
##          3rd        422    106
##          Crew       670      3
## Yes      1st         62    141
##          2nd         25     93
##          3rd         88     90
##          Crew       192     20
## Loading required package: grid
Basic mosaic plot

Basic mosaic plot

Ukuran tilenya sebanding dengan persentase kasus dalam kombinasi tingkat tersebut. Jelas lebih banyak penumpang yang tewas daripada yang selamat. Mereka yang tewas terutama adalah penumpang pria kelas 3 dan awak pria (kelompok terbesar).

Jika kita mengasumsikan bahwa ketiga variabel ini independent, kita dapat memeriksa residual dari model dan memberi bayangan pada tile agar sesuai. Pada grafik di bawah ini, biru tua menunjukkan lebih banyak kasus daripada yang diharapkan jika diberikan kebebasan. Merah tua mewakili lebih sedikit kasus dari yang diharapkan jika independent berlaku.

Mosaic plot with shading

Mosaic plot with shading

Kita dapat melihat bahwa jika kelas, jenis kelamin, dan kelangsungan hidup independen, kita melihat lebih banyak awak laki-laki yang tewas, dan perempuan kelas 1, 2 dan 3 selamat lebih dari yang diekspektasikan. Sebaliknya, jauh lebih sedikit penumpang kelas satu (pria dan wanita) yang meninggal daripada yang diperkirakan secara kebetulan. Dengan demikian asumsi independen ditolak. (Spoiler: Leo tidak berhasil.)

2.2 Kontinu vs. Kontinu

Hubungan antara dua variabel kuantitatif biasanya ditampilkan menggunakan diagram sebar dan grafik garis.

2.2.1 Scatterplot (diagram sebar)

Scatterplot dibuat untuk mempelajari hubungan antara 2 variabel. Sehingga seringkali disertai dengan perhitungan koefisien korelasi, yang biasanya mencoba mengukur hubungan linier. Namun jenis hubungan lain dapat dideteksi menggunakan scatterplot, dan tugas umum terdiri untuk menyesuaikan model yang menjelaskan Y dalam fungsi X. Berikut adalah beberapa pola yang dapat Anda deteksi dengan membuat scatterplot..

relationship scatterplots

relationship scatterplots

Tampilan paling sederhana dari dua variabel kuantitatif adalah scatterplot, dengan setiap variabel diwakili pada sumbu. Misalnya, dengan menggunakan kumpulan data Gaji, kita dapat memplot pengalaman (yrs.since.phd) vs. gaji akademik (gaji) untuk college Professors.

Scatterplot 1

Scatterplot 1

Catatan: opsi geom_point dapat digunakan untuk mengubah

  • color - warna titik
  • size - ukuran titik
  • shape - bentuk titik
  • alpha - transparansi titik. Transparansi berkisar dari 0 (transparan) hingga 1 (buram), dan merupakan parameter yang berguna saat titik tumpang tindih

Fungsi scale_x_continuous danscale_y_continuous mengontrol penskalaan masing-masing pada sumbu x dan y. Kita dapat menggunakan opsi dan fungsi ini untuk membuat scatterplot yang lebih menarik.

2.2.2 Scatterplot Garis Kesesuaian

ISeringkali berguna untuk meringkas hubungan yang ditampilkan di sebar, menggunakan garis yang paling pas. Banyak jenis garis yang didukung, termasuk linier, polinomial, dan nonparametrik (loess). Secara default, batas kepercayaan 95% untuk garis-garis ini ditampilkan.

Scatterplot Linear

Scatterplot Linear

Jelas, gaji meningkat sesuai dengan pengalaman. Namun, tampaknya ada penurunan di ujung kanan - profesor dengan pengalaman signifikan, mendapatkan gaji lebih rendah. Garis lurus tidak menangkap efek non-linier ini. Garis dengan lengkungan akan lebih pas di sini.

Garis regresi polinomial memberikan garis kesesuaian dari form

\[\begin{equation} \label{eq:1} \hat{y}=\beta_0+\beta_1x+\beta_2x^2+\cdots+\beta_nx^2 \end{equation}\]

Biasanya garis kuadrat (satu tikungan), atau kubik (dua tikungan) digunakan. Sangat jarang perlu menggunakan urutan yang lebih tinggi \((> 3)\) polynomials. Menerapkan kesesuaian kuadrat ke set data gaji menghasilkan hasil sebagai berikut.

Scatterplot Quadratic

Scatterplot Quadratic

khirnya, garis kesesuaian nonparametrik yang diperhalus sering kali dapat memberikan gambaran yang baik tentang hubungan tersebut. Default di ggplot2 adalah garis loess yang merupakan singkatan dari penghalusan scatterplot berbobot lokal.

Scatterplot Smoothed Nonparametric

Scatterplot Smoothed Nonparametric

2.3 Kategorikal vs. Kontinu

Saat memplot hubungan antara variabel kategori dan variabel kuantitatif, tersedia banyak jenis grafik. Ini termasuk bar-chart yang menggunakan summary statistik , plot kepadatan kernel yang dikelompokkan, plot kotak berdampingan, plot violin berdampingan, plot mean / sem, plot ridgeline, dan plot Cleveland.

2.3.2 Plot Kepadatan Kernel Berkelompok

Seseorang dapat membandingkan grup pada variabel numerik dengan melapiskan kernel density plot dalam satu grafik. Mari kita membuat plot distribusi gaji dengan peringkat menggunakan plot kepadatan kernel.

Grouped Kernel Density Plots

Grouped Kernel Density Plots

Pilihan alpha membuat plot kepadatan menjadi transparan sebagian sehingga kita dapat melihat apa yang terjadi di bawah tumpang tindih. Nilai alfa berkisar dari 0 (transparan) hingga 1 (buram). Grafik tersebut menjelaskan bahwa, secara umum, gaji naik sesuai pangkat. Namun, kisaran gaji untuk profesor penuh sangat luas.

2.3.3 Box Plots (Plot kotak)

box-plot menampilkan \(25^{th}\) persentil, median, dan \(75^{th}\) persentil dari sebuah distribusi. The whiskers (garis vertikal) menangkap sekitar 99% dari distribusi normal, dan pengamatan di luar rentang ini diplot sebagai titik yang mewakili pencilan (lihat gambar di bawah)

Box Plots

Box Plots

Plot kotak berdampingan sangat berguna untuk membandingkan kelompok (yaitu, level variabel kategori) pada variabel numerik. Mari kita membuat plot distribusi gaji dengan peringkat menggunakan plot kotak. Plot kotak bertakik memberikan metode perkiraan untuk memvisualisasikan apakah kelompok berbeda. Meskipun bukan tes formal, jika takik dari dua petak kotak tidak tumpang tindih, ada bukti kuat (kepercayaan 95%) bahwa median dari kedua kelompok berbeda.

Box Plots

Box Plots

Pada contoh di atas, ketiga kelompok tersebut tampak berbeda. Salah satu keuntungan dari plot kotak adalah lebarnya biasanya tidak berarti. Ini memungkinkan kamu membandingkan distribusi banyak grup dalam satu grafik.

2.3.4 Violin Plots (Plot Violin)

Plot biola hamppir sama dengan plot kernel density tetapi dicerminkan dan diputar \(90^0\). Mari kita membuat plot distribusi gaji dengan peringkat menggunakan plot biola.

Violin Plots

Violin Plots

2.3.5 Plot Ridgeline

Plot ridgeline (juga disebut plot kegembiraan) menampilkan distribusi variabel kuantitatif untuk beberapa kelompok. Mereka mirip dengan plot kernel density dengan vertikal faceting, tetapi mengambil lebih sedikit ruang. Plot ridgeline dibuat dengan package ggridges.

mennggunakan data Fuel economy, mari kita membuat plot distribusi mil mengemudi kota per galon dengan kelas mobil.

Ridgeline Plots

Ridgeline Plots

Saya telah menyembunyikan tulisan di sini karena itu berlebihan (distribusinya sudah diberi label pada sumbu y). Tidak mengherankan, truk pick up memiliki jarak tempuh yang paling rendah, sementara subcompact dan compact cenderung mencapai peringkat. Namun, ada rentang skor jarak tempuh yang sangat luas untuk mobil-mobil kecil ini.

Perhatikan kemungkinan tumpang tindih distribusi adalah trade-off untuk grafik yang lebih compact. Anda dapat menambahkan transparansi jika tumpang tindih parah menggunakan geom_density_ridges (alpha=n), dengan n berkisar dari 0 (transparan) hingga 1 (buram). lihat package vingnette untuk lebih detailnya.

2.3.6 Line Plots (Plot garis)

Metode populer untuk membandingkan grup pada variabel numerik adalah plot rata-rata dengan error bar. Error bar dapat mewakili standar deviasi, standar error mean, atau interval kepercayaan. Di bagian ini, kami akan memplot cara dan standar error. Kita dapat menggunakan teknik yang sama untuk membandingkan gaji berdasarkan pangkat dan jenis kelamin. (Secara teknis, ini bukan bivariat karena kami merencanakan pangkat, jenis kelamin, dan gaji, tetapi tampaknya cocok di sini).

Line Plots

Line Plots

2.3.7 Strip Plots (Plot keping)

Hubungan antara variabel pengelompokan dan variabel numerik dapat ditampilkan dengan scatter plot. Misalnya, plot distribusi gaji menurut peringkat menggunakan strip plot. scatter plot satu dimensi ini disebut strip plot. Sayangnya, pencetakan poin yang berlebihan membuat interpretasi menjadi sulit. Hubungannya lebih mudah dilihat jika titik-titiknya goyah. Pada dasarnya nomor acak kecil ditambahkan ke setiap koordinat y. Juga lebih mudah untuk membandingkan kelompok jika kita menggunakan warna.

Strip Plots

Strip Plots

Opsi legend.position =" none " digunakan untuk menyembunyikan tulisan (yang tidak diperlukan di sini). Plot jittered bekerja dengan baik jika jumlah poin tidak terlalu besar.

2.3.8 Jitter dan Boxplots

Mungkin lebih mudah untuk memvisualisasikan distribusi jika kita menambahkan box plot ke plot jitter. Beberapa opsi ditambahkan untuk membuat plot ini.

  • untuk boxplot:
    • size = 1 membuat garis lebih tebal
    • outlier.color = "black" membuat tepi hitam
    • outlier.shape = 1 menentukan lingkaran untuk tepi
    • outlier.size = 3 menaikkan ukuran tepi
  • untuk jitter:
    • alpha = 0.5 membuat titik transparan
    • width = .2 mengurngi jumlah jitter (.4 errornya)

sehingga, sumbu \(x\) dan \(y\) diputar menggunakan fungsi coord_flip (yaitu, grafik diputar pada sisinya).

Combining Jitter and Boxplots 1

Combining Jitter and Boxplots 1

Sebelum melanjutkan, ada baiknya menyebutkan fungsi geom_boxjitter disediakan di package ggpol. Ini membuat boxplot hibrida - setengah boxplot, setengah scatterplot.

Combining Jitter and Boxplots 2

Combining Jitter and Boxplots 2

2.3.9 Beeswarm Plots (plot lebah)

Plot lebah (disebut juga plot pencar biola) mirip dengan plot sebar jittered, yang menampilkan variabel distribusi kuantitatif dengan memplot titik dengan cara mengurangi tumpang tindih. Selain itu, mereka juga membantu menampilkan data kepadatan di setiap titik (dengan cara yang mirip dengan violin plot). Melanjutkan contoh sebelumnya.

Beeswarm Plots

Beeswarm Plots

Plot dibuat menggunakan fungsi geom_quasirandom. Plot ini bisa lebih mudah dibaca daripada plot jittered strip sederhana. Untuk mempelajari lebih lanjut tentang plot ini, lihat Beeswarm-style plots dengan ggplot2.

3 Data Multivariate

Grafik multivariasi menampilkan hubungan antara tiga variabel atau lebih. Ada dua metode umum untuk mengakomodasi banyak variabel: pengelompokan dan faceting.

3.1 Grouping (Pengelompokan)

Dalam pengelompokan, nilai dari dua variabel pertama dipetakan ke sumbu x dan y. Kemudian variabel tambahan dipetakan ke karakteristik visual lainnya seperti warna, bentuk, ukuran, jenis garis, dan transparansi. Pengelompokan memungkinkan Kita untuk memplot data untuk beberapa grup ke dalam satu grafik. Dengan menggunakan Dataset Salaries, mari kita tunjukkan hubungan antara yrs.since.phd dan gaji.

Multivariate Grouping Plot 1

Multivariate Grouping Plot 1

Lalu, tambahkan jenis kelamin dari profesor, gunakan bentuk titik untuk menunjukkan jenis kelamin. Kita akan meningkatkan ukuran poin dan menambahkan transparansi untuk memperjelas poin per-individu.

Multivariate Grouping Plot 2

Multivariate Grouping Plot 2

Kita tidak bisa mengatakan bahwa ini adalah grafik yang baik. Ini sangat padat, dan mungkin sulit untuk membedakan antara profesor pria dari wanita. Faceting (dijelaskan di bagian selanjutnya) mungkin akan menjadi pendekatan yang lebih baik.

Perhatikan perbedaan antara menetapkan nilai konstan (seperti size = 3) dan pemetaan variabel ke karakteristik visual (misalnya, color = rank). Pemetaan selalu ditempatkan di dalam fungsi aes, sedangkan penetapan nilai konstanta selalu muncul di luar fungsi aes.

Berikut ini adalah contoh yang lebih bersih. Kita akan membuat grafik hubungan antara tahun sejak Ph.D. dan gaji yang menggunakan ukuran poin untuk menunjukkan masa kerja. Ini disebut plot gelembung (Bubble Plot).

Multivariate Grouping Plot 3

Multivariate Grouping Plot 3

Jelas ada hubungan positif yang kuat dari tahun ke tahun sejak Ph.D. dan tahun layanan. Asisten Profesor jatuh dalam 0-11 tahun sejak Ph.D. dan jangkauan layanan 0-10 tahun. Profesional yang jelas sangat berpengalaman tidak hanya berada di level Asisten Profesor (mereka mungkin dipromosikan atau keluar dari Universitas). Kami tidak menemukan batasan waktu yang sama antara Associate dan Full Professor. Bubble plots akan dijelaskan lebih detail di bab selanjutnya.

Sebagai contoh terakhir, mari kita lihat yrs.since.phd vs gaji dan tambahkan jenis kelamin menggunakan warna dan quadratic best fit lines.

Multivariate Grouping Plot 4

Multivariate Grouping Plot 4

3.2 Faceting

3.2.1 Faceting 1

Pengelompokan memungkinkan kita untuk membuat plot beberapa variabel dalam satu grafik, menggunakan karakteristik visual seperti warna, bentuk, dan ukuran. Dalam faceting, grafik terdiri dari beberapa plot terpisah atau kelipatan kecil, satu untuk setiap tingkat variabel ketiga, atau kombinasi variabel. Paling mudah untuk memahami ini dengan sebuah contoh.

Multivariate Faceting 1

Multivariate Faceting 1

Fungsi facet_wrap membuat grafik terpisah untuk setiap tingkat peringkat. Opsi ncol mengontrol jumlah kolom. Di contoh berikutnya, dua variabel digunakan untuk mendefinisikan facet.

3.2.3 Faceting 3

Kita juga bisa menggabungkan pengelompokan dan faceting. Mari kita gunakan plot Mean / SE dan faceting untuk membandingkan gaji profesor pria dan wanita, dalam pangkat dan disiplin. Kami akan menggunakan warna untuk membedakan jenis kelamin dan faceting untuk membuat plot peringkat berdasarkan kombinasi disiplin ilmu.

Multivariate Faceting 3

Multivariate Faceting 3

Pernyataan facet_grid(. ~ rank + discipline) menentukan tidak ada variabel baris (.) dan kolom yang ditentukan oleh kombinasi tingkatan (rank) dan disiplin.

Fungsi theme () membuat tema hitam dan putih dan menghilangkan garis grid vertikal dan garis grid horizontal minor. Fungsi scale_color_brewer () mengubah skema warna untuk titik dan bar kesalahan.

Dipenglihatan mula-mula, tampaknya ada perbedaan gender dalam gaji untuk associate dan profesor penuh waktu di bidang teoritis. Saya berkata “mungkin” karena kita belum melakukan pengujian hipotesis formal (ANCOVA dalam kasus ini). Lihat bagian Customizing untuk mempelajari lebih lanjut tentang menyesuaikan tampilan grafik.