I. Pendahuluan

Visualisasi data kontinu bivariat bertujuan untuk memahami hubungan antara dua variabel numerik. Pada analisis ini digunakan dataset diamonds dari package ggplot2 untuk mengeksplorasi hubungan antara berat berlian, harga, serta karakteristik fisik lainnya.

Eksplorasi data

head(diamonds)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
##  $ carat  : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
##  $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
##  $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
##  $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
##  $ depth  : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
##  $ table  : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
##  $ price  : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
##  $ x      : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
##  $ y      : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
##  $ z      : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
summary(diamonds)
##      carat               cut        color        clarity          depth      
##  Min.   :0.2000   Fair     : 1610   D: 6775   SI1    :13065   Min.   :43.00  
##  1st Qu.:0.4000   Good     : 4906   E: 9797   VS2    :12258   1st Qu.:61.00  
##  Median :0.7000   Very Good:12082   F: 9542   SI2    : 9194   Median :61.80  
##  Mean   :0.7979   Premium  :13791   G:11292   VS1    : 8171   Mean   :61.75  
##  3rd Qu.:1.0400   Ideal    :21551   H: 8304   VVS2   : 5066   3rd Qu.:62.50  
##  Max.   :5.0100                     I: 5422   VVS1   : 3655   Max.   :79.00  
##                                     J: 2808   (Other): 2531                  
##      table           price             x                y         
##  Min.   :43.00   Min.   :  326   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:56.00   1st Qu.:  950   1st Qu.: 4.710   1st Qu.: 4.720  
##  Median :57.00   Median : 2401   Median : 5.700   Median : 5.710  
##  Mean   :57.46   Mean   : 3933   Mean   : 5.731   Mean   : 5.735  
##  3rd Qu.:59.00   3rd Qu.: 5324   3rd Qu.: 6.540   3rd Qu.: 6.540  
##  Max.   :95.00   Max.   :18823   Max.   :10.740   Max.   :58.900  
##                                                                   
##        z         
##  Min.   : 0.000  
##  1st Qu.: 2.910  
##  Median : 3.530  
##  Mean   : 3.539  
##  3rd Qu.: 4.040  
##  Max.   :31.800  
## 

Including Plots

  1. Scatter Plot Carat vs Price

Grafik menunjukkan pola naik, artinya semakin berat berlian, harga cenderung meningkat. Namun, titik yang tersebar menunjukkan bahwa berlian dengan berat sama masih bisa memiliki harga berbeda, yang menandakan kualitas lain juga memengaruhi harga. Grafik menunjukkan hubungan positif antara berat berlian dan harga. Semakin besar berat berlian, harga cenderung meningkat.

  1. Scatter Plot + Trend Line

Garis tren yang meningkat memperkuat bahwa hubungan antara berat berlian dan harga bersifat positif. Walaupun data menyebar, arah hubungan tetap konsisten. Hubungan depth dan harga terlihat lebih menyebar tanpa pola kuat, menunjukkan depth bukan faktor utama penentu harga.

3.2D Density Plot

Walaupun ukuran titik berbeda, pola utama tetap menunjukkan hubungan kuat antara berat dan harga. Depth tidak mengubah pola utama secara signifikan. Kontur menunjukkan pusat distribusi berlian berada pada berat kecil dan harga menengah.

II.Kesimpulan

Visualisasi bivariat menunjukkan bahwa berat berlian memiliki hubungan positif kuat terhadap harga, sementara variabel fisik lain seperti depth menunjukkan hubungan yang lebih lemah. Teknik visualisasi seperti scatter plot, hexbin, dan density plot membantu memahami pola hubungan sekaligus mengatasi masalah overplotting pada data besar.