Perusahaan Apple Inc. adalah perusahaan teknologi multinasional yang berkantor pusat di Cupertino, California, Amerika Serikat. Apple didirikan pada tahun 1976 oleh Steve Jobs, Steve Wozniak, dan Ronald Wayne.

Perusahaan ini terkenal dengan produk-produk inovatif seperti iPhone, iPad, Mac, Apple Watch, dan Apple TV. Apple juga memiliki layanan-layanan seperti Apple Music, Apple TV+, iCloud, dan Apple Arcade. Apple merupakan salah satu perusahaan teknologi terbesar di dunia dengan pendapatan tahunan sekitar $274.5 miliar pada tahun 2020.

Selain produk-produknya yang inovatif, Apple juga terkenal dengan desainnya yang elegan dan keunggulan dalam hal integrasi antara perangkat keras dan perangkat lunak. Perusahaan ini memiliki reputasi yang kuat dalam hal keamanan dan privasi, dan sering memperkenalkan teknologi baru yang mempengaruhi industri teknologi secara keseluruhan.

1 Welcome to Anthony’s data visualization project

1.1 Data Apple

Data Apple di dapatkan dari Kaggle, digunakan untuk proses Data Visualisasi berdasarkan subset data-data dan analisa sesuai kebutuhan yang akan di tampilkan, seperti salah satu akan di tampikan adalah “20 tingkat teratas track_name berdasarkan price.

1.2 Apa itu “Data Visualization”

Data visualization (visualisasi data) adalah suatu cara untuk mengkomunikasikan informasi dan data dengan memanfaatkan elemen grafis seperti grafik, diagram, peta, dan visualisasi lainnya. bertujuan untuk membantu kita memahami data dengan lebih baik, mengidentifikasi pola dan tren, serta menemukan wawasan atau insight yang mungkin tersembunyi di dalam data.

Dalam dunia bisnis dan akademik, data visualization sangat penting untuk membantu kita mengambil keputusan yang didasarkan pada data yang valid. Dengan ini, kita dapat melihat data secara visual dan mudah dipahami, sehingga dapat menghindari kesalahan interpretasi data dan mempermudah proses pengambilan keputusan.

Beberapa jenis grafik yang sering digunakan dalam data visualization adalah bar chart, line chart, scatter plot, pie chart, heat map, dan bubble chart. Selain itu, visualisasi data juga dapat berupa infografik, dashboard, dan animasi grafik yang interaktif.

Dalam perkembangan teknologi saat ini, data visualization juga didukung oleh software dan alat bantu seperti Microsoft Excel, R, Python, Tableau, Power BI, dan banyak lagi. Dengan menggunakan alat bantu tersebut, visualisasi data dapat dilakukan dengan lebih mudah, cepat, dan memungkinkan pengguna untuk memodifikasi tampilan grafik dan menerapkan analisis yang lebih canggih serta mudah dimengerti.

1.3 Library GGplot

GGplot adalah salah satu paket pada bahasa pemrograman R yang digunakan untuk melakukan visualisasi data menggunakan library(ggplot2). GGplot dirancang untuk menghasilkan grafik dengan tampilan yang lebih menarik dan fleksibel, sehingga sangat cocok untuk digunakan dalam kegiatan analisis data. Dengan menggunakan GGplot, kita dapat menghasilkan grafik-gafik yang beragam, seperti scatterplot, histogram, bar chart, dan sebagainya. GGplot juga memungkinkan kita untuk menambahkan berbagai elemen pada grafik, seperti teks, anotasi, label, dan sebagainya, sehingga membuat hasil visualisasi menjadi lebih informatif dan mudah dipahami, ggplot2 memiliki banyak fungsi, berikut beberapa fungsi GGplot :

  1. ggplot(): Fungsi inti dari paket ggplot2 untuk membuat objek plot dasar.
  2. aes(): Fungsi untuk menambahkan mapping estetika ke objek plot. Ini mendefinisikan hubungan antara variabel dan properti visual seperti posisi sumbu, ukuran, warna, bentuk, dan sebagainya.
  3. geom_*(): Fungsi untuk menambahkan layer geometri ke objek plot. Layer geometri menunjukkan jenis grafik yang digunakan, seperti geom_point() untuk scatterplot, geom_line() untuk line chart, geom_bar() untuk histogram, dan sebagainya.
  4. scale_*(): Fungsi untuk menyesuaikan skala estetika pada objek plot, seperti scale_x_continuous() untuk menyesuaikan skala sumbu x, scale_color_gradient() untuk menyesuaikan skala warna, dan sebagainya.
  5. facet_*(): Fungsi untuk membuat panel dalam satu plot, seperti facet_wrap() untuk membuat beberapa grafik berdasarkan faktor atau variabel tertentu.
  6. theme(): Fungsi untuk menyesuaikan tampilan visual dari objek plot, seperti font, ukuran, warna, margin, dan sebagainya.
  7. coord_*(): Fungsi untuk mengatur sistem koordinat yang digunakan dalam objek plot, seperti coord_flip() untuk memutar sumbu dalam plot, coord_polar() untuk membuat plot polar, dan sebagainya. Terdapat banyak fungsi lainnya yang dapat digunakan dalam ggplot2 untuk membuat objek plot yang dapat disesuaikan dan informatif.

Apabila anda tertarik untuk sharing terkait Data Visualization dapat menghubungi saya di Linkedin Anthony

2 PERSIAPAN DATA

Persiapan data (data preparation) merupakan proses pembersihan, transformasi, dan penyederhanaan data sebelum data tersebut digunakan dalam analisis dan visualisasi. Hal ini bertujuan untuk memastikan bahwa data yang digunakan dalam analisis berkualitas baik, valid, dan dapat dipercaya. Beberapa langkah yang dapat dilakukan dalam persiapan data antara lain:

  • Memahami data dan tujuan analisis: Pahami sumber data, variabel yang tersedia, dan tujuan dari analisis. Langkah ini penting untuk memastikan bahwa data yang digunakan memang relevan dan dapat menjawab pertanyaan yang ingin dijawab.

  • Melakukan pembersihan data: Identifikasi dan hapus data yang tidak relevan, duplikat, atau tidak lengkap. Hal ini penting untuk memastikan kualitas data yang digunakan.

  • Transformasi data: Lakukan transformasi data jika diperlukan, seperti pengubahan skala, pengurangan dimensi, atau normalisasi. Hal ini bertujuan untuk mempermudah analisis dan membuat data lebih mudah dipahami.

  • Melakukan integrasi data: Jika data berasal dari berbagai sumber, lakukan integrasi data untuk memastikan bahwa data dapat digunakan dalam analisis.

  • Memeriksa konsistensi data: Pastikan bahwa data konsisten dalam hal format, satuan, dan lain-lain.

  • Mengevaluasi kualitas data: Lakukan evaluasi kualitas data, seperti pengujian outlier, analisis kecenderungan, dan lain-lain. Hal ini penting untuk memastikan bahwa data dapat dipercaya dan menghasilkan hasil analisis yang akurat.

Setelah proses persiapan data selesai dilakukan, data siap digunakan untuk proses analisis serta kebutuhan lainnya, pada proyek kali ini saya akan focus pada proses dan hasil visualisasi dataset Apple.

Memanggil Dataset AppleStore.csv menggunakan fungsi read.csv disimpan menjadi dataframe dengan nama apple.

apple <- read.csv("A_LABS/AppleStore.csv")
dim(apple)
#> [1] 7197   17

Hasil tersebut menunjukkan bahwa dataframe apple terdiri dari 7197 baris dan 16 kolom.

Fungsi colSums(is.na(apple)) digunakan untuk menghitung jumlah nilai hilang (NA) dalam setiap kolom dari dataframe apple.

colSums(is.na(apple))
#>                X               id       track_name       size_bytes 
#>                0                0                0                0 
#>         currency            price rating_count_tot rating_count_ver 
#>                0                0                0                0 
#>      user_rating  user_rating_ver              ver      cont_rating 
#>                0                0                0                0 
#>      prime_genre  sup_devices.num  ipadSc_urls.num         lang.num 
#>                0                0                0                0 
#>          vpp_lic 
#>                0

Fungsi glimpse() pada library(dplyr) digunakan untuk menampilkan struktur dan informasi mengenai tipe data dari sebuah dataframe secara ringkas dan mudah dibaca.

glimpse(apple)
#> Rows: 7,197
#> Columns: 14
#> $ track_name       <chr> "PAC-MAN Premium", "Evernote - stay organized", "Weat…
#> $ size_bytes       <dbl> 100788224, 158578688, 100524032, 128512000, 92774400,…
#> $ price            <dbl> 3.99, 0.00, 0.00, 0.00, 0.00, 0.99, 0.00, 0.00, 9.99,…
#> $ rating_count_tot <int> 21292, 161065, 188583, 262241, 985920, 8253, 119487, …
#> $ rating_count_ver <int> 26, 26, 2822, 649, 5320, 5516, 879, 3594, 4, 40, 4017…
#> $ user_rating      <dbl> 4.0, 4.0, 3.5, 4.0, 4.5, 4.0, 4.0, 4.0, 4.5, 4.0, 4.5…
#> $ user_rating_ver  <dbl> 4.5, 3.5, 4.5, 4.5, 5.0, 4.0, 4.5, 4.5, 5.0, 4.0, 4.5…
#> $ ver              <chr> "6.3.5", "8.2.2", "5.0.0", "5.10.0", "7.5.1", "1.8", …
#> $ cont_rating      <chr> "4+", "4+", "4+", "12+", "4+", "4+", "4+", "12+", "4+…
#> $ prime_genre      <chr> "Games", "Productivity", "Weather", "Shopping", "Refe…
#> $ sup_devices.num  <int> 38, 37, 37, 37, 37, 47, 37, 37, 37, 38, 38, 37, 37, 3…
#> $ ipadSc_urls.num  <int> 5, 5, 5, 5, 5, 5, 0, 4, 5, 0, 4, 0, 4, 0, 5, 1, 1, 5,…
#> $ lang.num         <int> 10, 23, 3, 9, 45, 1, 19, 1, 1, 10, 11, 6, 33, 2, 2, 2…
#> $ vpp_lic          <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…
#> Rows: 7,197
#> Columns: 14
#> $ track_name       <chr> "PAC-MAN Premium", "Evernote - stay organized", "Weat…
#> $ size_bytes       <dbl> 100788224, 158578688, 100524032, 128512000, 92774400,…
#> $ price            <dbl> 3.99, 0.00, 0.00, 0.00, 0.00, 0.99, 0.00, 0.00, 9.99,…
#> $ rating_count_tot <int> 21292, 161065, 188583, 262241, 985920, 8253, 119487, …
#> $ rating_count_ver <int> 26, 26, 2822, 649, 5320, 5516, 879, 3594, 4, 40, 4017…
#> $ user_rating      <dbl> 4.0, 4.0, 3.5, 4.0, 4.5, 4.0, 4.0, 4.0, 4.5, 4.0, 4.5…
#> $ user_rating_ver  <dbl> 4.5, 3.5, 4.5, 4.5, 5.0, 4.0, 4.5, 4.5, 5.0, 4.0, 4.5…
#> $ ver              <chr> "6.3.5", "8.2.2", "5.0.0", "5.10.0", "7.5.1", "1.8", …
#> $ cont_rating      <chr> "4+", "4+", "4+", "12+", "4+", "4+", "4+", "12+", "4+…
#> $ prime_genre      <chr> "Games", "Productivity", "Weather", "Shopping", "Refe…
#> $ sup_devices.num  <int> 38, 37, 37, 37, 37, 47, 37, 37, 37, 38, 38, 37, 37, 3…
#> $ ipadSc_urls.num  <int> 5, 5, 5, 5, 5, 5, 0, 4, 5, 0, 4, 0, 4, 0, 5, 1, 1, 5,…
#> $ lang.num         <int> 10, 23, 3, 9, 45, 1, 19, 1, 1, 10, 11, 6, 33, 2, 2, 2…
#> $ vpp_lic          <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…

3 VISUALISASI DATA HARGA

Visualisasi data (data visualization) pada proyek kali ini akan disajikan sesuai dengan analisa dasar untuk mudah dipahami pembaca dan dapat memberikan wawasan terkait data apple app store, berikut ini beberapa bentuk visualisasi data apple app store :

3.1 track_name 20 HARGA TERTINGGI

4 VISUALISASI GENRE UTAMA

Berdasarkan Barchart yang disajikan dapat disimpulkan 3 peringkat teratas adalah nama track dengan harga diatas 99 USD, “LAMP Words For Life” pada App Store menjadi peringkat pertama dengan harga tertinggi di angka 299.99 USD.

4.1 GENRE UTAMA 20 TERBAWAH

20 peringkat prime_genre terbawah berdasarkan Frequensi

4.2 GENRE UTAMA 20 TERATAS

20 peringkat prime_genre tertinggi berdasarkan Frequensi

5 VISUALISASI PERSENTASE USER

Jumlah Pengguna Aplikasi Berdasarkan Ukuran File dengan nilai % berdasarkan frequensi pengguna layanan app store, pada visualisasi ini menggunakan dasar diagram pie chart.

5.1 VISUALISASI “MB FAVORIT PELANGGAN”

6 VISUALISASI KORELASI

Pastikan data sudah dalam bentuk numeric untuk dapat diproses ke tahap selanjutnya

#> Rows: 7,197
#> Columns: 11
#> $ size_bytes       <dbl> 100788224, 158578688, 100524032, 128512000, 92774400,…
#> $ price            <dbl> 3.99, 0.00, 0.00, 0.00, 0.00, 0.99, 0.00, 0.00, 9.99,…
#> $ rating_count_tot <int> 21292, 161065, 188583, 262241, 985920, 8253, 119487, …
#> $ rating_count_ver <int> 26, 26, 2822, 649, 5320, 5516, 879, 3594, 4, 40, 4017…
#> $ user_rating      <dbl> 4.0, 4.0, 3.5, 4.0, 4.5, 4.0, 4.0, 4.0, 4.5, 4.0, 4.5…
#> $ user_rating_ver  <dbl> 4.5, 3.5, 4.5, 4.5, 5.0, 4.0, 4.5, 4.5, 5.0, 4.0, 4.5…
#> $ sup_devices.num  <int> 38, 37, 37, 37, 37, 47, 37, 37, 37, 38, 38, 37, 37, 3…
#> $ ipadSc_urls.num  <int> 5, 5, 5, 5, 5, 5, 0, 4, 5, 0, 4, 0, 4, 0, 5, 1, 1, 5,…
#> $ lang.num         <int> 10, 23, 3, 9, 45, 1, 19, 1, 1, 10, 11, 6, 33, 2, 2, 2…
#> $ vpp_lic          <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…
#> $ size_mb          <dbl> 96.1, 151.2, 95.9, 122.6, 88.5, 10.0, 217.2, 124.2, 4…

6.1 VISUALISASI GGally

Perhatikan nilai maksimal dari korelasi ditunjukan oleh nilai 1 dan -1, apabila korelasi mengarah ke angka 1 positif maka warna akan semakin merah terang yang artinya memiliki korelasi “kuat positif”, sedangkan untuk warna biru menandakan sebaliknya, saat korelasi mengarah ke angka -1 makan warna akan semakin berwarna biru laut mengartikan korelasi bersifat “kuat negatif”.

Berdasarkan outputggcorr() diatas user_rating dengan user_rating_ver memiliki korelasi kuat positif karena memiliki nilai 0.8 positif. korelasi tertinggi dapat dilihat antara size_bytes dengan size_mb memiliki nilai 1 positif artinya memiliki korelasi terkuat diantara prediktor (kolom) lainnya.

6.2 VISUALISASI GGPARCOORD

Hasil dari ggparcoord(appleparcoor) dapat disimpulkan korelasi antara price dengan size_mb dan user_rating memiliki korelasi, korelasi tersebut dapat dipahami bahwa semakin besar harga dapat mempengaruhi jumlah kapasitas Bytes dan Mega-bytes yang di dapat, harga yang tinggi juga dapat mempengaruhi rating yang diberikan oleh pengguna (user) berdasarkan benefit yang di terima pelanggan Apple App Store. `

6.3 VISUALISASI HEATMAP

Berikut ini adalah hasil korelasi output dari size_bytes, size_mb, price, user_rating, user_rating_ver kemudian data ini disimpan menjadi dataframe dengan nama heatmapcor untuk proses selanjutnya.

#>                 size_bytes    size_mb      price user_rating user_rating_ver
#> size_bytes      1.00000000 1.00000000 0.18239187  0.06625572      0.08607466
#> size_mb         1.00000000 1.00000000 0.18239058  0.06625417      0.08607299
#> price           0.18239187 0.18239058 1.00000000  0.04660100      0.02517333
#> user_rating     0.06625572 0.06625417 0.04660100  1.00000000      0.77413985
#> user_rating_ver 0.08607466 0.08607299 0.02517333  0.77413985      1.00000000

Sebagai indikator korelasi : - nilai positif = 1 (Kuat Positif) - nilai negatif = -1 (Kuat Negatif) Perlu diperhatikan untuk nilai korelasi tertinggi berada di angka 1. apabila korelasi menunjukan / menampilkan angka 1 atau -1 maka dapat disimpulkan prediktor/variabel tesebutlah yang memiliki korelasi, tingkatan korelasi dapat diukur berdasarkan nilai korelasi antar tiap prediktor/variabel itu sendiri.

Hasil output dari heatmap dapat kita berikan kesimpulan antara size_mb dengan size_bytes korelasi yang kuat sehingga apabila terjadi perubahan data di antara size_mb dan size_bytes pasti akan saling mempengaruhi.

7 Anthony Project

Sekian portofolio Data Visualization (data visualisasi) dari saya. Semoga dengan adanya portofolio ini, dapat memberikan gambaran mengenai kemampuan dan pengalaman saya dalam melakukan analisis data dan menyajikan hasilnya dalam bentuk visualisasi yang menarik dan mudah dipahami. Terima kasih telah mengunjungi portofolio ini, dengan senang hari saya siap untuk menjawab pertanyaan atau diskusi lebih lanjut mengenai projek-projek yang telah saya lakukan dapat mengunjungi Project Anthony & Diskusi.