Perusahaan Apple Inc. adalah perusahaan teknologi multinasional yang berkantor pusat di Cupertino, California, Amerika Serikat. Apple didirikan pada tahun 1976 oleh Steve Jobs, Steve Wozniak, dan Ronald Wayne.
Perusahaan ini terkenal dengan produk-produk inovatif seperti iPhone, iPad, Mac, Apple Watch, dan Apple TV. Apple juga memiliki layanan-layanan seperti Apple Music, Apple TV+, iCloud, dan Apple Arcade. Apple merupakan salah satu perusahaan teknologi terbesar di dunia dengan pendapatan tahunan sekitar $274.5 miliar pada tahun 2020.
Selain produk-produknya yang inovatif, Apple juga terkenal dengan desainnya yang elegan dan keunggulan dalam hal integrasi antara perangkat keras dan perangkat lunak. Perusahaan ini memiliki reputasi yang kuat dalam hal keamanan dan privasi, dan sering memperkenalkan teknologi baru yang mempengaruhi industri teknologi secara keseluruhan.
Data Apple di dapatkan dari Kaggle, digunakan untuk proses Data
Visualisasi berdasarkan subset data-data dan analisa sesuai kebutuhan
yang akan di tampilkan, seperti salah satu akan di tampikan adalah “20
tingkat teratas track_name berdasarkan
price.
Data visualization (visualisasi data) adalah suatu cara untuk mengkomunikasikan informasi dan data dengan memanfaatkan elemen grafis seperti grafik, diagram, peta, dan visualisasi lainnya. bertujuan untuk membantu kita memahami data dengan lebih baik, mengidentifikasi pola dan tren, serta menemukan wawasan atau insight yang mungkin tersembunyi di dalam data.
Dalam dunia bisnis dan akademik, data visualization sangat penting untuk membantu kita mengambil keputusan yang didasarkan pada data yang valid. Dengan ini, kita dapat melihat data secara visual dan mudah dipahami, sehingga dapat menghindari kesalahan interpretasi data dan mempermudah proses pengambilan keputusan.
Beberapa jenis grafik yang sering digunakan dalam data
visualization adalah bar chart,
line chart, scatter plot,
pie chart, heat map, dan
bubble chart. Selain itu, visualisasi data juga dapat
berupa infografik, dashboard, dan
animasi grafik yang interaktif.
Dalam perkembangan teknologi saat ini, data visualization juga
didukung oleh software dan alat bantu seperti
Microsoft Excel, R, Python,
Tableau, Power BI, dan banyak lagi. Dengan
menggunakan alat bantu tersebut, visualisasi data dapat dilakukan dengan
lebih mudah, cepat, dan memungkinkan pengguna untuk memodifikasi
tampilan grafik dan menerapkan analisis yang lebih canggih serta mudah
dimengerti.
GGplot adalah salah satu paket pada bahasa pemrograman R yang
digunakan untuk melakukan visualisasi data menggunakan
library(ggplot2). GGplot dirancang untuk menghasilkan
grafik dengan tampilan yang lebih menarik dan fleksibel, sehingga sangat
cocok untuk digunakan dalam kegiatan analisis data. Dengan menggunakan
GGplot, kita dapat menghasilkan grafik-gafik yang beragam, seperti
scatterplot, histogram, bar chart, dan sebagainya. GGplot juga
memungkinkan kita untuk menambahkan berbagai elemen pada grafik, seperti
teks, anotasi, label, dan sebagainya, sehingga membuat hasil visualisasi
menjadi lebih informatif dan mudah dipahami, ggplot2
memiliki banyak fungsi, berikut beberapa fungsi GGplot :
Apabila anda tertarik untuk sharing terkait Data Visualization dapat menghubungi saya di Linkedin Anthony
Persiapan data (data preparation) merupakan proses pembersihan, transformasi, dan penyederhanaan data sebelum data tersebut digunakan dalam analisis dan visualisasi. Hal ini bertujuan untuk memastikan bahwa data yang digunakan dalam analisis berkualitas baik, valid, dan dapat dipercaya. Beberapa langkah yang dapat dilakukan dalam persiapan data antara lain:
Memahami data dan tujuan analisis: Pahami sumber data, variabel yang tersedia, dan tujuan dari analisis. Langkah ini penting untuk memastikan bahwa data yang digunakan memang relevan dan dapat menjawab pertanyaan yang ingin dijawab.
Melakukan pembersihan data: Identifikasi dan hapus data yang tidak relevan, duplikat, atau tidak lengkap. Hal ini penting untuk memastikan kualitas data yang digunakan.
Transformasi data: Lakukan transformasi data jika diperlukan, seperti pengubahan skala, pengurangan dimensi, atau normalisasi. Hal ini bertujuan untuk mempermudah analisis dan membuat data lebih mudah dipahami.
Melakukan integrasi data: Jika data berasal dari berbagai sumber, lakukan integrasi data untuk memastikan bahwa data dapat digunakan dalam analisis.
Memeriksa konsistensi data: Pastikan bahwa data konsisten dalam hal format, satuan, dan lain-lain.
Mengevaluasi kualitas data: Lakukan evaluasi kualitas data, seperti pengujian outlier, analisis kecenderungan, dan lain-lain. Hal ini penting untuk memastikan bahwa data dapat dipercaya dan menghasilkan hasil analisis yang akurat.
Setelah proses persiapan data selesai dilakukan, data siap digunakan untuk proses analisis serta kebutuhan lainnya, pada proyek kali ini saya akan focus pada proses dan hasil visualisasi dataset Apple.
Memanggil Dataset AppleStore.csv menggunakan fungsi
read.csv disimpan menjadi dataframe dengan nama
apple.
apple <- read.csv("A_LABS/AppleStore.csv")dim(apple)#> [1] 7197 17
Hasil tersebut menunjukkan bahwa dataframe apple terdiri
dari 7197 baris dan 16 kolom.
Fungsi colSums(is.na(apple)) digunakan untuk menghitung
jumlah nilai hilang (NA) dalam setiap kolom dari dataframe
apple.
colSums(is.na(apple))#> X id track_name size_bytes
#> 0 0 0 0
#> currency price rating_count_tot rating_count_ver
#> 0 0 0 0
#> user_rating user_rating_ver ver cont_rating
#> 0 0 0 0
#> prime_genre sup_devices.num ipadSc_urls.num lang.num
#> 0 0 0 0
#> vpp_lic
#> 0
Fungsi glimpse() pada library(dplyr)
digunakan untuk menampilkan struktur dan informasi mengenai tipe data
dari sebuah dataframe secara ringkas dan mudah dibaca.
glimpse(apple)#> Rows: 7,197
#> Columns: 14
#> $ track_name <chr> "PAC-MAN Premium", "Evernote - stay organized", "Weat…
#> $ size_bytes <dbl> 100788224, 158578688, 100524032, 128512000, 92774400,…
#> $ price <dbl> 3.99, 0.00, 0.00, 0.00, 0.00, 0.99, 0.00, 0.00, 9.99,…
#> $ rating_count_tot <int> 21292, 161065, 188583, 262241, 985920, 8253, 119487, …
#> $ rating_count_ver <int> 26, 26, 2822, 649, 5320, 5516, 879, 3594, 4, 40, 4017…
#> $ user_rating <dbl> 4.0, 4.0, 3.5, 4.0, 4.5, 4.0, 4.0, 4.0, 4.5, 4.0, 4.5…
#> $ user_rating_ver <dbl> 4.5, 3.5, 4.5, 4.5, 5.0, 4.0, 4.5, 4.5, 5.0, 4.0, 4.5…
#> $ ver <chr> "6.3.5", "8.2.2", "5.0.0", "5.10.0", "7.5.1", "1.8", …
#> $ cont_rating <chr> "4+", "4+", "4+", "12+", "4+", "4+", "4+", "12+", "4+…
#> $ prime_genre <chr> "Games", "Productivity", "Weather", "Shopping", "Refe…
#> $ sup_devices.num <int> 38, 37, 37, 37, 37, 47, 37, 37, 37, 38, 38, 37, 37, 3…
#> $ ipadSc_urls.num <int> 5, 5, 5, 5, 5, 5, 0, 4, 5, 0, 4, 0, 4, 0, 5, 1, 1, 5,…
#> $ lang.num <int> 10, 23, 3, 9, 45, 1, 19, 1, 1, 10, 11, 6, 33, 2, 2, 2…
#> $ vpp_lic <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…
#> Rows: 7,197
#> Columns: 14
#> $ track_name <chr> "PAC-MAN Premium", "Evernote - stay organized", "Weat…
#> $ size_bytes <dbl> 100788224, 158578688, 100524032, 128512000, 92774400,…
#> $ price <dbl> 3.99, 0.00, 0.00, 0.00, 0.00, 0.99, 0.00, 0.00, 9.99,…
#> $ rating_count_tot <int> 21292, 161065, 188583, 262241, 985920, 8253, 119487, …
#> $ rating_count_ver <int> 26, 26, 2822, 649, 5320, 5516, 879, 3594, 4, 40, 4017…
#> $ user_rating <dbl> 4.0, 4.0, 3.5, 4.0, 4.5, 4.0, 4.0, 4.0, 4.5, 4.0, 4.5…
#> $ user_rating_ver <dbl> 4.5, 3.5, 4.5, 4.5, 5.0, 4.0, 4.5, 4.5, 5.0, 4.0, 4.5…
#> $ ver <chr> "6.3.5", "8.2.2", "5.0.0", "5.10.0", "7.5.1", "1.8", …
#> $ cont_rating <chr> "4+", "4+", "4+", "12+", "4+", "4+", "4+", "12+", "4+…
#> $ prime_genre <chr> "Games", "Productivity", "Weather", "Shopping", "Refe…
#> $ sup_devices.num <int> 38, 37, 37, 37, 37, 47, 37, 37, 37, 38, 38, 37, 37, 3…
#> $ ipadSc_urls.num <int> 5, 5, 5, 5, 5, 5, 0, 4, 5, 0, 4, 0, 4, 0, 5, 1, 1, 5,…
#> $ lang.num <int> 10, 23, 3, 9, 45, 1, 19, 1, 1, 10, 11, 6, 33, 2, 2, 2…
#> $ vpp_lic <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…
Visualisasi data (data visualization) pada proyek kali ini akan disajikan sesuai dengan analisa dasar untuk mudah dipahami pembaca dan dapat memberikan wawasan terkait data apple app store, berikut ini beberapa bentuk visualisasi data apple app store :
Berdasarkan Barchart yang disajikan dapat disimpulkan 3 peringkat teratas adalah nama track dengan harga diatas 99 USD, “LAMP Words For Life” pada App Store menjadi peringkat pertama dengan harga tertinggi di angka 299.99 USD.
20 peringkat prime_genre terbawah berdasarkan
Frequensi
20 peringkat prime_genre tertinggi berdasarkan
Frequensi
Jumlah Pengguna Aplikasi Berdasarkan Ukuran File dengan nilai %
berdasarkan frequensi pengguna layanan app store, pada visualisasi ini
menggunakan dasar diagram pie chart.
Pastikan data sudah dalam bentuk numeric untuk dapat diproses ke tahap selanjutnya
#> Rows: 7,197
#> Columns: 11
#> $ size_bytes <dbl> 100788224, 158578688, 100524032, 128512000, 92774400,…
#> $ price <dbl> 3.99, 0.00, 0.00, 0.00, 0.00, 0.99, 0.00, 0.00, 9.99,…
#> $ rating_count_tot <int> 21292, 161065, 188583, 262241, 985920, 8253, 119487, …
#> $ rating_count_ver <int> 26, 26, 2822, 649, 5320, 5516, 879, 3594, 4, 40, 4017…
#> $ user_rating <dbl> 4.0, 4.0, 3.5, 4.0, 4.5, 4.0, 4.0, 4.0, 4.5, 4.0, 4.5…
#> $ user_rating_ver <dbl> 4.5, 3.5, 4.5, 4.5, 5.0, 4.0, 4.5, 4.5, 5.0, 4.0, 4.5…
#> $ sup_devices.num <int> 38, 37, 37, 37, 37, 47, 37, 37, 37, 38, 38, 37, 37, 3…
#> $ ipadSc_urls.num <int> 5, 5, 5, 5, 5, 5, 0, 4, 5, 0, 4, 0, 4, 0, 5, 1, 1, 5,…
#> $ lang.num <int> 10, 23, 3, 9, 45, 1, 19, 1, 1, 10, 11, 6, 33, 2, 2, 2…
#> $ vpp_lic <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…
#> $ size_mb <dbl> 96.1, 151.2, 95.9, 122.6, 88.5, 10.0, 217.2, 124.2, 4…
Perhatikan nilai maksimal dari korelasi ditunjukan oleh nilai 1 dan -1, apabila korelasi mengarah ke angka 1 positif maka warna akan semakin merah terang yang artinya memiliki korelasi “kuat positif”, sedangkan untuk warna biru menandakan sebaliknya, saat korelasi mengarah ke angka -1 makan warna akan semakin berwarna biru laut mengartikan korelasi bersifat “kuat negatif”.
Berdasarkan output
ggcorr() diatas user_rating
dengan user_rating_ver memiliki korelasi kuat positif
karena memiliki nilai 0.8 positif. korelasi tertinggi dapat dilihat
antara size_bytes dengan size_mb memiliki
nilai 1 positif artinya memiliki korelasi terkuat diantara prediktor
(kolom) lainnya.
Hasil dari
ggparcoord(appleparcoor) dapat disimpulkan
korelasi antara price dengan size_mb dan
user_rating memiliki korelasi, korelasi tersebut dapat
dipahami bahwa semakin besar harga dapat mempengaruhi jumlah kapasitas
Bytes dan Mega-bytes yang di dapat, harga yang tinggi juga dapat
mempengaruhi rating yang diberikan oleh pengguna (user) berdasarkan
benefit yang di terima pelanggan Apple App Store. `
Berikut ini adalah hasil korelasi output dari
size_bytes, size_mb, price,
user_rating, user_rating_ver kemudian data ini
disimpan menjadi dataframe dengan nama heatmapcor untuk
proses selanjutnya.
#> size_bytes size_mb price user_rating user_rating_ver
#> size_bytes 1.00000000 1.00000000 0.18239187 0.06625572 0.08607466
#> size_mb 1.00000000 1.00000000 0.18239058 0.06625417 0.08607299
#> price 0.18239187 0.18239058 1.00000000 0.04660100 0.02517333
#> user_rating 0.06625572 0.06625417 0.04660100 1.00000000 0.77413985
#> user_rating_ver 0.08607466 0.08607299 0.02517333 0.77413985 1.00000000
Sebagai indikator korelasi : - nilai positif = 1 (Kuat Positif) - nilai negatif = -1 (Kuat Negatif) Perlu diperhatikan untuk nilai korelasi tertinggi berada di angka 1. apabila korelasi menunjukan / menampilkan angka 1 atau -1 maka dapat disimpulkan prediktor/variabel tesebutlah yang memiliki korelasi, tingkatan korelasi dapat diukur berdasarkan nilai korelasi antar tiap prediktor/variabel itu sendiri.
Hasil output dari heatmap dapat kita berikan kesimpulan antara
size_mb dengan size_bytes korelasi yang kuat sehingga apabila terjadi
perubahan data di antara size_mb dan
size_bytes pasti akan saling mempengaruhi.
Sekian portofolio Data Visualization (data visualisasi) dari saya. Semoga dengan adanya portofolio ini, dapat memberikan gambaran mengenai kemampuan dan pengalaman saya dalam melakukan analisis data dan menyajikan hasilnya dalam bentuk visualisasi yang menarik dan mudah dipahami. Terima kasih telah mengunjungi portofolio ini, dengan senang hari saya siap untuk menjawab pertanyaan atau diskusi lebih lanjut mengenai projek-projek yang telah saya lakukan dapat mengunjungi Project Anthony & Diskusi.