Import data dari file CSV ke dalam R menggunakan fungsi read.csv(). Pastikan untuk menyesuaikan path file dengan lokasi di mana dataset disimpan di komputer Anda. Berikut adalah kode untuk memuat data:
# Pastikan file CSV berada di folder yang sama dengan file .Rmd ini
df <- read.csv("dataset.handphone_clean (2).csv",sep = ";")
Visualisasi Data bukan sekadar membuat grafik yang indah, melainkan proses menerjemahkan informasi kompleks menjadi bentuk visual yang mudah dicerna. Dalam dunia analisis data, visualisasi berfungsi sebagai jembatan untuk menemukan pola, tren, dan anomali yang mungkin tersembunyi dalam ribuan baris data mentah.
Dengan visualisasi yang tepat, kita dapat mengambil keputusan berbasis data (data-driven decision) dengan lebih cepat dan akurat. Visualisasi yang Digunakan
Dalam laporan ini, kami menggunakan beberapa teknik visualisasi utama:
Bar Chart (Diagram Batang): Digunakan untuk membandingkan jumlah model antar merek (data kategorikal).
Density Plot (Plot Kepadatan): Digunakan untuk melihat distribusi variabel kontinu, seperti skor rating pengguna, guna memahami di mana nilai paling sering muncul.
Boxplot (Diagram Kotak): Digunakan untuk analisis bivariat guna melihat sebaran harga berdasarkan kelompok RAM, sekaligus mendeteksi adanya pencilan (outliers).
Time Series Plot dengan LOESS Smoothing: Digunakan untuk melihat tren jumlah rilis produk dari waktu ke waktu dengan bantuan garis tren halus (LOESS) untuk meredam kebisingan data (noise).
Pasar smartphone adalah lautan yang luas. Setiap tahun, puluhan merek meluncurkan ratusan model baru dengan berbagai spesifikasi. Sebagai konsumen, kita sering kali bertanya-tanya: merek mana yang paling aktif? Apakah produk dengan RAM besar selalu mahal? Seberapa puas pengguna dengan ponsel yang beredar? Di balik angka-angka, ada cerita tentang persaingan, strategi bisnis, dan preferensi pengguna. Sehingga dengan itu, muncullah:
Masalah: Pasar smartphone sangat dinamis dengan ratusan model dirilis setiap tahunnya. Bagi produsen maupun konsumen, sulit untuk memahami bagaimana spesifikasi teknis (seperti RAM) memengaruhi harga, atau bagaimana tren rilis produk berubah dalam beberapa tahun terakhir.
Tujuan Analisis: Studi kasus ini bertujuan untuk mengeksplorasi dataset smartphone yang telah dibersihkan guna menjawab beberapa pertanyaan kunci:
Siapa saja pemain utama (merek) yang mendominasi jumlah model di pasar?
Bagaimana kepuasan pengguna (rating) terdistribusi secara umum?
Apakah kapasitas RAM berbanding lurus dengan peningkatan harga jual?
Bagaimana dinamika peluncuran produk baru dari bulan ke bulan?
Data yang digunakan mengandung informasi mengenai spesifikasi teknis (RAM, Memori, Baterai), harga (USD), rating pengguna, dan tanggal rilis dari berbagai merek smartphone global.
Dalam proyek ini, kami menyelami dataset smartphone yang telah dibersihkan. Tujuannya bukan sekadar menampilkan grafik, tetapi menceritakan apa yang ditemukan—dari dominasi merek hingga tren rilis yang mengejutkan. Kami akan mengajak Anda berkeliling data, bertanya, dan menemukan jawabannya bersama.
Sebelum bercerita lebih jauh, mari kenali dulu data yang kami miliki. Dataset ini terdiri dari berbagai informasi teknis dan non-teknis. Kami mengelompokkannya menjadi dua jenis::
Pada bagian ini, kita akan mengeksplorasi data smartphone melalui pendekatan visual sebagai berikut
Kita mulai dengan pertanyaan sederhana: di antara sekian banyak merek, siapa yang paling produktif dalam merilis berbagai model smartphone? Apakah nama-nama besar seperti Samsung dan Apple mendominasi, atau ada kejutan dari merek lain? Diagram batang berikut menjawabnya.
# Menyiapkan data 10 brand teratas
top_brands <- df %>%
count(Brand) %>%
arrange(desc(n)) %>%
slice_head(n = 10)
# Membuat grafik batang
ggplot(top_brands, aes(x = reorder(Brand, n), y = n)) +
geom_bar(stat = "identity", fill = "steelblue") +
geom_text(aes(label = n), hjust = -0.2, size = 3) +
coord_flip() +
labs(
title = "Distribusi 10 Merek Teratas",
subtitle = "Berdasarkan jumlah model yang tersedia dalam dataset",
x = "Merek (Brand)",
y = "Jumlah Model"
) +
theme_minimal()
Berdasarkan grafik batang yang ditampilkan, kita dapat mengambil beberapa poin penting mengenai ketersediaan model di pasar:
Dari sini kita jadi penasaran: apakah banyaknya model menjamin kepuasan pengguna? Mari kita lanjut.
Untuk melihat tingkat kepuasan, kami menggunakan density plot. Visualisasi ini membantu melihat di mana sebagian besar rating pengguna terkonsentrasi, tanpa terpotong-potong seperti histogram.
# Visualisasi 2: Distribusi Rating Pengguna
ggplot(df, aes(x = Rating_pengguna)) +
geom_density(fill = "#2C4B7A", alpha = 0.6, color = "darkblue") +
labs(
title = "Distribusi Rating Pengguna Smartphone",
subtitle = "Kepadatan nilai rating pada skala 1 hingga 5",
x = "Rating (1–5)",
y = "Density (Kepadatan)"
) +
theme_minimal()
Grafik ini menggunakan Density Plot untuk menunjukkan di mana nilai rating paling banyak terkonsentrasi. Berbeda dengan histogram biasa, garis halus ini mempermudah kita melihat “puncak” kepuasan pengguna.
Jadi, meskipun ada perbedaan jumlah model antar merek, tingkat kepuasan pengguna secara keseluruhan tetap baik.
Setelah mengetahui bahwa konsumen cenderung puas, pertanyaan berikutnya: apa yang sebenarnya menentukan harga? Apakah RAM yang lebih besar selalu berarti harga lebih mahal?
Untuk menjawab itu, kami menggunakan boxplot yang membandingkan sebaran harga berdasarkan kelompok RAM. Dengan boxplot, kita bisa melihat median, variasi, serta adanya pencilan (outlier). Kelompok RAM kami susun dari yang terkecil hingga terbesar: ≤4 GB, 6–8 GB, 10–12 GB, dan ≥16 GB.
df <- df %>%
mutate(Ram_group = case_when(
Ram <= 4 ~ "≤ 4 GB",
Ram <= 8 ~ "6–8 GB",
Ram <= 12 ~ "10–12 GB",
TRUE ~ "≥ 16 GB"
)) %>%
mutate(Ram_group = factor(Ram_group,
levels = c("≤ 4 GB", "6–8 GB", "10–12 GB", "≥ 16 GB")))
ggplot(df, aes(x = Ram_group, y = Harga, fill = Ram_group)) +
geom_boxplot(alpha = 0.7, outlier.size = 0.8) +
scale_y_continuous(labels = dollar_format()) +
labs(
title = "Distribusi Total Harga per Kategori RAM",
x = "RAM", y = "Harga (USD)"
) +
theme_minimal() +
theme(legend.position = "none")
Visualisasi di atas menyajikan agregasi total harga dari seluruh model smartphone yang dikelompokkan berdasarkan kategori kapasitas RAM. Pendekatan ini memungkinkan kita untuk melihat kategori RAM mana yang memiliki kontribusi nilai tertinggi secara keseluruhan, yang dapat menjadi indikator dominasi pasar dari sisi nilai agregat, bukan hanya jumlah unit. Berikut adalah rincian dan interpretasi dari data yang ditampilkan:
≤4 GB meskipun memiliki kapasitas RAM paling rendah, kategori ini menunjukkan median dan batas bawah whisker yang lebih tinggi dibandingkan kategori 10–12 GB. Hal ini mengindikasikan bahwa model-model dengan RAM ≤4 GB yang tercakup dalam dataset cenderung dibanderol dengan harga yang relatif tinggi. Kemungkinan penyebabnya adalah kehadiran perangkat premium (misalnya dari merek Apple atau seri flagship lawas) yang meskipun RAM-nya kecil, tetap memiliki harga jual tinggi karena faktor merek, kualitas build, atau ekosistem. Sebaran harga cukup lebar dengan beberapa outlier pada sisi atas.
≤ 6-8 GB menempati posisi pertama pada batas atas total harga tertinggi dengan hampir mencapai $20.000.000. Akan tetapi dibandingkan dengan kategori RAM lain, ≤ 6-8 GB memiliki distribusi harga dalam boxplot cukup lebar dengan sebaran data yang kurang merata, dengan median yang sedikit lebih tinggi dibanding ≤4 GB, menunjukkan bahwa segmen ini memiliki variasi harga yang cukup luas, dari yang terjangkau hingga menengah atas. Segmen ini kemungkinan didorong oleh volume unit yang tinggi karena menyasar pasar entry-level dengan harga lebih terjangkau dengan kualitas yang lumayan bagus.
10–12 GB mencatatkan batas atas total harga tertinggi sekitar $18.000.000. Rentang antar kuartil (IQR) lebih sempit dibanding kategori sebelumnya, mengindikasikan harga yang lebih terkonsentrasi dengan median paling kecil dibanging kategori lain. Menariknya kategori ini mencatat total harga tertinggi yang paling rendah dibanding kategori RAM lainnya dan salah satu harga total terendah, namun kategori ini juga memiliki pencilan yang sangat banyak pula dibanding kategori RAM lain. Kategori ini peduli pada semua kalangan kelas dengan menawarkan keseimbangan antara performa dan harga.
≥ 16 GB memiliki batas atas total harga tertinggi di sekitar $19.000.000. Kelebihan kategori ini ialah sebaran datanya yang merata dengan variasi distribusi harga yang tidak terlalu luas dibanding kategori RAM yang lain ditambah memiliki pencilan paling sedikit pula walau kebanyakan pencilan mendominasi harga tinggi. Hal ini menegaskan bahwa perangkat dengan RAM tertinggi cenderung memiliki harga yang sangat bervariasi dan didominasi oleh produk premium dengan banderol tinggi.
Kesimpulan dari sini: RAM bukan satu-satunya penentu harga. Faktor merek, kelas produk, dan fitur tambahan sering kali lebih dominan. Ini adalah pelajaran penting bagi konsumen yang cenderung melihat spesifikasi mentah.
Cerita belum selesai. Kami juga ingin tahu bagaimana aktivitas peluncuran produk berubah dari waktu ke waktu.
Kami mengumpulkan data tanggal rilis setiap model, lalu memplotnya dalam time series dengan garis LOESS smoothing untuk melihat tren jangka pendek. Setiap titik mewakili kuartal (Maret, Juni, September, Desember) dari akhir 2018 hingga awal 2025.
df <- df %>%
mutate(bulan = parse_date_time(
Tahun_rilis,
orders = c("mdy", "ymd HMS", "ymd")
))
df$bulan <- as.Date(df$bulan)
bulanan <- df %>%
group_by(bulan = format(bulan, "%Y-%m-01")) %>%
summarise(n = n())
bulanan$bulan <- as.Date(bulanan$bulan)
ggplot(bulanan, aes(x = bulan, y = n)) +
geom_line(color = "gray60", size = 0.8, alpha = 0.7) +
geom_point(color = "gray60", size = 1.5, alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "#E41A1C", size = 1.2, span = 0.2) +
scale_x_date(date_breaks = "3 months", date_labels = "%b %Y") +
labs(
title = "Tren Rilis Model Smartphone per Periode(Kuartal)",
subtitle = "Garis merah adalah LOESS smoothing (tren jangka pendek)",
x = "Bulan", y = "Jumlah Rilis"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Visualisasi di atas menyajikan fluktuasi jumlah model smartphone yang dirilis setiap kuartal, mulai dari Desember 2018 hingga Desember 2024. Dengan melihat pola ini, kita dapat memahami periode-periode di mana produsen paling aktif merilis produk baru, serta mendeteksi adanya perubahan tren yang mungkin dipengaruhi oleh faktor pasar, inovasi teknologi, atau siklus peluncuran tahunan. Berikut adalah rincian dan interpretasi dari data yang ditampilkan:
Puncak rilis tertinggi terjadi pada September 2019 dan menjelang Juni 2023 ke September 2023 dengan jumlah 24 model. Ini merupakan rekor tertinggi sepanjang periode yang diamati, menunjukkan bahwa pada periode tersebut produsen sangat gencar meluncurkan produk baru, kemungkinan menjelang akhir tahun atau menyambut musim belanja.
Puncak tertinggi kedua tercatat pada beberapa periode, yaitu menjelang September 2020–Desember 2020, September 2022–Desember 2022, serta Maret 2023–Juni 2023 dengan 23 model, diikuti Desember 2022–Maret 2023 dengan 21 model. Pola ini menunjukkan bahwa aktivitas rilis cenderung tinggi pada tahun-tahun tertentu, terutama di awal dan akhir tahun.
Penurunan drastis terjadi mulai Maret 2024 hingga Desember 2024, di mana jumlah rilis merosot tajam menjadi hanya –4 model per periode. Perlu dicatat bahwa data untuk tahun 2025 kemungkinan belum sepenuhnya lengkap atau mencerminkan awal tahun yang biasanya lebih rendah, namun penurunan ini tetap menjadi titik terendah dalam rentang waktu yang diamati.
Secara historis, periode September secara konsisten mencatatkan angka rilis yang tinggi, menunjukkan pola musiman yang kuat. Sebaliknya, periode Juni beberapa kali mencatatkan angka yang relatif lebih rendah dibanding kuartal lainnya.
Data awal 2025 belum lengkap, sehingga kami tidak menarik kesimpulan dari sana, tetapi penurunan ini adalah yang terendah sepanjang periode analisis. Apa penyebabnya? Bisa jadi pergeseran strategi industri dari kuantitas ke kualitas, konsolidasi pemain, atau faktor eksternal seperti kejenuhan pasar. Ini menjadi pertanyaan besar yang layak ditelusuri lebih lanjut.
Berdasarkan eksplorasi data dan visualisasi yang telah dilakukan, kami mengungkap beberapa hal penting:
Dominasi Pasar Dari sisi jumlah model yang tersedia, Asus, Realme, OnePlus, dan Vivo menjadi merek dengan portofolio paling banyak, diikuti oleh Samsung, Huawei, dan Apple. Hal ini menunjukkan bahwa persaingan pasar smartphone sangat dinamis, dengan produsen berlomba menghadirkan varian produk untuk mengisi berbagai segmen, mulai dari entry-level hingga flagship.
Kepuasan Pengguna Distribusi rating pengguna terkonsentrasi pada skor 4,0–4,5 dengan kurva yang miring ke kiri, menandakan mayoritas produk dalam dataset mendapat ulasan positif. Hanya sedikit produk yang memiliki rating di bawah 3,0, mencerminkan bahwa standar kualitas industri smartphone secara umum sudah tinggi.
Hubungan RAM dan Harga Analisis boxplot menunjukkan bahwa kapasitas RAM tidak selalu berbanding lurus dengan harga. Fenomena menarik ditemukan pada kategori ≤4 GB yang memiliki median harga lebih tinggi dibanding kategori 10–12 GB, mengindikasikan bahwa faktor lain seperti merek, seri, atau fitur premium (misalnya perangkat Apple atau flagship lawas) dapat memberikan pengaruh lebih besar terhadap harga jual.
Tren Rilis Produk Aktivitas peluncuran model smartphone mencapai puncak pada September 2019 serta Juni–September 2023, dengan jumlah hingga 24 model per periode. Setelah itu terjadi penurunan drastis mulai Maret 2024 hingga Desember 2024, di mana rilis merosot menjadi hanya 1–4 model per periode. Hal ini menandakan adanya perubahan strategi industri, kemungkinan pergeseran dari kuantitas menuju kualitas atau konsolidasi pemain di pasar.
Secara keseluruhan, pasar smartphone dalam dataset ini dicirikan oleh persaingan ketat di lini produk, kepuasan pengguna yang relatif tinggi, serta dinamika harga yang dipengaruhi lebih kompleks daripada sekadar spesifikasi teknis (RAM). Tren rilis yang menurun drastis di penghujung periode analisis menjadi sinyal penting yang layak dicermati lebih lanjut.
Berdasarkan temuan kami, berikut beberapa saran:
Segmen RAM 10–12 GB menawarkan keseimbangan antara performa dan harga yang paling kompetitif, dengan variasi harga yang relatif terkonsentrasi. Produsen dapat memanfaatkan segmen ini untuk menjangkau konsumen kelas menengah yang menginginkan spesifikasi mumpuni dengan harga terjangkau.
Fenomena harga tinggi pada produk RAM rendah (≤4 GB) mengindikasikan bahwa loyalitas merek dan ekosistem (seperti Apple) masih menjadi nilai jual kuat. Produsen lain dapat mempertimbangkan strategi peningkatan nilai tambah non‑teknis (misalnya layanan purnajual, integrasi ekosistem) untuk mempertahankan harga di segmen entry-level.
Penurunan drastis jumlah rilis sejak 2024 perlu diantisipasi dengan menyesuaikan siklus peluncuran, mungkin beralih dari strategi “banyak model” ke strategi “model unggulan dengan siklus lebih panjang”.
Rating pengguna yang tinggi di rentang 4,0–4,5 dapat menjadi acuan dalam memilih smartphone yang umumnya telah memenuhi harapan.
Memilih smartphone tidak hanya berdasarkan kapasitas RAM; penting mempertimbangkan merek, dukungan pembaruan perangkat lunak, dan fitur lain yang mungkin lebih menentukan pengalaman jangka panjang.
Disarankan untuk melakukan analisis multivariat yang menggabungkan RAM, memori internal, baterai, dan merek guna mendapatkan model prediksi harga yang lebih akurat.
Investigasi lebih mendalam diperlukan untuk memahami faktor penyebab penurunan drastis jumlah rilis pada tahun 2024, misalnya melalui data tambahan seperti volume penjualan, perubahan kebijakan produsen, atau kondisi ekonomi global.