Import data dari file CSV ke dalam R menggunakan fungsi read.csv(). Pastikan untuk menyesuaikan path file dengan lokasi di mana dataset disimpan di komputer Anda. Berikut adalah kode untuk memuat data:

# Pastikan file CSV berada di folder yang sama dengan file .Rmd ini
df <- read.csv("dataset.handphone_clean (2).csv")

Visualisasi Data bukan sekadar membuat grafik yang indah, melainkan proses menerjemahkan informasi kompleks menjadi bentuk visual yang mudah dicerna. Dalam dunia analisis data, visualisasi berfungsi sebagai jembatan untuk menemukan pola, tren, dan anomali yang mungkin tersembunyi dalam ribuan baris data mentah.

Dengan visualisasi yang tepat, kita dapat mengambil keputusan berbasis data (data-driven decision) dengan lebih cepat dan akurat. Visualisasi yang Digunakan

Dalam laporan ini, kami menggunakan beberapa teknik visualisasi utama:

  1. Bar Chart (Diagram Batang): Digunakan untuk membandingkan jumlah model antar merek (data kategorikal).

  2. Density Plot (Plot Kepadatan): Digunakan untuk melihat distribusi variabel kontinu, seperti skor rating pengguna, guna memahami di mana nilai paling sering muncul.

  3. Boxplot (Diagram Kotak): Digunakan untuk analisis bivariat guna melihat sebaran harga berdasarkan kelompok RAM, sekaligus mendeteksi adanya pencilan (outliers).

  4. Time Series Plot dengan LOESS Smoothing: Digunakan untuk melihat tren jumlah rilis produk dari waktu ke waktu dengan bantuan garis tren halus (LOESS) untuk meredam kebisingan data (noise).


Studi Kasus

Masalah: Pasar smartphone sangat dinamis dengan ratusan model dirilis setiap tahunnya. Bagi produsen maupun konsumen, sulit untuk memahami bagaimana spesifikasi teknis (seperti RAM) memengaruhi harga, atau bagaimana tren rilis produk berubah dalam beberapa tahun terakhir.

Tujuan Analisis: Studi kasus ini bertujuan untuk mengeksplorasi dataset smartphone yang telah dibersihkan guna menjawab beberapa pertanyaan kunci:

  1. Siapa saja pemain utama (merek) yang mendominasi jumlah model di pasar?

  2. Bagaimana kepuasan pengguna (rating) terdistribusi secara umum?

  3. Apakah kapasitas RAM berbanding lurus dengan peningkatan harga jual?

  4. Bagaimana dinamika peluncuran produk baru dari bulan ke bulan?

Dataset: Data yang digunakan mengandung informasi mengenai spesifikasi teknis (RAM, Memori, Baterai), harga (USD), rating pengguna, dan tanggal rilis dari berbagai merek smartphone global.


Karakteristik Data

Data yang digunakan dalam analisis ini terdiri dari berbagai variabel yang menggambarkan spesifikasi teknis dan informasi pasar smartphone. Secara umum, variabel dalam dataset ini dapat dikelompokkan menjadi dua jenis:

  1. Variabel Kategorik: Variabel yang berisi kelompok, label, atau klasifikasi tertentu. Variabel ini digunakan untuk mengelompokkan data namun tidak memiliki makna matematis untuk operasi seperti penjumlahan. Contohnya: Brand, Os, dan Stok_tersedia.
  2. Variabel Kontinu: Variabel numerik yang nilainya berada dalam rentang tertentu dan dapat dilakukan operasi matematika (seperti penghitungan rata-rata). Variabel ini merepresentasikan ukuran atau jumlah teknis. Contohnya: Harga, Ram, Kapasitas_baterai, dan Rating_pengguna.
deskripsi <- data.frame(
  Variabel = c("Brand", "Os", "Stok_tersedia", "Harga", "Ram", 
                "Memori_internal", "Kapasitas_baterai", "Rating_pengguna", "Tahun_rilis_clean"),
  Jenis = c("Kategorik", "Kategorik", "Kategorik", "Kontinu", "Kontinu", 
             "Kontinu", "Kontinu", "Kontinu", "Date/Waktu"),
  Deskripsi = c(
    "Merek produsen smartphone (Apple, Samsung, Xiaomi, dll)",
    "Sistem operasi yang digunakan (iOS atau Android)",
    "Status ketersediaan produk di pasar (True/False)",
    "Harga jual smartphone dalam satuan mata uang (USD)",
    "Kapasitas memori akses acak dalam satuan GB",
    "Kapasitas penyimpanan internal dalam satuan GB",
    "Kapasitas daya baterai dalam satuan mAh",
    "Skor kepuasan dari pengguna (skala 1-5)",
    "Tanggal lengkap peluncuran smartphone ke publik"
  )
)

kable(deskripsi, caption = "Tabel Deskripsi Variabel Dataset Smartphone")
Tabel Deskripsi Variabel Dataset Smartphone
Variabel Jenis Deskripsi
Brand Kategorik Merek produsen smartphone (Apple, Samsung, Xiaomi, dll)
Os Kategorik Sistem operasi yang digunakan (iOS atau Android)
Stok_tersedia Kategorik Status ketersediaan produk di pasar (True/False)
Harga Kontinu Harga jual smartphone dalam satuan mata uang (USD)
Ram Kontinu Kapasitas memori akses acak dalam satuan GB
Memori_internal Kontinu Kapasitas penyimpanan internal dalam satuan GB
Kapasitas_baterai Kontinu Kapasitas daya baterai dalam satuan mAh
Rating_pengguna Kontinu Skor kepuasan dari pengguna (skala 1-5)
Tahun_rilis_clean Date/Waktu Tanggal lengkap peluncuran smartphone ke publik

Visualisasi Data dan Analisis

Pada bagian ini, kita akan mengeksplorasi data smartphone melalui pendekatan visual sebagai berikut

Dominasi Pasar: 10 Merek Smartphone Teratas

Visualisasi pertama bertujuan untuk mengetahui merek mana saja yang paling produktif dalam merilis berbagai model smartphone dalam dataset ini.

# Menyiapkan data 10 brand teratas
top_brands <- df %>%
  count(Brand) %>%
  arrange(desc(n)) %>%
  slice_head(n = 10)

# Membuat grafik batang
ggplot(top_brands, aes(x = reorder(Brand, n), y = n)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  geom_text(aes(label = n), hjust = -0.2, size = 3) +
  coord_flip() +
  labs(
    title = "Distribusi 10 Merek Teratas",
    subtitle = "Berdasarkan jumlah model yang tersedia dalam dataset",
    x = "Merek (Brand)", 
    y = "Jumlah Model"
  ) +
  theme_minimal()

Berdasarkan grafik batang yang ditampilkan, kita dapat mengambil beberapa poin penting mengenai ketersediaan model di pasar:

  1. Dominasi Pasar: Grafik menunjukkan bahwa merek Asus, Realme dan OnePlus berada di posisi tiga teratas dengan jumlah model yang terpaut cukup tipis. Hal ini mengindikasikan bahwa ketiga perusahaan ini memiliki strategi produk yang sangat aktif dalam merilis varian smartphone untuk berbagai segmen.
  2. Strategi Varian: Kehadiran banyak model dari satu merek biasanya menunjukkan upaya produsen untuk mengisi setiap celah pasar (dari kelas entry-level hingga flagship). Merek seperti Oppo dan Vivo juga menunjukkan kompetisi yang ketat di papan tengah.

Kesimpulan Visual: Pasar smartphone dalam dataset ini cenderung terkonsentrasi pada beberapa pemain besar global, di mana konsumen memiliki pilihan model yang paling banyak pada ekosistem Android (Samsung, Xiaomi, dll) dibandingkan iOS (Apple) yang meski modelnya banyak, tetap berada dalam satu brand tunggal.


Distribusi Rating Pengguna (Analisis Kepuasan)

Selanjutnya, kita melihat bagaimana sebaran rating yang diberikan oleh pengguna. Kita menggunakan Density Plot untuk melihat di angka berapa konsentrasi kepuasan pengguna berada.

# Visualisasi 2: Distribusi Rating Pengguna
ggplot(df, aes(x = Rating_pengguna)) +
  geom_density(fill = "#2C4B7A", alpha = 0.6, color = "darkblue") +
  labs(
    title = "Distribusi Rating Pengguna Smartphone",
    subtitle = "Kepadatan nilai rating pada skala 1 hingga 5",
    x = "Rating (1–5)", 
    y = "Density (Kepadatan)"
  ) +
  theme_minimal()

Grafik ini menggunakan Density Plot untuk menunjukkan di mana nilai rating paling banyak terkonsentrasi. Berbeda dengan histogram biasa, garis halus ini mempermudah kita melihat “puncak” kepuasan pengguna.

  1. Puncak Konsentrasi (Modus): Dapat dilihat bahwa puncak tertinggi kurva berada di rentang 4.0 hingga 4.5. Hal ini menandakan bahwa mayoritas smartphone dalam dataset memiliki kualitas yang baik dan mendapatkan feedback positif dari pengguna.
  2. Kemiringan Data (Skewness): Kurva ini cenderung miring ke kiri (left-skewed), yang berarti nilai-nilai rendah (rating 1.0 - 2.0) jauh lebih sedikit jumlahnya dibandingkan nilai-nilai tinggi. Ini menunjukkan standar industri smartphone saat ini sudah cukup tinggi sehingga jarang ada produk yang dinilai sangat buruk.
  3. Sebaran Kualitas: Lebarnya badan kurva di area rating 3.0 hingga 4.0 menunjukkan bahwa masih ada variasi performa antar perangkat, namun secara keseluruhan, sentimen pengguna tetap berada di area “Puat/Sangat Puas”.

Distribusi Total Harga Berdasarkan Kategori RAM

Visualisasi ini bertujuan untuk melihat sebaran harga (dalam USD) dari setiap model smartphone berdasarkan kelompok kapasitas RAM. Dengan boxplot, kita dapat membandingkan median, variabilitas, serta keberadaan pencilan (outlier) di setiap kategori.

df <- df %>%
  mutate(Ram_group = case_when(
    Ram <= 4 ~ "≤ 4 GB",
    Ram <= 8 ~ "6–8 GB",
    Ram <= 12 ~ "10–12 GB",
    TRUE ~ "≥ 16 GB"
  )) %>%
  mutate(Ram_group = factor(Ram_group, 
                            levels = c("≤ 4 GB", "6–8 GB", "10–12 GB", "≥ 16 GB")))

ggplot(df, aes(x = Ram_group, y = Harga, fill = Ram_group)) +
  geom_boxplot(alpha = 0.7, outlier.size = 0.8) +
  scale_y_continuous(labels = dollar_format()) +
  labs(
    title = "Distribusi Total Harga per Kategori RAM",
    x = "RAM", y = "Harga (USD)"
  ) +
  theme_minimal() +
  theme(legend.position = "none")

Visualisasi di atas menyajikan agregasi total harga dari seluruh model smartphone yang dikelompokkan berdasarkan kategori kapasitas RAM. Pendekatan ini memungkinkan kita untuk melihat kategori RAM mana yang memiliki kontribusi nilai tertinggi secara keseluruhan, yang dapat menjadi indikator dominasi pasar dari sisi nilai agregat, bukan hanya jumlah unit. Berikut adalah rincian dan interpretasi dari data yang ditampilkan:

  1. ≤4 GB meskipun memiliki kapasitas RAM paling rendah, kategori ini menunjukkan median dan batas bawah whisker yang lebih tinggi dibandingkan kategori 10–12 GB. Hal ini mengindikasikan bahwa model-model dengan RAM ≤4 GB yang tercakup dalam dataset cenderung dibanderol dengan harga yang relatif tinggi. Kemungkinan penyebabnya adalah kehadiran perangkat premium (misalnya dari merek Apple atau seri flagship lawas) yang meskipun RAM-nya kecil, tetap memiliki harga jual tinggi karena faktor merek, kualitas build, atau ekosistem. Sebaran harga cukup lebar dengan beberapa outlier pada sisi atas.

  2. ≤ 6-8 GB menempati posisi pertama pada batas atas total harga tertinggi dengan hampir mencapai $20.000.000. Akan tetapi dibandingkan dengan kategori RAM lain, ≤ 6-8 GB memiliki distribusi harga dalam boxplot cukup lebar dengan sebaran data yang kurang merata, dengan median yang sedikit lebih tinggi dibanding ≤4 GB, menunjukkan bahwa segmen ini memiliki variasi harga yang cukup luas, dari yang terjangkau hingga menengah atas. Segmen ini kemungkinan didorong oleh volume unit yang tinggi karena menyasar pasar entry-level dengan harga lebih terjangkau dengan kualitas yang lumayan bagus.

  3. 10–12 GB mencatatkan batas atas total harga tertinggi sekitar $18.000.000. Rentang antar kuartil (IQR) lebih sempit dibanding kategori sebelumnya, mengindikasikan harga yang lebih terkonsentrasi dengan median paling kecil dibanging kategori lain. Menariknya kategori ini mencatat total harga tertinggi yang paling rendah dibanding kategori RAM lainnya dan salah satu harga total terendah, namun kategori ini juga memiliki pencilan yang sangat banyak pula dibanding kategori RAM lain. Kategori ini peduli pada semua kalangan kelas dengan menawarkan keseimbangan antara performa dan harga.

  4. ≥ 16 GB memiliki batas atas total harga tertinggi di sekitar $19.000.000. Kelebihan kategori ini ialah sebaran datanya yang merata dengan variasi distribusi harga yang tidak terlalu luas dibanding kategori RAM yang lain ditambah memiliki pencilan paling sedikit pula walau kebanyakan pencilan mendominasi harga tinggi. Hal ini menegaskan bahwa perangkat dengan RAM tertinggi cenderung memiliki harga yang sangat bervariasi dan didominasi oleh produk premium dengan banderol tinggi.

Secara keseluruhan, tidak terdapat perbedaan yang terlalu mencolok antar kategori, namun segmen RAM tertinggi dan terendah justru mendominasi dari sisi agregat harga. Pola ini menunjukkan bahwa pasar smartphone memiliki dua kutub utama: perangkat premium dengan nilai per unit tinggi, dan perangkat entry-level dengan volume tinggi, sementara segmen menengah berada di posisi yang lebih rendah secara agregat.


Tren Jumlah Model Smartphone yang Dirilis per Periode

Visualisasi ini bertujuan untuk melihat pola pergerakan jumlah model smartphone yang dirilis dari waktu ke waktu, guna mengidentifikasi tren musiman serta lonjakan atau penurunan aktivitas rilis produk dalam dataset.

df <- df %>%
  mutate(bulan = parse_date_time(
    Tahun_rilis,
    orders = c("mdy", "ymd HMS", "ymd")
  ))
df$bulan <- as.Date(df$bulan)

bulanan <- df %>%
  group_by(bulan = format(bulan, "%Y-%m-01")) %>%
  summarise(n = n())

bulanan$bulan <- as.Date(bulanan$bulan)
ggplot(bulanan, aes(x = bulan, y = n)) +
  geom_line(color = "gray60", size = 0.8, alpha = 0.7) +
  geom_point(color = "gray60", size = 1.5, alpha = 0.6) +
  geom_smooth(method = "loess", se = FALSE, color = "#E41A1C", size = 1.2, span = 0.2) +
  scale_x_date(date_breaks = "3 months", date_labels = "%b %Y") +
  labs(
    title = "Tren Rilis Model Smartphone per Periode(Kuartal)",
    subtitle = "Garis merah adalah LOESS smoothing (tren jangka pendek)",
    x = "Bulan", y = "Jumlah Rilis"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Visualisasi di atas menyajikan fluktuasi jumlah model smartphone yang dirilis setiap kuartal, mulai dari Desember 2018 hingga Desember 2024. Dengan melihat pola ini, kita dapat memahami periode-periode di mana produsen paling aktif merilis produk baru, serta mendeteksi adanya perubahan tren yang mungkin dipengaruhi oleh faktor pasar, inovasi teknologi, atau siklus peluncuran tahunan. Berikut adalah rincian dan interpretasi dari data yang ditampilkan:

  1. Puncak rilis tertinggi terjadi pada September 2019 dan menjelang Juni 2023 ke September 2023 dengan jumlah 24 model. Ini merupakan rekor tertinggi sepanjang periode yang diamati, menunjukkan bahwa pada periode tersebut produsen sangat gencar meluncurkan produk baru, kemungkinan menjelang akhir tahun atau menyambut musim belanja.

  2. Puncak tertinggi kedua tercatat pada beberapa periode, yaitu menjelang September 2020–Desember 2020, September 2022–Desember 2022, serta Maret 2023–Juni 2023 dengan 23 model, diikuti Desember 2022–Maret 2023 dengan 21 model. Pola ini menunjukkan bahwa aktivitas rilis cenderung tinggi pada tahun-tahun tertentu, terutama di awal dan akhir tahun.

  3. Penurunan drastis terjadi mulai Maret 2024 hingga Desember 2024, di mana jumlah rilis merosot tajam menjadi hanya –4 model per periode. Perlu dicatat bahwa data untuk tahun 2025 kemungkinan belum sepenuhnya lengkap atau mencerminkan awal tahun yang biasanya lebih rendah, namun penurunan ini tetap menjadi titik terendah dalam rentang waktu yang diamati.

  4. Secara historis, periode September secara konsisten mencatatkan angka rilis yang tinggi, menunjukkan pola musiman yang kuat. Sebaliknya, periode Juni beberapa kali mencatatkan angka yang relatif lebih rendah dibanding kuartal lainnya.

Secara keseluruhan, tren rilis model smartphone menunjukkan aktivitas yang cukup fluktuatif dengan siklus puncak yang terjadi secara teratur pada awal dan akhir tahun. Namun, sejak akhir 2024 terjadi penurunan signifikan yang belum pernah terjadi sebelumnya, yang patut menjadi perhatian karena dapat mencerminkan perubahan dinamika industri smartphone secara fundamental, seperti pergeseran fokus ke kualitas dari kuantitas, atau penurunan jumlah pemain di pasar.


Kesimpulan

Berdasarkan eksplorasi data dan visualisasi yang telah dilakukan, dapat ditarik beberapa kesimpulan utama sebagai berikut:

  1. Dominasi Pasar Dari sisi jumlah model yang tersedia, Asus, Realme, OnePlus, dan Vivo menjadi merek dengan portofolio paling banyak, diikuti oleh Samsung, Huawei, dan Apple. Hal ini menunjukkan bahwa persaingan pasar smartphone sangat dinamis, dengan produsen berlomba menghadirkan varian produk untuk mengisi berbagai segmen, mulai dari entry-level hingga flagship.

  2. Kepuasan Pengguna Distribusi rating pengguna terkonsentrasi pada skor 4,0–4,5 dengan kurva yang miring ke kiri, menandakan mayoritas produk dalam dataset mendapat ulasan positif. Hanya sedikit produk yang memiliki rating di bawah 3,0, mencerminkan bahwa standar kualitas industri smartphone secara umum sudah tinggi.

  3. Hubungan RAM dan Harga Analisis boxplot menunjukkan bahwa kapasitas RAM tidak selalu berbanding lurus dengan harga. Fenomena menarik ditemukan pada kategori ≤4 GB yang memiliki median harga lebih tinggi dibanding kategori 10–12 GB, mengindikasikan bahwa faktor lain seperti merek, seri, atau fitur premium (misalnya perangkat Apple atau flagship lawas) dapat memberikan pengaruh lebih besar terhadap harga jual.

  4. Tren Rilis Produk Aktivitas peluncuran model smartphone mencapai puncak pada September 2019 serta Juni–September 2023, dengan jumlah hingga 24 model per periode. Setelah itu terjadi penurunan drastis mulai Maret 2024 hingga Desember 2024, di mana rilis merosot menjadi hanya 1–4 model per periode. Hal ini menandakan adanya perubahan strategi industri, kemungkinan pergeseran dari kuantitas menuju kualitas atau konsolidasi pemain di pasar.

Secara keseluruhan, pasar smartphone dalam dataset ini dicirikan oleh persaingan ketat di lini produk, kepuasan pengguna yang relatif tinggi, serta dinamika harga yang dipengaruhi lebih kompleks daripada sekadar spesifikasi teknis (RAM). Tren rilis yang menurun drastis di penghujung periode analisis menjadi sinyal penting yang layak dicermati lebih lanjut.


Rekomendasi

Berdasarkan temuan di atas, beberapa rekomendasi dapat diajukan:

  1. Bagi Produsen Smartphone
  1. Bagi Konsumen
  1. Bagi Analisis Lanjutan