setwd(“/Users/inesramariyanti/Documents/MET”)
install.packages(“readxl”) library(readxl)
data <- read_excel(“DataTugasR.xlsx”)
head(DataTugasR) str(DataTugasR)
mean(DataTugasR\(Agriculture) median(DataTugasR\)Industry) min(DataTugasR\(Agriculture) max(DataTugasR\)Service)
range_data <- max(DataTugasR) - min(DataTugasR) range_data
boxplot(DataTugasR, main=“Boxplot untuk Range dan IQR”)
install.packages(“readxl”) install.packages(“ggplot2”)
library(readxl) library(ggplot2)
ggplot(DataTugasR, aes(x = Industry)) + geom_histogram(bins = 10, fill =
“skyblue”, color = “black”) + labs(title = “Histogram of Industry”, x =
“Industry (%)”, y = “Frequency”)
# Pendahuluan
Analisis Data Eksploratif adalah proses awal dalam analisis data yang bertujuan untuk memahami struktur, pola, dan karakteristik data sebelum dilakukan analisis statistik lebih lanjut atau pemodelan prediktif. Dalam tahap ini, analis data mengevaluasi tipe data, distribusi nilai, adanya nilai hilang (missing values), pencilan (outlier), serta hubungan antar variabel. Melalui kombinasi statistik deskriptif dan visualisasi data seperti histogram, boxplot, dan scatter plot, EDA membantu pengguna dalam memperoleh wawasan awal mengenai data yang dimiliki.
Tujuan utama dari EDA adalah untuk memastikan bahwa data yang akan dianalisis memiliki kualitas yang baik, bebas dari kesalahan input, dan sesuai untuk digunakan dalam model statistik atau machine learning. Contoh data yang digunakan berasal dari sektor ekonomi: Agriculture, Industry, dan Service dari tahun ke tahun.
# Import Data
``` r
# Load package
library(readxl)
library(ggplot2)
# Baca data dari file Excel
# Ganti path jika file berada di lokasi berbeda
data <- read_excel("DataTugasR.xlsx", skip = 1)
# Tampilkan beberapa baris pertama
head(data)
## # A tibble: 6 × 4
## tahun Agriculture Industry Service
## <dbl> <dbl> <dbl> <dbl>
## 1 2010 14.3 43.9 41.8
## 2 2011 13.8 44.8 41.4
## 3 2012 13.7 44.6 41.8
## 4 2013 13.7 43.7 42.6
## 5 2014 13.7 43 43.3
## 6 2015 13.9 41.4 44.7
mean(DataTugasR\(Agriculture) median(DataTugasR\)Industry) min(DataTugasR\(Agriculture) max(DataTugasR\)Service)
ggplot(data, aes(x = Industry)) +
geom_histogram(bins = 10, fill = "skyblue", color = "black") +
labs(title = "Histogram of Industry", x = "Industry (%)", y = "Frequency")
ggplot(data, aes(x = Agriculture)) +
geom_histogram(bins = 10, fill = "lightgreen", color = "black") +
labs(title = "Histogram of Agriculture", x = "Agriculture (%)", y = "Frequency")
ggplot(data, aes(x = Service)) +
geom_histogram(bins = 10, fill = "salmon", color = "black") +
labs(title = "Histogram of Service", x = "Service (%)", y = "Frequency")
Berdasarkan hasil eksplorasi data sektor ekonomi Indonesia, terlihat adanya pergeseran kontribusi antar sektor selama periode waktu yang diamati. Sektor Industry cenderung mendominasi kontribusi terhadap PDB dibandingkan sektor lainnya, meskipun fluktuasinya relatif stabil. Sementara itu, sektor Agriculture menunjukkan tren penurunan secara perlahan, mencerminkan pergeseran struktur ekonomi dari agraris menuju industri dan jasa. Sebaliknya, sektor Service menunjukkan kecenderungan meningkat atau stabil tinggi, menandakan pentingnya sektor jasa dalam perekonomian modern Indonesia.