Tugas Case Method 2 Sistem Informasi Manajemen
Data angka harapan hidup (life expectancy) merupakan data numerik yang menggambarkan estimasi rata-rata umur yang diharapkan seseorang dapat mencapai dalam suatu populasi pada tahun tertentu. Data ini biasanya diukur dalam satuan tahun dan digunakan sebagai indikator kesehatan dan perkembangan sosial ekonomi suatu negara atau wilayah. Dalam hal ini, kita akan menganalisis data angka harapan hidup setiap region tahun 2015. Adapun region yang ada yaitu Africa, Asia, Central America and Caribbean, European Union, Middle East, North America, Oceania, Rest of Europe, dan South America
Data angka harapan hidup tahun tersebut dianalisis menggunakan salah satu metode statistika, yaitu analisis deskriptif untuk mengevaluasi ukuran pemusatan dan penyebaran data tersebut. Statistik deskriptif bertujuan untuk menggambarkan dan meringkas data. Dengan menggunakan analisis deskriptif, kita dapat memahami ukuran pemusatan dan penyebaran data angka harapan hidup tahun 2015, serta visualisasi yang memudahkan pembaca untuk mengintrepetasikan data. Informasi ini berguna untuk memberikan gambaran tentang distribusi dan variasi angka harapan hidup, serta memperoleh wawasan awal mengenai karakteristik populasi pada tahun tersebut.
Package yang Digunakan
library(readxl)
library (ggplot2)
library(rmarkdown)
library(knitr)
library(tinytex)
Sebelum melakukan analisis deskriptif. kita perlu mengimpor data terlebih dahulu.
# Import Data
datasim <- readxl::read_excel('data_case_method - dataset.xlsx', sheet = 'data')
Berikut adalah variabel pada data yang digunakan
datasim1 <- subset(datasim, Year = 2015, select = c(Country, Region, Life_expectancy
))
datasim1
## # A tibble: 2,864 x 3
## Country Region Life_expectancy
## <chr> <chr> <dbl>
## 1 Turkiye Middle East 76.5
## 2 Spain European Union 82.8
## 3 India Asia 65.4
## 4 Guyana South America 67
## 5 Israel Middle East 81.7
## 6 Costa Rica Central America and Caribbean 78.2
## 7 Russian Federation Rest of Europe 71.2
## 8 Hungary European Union 71.2
## 9 Jordan Middle East 71.9
## 10 Moldova Rest of Europe 68.7
## # i 2,854 more rows
Ukuran pemusatan data atau ukuran tendensi sentral merupakan nilai statistik yang dapat mewakili suatu data. Pada bagian ini akan dibahas tiga ukuran pemusatan data, yaitu mean (rata-rata), median (nilai tengah), dan modus (nilai yang paling banyak muncul).
Rata-Rata
Rata-rata dilakukan dengan menjumlahkan seluruh nilai, kemudian
dibagi dengan jumlah sampel tersebut. Rumus yang biasa digunakan adalah
sebagai berikut: \[\bar{x} = x_1 + x_2 + … +
x_n \] R telah menyediakan function untuk menghitung nilai
rata-rata, yaitu function mean. Berikut contoh perhitungan
dengan menggunakan function tersebut:
#Menghitung rata-rata angka harapan hidup setiap region
region.avg <- aggregate(Life_expectancy ~ Region, datasim1, mean)
region.avg
## Region Life_expectancy
## 1 Africa 57.84730
## 2 Asia 69.45486
## 3 Central America and Caribbean 72.43750
## 4 European Union 77.71505
## 5 Middle East 73.97545
## 6 North America 77.84167
## 7 Oceania 69.51761
## 8 Rest of Europe 74.52542
## 9 South America 72.78073
Median (Nilai Tengah)
Nilai median merupakan nilai tengah dari data yang telah diurutkan.
Apabila banyak data ganjil, median meruapakan data ke \(\frac{n+1}{2}\) . Apabila banyak data
genap, median merupakan rata-rata dari data ke \(\frac{n}{2}\) dan \(\frac{n}{2}+1\). Median seringkali
digunakan untuk mempresentasikan data menceng kanan maupun menceng kiri.
R telah menyediakan function untuk menghitung median, yaitu function
median. Berikut contoh perhitungan dengan menggunakan
function tersebut:
#Menghitung median angka harapan hidup setiap region
region.median <- aggregate(Life_expectancy ~ Region, datasim1, median)
colnames(region.median) <- c("Region", "Median AHH")
region.median
## Region Median AHH
## 1 Africa 57.05
## 2 Asia 68.85
## 3 Central America and Caribbean 72.60
## 4 European Union 78.50
## 5 Middle East 74.30
## 6 North America 78.00
## 7 Oceania 68.45
## 8 Rest of Europe 74.20
## 9 South America 73.20
Modus (Nilai yang Paling Sering Muncul)
Nilai modus merupakan nilai yang paling sering muncul pada sekumpulan data. R tidak menyediakan function untuk menghitung modus Berikut contoh perhitungan dengan menggunakan function yang dibangun sendiri pada R:
#Menghitung modus angka harapan hidup setiap region
modus <- function(x) {
tab <- table(x)
mode <- as.numeric(names(tab)[which.max(tab)])
return(mode)}
modus.life_expectancy <- aggregate(Life_expectancy ~ Region, datasim1, modus)
colnames(modus.life_expectancy) <- c("Region", "modus AHH")
modus.life_expectancy
## Region modus AHH
## 1 Africa 50.6
## 2 Asia 66.0
## 3 Central America and Caribbean 74.1
## 4 European Union 78.1
## 5 Middle East 73.4
## 6 North America 74.9
## 7 Oceania 69.8
## 8 Rest of Europe 81.0
## 9 South America 72.9
Ukuran penyebaran data menunjukkan seberapa jauh suatu data menyebar dari rata-ratanya. Pada bagian ini akan dibahas beberapa ukuran penyebaran data, yaitu range (jangkauan), varians (ragam), standard deviasi (simpangan baku).
Range(Jangkauan)
Range merupakan selisih antara data terbesar dan data terkecil, dapat
ditulis dengan rumus sebagai berikut: \[R =
X_(n_) - X_(1_)\] R menyediakan function untuk mencari nilai
maksimum dan nilai minimum dalam suatu data, yaitu function
range. Berikut contoh perhitungan dengan menggunakan
function tersebut dan function yang dibuat sendiri:
# Mencari min, max, dan range angka harapan hidup setiap region
range.Life_expectancy <- aggregate(Life_expectancy ~ Region, datasim1, function(x) c(min = min(x), max = max(x), range = max(x) - min(x)))
range.Life_expectancy
## Region Life_expectancy.min Life_expectancy.max
## 1 Africa 39.4 76.1
## 2 Asia 55.8 83.8
## 3 Central America and Caribbean 57.1 79.6
## 4 European Union 70.3 83.2
## 5 Middle East 60.7 82.2
## 6 North America 74.3 81.9
## 7 Oceania 59.0 82.4
## 8 Rest of Europe 65.0 83.2
## 9 South America 62.5 79.6
## Life_expectancy.range
## 1 36.7
## 2 28.0
## 3 22.5
## 4 12.9
## 5 21.5
## 6 7.6
## 7 23.4
## 8 18.2
## 9 17.1
Varians dan Standar Deviasi
Varians adalah rata-rata dari jumlah kuadrat simpangan dari data.
Varians dari suatu populasi dapat dirumuskan sebagai berikut: \[ \sum_{i=1}^{N} \frac{x_{i}-\mu}{N} \]
Varians dari suatu sampel dapat dirumuskan sebagai berikut: \[ \sum_{i=1}^{n} \frac{x_{i}-\bar{n}}{n-1}
\] Sedangkan standard deviasi atau simpangan baku merupakan akar
kuadrat dari varians. R menyediakan function untuk mencari varians dan
standard deviasi dalam suatu data, yaitu function var dan
sd. Berikut contoh perhitungan dengan menggunakan function
:
# Menghitung varians dan standar deviasi angka harapan hidup untuk setiap region
var.sd.life_expectancy <- aggregate(Life_expectancy ~ Region, datasim1, function(x) c(var = var(x), sd = sd(x)))
col_names1 <- c("Region", "Variance", "Standard Deviation")
var.sd.life_expectancy
## Region Life_expectancy.var Life_expectancy.sd
## 1 Africa 66.217465 8.137411
## 2 Asia 31.078631 5.574821
## 3 Central America and Caribbean 19.670668 4.435163
## 4 European Union 10.490469 3.238899
## 5 Middle East 16.921323 4.113554
## 6 North America 5.831844 2.414921
## 7 Oceania 36.601345 6.049905
## 8 Rest of Europe 21.899979 4.679741
## 9 South America 12.564810 3.544688
Jangkauan Antarkuartil dan Simpangan Kuartil
Jangkauan antar kuartil merupakan selisih antara Quartil 3 dan
Quartil1. Sedangkan simpangan kuartil atau disebut juga jangkauan semi
kuartil merupakan setengah dari jangkauan antar kuartil. Kedua statistik
tersebut dapat ditulis dengan rumus sebagai berikut: \[ JAK = Q_3 - Q_1 \] \[ Q_3 = \frac{Q_3 - Q_1}{2} \] R
menyediakan function untuk mencari nilai quartil, yaitu
quantile. Menggunakan nilai Q_3 dan Q_3 yang didapatkan,
kita dapat mencari nilai jangkauan antar kuartil dan simpangan kuartil
menggunakan fungsi yang dibagun sendiri sebagai berikut :
# Mencari kuartil 1, kuartil 3, jangkauan antarkuartil, dan simpangan kuartil
sum.kuartil <- aggregate(Life_expectancy ~ Region, data = datasim1,
FUN = function(x) {
Q1 <- quantile(x, probs = 0.25)
Q3 <- quantile(x, probs = 0.75)
IQR <- Q3 - Q1
Quartile.deviation <- IQR / 2
c(Q1, Q3, IQR, Quartile.deviation)
})
sum.kuartil
## Region Life_expectancy.25% Life_expectancy.75%
## 1 Africa 52.0750 62.0000
## 2 Asia 65.7000 73.6000
## 3 Central America and Caribbean 70.8750 75.1250
## 4 European Union 75.1000 80.4000
## 5 Middle East 72.4000 76.3250
## 6 North America 75.2000 79.7500
## 7 Oceania 65.9000 71.0500
## 8 Rest of Europe 70.8750 78.4500
## 9 South America 70.8000 75.3000
## Life_expectancy.75% Life_expectancy.75%
## 1 9.9250 4.9625
## 2 7.9000 3.9500
## 3 4.2500 2.1250
## 4 5.3000 2.6500
## 5 3.9250 1.9625
## 6 4.5500 2.2750
## 7 5.1500 2.5750
## 8 7.5750 3.7875
## 9 4.5000 2.2500
Histogram
Berikut merupakan histogram rata-rata angka harapan hidup setiap region
# Membuat histogram tiap Region
ggplot(data = region.avg, aes(x = Region, y = Life_expectancy, fill = Region)) +
geom_bar(stat = "identity") + geom_text(aes(label = round(Life_expectancy, 2)), vjust = -0.5, color = "black") +
labs(x = "Region", y = "Mean Life Expectancy") +
ggtitle("Histogram of Rata-Rata AHH Setiap Region") +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
scale_fill_discrete(name = "Region")
Interpretasi
Africa memiliki rata-rata angka harapan hidup sebesar 57.84730. Hal ini menunjukkan bahwa rata-rata angka harapan hidup di benua Afrika berada pada tingkat yang relatif rendah.
Asia memiliki rata-rata angka harapan hidup sebesar 69.45486. Ini menunjukkan bahwa rata-rata angka harapan hidup di benua Asia berada pada tingkat yang lebih tinggi dibandingkan dengan Afrika, namun masih di bawah rata-rata global.
Central America and Caribbean memiliki rata-rata angka harapan hidup sebesar 72.43750. Ini menunjukkan bahwa rata-rata angka harapan hidup di wilayah Amerika Tengah dan Karibia berada pada tingkat yang lebih tinggi dibandingkan dengan Afrika dan Asia.
European Union memiliki rata-rata angka harapan hidup sebesar 77.71505. Ini menunjukkan bahwa rata-rata angka harapan hidup di Uni Eropa berada pada tingkat yang relatif tinggi, menunjukkan kualitas hidup yang lebih baik.
Middle East memiliki rata-rata angka harapan hidup sebesar 73.97545. Ini menunjukkan bahwa rata-rata angka harapan hidup di Timur Tengah berada pada tingkat yang relatif tinggi, meskipun sedikit di bawah rata-rata Uni Eropa.
North America memiliki rata-rata angka harapan hidup sebesar 77.84167. Ini menunjukkan bahwa rata-rata angka harapan hidup di Amerika Utara berada pada tingkat yang tinggi, sebanding dengan Uni Eropa.
Oceania memiliki rata-rata angka harapan hidup sebesar 69.51761. Ini menunjukkan bahwa rata-rata angka harapan hidup di wilayah Oseania, yang meliputi negara-negara seperti Australia dan Selandia Baru, berada pada tingkat yang lebih tinggi dibandingkan dengan Afrika dan Asia, tetapi masih di bawah rata-rata global.
Rest of Europe memiliki rata-rata angka harapan hidup sebesar 74.52542. Ini menunjukkan bahwa rata-rata angka harapan hidup di wilayah Eropa selain Uni Eropa berada pada tingkat yang lebih rendah dibandingkan dengan Uni Eropa, tetapi masih relatif tinggi dibandingkan dengan beberapa benua lainnya.
South America memiliki rata-rata angka harapan hidup sebesar 72.78073. Ini menunjukkan bahwa rata-rata angka harapan hidup di Amerika Selatan berada pada tingkat yang relatif tinggi, hampir setara dengan Amerika Tengah dan Karibia.
Boxplot
Berikut merupakan boxplot yang terdiri dari nilai minimal dan maksimal, Q1 dan Q3, median, jangkauan antarkuartil
ggplot(datasim1, aes(x = Region, y = Life_expectancy ,color = Region)) +
geom_boxplot() +
labs(x = "Region", y = "Angka Harapa Hidup", color = "Region") +
ggtitle("Boxplot Angka Harapan Hidup Setiap Region")
Interpretasi:
Data simetris (berdistribusi normal)
Ditunjukkan oleh region Africa, dengan garis median berada di tengah kotak. Selain itu data simetris juga ditunjukkan oleh panjang whisker bawah sama dengan panjang whisker bawah, serta tidak terdapat nilai outlier dan ekstrim.
Data miring ke kiri (Negative skewness)
Data miring (tidak simetris) dtunjukkan oleh region Asia, Central America and Carribean, Middle East, Oceania, Rest of Europe, dengan letak garis median tidak berada di tengah kotak. Whisker bawah lebih panjang dan terdapat outlier di bagian bawah menandakan data cenderung miring ke kiri
Data miring ke kanan (Positive skewness)
Data miring (tidak simetris) dtunjukkan oleh region Europe Union, North America, South America, dengan letak garis median tidak berada di tengah kotak. Whisker atas lebih panjang dan terdapat outlier di bagian atas menandakan data cenderung miring ke kanan.
Median pada region Central America and Caribbean, European Union, Middle East, North America, Rest of Europe, South America cenderung sama yaitu di rentang 70-80 maka angka harapan hidup di region tersebut relatif serupa.
Median pada region Asia dan Oceania cenderung sama yaitu di rentang 60-70 maka angka harapan hidup di region tersebut relatif serupa.
Median pada region Africa sangat berbeda dari region lainnya yaitu di rentang 50-60. Hal ini menunjukkan region Africa berbeda secara signifikan.
Dotplot
Berikut merupakan dotplot angka harapan hidup setiap region
ggplot(datasim1, aes(x = Life_expectancy, y = Region, color = Region)) +
geom_point() +
labs(x = "Angka Harapan Hidup", y = "Region", color = "Region") +
ggtitle("Dot Plot Angka Harapan Hidup Setiap Region")
Interpretasi
Angka harapan hidup di region Africa berkisar di angka 40-80.
Angka harapan hidup di region South America, Rest of Europe, Oceania, Middle East, Central America and Caribbean, dan Asia berkisar di angka 60-80.
Angka harapan hidup di region North America, European Union berkisar di angka 70-80.