Tugas Case Method 2 Sistem Informasi Manajemen

Deskripsi Data

Data angka harapan hidup (life expectancy) merupakan data numerik yang menggambarkan estimasi rata-rata umur yang diharapkan seseorang dapat mencapai dalam suatu populasi pada tahun tertentu. Data ini biasanya diukur dalam satuan tahun dan digunakan sebagai indikator kesehatan dan perkembangan sosial ekonomi suatu negara atau wilayah. Dalam hal ini, kita akan menganalisis data angka harapan hidup setiap region tahun 2015. Adapun region yang ada yaitu Africa, Asia, Central America and Caribbean, European Union, Middle East, North America, Oceania, Rest of Europe, dan South America

Data angka harapan hidup tahun tersebut dianalisis menggunakan salah satu metode statistika, yaitu analisis deskriptif untuk mengevaluasi ukuran pemusatan dan penyebaran data tersebut. Statistik deskriptif bertujuan untuk menggambarkan dan meringkas data. Dengan menggunakan analisis deskriptif, kita dapat memahami ukuran pemusatan dan penyebaran data angka harapan hidup tahun 2015, serta visualisasi yang memudahkan pembaca untuk mengintrepetasikan data. Informasi ini berguna untuk memberikan gambaran tentang distribusi dan variasi angka harapan hidup, serta memperoleh wawasan awal mengenai karakteristik populasi pada tahun tersebut.

Package yang Digunakan

library(readxl)     
library (ggplot2)   
library(rmarkdown)
library(knitr)
library(tinytex)

Sebelum melakukan analisis deskriptif. kita perlu mengimpor data terlebih dahulu.

# Import Data
datasim <- readxl::read_excel('data_case_method - dataset.xlsx', sheet = 'data')

Berikut adalah variabel pada data yang digunakan

datasim1 <- subset(datasim, Year = 2015, select = c(Country, Region, Life_expectancy
))
datasim1
## # A tibble: 2,864 x 3
##    Country            Region                        Life_expectancy
##    <chr>              <chr>                                   <dbl>
##  1 Turkiye            Middle East                              76.5
##  2 Spain              European Union                           82.8
##  3 India              Asia                                     65.4
##  4 Guyana             South America                            67  
##  5 Israel             Middle East                              81.7
##  6 Costa Rica         Central America and Caribbean            78.2
##  7 Russian Federation Rest of Europe                           71.2
##  8 Hungary            European Union                           71.2
##  9 Jordan             Middle East                              71.9
## 10 Moldova            Rest of Europe                           68.7
## # i 2,854 more rows

Ukuran Pemusatan Data

Ukuran pemusatan data atau ukuran tendensi sentral merupakan nilai statistik yang dapat mewakili suatu data. Pada bagian ini akan dibahas tiga ukuran pemusatan data, yaitu mean (rata-rata), median (nilai tengah), dan modus (nilai yang paling banyak muncul).

Rata-Rata

Rata-rata dilakukan dengan menjumlahkan seluruh nilai, kemudian dibagi dengan jumlah sampel tersebut. Rumus yang biasa digunakan adalah sebagai berikut: \[\bar{x} = x_1 + x_2 + … + x_n \] R telah menyediakan function untuk menghitung nilai rata-rata, yaitu function mean. Berikut contoh perhitungan dengan menggunakan function tersebut:

#Menghitung rata-rata angka harapan hidup setiap region
region.avg <- aggregate(Life_expectancy ~ Region, datasim1, mean)
region.avg
##                          Region Life_expectancy
## 1                        Africa        57.84730
## 2                          Asia        69.45486
## 3 Central America and Caribbean        72.43750
## 4                European Union        77.71505
## 5                   Middle East        73.97545
## 6                 North America        77.84167
## 7                       Oceania        69.51761
## 8                Rest of Europe        74.52542
## 9                 South America        72.78073

Median (Nilai Tengah)

Nilai median merupakan nilai tengah dari data yang telah diurutkan. Apabila banyak data ganjil, median meruapakan data ke \(\frac{n+1}{2}\) . Apabila banyak data genap, median merupakan rata-rata dari data ke \(\frac{n}{2}\) dan \(\frac{n}{2}+1\). Median seringkali digunakan untuk mempresentasikan data menceng kanan maupun menceng kiri. R telah menyediakan function untuk menghitung median, yaitu function median. Berikut contoh perhitungan dengan menggunakan function tersebut:

#Menghitung median angka harapan hidup setiap region
region.median <- aggregate(Life_expectancy ~ Region, datasim1, median)
colnames(region.median) <- c("Region", "Median AHH")
region.median
##                          Region Median AHH
## 1                        Africa      57.05
## 2                          Asia      68.85
## 3 Central America and Caribbean      72.60
## 4                European Union      78.50
## 5                   Middle East      74.30
## 6                 North America      78.00
## 7                       Oceania      68.45
## 8                Rest of Europe      74.20
## 9                 South America      73.20

Modus (Nilai yang Paling Sering Muncul)

Nilai modus merupakan nilai yang paling sering muncul pada sekumpulan data. R tidak menyediakan function untuk menghitung modus Berikut contoh perhitungan dengan menggunakan function yang dibangun sendiri pada R:

#Menghitung modus angka harapan hidup setiap region
modus <- function(x) {
  tab <- table(x)
  mode <- as.numeric(names(tab)[which.max(tab)])
  return(mode)}
modus.life_expectancy <- aggregate(Life_expectancy ~ Region, datasim1, modus)
colnames(modus.life_expectancy) <- c("Region", "modus AHH")
modus.life_expectancy
##                          Region modus AHH
## 1                        Africa      50.6
## 2                          Asia      66.0
## 3 Central America and Caribbean      74.1
## 4                European Union      78.1
## 5                   Middle East      73.4
## 6                 North America      74.9
## 7                       Oceania      69.8
## 8                Rest of Europe      81.0
## 9                 South America      72.9

Ukuran Penyebaran Data

Ukuran penyebaran data menunjukkan seberapa jauh suatu data menyebar dari rata-ratanya. Pada bagian ini akan dibahas beberapa ukuran penyebaran data, yaitu range (jangkauan), varians (ragam), standard deviasi (simpangan baku).

Range(Jangkauan)

Range merupakan selisih antara data terbesar dan data terkecil, dapat ditulis dengan rumus sebagai berikut: \[R = X_(n_) - X_(1_)\] R menyediakan function untuk mencari nilai maksimum dan nilai minimum dalam suatu data, yaitu function range. Berikut contoh perhitungan dengan menggunakan function tersebut dan function yang dibuat sendiri:

# Mencari min, max, dan range angka harapan hidup setiap region 
range.Life_expectancy <- aggregate(Life_expectancy ~ Region, datasim1, function(x) c(min = min(x), max = max(x), range = max(x) - min(x)))
range.Life_expectancy
##                          Region Life_expectancy.min Life_expectancy.max
## 1                        Africa                39.4                76.1
## 2                          Asia                55.8                83.8
## 3 Central America and Caribbean                57.1                79.6
## 4                European Union                70.3                83.2
## 5                   Middle East                60.7                82.2
## 6                 North America                74.3                81.9
## 7                       Oceania                59.0                82.4
## 8                Rest of Europe                65.0                83.2
## 9                 South America                62.5                79.6
##   Life_expectancy.range
## 1                  36.7
## 2                  28.0
## 3                  22.5
## 4                  12.9
## 5                  21.5
## 6                   7.6
## 7                  23.4
## 8                  18.2
## 9                  17.1

Varians dan Standar Deviasi

Varians adalah rata-rata dari jumlah kuadrat simpangan dari data. Varians dari suatu populasi dapat dirumuskan sebagai berikut: \[ \sum_{i=1}^{N} \frac{x_{i}-\mu}{N} \] Varians dari suatu sampel dapat dirumuskan sebagai berikut: \[ \sum_{i=1}^{n} \frac{x_{i}-\bar{n}}{n-1} \] Sedangkan standard deviasi atau simpangan baku merupakan akar kuadrat dari varians. R menyediakan function untuk mencari varians dan standard deviasi dalam suatu data, yaitu function var dan sd. Berikut contoh perhitungan dengan menggunakan function :

# Menghitung varians dan standar deviasi angka harapan hidup untuk setiap region
var.sd.life_expectancy <- aggregate(Life_expectancy ~ Region, datasim1, function(x) c(var = var(x), sd = sd(x)))
col_names1 <- c("Region", "Variance", "Standard Deviation")
var.sd.life_expectancy
##                          Region Life_expectancy.var Life_expectancy.sd
## 1                        Africa           66.217465           8.137411
## 2                          Asia           31.078631           5.574821
## 3 Central America and Caribbean           19.670668           4.435163
## 4                European Union           10.490469           3.238899
## 5                   Middle East           16.921323           4.113554
## 6                 North America            5.831844           2.414921
## 7                       Oceania           36.601345           6.049905
## 8                Rest of Europe           21.899979           4.679741
## 9                 South America           12.564810           3.544688

Jangkauan Antarkuartil dan Simpangan Kuartil

Jangkauan antar kuartil merupakan selisih antara Quartil 3 dan Quartil1. Sedangkan simpangan kuartil atau disebut juga jangkauan semi kuartil merupakan setengah dari jangkauan antar kuartil. Kedua statistik tersebut dapat ditulis dengan rumus sebagai berikut: \[ JAK = Q_3 - Q_1 \] \[ Q_3 = \frac{Q_3 - Q_1}{2} \] R menyediakan function untuk mencari nilai quartil, yaitu quantile. Menggunakan nilai Q_3 dan Q_3 yang didapatkan, kita dapat mencari nilai jangkauan antar kuartil dan simpangan kuartil menggunakan fungsi yang dibagun sendiri sebagai berikut :

# Mencari kuartil 1, kuartil 3, jangkauan antarkuartil, dan simpangan kuartil
sum.kuartil <- aggregate(Life_expectancy ~ Region, data = datasim1, 
          FUN = function(x) {
            Q1 <- quantile(x, probs = 0.25)
            Q3 <- quantile(x, probs = 0.75)
            IQR <- Q3 - Q1
            Quartile.deviation <- IQR / 2
            c(Q1, Q3, IQR, Quartile.deviation)
          })

sum.kuartil
##                          Region Life_expectancy.25% Life_expectancy.75%
## 1                        Africa             52.0750             62.0000
## 2                          Asia             65.7000             73.6000
## 3 Central America and Caribbean             70.8750             75.1250
## 4                European Union             75.1000             80.4000
## 5                   Middle East             72.4000             76.3250
## 6                 North America             75.2000             79.7500
## 7                       Oceania             65.9000             71.0500
## 8                Rest of Europe             70.8750             78.4500
## 9                 South America             70.8000             75.3000
##   Life_expectancy.75% Life_expectancy.75%
## 1              9.9250              4.9625
## 2              7.9000              3.9500
## 3              4.2500              2.1250
## 4              5.3000              2.6500
## 5              3.9250              1.9625
## 6              4.5500              2.2750
## 7              5.1500              2.5750
## 8              7.5750              3.7875
## 9              4.5000              2.2500

Visualisasi Data dan Interpretasi

Histogram

Berikut merupakan histogram rata-rata angka harapan hidup setiap region

# Membuat histogram tiap Region
ggplot(data = region.avg, aes(x = Region, y = Life_expectancy, fill = Region)) +
  geom_bar(stat = "identity") + geom_text(aes(label = round(Life_expectancy, 2)), vjust = -0.5, color = "black") +
  labs(x = "Region", y = "Mean Life Expectancy") +
  ggtitle("Histogram of Rata-Rata AHH Setiap Region") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  scale_fill_discrete(name = "Region")

Interpretasi

  1. Africa memiliki rata-rata angka harapan hidup sebesar 57.84730. Hal ini menunjukkan bahwa rata-rata angka harapan hidup di benua Afrika berada pada tingkat yang relatif rendah.

  2. Asia memiliki rata-rata angka harapan hidup sebesar 69.45486. Ini menunjukkan bahwa rata-rata angka harapan hidup di benua Asia berada pada tingkat yang lebih tinggi dibandingkan dengan Afrika, namun masih di bawah rata-rata global.

  3. Central America and Caribbean memiliki rata-rata angka harapan hidup sebesar 72.43750. Ini menunjukkan bahwa rata-rata angka harapan hidup di wilayah Amerika Tengah dan Karibia berada pada tingkat yang lebih tinggi dibandingkan dengan Afrika dan Asia.

  4. European Union memiliki rata-rata angka harapan hidup sebesar 77.71505. Ini menunjukkan bahwa rata-rata angka harapan hidup di Uni Eropa berada pada tingkat yang relatif tinggi, menunjukkan kualitas hidup yang lebih baik.

  5. Middle East memiliki rata-rata angka harapan hidup sebesar 73.97545. Ini menunjukkan bahwa rata-rata angka harapan hidup di Timur Tengah berada pada tingkat yang relatif tinggi, meskipun sedikit di bawah rata-rata Uni Eropa.

  6. North America memiliki rata-rata angka harapan hidup sebesar 77.84167. Ini menunjukkan bahwa rata-rata angka harapan hidup di Amerika Utara berada pada tingkat yang tinggi, sebanding dengan Uni Eropa.

  7. Oceania memiliki rata-rata angka harapan hidup sebesar 69.51761. Ini menunjukkan bahwa rata-rata angka harapan hidup di wilayah Oseania, yang meliputi negara-negara seperti Australia dan Selandia Baru, berada pada tingkat yang lebih tinggi dibandingkan dengan Afrika dan Asia, tetapi masih di bawah rata-rata global.

  8. Rest of Europe memiliki rata-rata angka harapan hidup sebesar 74.52542. Ini menunjukkan bahwa rata-rata angka harapan hidup di wilayah Eropa selain Uni Eropa berada pada tingkat yang lebih rendah dibandingkan dengan Uni Eropa, tetapi masih relatif tinggi dibandingkan dengan beberapa benua lainnya.

  9. South America memiliki rata-rata angka harapan hidup sebesar 72.78073. Ini menunjukkan bahwa rata-rata angka harapan hidup di Amerika Selatan berada pada tingkat yang relatif tinggi, hampir setara dengan Amerika Tengah dan Karibia.

Boxplot

Berikut merupakan boxplot yang terdiri dari nilai minimal dan maksimal, Q1 dan Q3, median, jangkauan antarkuartil

ggplot(datasim1, aes(x = Region, y = Life_expectancy ,color = Region)) +
  geom_boxplot() +
  labs(x = "Region", y = "Angka Harapa Hidup", color = "Region") +
  ggtitle("Boxplot Angka Harapan Hidup Setiap Region")

Interpretasi:

Dotplot

Berikut merupakan dotplot angka harapan hidup setiap region

ggplot(datasim1, aes(x = Life_expectancy, y = Region, color = Region)) +
  geom_point() +
  labs(x = "Angka Harapan Hidup", y = "Region", color = "Region") +
  ggtitle("Dot Plot Angka Harapan Hidup Setiap Region")

Interpretasi