Kami menggunakan data gapminder tahun 2007. Variabel
yang digunakan: * Kategorik: continent
(Benua) & income_status (Status PDB) *
Numerik: gdpPercap (Produk Domestik Bruto
per kapita dalam US Dollar / USD) &
lifeExp (Angka Harapan Hidup dalam tahun).
data_ekonomi <- subset(gapminder, year == 2007)
median_gdp <- median(data_ekonomi$gdpPercap)
data_ekonomi$income_status <- as.factor(ifelse(data_ekonomi$gdpPercap > median_gdp, "Di Atas Median", "Di Bawah Median"))
Berikut adalah perhitungan Mean, Median, Modus, Q1, Q3, Range, Varians, dan Standar Deviasi. Perhitungan GDP disajikan dalam satuan US Dollar (USD).
get_mode <- function(v) { uniqv <- unique(v); uniqv[which.max(tabulate(match(v, uniqv)))] }
calc_stats <- function(x) {
c(Mean = mean(x), Median = median(x), Modus = get_mode(x),
Q1 = quantile(x, 0.25), Q3 = quantile(x, 0.75),
Range = max(x) - min(x), Variance = var(x), Std_Dev = sd(x))
}
data.frame(GDP_Per_Capita_USD = calc_stats(data_ekonomi$gdpPercap), Life_Expectancy = calc_stats(data_ekonomi$lifeExp))
## GDP_Per_Capita_USD Life_Expectancy
## Mean 11680.0718 67.00742
## Median 6124.3711 71.93550
## Modus 974.5803 43.82800
## Q1.25% 1624.8422 57.16025
## Q3.75% 18008.8356 76.41325
## Range 49079.6383 42.99000
## Variance 165377988.3224 145.75782
## Std_Dev 12859.9373 12.07302
pie(table(data_ekonomi$income_status), main="Proporsi Negara Berdasarkan PDB", col=c("red", "steelblue"))
Interpretasi: Proporsi negara terbagi rata 50:50 karena data dibagi persis berdasarkan nilai median PDB populasi pada tahun tersebut.
barplot(table(data_ekonomi$continent), main="Jumlah Negara per Benua", ylab="Jumlah Negara", col="lightgreen")
Interpretasi: Benua Afrika memiliki jumlah negara terbanyak dalam dataset ini dibandingkan benua lainnya, disusul oleh Asia dan Eropa.
hist(data_ekonomi$lifeExp, main="Distribusi Harapan Hidup", xlab="Umur (Tahun)", col="gold")
shapiro.test(data_ekonomi$lifeExp)
##
## Shapiro-Wilk normality test
##
## data: data_ekonomi$lifeExp
## W = 0.89467, p-value = 0.00000001357
Interpretasi: * Statistik Deskriptif: Secara deskriptif data condong ke kiri (left-skewed), yang berarti mayoritas negara di dunia pada 2007 sudah memiliki angka harapan hidup yang tinggi (sekitar 70-80 tahun). * Statistik Inferensia: Berdasarkan uji Shapiro-Wilk didapatkan p-value < 0.05, sehingga secara statistik data harapan hidup ini tidak berdistribusi normal.
plot(density(data_ekonomi$gdpPercap), main="Density PDB per Kapita", xlab="GDP per Capita (USD)", col="purple", lwd=2)
polygon(density(data_ekonomi$gdpPercap), col = rgb(0.5, 0, 0.5, 0.3))
Interpretasi: * Statistik Deskriptif: Data sangat condong ke kanan (right-skewed). Mayoritas negara memiliki PDB per kapita yang rendah hingga menengah (di bawah 10.000 USD, terlihat dari puncak kurva di kiri), dan hanya sedikit negara yang PDB-nya sangat tinggi (hingga lebih dari 40.000 USD di ekor kanan). * Statistik Inferensia: Karena kecondongan ekstrim ini, asumsi normalitas tidak terpenuhi. Jika ingin dilakukan uji beda rata-rata (parametrik) di masa depan, data ini perlu ditransformasi terlebih dahulu (misalnya menggunakan logaritma natural).
boxplot(lifeExp ~ continent, data=data_ekonomi, main="Harapan Hidup per Benua", xlab="Benua", ylab="Umur", col=c("pink", "lightblue", "lightgreen", "orange", "yellow"))
summary(aov(lifeExp ~ continent, data=data_ekonomi))
## Df Sum Sq Mean Sq F value Pr(>F)
## continent 4 13061 3265 59.71 <0.0000000000000002 ***
## Residuals 137 7491 55
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Interpretasi: * Statistik Deskriptif: Oseania dan Eropa memiliki median umur tertinggi. Afrika memiliki median terendah dengan sebaran data (varians) yang sangat lebar antar negaranya. * Statistik Inferensia: Berdasarkan uji Analysis of Variance (ANOVA), didapatkan p-value sangat kecil (< 0.05). Hal ini membuktikan bahwa terdapat perbedaan rata-rata harapan hidup yang sangat signifikan di antara benua-benua tersebut.