gapminder veri seti , ülkelerin 1952–2007 arasında her
beş yılda bir ölçülen kalkınma verilerini içerir. Veri setinin
içerisinde ülke, kıta, yıl, yaşam beklentisi, nüfus ve kişi başı gelir
sütunları bulunmaktadır. Her satır, belirli bir ülkenin belirli bir
yıldaki durumunu temsil etmektedir.
Bu çalışmada country (ülke),
continent (kıta), year (yıl),
lifeExp (yaşam beklentisi), pop (nüfus),
gdpPercap (kişi başına düşen gelir) değişkenleri
kullanılmıştır.
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.1 ✔ stringr 1.5.2
## ✔ ggplot2 4.0.0 ✔ tibble 3.3.0
## ✔ lubridate 1.9.4 ✔ tidyr 1.3.1
## ✔ purrr 1.1.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Rows: 1,704
## Columns: 6
## $ country <fct> "Afghanistan", "Afghanistan", "Afghanistan", "Afghanistan", …
## $ continent <fct> Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, …
## $ year <int> 1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 1992, 1997, …
## $ lifeExp <dbl> 28.801, 30.332, 31.997, 34.020, 36.088, 38.438, 39.854, 40.8…
## $ pop <int> 8425333, 9240934, 10267083, 11537966, 13079460, 14880372, 12…
## $ gdpPercap <dbl> 779.4453, 820.8530, 853.1007, 836.1971, 739.9811, 786.1134, …
Veri setimiz 1704 satır ve 6 sütundan oluşmaktadır. Eksik veri var mı diye kontrol etmemiz gerekiyor Bunun için:
## country continent year lifeExp pop gdpPercap
## 0 0 0 0 0 0
Veri setinde eksik veri bulunmamaktadır. Yani veri analize hazır durumdadır.
gapminder_v1 <- gapminder %>%
rename( ulke = country, kita = continent, yil = year, yasam_beklentisi = lifeExp, nufus = pop, kisi_basi_gdp = gdpPercap)
head(gapminder_v1)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 23.60 48.20 60.71 59.47 70.85 82.60
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.001e+04 2.794e+06 7.024e+06 2.960e+07 1.959e+07 1.319e+09
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 241.2 1202.1 3531.8 7215.3 9325.5 113523.1
## [1] 23.599
## [1] 82.603
## [1] 60011
## [1] 1318683096
## [1] 241.1659
## [1] 113523.1
Yaşam beklentisi değişkeni yaklaşık 24 yıl ile 83 yıl arası değişmektedir. Bazı ülkelerde çok ağır sağlık koşullarının olduğunu (örn. ortalama ömrün yaklaşık 24 yıl olması) ve bazı ülkelerde ise insanların 80 yıldan fazla yaşamasının beklenmesi sebebiyle bu ülkelerin koşullarının iyi olduğunu söyleyebiliriz. Medyanın yaklaşık 61 yıl olması, dünya genelinde yaşam beklentisinin 60 yıl civarında olduğunu göstermektedir.
Nüfusa baktığımızda ise nüfus değişkeni yaklaşık 60 bin kişiden 1.3 milyar kişiye kadar uzanıyor. Minimum yaklaşık 60 bin (küçük, ada ülkeler), maksimum yaklaşık 1.32 milyar (Çin veya Hindistan gibi kalabalık bir ülkenin gözlemi), medyan yaklaşık 7 milyon ve ortalama yaklaşık 29.6 milyon olduğu görülmektedir. Ortalama medyandan oldukça büyüktür yani nüfus değişkeninin grafiği sağa çarpıktır. Veri setinde bulunan birkaç kalabalık ülke (Çin, Hindistan gibi) ortalamayı yukarı çekmektedir. Nüfus dağılımı normal değildir.
Kişi başına düşen gelir ise 241 dolar ile 113.523 dolar arasında değişmektedir. Bu değerler, ülkeler arasındaki ekonomik eşitsizliğin çok fazlaa olduğunu göstermektedir. Bazı ülkelerde kişi başına düşen para yılda birkaç yüz dolarken, bazı ülkelerde on binlerce dolar. Ayrıca medyanın yaklaşık 3.5 bin dolar olmasına rağmen ortalamanın 7.2 bin dolar civarında olması, gelir dağılımının sağa çarpık olduğunu gösteriyor. Yani insanların çoğu zengin değil ama birkaç aşırı zengin ülkeden alınan veriler yüzünden tabloda herkes zenginmiş gibi bir algı oluşturuyor ilk bakışta.
Dünya genelinde yaşam beklentisinin yıllar içerisinde nasıl değiştiğini görmek için çizgi grafiği çizeceğiz.
library (ggplot2)
tarihsel_egilim <- gapminder_v1 %>%
group_by(yil) %>%
summarise(ortalama_yasam = mean(yasam_beklentisi))
ggplot(tarihsel_egilim, aes(x = yil, y = ortalama_yasam)) +
geom_line(color = "purple") +
geom_point(alpha = 0.7, color = "blue") +
labs(
title = "Yaşam Beklentisinin Tarihsel Eğilimi", x = "Yıl", y = "Yaşam Beklentisi",
caption = "Ortalama = tüm ülkelerin ortalaması"
) +
theme_grey()Grafiğe bakıldığında 1952’den 2007’ye kadar dünya genelinde ortalama
yaşam beklentisinin sürekli arttığını görülmektedir. Bu artışın sebebi;
tıptaki ilerlemeler, hijyen ürünlerine erişim ve bebek ölümlerinin
azalması gibi küresel iyileşmeler olabilir. Yani gezegen genelinde
insan ömrü uzuyor ifadesi veriye göre doğru.
Kıtaların yaşam beklentisi zaman içerisinde nasıl değişiyor bunu
görmek için çizgi grafiği oluşturacağız. Her kıtaların her birini tak
bir görselde göstermek için facet_wrap() fonksiyonunu
kullanacağız.
library(ggplot2)
kita_egilim <- gapminder_v1 %>%
group_by(kita, yil) %>%
summarise(kita_ortalama_yasam = mean(yasam_beklentisi), .groups = "drop") #.groups fonksiyonunu r hata verdiği için kullandım. summarise'ı kıtaya göre yapmış bunu ayırmak için
ggplot( kita_egilim,aes(x = yil, y = kita_ortalama_yasam, color = kita)) +
geom_line(color = "black") +
geom_point(alpha = 1, color = "pink") +
facet_wrap(~ kita) +
labs(title = "Kıtaların Zaman İçindeki Yaşam Beklentisi", x = "Yıl", y = "Yaşam Beklentisi (yıl)",
color = "Kıta") +
theme_grey()## Ignoring unknown labels:
## • colour : "Kıta"
Genel olarak tüm kıtalarda yukarı yönlü bir eğilim var yani insanlar dünyanın her bölgesinde, zaman içinde daha uzun yaşamaya başlamış. Tüm kıtaların yaşam beklentisi zaman içerisinde artmış ama başlangıç ve son verilerden elde edilen seviyeler aynı değil. Örneğin Avrupa ve Okyanusya ilk verilerden itibaren yüksek yaşam beklentisiyle başlamış ama Afrika’nın yaşam beklentisi çok daha düşük bir seviyeden başlamış. Son verilere baktığımızda ise Afrika’nın yaşam beklentisi hala Avrupa ve Okyanusya’dan daha düşük. Dünya geneli ve kıta bazında yaşam beklentisi artıyor yani iyileşmeler var ama bu iyileşmeler kıtalar arası eşit düzeyde değil.
2007 yılında kıta bazında kişi başına düşen yıllık geliri görselleştireceğiz.
ggplot(gapminder_v1 %>%
filter(yil == 2007), aes(x = kisi_basi_gdp)) +
geom_histogram(fill = "navyblue", color = "black") +
facet_wrap(~ kita) +
labs( title = "2007 Yılında Kişi Başına Düşen Gelirin Dağılımı", x = "Kişi Başına Düşen Gelir ($)", y = "Ülke Sayısı") +
theme_light()## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
Afrika kıtası: Grafikte sola doğru bir yığılma görülmektedir. Kıtadaki çoğu ülke çok düşük gelir bandındadır. Grafiğe göre Afrika kıtasında düşük gelirli ülkeler vardır, düşük gelir ülke çapında değil kıta çapında yaygındır.
Amerika kıtası: Kıtadaki çoğu ülke düşük-orta gelir düzeyindedir. Kişi başına düşen yıllık gelirin 30 bin dolar ve üzeri olduğu ülke sayısı azdır. Kıtanın genel olarak orta-düşük gelirli ülkelerden oluştuğu söylenebilir.
Asya kıtası: Kıtada çoğu ülke düşük gelir düzeyindedir. Afrika’dan faklı olarak orta ve yüksek gelirli birkaç ülke bulunmaktadır.
Avrupa kıtası: Avrupa’da ülkeler genel olarak yüksek gelir tarafında kümelenmiştir.
Okyanusya kıtası: Kıtada az ülke olduğu için dağılım tam bir şekil çizmiyor. Grafikte görülen değerler yüksek gelir seviyesinde yer alıyor. Yani veri setindeki büyük Okyanusya ülkelerinde kişi başına düşen yıllık gelir fazla.
Türkiye, Japonya, Brezilya ve Kenya’da 1952 ve 2007 yıllarındaki yaşam beklentilerine bakacağız.
ilksonyil <- gapminder_v1 %>%
filter((ulke == "Turkey" | ulke == "Japan" | ulke == "Brazil" |ulke == "Kenya"), (yil == 1952 | yil == 2007)) %>%
select(ulke, yil, yasam_beklentisi) %>%
mutate(yil = as.factor(yil)) #yılı faktör olarak belirtmeyince ggpolt grafiği yılı sürekli değişken gibi gördü. 1950, 1980, 2010 diye üçe böldü y eksenini.
ggplot(ilksonyil, aes(x = yil, y = yasam_beklentisi, fill = yil)) +
geom_col() +
geom_text(aes(label = yasam_beklentisi), color = "black",fontface = "bold" ) +
facet_wrap(~ ulke) +
labs(title = "Bazı Ülkelerin 1952 ve 2007 Yıllarında Yaşam Beklentisi", x = "Yıl", y = "Yaşam Beklentisi (yıl)", fill = "Yıl") +
theme_light()Grafiklere bakıldığında tüm ülkelerin ilk ve son verileri arasında bir artış olduğu görülmektedir. Fakat kıtalar bazındaki artış gibi ülkeler bazında da eşitsizlikler vardır. Tüm ülkerin durumları iyileşmektedir ama eşit seviyede değil. Japonya diğer dört ülkeye kıyasla daha yüksek bir yaşam beklentisiyle başlamış ve diğer ülkelere kıyasla daha yüksek bir yaşam beklentisiyle devam etmektedir. Kenya’nın yaşam beklentisi diğer ülkelere kıyasla daha az artmıştır bu da iyileşmenin eşit olmadığının göstergesidir. En büyük sıçrama Türkiye’de olmuştur. Bu da ülkenin savaştan çıkıp toparlanma süreci içerisindeki şartlarının yaşam beklentisini düşürmesiyle alakalı olabilir.
2007 yılında kıtalara göre yaşam beklentisi dağılımını boxplot ile göstereceğiz.
yasambek_2007 <- gapminder_v1 %>% filter(yil == 2007)
ggplot( yasambek_2007, aes(x = kita, y = yasam_beklentisi, fill = kita)) +
geom_boxplot(alpha = 0.4) + #alpha'da noktadan sonraki sayı değeri arttıkça grafikteki kutucukların opaklığı da artıyor. ben biraz saydam olsun istediğimden .4 yaptım.
labs(title = "2007 Yılında Kıtalara Göre Yaşam Beklentisi Dağılımı", x = "Kıta", y = "Yaşam Beklentisi", fill = "Kıta") +
theme_classic()Grafik 2007 yılında kıtalara göre ortalama yaşam süresi beklentisini göstermektedir. Afrika kıtasına baktığımızda kutu en aşağıda bulunmaktadır yani Afrika’da insanların ortalama yaşam süresi diğer ülkere göre daha azdır. Kutu grafiği geniş, bu da kıta içerisindeki ülkeler arasında belirgin farklar olduğunu gösteriyor. Amerika kıtasına bakıldığında kutu grafiği 70’in üzerinde başlıyor ve kutu dar. Burada çoğu ülkenin ortalama yaşam beklentisi benzer seviyede diyebiliriz. Asya kıtasına bakıldığında ortalama yaşam beklentisi Afrika kıtasındandaha yüksek fakat kutu Afrika’nın grafiği gibi geniş. Asya’da ortalama yaşam beklentisi çok yüksek olan ülkeler olduğu gibi çok düşük olan ülkeler de var. Avrupa kıtasında ortalama yaşam beklentisi genelde 80 yaşa yakın ve ülkeler arası fark çok yok gibi görünüyor. Okyanusya kıtasının ortalama yaşam beklentisi çok tüm kıtalara göre daha yüksek fakat ülke sayısı az olduğu için kutu küçük görünüyor.
gap_2007 <- gapminder_v1 %>% filter(yil == 2007)
ggplot(gap_2007, aes(x = kisi_basi_gdp, y = yasam_beklentisi, color = kita, size = nufus)) +
geom_point() +
geom_vline(xintercept = 10000, linetype = "dashed") + #10 bin doların altında olan ülkeleri göstermek için geom_vline kullandım
labs(title = "2007 Yılında Kişi Başına Gelir ve Yaşam Beklentisi", x = "Kişi Başına Düşen Gelir ($)", y = "Yaşam Beklentisi", color = "Kıta", size = "Nüfus") +
theme_light()Grafikte her ülke bir noktayla gösterilmiş, ülkeler bulunduğu kıtaya göre renklendirilmiş ve nüfusun büyüklüğü de noktaların büyüklüğüyle gösterilmiştir. Grafik 2007 yılında kişi başına düşne yıllık gelir ve ortalama yaşam beklentisini göstermektedir.
Grafiğe bakıldığında kişi başına düşen gelir arttıkça, ortalama yaşam beklentisinin de arrtığı görülmektedir. Ülke ne kadar zenginse, yaşam beklentisi de o kadar artmaktadır diyebiliriz. Yine de bu ilişki doğrusal değil. Mesela benzeer gelir düzeyine sahip iki ülkenin ortalama yaşam beklentileri birbirinden farklı. Bu da sadece gelirin değil, sağlık sistemi, temiz gıdaya erişim, yaşam kalitesi gibi başka faktörlerin de etkili olabileceğini gösteriyor. Noktaların renklerine bakıldığında ise kıtalar arasında ayrışma görüyoruz. Afrika kıtasına ait ülkeler genelde grafiğin sol-alt tarafında düşük gelir ve düşük ortalama yaşam beklentisi ile kümelenmiş. Avrupa ülkelerinin noktaları ve Okyanusya ülkelerinin noktaları genellikle yukarı ve sağ tarafta yüksek gelir ve yüksek ortalama yaşam beklentisi ile kümelenmiş. Asya ve America ise daha geniş bir alana yayılmış durumda, hem orta gelirli ülkeler hem de çok yüksek gelirli ülkeler var. Noktaların boyutlarına yani ülkelerin nüfuslarına baktığımızda ise; Asya’da bulunan çok nüfuslu ülkeler orta alt kısmında bulunmaktadır. Yani dünya nüfusunun büyük bir kısmı hâlâ düşük gelir bandında yaşıyor. Bu da ekonomik eşitsizliğin çok büyük grupları etkilediğini ve bu grupların ortalama yaşam beklentilerinin de düşük olduğunu gösteriyor.
Grafikteki kesikli çizgi 10 bin doların altında kişi başı yıllık geliri olan ülkeleri göstermek için çizilmiştir. Bu çizginin sol tarafında birçok ülke var ve bu ülkelerde yaşam beklentisi daha düşük. Çizginin sağında daha az sayıda ülke var ama neredeyse hepsi daha uzun yaşıyor. Bu da dünyada ekonomik farkların insanların yaşam süresini etkilediğini gösteriyor.