veri seti kaynağı: https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016
Verimiz. 1985 ile 2016 arasında ülkelere ait intihar vakalarını içermektedir. Veri setimizdeki değişkenleri kısaca tanıyalım.
değişken ismi: | açıklaması |
---|---|
* country: | Ülke |
* Year: | Yıl |
* sex : | Cinsiyet |
* suicides_no: | Vaka sayısı |
* population: | Popülasyon |
* suicides/100k pop: | İntihar sayısının pöpülasyona oranı |
* country-year: | Ülke ve yıl |
* "HDI for year: | İnsanı gelişmişlik endeksi |
* gdp_for_year ($): | Yıllık Gayri safi yurt içi hasıla |
* gdp_per_capita : | Kişi başına düşen millî gelir |
* generation: | Jenerasyon |
library(knitr)
library(tidyverse)
library(readr)
library(scales)
library(tidyverse)
options(scipen=10000)
intihar <- read_csv("suicide.csv")
Verimizin ne kadar düzeltme manipülasyon işlemine ihtiyacı olup olmadığını, eksik gözlemlere ilişkin durumları. inceleyeceğiz. Temel olarak grafiksel analize geçmeden yapılması gereken manipülasyon işlemler varsa onları doldurarak başlayacağız.
intihar[1:6,]
HDI for year,gdp_per_capita ve gdp_for_year ($) değişkenleri uzun , boşluk ve özel karekterler içeriyor. Bu sütunları tekrardan adlandıralım.Ayrıca Count-year değişkenini silelim
colnames(intihar)<-c("country", "year", "sex",
"age", "suicides_no","population", "suicide_rate",
"country.year", "HDI.for.year", "gdp_for_year",
"gdp_per_capita", "generation")
colnames(intihar)
## [1] "country" "year" "sex" "age"
## [5] "suicides_no" "population" "suicide_rate" "country.year"
## [9] "HDI.for.year" "gdp_for_year" "gdp_per_capita" "generation"
suicide<-intihar
Değişkenlerin e hızlı bir şekilde inceleyelim.
summary(intihar)
## country year sex age
## Length:27820 Min. :1985 Length:27820 Length:27820
## Class :character 1st Qu.:1995 Class :character Class :character
## Mode :character Median :2002 Mode :character Mode :character
## Mean :2001
## 3rd Qu.:2008
## Max. :2016
##
## suicides_no population suicide_rate country.year
## Min. : 0.0 Min. : 278 Min. : 0.00 Length:27820
## 1st Qu.: 3.0 1st Qu.: 97498 1st Qu.: 0.92 Class :character
## Median : 25.0 Median : 430150 Median : 5.99 Mode :character
## Mean : 242.6 Mean : 1844794 Mean : 12.82
## 3rd Qu.: 131.0 3rd Qu.: 1486143 3rd Qu.: 16.62
## Max. :22338.0 Max. :43805214 Max. :224.97
##
## HDI.for.year gdp_for_year gdp_per_capita generation
## Min. :0.483 Min. : 46919625 Min. : 251 Length:27820
## 1st Qu.:0.713 1st Qu.: 8985352832 1st Qu.: 3447 Class :character
## Median :0.779 Median : 48114688201 Median : 9372 Mode :character
## Mean :0.777 Mean : 445580969026 Mean : 16866
## 3rd Qu.:0.855 3rd Qu.: 260202429150 3rd Qu.: 24874
## Max. :0.944 Max. :18120714000000 Max. :126352
## NA's :19456
Verimiz özet bilgileri bu şekilde açıkçası tablo üzeriden yorum yapmak epey zor. ilk gözüme çarpanlar intihar oranlarının maxinumum ile 3. çeyrekliği arasında aşırı farklar olması.dağılımın sola doğru yanlı olabilir bu durumu inceleyebiliriz. Bunun dışında dikkate değer bir durum gözükmemektedir.
Not:intihar oranı=İntihar sayıları/(10^5)popülasyon
Ölüm oranlarının dağılımlarını görebilmek adına bir histogram çizelim.
ggplot(intihar,aes(suicide_rate)) +
geom_histogram(fill="#6666FF", color="#E69F00") +
labs(y="frekans", x="100k'ya karşılık gelen intihar oranı") +
ggtitle("100k'ya karşılık gelen intihar sayılarının dağılımları")+theme_light()
Doğal olarak ölüm intihar oranlarının çoğunlukla düşük olması beklerdik.Çoğu ülkenin 0-100 arasında bulunduğunu anlayabiliriz. Bu duruma ülkelere göre bakalım.
İntihar vakalarını sıralamanın en mantıklı yolu popülasyon’a göre oranlamaktır. Aksi nüfusu 5 milyon olan ülke ile 80 milyon olan ülkeleri toplam değerlerine göre kıyaslamak yanlış sonuca yöneltir.Bu sebeble nüfusların oranlarına göre ilk 25 ülkeyi alalım
intihar %>%
group_by(country) %>% #ülkeye göre gruplar
summarize(country_suicide_rate=sum(suicides_no)*100000/sum(population)) %>%
top_n(25) %>%
#summarize() gruplara göre sütunlar için özet değerler oluşturur.
#top_n() en yüksek değere sahip ilk 25 değeri seçer
ggplot(aes(reorder(country, country_suicide_rate), country_suicide_rate)) +
geom_bar(stat="identity", fill="rosybrown3", color="white") +
coord_flip() +
labs(x="", y="İntihar oranı seviyesi") +
ggtitle("Ülkere göre intihar oranları")
Popülasyon miktarına göre intihar oranı en yüksek milletin litvanya olduğunu görmekteyiz.İlk 25 grup içerisinde türkiye bulunmamaktadır.
Ülkerin nüfuslarına göre intihar oranlarını nokta grafiği ile resmedelim. Bu sayede aşırı farklı sonuçlar veren ülkeri görebiliiriz.
intihar %>% group_by(country, year) %>% #yıllara ve ülkere göre verimiz gruplandı
summarize(pop=mean(population),
suicide_rate=sum(suicides_no)*100000/sum(population)) %>%
#yıllara ve ülkelere göre popülasyonların ortalamaları alındı.
#intihar oranları içinse vaka sayısı*10^5/toplam popülasyon formülü kullanıldı
ungroup() %>% #sadece ülkere göre gruplamak için gruplamayı iptal ediyoruz.
group_by(country) %>%
#tekrardan ülkere göre grupladık
summarize(pop=round(sum(pop),0),
#ülke nüfusunu elde edildi önceden ortalamalar alınarak konulmuştu.
#ondalık değerler slindi
suicide_rate=mean(suicide_rate)) %>% #ortalama intihar oranı bulubdu.
ggplot(aes(suicide_rate, pop)) +
geom_point() +
geom_text(data = . %>% filter(suicide_rate > 35 | pop > 300000000),
#ölüm oranı 35 den büyük veya popülasyonu 4
aes(label = country, col=country),
position="dodge") +
stat_smooth(method = "lm", color = "red", size = 1) +
labs(x="İntihar oranı", y="Popülasyon") +
ggtitle("Popülasyon büyüklüğüne göre ölüm oranlarının değişimi")
Ülke nüfusunun büyüklüğü ve buna karşılık gelen intihar oranı arasında bir tür pozitif doğrusal ilişki olduğu görülmektedir. Litvanya ve ABD, verilerde 2 zıt yönde iki aykırı değer olarak düşünülebilir.litvanyanın hemen arkasından Rusyanın geldiği tekrar görünmektedir.
Verimizde bir çok ülke ile birlikte ülkelerin o yıllara ait verileri bulunmaktadır.Tarihler eşit değilse ülkelerin yıllara göre sayılarında bazı ülkelerin yıllarına ait eksik veriler bulunabilir bu durumu gösterebilmek adına bir çizgi grafiği çizelim.
Görüldüğü üzere 90’larla 2000’ler arasında toplanan veri miktarı artışa geçmiş. verimiz 2016 ya kadar olan verileri içerdiği için 2016 da 0 a inmiş. Açıkçası her zaman eşit dağılmış muntazam bir veri hedeflenir fakat elimizde verilerde süreci değerlendirmeye devam edeceğiz.
" "
Her bir yıl ne kadar intihar vakası oldu? Bu durum stabil midir? yoksa artışlar ve azalışlar oluyor mu? Bu soruları cevaplayabilmek adına ölüm oranlarının senelik durumlarına göre bir çizgi grafiği oluşturalım.
intihar %>% group_by(year) %>%
mutate(suicide_rate=sum(suicides_no)*100000/sum(population)) %>%
ggplot(aes(year, suicide_rate)) +
geom_line(col = "lightblue3",size=2) +
scale_x_continuous(breaks = seq(1985, 2016, 2)) +
theme(axis.text.x = element_text(angle = 45)) +
labs(x="Sene", y="100.000/populasyona düşen intihar oranları") +
ggtitle("Senelere göre intihar oranları")
Grafiği incelediğimizde 90-2000 ler arasında aşırı derecede intihar oranlarının yükseldiği görülmektedir. Bu dönemler arasında bir çeşit intihar furyası olduğu düşünülebilir.
Kişi başına düşen gelirin intihar oranlarına olan etkisini görebilmek adına bir nokta grafiği çizeceğiz. Ardından diğer grafikte zirvede olan ülkeler ile eski sovyet ülkelerini grafikte yerini göstererek yorumlayacağız.
EskiSovyet_ulkeleri<-c( "Estonia", "Latvia", "Lithuania", "Kazakhstan", "Kyrgyzstan", "Tajikistan", "Turkmenistan", "Uzbekistan", "Russian Federation", "Armenia", "Azerbaijan", "Georgia","Ukraine")
#eski sovyet ülkelerini içeren bir vektör oluşturduk
intihar%>% group_by(country) %>% #ülkelere göre gruplayalım.
mutate(suicide_rate=sum(suicides_no)*100000/sum(population),
#intihar oranını hesaplayalım(intihar/toplam popüasyon)
#mutate verilen ifadeye göre yeni bir değişken oluşturur.
gdp_per_capita=mean(gdp_per_capita),
#yıllara göre gysh'nin ortalamasını alalım.
pop=sum(as.numeric(population))) %>%
#popülasyonu toplayalım ve grafiğimizi oluşturalım.
ggplot(aes(gdp_per_capita, suicide_rate)) +
geom_point()+
geom_text(data = . %>% filter(country %in% c("Turkey","United States","Japan","Luxembourg")),
#ölüm oranı 35 den büyük veya popülasyonu 4
aes(label = country, col=country),)+
geom_text(data = . %>% filter(country %in% EskiSovyet_ulkeleri),
#eski vektör ülkelerinin isimlerini yazalım.
aes(label = country) ,col="palevioletred4")+
labs(title ="Kişi başı düşen gelire göre intihar oranları",
x="Kişi Başı net gelir oranı",
y="intihar oranı")
Kişi başına düşenn net gelir ile intihar oranları arasında net bir desen göremiyorum. Her ne kadar gdp nin az olduğu durumlarda intihar oranları daha yüksek olsada aynı kişi başı gelire sahip diğer ülkerde çok daha az intihar oranları görülebilmektedir. İntihar oranlarının eski sovyet ülkelerinde özelinde doğu avrupadakilerde daha yüksek olduğunu görebiliriz. Bir nevi bireylerin sosyal refahı, siyasi havanın intihar oranlarına etkilediğini kesinlikle anlayabilmekteyiz. Buna nazaran Kazakistan hariç diğer asya sovyet ülkerinde intihar oranlarını daha az görmekteyiz.Lüksemburg’un ise aykırı olarak yüksek intihar oranına sahip olduğunu görüyoruz. Bu durumun çok daha farklı sosyalojik sebepleri olabilir. Son olarak Türkiyenin ise oldukça az intihar oranına sahip bir ülke olduğunu görebiliyoruz.
Yaşlanan birinin intihar etme oranı genç birine göre daha mı yüksektir? sorusuna cevap bulalım
intihar %>% group_by(age, country) %>%
summarize(suicide_rate=sum(suicides_no)*100000/sum(population)) %>%
ggplot(aes(age, suicide_rate)) +
geom_boxplot(fill="royalblue4") +
labs(x="Yaş grupları", y="İntihar oranları") +
ggtitle("Yaş gruplarına göre intihar oranları") +
theme(axis.text.x = element_text(angle = 30))
Yaş arttıkça intihar oranları daha da artmaktadır.
abc<-suicide %>% group_by(sex) %>% #cinsiyete göre grupladık
summarize(suicide_rate=sum(suicides_no)*100000/sum(population))
#intihar oranını sütunlara ekledik.
ggplot(abc,aes(x=sex, suicide_rate)) +
geom_histogram(stat="identity",aes(fill=sex)) +scale_fill_brewer(palette = "Set2")+
labs(title = "Cinsiyetlere göre ölüm oranları",
x="Cinsiyet", y="Ölüm oranı(intihar/(pop/10^5))")+
theme_minimal()
Keşifsel veri analizinin sonucunda varmış olduğumuz fikirler:
En yüksek intihar oranına sahip ülke litvanyadır.
2016 yılı en az gözleme sahip olan yıldır..
Erkeklerin intihar oranı kadınlara göre daha yüksektir.
Eski balkan sovyet ülkelerindeki intihar oranları avrupanın diğer ülkerine göre oldukça düşüktür.
En yüksek intihar oranları 90-2000’ler arasında görülmüştür.