Herkese Merhaba.Bügünkü vize projemde ele aldığım ve analizini yaptiğim konu “Gelir Adaletsizliği”.Herşeyden önce gelir adaletsizliği nedir? Nasıl ölçülür? Ekonomide nasıl bir etkiye sahip?.
Gelir Adaletsizliği- “Gelir adaletsizliği, bir toplumda gelirin adil olmayan bir şekilde dağıldığı durumu ifade eder. Gelirin adaletsiz bir biçimde dağılması, genellikle gelirin büyük bir kısmının belirli bir azınlık tarafından elde edilmesi veya gelirin büyük bir kısmının toplumun bir kesimi tarafından paylaşılması şeklinde görülür. Gelir adaletsizliğinin ölçümü için çeşitli yöntemler kullanılır, en yaygın olanları Gini katsayısı gibi istatistiksel ölçütlerdir. Ekonomide gelir adaletsizliği genellikle ekonomik büyüme, toplumsal istikrar ve sosyal hareketlilik gibi konularla ilişkilendirilir. Yüksek gelir adaletsizliği, ekonomik büyümenin yavaşlamasına, toplumsal gerilimin artmasına ve sosyal huzursuzluğa neden olabilir.”
Gelir Adaletsizliğini etkileyen faktörler:
Eğitim Seviyesi :Daha yüksek eğitim se viyesine sahip bireyler genellikle daha yüksek gelirlere sahip olma eğilimindedirler.
Vergi Politikaları : Vergi politikaları, gelirin dağılımını etkileyebilir. Örneğin, vergi indirimleri veya sosyal yardım programları gelir eşitsizliğini azaltabilir.
Enflasyon : gelir dağılımını etkileyebilir. Özellikle düşük gelirli gruplar, enflasyonla birlikte artan fiyatlar karşısında daha fazla zorlanabilirler. Bu durumda, gelir eşitsizliği artabilir ve dolayısıyla gelir adaletsizliği daha da derinleşebilir.
Bu projede analizlerimi R programlama dili ile gerçekleştiriyorum.Analize giriş yapmadan önce R programlama nedir? R studio Nedir? Ne işimize yarar Bunlardan bahsetmek istiyorum
R - istatistiksel hesaplamaların yapıldığı ve veri analizinin gerçekleştirildiği bir programlama dili ve çevreleyicidir. İstatistiksel grafiklerin oluşturulması, veri manipülasyonu, modelleme, simülasyon ve daha birçok istatistiksel ve veri analizi işlemi için kullanılır. R, açık kaynaklı bir yazılımdır ve geniş bir kullanıcı topluluğuna sahiptir. Hem akademik araştırmalarda hem de endüstriyel uygulamalarda yaygın olarak kullanılmaktadır. Çeşitli paketlerle genişletilebilir ve istatistiksel hesaplamaların yanı sıra grafiklerin oluşturulması ve raporlama gibi işlemleri kolaylaştırır.
R studio - R programlama dili için entegre bir geliştirme ortamıdır (IDE). Bu yazılım, R dilindeki kodları daha verimli bir şekilde yazmanıza, çalıştırmanıza, izlemenize ve paylaşmanıza olanak tanır. R Studio’nun kullanıcı dostu arayüzü, kodları daha organize bir şekilde yazmanıza ve yönetmenize yardımcı olur. Ayrıca, entegre konsolu sayesinde kodları hızlıca çalıştırabilir ve sonuçları anında görebilirsiniz. Bu yazılım, otomatik tamamlama, sözdizimi vurgulama, kod katlama ve proje yönetimi gibi birçok özellik sunar, bu da R dilindeki analizleri daha kolay ve verimli hale getirir.
Paketler nedir?
Paketler - genellikle belirli bir programlama dilinde kullanılabilen önceden yazılmış kod blokları veya fonksiyon koleksiyonlarıdır. Bu paketler, genellikle belirli bir işlevi gerçekleştirmek veya belirli bir sorunu çözmek için tasarlanmıştır. Programlama dilinin yeteneklerini genişletmek ve tekrar tekrar kullanılan kod parçalarını paylaşılabilir hale getirmek için kullanılırlar.
Paketler Ne işimize yarar?
R programlama dilindeki paketler, kullanıcıların çeşitli analizler, veri işleme, görselleştirme ve diğer işlemleri gerçekleştirmelerine yardımcı olan önceden yazılmış kod parçalarıdır. Bu paketler, istatistiksel analizlerden makine öğrenimine kadar geniş bir yelpazede işlevsellik sunar. Kullanıcılar, ihtiyaçlarına uygun paketleri kullanarak karmaşık analizleri ve işlemleri daha hızlı ve verimli bir şekilde gerçekleştirebilirler.
Paket yükleme :Paketler R’de yüklemek oldukça basittir.Örnek olarak ggplot2 paketini yüklemek istiyorsaniz.install.packages() isimli fonksiyonunun içine yazmaniz yeterli. Örnek:install.packages(ggplot2)
Paket kullanma Paket yükledikten sonra sadece 1 kez onu çağırmaniz yeterli. Çağirmak için library() fonksiyonu bir kez çaliştirmanız yeterli olacaktir. Örnek: library(ggplot2)
ggplot R programlama dilinde veri görselleştirmesi için kullanılan bir pakettir. Bu paket, verileri grafiklerle görsel olarak temsil etmek için kullanılır. ggplot, veri odaklı bir yaklaşımı benimser ve karmaşık grafiklerin oluşturulmasını kolaylaştırır. Bu sayede, verileri daha anlaşılır hale getirebilir ve analiz edebiliriz. ggplot, bar grafikleri, histogramlar, nokta grafikleri, çizgi grafikleri gibi çeşitli grafik türlerini oluşturmak için kullanılabilir. Ayrıca, renk skalaları, etiketler ve tema özelleştirmeleri gibi özelliklerle grafiklerinizi kişiselleştirebilirsiniz. Overall, ggplot, R kullanıcılarının verilerini görsel olarak ifade etmelerini ve analiz etmelerini kolaylaştıran güçlü bir araçtır.
ggplot kullanarak bir örnek:
# ggplot2 paketini yükle
library(ggplot2)
# Veri oluştur
veri <- data.frame(
X = c(1, 2, 3, 4, 5),
Y = c(10, 15, 7, 20, 12)
)
# Nokta grafiğini doğrudan oluştur
ggplot(veri, aes(x = X, y = Y)) +
geom_point()
##### 2.TidyVerse
library(tidyverse)
Tidyverse-R programlama dilinde veri analizi ve manipülasyonu için kullanılan bir koleksiyondur. Tidyverse, dizi işlemleri, veri dönüşümleri, görselleştirme ve veri analizi gibi işlemleri kolaylaştırmak için birçok paketi içerir. Bu paketler arasında dplyr, ggplot2, tidyr, readr ve diğerleri bulunur. Tidyverse, veri bilimi projelerinde verimliliği artırmak ve kodun daha anlaşılır olmasını sağlamak için yaygın olarak tercih edilir.
library(dplyr)
dplyr- R programlama dilinde veri manipülasyonu için kullanılan bir pakettir. Veri analizi süreçlerinde sıkça kullanılan işlemleri kolaylaştıran fonksiyonlar içerir. Bu fonksiyonlar, veri setlerini filtreleme, sıralama, toplama, birleştirme ve dönüştürme gibi işlemleri yapmayı sağlar. dplyr, veri işleme süreçlerini daha hızlı ve etkili bir şekilde gerçekleştirmeye olanak tanır, bu da veri analizindeki iş akışını iyileştirir.
dplyr kütüphanesinin faydalari: Kodun Daha Okunabilir Olması: dplyr işlevleri, veri manipülasyon işlemlerini daha açık ve okunabilir bir şekilde yazmanızı sağlar. Örneğin, veri setlerini filtrelemek için filter() işlevini kullanabilirsiniz:
data <- data.frame(
column1 = c(20, 30, 40, 9, 5),
column2 = c(1, 2, 3, 4, 5))
filtered_data <- filter(data, column1 > 10)
# column1 sütünündaki 10 değerinden büyük değerleri alır ve filtered_data isimli değişkeni saklar
Zengin Fonksiyon Seti: dplyr, birçok kullanışlı fonksiyon içerir. Örneğin, mutate() işlevi yeni sütunlar oluşturmanıza olanak tanır:
mutated_data <- mutate(data, new_column = column1 + column2)
#mutate burada column1 ve column2 sütünlerini toplayarak yeni bir sütün oluşturur
library(explore)
explore paketi, veri keşfi ve analizini kolaylaştırmak için tasarlanmış bir araç setidir ve veri kümenizi daha kapsamlı bir şekilde incelemek ve anlamak için çeşitli işlevler sunar. Başlangıç veri incelemesine ve açıklayıcı istatistiklere yardımcı olmak için yardımcı programlar sunar
En önemli fonksiyonlarından biri describe_all().Bu fonksiyon, veri setinizdeki tüm sayısal ve karakter değişkenler için temel istatistiksel özetlemeleri hesaplar. Örnek:
describe_all(data)
## # A tibble: 2 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 column1 dbl 0 0 5 5 20.8 40
## 2 column2 dbl 0 0 5 1 3 5
library(WDI)
WDİ- R programlama dili için Dünya Bankası tarafından sağlanan Dünya Kalkınma Göstergeleri (World Development Indicators - WDI) veri setlerine erişim sağlayan bir pakettir. Bu paket, çeşitli ekonomik, sosyal ve çevresel göstergeleri içeren geniş veri tabanına erişim sağlar.
WDI veri seti, dünya genelindeki farklı ülkelerin ve bölgelerin çeşitli kalkınma göstergelerini içerir. Örnek göstergeler arasında gayri safi yurt içi hasıla (GSYİH), nüfus, işsizlik oranları, eğitim seviyeleri, sağlık göstergeleri, çevresel veriler ve daha fazlası yer alır.
Veriler nasıl alınır?
https://data.worldbank.org/indicator adresine ziyaret
edin. Oradan 1 gösterge seçin Örnek:Enflasyon Açılan sayfada adres
kısmındaki bu kodu kopyalayın NY.GDP.DEFL.KD.ZG
Aldığımız kodu wdi fonksiyonunun içine yazın. Örnek kod:
ornek <- WDI(country = "all", indicator = "NY.GDP.DEFL.KD.ZG")
Gelir adaletsizliği Nasıl ölçülür?
Genelde Gini katsayisi ile ölçülür
Gini katsayisi- en yaygın kullanılan gelir eşitsizliği ölçüsüdür. Bu ölçüm, bir gelir dağılımının ne kadar eşitsiz olduğunu belirler. 0 ile 1 arasında bir değer alır, 0 tam eşitlik (herkesin aynı gelire sahip olduğu durum) ve 1 tam eşitsizlik (tek bir kişinin tüm gelire sahip olduğu durum) anlamına gelir.
analizimi için 4 farkli göstergeyi interne üzerinden yükledim. Onlar: SI.POV.GINI-Gini katsayisi NY.GDP.DEFL.KD.ZG-enflasyon(gsyh deflatörü) NY.GDP.MKTP.CD- gsyh SP.POP.TOTL- dünya Nüfüsü
Data <- WDI(country = "all", indicator = c("SI.POV.GINI","NY.GDP.DEFL.KD.ZG","NY.GDP.MKTP.CD","SP.POP.TOTL"),start=2010,end = 2019)
describe_all(Data)
## # A tibble: 8 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 266 NA NA NA
## 2 iso2c chr 0 0 266 NA NA NA
## 3 iso3c chr 0 0 262 NA NA NA
## 4 year int 0 0 10 2010 2.01e 3 2.02e 3
## 5 SI.POV.GINI dbl 1847 69.4 261 23.2 3.61e 1 6.34e 1
## 6 NY.GDP.DEFL.KD.ZG dbl 103 3.9 2289 -30.2 4.71e 0 2.25e 2
## 7 NY.GDP.MKTP.CD dbl 76 2.9 2565 32105408. 2.49e12 8.78e13
## 8 SP.POP.TOTL dbl 10 0.4 2630 10241 2.99e 8 7.74e 9
veri setimizde boş değerler(NA) mevcut olduğundan dolayı veriyi temizledim.
Extra_Data <- WDI_data$country
data_extra <- left_join(Data, Extra_Data)
## Joining with `by = join_by(country, iso2c, iso3c)`
data_extra <- data_extra %>% filter(income != "Aggregates")
describe_all(data_extra)
## # A tibble: 14 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 215 NA NA NA
## 2 iso2c chr 0 0 215 NA NA NA
## 3 iso3c chr 0 0 215 NA NA NA
## 4 year int 0 0 10 2010 2.01e 3 2.02e 3
## 5 SI.POV.GINI dbl 1352 62.9 261 23.2 3.62e 1 6.34e 1
## 6 NY.GDP.DEFL.KD.ZG dbl 93 4.3 2058 -30.2 4.92e 0 2.25e 2
## 7 NY.GDP.MKTP.CD dbl 66 3.1 2085 32105408. 3.69e11 2.14e13
## 8 SP.POP.TOTL dbl 0 0 2149 10241 3.36e 7 1.41e 9
## 9 region chr 0 0 7 NA NA NA
## 10 capital chr 0 0 210 NA NA NA
## 11 longitude chr 0 0 210 NA NA NA
## 12 latitude chr 0 0 210 NA NA NA
## 13 income chr 0 0 5 NA NA NA
## 14 lending chr 0 0 4 NA NA NA
eksik_veriler <- data_extra[is.na(data_extra$SI.POV.GINI),]
kayip_degerler <- data_extra %>% group_by(country) %>%
summarise(kayip = sum(is.na(SI.POV.GINI)))
Data <- left_join(data_extra, kayip_degerler)
## Joining with `by = join_by(country)`
Data <- Data %>% filter (kayip < 1)
describe_all(Data)
## # A tibble: 15 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 54 NA NA NA
## 2 iso2c chr 0 0 54 NA NA NA
## 3 iso3c chr 0 0 54 NA NA NA
## 4 year int 0 0 10 2010 2.01e 3 2.02e 3
## 5 SI.POV.GINI dbl 0 0 218 23.2 3.50e 1 5.46e 1
## 6 NY.GDP.DEFL.KD.ZG dbl 0 0 540 -2.89 3.53e 0 7.53e 1
## 7 NY.GDP.MKTP.CD dbl 0 0 540 4794361863. 9.94e11 2.14e13
## 8 SP.POP.TOTL dbl 0 0 540 414508 5.46e 7 1.41e 9
## 9 region chr 0 0 5 NA NA NA
## 10 capital chr 0 0 54 NA NA NA
## 11 longitude chr 0 0 54 NA NA NA
## 12 latitude chr 0 0 54 NA NA NA
## 13 income chr 0 0 3 NA NA NA
## 14 lending chr 0 0 3 NA NA NA
## 15 kayip int 0 0 1 0 0 0
Datamız analiza hazır.
Öncelikle Datadaki en yüksek gini katsayisine sahıp olan ülkeyi bulmak istiyorum.O ülke colombia
colombia <- Data %>% filter(iso2c=="CO")
ggplot(colombia,aes(x=year))+
geom_line(aes(y=SI.POV.GINI),color="green")+
labs(title="2010-2019 arasında kolumbiyada gini katsayisi",y="Gini katsayisi")
2010 de gini katsayisi en yüksek seviyede
ggplot(colombia, aes(x = year)) +
geom_line(aes(y = NY.GDP.DEFL.KD.ZG, color = "Enflasyon")) +
geom_line(aes(y = SI.POV.GINI/10, color = "Gini Katsayısı")) +
labs(title = "Gini Katsayısı ve Enflasyon",
y = "Gini Katsayısı ve Enflasyon") +
scale_color_manual(name = "Gösterge",
values = c("Enflasyon" = "red", "Gini Katsayısı" = "green"))
Özet: “Kolombiya’daki enflasyon oranlarının genellikle %3 ile %5 arasında olması, bu oranın gelir adaletsizliğine yol açmadığını göstermektedir.”
Şimdi enflasyon oranı en yüksek olan ülkeye bakalım Bu ülke: beyaz rusya
belarus <- Data %>% filter(iso2c=="BY")
ggplot(belarus,aes(x=year))+
geom_line(aes(y=SI.POV.GINI),color="green")+
labs(title="2010-2019 arasında Beyaz rusyada gini katsayisi",y="Gini katsayisi")
2010 de gini katsayisi en yüksek seviyede
ggplot(belarus, aes(x = year)) +
geom_line(aes(y = NY.GDP.DEFL.KD.ZG/10, color = "Enflasyon")) +
geom_line(aes(y = SI.POV.GINI/10, color = "Gini Katsayısı")) +
labs(title = "Gini Katsayısı ve Enflasyon",
y = "Gini Katsayısı ve Enflasyon") +
scale_color_manual(name = "Gösterge",
values = c("Enflasyon" = "red", "Gini Katsayısı" = "green"))
Özet: “Veri setinde enflasyon oranlarının yüksek olmasına rağmen Gini katsayısının sabit kalması hatta düşmesi dikkat çekicidir.”
Şimdi ise dünyadaki ülkelerin gini katsayisi ve enflasyon oranlarına bakalım.
data_2011 <- Data %>% filter(year==2011)
ggplot(data_2011, aes(x=NY.GDP.DEFL.KD.ZG, y=SI.POV.GINI, label=iso2c, colour=region)) +
geom_point() +
geom_text()+
labs("Gini katsayısı ve enflasyon(Dünya)",y="Gini katsayisi",x="Enflasyon")
Özet:“Veri setindeki eksik verilerin fazlalığı nedeniyle gerçek ilişki net bir şekilde görülememektedir. Mevcut analizimde, enflasyonun tek başına gelir adaletsizliğine yol açmadığı görülmektedir.”
Bu analizi Verim katsayisi ile gini katsayisi arasında yapalım
Verim Katsayısı nedir?
Verim katsayısı, bir üretim sürecinin ne kadar verimli olduğunu ölçen bir kavramdır. Genellikle verimlilik analizlerinde kullanılır. Bir işletmenin veya bir sürecin verim katsayısı, çıktıyı (output) girdilere (input) oranlayarak hesaplanır.
Burada biz ülkelerin verimlilik katsayisini bulalım burada Çıktılar:Ülkelerin üretimi girdiler ise:Ülkelerin nüfüsü
world_data <- Data %>%
group_by(year) %>%
summarise(dunyanufusu = sum(SP.POP.TOTL),
dunyauretimi= sum(NY.GDP.MKTP.CD),
kisibasina = sum(dunyauretimi/dunyanufusu))
Data <- left_join(Data, world_data, by="year")
Data <- Data %>% mutate(ulkeninuretimorani = (NY.GDP.MKTP.CD )/dunyauretimi,
populyasyonorani = SP.POP.TOTL/dunyanufusu,
verim = ulkeninuretimorani/populyasyonorani)
Ülkelerin verim katsayisi ile Gini katsayisi arasindaki ilişkiye bakalım
data_2018 <- Data %>% filter (year == 2018)
ggplot(data_2018, aes(x=verim, y=SI.POV.GINI, label=iso2c, colour=region)) +
geom_point() +
geom_text()+
labs("Gini katsayısı ve Verim katsayisi",y="Gini katsayisi",x="Verim")+
geom_vline(xintercept = 1)
Özet: “Verim katsayısı 1’den düşük olan ülkeler genellikle verimsiz olarak kabul edilir ve çoğunlukla yüksek Gini katsayılarına sahiptirler. Bu, üretimdeki verimlilik ile gelir adaletsizliği arasında ters bir ilişki olduğunu gösterir. Daha verimsiz ekonomiler genellikle gelir dağılımı açısından daha dengesizdir, çünkü daha az verimli sistemlerde gelir ve servet genellikle belirli bir kesimde yoğunlaşır.”