Vize Projesi

Herkese Merhaba.Bügünkü vize projemde ele aldığım ve analizini yaptiğim konu “Gelir Adaletsizliği”.Herşeyden önce gelir adaletsizliği nedir? Nasıl ölçülür? Ekonomide nasıl bir etkiye sahip?.

Gelir Adaletsizliği- “Gelir adaletsizliği, bir toplumda gelirin adil olmayan bir şekilde dağıldığı durumu ifade eder. Gelirin adaletsiz bir biçimde dağılması, genellikle gelirin büyük bir kısmının belirli bir azınlık tarafından elde edilmesi veya gelirin büyük bir kısmının toplumun bir kesimi tarafından paylaşılması şeklinde görülür. Gelir adaletsizliğinin ölçümü için çeşitli yöntemler kullanılır, en yaygın olanları Gini katsayısı gibi istatistiksel ölçütlerdir. Ekonomide gelir adaletsizliği genellikle ekonomik büyüme, toplumsal istikrar ve sosyal hareketlilik gibi konularla ilişkilendirilir. Yüksek gelir adaletsizliği, ekonomik büyümenin yavaşlamasına, toplumsal gerilimin artmasına ve sosyal huzursuzluğa neden olabilir.”

Gelir Adaletsizliğini etkileyen faktörler:

Eğitim Seviyesi :Daha yüksek eğitim se viyesine sahip bireyler genellikle daha yüksek gelirlere sahip olma eğilimindedirler.

Vergi Politikaları : Vergi politikaları, gelirin dağılımını etkileyebilir. Örneğin, vergi indirimleri veya sosyal yardım programları gelir eşitsizliğini azaltabilir.

Enflasyon : gelir dağılımını etkileyebilir. Özellikle düşük gelirli gruplar, enflasyonla birlikte artan fiyatlar karşısında daha fazla zorlanabilirler. Bu durumda, gelir eşitsizliği artabilir ve dolayısıyla gelir adaletsizliği daha da derinleşebilir.

Bu projede analizlerimi R programlama dili ile gerçekleştiriyorum.Analize giriş yapmadan önce R programlama nedir? R studio Nedir? Ne işimize yarar Bunlardan bahsetmek istiyorum

R ve R studio

R - istatistiksel hesaplamaların yapıldığı ve veri analizinin gerçekleştirildiği bir programlama dili ve çevreleyicidir. İstatistiksel grafiklerin oluşturulması, veri manipülasyonu, modelleme, simülasyon ve daha birçok istatistiksel ve veri analizi işlemi için kullanılır. R, açık kaynaklı bir yazılımdır ve geniş bir kullanıcı topluluğuna sahiptir. Hem akademik araştırmalarda hem de endüstriyel uygulamalarda yaygın olarak kullanılmaktadır. Çeşitli paketlerle genişletilebilir ve istatistiksel hesaplamaların yanı sıra grafiklerin oluşturulması ve raporlama gibi işlemleri kolaylaştırır.

R studio - R programlama dili için entegre bir geliştirme ortamıdır (IDE). Bu yazılım, R dilindeki kodları daha verimli bir şekilde yazmanıza, çalıştırmanıza, izlemenize ve paylaşmanıza olanak tanır. R Studio’nun kullanıcı dostu arayüzü, kodları daha organize bir şekilde yazmanıza ve yönetmenize yardımcı olur. Ayrıca, entegre konsolu sayesinde kodları hızlıca çalıştırabilir ve sonuçları anında görebilirsiniz. Bu yazılım, otomatik tamamlama, sözdizimi vurgulama, kod katlama ve proje yönetimi gibi birçok özellik sunar, bu da R dilindeki analizleri daha kolay ve verimli hale getirir.

Paketler

Paketler nedir?

Paketler - genellikle belirli bir programlama dilinde kullanılabilen önceden yazılmış kod blokları veya fonksiyon koleksiyonlarıdır. Bu paketler, genellikle belirli bir işlevi gerçekleştirmek veya belirli bir sorunu çözmek için tasarlanmıştır. Programlama dilinin yeteneklerini genişletmek ve tekrar tekrar kullanılan kod parçalarını paylaşılabilir hale getirmek için kullanılırlar.

Paketler Ne işimize yarar?

R programlama dilindeki paketler, kullanıcıların çeşitli analizler, veri işleme, görselleştirme ve diğer işlemleri gerçekleştirmelerine yardımcı olan önceden yazılmış kod parçalarıdır. Bu paketler, istatistiksel analizlerden makine öğrenimine kadar geniş bir yelpazede işlevsellik sunar. Kullanıcılar, ihtiyaçlarına uygun paketleri kullanarak karmaşık analizleri ve işlemleri daha hızlı ve verimli bir şekilde gerçekleştirebilirler.

Paket YÜkleme ve kullanma

Paket yükleme :Paketler R’de yüklemek oldukça basittir.Örnek olarak ggplot2 paketini yüklemek istiyorsaniz.install.packages() isimli fonksiyonunun içine yazmaniz yeterli. Örnek:install.packages(ggplot2)

Paket kullanma Paket yükledikten sonra sadece 1 kez onu çağırmaniz yeterli. Çağirmak için library() fonksiyonu bir kez çaliştirmanız yeterli olacaktir. Örnek: library(ggplot2)

Analizde kullandiğim Paketler

1.ggplot

ggplot R programlama dilinde veri görselleştirmesi için kullanılan bir pakettir. Bu paket, verileri grafiklerle görsel olarak temsil etmek için kullanılır. ggplot, veri odaklı bir yaklaşımı benimser ve karmaşık grafiklerin oluşturulmasını kolaylaştırır. Bu sayede, verileri daha anlaşılır hale getirebilir ve analiz edebiliriz. ggplot, bar grafikleri, histogramlar, nokta grafikleri, çizgi grafikleri gibi çeşitli grafik türlerini oluşturmak için kullanılabilir. Ayrıca, renk skalaları, etiketler ve tema özelleştirmeleri gibi özelliklerle grafiklerinizi kişiselleştirebilirsiniz. Overall, ggplot, R kullanıcılarının verilerini görsel olarak ifade etmelerini ve analiz etmelerini kolaylaştıran güçlü bir araçtır.

ggplot kullanarak bir örnek:

# ggplot2 paketini yükle
library(ggplot2)

# Veri oluştur
veri <- data.frame(
  X = c(1, 2, 3, 4, 5),
  Y = c(10, 15, 7, 20, 12)
)

# Nokta grafiğini doğrudan oluştur
ggplot(veri, aes(x = X, y = Y)) +
  geom_point()

##### 2.TidyVerse

library(tidyverse)

Tidyverse-R programlama dilinde veri analizi ve manipülasyonu için kullanılan bir koleksiyondur. Tidyverse, dizi işlemleri, veri dönüşümleri, görselleştirme ve veri analizi gibi işlemleri kolaylaştırmak için birçok paketi içerir. Bu paketler arasında dplyr, ggplot2, tidyr, readr ve diğerleri bulunur. Tidyverse, veri bilimi projelerinde verimliliği artırmak ve kodun daha anlaşılır olmasını sağlamak için yaygın olarak tercih edilir.

3.dplyr
library(dplyr)

dplyr- R programlama dilinde veri manipülasyonu için kullanılan bir pakettir. Veri analizi süreçlerinde sıkça kullanılan işlemleri kolaylaştıran fonksiyonlar içerir. Bu fonksiyonlar, veri setlerini filtreleme, sıralama, toplama, birleştirme ve dönüştürme gibi işlemleri yapmayı sağlar. dplyr, veri işleme süreçlerini daha hızlı ve etkili bir şekilde gerçekleştirmeye olanak tanır, bu da veri analizindeki iş akışını iyileştirir.

dplyr kütüphanesinin faydalari: Kodun Daha Okunabilir Olması: dplyr işlevleri, veri manipülasyon işlemlerini daha açık ve okunabilir bir şekilde yazmanızı sağlar. Örneğin, veri setlerini filtrelemek için filter() işlevini kullanabilirsiniz:

data <- data.frame(
  column1 = c(20, 30, 40, 9, 5),
  column2 = c(1, 2, 3, 4, 5))


filtered_data <- filter(data, column1 > 10)
# column1 sütünündaki  10 değerinden büyük değerleri alır ve filtered_data isimli değişkeni saklar

Zengin Fonksiyon Seti: dplyr, birçok kullanışlı fonksiyon içerir. Örneğin, mutate() işlevi yeni sütunlar oluşturmanıza olanak tanır:

mutated_data <- mutate(data, new_column = column1 + column2)
#mutate burada column1 ve column2 sütünlerini toplayarak yeni bir sütün oluşturur
4.Explore
library(explore)

explore paketi, veri keşfi ve analizini kolaylaştırmak için tasarlanmış bir araç setidir ve veri kümenizi daha kapsamlı bir şekilde incelemek ve anlamak için çeşitli işlevler sunar. Başlangıç veri incelemesine ve açıklayıcı istatistiklere yardımcı olmak için yardımcı programlar sunar

En önemli fonksiyonlarından biri describe_all().Bu fonksiyon, veri setinizdeki tüm sayısal ve karakter değişkenler için temel istatistiksel özetlemeleri hesaplar. Örnek:

describe_all(data)
## # A tibble: 2 × 8
##   variable type     na na_pct unique   min  mean   max
##   <chr>    <chr> <int>  <dbl>  <int> <dbl> <dbl> <dbl>
## 1 column1  dbl       0      0      5     5  20.8    40
## 2 column2  dbl       0      0      5     1   3       5
5.WDİ Paketi
library(WDI)

WDİ- R programlama dili için Dünya Bankası tarafından sağlanan Dünya Kalkınma Göstergeleri (World Development Indicators - WDI) veri setlerine erişim sağlayan bir pakettir. Bu paket, çeşitli ekonomik, sosyal ve çevresel göstergeleri içeren geniş veri tabanına erişim sağlar.

WDI veri seti, dünya genelindeki farklı ülkelerin ve bölgelerin çeşitli kalkınma göstergelerini içerir. Örnek göstergeler arasında gayri safi yurt içi hasıla (GSYİH), nüfus, işsizlik oranları, eğitim seviyeleri, sağlık göstergeleri, çevresel veriler ve daha fazlası yer alır.

Veriler nasıl alınır?

https://data.worldbank.org/indicator adresine ziyaret edin. Oradan 1 gösterge seçin Örnek:Enflasyon Açılan sayfada adres kısmındaki bu kodu kopyalayın NY.GDP.DEFL.KD.ZG Aldığımız kodu wdi fonksiyonunun içine yazın. Örnek kod:

ornek <- WDI(country = "all", indicator = "NY.GDP.DEFL.KD.ZG")

Verileri ilk bakış

Gelir adaletsizliği Nasıl ölçülür?

Genelde Gini katsayisi ile ölçülür

Gini katsayisi- en yaygın kullanılan gelir eşitsizliği ölçüsüdür. Bu ölçüm, bir gelir dağılımının ne kadar eşitsiz olduğunu belirler. 0 ile 1 arasında bir değer alır, 0 tam eşitlik (herkesin aynı gelire sahip olduğu durum) ve 1 tam eşitsizlik (tek bir kişinin tüm gelire sahip olduğu durum) anlamına gelir.

analizimi için 4 farkli göstergeyi interne üzerinden yükledim. Onlar: SI.POV.GINI-Gini katsayisi NY.GDP.DEFL.KD.ZG-enflasyon(gsyh deflatörü) NY.GDP.MKTP.CD- gsyh SP.POP.TOTL- dünya Nüfüsü

Data <- WDI(country = "all", indicator = c("SI.POV.GINI","NY.GDP.DEFL.KD.ZG","NY.GDP.MKTP.CD","SP.POP.TOTL"),start=2010,end = 2019)
describe_all(Data)
## # A tibble: 8 × 8
##   variable          type     na na_pct unique        min     mean      max
##   <chr>             <chr> <int>  <dbl>  <int>      <dbl>    <dbl>    <dbl>
## 1 country           chr       0    0      266       NA   NA       NA      
## 2 iso2c             chr       0    0      266       NA   NA       NA      
## 3 iso3c             chr       0    0      262       NA   NA       NA      
## 4 year              int       0    0       10     2010    2.01e 3  2.02e 3
## 5 SI.POV.GINI       dbl    1847   69.4    261       23.2  3.61e 1  6.34e 1
## 6 NY.GDP.DEFL.KD.ZG dbl     103    3.9   2289      -30.2  4.71e 0  2.25e 2
## 7 NY.GDP.MKTP.CD    dbl      76    2.9   2565 32105408.   2.49e12  8.78e13
## 8 SP.POP.TOTL       dbl      10    0.4   2630    10241    2.99e 8  7.74e 9

veri setimizde boş değerler(NA) mevcut olduğundan dolayı veriyi temizledim.

Veri ön işleme

Extra_Data <- WDI_data$country
data_extra <-  left_join(Data, Extra_Data)
## Joining with `by = join_by(country, iso2c, iso3c)`
data_extra <- data_extra %>% filter(income != "Aggregates")
describe_all(data_extra)
## # A tibble: 14 × 8
##    variable          type     na na_pct unique        min     mean      max
##    <chr>             <chr> <int>  <dbl>  <int>      <dbl>    <dbl>    <dbl>
##  1 country           chr       0    0      215       NA   NA       NA      
##  2 iso2c             chr       0    0      215       NA   NA       NA      
##  3 iso3c             chr       0    0      215       NA   NA       NA      
##  4 year              int       0    0       10     2010    2.01e 3  2.02e 3
##  5 SI.POV.GINI       dbl    1352   62.9    261       23.2  3.62e 1  6.34e 1
##  6 NY.GDP.DEFL.KD.ZG dbl      93    4.3   2058      -30.2  4.92e 0  2.25e 2
##  7 NY.GDP.MKTP.CD    dbl      66    3.1   2085 32105408.   3.69e11  2.14e13
##  8 SP.POP.TOTL       dbl       0    0     2149    10241    3.36e 7  1.41e 9
##  9 region            chr       0    0        7       NA   NA       NA      
## 10 capital           chr       0    0      210       NA   NA       NA      
## 11 longitude         chr       0    0      210       NA   NA       NA      
## 12 latitude          chr       0    0      210       NA   NA       NA      
## 13 income            chr       0    0        5       NA   NA       NA      
## 14 lending           chr       0    0        4       NA   NA       NA
eksik_veriler <- data_extra[is.na(data_extra$SI.POV.GINI),]
kayip_degerler <- data_extra %>% group_by(country) %>%
  summarise(kayip = sum(is.na(SI.POV.GINI)))
Data <- left_join(data_extra, kayip_degerler)
## Joining with `by = join_by(country)`
Data <- Data %>%  filter (kayip < 1)
describe_all(Data)
## # A tibble: 15 × 8
##    variable          type     na na_pct unique           min     mean      max
##    <chr>             <chr> <int>  <dbl>  <int>         <dbl>    <dbl>    <dbl>
##  1 country           chr       0      0     54         NA    NA       NA      
##  2 iso2c             chr       0      0     54         NA    NA       NA      
##  3 iso3c             chr       0      0     54         NA    NA       NA      
##  4 year              int       0      0     10       2010     2.01e 3  2.02e 3
##  5 SI.POV.GINI       dbl       0      0    218         23.2   3.50e 1  5.46e 1
##  6 NY.GDP.DEFL.KD.ZG dbl       0      0    540         -2.89  3.53e 0  7.53e 1
##  7 NY.GDP.MKTP.CD    dbl       0      0    540 4794361863.    9.94e11  2.14e13
##  8 SP.POP.TOTL       dbl       0      0    540     414508     5.46e 7  1.41e 9
##  9 region            chr       0      0      5         NA    NA       NA      
## 10 capital           chr       0      0     54         NA    NA       NA      
## 11 longitude         chr       0      0     54         NA    NA       NA      
## 12 latitude          chr       0      0     54         NA    NA       NA      
## 13 income            chr       0      0      3         NA    NA       NA      
## 14 lending           chr       0      0      3         NA    NA       NA      
## 15 kayip             int       0      0      1          0     0        0

Datamız analiza hazır.

Analiz

Öncelikle Datadaki en yüksek gini katsayisine sahıp olan ülkeyi bulmak istiyorum.O ülke colombia

colombia <- Data %>% filter(iso2c=="CO")
ggplot(colombia,aes(x=year))+
  geom_line(aes(y=SI.POV.GINI),color="green")+
  labs(title="2010-2019 arasında kolumbiyada gini katsayisi",y="Gini katsayisi")

2010 de gini katsayisi en yüksek seviyede

ggplot(colombia, aes(x = year)) +
  geom_line(aes(y = NY.GDP.DEFL.KD.ZG, color = "Enflasyon")) +
  geom_line(aes(y = SI.POV.GINI/10, color = "Gini Katsayısı")) +
  labs(title = "Gini Katsayısı ve Enflasyon",
       y = "Gini Katsayısı ve Enflasyon") +
  scale_color_manual(name = "Gösterge", 
                     values = c("Enflasyon" = "red", "Gini Katsayısı" = "green"))

Özet: “Kolombiya’daki enflasyon oranlarının genellikle %3 ile %5 arasında olması, bu oranın gelir adaletsizliğine yol açmadığını göstermektedir.”

Şimdi enflasyon oranı en yüksek olan ülkeye bakalım Bu ülke: beyaz rusya

belarus <- Data %>% filter(iso2c=="BY")
ggplot(belarus,aes(x=year))+
  geom_line(aes(y=SI.POV.GINI),color="green")+
  labs(title="2010-2019 arasında Beyaz rusyada gini katsayisi",y="Gini katsayisi")

2010 de gini katsayisi en yüksek seviyede

ggplot(belarus, aes(x = year)) +
  geom_line(aes(y = NY.GDP.DEFL.KD.ZG/10, color = "Enflasyon")) +
  geom_line(aes(y = SI.POV.GINI/10, color = "Gini Katsayısı")) +
  labs(title = "Gini Katsayısı ve Enflasyon",
       y = "Gini Katsayısı ve Enflasyon") +
  scale_color_manual(name = "Gösterge", 
                     values = c("Enflasyon" = "red", "Gini Katsayısı" = "green"))

Özet: “Veri setinde enflasyon oranlarının yüksek olmasına rağmen Gini katsayısının sabit kalması hatta düşmesi dikkat çekicidir.”

Şimdi ise dünyadaki ülkelerin gini katsayisi ve enflasyon oranlarına bakalım.

data_2011 <- Data %>% filter(year==2011)
ggplot(data_2011, aes(x=NY.GDP.DEFL.KD.ZG, y=SI.POV.GINI, label=iso2c, colour=region)) + 
  geom_point() +
  geom_text()+
  labs("Gini katsayısı ve enflasyon(Dünya)",y="Gini katsayisi",x="Enflasyon")

Özet:“Veri setindeki eksik verilerin fazlalığı nedeniyle gerçek ilişki net bir şekilde görülememektedir. Mevcut analizimde, enflasyonun tek başına gelir adaletsizliğine yol açmadığı görülmektedir.”

Analiz 2 (Verim ve Gini)

Bu analizi Verim katsayisi ile gini katsayisi arasında yapalım

Verim Katsayısı nedir?

Verim katsayısı, bir üretim sürecinin ne kadar verimli olduğunu ölçen bir kavramdır. Genellikle verimlilik analizlerinde kullanılır. Bir işletmenin veya bir sürecin verim katsayısı, çıktıyı (output) girdilere (input) oranlayarak hesaplanır.

Burada biz ülkelerin verimlilik katsayisini bulalım burada Çıktılar:Ülkelerin üretimi girdiler ise:Ülkelerin nüfüsü

world_data <- Data %>% 
  group_by(year) %>%
  summarise(dunyanufusu = sum(SP.POP.TOTL),
            dunyauretimi= sum(NY.GDP.MKTP.CD),
            kisibasina = sum(dunyauretimi/dunyanufusu))
Data <- left_join(Data, world_data, by="year")
Data <- Data %>% mutate(ulkeninuretimorani = (NY.GDP.MKTP.CD    )/dunyauretimi,
                        populyasyonorani = SP.POP.TOTL/dunyanufusu,
                        verim = ulkeninuretimorani/populyasyonorani)

Ülkelerin verim katsayisi ile Gini katsayisi arasindaki ilişkiye bakalım

data_2018  <- Data %>% filter (year == 2018)
ggplot(data_2018, aes(x=verim, y=SI.POV.GINI, label=iso2c, colour=region)) + 
  geom_point() +
  geom_text()+
  labs("Gini katsayısı ve Verim katsayisi",y="Gini katsayisi",x="Verim")+
  geom_vline(xintercept = 1)

Özet: “Verim katsayısı 1’den düşük olan ülkeler genellikle verimsiz olarak kabul edilir ve çoğunlukla yüksek Gini katsayılarına sahiptirler. Bu, üretimdeki verimlilik ile gelir adaletsizliği arasında ters bir ilişki olduğunu gösterir. Daha verimsiz ekonomiler genellikle gelir dağılımı açısından daha dengesizdir, çünkü daha az verimli sistemlerde gelir ve servet genellikle belirli bir kesimde yoğunlaşır.”