Ekonomik Büyüme ve İşsizlik Oranı Analizi

Proje Tanıtımı: Ekonomik Büyüme ve İşsizlik Oranı Analizi Bu projede, Dünya Bankası verilerini kullanarak ekonomik büyüme ile işsizlik oranları arasındaki ilişkiyi analiz etmeyi amaçlıyoruz. Ekonomik büyüme, GDP büyüme oranları ile ölçülürken, işsizlik oranı, iş gücünün iş bulmaya çalışan ama iş bulamayan kesimini yansıtır. Bu iki değişken arasındaki etkileşimi anlamak, politika yapıcılar ve ekonomistler için büyük önem taşımaktadır.

Hedefler Veri Temizleme: Veri setini eksik değerlerden ve tutarsızlıklardan arındıracağız. Keşifsel Veri Analizi (EDA): Temel değişkenlerin dağılımı ve ilişkilerini görselleştirerek inceleyeceğiz. Regresyon Analizi: İşsizlik ve GDP büyümesi arasındaki ilişkiyi modellemek için lineer regresyon gerçekleştireceğiz. Sonuçların Görselleştirilmesi: Regresyon analizimizin sonuçlarını görselleştirerek bulgularımızı açık bir şekilde ileteceğiz. Bu proje sonunda, ekonomik büyümenin işsizlik oranları üzerindeki etkisini kapsamlı bir şekilde anlayarak ekonomik politika etkinliği tartışmalarına katkıda bulunmayı umuyoruz.

Adım 1: Dünya Bankası’ndan Veri İndirin Dünya Bankası’ndan veri indirmek için R’deki WDI paketini kullanacağız. İşte verileri yüklemek ve indirmek için R kodu:

# Gerekli kütüphaneleri yükleyelim
library(WDI)

# Veri setini indirme: Ekonomik büyüme (GDP büyüme oranı) ve işsizlik oranı
# Veri yıllarını ve ülkeleri seçebilirsiniz.
data <- WDI(indicator = c("NY.GDP.MKTP.KD.ZG", "SL.UEM.TOTL.ZS"), 
            country = "all", start = 2000, end = 2022)

# Sütun isimlerini anlamlı hale getirme
colnames(data) <- c("Country", "Country_Code", "Year", "GDP_Growth", "Unemployment_Rate")

# Verinin ilk birkaç satırına göz atalım
head(data)

##       Country Country_Code Year GDP_Growth Unemployment_Rate    NA
## 1 Afghanistan           AF  AFG       2000                NA 7.955
## 2 Afghanistan           AF  AFG       2001         -9.431974 7.958
## 3 Afghanistan           AF  AFG       2002         28.600001 7.939
## 4 Afghanistan           AF  AFG       2003          8.832278 7.922
## 5 Afghanistan           AF  AFG       2004          1.414118 7.914
## 6 Afghanistan           AF  AFG       2005         11.229715 7.914

# Dünya Bankası'ndan veri indirmek için WDI kütüphanesini kullanıyoruz.
# İlgilendiğimiz göstergeler: GDP büyüme oranı ve işsizlik oranı.
# Veri yıllarını 2000 ile 2022 arasında sınırlandırdık.
# İndirdiğimiz veride sütun isimlerini daha anlaşılır hale getirdik.

Adım 2: Veri Temizleme Ardından, eksik değerlere sahip satırları kaldırarak veri setini temizleyeceğiz.

# Temizleme öncesi ve sonrası eksik değerlerin sayısını karşılaştıralım
cat("Temizlemeden önceki eksik değer sayısı:\n")

## Temizlemeden önceki eksik değer sayısı:

colSums(is.na(data))

##           Country      Country_Code              Year        GDP_Growth 
##                 0                 0                 0                 0 
## Unemployment_Rate                NA 
##               276               714

# Veri setini temizledikten sonra
clean_data <- na.omit(data)

cat("\nTemizledikten sonraki eksik değer sayısı:\n")

## 
## Temizledikten sonraki eksik değer sayısı:

colSums(is.na(clean_data))

##           Country      Country_Code              Year        GDP_Growth 
##                 0                 0                 0                 0 
## Unemployment_Rate                NA 
##                 0                 0

# Temizlemeden önce ve sonra veri setinin boyutlarını kontrol edelim
cat("\nVeri setinin temizlemeden önceki boyutu:", dim(data), "\n")

## 
## Veri setinin temizlemeden önceki boyutu: 6118 6

cat("Veri setinin temizledikten sonraki boyutu:", dim(clean_data), "\n")

## Veri setinin temizledikten sonraki boyutu: 5285 6

# Temizlenmiş veriyi özetleyelim
cat("\nTemizlenmiş veri setinin özeti:\n")

## 
## Temizlenmiş veri setinin özeti:

summary(clean_data)

##    Country          Country_Code           Year             GDP_Growth  
##  Length:5285        Length:5285        Length:5285        Min.   :2000  
##  Class :character   Class :character   Class :character   1st Qu.:2005  
##  Mode  :character   Mode  :character   Mode  :character   Median :2011  
##                                                           Mean   :2011  
##                                                           3rd Qu.:2017  
##                                                           Max.   :2022  
##  Unemployment_Rate       NA        
##  Min.   :-58.318   Min.   : 0.100  
##  1st Qu.:  1.755   1st Qu.: 4.158  
##  Median :  3.822   Median : 6.307  
##  Mean   :  3.668   Mean   : 7.794  
##  3rd Qu.:  5.940   3rd Qu.:10.100  
##  Max.   :153.493   Max.   :37.852

# Temizlemeden önce veri setinde bulunan eksik (NA) değerlerin sayısını hesaplıyoruz.
# Eksik değerler temizlendikten sonra kalan eksik değer olup olmadığını kontrol ediyoruz.
# Veri setinin temizlemeden önceki ve sonraki boyutlarını karşılaştırarak ne kadar veri kaybettiğimizi görebiliriz.
# Son olarak, temizlenmiş veri setine ait temel istatistikleri summary() fonksiyonu ile özetliyoruz.

Adım 3: Temizlenmiş veri kümesinde bazı keşifsel veri analizi (EDA) görselleştirmeleri gerçekleştirelim. Bu, regresyon analizine geçmeden önce verileri daha iyi anlamamıza yardımcı olacaktır.

# Gerekli kütüphaneleri yükleyelim
library(ggplot2)
library(gridExtra)  # Birden fazla grafiği yan yana koymak için

# İşsizlik Oranı ve GDP Büyüme Oranı için histogramlar
hist_unemployment <- ggplot(clean_data, aes(x = Unemployment_Rate)) +
  geom_histogram(binwidth = 1, fill = "lightblue", color = "black") +
  labs(title = "İşsizlik Oranı Dağılımı", x = "İşsizlik Oranı (%)", y = "Frekans") +
  theme_minimal()

hist_gdp <- ggplot(clean_data, aes(x = GDP_Growth)) +
  geom_histogram(binwidth = 1, fill = "lightgreen", color = "black") +
  labs(title = "GDP Büyüme Oranı Dağılımı", x = "GDP Büyüme Oranı (%)", y = "Frekans") +
  theme_minimal()

# Histogramları yan yana gösterelim
grid.arrange(hist_unemployment, hist_gdp, ncol = 2)

# İşsizlik oranı ve GDP büyüme oranının dağılımlarını gösteren histogramlar oluşturuyoruz.
# Bu grafikler, verilerin dağılımını anlamamıza yardımcı olur.

Adım 4: Regresyon Analizi Şimdi, regresyon analizini çalıştıralım. GSYİH büyümesini bağımlı değişken, işsizlik oranını ise bağımsız değişken olarak modelleyeceğiz.

# Basit regresyon modeli oluşturma
model <- lm(GDP_Growth ~ Unemployment_Rate, data = clean_data)


# Regresyon sonuçlarını inceleme
summary(model)

## 
## Call:
## lm(formula = GDP_Growth ~ Unemployment_Rate, data = clean_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -14.189  -5.468   0.024   5.737  32.968 
## 
## Coefficients:
##                     Estimate Std. Error   t value Pr(>|t|)    
## (Intercept)       2011.56785    0.10758 18698.029   <2e-16 ***
## Unemployment_Rate   -0.15333    0.01593    -9.625   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.567 on 5283 degrees of freedom
## Multiple R-squared:  0.01723,    Adjusted R-squared:  0.01705 
## F-statistic: 92.64 on 1 and 5283 DF,  p-value: < 2.2e-16

# GDP büyüme oranı ile işsizlik oranı arasındaki ilişkiyi incelemek için basit bir regresyon modeli oluşturuyoruz.
# Modelin çıktısında katsayılar, p-değerleri ve R-kare sonuçlarına bakıyoruz.

Adım 4: regresyon modeli Görselleştirme GSYİH büyümesi ile işsizlik oranı arasındaki ilişkiyi görselleştirmek için, regresyon çizgisine sahip bir dağılım grafiği oluşturabiliriz.

# ggplot2 kütüphanesi ile görselleştirme
library(ggplot2)

# Scatter plot ve regresyon çizgisi
ggplot(clean_data, aes(x = Unemployment_Rate, y = GDP_Growth)) +
  geom_point() +
  geom_smooth(method = "lm", col = "blue") +
  labs(title = "Relationship between GDP Growth and Unemployment Rate",
       x = "Unemployment Rate (%)", 
       y = "GDP Growth (%)")

## `geom_smooth()` using formula = 'y ~ x'