Ekonomik Büyüme ve İşsizlik Oranı Analizi
Proje Tanıtımı: Ekonomik Büyüme ve İşsizlik Oranı Analizi Bu projede, Dünya Bankası verilerini kullanarak ekonomik büyüme ile işsizlik oranları arasındaki ilişkiyi analiz etmeyi amaçlıyoruz. Ekonomik büyüme, GDP büyüme oranları ile ölçülürken, işsizlik oranı, iş gücünün iş bulmaya çalışan ama iş bulamayan kesimini yansıtır. Bu iki değişken arasındaki etkileşimi anlamak, politika yapıcılar ve ekonomistler için büyük önem taşımaktadır.
Hedefler Veri Temizleme: Veri setini eksik değerlerden ve tutarsızlıklardan arındıracağız. Keşifsel Veri Analizi (EDA): Temel değişkenlerin dağılımı ve ilişkilerini görselleştirerek inceleyeceğiz. Regresyon Analizi: İşsizlik ve GDP büyümesi arasındaki ilişkiyi modellemek için lineer regresyon gerçekleştireceğiz. Sonuçların Görselleştirilmesi: Regresyon analizimizin sonuçlarını görselleştirerek bulgularımızı açık bir şekilde ileteceğiz. Bu proje sonunda, ekonomik büyümenin işsizlik oranları üzerindeki etkisini kapsamlı bir şekilde anlayarak ekonomik politika etkinliği tartışmalarına katkıda bulunmayı umuyoruz.
Adım 1: Dünya Bankası’ndan Veri İndirin Dünya Bankası’ndan veri indirmek için R’deki WDI paketini kullanacağız. İşte verileri yüklemek ve indirmek için R kodu:
# Gerekli kütüphaneleri yükleyelim
library(WDI)
# Veri setini indirme: Ekonomik büyüme (GDP büyüme oranı) ve işsizlik oranı
# Veri yıllarını ve ülkeleri seçebilirsiniz.
data <- WDI(indicator = c("NY.GDP.MKTP.KD.ZG", "SL.UEM.TOTL.ZS"),
country = "all", start = 2000, end = 2022)
# Sütun isimlerini anlamlı hale getirme
colnames(data) <- c("Country", "Country_Code", "Year", "GDP_Growth", "Unemployment_Rate")
# Verinin ilk birkaç satırına göz atalım
head(data)## Country Country_Code Year GDP_Growth Unemployment_Rate NA
## 1 Afghanistan AF AFG 2000 NA 7.955
## 2 Afghanistan AF AFG 2001 -9.431974 7.958
## 3 Afghanistan AF AFG 2002 28.600001 7.939
## 4 Afghanistan AF AFG 2003 8.832278 7.922
## 5 Afghanistan AF AFG 2004 1.414118 7.914
## 6 Afghanistan AF AFG 2005 11.229715 7.914
# Dünya Bankası'ndan veri indirmek için WDI kütüphanesini kullanıyoruz.
# İlgilendiğimiz göstergeler: GDP büyüme oranı ve işsizlik oranı.
# Veri yıllarını 2000 ile 2022 arasında sınırlandırdık.
# İndirdiğimiz veride sütun isimlerini daha anlaşılır hale getirdik.Adım 2: Veri Temizleme Ardından, eksik değerlere sahip satırları kaldırarak veri setini temizleyeceğiz.
# Temizleme öncesi ve sonrası eksik değerlerin sayısını karşılaştıralım
cat("Temizlemeden önceki eksik değer sayısı:\n")## Temizlemeden önceki eksik değer sayısı:
## Country Country_Code Year GDP_Growth
## 0 0 0 0
## Unemployment_Rate NA
## 276 714
# Veri setini temizledikten sonra
clean_data <- na.omit(data)
cat("\nTemizledikten sonraki eksik değer sayısı:\n")##
## Temizledikten sonraki eksik değer sayısı:
## Country Country_Code Year GDP_Growth
## 0 0 0 0
## Unemployment_Rate NA
## 0 0
# Temizlemeden önce ve sonra veri setinin boyutlarını kontrol edelim
cat("\nVeri setinin temizlemeden önceki boyutu:", dim(data), "\n")##
## Veri setinin temizlemeden önceki boyutu: 6118 6
## Veri setinin temizledikten sonraki boyutu: 5285 6
##
## Temizlenmiş veri setinin özeti:
## Country Country_Code Year GDP_Growth
## Length:5285 Length:5285 Length:5285 Min. :2000
## Class :character Class :character Class :character 1st Qu.:2005
## Mode :character Mode :character Mode :character Median :2011
## Mean :2011
## 3rd Qu.:2017
## Max. :2022
## Unemployment_Rate NA
## Min. :-58.318 Min. : 0.100
## 1st Qu.: 1.755 1st Qu.: 4.158
## Median : 3.822 Median : 6.307
## Mean : 3.668 Mean : 7.794
## 3rd Qu.: 5.940 3rd Qu.:10.100
## Max. :153.493 Max. :37.852
# Temizlemeden önce veri setinde bulunan eksik (NA) değerlerin sayısını hesaplıyoruz.
# Eksik değerler temizlendikten sonra kalan eksik değer olup olmadığını kontrol ediyoruz.
# Veri setinin temizlemeden önceki ve sonraki boyutlarını karşılaştırarak ne kadar veri kaybettiğimizi görebiliriz.
# Son olarak, temizlenmiş veri setine ait temel istatistikleri summary() fonksiyonu ile özetliyoruz.Adım 3: Temizlenmiş veri kümesinde bazı keşifsel veri analizi (EDA) görselleştirmeleri gerçekleştirelim. Bu, regresyon analizine geçmeden önce verileri daha iyi anlamamıza yardımcı olacaktır.
# Gerekli kütüphaneleri yükleyelim
library(ggplot2)
library(gridExtra) # Birden fazla grafiği yan yana koymak için
# İşsizlik Oranı ve GDP Büyüme Oranı için histogramlar
hist_unemployment <- ggplot(clean_data, aes(x = Unemployment_Rate)) +
geom_histogram(binwidth = 1, fill = "lightblue", color = "black") +
labs(title = "İşsizlik Oranı Dağılımı", x = "İşsizlik Oranı (%)", y = "Frekans") +
theme_minimal()
hist_gdp <- ggplot(clean_data, aes(x = GDP_Growth)) +
geom_histogram(binwidth = 1, fill = "lightgreen", color = "black") +
labs(title = "GDP Büyüme Oranı Dağılımı", x = "GDP Büyüme Oranı (%)", y = "Frekans") +
theme_minimal()
# Histogramları yan yana gösterelim
grid.arrange(hist_unemployment, hist_gdp, ncol = 2)# İşsizlik oranı ve GDP büyüme oranının dağılımlarını gösteren histogramlar oluşturuyoruz.
# Bu grafikler, verilerin dağılımını anlamamıza yardımcı olur.Adım 4: Regresyon Analizi Şimdi, regresyon analizini çalıştıralım. GSYİH büyümesini bağımlı değişken, işsizlik oranını ise bağımsız değişken olarak modelleyeceğiz.
# Basit regresyon modeli oluşturma
model <- lm(GDP_Growth ~ Unemployment_Rate, data = clean_data)
# Regresyon sonuçlarını inceleme
summary(model)##
## Call:
## lm(formula = GDP_Growth ~ Unemployment_Rate, data = clean_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14.189 -5.468 0.024 5.737 32.968
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2011.56785 0.10758 18698.029 <2e-16 ***
## Unemployment_Rate -0.15333 0.01593 -9.625 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.567 on 5283 degrees of freedom
## Multiple R-squared: 0.01723, Adjusted R-squared: 0.01705
## F-statistic: 92.64 on 1 and 5283 DF, p-value: < 2.2e-16
# GDP büyüme oranı ile işsizlik oranı arasındaki ilişkiyi incelemek için basit bir regresyon modeli oluşturuyoruz.
# Modelin çıktısında katsayılar, p-değerleri ve R-kare sonuçlarına bakıyoruz.Adım 4: regresyon modeli Görselleştirme GSYİH büyümesi ile işsizlik oranı arasındaki ilişkiyi görselleştirmek için, regresyon çizgisine sahip bir dağılım grafiği oluşturabiliriz.
# ggplot2 kütüphanesi ile görselleştirme
library(ggplot2)
# Scatter plot ve regresyon çizgisi
ggplot(clean_data, aes(x = Unemployment_Rate, y = GDP_Growth)) +
geom_point() +
geom_smooth(method = "lm", col = "blue") +
labs(title = "Relationship between GDP Growth and Unemployment Rate",
x = "Unemployment Rate (%)",
y = "GDP Growth (%)")## `geom_smooth()` using formula = 'y ~ x'