Ekonometri 2 Vize Projesi

İsmael Seid Moussa 2110504522

2024-05-03

(Kaggle Projesi)

Vize Projesi

R ve Studio Yükledim

Rmarkdown Projesi Hazırladım

projemi rmarkdownda hazırladım, ve internet sisteme yükledim

Paketler Nedir

R paketleri, R programlama dilinin temel işlevlerini genişletmek için tasarlanmış bir araç ve kayanaklar kümesidir. Bu paketler işlevler, veri kümesi ve diğer ek materyalleri araya getirir ve belirli bir amaç hizmet etmek üzere paketlenir.Her paket belirli anatik veya hesaplama ihtiyaçlarını karşılamak için özel olarak tasarlanmış bir araç kutus olarak hizmet eder.Bu paketler, çeşitli görevleri verimli ve etkili bir şekilde yerine getirmenizi sağlayarak R’nin makine tarafından kullanılan dişlilerdir.

Paketlerin Önemi: Paketler; İstatistiksel araştırmalarda, veri analizi süreçlerini kolaylaştırarak önemli avantajlar sağlar. Veri temizleme, istatistiksel analiz, modelleme ve grafiksel gösterim gibi aşamalarda paketler kullanılarak işlemler hızlandırılır ve daha etkili bir şekilde gerçekleştirilir. Ayrıca, paketlerin otomatizasyon özellikleri sayesinde zaman tasarrufu elde edilir ve analistlerin daha fazla odaklanmalarına olanak tanır. Çeşitli analitik ihtiyaçlara uyum sağlayabilen esnek yapıları ve geniş kapsamlarıyla paketler bir vazgeçilmez araçlardır.

(Paketlerin Kullanım Nedeni:)

Geniş Fonksiyonellik: Paketler, R’nin temel işlevlerinin ötesinde çeşitli analiz, görselleştirme, veri manipülasyonu ve modelleme işlevlerini içerir. Bu sayede kullanıcılar, karmaşık analizleri ve görselleştirmeleri gerçekleştirmek için gereken araçlara erişebilirler.

Topluluk Katkısı: R topluluğu, her geçen gün yeni ve güncellenmiş paketler geliştiriyor. Bu paketler, farklı disiplinlerdeki uzmanlar tarafından geliştirilmiş ve genellikle açık kaynak kodlu olarak sunulmuştur. Bu, R kullanıcılarının çeşitli analiz ve görselleştirme gereksinimlerini karşılayacak geniş bir seçenek yelpazesi sunar.

Verimlilik ve Hız: Paketler, belirli görevleri gerçekleştirmek için optimize edilmiş işlevler içerir. Bu işlevler, genellikle altta yatan C, C++, veya Fortran gibi daha hızlı dillerde yazılmıştır, bu da R’de yüksek performanslı hesaplamalar yapılmasını sağlar.

Reproducible Research (Tekrarlanabilir Araştırma): R’deki paketler, araştırma sonuçlarının tekrarlanabilirliğini artırabilir. Araştırmacılar, analizlerini ve sonuçlarını başkalarıyla paylaşırken, kullanılan paketlerin versiyon bilgilerini de paylaşabilirler. Bu, başkalarının çalışmalarını yeniden üretmelerini ve sonuçları doğrulamalarını kolaylaştırır.

Eğitim ve Öğrenme: R’deki paketler, istatistik, veri bilimi ve diğer disiplinlerde eğitim ve öğrenme süreçlerini destekler. Birçok paket, öğrencilerin teorik kavramları anlamalarına ve gerçek dünya verileriyle uygulamalı deneyim kazanmalarına yardımcı olur.

Paketlere Nasıl Erişilir ve nasıl kullanır:

R’deki paketlere erişmek ve kullanmak oldukça basittir. İşte adımlar:

Paket Yüklemek: İlk adım, kullanmak istediğiniz paketi yüklemektir. Bu, paketin R ortamına indirilip yüklenmesini sağlar. Genellikle install.packages(“paket_adı”) komutu kullanılır. Örneğin, ggplot2 paketini yüklemek için:install.packages(“ggplot2”)

Paketi Yüklemek: Paketi yükledikten sonra, library() veya require() fonksiyonunu kullanarak paketi yüklemeniz gerekir. Bu, paketteki fonksiyonları ve işlevleri R ortamına tanıtır. Örneğin:paket_adı::fonksiyon_adi() şeklinde kullanabilirsiniz.

##(Beş Tane Paketi Yüklenmesi ve Örneği)

Örnek 1(Dplyr Paketi)

Bir çok veri tabanı göründüğünden daha fazla bilgi içerir. dplyr paketi, gruplar arası farklar, değişken gruplamaları, yeni değişkenler oluşturma ve benzeri işlemleri gerçekleştirerek bu gizli bilginin açığa çıkması için kullanılan R paketlerinden biridir. Bu bölümdeki işlemleri yapmak için aşağıdaki kodları kullanarak dplyr paketini bilgisayarınıza indirdiğinizden ve R oturumuna eklediğinizden emin olunuz.

Temel Özellikleri: Dplyr paketi, veri çerçevelerini (Data frames) seçmek, filtrelemek, düzenlemek, gruplandırmak ve özetlemek için fonksiyonlar içeren bir R paketidir.

**Önemi: Dplyr paketi, R’da veri manipülasyon işlemlerini kolaylaştırır, zamandan tasarruf sağlar ve daha okunabilir kod yazmayı mümkün kılar.

Örnek 2(knitr Paketi)

R programlama dilinde literatür tabanlı programlama ve rapor oluşturma için kullanılan bir pakettir. Yihui Xie tarafından geliştirilmiştir. knitr, R Markdown belgeleri gibi R ve diğer diller arasında entegrasyon sağlayarak dinamik ve tekrarlanabilir raporlar oluşturmayı kolaylaştırır.

**paketinin temel özellikleri şunlardır:

-Dinamik R Kodunun Yürütülmesi: knitr, R Markdown belgeleri içinde yer alan R kodunu otomatik olarak yürütür ve sonuçları belgenin içine yerleştirir. Bu, veri analizi ve görselleştirme işlemlerinin belgelerle entegrasyonunu sağlar.

-Çeşitli Çıkış Biçimleri: knitr, HTML, PDF, Word belgeleri gibi çeşitli çıkış biçimlerine dönüştürülebilen raporlar oluşturabilir. Bu, kullanıcıların ihtiyaçlarına uygun bir şekilde raporlar üretmelerini sağlar.

-Şablonlar ve Stiller: knitr, raporların görünümünü özelleştirmek için şablonlar ve stiller kullanmayı kolaylaştırır. Kullanıcılar, raporların düzenini, yazı tipini, renklerini ve diğer özelliklerini belirleyebilirler.

-Metin ve Grafiklerin Birleştirilmesi: knitr, metin içinde grafiklerin veya tabloların otomatik olarak yerleştirilmesini sağlar. Bu, raporların daha zengin ve anlamlı olmasını sağlar.

Yeniden Çalıştırılabilirlik: knitr, raporların yeniden çalıştırılabilir olmasını sağlar. Bu, veri veya analizdeki değişikliklerin hızlı bir şekilde raporlara yansıtılmasını sağlar.

**Önemi:

Tüm bu nedenlerle, knitr paketi, veri analizi ve araştırmada yaygın olarak kullanılan bir araçtır. Tekrarlanabilirlik, iletişim, dökümantasyon ve hızlı iterasyon gibi önemli ihtiyaçları karşılayarak, analiz sürecini daha etkili hale getirir ve sonuçların daha iyi anlaşılmasını sağlar.

Örnek 3(tdigest Paketi)

paketi, R programlama dilinde yoğunluk tahmini ve diğer istatistiksel işlemler için kullanılan bir pakettir. Bu paket, çeşitli veri dağılımlarının özetlenmesi ve analiz edilmesi için tasarlanmıştır.

**paketinin temel özellikleri şunlardır:

-Yoğunluk Tahmini: T-digest algoritması, veri dağılımının yoğunluğunu etkili bir şekilde tahmin edebilir. Bu, çeşitli istatistiksel analizler ve modelleme işlemleri için kullanılabilir.

-Veri Sıkıştırma ve Özetleme: Büyük veri kümeleri için T-digest, veriyi küçük boyutlu bir özet istatistiğiyle sıkıştırabilir. Bu, veri analizi sürecini hızlandırabilir ve bellek kullanımını azaltabilir.

-Veri Görselleştirme: T-digest algoritması, veri dağılımını özetleyen ve görselleştiren grafikler oluşturmak için kullanılabilir. Bu, veri analizi sonuçlarını daha anlaşılır hale getirebilir.

-Anomalilerin Tespiti: T-digest, veri setlerindeki anomalileri tespit etmek için kullanılabilir. Bu, anormal veri noktalarını belirlemek ve gerektiğinde bunlarla ilgili analizler yapmak için kullanılabilir.

**Önemi:

paketi, büyük veri kümeleri üzerinde hızlı ve etkili yoğunluk tahmini yapmak için güçlü bir araçtır. Bu nedenle, veri analizi, veri sıkıştırma, görselleştirme ve anomalilerin tespiti gibi birçok alanda kullanılabilir.

Örnek 4(Wooldridge Paketi)

“wooldridge” paketi, özellikle ekonometri alanında kullanılan bir R paketidir. Bu paket, Jeffrey M. Wooldridge tarafından geliştirilmiş ve istatistiksel analizler, regresyon modelleri ve ekonometrik metodolojilerle ilgili araçları içermektedir.

**Temel Özellikleri: Ekonometrik modelleme ve tahmine yönelik birçok fonksiyon içeren Wooldridge paketi, doğrusal regresyon, panel veri analizi, zaman serisi analizi ve kesit veri analizi gibi birçok ekonometrik yöntemi kapsar.

**Önemi: Ekonometri ve diğer sosyal bilimlerde araştırma yapanlar için önemli bir araç olan Wooldridge paketi, ekonometrik modellerin kolayca tahmin edilmesini ve analiz edilmesini sağlayarak ekonometrik analizlerde zaman tasarrufu ve verimlilik sağlar.

Örnek 5(Rmarkdown Paketi)

rmarkdown, R programlama dilinde literatür tabanlı programlama ve rapor oluşturma için kullanılan bir pakettir. R Markdown belgeleri, R kodunu ve sonuçlarını içeren zengin metin belgeleridir. R Markdown belgeleri, analiz, sonuçlar ve görselleştirmelerin bir araya getirilmesi için kullanılabilir.

**Temel Özellikleri:

-Dinamik R Kodunun Yürütülmesi: R Markdown belgeleri içindeki R kodu, belge derlenirken otomatik olarak yürütülür. Bu, analiz sonuçlarının belgeye dinamik olarak yerleştirilmesini sağlar.

-Çeşitli Çıkış Biçimleri: R Markdown belgeleri, HTML, PDF, Word belgeleri gibi çeşitli çıkış biçimlerine dönüştürülebilir. Bu, belgelerin farklı platformlarda ve kullanım senaryolarında kullanılmasını sağlar. -Yazı Tipi ve Stil Kontrolü: R Markdown belgeleri, metin biçimlendirme, başlıklandırma, vurgulama ve diğer stil özelliklerini kontrol etmek için Markdown dilini kullanır. Bu, belgelerin görünümünü özelleştirmeyi sağlar. -Grafik Yerleştirme: R Markdown belgeleri, R kodundan oluşturulan grafikleri belge içinde otomatik olarak yerleştirebilir. Bu, analiz sonuçlarını görsel olarak sunmayı kolaylaştırır. -Dinamik Raporlama: R Markdown belgeleri, dinamik raporlama için idealdir. Analizlerin sonuçları ve grafikleri otomatik olarak güncellenir, bu da raporların her zaman güncel ve doğru olmasını sağlar.

öemi rmarkdown paketi, R kullanıcılarının analizlerini belgelemek, raporlamak ve paylaşmak için güçlü bir araç sağlar. Bu paket, tekrarlanabilir araştırma standartlarını destekler ve veri analizi sürecini daha etkili hale getirir. Ayrıca, işbirliği ve iletişim için kullanıcı dostu bir platform sunar.

Enflasyon

Zaten R’a bu paketi yüklemiş olduğumdan tekrar yüklemem gerek yok.Eğer yüklemediyse bu kodu çalıştırabılırım

install.packages(“WDI”)

#bu adım yüklenmiş olan paketi hale getirmek için kullanılır.

library(WDI)

NY.GDP.MKTP.CD :Nominal GSYIH

SP.POP.TOTL :POPULATİON

data_WDI <- WDI(country = "all", indicator = c ("NY.GDP.MKTP.CD","SP.POP.TOTL"), start = 2000)

Str Kodunu anlamak

“str”, genellikle “string” kısaltması olarak kullanılır ve karakter dizisi anlamına gelir. “String”, bir veya daha fazla karakterin bir araya gelmesiyle oluşturulan bir veri türünü ifade eder.

Bir programlama terimi olarak, “str” sıklıkla karakter dizilerini temsil etmek için kullanılır. Örneğin, Python programlama dilinde, “str” bir veri tipidir ve karakter dizilerini ifade eder. Benzer şekilde, diğer birçok programlama dilinde de benzer bir anlam taşır.

“Str” aynı zamanda “structure” (yapı) kelimesinin kısaltması olarak da kullanılabilir. Özellikle bazı programlama dillerinde, örneğin R dilinde, “str” fonksiyonu bir nesnenin yapısını göstermek için kullanılır.

Ancak, kullanılan bağlama bağlı olarak “str” terimi farklı anlamlara gelebilir. Bu nedenle, kullanılan bağlamı belirtmek, “str” teriminin tam anlamını anlamak için önemlidir.

str(data_WDI)
## 'data.frame':    6384 obs. of  6 variables:
##  $ country       : chr  "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
##  $ iso2c         : chr  "AF" "AF" "AF" "AF" ...
##  $ iso3c         : chr  "AFG" "AFG" "AFG" "AFG" ...
##  $ year          : int  2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 ...
##  $ NY.GDP.MKTP.CD: num  NA NA 3.83e+09 4.52e+09 5.22e+09 ...
##   ..- attr(*, "label")= chr "GDP (current US$)"
##  $ SP.POP.TOTL   : num  19542982 19688632 21000256 22645130 23553551 ...
##   ..- attr(*, "label")= chr "Population, total"

**Eplore Paketi

library(explore)
describe_all(data_WDI)
## # A tibble: 6 × 8
##   variable       type     na na_pct unique       min     mean      max
##   <chr>          <chr> <int>  <dbl>  <int>     <dbl>    <dbl>    <dbl>
## 1 country        chr       0    0      266       NA  NA       NA      
## 2 iso2c          chr       0    0      266       NA  NA       NA      
## 3 iso3c          chr       0    0      262       NA  NA       NA      
## 4 year           int       0    0       24     2000   2.01e 3  2.02e 3
## 5 NY.GDP.MKTP.CD dbl     512    8     5833 13964732.  2.11e12  1.01e14
## 6 SP.POP.TOTL    dbl     289    4.5   6047     9609   2.86e 8  7.95e 9

Pipe operatörü %>%

Tidyvers yada Dplyr.

R’deki pipe (%>%), genelikle magrittr paketi ile ilişkilerdirilir ve ardışık olarak birden fazla işlemi birbirine bağlamayı sağlar.Bir işlevin çıktısını sıradaki işleve girdi olarak ileterek kodun okunabilirliğini artırır.

df %>% describe_all() kullanıldığında, %>% operatörü df veri kümesini describe_all() işlevine zincirler ve veri kümesindeki tüm sütnlar için kapsamlı istatistikler oluşturur.

library(dplyr)
## 
## Attachement du package : 'dplyr'
## Les objets suivants sont masqués depuis 'package:stats':
## 
##     filter, lag
## Les objets suivants sont masqués depuis 'package:base':
## 
##     intersect, setdiff, setequal, union
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ readr     2.1.5
## ✔ ggplot2   3.5.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
data_WDI %>% describe_all()
## # A tibble: 6 × 8
##   variable       type     na na_pct unique       min     mean      max
##   <chr>          <chr> <int>  <dbl>  <int>     <dbl>    <dbl>    <dbl>
## 1 country        chr       0    0      266       NA  NA       NA      
## 2 iso2c          chr       0    0      266       NA  NA       NA      
## 3 iso3c          chr       0    0      262       NA  NA       NA      
## 4 year           int       0    0       24     2000   2.01e 3  2.02e 3
## 5 NY.GDP.MKTP.CD dbl     512    8     5833 13964732.  2.11e12  1.01e14
## 6 SP.POP.TOTL    dbl     289    4.5   6047     9609   2.86e 8  7.95e 9
library(tidyverse)
data_WDI %>% describe_all()
## # A tibble: 6 × 8
##   variable       type     na na_pct unique       min     mean      max
##   <chr>          <chr> <int>  <dbl>  <int>     <dbl>    <dbl>    <dbl>
## 1 country        chr       0    0      266       NA  NA       NA      
## 2 iso2c          chr       0    0      266       NA  NA       NA      
## 3 iso3c          chr       0    0      262       NA  NA       NA      
## 4 year           int       0    0       24     2000   2.01e 3  2.02e 3
## 5 NY.GDP.MKTP.CD dbl     512    8     5833 13964732.  2.11e12  1.01e14
## 6 SP.POP.TOTL    dbl     289    4.5   6047     9609   2.86e 8  7.95e 9
ek_bilgi <- WDI_data$country
df <- left_join(data_WDI, ek_bilgi)
## Joining with `by = join_by(country, iso2c, iso3c)`
df <- df %>% filter(region != "Aggregates")
df %>% describe_all()
## # A tibble: 12 × 8
##    variable       type     na na_pct unique       min          mean      max
##    <chr>          <chr> <int>  <dbl>  <int>     <dbl>         <dbl>    <dbl>
##  1 country        chr       0    0      215       NA            NA  NA      
##  2 iso2c          chr       0    0      215       NA            NA  NA      
##  3 iso3c          chr       0    0      215       NA            NA  NA      
##  4 year           int       0    0       24     2000          2012.  2.02e 3
##  5 NY.GDP.MKTP.CD dbl     438    8.5   4723 13964732. 319966608092.  2.54e13
##  6 SP.POP.TOTL    dbl     215    4.2   4943     9609      32268693.  1.42e 9
##  7 region         chr       0    0        7       NA            NA  NA      
##  8 capital        chr       0    0      210       NA            NA  NA      
##  9 longitude      chr       0    0      210       NA            NA  NA      
## 10 latitude       chr       0    0      210       NA            NA  NA      
## 11 income         chr       0    0        5       NA            NA  NA      
## 12 lending        chr       0    0        4       NA            NA  NA
library(dplyr)

kayıp_veri <- df %>%
  group_by(country) %>%
  summarise(kayıp_sayısı = sum(is.na(`NY.GDP.MKTP.CD`), is.na(`SP.POP.TOTL`)), .groups = 'drop')
df <- df%>%
  filter(year>=2008)
library(dplyr)

kayıp_sayısı <- df %>%
  group_by(country) %>%
  summarise(sayı = sum(is.na(`NY.GDP.MKTP.CD`), is.na(`SP.POP.TOTL`)))
df <- left_join(df, kayıp_sayısı)
## Joining with `by = join_by(country)`
df <- df%>% 
  filter(sayı<1)
unique(df$country)
## character(0)

Ülke seçimi ve grafiği

Verilerimizi temizledikten sonra, şimdi bu veri kümesindeki bilgilere dayanarak analizler yapacağız.

İlk olarak, bir ülkeyi seçip o ülkenin yüksek enflasyonu (yüzde olarak imal edilen enflasyon) analiz edeceğiz. Ben seçtiğim ülkeyi Türkiye olarak belirleyeceğim.

df_TR <- df %>% filter(iso2c == "TR")
library(ggplot2)

ggplot(df_TR, aes(x = year, y = `NY.GDP.MKTP.CD`)) + 
  geom_line(color = "blue") + 
  labs(title = "High enflasyon exports (% manufactured exports) in TR") + 
  theme_gray()

library(ggplot2)

veri <- data.frame(
  Ülke = c("ABD", "Çin", "Japonya"),
  GSYIH = c(21.43, 14.34, 5.08)
)

ggplot(veri, aes(x = Ülke, y = GSYIH, fill = Ülke)) +
  geom_bar(stat = "identity") +
  labs(title = "ABD, Çin ve Japonya'nın GSYIH Karşılaştırması",
       x = "Ülke",
       y = "GSYIH (trilyon dolar)") +
  theme_minimal()

Yukarıdaki kod örneği, ggplot2 paketini kullanarak çekilen verileri görselleştirmek için bir grafik oluşturur. Grafik, yıllara göre imalat katma değerini gösteren çizgi grafiklerinden oluşur ve her bir ülkeyi ayrı bir panelde gösterir. Ayrıca, grafikteki bileşenlerin açıklamalarını içeren uygun eksen ve başlık etiketleri de sağlanmıştır.

ggplot2 paketinin sağladığı esneklik ve özelleştirme seçenekleri, verileri etkili bir şekilde görselleştirmek ve anlamak için kullanıcıya geniş bir alan sağlar. Bu paket, veri keşfi ve analizi süreçlerinde önemli bir araçtır ve çeşitli grafik türlerini oluşturmak için yaygın olarak tercih edilir.

library(ggplot2)

veri <- data.frame(
  Ulke = c("çad", "kamerum", "kanada"),
  GSYIH = c(21.43, 14.34, 5.08)
)

ggplot(veri, aes(x = Ulke, y = GSYIH, fill = Ulke)) +
  geom_col() +
  labs(title = "çad, kamerun ve kanada'nın GSYIH Karşılaştırması",
       x = "Ülke",
       y = "GSYIH (trilyon dolar)") +
  theme_minimal()

“NY.GDP.PCAP.KD”

 carbondataı <- WDI(country = "all", indicator = "NY.GDP.PCAP.KD")
describe_all(carbondataı)
## # A tibble: 5 × 8
##   variable       type     na na_pct unique   min   mean     max
##   <chr>          <chr> <int>  <dbl>  <int> <dbl>  <dbl>   <dbl>
## 1 country        chr       0    0      266   NA     NA      NA 
## 2 iso2c          chr       0    0      266   NA     NA      NA 
## 3 iso3c          chr       0    0      262   NA     NA      NA 
## 4 year           int       0    0       64 1960   1992.   2023 
## 5 NY.GDP.PCAP.KD dbl    4190   24.6  12710  123. 10977. 228668.
carbonekbilgi <- left_join(carbondataı, ek_bilgi)
## Joining with `by = join_by(country, iso2c, iso3c)`
carbonekbilgi_sadeceulkeler <- carbonekbilgi %>% filter(region  != "Aggregates")
carbonekbilgi_sadeceulkeler %>% describe_all()
## # A tibble: 11 × 8
##    variable       type     na na_pct unique   min   mean     max
##    <chr>          <chr> <int>  <dbl>  <int> <dbl>  <dbl>   <dbl>
##  1 country        chr       0      0    215   NA     NA      NA 
##  2 iso2c          chr       0      0    215   NA     NA      NA 
##  3 iso3c          chr       0      0    215   NA     NA      NA 
##  4 year           int       0      0     64 1960   1992.   2023 
##  5 NY.GDP.PCAP.KD dbl    3714     27  10047  123. 12131. 228668.
##  6 region         chr       0      0      7   NA     NA      NA 
##  7 capital        chr       0      0    210   NA     NA      NA 
##  8 longitude      chr       0      0    210   NA     NA      NA 
##  9 latitude       chr       0      0    210   NA     NA      NA 
## 10 income         chr       0      0      5   NA     NA      NA 
## 11 lending        chr       0      0      4   NA     NA      NA
str(carbonekbilgi_sadeceulkeler)
## 'data.frame':    13760 obs. of  11 variables:
##  $ country       : chr  "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
##  $ iso2c         : chr  "AF" "AF" "AF" "AF" ...
##  $ iso3c         : chr  "AFG" "AFG" "AFG" "AFG" ...
##  $ year          : int  2023 2022 2021 2020 2019 2018 2017 2016 2015 2014 ...
##  $ NY.GDP.PCAP.KD: num  NA NA 408 529 559 ...
##   ..- attr(*, "label")= chr "GDP per capita (constant 2015 US$)"
##  $ region        : chr  "South Asia" "South Asia" "South Asia" "South Asia" ...
##  $ capital       : chr  "Kabul" "Kabul" "Kabul" "Kabul" ...
##  $ longitude     : chr  "69.1761" "69.1761" "69.1761" "69.1761" ...
##  $ latitude      : chr  "34.5228" "34.5228" "34.5228" "34.5228" ...
##  $ income        : chr  "Low income" "Low income" "Low income" "Low income" ...
##  $ lending       : chr  "IDA" "IDA" "IDA" "IDA" ...
##  - attr(*, "lastupdated")= chr "2024-03-28"
##  - attr(*, "label")= chr [1:17024] "GDP per capita (constant 2015 US$)" "GDP per capita (constant 2015 US$)" "GDP per capita (constant 2015 US$)" "GDP per capita (constant 2015 US$)" ...

veri setindeki farklı ülkelerin listesini alarak, veri setinin hangi coğrafi bölgelerle ilgili olduğunu ve hangi ülkelerin analize dahil edildiğini belirlememize yardımcı olur. Bu bilgi, veri setinin analizini ve yorumunu daha doğru ve kapsamlı hale getirir.

unique(carbonekbilgi_sadeceulkeler$country)
##   [1] "Afghanistan"                    "Albania"                       
##   [3] "Algeria"                        "American Samoa"                
##   [5] "Andorra"                        "Angola"                        
##   [7] "Antigua and Barbuda"            "Argentina"                     
##   [9] "Armenia"                        "Aruba"                         
##  [11] "Australia"                      "Austria"                       
##  [13] "Azerbaijan"                     "Bahamas, The"                  
##  [15] "Bahrain"                        "Bangladesh"                    
##  [17] "Barbados"                       "Belarus"                       
##  [19] "Belgium"                        "Belize"                        
##  [21] "Benin"                          "Bermuda"                       
##  [23] "Bhutan"                         "Bolivia"                       
##  [25] "Bosnia and Herzegovina"         "Botswana"                      
##  [27] "Brazil"                         "British Virgin Islands"        
##  [29] "Brunei Darussalam"              "Bulgaria"                      
##  [31] "Burkina Faso"                   "Burundi"                       
##  [33] "Cabo Verde"                     "Cambodia"                      
##  [35] "Cameroon"                       "Canada"                        
##  [37] "Cayman Islands"                 "Central African Republic"      
##  [39] "Chad"                           "Channel Islands"               
##  [41] "Chile"                          "China"                         
##  [43] "Colombia"                       "Comoros"                       
##  [45] "Congo, Dem. Rep."               "Congo, Rep."                   
##  [47] "Costa Rica"                     "Cote d'Ivoire"                 
##  [49] "Croatia"                        "Cuba"                          
##  [51] "Curacao"                        "Cyprus"                        
##  [53] "Denmark"                        "Djibouti"                      
##  [55] "Dominica"                       "Dominican Republic"            
##  [57] "Ecuador"                        "Egypt, Arab Rep."              
##  [59] "El Salvador"                    "Equatorial Guinea"             
##  [61] "Eritrea"                        "Estonia"                       
##  [63] "Eswatini"                       "Ethiopia"                      
##  [65] "Faroe Islands"                  "Fiji"                          
##  [67] "Finland"                        "France"                        
##  [69] "French Polynesia"               "Gabon"                         
##  [71] "Gambia, The"                    "Georgia"                       
##  [73] "Germany"                        "Ghana"                         
##  [75] "Gibraltar"                      "Greece"                        
##  [77] "Greenland"                      "Grenada"                       
##  [79] "Guam"                           "Guatemala"                     
##  [81] "Guinea"                         "Guinea-Bissau"                 
##  [83] "Guyana"                         "Haiti"                         
##  [85] "Honduras"                       "Hong Kong SAR, China"          
##  [87] "Hungary"                        "Iceland"                       
##  [89] "India"                          "Indonesia"                     
##  [91] "Iran, Islamic Rep."             "Iraq"                          
##  [93] "Ireland"                        "Isle of Man"                   
##  [95] "Israel"                         "Italy"                         
##  [97] "Jamaica"                        "Japan"                         
##  [99] "Jordan"                         "Kazakhstan"                    
## [101] "Kenya"                          "Kiribati"                      
## [103] "Korea, Dem. People's Rep."      "Korea, Rep."                   
## [105] "Kosovo"                         "Kuwait"                        
## [107] "Kyrgyz Republic"                "Lao PDR"                       
## [109] "Latvia"                         "Lebanon"                       
## [111] "Lesotho"                        "Liberia"                       
## [113] "Libya"                          "Liechtenstein"                 
## [115] "Lithuania"                      "Luxembourg"                    
## [117] "Macao SAR, China"               "Madagascar"                    
## [119] "Malawi"                         "Malaysia"                      
## [121] "Maldives"                       "Mali"                          
## [123] "Malta"                          "Marshall Islands"              
## [125] "Mauritania"                     "Mauritius"                     
## [127] "Mexico"                         "Micronesia, Fed. Sts."         
## [129] "Moldova"                        "Monaco"                        
## [131] "Mongolia"                       "Montenegro"                    
## [133] "Morocco"                        "Mozambique"                    
## [135] "Myanmar"                        "Namibia"                       
## [137] "Nauru"                          "Nepal"                         
## [139] "Netherlands"                    "New Caledonia"                 
## [141] "New Zealand"                    "Nicaragua"                     
## [143] "Niger"                          "Nigeria"                       
## [145] "North Macedonia"                "Northern Mariana Islands"      
## [147] "Norway"                         "Oman"                          
## [149] "Pakistan"                       "Palau"                         
## [151] "Panama"                         "Papua New Guinea"              
## [153] "Paraguay"                       "Peru"                          
## [155] "Philippines"                    "Poland"                        
## [157] "Portugal"                       "Puerto Rico"                   
## [159] "Qatar"                          "Romania"                       
## [161] "Russian Federation"             "Rwanda"                        
## [163] "Samoa"                          "San Marino"                    
## [165] "Sao Tome and Principe"          "Saudi Arabia"                  
## [167] "Senegal"                        "Serbia"                        
## [169] "Seychelles"                     "Sierra Leone"                  
## [171] "Singapore"                      "Sint Maarten (Dutch part)"     
## [173] "Slovak Republic"                "Slovenia"                      
## [175] "Solomon Islands"                "Somalia"                       
## [177] "South Africa"                   "South Sudan"                   
## [179] "Spain"                          "Sri Lanka"                     
## [181] "St. Kitts and Nevis"            "St. Lucia"                     
## [183] "St. Martin (French part)"       "St. Vincent and the Grenadines"
## [185] "Sudan"                          "Suriname"                      
## [187] "Sweden"                         "Switzerland"                   
## [189] "Syrian Arab Republic"           "Tajikistan"                    
## [191] "Tanzania"                       "Thailand"                      
## [193] "Timor-Leste"                    "Togo"                          
## [195] "Tonga"                          "Trinidad and Tobago"           
## [197] "Tunisia"                        "Turkiye"                       
## [199] "Turkmenistan"                   "Turks and Caicos Islands"      
## [201] "Tuvalu"                         "Uganda"                        
## [203] "Ukraine"                        "United Arab Emirates"          
## [205] "United Kingdom"                 "United States"                 
## [207] "Uruguay"                        "Uzbekistan"                    
## [209] "Vanuatu"                        "Venezuela, RB"                 
## [211] "Virgin Islands (U.S.)"          "West Bank and Gaza"            
## [213] "Yemen, Rep."                    "Zambia"                        
## [215] "Zimbabwe"

, bu kod eksik verilerin ülkeler arasında nasıl dağıldığını anlamak için kullanılabilir ve eksik veri problemlerini çözmek için veri temizleme ve analiz süreçlerine rehberlik edebilir.

kayıpveri <- carbonekbilgi_sadeceulkeler %>%
  group_by(country) %>%
  summarise(kayıp_sayısı = sum(is.na(NY.GDP.PCAP.KD)))

bu kod, veri çerçevesinden yalnızca 1990 ve sonrası yıllara ait verileri içeren bir alt küme oluşturarak veri analizini belirli bir zaman aralığıyla sınırlamak için kullanılır.

df <- carbonekbilgi_sadeceulkeler %>%
  filter(year>=1990)
df %>% describe_all()
## # A tibble: 11 × 8
##    variable       type     na na_pct unique   min   mean     max
##    <chr>          <chr> <int>  <dbl>  <int> <dbl>  <dbl>   <dbl>
##  1 country        chr       0    0      215   NA     NA      NA 
##  2 iso2c          chr       0    0      215   NA     NA      NA 
##  3 iso3c          chr       0    0      215   NA     NA      NA 
##  4 year           int       0    0       34 1990   2006.   2023 
##  5 NY.GDP.PCAP.KD dbl     891   12.2   6420  166. 14124. 228668.
##  6 region         chr       0    0        7   NA     NA      NA 
##  7 capital        chr       0    0      210   NA     NA      NA 
##  8 longitude      chr       0    0      210   NA     NA      NA 
##  9 latitude       chr       0    0      210   NA     NA      NA 
## 10 income         chr       0    0        5   NA     NA      NA 
## 11 lending        chr       0    0        4   NA     NA      NA

veri çerçevesindeki her bir ülke için NY.GDP.PCAP.KD sütununda bulunan eksik değerlerin sayısını hesaplar. İşte kodun adım adım ne yaptığının açıklaması:

kayıp_sayısı <- df %>% 
  group_by(country) %>%
  summarise(sayi = sum(is.na(NY.GDP.PCAP.KD)))

Bu, eksik veri sayılarını ana veri çerçevesine eklemek, eksik veri sorunlarını daha iyi anlamak ve analiz etmek için oldukça yararlı bir adımdır. Böylece, eksik verilerin ülkelere göre dağılımını görmek ve analiz sonuçlarını bu eksikliklere göre daha sağlam bir şekilde yorumlamak mümkün olur.

df <- left_join(df, kayıp_sayısı)
## Joining with `by = join_by(country)`
df <- df %>% filter(sayi <4)

daha önce belirlenen tarihten önceki verileri koruyarak, analiz için belirli bir zaman aralığını sınırlamaya yardımcı olur. Bu şekilde, analiz yapmak istediğiniz belirli bir zaman dilimine odaklanabilir ve analiz sonuçlarınızı bu zaman dilimiyle sınırlayabilirsiniz.

df <- df %>% filter(year <= 2020)
describe_all(df)
## # A tibble: 12 × 8
##    variable       type     na na_pct unique   min     mean     max
##    <chr>          <chr> <int>  <dbl>  <int> <dbl>    <dbl>   <dbl>
##  1 country        chr       0    0      170   NA     NA        NA 
##  2 iso2c          chr       0    0      170   NA     NA        NA 
##  3 iso3c          chr       0    0      170   NA     NA        NA 
##  4 year           int       0    0       31 1990   2005      2020 
##  5 NY.GDP.PCAP.KD dbl       5    0.1   5266  166. 13490.   191195.
##  6 region         chr       0    0        7   NA     NA        NA 
##  7 capital        chr       0    0      169   NA     NA        NA 
##  8 longitude      chr       0    0      170   NA     NA        NA 
##  9 latitude       chr       0    0      170   NA     NA        NA 
## 10 income         chr       0    0        4   NA     NA        NA 
## 11 lending        chr       0    0        4   NA     NA        NA 
## 12 sayi           int       0    0        3    1      1.07      3

Bu tür istatistiksel özetler, veri setinin dağılımını, merkezi eğilimini ve dağılımın yayılmasını anlamak için önemlidir. Bu bilgi, veri setinin içeriği ve yapısal özellikleri hakkında genel bir fikir sağlar ve daha ileri analiz için temel oluşturabilir.