(Kaggle Projesi)
Vize Projesi
R ve Studio Yükledim
Rmarkdown Projesi Hazırladım
projemi rmarkdownda hazırladım, ve internet sisteme yükledim
Paketler Nedir
R paketleri, R programlama dilinin temel işlevlerini genişletmek için tasarlanmış bir araç ve kayanaklar kümesidir. Bu paketler işlevler, veri kümesi ve diğer ek materyalleri araya getirir ve belirli bir amaç hizmet etmek üzere paketlenir.Her paket belirli anatik veya hesaplama ihtiyaçlarını karşılamak için özel olarak tasarlanmış bir araç kutus olarak hizmet eder.Bu paketler, çeşitli görevleri verimli ve etkili bir şekilde yerine getirmenizi sağlayarak R’nin makine tarafından kullanılan dişlilerdir.
Paketlerin Önemi: Paketler; İstatistiksel araştırmalarda, veri analizi süreçlerini kolaylaştırarak önemli avantajlar sağlar. Veri temizleme, istatistiksel analiz, modelleme ve grafiksel gösterim gibi aşamalarda paketler kullanılarak işlemler hızlandırılır ve daha etkili bir şekilde gerçekleştirilir. Ayrıca, paketlerin otomatizasyon özellikleri sayesinde zaman tasarrufu elde edilir ve analistlerin daha fazla odaklanmalarına olanak tanır. Çeşitli analitik ihtiyaçlara uyum sağlayabilen esnek yapıları ve geniş kapsamlarıyla paketler bir vazgeçilmez araçlardır.
(Paketlerin Kullanım Nedeni:)
Geniş Fonksiyonellik: Paketler, R’nin temel işlevlerinin ötesinde çeşitli analiz, görselleştirme, veri manipülasyonu ve modelleme işlevlerini içerir. Bu sayede kullanıcılar, karmaşık analizleri ve görselleştirmeleri gerçekleştirmek için gereken araçlara erişebilirler.
Topluluk Katkısı: R topluluğu, her geçen gün yeni ve güncellenmiş paketler geliştiriyor. Bu paketler, farklı disiplinlerdeki uzmanlar tarafından geliştirilmiş ve genellikle açık kaynak kodlu olarak sunulmuştur. Bu, R kullanıcılarının çeşitli analiz ve görselleştirme gereksinimlerini karşılayacak geniş bir seçenek yelpazesi sunar.
Verimlilik ve Hız: Paketler, belirli görevleri gerçekleştirmek için optimize edilmiş işlevler içerir. Bu işlevler, genellikle altta yatan C, C++, veya Fortran gibi daha hızlı dillerde yazılmıştır, bu da R’de yüksek performanslı hesaplamalar yapılmasını sağlar.
Reproducible Research (Tekrarlanabilir Araştırma): R’deki paketler, araştırma sonuçlarının tekrarlanabilirliğini artırabilir. Araştırmacılar, analizlerini ve sonuçlarını başkalarıyla paylaşırken, kullanılan paketlerin versiyon bilgilerini de paylaşabilirler. Bu, başkalarının çalışmalarını yeniden üretmelerini ve sonuçları doğrulamalarını kolaylaştırır.
Eğitim ve Öğrenme: R’deki paketler, istatistik, veri bilimi ve diğer disiplinlerde eğitim ve öğrenme süreçlerini destekler. Birçok paket, öğrencilerin teorik kavramları anlamalarına ve gerçek dünya verileriyle uygulamalı deneyim kazanmalarına yardımcı olur.
Paketlere Nasıl Erişilir ve nasıl kullanır:
R’deki paketlere erişmek ve kullanmak oldukça basittir. İşte adımlar:
Paket Yüklemek: İlk adım, kullanmak istediğiniz paketi yüklemektir. Bu, paketin R ortamına indirilip yüklenmesini sağlar. Genellikle install.packages(“paket_adı”) komutu kullanılır. Örneğin, ggplot2 paketini yüklemek için:install.packages(“ggplot2”)
Paketi Yüklemek: Paketi yükledikten sonra, library() veya require() fonksiyonunu kullanarak paketi yüklemeniz gerekir. Bu, paketteki fonksiyonları ve işlevleri R ortamına tanıtır. Örneğin:paket_adı::fonksiyon_adi() şeklinde kullanabilirsiniz.
##(Beş Tane Paketi Yüklenmesi ve Örneği)
Örnek 1(Dplyr Paketi)
Bir çok veri tabanı göründüğünden daha fazla bilgi içerir. dplyr paketi, gruplar arası farklar, değişken gruplamaları, yeni değişkenler oluşturma ve benzeri işlemleri gerçekleştirerek bu gizli bilginin açığa çıkması için kullanılan R paketlerinden biridir. Bu bölümdeki işlemleri yapmak için aşağıdaki kodları kullanarak dplyr paketini bilgisayarınıza indirdiğinizden ve R oturumuna eklediğinizden emin olunuz.
Temel Özellikleri: Dplyr paketi, veri çerçevelerini (Data frames) seçmek, filtrelemek, düzenlemek, gruplandırmak ve özetlemek için fonksiyonlar içeren bir R paketidir.
**Önemi: Dplyr paketi, R’da veri manipülasyon işlemlerini kolaylaştırır, zamandan tasarruf sağlar ve daha okunabilir kod yazmayı mümkün kılar.
Örnek 2(knitr Paketi)
R programlama dilinde literatür tabanlı programlama ve rapor oluşturma için kullanılan bir pakettir. Yihui Xie tarafından geliştirilmiştir. knitr, R Markdown belgeleri gibi R ve diğer diller arasında entegrasyon sağlayarak dinamik ve tekrarlanabilir raporlar oluşturmayı kolaylaştırır.
**paketinin temel özellikleri şunlardır:
-Dinamik R Kodunun Yürütülmesi: knitr, R Markdown belgeleri içinde yer alan R kodunu otomatik olarak yürütür ve sonuçları belgenin içine yerleştirir. Bu, veri analizi ve görselleştirme işlemlerinin belgelerle entegrasyonunu sağlar.
-Çeşitli Çıkış Biçimleri: knitr, HTML, PDF, Word belgeleri gibi çeşitli çıkış biçimlerine dönüştürülebilen raporlar oluşturabilir. Bu, kullanıcıların ihtiyaçlarına uygun bir şekilde raporlar üretmelerini sağlar.
-Şablonlar ve Stiller: knitr, raporların görünümünü özelleştirmek için şablonlar ve stiller kullanmayı kolaylaştırır. Kullanıcılar, raporların düzenini, yazı tipini, renklerini ve diğer özelliklerini belirleyebilirler.
-Metin ve Grafiklerin Birleştirilmesi: knitr, metin içinde grafiklerin veya tabloların otomatik olarak yerleştirilmesini sağlar. Bu, raporların daha zengin ve anlamlı olmasını sağlar.
Yeniden Çalıştırılabilirlik: knitr, raporların yeniden çalıştırılabilir olmasını sağlar. Bu, veri veya analizdeki değişikliklerin hızlı bir şekilde raporlara yansıtılmasını sağlar.
**Önemi:
Tüm bu nedenlerle, knitr paketi, veri analizi ve araştırmada yaygın olarak kullanılan bir araçtır. Tekrarlanabilirlik, iletişim, dökümantasyon ve hızlı iterasyon gibi önemli ihtiyaçları karşılayarak, analiz sürecini daha etkili hale getirir ve sonuçların daha iyi anlaşılmasını sağlar.
Örnek 3(tdigest Paketi)
paketi, R programlama dilinde yoğunluk tahmini ve diğer istatistiksel işlemler için kullanılan bir pakettir. Bu paket, çeşitli veri dağılımlarının özetlenmesi ve analiz edilmesi için tasarlanmıştır.
**paketinin temel özellikleri şunlardır:
-Yoğunluk Tahmini: T-digest algoritması, veri dağılımının yoğunluğunu etkili bir şekilde tahmin edebilir. Bu, çeşitli istatistiksel analizler ve modelleme işlemleri için kullanılabilir.
-Veri Sıkıştırma ve Özetleme: Büyük veri kümeleri için T-digest, veriyi küçük boyutlu bir özet istatistiğiyle sıkıştırabilir. Bu, veri analizi sürecini hızlandırabilir ve bellek kullanımını azaltabilir.
-Veri Görselleştirme: T-digest algoritması, veri dağılımını özetleyen ve görselleştiren grafikler oluşturmak için kullanılabilir. Bu, veri analizi sonuçlarını daha anlaşılır hale getirebilir.
-Anomalilerin Tespiti: T-digest, veri setlerindeki anomalileri tespit etmek için kullanılabilir. Bu, anormal veri noktalarını belirlemek ve gerektiğinde bunlarla ilgili analizler yapmak için kullanılabilir.
**Önemi:
paketi, büyük veri kümeleri üzerinde hızlı ve etkili yoğunluk tahmini yapmak için güçlü bir araçtır. Bu nedenle, veri analizi, veri sıkıştırma, görselleştirme ve anomalilerin tespiti gibi birçok alanda kullanılabilir.
Örnek 4(Wooldridge Paketi)
“wooldridge” paketi, özellikle ekonometri alanında kullanılan bir R paketidir. Bu paket, Jeffrey M. Wooldridge tarafından geliştirilmiş ve istatistiksel analizler, regresyon modelleri ve ekonometrik metodolojilerle ilgili araçları içermektedir.
**Temel Özellikleri: Ekonometrik modelleme ve tahmine yönelik birçok fonksiyon içeren Wooldridge paketi, doğrusal regresyon, panel veri analizi, zaman serisi analizi ve kesit veri analizi gibi birçok ekonometrik yöntemi kapsar.
**Önemi: Ekonometri ve diğer sosyal bilimlerde araştırma yapanlar için önemli bir araç olan Wooldridge paketi, ekonometrik modellerin kolayca tahmin edilmesini ve analiz edilmesini sağlayarak ekonometrik analizlerde zaman tasarrufu ve verimlilik sağlar.
Örnek 5(Rmarkdown Paketi)
rmarkdown, R programlama dilinde literatür tabanlı programlama ve rapor oluşturma için kullanılan bir pakettir. R Markdown belgeleri, R kodunu ve sonuçlarını içeren zengin metin belgeleridir. R Markdown belgeleri, analiz, sonuçlar ve görselleştirmelerin bir araya getirilmesi için kullanılabilir.
**Temel Özellikleri:
-Dinamik R Kodunun Yürütülmesi: R Markdown belgeleri içindeki R kodu, belge derlenirken otomatik olarak yürütülür. Bu, analiz sonuçlarının belgeye dinamik olarak yerleştirilmesini sağlar.
-Çeşitli Çıkış Biçimleri: R Markdown belgeleri, HTML, PDF, Word belgeleri gibi çeşitli çıkış biçimlerine dönüştürülebilir. Bu, belgelerin farklı platformlarda ve kullanım senaryolarında kullanılmasını sağlar. -Yazı Tipi ve Stil Kontrolü: R Markdown belgeleri, metin biçimlendirme, başlıklandırma, vurgulama ve diğer stil özelliklerini kontrol etmek için Markdown dilini kullanır. Bu, belgelerin görünümünü özelleştirmeyi sağlar. -Grafik Yerleştirme: R Markdown belgeleri, R kodundan oluşturulan grafikleri belge içinde otomatik olarak yerleştirebilir. Bu, analiz sonuçlarını görsel olarak sunmayı kolaylaştırır. -Dinamik Raporlama: R Markdown belgeleri, dinamik raporlama için idealdir. Analizlerin sonuçları ve grafikleri otomatik olarak güncellenir, bu da raporların her zaman güncel ve doğru olmasını sağlar.
öemi rmarkdown paketi, R kullanıcılarının analizlerini belgelemek, raporlamak ve paylaşmak için güçlü bir araç sağlar. Bu paket, tekrarlanabilir araştırma standartlarını destekler ve veri analizi sürecini daha etkili hale getirir. Ayrıca, işbirliği ve iletişim için kullanıcı dostu bir platform sunar.
Enflasyon
Zaten R’a bu paketi yüklemiş olduğumdan tekrar yüklemem gerek yok.Eğer yüklemediyse bu kodu çalıştırabılırım
install.packages(“WDI”)
#bu adım yüklenmiş olan paketi hale getirmek için kullanılır.
NY.GDP.MKTP.CD :Nominal GSYIH
SP.POP.TOTL :POPULATİON
Str Kodunu anlamak
“str”, genellikle “string” kısaltması olarak kullanılır ve karakter dizisi anlamına gelir. “String”, bir veya daha fazla karakterin bir araya gelmesiyle oluşturulan bir veri türünü ifade eder.
Bir programlama terimi olarak, “str” sıklıkla karakter dizilerini temsil etmek için kullanılır. Örneğin, Python programlama dilinde, “str” bir veri tipidir ve karakter dizilerini ifade eder. Benzer şekilde, diğer birçok programlama dilinde de benzer bir anlam taşır.
“Str” aynı zamanda “structure” (yapı) kelimesinin kısaltması olarak da kullanılabilir. Özellikle bazı programlama dillerinde, örneğin R dilinde, “str” fonksiyonu bir nesnenin yapısını göstermek için kullanılır.
Ancak, kullanılan bağlama bağlı olarak “str” terimi farklı anlamlara gelebilir. Bu nedenle, kullanılan bağlamı belirtmek, “str” teriminin tam anlamını anlamak için önemlidir.
## 'data.frame': 6384 obs. of 6 variables:
## $ country : chr "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ iso2c : chr "AF" "AF" "AF" "AF" ...
## $ iso3c : chr "AFG" "AFG" "AFG" "AFG" ...
## $ year : int 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 ...
## $ NY.GDP.MKTP.CD: num NA NA 3.83e+09 4.52e+09 5.22e+09 ...
## ..- attr(*, "label")= chr "GDP (current US$)"
## $ SP.POP.TOTL : num 19542982 19688632 21000256 22645130 23553551 ...
## ..- attr(*, "label")= chr "Population, total"
**Eplore Paketi
## # A tibble: 6 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 266 NA NA NA
## 2 iso2c chr 0 0 266 NA NA NA
## 3 iso3c chr 0 0 262 NA NA NA
## 4 year int 0 0 24 2000 2.01e 3 2.02e 3
## 5 NY.GDP.MKTP.CD dbl 512 8 5833 13964732. 2.11e12 1.01e14
## 6 SP.POP.TOTL dbl 289 4.5 6047 9609 2.86e 8 7.95e 9
Pipe operatörü %>%
Tidyvers yada Dplyr.
R’deki pipe (%>%), genelikle magrittr paketi ile ilişkilerdirilir ve ardışık olarak birden fazla işlemi birbirine bağlamayı sağlar.Bir işlevin çıktısını sıradaki işleve girdi olarak ileterek kodun okunabilirliğini artırır.
df %>% describe_all() kullanıldığında, %>% operatörü df veri kümesini describe_all() işlevine zincirler ve veri kümesindeki tüm sütnlar için kapsamlı istatistikler oluşturur.
##
## Attachement du package : 'dplyr'
## Les objets suivants sont masqués depuis 'package:stats':
##
## filter, lag
## Les objets suivants sont masqués depuis 'package:base':
##
## intersect, setdiff, setequal, union
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ readr 2.1.5
## ✔ ggplot2 3.5.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## # A tibble: 6 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 266 NA NA NA
## 2 iso2c chr 0 0 266 NA NA NA
## 3 iso3c chr 0 0 262 NA NA NA
## 4 year int 0 0 24 2000 2.01e 3 2.02e 3
## 5 NY.GDP.MKTP.CD dbl 512 8 5833 13964732. 2.11e12 1.01e14
## 6 SP.POP.TOTL dbl 289 4.5 6047 9609 2.86e 8 7.95e 9
## # A tibble: 6 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 266 NA NA NA
## 2 iso2c chr 0 0 266 NA NA NA
## 3 iso3c chr 0 0 262 NA NA NA
## 4 year int 0 0 24 2000 2.01e 3 2.02e 3
## 5 NY.GDP.MKTP.CD dbl 512 8 5833 13964732. 2.11e12 1.01e14
## 6 SP.POP.TOTL dbl 289 4.5 6047 9609 2.86e 8 7.95e 9
## Joining with `by = join_by(country, iso2c, iso3c)`
## # A tibble: 12 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 215 NA NA NA
## 2 iso2c chr 0 0 215 NA NA NA
## 3 iso3c chr 0 0 215 NA NA NA
## 4 year int 0 0 24 2000 2012. 2.02e 3
## 5 NY.GDP.MKTP.CD dbl 438 8.5 4723 13964732. 319966608092. 2.54e13
## 6 SP.POP.TOTL dbl 215 4.2 4943 9609 32268693. 1.42e 9
## 7 region chr 0 0 7 NA NA NA
## 8 capital chr 0 0 210 NA NA NA
## 9 longitude chr 0 0 210 NA NA NA
## 10 latitude chr 0 0 210 NA NA NA
## 11 income chr 0 0 5 NA NA NA
## 12 lending chr 0 0 4 NA NA NA
library(dplyr)
kayıp_veri <- df %>%
group_by(country) %>%
summarise(kayıp_sayısı = sum(is.na(`NY.GDP.MKTP.CD`), is.na(`SP.POP.TOTL`)), .groups = 'drop')library(dplyr)
kayıp_sayısı <- df %>%
group_by(country) %>%
summarise(sayı = sum(is.na(`NY.GDP.MKTP.CD`), is.na(`SP.POP.TOTL`)))## Joining with `by = join_by(country)`
## character(0)
Ülke seçimi ve grafiği
Verilerimizi temizledikten sonra, şimdi bu veri kümesindeki bilgilere dayanarak analizler yapacağız.
İlk olarak, bir ülkeyi seçip o ülkenin yüksek enflasyonu (yüzde olarak imal edilen enflasyon) analiz edeceğiz. Ben seçtiğim ülkeyi Türkiye olarak belirleyeceğim.
library(ggplot2)
ggplot(df_TR, aes(x = year, y = `NY.GDP.MKTP.CD`)) +
geom_line(color = "blue") +
labs(title = "High enflasyon exports (% manufactured exports) in TR") +
theme_gray()library(ggplot2)
veri <- data.frame(
Ülke = c("ABD", "Çin", "Japonya"),
GSYIH = c(21.43, 14.34, 5.08)
)
ggplot(veri, aes(x = Ülke, y = GSYIH, fill = Ülke)) +
geom_bar(stat = "identity") +
labs(title = "ABD, Çin ve Japonya'nın GSYIH Karşılaştırması",
x = "Ülke",
y = "GSYIH (trilyon dolar)") +
theme_minimal()
Yukarıdaki kod örneği, ggplot2 paketini kullanarak çekilen verileri
görselleştirmek için bir grafik oluşturur. Grafik, yıllara göre imalat
katma değerini gösteren çizgi grafiklerinden oluşur ve her bir ülkeyi
ayrı bir panelde gösterir. Ayrıca, grafikteki bileşenlerin
açıklamalarını içeren uygun eksen ve başlık etiketleri de
sağlanmıştır.
ggplot2 paketinin sağladığı esneklik ve özelleştirme seçenekleri, verileri etkili bir şekilde görselleştirmek ve anlamak için kullanıcıya geniş bir alan sağlar. Bu paket, veri keşfi ve analizi süreçlerinde önemli bir araçtır ve çeşitli grafik türlerini oluşturmak için yaygın olarak tercih edilir.
library(ggplot2)
veri <- data.frame(
Ulke = c("çad", "kamerum", "kanada"),
GSYIH = c(21.43, 14.34, 5.08)
)
ggplot(veri, aes(x = Ulke, y = GSYIH, fill = Ulke)) +
geom_col() +
labs(title = "çad, kamerun ve kanada'nın GSYIH Karşılaştırması",
x = "Ülke",
y = "GSYIH (trilyon dolar)") +
theme_minimal()“NY.GDP.PCAP.KD”
## # A tibble: 5 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 266 NA NA NA
## 2 iso2c chr 0 0 266 NA NA NA
## 3 iso3c chr 0 0 262 NA NA NA
## 4 year int 0 0 64 1960 1992. 2023
## 5 NY.GDP.PCAP.KD dbl 4190 24.6 12710 123. 10977. 228668.
## Joining with `by = join_by(country, iso2c, iso3c)`
## # A tibble: 11 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 215 NA NA NA
## 2 iso2c chr 0 0 215 NA NA NA
## 3 iso3c chr 0 0 215 NA NA NA
## 4 year int 0 0 64 1960 1992. 2023
## 5 NY.GDP.PCAP.KD dbl 3714 27 10047 123. 12131. 228668.
## 6 region chr 0 0 7 NA NA NA
## 7 capital chr 0 0 210 NA NA NA
## 8 longitude chr 0 0 210 NA NA NA
## 9 latitude chr 0 0 210 NA NA NA
## 10 income chr 0 0 5 NA NA NA
## 11 lending chr 0 0 4 NA NA NA
## 'data.frame': 13760 obs. of 11 variables:
## $ country : chr "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ iso2c : chr "AF" "AF" "AF" "AF" ...
## $ iso3c : chr "AFG" "AFG" "AFG" "AFG" ...
## $ year : int 2023 2022 2021 2020 2019 2018 2017 2016 2015 2014 ...
## $ NY.GDP.PCAP.KD: num NA NA 408 529 559 ...
## ..- attr(*, "label")= chr "GDP per capita (constant 2015 US$)"
## $ region : chr "South Asia" "South Asia" "South Asia" "South Asia" ...
## $ capital : chr "Kabul" "Kabul" "Kabul" "Kabul" ...
## $ longitude : chr "69.1761" "69.1761" "69.1761" "69.1761" ...
## $ latitude : chr "34.5228" "34.5228" "34.5228" "34.5228" ...
## $ income : chr "Low income" "Low income" "Low income" "Low income" ...
## $ lending : chr "IDA" "IDA" "IDA" "IDA" ...
## - attr(*, "lastupdated")= chr "2024-03-28"
## - attr(*, "label")= chr [1:17024] "GDP per capita (constant 2015 US$)" "GDP per capita (constant 2015 US$)" "GDP per capita (constant 2015 US$)" "GDP per capita (constant 2015 US$)" ...
veri setindeki farklı ülkelerin listesini alarak, veri setinin hangi coğrafi bölgelerle ilgili olduğunu ve hangi ülkelerin analize dahil edildiğini belirlememize yardımcı olur. Bu bilgi, veri setinin analizini ve yorumunu daha doğru ve kapsamlı hale getirir.
## [1] "Afghanistan" "Albania"
## [3] "Algeria" "American Samoa"
## [5] "Andorra" "Angola"
## [7] "Antigua and Barbuda" "Argentina"
## [9] "Armenia" "Aruba"
## [11] "Australia" "Austria"
## [13] "Azerbaijan" "Bahamas, The"
## [15] "Bahrain" "Bangladesh"
## [17] "Barbados" "Belarus"
## [19] "Belgium" "Belize"
## [21] "Benin" "Bermuda"
## [23] "Bhutan" "Bolivia"
## [25] "Bosnia and Herzegovina" "Botswana"
## [27] "Brazil" "British Virgin Islands"
## [29] "Brunei Darussalam" "Bulgaria"
## [31] "Burkina Faso" "Burundi"
## [33] "Cabo Verde" "Cambodia"
## [35] "Cameroon" "Canada"
## [37] "Cayman Islands" "Central African Republic"
## [39] "Chad" "Channel Islands"
## [41] "Chile" "China"
## [43] "Colombia" "Comoros"
## [45] "Congo, Dem. Rep." "Congo, Rep."
## [47] "Costa Rica" "Cote d'Ivoire"
## [49] "Croatia" "Cuba"
## [51] "Curacao" "Cyprus"
## [53] "Denmark" "Djibouti"
## [55] "Dominica" "Dominican Republic"
## [57] "Ecuador" "Egypt, Arab Rep."
## [59] "El Salvador" "Equatorial Guinea"
## [61] "Eritrea" "Estonia"
## [63] "Eswatini" "Ethiopia"
## [65] "Faroe Islands" "Fiji"
## [67] "Finland" "France"
## [69] "French Polynesia" "Gabon"
## [71] "Gambia, The" "Georgia"
## [73] "Germany" "Ghana"
## [75] "Gibraltar" "Greece"
## [77] "Greenland" "Grenada"
## [79] "Guam" "Guatemala"
## [81] "Guinea" "Guinea-Bissau"
## [83] "Guyana" "Haiti"
## [85] "Honduras" "Hong Kong SAR, China"
## [87] "Hungary" "Iceland"
## [89] "India" "Indonesia"
## [91] "Iran, Islamic Rep." "Iraq"
## [93] "Ireland" "Isle of Man"
## [95] "Israel" "Italy"
## [97] "Jamaica" "Japan"
## [99] "Jordan" "Kazakhstan"
## [101] "Kenya" "Kiribati"
## [103] "Korea, Dem. People's Rep." "Korea, Rep."
## [105] "Kosovo" "Kuwait"
## [107] "Kyrgyz Republic" "Lao PDR"
## [109] "Latvia" "Lebanon"
## [111] "Lesotho" "Liberia"
## [113] "Libya" "Liechtenstein"
## [115] "Lithuania" "Luxembourg"
## [117] "Macao SAR, China" "Madagascar"
## [119] "Malawi" "Malaysia"
## [121] "Maldives" "Mali"
## [123] "Malta" "Marshall Islands"
## [125] "Mauritania" "Mauritius"
## [127] "Mexico" "Micronesia, Fed. Sts."
## [129] "Moldova" "Monaco"
## [131] "Mongolia" "Montenegro"
## [133] "Morocco" "Mozambique"
## [135] "Myanmar" "Namibia"
## [137] "Nauru" "Nepal"
## [139] "Netherlands" "New Caledonia"
## [141] "New Zealand" "Nicaragua"
## [143] "Niger" "Nigeria"
## [145] "North Macedonia" "Northern Mariana Islands"
## [147] "Norway" "Oman"
## [149] "Pakistan" "Palau"
## [151] "Panama" "Papua New Guinea"
## [153] "Paraguay" "Peru"
## [155] "Philippines" "Poland"
## [157] "Portugal" "Puerto Rico"
## [159] "Qatar" "Romania"
## [161] "Russian Federation" "Rwanda"
## [163] "Samoa" "San Marino"
## [165] "Sao Tome and Principe" "Saudi Arabia"
## [167] "Senegal" "Serbia"
## [169] "Seychelles" "Sierra Leone"
## [171] "Singapore" "Sint Maarten (Dutch part)"
## [173] "Slovak Republic" "Slovenia"
## [175] "Solomon Islands" "Somalia"
## [177] "South Africa" "South Sudan"
## [179] "Spain" "Sri Lanka"
## [181] "St. Kitts and Nevis" "St. Lucia"
## [183] "St. Martin (French part)" "St. Vincent and the Grenadines"
## [185] "Sudan" "Suriname"
## [187] "Sweden" "Switzerland"
## [189] "Syrian Arab Republic" "Tajikistan"
## [191] "Tanzania" "Thailand"
## [193] "Timor-Leste" "Togo"
## [195] "Tonga" "Trinidad and Tobago"
## [197] "Tunisia" "Turkiye"
## [199] "Turkmenistan" "Turks and Caicos Islands"
## [201] "Tuvalu" "Uganda"
## [203] "Ukraine" "United Arab Emirates"
## [205] "United Kingdom" "United States"
## [207] "Uruguay" "Uzbekistan"
## [209] "Vanuatu" "Venezuela, RB"
## [211] "Virgin Islands (U.S.)" "West Bank and Gaza"
## [213] "Yemen, Rep." "Zambia"
## [215] "Zimbabwe"
, bu kod eksik verilerin ülkeler arasında nasıl dağıldığını anlamak için kullanılabilir ve eksik veri problemlerini çözmek için veri temizleme ve analiz süreçlerine rehberlik edebilir.
kayıpveri <- carbonekbilgi_sadeceulkeler %>%
group_by(country) %>%
summarise(kayıp_sayısı = sum(is.na(NY.GDP.PCAP.KD)))bu kod, veri çerçevesinden yalnızca 1990 ve sonrası yıllara ait verileri içeren bir alt küme oluşturarak veri analizini belirli bir zaman aralığıyla sınırlamak için kullanılır.
## # A tibble: 11 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 215 NA NA NA
## 2 iso2c chr 0 0 215 NA NA NA
## 3 iso3c chr 0 0 215 NA NA NA
## 4 year int 0 0 34 1990 2006. 2023
## 5 NY.GDP.PCAP.KD dbl 891 12.2 6420 166. 14124. 228668.
## 6 region chr 0 0 7 NA NA NA
## 7 capital chr 0 0 210 NA NA NA
## 8 longitude chr 0 0 210 NA NA NA
## 9 latitude chr 0 0 210 NA NA NA
## 10 income chr 0 0 5 NA NA NA
## 11 lending chr 0 0 4 NA NA NA
veri çerçevesindeki her bir ülke için NY.GDP.PCAP.KD sütununda bulunan eksik değerlerin sayısını hesaplar. İşte kodun adım adım ne yaptığının açıklaması:
Bu, eksik veri sayılarını ana veri çerçevesine eklemek, eksik veri sorunlarını daha iyi anlamak ve analiz etmek için oldukça yararlı bir adımdır. Böylece, eksik verilerin ülkelere göre dağılımını görmek ve analiz sonuçlarını bu eksikliklere göre daha sağlam bir şekilde yorumlamak mümkün olur.
## Joining with `by = join_by(country)`
daha önce belirlenen tarihten önceki verileri koruyarak, analiz için belirli bir zaman aralığını sınırlamaya yardımcı olur. Bu şekilde, analiz yapmak istediğiniz belirli bir zaman dilimine odaklanabilir ve analiz sonuçlarınızı bu zaman dilimiyle sınırlayabilirsiniz.
## # A tibble: 12 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 170 NA NA NA
## 2 iso2c chr 0 0 170 NA NA NA
## 3 iso3c chr 0 0 170 NA NA NA
## 4 year int 0 0 31 1990 2005 2020
## 5 NY.GDP.PCAP.KD dbl 5 0.1 5266 166. 13490. 191195.
## 6 region chr 0 0 7 NA NA NA
## 7 capital chr 0 0 169 NA NA NA
## 8 longitude chr 0 0 170 NA NA NA
## 9 latitude chr 0 0 170 NA NA NA
## 10 income chr 0 0 4 NA NA NA
## 11 lending chr 0 0 4 NA NA NA
## 12 sayi int 0 0 3 1 1.07 3
Bu tür istatistiksel özetler, veri setinin dağılımını, merkezi eğilimini ve dağılımın yayılmasını anlamak için önemlidir. Bu bilgi, veri setinin içeriği ve yapısal özellikleri hakkında genel bir fikir sağlar ve daha ileri analiz için temel oluşturabilir.