paketler nedir R paketleri, R programlama dilinin temel işlevlerini genişletmek için tasarlanmış bir araç ve kayanaklar kümesidir. Bu paketler işlevler, veri kümesi ve diğer ek materyalleri araya getirir ve belirli bir amaç hizmet etmek üzere paketlenir.Her paket belirli anatik veya hesaplama ihtiyaçlarını karşılamak için özel olarak tasarlanmış bir araç kutus olarak hizmet eder.Bu paketler, çeşitli görevleri verimli ve etkili bir şekilde yerine getirmenizi sağlayarak R’nin makine tarafından kullanılan dişlilerdir.
paketler onemi 1. Fonksiyon ve Araçlar Sunarlar: Paketler, önceden yazılmış fonksiyonları, veri kümelerini ve diğer araçları içerir. Bu, kullanıcıların tekrar tekrar aynı işlevleri yazmak zorunda kalmadan bu hazır araçları kullanarak zaman kazanmasını sağlar.
Kod Paylaşımı ve Topluluk Katılımı: Paketler, birçok kullanıcı tarafından geliştirilir ve paylaşılır. Bu, kullanıcıların birbirleriyle kodları paylaşmasını ve topluluk desteğinden faydalanmasını sağlar.
Uygulama Alanlarına Özgü Çözümler: Farklı uygulama alanları için özel olarak tasarlanmış paketler mevcuttur. Örneğin, istatistiksel analiz için istatistiksel paketler, veri görselleştirme için grafik paketleri ve makine öğrenimi için makine öğrenimi paketleri gibi.
Güncelleme ve Bakım Kolaylığı: Paketler, genellikle geliştiriciler tarafından düzenli olarak güncellenir ve bakımı yapılır. Bu da kullanıcıların kodlarını güncel tutmalarını ve en son özellikleri ve düzeltmeleri kullanmalarını sağlar.
Performans ve Optimizasyon: Bazı paketler, özellikle büyük veri kümeleriyle çalışırken performansı artırmak için optimize edilmiştir. Bu, kullanıcıların verimliliğini artırır ve zaman kazanmalarını sağlar.
Bu nedenlerle, paketler R ve diğer programlama dillerinde kod yazma sürecini daha verimli hale getirir ve kullanıcıların daha karmaşık analizleri ve projeleri başarıyla gerçekleştirmelerine yardımcı olur.
Paketlerin Kullanım Nedeni:) Geniş Fonksiyonellik: Paketler, R’nin temel işlevlerinin ötesinde çeşitli analiz, görselleştirme, veri manipülasyonu ve modelleme işlevlerini içerir. Bu sayede kullanıcılar, karmaşık analizleri ve görselleştirmeleri gerçekleştirmek için gereken araçlara erişebilirler.
Topluluk Katkısı: R topluluğu, her geçen gün yeni ve güncellenmiş paketler geliştiriyor. Bu paketler, farklı disiplinlerdeki uzmanlar tarafından geliştirilmiş ve genellikle açık kaynak kodlu olarak sunulmuştur. Bu, R kullanıcılarının çeşitli analiz ve görselleştirme gereksinimlerini karşılayacak geniş bir seçenek yelpazesi sunar.
Verimlilik ve Hız: Paketler, belirli görevleri gerçekleştirmek için optimize edilmiş işlevler içerir. Bu işlevler, genellikle altta yatan C, C++, veya Fortran gibi daha hızlı dillerde yazılmıştır, bu da R’de yüksek performanslı hesaplamalar yapılmasını sağlar.
Reproducible Research (Tekrarlanabilir Araştırma): R’deki paketler, araştırma sonuçlarının tekrarlanabilirliğini artırabilir. Araştırmacılar, analizlerini ve sonuçlarını başkalarıyla paylaşırken, kullanılan paketlerin versiyon bilgilerini de paylaşabilirler. Bu, başkalarının çalışmalarını yeniden üretmelerini ve sonuçları doğrulamalarını kolaylaştırır.
Eğitim ve Öğrenme: R’deki paketler, istatistik, veri bilimi ve diğer disiplinlerde eğitim ve öğrenme süreçlerini destekler. Birçok paket, öğrencilerin teorik kavramları anlamalarına ve gerçek dünya verileriyle uygulamalı deneyim kazanmalarına yardımcı olur.
ikinci soru bes tane paket yuklemek
##Birinci PAKET (e1071) library(e1071), R programlama dilinde e1071 paketini yüklemek ve kullanıma hazır hale getirmek için kullanılan bir komuttur.
e1071 paketi, R kullanıcılarına makine öğrenimi, istatistiksel sınıflandırma, regresyon, kümeleme ve diğer benzeri işlemleri gerçekleştirmek için bir dizi fonksiyon ve algoritma sağlar.
##Özellikle destek vektör makineleri (SVM), karmaşık veri kümeleri üzerinde sınıflandırma ve regresyon problemlerini çözmek için kullanılan birçok fonksiyon içerir
##önemi, R kullanıcılarına makine öğrenimi ve istatistiksel analizlerde kullanılan güçlü ve etkili araçlar sağlamasıdır. İşte e1071 paketinin önemli bazı yönleri:
##Ikinci PAKET
library(stringr)
stringr paketi, R dilinde metin işleme ve dize manipülasyonu için kullanılan bir pakettir. Bu paket, metin verileriyle çalışırken sıkça kullanılan işlevleri sağlar ve dize işlemlerini kolaylaştırır
Temel ozellikleri stringr’ın metin işleme işlemleri için güçlü bir araç olduğunu gösterir.
onemi stringr paketi veri analizi ve veri bilimi alanlarında önemli bir araç haline gelmiştir ve R kullanıcıları için vazgeçilmez bir yardımcıdır.
##UCUNCU PAKET(caTools)
catools, R programlama dilinde kullanılan bir pakettir. Bu paket, kategori verileri üzerinde çeşitli işlemler yapmayı kolaylaştırır
Özellikle, kategorik verilerin sınıflandırılması, tablolar halinde sunulması, frekans tablolarının oluşturulması gibi işlemlerde kullanışlıdır.
onemi 1. Veri Keşfi ve Analizi Kolaylaştırır: Kategorik verilerle çalışırken, bu verilerin özetlenmesi, sınıflandırılması ve analiz edilmesi önemlidir. catools, kategorik veriler üzerinde çeşitli işlemleri gerçekleştirmeyi kolaylaştırarak veri keşfi ve analiz süreçlerini hızlandırır.
Veri Görselleştirme İçin Hazırlık Sağlar: Verileri görselleştirmek, veri analizinde önemli bir adımdır. Kategorik verilerin frekansları, dağılımları ve ilişkileri, grafikler aracılığıyla görselleştirilebilir. catools ile elde edilen frekans tabloları ve özet istatistikler, görselleştirme için hazırlık yapmak için kullanılabilir.
Raporlama ve Sunumlar için Kullanışlıdır: Veri analizi sonuçlarını raporlamak veya sunumlar hazırlamak genellikle gereklidir. catools ile elde edilen frekans tabloları ve özet istatistikler, raporlar ve sunumlar için kolayca kullanılabilir.
Veri Temizliği ve Hazırlığına Yardımcı Olur: Kategorik veriler genellikle düzensiz olabilir veya doğrudan analiz için hazır olmayabilir. catools ile kategorik verilerin düzenlenmesi, temizlenmesi ve analiz için hazırlanması kolaylaşır.
Bu nedenlerle, catools paketi, kategorik verilerle çalışırken veri analizi ve veri keşfi süreçlerini kolaylaştırır ve veri bilimi projelerinde önemli bir araçtır.
##DORCUNCU PAKET (explore) Explore”, genel olarak keşfetmek, araştırmak veya incelemek anlamlarına gelir. Ancak, veri bilimi veya istatistik bağlamında “explore” terimi, veri setlerini anlamak, özetlemek, görselleştirmek ve ilişkileri belirlemek için yapılan çeşitli analizler ve keşif işlemlerini ifade eder.
ozellikleri Bir veri setini keşfetmek için yapılan analizlerin özellikleri şunlar olabilir:
Özet İstatistikler: Veri setindeki sayısal değişkenler için temel istatistiklerin hesaplanması, örneğin ortalama, medyan, standart sapma, minimum ve maksimum değerler gibi.
Dağılım Analizi: Değişkenlerin dağılımlarının incelenmesi ve histogramlar, yoğunluk grafikleri veya kutu grafikleri gibi görselleştirmeler aracılığıyla görselleştirilmesi.
Korelasyon Analizi: Değişkenler arasındaki ilişkilerin belirlenmesi ve korelasyon katsayıları ile gösterilmesi. Bu, değişkenler arasındaki ilişkilerin gücünü ve yönünü anlamak için önemlidir.
Aykırı Değer Analizi: Veri setindeki aykırı veya anormal değerlerin belirlenmesi ve bu değerlerin ne kadar yaygın olduğunun değerlendirilmesi.
Önemi veri keşfi veri analizi sürecinde temel bir adımdır ve veri setlerinin anlaşılmasını, kalitesinin değerlendirilmesini ve iş sonuçlarının iyileştirilmesini sağlar.
##BESINCI PAKET(Wooldridge Paketi) “wooldridge” paketi, özellikle ekonometri alanında kullanılan bir R paketidir. Bu paket, Jeffrey M. Wooldridge tarafından geliştirilmiş ve istatistiksel analizler, regresyon modelleri ve ekonometrik metodolojilerle ilgili araçları içermektedir.
Temel Özellikleri: Ekonometrik modelleme ve tahmine yönelik birçok fonksiyon içeren Wooldridge paketi, doğrusal regresyon, panel veri analizi, zaman serisi analizi ve kesit veri analizi gibi birçok ekonometrik yöntemi kapsar.
Önemi: Ekonometri ve diğer sosyal bilimlerde araştırma yapanlar için önemli bir araç olan Wooldridge paketi, ekonometrik modellerin kolayca tahmin edilmesini ve analiz edilmesini sağlayarak ekonometrik analizlerde zaman tasarrufu ve verimlilik sağlar.
##DUNYA BANKASI VERILERI YUKLEMEK
GSYIH YURTICI HASILA
Djibrine Cissé: GSYH’nın bir üretim ölçüsü olarak kullanılabilmesi için kesin olarak Üretime neyin girdiğinin, üretimin nerede ve ne zaman yapıldığının bilinmesi gerekir.
Belli bir zaman döneminde bir ülkedeki üretim faktörlerince (Türk ya da yabancı) yenice üretilmiş bütün nihai mal ve hizmetlerin piyasa değerine GSYH denir.
GSYH’nın bu tanımı oldukça açık olmakla birlikte, ekonominin GSYH’sı hesaplanırken önceden farkedilmeyen birçok sorun ortaya çıkabilir. Bu nedenle GSYH tanımındaki her sözün tek tek ele alınmasında yarar vardır.
##WDI PAKETI
library(WDI)
AG.AGR.TRAC.NO TM.TAX.TCOM.BC.ZS
Data_WDI <- WDI(country = "all", indicator = c ("AG.AGR.TRAC.NO","TM.TAX.TCOM.BC.ZS"),
start=1999, end=2000,)
Str Kodunu anlamak “str”, genellikle “string” kısaltması olarak kullanılır ve karakter dizisi anlamına gelir. “String”, bir veya daha fazla karakterin bir araya gelmesiyle oluşturulan bir veri türünü ifade eder.
Bir programlama terimi olarak, “str” sıklıkla karakter dizilerini temsil etmek için kullanılır. Örneğin, Python programlama dilinde, “str” bir veri tipidir ve karakter dizilerini ifade eder. Benzer şekilde, diğer birçok programlama dilinde de benzer bir anlam taşır.
“Str” aynı zamanda “structure” (yapı) kelimesinin kısaltması olarak da kullanılabilir. Özellikle bazı programlama dillerinde, örneğin R dilinde, “str” fonksiyonu bir nesnenin yapısını göstermek için kullanılır.
Ancak, kullanılan bağlama bağlı olarak “str” terimi farklı anlamlara gelebilir. Bu nedenle, kullanılan bağlamı belirtmek, “str” teriminin tam anlamını anlamak için önemlidir.
str(Data_WDI)
## 'data.frame': 532 obs. of 6 variables:
## $ country : chr "Afghanistan" "Afghanistan" "Africa Eastern and Southern" "Africa Eastern and Southern" ...
## $ iso2c : chr "AF" "AF" "ZH" "ZH" ...
## $ iso3c : chr "AFG" "AFG" "AFE" "AFE" ...
## $ year : int 1999 2000 1999 2000 1999 2000 1999 2000 1999 2000 ...
## $ AG.AGR.TRAC.NO : num 110 110 NA NA NA ...
## ..- attr(*, "label")= chr "Agricultural machinery, tractors"
## $ TM.TAX.TCOM.BC.ZS: num NA NA NA NA NA NA NA 100 NA NA ...
## ..- attr(*, "label")= chr "Binding coverage, primary products (%)"
library(explore)
describe_all(Data_WDI)
## # A tibble: 6 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 266 NA NA NA
## 2 iso2c chr 0 0 266 NA NA NA
## 3 iso3c chr 0 0 262 NA NA NA
## 4 year int 0 0 2 1999 2000. 2000
## 5 AG.AGR.TRAC.NO dbl 225 42.3 291 1 1345168. 25068732.
## 6 TM.TAX.TCOM.BC.ZS dbl 333 62.6 48 0 91.1 100
library(dplyr)
##
## Attachement du package : 'dplyr'
## Les objets suivants sont masqués depuis 'package:stats':
##
## filter, lag
## Les objets suivants sont masqués depuis 'package:base':
##
## intersect, setdiff, setequal, union
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ readr 2.1.5
## ✔ ggplot2 3.5.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
##Ekstra bilgi verisi
ek_bilgi <- WDI_data$country
library(tidyverse)
library(dplyr)
library(tidyverse)
Data_WDI %>% describe_all()
## # A tibble: 6 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 266 NA NA NA
## 2 iso2c chr 0 0 266 NA NA NA
## 3 iso3c chr 0 0 262 NA NA NA
## 4 year int 0 0 2 1999 2000. 2000
## 5 AG.AGR.TRAC.NO dbl 225 42.3 291 1 1345168. 25068732.
## 6 TM.TAX.TCOM.BC.ZS dbl 333 62.6 48 0 91.1 100
ek_bilgi <- WDI_data$country
df <- left_join(Data_WDI, ek_bilgi)
## Joining with `by = join_by(country, iso2c, iso3c)`
df <- df %>% filter(income != "Aggregates")
df %>% describe_all()
## # A tibble: 12 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 215 NA NA NA
## 2 iso2c chr 0 0 215 NA NA NA
## 3 iso3c chr 0 0 215 NA NA NA
## 4 year int 0 0 2 1999 2000. 2000
## 5 AG.AGR.TRAC.NO dbl 186 43.3 230 1 202242. 4503625
## 6 TM.TAX.TCOM.BC.ZS dbl 235 54.7 48 0 90.9 100
## 7 region chr 0 0 7 NA NA NA
## 8 capital chr 0 0 210 NA NA NA
## 9 longitude chr 0 0 210 NA NA NA
## 10 latitude chr 0 0 210 NA NA NA
## 11 income chr 0 0 5 NA NA NA
## 12 lending chr 0 0 4 NA NA NA
library(dplyr)
kayıp_veri <- df %>%
group_by(country) %>%
summarise(kayıp_sayısı = sum(is.na(AG.AGR.TRAC.NO), is.na(TM.TAX.TCOM.BC.ZS
)), .groups = 'drop')
df <- df%>%
filter(year>=2000)
library(dplyr)
kayıp_sayısı <- df %>%
group_by(country) %>%
summarise(sayı = sum(is.na(AG.AGR.TRAC.NO), is.na(TM.TAX.TCOM.BC.ZS)))
df <- left_join(df, kayıp_sayısı)
## Joining with `by = join_by(country)`
df <- df%>%
filter(sayı<2)
unique(df$country)
## [1] "Afghanistan" "Albania"
## [3] "Algeria" "American Samoa"
## [5] "Antigua and Barbuda" "Argentina"
## [7] "Armenia" "Australia"
## [9] "Austria" "Azerbaijan"
## [11] "Bahrain" "Bangladesh"
## [13] "Barbados" "Belarus"
## [15] "Belgium" "Bhutan"
## [17] "Bolivia" "Botswana"
## [19] "Brazil" "Brunei Darussalam"
## [21] "Bulgaria" "Cabo Verde"
## [23] "Cambodia" "Canada"
## [25] "Chile" "China"
## [27] "Colombia" "Costa Rica"
## [29] "Cote d'Ivoire" "Croatia"
## [31] "Cuba" "Cyprus"
## [33] "Denmark" "Djibouti"
## [35] "Dominica" "Dominican Republic"
## [37] "Ecuador" "Egypt, Arab Rep."
## [39] "El Salvador" "Eritrea"
## [41] "Estonia" "Eswatini"
## [43] "Fiji" "Finland"
## [45] "France" "Gabon"
## [47] "Georgia" "Germany"
## [49] "Ghana" "Greece"
## [51] "Grenada" "Guatemala"
## [53] "Guinea" "Guyana"
## [55] "Honduras" "Hong Kong SAR, China"
## [57] "Hungary" "Iceland"
## [59] "India" "Indonesia"
## [61] "Iran, Islamic Rep." "Iraq"
## [63] "Ireland" "Israel"
## [65] "Italy" "Jamaica"
## [67] "Japan" "Jordan"
## [69] "Kazakhstan" "Kenya"
## [71] "Korea, Rep." "Kuwait"
## [73] "Kyrgyz Republic" "Latvia"
## [75] "Libya" "Lithuania"
## [77] "Luxembourg" "Macao SAR, China"
## [79] "Madagascar" "Malawi"
## [81] "Malaysia" "Maldives"
## [83] "Mali" "Malta"
## [85] "Mauritania" "Mauritius"
## [87] "Mexico" "Moldova"
## [89] "Mongolia" "Morocco"
## [91] "Myanmar" "Nepal"
## [93] "Netherlands" "New Caledonia"
## [95] "New Zealand" "Nicaragua"
## [97] "Nigeria" "North Macedonia"
## [99] "Northern Mariana Islands" "Norway"
## [101] "Oman" "Pakistan"
## [103] "Panama" "Papua New Guinea"
## [105] "Paraguay" "Peru"
## [107] "Philippines" "Poland"
## [109] "Portugal" "Puerto Rico"
## [111] "Qatar" "Romania"
## [113] "Russian Federation" "Rwanda"
## [115] "Samoa" "Senegal"
## [117] "Singapore" "Slovak Republic"
## [119] "Slovenia" "Somalia"
## [121] "South Africa" "Spain"
## [123] "Sri Lanka" "St. Kitts and Nevis"
## [125] "St. Lucia" "St. Vincent and the Grenadines"
## [127] "Sudan" "Suriname"
## [129] "Sweden" "Switzerland"
## [131] "Syrian Arab Republic" "Tajikistan"
## [133] "Tanzania" "Thailand"
## [135] "Togo" "Tonga"
## [137] "Trinidad and Tobago" "Tunisia"
## [139] "Turkiye" "Tuvalu"
## [141] "Uganda" "Ukraine"
## [143] "United Arab Emirates" "United Kingdom"
## [145] "United States" "Uruguay"
## [147] "Venezuela, RB" "Virgin Islands (U.S.)"
## [149] "West Bank and Gaza" "Yemen, Rep."
## [151] "Zimbabwe"
describe_all(df)
## # A tibble: 13 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 country chr 0 0 151 NA NA NA
## 2 iso2c chr 0 0 151 NA NA NA
## 3 iso3c chr 0 0 151 NA NA NA
## 4 year int 0 0 1 2000 2000 2000
## 5 AG.AGR.TRAC.NO dbl 30 19.9 120 1 204915. 4503625
## 6 TM.TAX.TCOM.BC.ZS dbl 48 31.8 46 0 89.8 100
## 7 region chr 0 0 7 NA NA NA
## 8 capital chr 0 0 148 NA NA NA
## 9 longitude chr 0 0 151 NA NA NA
## 10 latitude chr 0 0 151 NA NA NA
## 11 income chr 0 0 5 NA NA NA
## 12 lending chr 0 0 4 NA NA NA
## 13 sayı int 0 0 2 0 0.52 1
df_US <- df %>% filter(iso2c == "US" | iso2c == "BR")
df_US <- df %>% filter(iso2c %in% c("US", "BR"))
df_US <- df %>% filter(iso2c %in% c("US", "BR"))
ggplot(df_US, aes(year, TM.TAX.TCOM.BC.ZS, color = country)) +
geom_line() +
labs(x = "Year", y = "High GSYIH (% manufactured exports)", title = "High GSYIHy exports comparison between US and Brazil") +
theme_gray()
## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?
df_2023 <- df %>% filter(year == 2023)
ggplot(df_2023, aes(x= AG.AGR.TRAC.NO, y=TM.TAX.TCOM.BC.ZS, colour = region)) + geom_point() + geom_text(label = df_2023$iso2c) + theme_gray()
Dunya_YTUI <- df %>% group_by(year) %>%
summarise(dunyagsyih= sum(
AG.AGR.TRAC.NO), dunyanufusu = sum(TM.TAX.TCOM.BC.ZS
), kisibasinagsyih = dunyagsyih/dunyanufusu)
Bu kod, veri çerçevesini (df içinde bulunan sütunlarının belirli bir anlamı olduğunu varsayarak) kullanarak year sütununa göre gruplayarak (group_by(year)), her yıl için dünya genelinde toplam tarım ürünleri trafiği (AG.AGR.TRAC.NO) ve toplam nüfus vergisi ticareti (TM.TAX.TCOM.BC.ZS) sütunlarını toplar (summarise işlevini kullanarak). Bu toplamları kullanarak, her yıl için kişi başına düşen GSYİH (kisibasinagsyih) hesaplanır.
ggplot(Dunya_YTUI, aes(x =year , y = kisibasinagsyih)) + geom_line( colour = "red") + labs(title = "Kişi başına düşen gsyih(% imal edilen gsyih)" , x = "yıllar" , y="Kişi başına gsyih") + theme_gray()
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_line()`).
Bu kod, Dunya_YTUI veri çerçevesindeki yıl (year) ve kişi başına düşen
GSYİH (kisibasinagsyih) verilerini kullanarak bir çizgi grafiği
oluşturur. Grafiğin x-ekseni yılları temsil ederken, y-ekseni kişi
başına GSYİH’yi temsil eder. Çizgi grafiği kırmızı renkte çizilir ve
grafiğin başlığı “Kişi başına düşen GSYİH (% imal edilen GSYİH)”,
x-ekseni etiketi “yıllar” ve y-ekseni etiketi “Kişi başına GSYİH” olarak
belirlenir.