R ve studio nedir?
##R NEDIR
R programlama dilini ifade ediyor. R, istatistiksel hesaplamalar, veri analizi ve görselleştirme gibi birçok istatistiksel ve veri bilimi işlemleri için kullanılan popüler bir programlama dilidir.
##PAKETLER
“paketler”, önceden yazılmış kod parçalarını ve fonksiyonları içeren kütüphanelerdir. Bu paketler, genellikle belirli bir amaç için özel olarak oluşturulmuş fonksiyonları, veri kümelerini veya algoritmaları içerir. R’nin temel kurulumu, birçok temel işlemi içerse de, belirli bir analiz veya görev için ek işlevselliğe ihtiyaç duyulabilir. Bu noktada, kullanıcılar R’nin geniş paket koleksiyonundan yararlanabilirler.
##paketler neden onemlidir?
1.Fonksiyon ve İşlevsellik Genişlemesi: R’nin temel kurulumu, çeşitli temel işlevlerle birlikte gelir. Ancak, belirli bir analiz veya görev için daha spesifik işlevselliğe ihtiyaç duyulabilir. Paketler, kullanıcıların bu özel gereksinimlerini karşılamak için önceden yazılmış kod parçalarını ve fonksiyonları içerir.
2.Veri Analizi ve Görselleştirme: R paketleri, veri analizi, görselleştirme ve istatistiksel modelleme gibi geniş bir yelpazedeki işlevleri içerir. Bu paketler, verileri keşfetmek, analiz etmek ve sonuçları etkili bir şekilde görselleştirmek için gereken araçları sağlar.
3.Topluluk Katkıları: R, açık kaynaklı bir programlama dili olduğu için, kullanıcılar tarafından sürekli olarak yeni paketler geliştirilir ve mevcut olanlar güncellenir. Bu, R topluluğunun sürekli olarak büyümesini ve gelişmesini sağlar, böylece kullanıcılar farklı analizler için her zaman yeni ve güncel araçlara erişebilirler.
4.Reproducible Research: Araştırmacılar ve veri bilimciler genellikle araştırma sonuçlarını ve analizlerini başkalarıyla paylaşmak istediklerinde, çalışmalarının tekrarlanabilir olmasını ve başkaları tarafından doğrulanabilir olmasını isterler. R paketleri, analizlerin ve sonuçların tekrarlanabilirliğini artıran bir çerçeve sağlar. Çünkü başkaları, aynı paketleri kullanarak aynı analizleri yapabilir ve sonuçları doğrulayabilir.
Bu nedenlerden dolayı, R paketleri, kullanıcıların veri analizi ve istatistiksel modelleme için ihtiyaç duydukları araçları sağlamak için önemlidir ve R’nin gücünü ve esnekliğini büyük ölçüde artırır.
##Paketler nasıl erişilir ?
R paketlerine erişmek için genellikle iki temel yöntem kullanılır: 1.CRAN (Comprehensive R Archive Network) üzerinden erişim: CRAN, R paketlerinin ana dağıtım noktasıdır. Yeni paketler oluşturulduğunda veya güncellendiğinde, genellikle önce CRAN’a yüklenirler. RStudio veya herhangi bir R konsolunda install.packages() fonksiyonunu kullanarak CRAN’dan paketleri yükleyebilirsiniz. Örneğin:
install.packages("paket_adi")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.3'
## (as 'lib' is unspecified)
## Warning: package 'paket_adi' is not available for this version of R
##
## A version of this package for your version of R might be available elsewhere,
## see the ideas at
## https://cran.r-project.org/doc/manuals/r-patched/R-admin.html#Installing-packages
Bu komut, “paket_adi” adlı paketi yükleyecektir.
2.Başka kaynaklardan erişim: CRAN dışında, paketler GitHub, Bioconductor gibi başka kaynaklardan da temin edilebilir. GitHub’dan paket yüklemek için devtools paketini kullanabilirsiniz. Örneğn:
Paketleri yükledikten sonra, kullanmak istediğiniz paketi R’de etkinleştirmeniz gerekir. Bu, library() veya require() fonksiyonları ile yapılabilir. Örneğin:
## library(paket_adi)
Bu komut, “paket_adi” adlı paketi etkinleştirir, böylece paket içindeki fonksiyonlara erişebilirsiniz.
Paketlere erişim, R’nin işlevselliğini genişletmek ve belirli analizleri veya görevleri gerçekleştirmek için gereken araçlara erişim sağlamak için önemlidir.
Bu bir R Markdown örneğidir. Aşağıda bir R kodu örneği bulunmaktadır. summary(mtcars) markdown Dokümanın Derlenmesi**: R Markdown dosyasını derlemek için Knit butonuna tıklayabilirsiniz. Bu işlem, R kodunu çalıştırır, ## gglot
ggplot2’nin temel özellikleri şunlardır:
Katmanlar: ggplot2, grafikleri oluşturmak için katmanlar kullanır. Her bir katman, veri setinin görselleştirilmesi için gerekli bileşenleri içerir. Bu, grafiklerin kolayca özelleştirilebilmesini sağlar.
Estetik Haritalama: ggplot2, veri özelliklerini grafik estetikleriyle (renk, boyut, şekil vb.) eşleştirmek için estetik haritalama kullanır. Bu, veri setindeki farklı değişkenler arasındaki ilişkileri görselleştirmeyi kolaylaştırır.
Ölçekler ve Koordinatlar: ggplot2, grafiklerin ölçeklerini (örneğin, eksenlerin aralıkları) ve koordinat sistemlerini (örneğin, düzlem, polar koordinatlar) özelleştirmek için esnek bir yapı sağlar.
Temalar: ggplot2, grafiklerin görünümünü kontrol etmek için temaları kullanır. Temalar, grafiklerin renkleri, çizgi stilleri, arka planlar ve diğer görsel öğelerini ayarlamak için kullanılabilir.
dplyr, R programlama dilinde veri işleme ve veri manipülasyonu için kullanılan güçlü bir pakettir. dplyr, veri çerçevelerindeki (data frames) verileri filtreleme, toplama, dönüştürme ve özetleme gibi temel veri işleme işlemlerini kolaylaştırır. Özellikle büyük veri kümeleriyle çalışırken, dplyr paketi veri işleme işlemlerini daha hızlı ve etkili bir şekilde gerçekleştirmenize olanak tanır.
dplyr paketi, altı temel fonksiyon içerir: 1.filter(): Belirli bir koşulu sağlayan gözlemleri seçmek için kullanılır. 2.select(): Belirli sütunları (değişkenleri) seçmek için kullanılır. 3.arrange(): Veri çerçevesini belirli bir sütuna göre sıralamak için kullanılır. 4.mutate(): Varolan sütunlardan yeni sütunlar oluşturmak veya varolan sütunları değiştirmek için kullanılır. 5.summarize(): Veri özetleme işlemleri yapmak için kullanılır, örneğin gruplar arasında topluluk istatistikleri hesaplamak. 6.group_by(): Veri çerçevesini belirli bir sütuna göre gruplamak için kullanılır.
Bu fonksiyonlar, veri işleme işlemlerini zincirleme yöntemiyle birleştirerek karmaşık veri manipülasyonları gerçekleştirmenizi sağlar. dplyr ayrıca performansı artırmak için veri tabanlarına sorgular gönderebilir, bu da büyük veri kümeleriyle daha hızlı çalışmayı sağlar.
Sonuç olarak, dplyr paketi, veri analizi ve veri manipülasyonunda sıkça kullanılan temel işlevleri sağlar ve R kullanıcılarına veri çerçevelerinde daha verimli ve kolay bir şekilde çalışma imkanı sunar
tidyr, R programlama dilinde veri temizleme ve veri düzenleme işlemleri için kullanılan bir pakettir. Özellikle “tidy data” prensiplerine uygun veri manipülasyonu için tasarlanmıştır. “Tidy data”, her bir değişkenin bir sütun olduğu, her bir gözlem bir satır olduğu ve her bir gözlem birimine ait bir tablo olduğu veri yapılarına atıfta bulunur.
tidyr paketi, veri çerçevelerindeki (data frames) veri yapılarını düzenlemek için kullanılır ve genellikle dplyr paketiyle birlikte kullanılır. tidyr, genellikle iki temel işlevi içerir:
1.gather(): Geniş formatlı verileri (wide format) uzun formatlı verilere (long format) dönüştürmek için kullanılır. Bu işlev, belirli bir gözlem birimine ait birden çok değişkenin sütunlarını tek bir sütun altında toplar.
2.spread(): Uzun formatlı verileri (long format) geniş formatlı verilere (wide format) dönüştürmek için kullanılır. Bu işlev, tek bir sütun altında toplanmış değerleri orijinal değişkenlerin sütunlarına ayırır.
Bu işlevler, veri çerçevelerindeki veri düzenleme işlemlerini kolaylaştırır ve veri analizi veya görselleştirme işlemleri için veri yapısını uygun hale getirir. tidyr paketi, veri çerçevelerindeki veri temizleme işlemlerini daha akıcı ve okunabilir bir şekilde gerçekleştirmenize olanak tanır. Bu sayede veri analizi ve modelleme süreçlerinin daha etkili bir şekilde yapılmasını sağlar.
purrr, R programlama dilinde fonksiyonel programlama paradigmasını destekleyen ve veri analizi için kullanılan bir pakettir. purrr paketi, özellikle vektörler, listeler ve veri çerçeveleri üzerinde döngüler oluşturmak, uygulamak ve yönetmek için kullanılır.
purrr paketinin temel işlevleri arasında şunlar bulunur:
1.Map Fonksiyonları: map(), map2(), map_lgl(), map_int(), map_dbl() vb. gibi fonksiyonlar, belirli bir fonksiyonu veri yapılarının her elemanına uygulamak için kullanılır. Bu fonksiyonlar, vektörler, listeler veya veri çerçeveleri üzerinde döngüler oluşturmanın daha kısa ve daha temiz bir yolunu sağlar.
2.Walk Fonksiyonları: walk(), walk2(), walk_lgl(), walk_int(), walk_dbl() vb. gibi fonksiyonlar, belirli bir fonksiyonu veri yapılarının her elemanına uygular, ancak işlevin sonucunu döndürmez. Bu tür fonksiyonlar genellikle yan etki (side effect) oluşturmak için kullanılır.
3.Reduce Fonksiyonları: reduce(), accumulate(), reduce2(), vb. gibi fonksiyonlar, bir veri yapısındaki değerler üzerinde bir işlem uygulayarak sonuçları tek bir değere indirgeme işlevini gerçekleştirir.
4.Diğer Fonksiyonlar: transpose(), modify() ve possibly() gibi diğer çeşitli yardımcı fonksiyonlar da mevcuttur.
purrr paketi, R kullanıcılarına veri yapıları üzerinde döngüler oluşturma ve işlevsel programlama yöntemlerini kullanarak veri manipülasyonunu kolaylaştırma imkanı sağlar. Bu, kodun daha temiz, daha etkili ve daha okunabilir olmasını sağlar. Özellikle listenin ve diğer döngüsel veri yapılarının üzerinde işlem yapmak için oldukça kullanışlıdır.
“WDI” paketi, R’de Dünya Bankası Kalkınma Göstergelerine erişim sağlayan bir araçtır. Bu paket, çeşitli ekonomik, sosyal ve çevresel verilere hızlı ve etkili bir şekilde erişmenizi sağlar. Özellikle kalkınma çalışmaları ve ekonomiyle ilgilenen araştırmacılar için faydalıdır.
## install.packages ("WDI" )
“ggplot2”, R’de veri görselleştirmesi için kullanılan güçlü bir araçtır. Veriye dayalı grafikler oluşturur ve basit çizimlerden karmaşık görselliklere kadar geniş bir yelpazede grafikler sunar. Veri analizi ve sunumunda sıkça tercih edilir.
## install.packages (ggplot2)
“WDI” R paketi, Dünya Bankası Kalkınma Göstergelerine erişim sağlar. Bu paket, geniş veri tabanına kolayca erişim imkanı sunar, böylece ekonomik, sosyal ve çevresel göstergelerle ilgili verilere ulaşılabilir. Kalkınma çalışmaları, ekonomi ve sosyal bilimlerde araştırma yaparken veri analizi için sıklıkla kullanılır.
library("WDI")
“ggplot2” R paketi, veri görselleştirmesi için kullanılan bir araçtır. Veri tabanlı grafik oluşturma yaklaşımını benimser ve grafiklerin katmanlar halinde oluşturulmasını sağlar. Basit çizimlerden karmaşık görselliklere kadar geniş bir yelpazede grafikler oluşturabilir. Veri analizi ve sunumunda sıklıkla tercih edilir.
library(ggplot2)
countries <- c("AUS", "FRA")
indicator <- "SP.DYN.LE00.FE.IN"
data <- WDI(country=countries, indicator=indicator, start=2000, end=2020)
data <- WDI(country=countries, indicator=indicator, start=2000, end=2020, extra=FALSE, cache=NULL)
summary(data)
## country iso2c iso3c year
## Length:42 Length:42 Length:42 Min. :2000
## Class :character Class :character Class :character 1st Qu.:2005
## Mode :character Mode :character Mode :character Median :2010
## Mean :2010
## 3rd Qu.:2015
## Max. :2020
## SP.DYN.LE00.FE.IN
## Min. :82.00
## 1st Qu.:83.55
## Median :84.45
## Mean :84.32
## 3rd Qu.:85.30
## Max. :86.10
ggplot(data, aes(x=year, y=SP.DYN.LE00.FE.IN, color=country)) +
geom_line() +
labs(title="Avustralya ve Fransa'da Dişi Bebeklerde Doğumda Yaşam Beklentisi",
x="Yıl",
y="Doğumda Yaşam Beklentisi")
head(data)
## country iso2c iso3c year SP.DYN.LE00.FE.IN
## 1 Australia AU AUS 2020 85.3
## 2 Australia AU AUS 2019 85.0
## 3 Australia AU AUS 2018 84.9
## 4 Australia AU AUS 2017 84.6
## 5 Australia AU AUS 2016 84.6
## 6 Australia AU AUS 2015 84.5
names(data)
## [1] "country" "iso2c" "iso3c"
## [4] "year" "SP.DYN.LE00.FE.IN"
#ağaşadake kodlarinda value çalıştırmak için başka bir adı ile değiştirdik # Her yıl için iki ülke arasındaki farkları çubuk grafik kullanarak analiz etme
ggplot(data, aes(x=factor(year), y=SP.DYN.LE00.FE.IN, fill=country)) +
geom_bar(stat="identity", position=position_dodge()) +
labs(title="Avustralya ve Fransa'daki Kadınların Doğumda Beklenen Yaşam Süresindeki Farklar",
x="Yıl",
y="Doğumda Beklenen Yaşam Süresi") +
theme_minimal()
ggplot(data, aes(x=year, y=SP.DYN.LE00.FE.IN)) +
geom_line(aes(color=country)) +
facet_wrap(~country) +
labs(title="Kadınların Doğumda Beklenen Yaşam Süresindeki Yıllık Değişimler",
x="Yıl",
y="Doğumda Beklenen Yaşam Süresi") +
theme_minimal()
str(data)
## 'data.frame': 42 obs. of 5 variables:
## $ country : chr "Australia" "Australia" "Australia" "Australia" ...
## $ iso2c : chr "AU" "AU" "AU" "AU" ...
## $ iso3c : chr "AUS" "AUS" "AUS" "AUS" ...
## $ year : int 2020 2019 2018 2017 2016 2015 2014 2013 2012 2011 ...
## $ SP.DYN.LE00.FE.IN: num 85.3 85 84.9 84.6 84.6 84.5 84.4 84.3 84.3 84.2 ...
## ..- attr(*, "label")= chr "Life expectancy at birth, female (years)"
## - attr(*, "lastupdated")= chr "2024-03-28"
## - attr(*, "label")= chr [1:42] "Life expectancy at birth, female (years)" "Life expectancy at birth, female (years)" "Life expectancy at birth, female (years)" "Life expectancy at birth, female (years)" ...
SONUNDA
“Avustralya ve Fransa’daki doğumlar konusunda bu konuda yazdım ve farkları açıkladım. Bu farkları hocamıza sunmak için bir proje olarak ilerletmek istiyorum.”