1- Veri Görselleştirme Kaynaklarının İncelenmesi Veri düzenleme ve görselleştirme kitabından öğrendiklerim İlk olarak bu kitapta ders kapsamında bu güne kadar öğrendiğimiz fonksiyonları tekrar etme fırsatı buldum. R’da dplyr paketinden yer alan filter, select, arrange ve mutate fonksiyonlarının çalışma şekillerini kafamda netleştirdim. Arrange fonsiyonu içinde kullanılan desc fonksiyonunun işlevini tam olarak görebildim. Bununla birlikte, summarise fonksiyonunun kullanışlılığını uygulama yaprak bir kez daha öğrendim. Derste üstünde durduğumuz betimsel istatiklerin hesaplanması kısmınında lapply gibi yardımcı öğrelerin etkisini gördüm. Yeni bir fonsiyon olarak veri setlerinin birleştirilmesini sağlayan join fonksiyonunun nasıl yapıldığını öğrendim ve uyguladım. Derste öğrendiğimiz pivot_wider işlevine ek olarak benzer görevi olan pivot_longer fonksiyonunu uygulayarak öğrendim. Ggplot fonksiyonunda renklendirme konusunda iyi değildim. Burada color parametresinin kullanımını ve aes yapısının kullanım prensiplerini tekrar ettim. Ek olarak grafiklerde yüzey ve katman eklemek için kullanılan geom ile facet_wrap_facet_grid parametrelerinin kullanım şeklini öğrendim. İkinci olarak 3. Hafta ders notlarında veri incelemede işlevsel olabilecek dinstinct fonksiyonunu öğrendim. Bununla beraber sıkça kullandığımız count fonksiyonunu tekrsr etmiş oldum. Boş ve kullanılmayan verilerin silinmesine yarayan na.omit fonksiyonunu tekrar ettim. Grafik oluşturmada position parametresinin işlevini ve grafiği amacına göre nasıl değiştirebildiğini gördüm. Yine yüzey ve katman ekleme işlemlerini tekrar ettim. Pasta grafiğinin nasıl yapıldığı ve hangi parametrelerin yazılması gerektiğini gördüm. Bunun yanında nokta grafiği olan geom_dotplot ile kutu grafiği olan geom_boxplot’ta x ve y’nin konumunun önemini anladım. Son olarak Openintro Tutorials noltarı da yine diğer kaynaklarda yer alan temel fonksiyonları farklı kütüphanelerde tekrar etme fırsatı sundu. Yine nokta ve pasta grafiği oluşturma konusunu tekrar etme fırsatı buldum. Ek olarak diğer kaynaklarda değinildiği gibi yüzey ve katman ekleme fonsiyonlarını tekrar ettim. Daha sonra verilerin özetlenmesi için kullanılan group_by fonksiyonunu tekrar ettim. Betimsel istatistiklerin hesaplanması ve veri setinin dağılımının nasıl göründüğü hakkında bilgi edindim.
2- Veri Görselleştirme Çalışması
library(tidyverse)
library(openintro)
library(dplyr)
library(tidyr)
library(gapminder)
data("gapminder")
#Veri seti olarak ele alınan gapminder veri setinin incelenmesi
glimpse(gapminder)
## Rows: 1,704
## Columns: 6
## $ country <fct> "Afghanistan", "Afghanistan", "Afghanistan", "Afghanistan", …
## $ continent <fct> Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, …
## $ year <int> 1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 1992, 1997, …
## $ lifeExp <dbl> 28.801, 30.332, 31.997, 34.020, 36.088, 38.438, 39.854, 40.8…
## $ pop <int> 8425333, 9240934, 10267083, 11537966, 13079460, 14880372, 12…
## $ gdpPercap <dbl> 779.4453, 820.8530, 853.1007, 836.1971, 739.9811, 786.1134, …
#Eksik verilerin tespit edilmesi
colSums(is.na(gapminder))
## country continent year lifeExp pop gdpPercap
## 0 0 0 0 0 0
gapminder %>% distinct(country)
## # A tibble: 142 × 1
## country
## <fct>
## 1 Afghanistan
## 2 Albania
## 3 Algeria
## 4 Angola
## 5 Argentina
## 6 Australia
## 7 Austria
## 8 Bahrain
## 9 Bangladesh
## 10 Belgium
## # ℹ 132 more rows
gapminder %>% distinct(continent)
## # A tibble: 5 × 1
## continent
## <fct>
## 1 Asia
## 2 Europe
## 3 Africa
## 4 Americas
## 5 Oceania
gap_yeni <- gapminder %>%
rename(ulke= country, yil= year, kita=continent, tahmini_yasam_suresi= lifeExp, nufus= pop, gsyih= gdpPercap)
ggplot(data=gap_yeni, aes(x= gsyih)) +
geom_histogram(binwidth = 5, color="yellow", fill="red") +
facet_wrap(~kita)
gap_yeni%>% filter(kita=="Europe") %>%
ggplot(aes(x=yil, y=tahmini_yasam_suresi)) +
geom_line(color="green") +
geom_vline(xintercept = 1997, color = "red",size=0.10) +
labs (x="Yil", y="tahmin edilen ortalama yasam suresi", title= "Avrupa Kıtası Ortalama Yasam Suresinin Yıllara Gore Değişimi") +
theme_bw()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
ortalama_gsyih <- gap_yeni %>% group_by(kita) %>% summarise(ortalama_yasam_tah=mean(tahmini_yasam_suresi))
ggplot(ortalama_gsyih, aes(x=kita, y=ortalama_yasam_tah, fill = kita))+
geom_col(alpha=0.20) +
labs(x="Kıta", y=" Ortalama Tahmin Edilen Yasam Suresi", title="Kıtaların Ortalama Tahmin Edilen Yasam Sureleri") +
theme_classic()