orman yangınları
Quarto
‘tidyverse’ paketlerini kurup yükleyerek başlayın.
install.packages("tidyverse")
library(tidyverse)
“forestfires.csv” veri kümesini bir tibble olarak R’ye aktarın.
forest_fires <- read_csv("/kaggle/input/forest-forest-dataset/forestfires.csv")
Orman Yangını Verilerinin Önemi
Veri çerçevesini özetlemek veya önizlemek için farklı işlevler kullanın.
Verilere bir göz atın, her bir değişken ve yangın arasındaki ilişkileri düşünün.
head(forest_fires)
str(forest_fires)
colnames(forest_fires)
‘X’
‘Y’
‘month’
‘day’
‘FFMC’
‘DMC’
‘DC’
‘ISI’
‘temp’
‘RH’
‘wind’
‘rain’
‘area’
Sütunların aşağıdaki bilgilere karşılık geldiğini biliyoruz:
X: Montesinho park haritasındaki X ekseni uzamsal koordinatı: 1’den 9’a
Y: Montesinho park haritasında Y ekseni uzamsal koordinatı: 2 ila 9
month: Yılın ayı: “jan” - “dec”
day: Haftanın günü: ‘mon’ to ‘sun’
FFMC: FWI sisteminden İnce Yakıt Nem Kodu indeksi: 18,7 - 96,20
DMC:FWI sisteminden Duff Nem Kodu indeksi: 1,1 ila 291,3
DC: FWI sisteminden Kuraklık Kodu endeksi: 7,9 ila 860,6
ISI: FWI sisteminden İlk Yayılma Endeksi: 0,0 - 56,10
temp: Santigrat derece cinsinden sıcaklık: 2,2 - 33,30
RH: Yüzde cinsinden bağıl nem: 15,0 ila 100
wind: Km/sa cinsinden rüzgar hızı: 0,40 ila 9,40
rain: mm/m2 cinsinden dış yağmur: 0,0 - 6,4
area: Ormanın yanmış alanı (ha cinsinden): 0,00 - 1090,84
Sütunlardaki birçok faktör, örneğin yangınlara katkıda bulunabilir: ‘DMC’, ‘DC’, ‘temp’, ‘rüzgar’, ‘yağmur’. Hepsi ‘alan’ ile ilişkilendirilebilir.
Veri İşleme
month ve day karakter değişkenlerdir, ama onların doğasında var olan bir düzen olduğunu biliyoruz. Bu değişkenleri, çizdiğimizde doğru sırada sıralanmaları için faktörlere dönüştüreceğiz.
forest_fires %>% pull(month) %>% unique
forest_fires %>% pull(day) %>% unique
‘mar’
‘oct’
‘aug’
‘sep’
‘apr’
‘jun’
‘jul’
‘feb’
‘jan’
‘dec’
‘may’
‘nov’
‘fri’
‘tue’
‘sat’
‘sun’
‘mon’
‘wed’
‘thu’
month_levels <- c("jan", "feb", "mar", "apr", "may","jun","jul","aug","sep","oct", "nov", "dec")
day_levels <- c("mon", "tue", "wed", "thu", "fri", "sat", "sun")
forest_fires <- forest_fires %>%
mutate(month = factor(month, levels = month_levels),
day = factor(day, levels = day_levels)
)
Orman Yangınları En Çok Ne Zaman Oluşur?
Her ay çıkan yangın sayısını sayan bir özet bilgi oluşturun. Ardından bunu görselleştirme için kullanın, aynısı “gün” için de geçerlidir.
Ay Seviyesi
fires_by_month <- forest_fires %>%
group_by(month) %>%
summarise(total_fires = n())
ggplot(data = fires_by_month)+
geom_col(mapping = aes(x = month, y = total_fires))+
labs(title = "Numbers of Forest Fires By Month", caption ="project from DATAQUEST")
fires_by_day <- forest_fires %>%
group_by(day) %>%
summarise(total_fires = n())
ggplot(data = fires_by_day)+
geom_col(mapping = aes(x = day, y = total_fires))+
labs(title = "Numbers of Forest Fires By Day", caption ="project from DATAQUEST")
Ağustos ve Eylül aylarında yangınlarda büyük bir artış ve Mart ayında daha küçük bir artış görüyoruz. Yangınlar hafta içinde daha sık görünüyor
Zamana Karşı Diğer Değişkenleri Çizmek
‘month’ ile farklı değişkenler arasındaki ilişkiyi gösteren bazı görselleştirmeler oluşturun.
library(tidyr)
df <- forest_fires %>% pivot_longer(cols = c('FFMC', 'DMC', 'DC', 'ISI', 'temp', 'RH', 'wind','rain'),
names_to = 'data_col',
values_to = 'value')
ggplot(data = df)+
geom_boxplot(mapping = aes(x = month, y = value))+
facet_wrap(vars(data_col), scales = "free_y")+
labs(title = "Variable changes over month", x = "Month", y = "Varaible Value" , caption ="project from DATAQUEST
Görselleştirmelerden de anlayabileceğimiz gibi ‘DC’, ‘DMC’, ‘rain’, ‘temp’ değişkenlerinin yangınların ani artışıyla ilgisi var. Her bir değişkenin ne anlama geldiğini anlarsak, daha yüksek sıcaklık, havadaki daha az nem, aynı havanın daha kuru olması ve daha az yağmurun orman yangınına neden olmayı kolaylaştırması mantıklı olacaktır.
Orman Yangın Şiddetinin İncelenmesi
Bu veri setinde ‘area’ değişkeni, orman yangını sırasında yanan ormanın hektar sayısına ilişkin verileri içerir. Bu değişkeni yangının ciddiyetinin bir göstergesi olarak kullanacağız.
Her biri arasındaki ilişkiyi görüntüleyen görselleştirme oluşturun
ggplot(data = df)+
geom_point(mapping = aes(x =value , y = area))+
facet_wrap(vars(data_col), scales = "free_x")+
labs(title = "Relationships between other variables and area burned", x = "Value of column", y = "Area burned (hectare)" , caption ="project from DATAQUEST")
Görselleştirmeden, orman yangınlarını yakalamayı kolaylaştıran değişkenin genellikle yangının ciddiyeti ile de ilgisi olduğunu fark etmek o kadar da zor değil.
Aykırı Değer Problemleri
Değişkenler arasındaki ilişkileri daha net bir şekilde görselleştirmek için ‘area’ belirli bir aralıkla sınırlayarak veri çerçevesini filtreleyin.
df %>%
filter(area < 300) %>%
ggplot()+
geom_point(mapping = aes(x =value , y = area))+
facet_wrap(vars(data_col), scales = "free_x")+
labs(title = "Relationships between other variables and area burned (area < 300)", x = "Value of column", y = "Area burned (hectare)" , caption ="project from DATAQUEST")
Verileri filtreledikten sonra, farklı değişkenler ile orman yangını alanı arasındaki ilişkileri gösteren daha net bir görselleştirme sağlar.