Bu bölümde alet çantamıza üç yeni ve inanılmaz derecede güçlü
otomatik EDA aracı ekledik: DataExplorer,
summarytools ve dlookr. Her biri, Bölüm 5.1’de
“elle” yaptığımız analizleri saniyelere indirgeyerek bize muazzam bir
hız kazandırdı.
Peki, bir kaşifin her zaman tek bir pusulaya güvenmemesi gibi, biz de her durumda tek bir pakete bağımlı kalmamalıyız. Her birinin parladığı ve daha az etkili olduğu anlar vardır. İşte bu üç aracı ne zaman ve neden kullanacağınıza dair pratik bir rehber: “Kaşifin Pusula Seçimi”.
DataExplorercreate_report()
fonksiyonu, tek bir komutla eksik değerlerden, tüm değişkenlerin
dağılımına ve korelasyon matrisine kadar her şeyi içeren kapsamlı,
interaktif bir HTML raporu sunar.summarytoolsdfSummary(),
freq() ve descr() fonksiyonları, standart R
özetlerinden çok daha zengin ve bilgilendirici çıktılar üretir.
Özellikle istatistiksel detaylar (çarpıklık, basıklık) ve frekans
tabloları konusunda rakipsizdir.freq), toprak yapısının (descr) ve
genel bulguların (dfSummary) detaylı analizini yaptığınız
defterinizdir.dlookrdiagnose() ve
plot_outlier() gibi fonksiyonlar, veri kalitesi sorunlarına
odaklanır. Bir değişkenin ne kadar “sağlıklı” olduğunu ve modelleme
öncesi bir “tedavi” (dönüşüm, temizlik vb.) gerektirip gerektirmediğini
anlamak için mükemmeldir.plot_outlier) test etmek için
kullandığınız teşhis kitinizdir.Bu bölümde, bir zanaatkarın sabrını, bir mühendisin hızıyla birleştirmeyi öğrendik. Artık biliyoruz ki:
Artık alet çantamız her zamankinden daha dolu. Hem veriyi en ince ayrıntısına kadar “elle” işleme yeteneğine, hem de bu süreci saniyelere indirgeyen otomatik araçlara sahibiz.
Peki bu yeni güçlerle, serimizin bir sonraki büyük macerası ne olacak? Sırada, veri hikayeciliğimizi bambaşka bir boyuta taşıyacak olan Bölüm 6: İleri Seviye Görselleştirme Atölyesi var!
Bu atölyede, standart grafiklerin ötesine geçerek alet çantamıza çok daha özel ve etkileyici araçlar ekleyeceğiz:
ggalluvial
ile Sankey grafikleri çizerek görselleştireceğiz.treemapify
ile Ağaç Haritaları’na dönüştüreceğiz.leaflet ile
interaktif haritalar üzerinde anlatacağız.plotly ile
interaktivite, gganimate ile
hareket katarak onlara adeta hayat vereceğiz!Bu atölyeyi tamamladıktan sonra ise, serimizin zirve noktasına, yani
Ustalık Projemize ulaşacağız. Bu atölyede öğrendiğimiz
leaflet ve plotly gibi tüm ileri seviye
yeteneklerimizi, en başından beri biriktirdiğimiz tüm bilgilerle
birleştirerek, portfolyomuza gururla ekleyeceğimiz bir eser yaratacağız:
“Ustalık Projesi: Sayıların Ardındaki Trajedi - Bir COVID-19
Veri Hikayesi” adında, baştan sona interaktif bir
Shiny uygulaması geliştireceğiz.
Ve ancak bu başyapıtı tamamladıktan sonra, veri biliminin bir sonraki
evrenine geçmeye hazır olacağız. İşte o zaman Modelleme
Dünyasına ilk adımımızı atacak; lm() ile ilk
tahmin modellerimizi kuracak ve olsrr gibi güçlü paketlerle
bu modellerin “sağlık kontrolünü” yapmayı öğreneceğiz.
Yolculuğumuz daha yeni başlıyor ve en heyecanlı maceralar daha önümüzde.
Veriyle kalın. Lütfen takipte kalın dostlar…