Merhaba Dostlar,
Bir önceki bölüm olan Mini-Bölüm 5.1’de, bir zanaatkarın sabrı ve titizliğiyle, her bir grafiği özenle çizerek ve her bulguyu adım adım keşfederek “Sigorta Masrafları” veri setinin ruhunu anladık. Bu “elle” yapılan Keşifsel Veri Analizi (EDA) yaklaşımı, bize verinin altında yatan dinamikleri en derin seviyede anlama imkanı verdi ve bu paha biçilmez bir deneyimdi.
Ama ya zamana karşı yarışıyorsak? Ya önümüzde keşfedilecek onlarca yeni veri seti varsa ve her birine haftalarımızı ayıramayacaksak? İşte o zaman bir veri kaşifinin en iyi dostu, verimli ve güçlü araçlardır.
Bu bölümde, zanaatkar titizliğimizi bir kenara bırakmadan, bir mühendisin hızı ve verimliliği ile tanışacağız. Bölüm 5.1’de saatler sürebilecek tüm o analiz sürecini, Otomatik EDA Paketleri sayesinde tek bir komutla saniyeler içinde nasıl yapabileceğimizi öğreneceğiz.
Hazırsanız, pusulamızı alıp keşif gezimizi ışık hızına çıkaralım!
R’ın en güzel yanlarından biri, açık kaynak topluluğunun sürekli olarak işlerimizi kolaylaştıran harika paketler geliştirmesidir. Keşifsel Veri Analizi süreci o kadar standart adımlar içerir ki, birçok zeki geliştirici bu adımları otomatize eden paketler yaratmıştır.
Bu bölümde, bu sihirli aletlerden en popüler ve en güçlü üç tanesini alet çantamıza ekleyeceğiz:
DataExplorer: Bu paketi, projenin en
başında hızlı bir “helikopter bakışı” atmak için kullanacağımız bir
drone gibi düşünebiliriz. Tek bir komutla
(create_report()), veri setimizdeki eksik değerlerden tüm
değişkenlerin dağılımlarına, korelasyon matrisinden temel istatistiklere
kadar her şeyi içeren kapsamlı ve interaktif bir HTML raporu
oluşturur.summarytools: Bu paket, R’ın standart
summary() fonksiyonunun süper güçlere sahip versiyonudur.
Özellikle yayın kalitesinde, detaylı ve şık özet tabloları oluşturmak
için tasarlanmıştır. dfSummary(), freq() ve
descr() gibi fonksiyonları, analizlerimizi raporlarken bize
inanılmaz bir kolaylık sağlayacak.dlookr: Bu paketi ise veri setimizin
“doktoru” olarak görebiliriz. Sadece veriyi keşfetmekle kalmaz, aynı
zamanda onu “teşhis” eder. plot_outlier gibi fonksiyonlarla
aykırı değerleri, eksik verileri ve diğer potansiyel sorunları
sistematik olarak tespit etmemize yardımcı olur.Şimdi bu paketleri kuralım ve projemizde nasıl kullanacağımızı adım adım görelim.
Bu bölümde kullanacağımız üç yeni paketi de R ortamımıza kuralım. Bu işlemi sadece bir kere yapmamız yeterli olacaktır.
# Bu kod bloğunu sadece paketler yüklü değilse bir kere çalıştırın
install.packages("DataExplorer")
install.packages("summarytools")
install.packages("dlookr")
Artık paketlerimiz kurulduğuna göre, bu bölüm için gerekli olan kütüphaneleri çağıralım ve her zamanki gibi veri setimizi yükleyerek maceraya başlayalım.
# Temel kütüphanemiz
library(tidyverse)
# Yeni Otomatik EDA kütüphanelerimiz
library(DataExplorer)
library(summarytools)
library(dlookr)
# Analiz edeceğimiz veri setini yükleyelim
insurance_df <- read_csv("insurance.csv")
Harika! Artık hem veri setimiz hem de yeni süper güçlü araçlarımız
hazır. Bir sonraki adımda, DataExplorer’ın tek bir komutla
nasıl bir sihir yarattığını göreceğiz.