Giriş: Zanaatkarlıktan Mühendisliğe Geçiş

Merhaba Dostlar,

Bir önceki bölüm olan Mini-Bölüm 5.1’de, bir zanaatkarın sabrı ve titizliğiyle, her bir grafiği özenle çizerek ve her bulguyu adım adım keşfederek “Sigorta Masrafları” veri setinin ruhunu anladık. Bu “elle” yapılan Keşifsel Veri Analizi (EDA) yaklaşımı, bize verinin altında yatan dinamikleri en derin seviyede anlama imkanı verdi ve bu paha biçilmez bir deneyimdi.

Ama ya zamana karşı yarışıyorsak? Ya önümüzde keşfedilecek onlarca yeni veri seti varsa ve her birine haftalarımızı ayıramayacaksak? İşte o zaman bir veri kaşifinin en iyi dostu, verimli ve güçlü araçlardır.

Bu bölümde, zanaatkar titizliğimizi bir kenara bırakmadan, bir mühendisin hızı ve verimliliği ile tanışacağız. Bölüm 5.1’de saatler sürebilecek tüm o analiz sürecini, Otomatik EDA Paketleri sayesinde tek bir komutla saniyeler içinde nasıl yapabileceğimizi öğreneceğiz.

Hazırsanız, pusulamızı alıp keşif gezimizi ışık hızına çıkaralım!

1. Adım: Alet Çantamızdaki Yeni “Sihirli” Araçlar

R’ın en güzel yanlarından biri, açık kaynak topluluğunun sürekli olarak işlerimizi kolaylaştıran harika paketler geliştirmesidir. Keşifsel Veri Analizi süreci o kadar standart adımlar içerir ki, birçok zeki geliştirici bu adımları otomatize eden paketler yaratmıştır.

Bu bölümde, bu sihirli aletlerden en popüler ve en güçlü üç tanesini alet çantamıza ekleyeceğiz:

  1. DataExplorer: Bu paketi, projenin en başında hızlı bir “helikopter bakışı” atmak için kullanacağımız bir drone gibi düşünebiliriz. Tek bir komutla (create_report()), veri setimizdeki eksik değerlerden tüm değişkenlerin dağılımlarına, korelasyon matrisinden temel istatistiklere kadar her şeyi içeren kapsamlı ve interaktif bir HTML raporu oluşturur.

  1. summarytools: Bu paket, R’ın standart summary() fonksiyonunun süper güçlere sahip versiyonudur. Özellikle yayın kalitesinde, detaylı ve şık özet tabloları oluşturmak için tasarlanmıştır. dfSummary(), freq() ve descr() gibi fonksiyonları, analizlerimizi raporlarken bize inanılmaz bir kolaylık sağlayacak.

  1. dlookr: Bu paketi ise veri setimizin “doktoru” olarak görebiliriz. Sadece veriyi keşfetmekle kalmaz, aynı zamanda onu “teşhis” eder. plot_outlier gibi fonksiyonlarla aykırı değerleri, eksik verileri ve diğer potansiyel sorunları sistematik olarak tespit etmemize yardımcı olur.

Şimdi bu paketleri kuralım ve projemizde nasıl kullanacağımızı adım adım görelim.

1.1: Gerekli Paketlerin Kurulumu ve Yüklenmesi

Bu bölümde kullanacağımız üç yeni paketi de R ortamımıza kuralım. Bu işlemi sadece bir kere yapmamız yeterli olacaktır.

# Bu kod bloğunu sadece paketler yüklü değilse bir kere çalıştırın
install.packages("DataExplorer")
install.packages("summarytools")
install.packages("dlookr")

Artık paketlerimiz kurulduğuna göre, bu bölüm için gerekli olan kütüphaneleri çağıralım ve her zamanki gibi veri setimizi yükleyerek maceraya başlayalım.

# Temel kütüphanemiz
library(tidyverse)

# Yeni Otomatik EDA kütüphanelerimiz
library(DataExplorer)
library(summarytools)
library(dlookr)

# Analiz edeceğimiz veri setini yükleyelim
insurance_df <- read_csv("insurance.csv")

Harika! Artık hem veri setimiz hem de yeni süper güçlü araçlarımız hazır. Bir sonraki adımda, DataExplorer’ın tek bir komutla nasıl bir sihir yarattığını göreceğiz.