Ders-1 Ögrenme Gunlugu

İlk ders kapsamında veri inceleme ve veri temizleme yöntemlerini işledik. Burada ilk olarak kayıp verilerin türlerinden bahsettik. MCAR(tamamen rastlantısal), MAR(rastlantısal) ve MNAR(rastlantısal olmayan). Bunlar belirlemek için mcar testinin anlamlılık düzeyine göre rastlatısal olup olmama durumunu inceleyebiliyoruz. sonrasında kayıp verileri silebileceğimizden bahsettik. burada kayıp veri oranı %5’in altında ise silme işlemi önerilir değilse beklenti maksimizasyonu vr çoklu atama yöntemlerini kullanmak analiz için faydalıdır. Ortalama ya da medyan atama yöntemi ise standart sapmada düşüşe neden olabileceğinden kullanılması pek önerilmez. Bunları incelemek amacıyla RStudio ortamına SCREEN.SAV veri setini yükledik.

Veri setini yükleyip okuttuktan sonra summary() fonksiyonu ile kayıp veri sayısına göz attık(NA’s). Sonrasında describe(screen[,-1]) fonksiyonu ile veri seti hakkında detaylı istatistikleri inceledik. Burada -1 yapmamızın nedeni 1. değişkeni analizde kullanmayacağımız için işleme dahil etmek istemediğimizdir.Min, max, sd. vb. istatistikleri incelendikten sonra all_continous() fonksiyonu ile sürekli değişkenler için frekans tablosunu elde ettik. Burada vtable, skimr, kable gibi paketlerle de buna benzer frekans tablolarını elde etmek mümkün. Bu konuda DataExplorer paketi ile bir dış rapor elde ettik ve çıktıları inceledik. missing data profile ve bunaa benzer tablo ve grafiklerle kayıp veriler hakkkında detaylı bilgi edinebildik. Bu çıktı korelasyon grafiğini de bize sundu. Korelasyon grafiğini incelemek önemli çünkü iki değişken arasındaki ilişki çok yüksekse bunu bir değişken gibi verebilir ve bu yeni değişken diğer değişkenlerin etkisini bastırabilirm(0.80 üzeri çıktığında). Sonrasında kullnacağımız analizkerden biri olan Principal Component Analysis ile Principal Axis Factoring arasındaki farka dikkat çektik. PCA gözelenen değişkenlerden yola çıkarak yeni bir değişken oluşturmayı hedefler yani varyanslar birleştirilir.PAF ise varyansların ayrışmasını hedefler ve altta yatan diğer faktörleri ortaya çıkarır. Kayıp verilerin incelenmesinde kullanılan miss_case_table(), mis_var_table, mis_case_summary gibi değişken bazlı ve gözlem bazlı istaitiskler veren fonksiyonları kullandık. Eğer veri setinde ortak eksik veriler varsa bunu görmek için gg_miss_upset() fonksiyonunu kullanabiliriz. Sonrasında mcar_test(), ile kayıp verilerin rataltısal olup olmadığını inceledik. Elde edilen çıktıda p değeri analmlı ve missing değerinin 3 çıktığını gördük. Yani bu kayıp veri ve kayıp verinin rastgele olmadığına işaret eder. Finalfit paketiyle eksik veriye sahip olan ve olmayan değişkenlerin ortlamalarını karşılşatırabiliriz. Örneğin INCOME değişkeni ile ATTHOUSE değişkeni için bunu ele aldığımızda not miisng ve missing çıktılarını inceleyebiliriz. Burada p değere analamlı çıkmadığından (p>0.5) ATTHOUSE değişkenindeki eksik veri oranının INCOME değişkeni ile ilişkili olmadığını görebiliriz. Kayıp veriyle baş etme yöntemlerini incelediğimizde ilk olarak na.omit() fonksiyonu ile liste bazında silme işlemini yapabiliriz. Bir diğer seçenek ise çiftler bazında silmedir. Bu yöntem sadece dolu değişkenlerle işlem yapar. Her bir problemin farklı örneklemde gerçekleşmesinden dolayı pek önerilmez. Ortalama atama yöntemi ile de sd. küçülebilir ve anlamsız farklılıklar anlamlı hale gelebilir. Bu nedenele pek önerilmez. Benzer şekilde değişkenliği daha az azaltan medyan atama da kullanılan fakat önerilmeyen yöntemlerden biridir. Beklenti maksimizasyonu iki aşamadı gerçekleşir: Eksik verilerin doldrulması(beklenti) ve maksimum olabilirlik yöntemi ile tahmin etme(maksimizasyon). Bu işlem için impute_EM() fonksiyonu kullanılabilir. Bu fonksiyon PCA tabanlıdır. Eksik verisi olmayan gözlemlenen değişkenlerden PCA yapar ve eksik veriyi buna göre tamamlar. Aynı zamanda atama sonucunda oluşan hata değerlerini verir. Bir diğer yöntem is çoklu atama yöntemidir. Bu işlemle birkaç tane veriseti olşuturulup birleştirilir. En çok kullanılan yöntemlerden biridir. Mice paketinde yer alan mdpattern(), fonksiyonu ile eksik veriler görselleştirilebilir. -abbrevate() fonksiyonu uzun karakter dizilerini kısaltmak için kullanılabilir. Fonskiyon: imputed_data<- mice(screen), m=5##kaç impitution yapılacak##, maxit= 50 ^^ierasyon sayısı##, method=’pmm2 ##sürekli değişkenler için kullanılır. Eğer eksik veri kategorik değişkense Lojistik Rregresyon kulllanilabilir. ## Sonrasında lineer regresyon analizine geçtik. Burada ilk olarak with(imputed_data, lm(TIMEDRS~ATTHOUSE+INCOME)) işleminde data=… yazmadık çünkü imputed datada with() ile bu işlemi yaparız. With ayrı ayrı 5 iterasyon yapmak yerine (regresyon analizinde) 5 iterasyonu bir nesnede toplar. Pool() fonksiyonu da bu 5’inin ortlaamsını alır. Eğer bunları kullanmak istemezsek her bir tierasyonu alt alta yazıp sonrasında her birinin ortalamasını alabiliriz. Çıktıyı incelediğimizde estimate değeri 0.31 çıkıyor. Bu da ATTHOUSE değişkenindeki bir birimlik artış hastane ziyareti değişkeninde 0.31’lik bir artışa neden olur anlamına gelir. Snuç olarak ATHHOUSE değişkeninde kayıp veri bulunmamıştır. Veri setinde yer alan INCOME değişkeninde 26 kayıp veri %5’in üstüne takabül ettiğinden yukarıdaki yöntemlerden biri kullanılarak analize devam edilebilir.

Ders-1 Ögrenme Gunlugu

Onur Aktepe

2026-02-28