** Ders Tekrarı ve Notları **

Miktar Kuralı: Kayıp veri oranı <%5 ise ve dağılım rastlantısalsa (MCAR), ciddi sorun yok. Ama,örneklem küçükse %5 bile önemli olabilir. Düşük oran + MCAR + yeterli örneklem = Listwise genellikle güvenlidir.

Örüntü Testi (Little’s MCAR Test): Amaç: Kayıp verinin rastlantısal olup olmadığını istatistiksel olarak test etmek. Hipotez (H0): Kayıp veri dağılımı rastlantısaldır. Yorum: p > .05 çıkması istenen durumdur. Bu, verinin tamamen rastlantısal (MCAR) dağıldığını gösterir.

Kayıp Veri Türleri:

A. MCAR (Missing Completely at Random - Tamamen Rastlantısal Kayıp)

Kayıp olma durumu, ne diğer değişkenlere ne de verinin kendisine bağlıdır. Tamamen tesadüfidir.

Etkisi: Silmek (Deletion) yansızlık (bias) yaratmaz, ancak örneklem küçüldüğü için istatistiksel güç (power) düşer.

B. MAR (Missing at Random - Rastlantısal Kayıp)

Kayıp olma olasılığı, veri setindeki başka bir gözlenen değişkene bağlıdır.

Örnek: Kadınların yaşlarını boş bırakma ihtimalinin erkeklerden yüksek olması (Cinsiyet değişkenine bağlı kayıp).

Tanılama Yöntemi (Görselleştirme ve T-Testi):

Değişkeni “Kayıp Olanlar” ve “Kayıp Olmayanlar” diye ikiye ayırıp, diğer değişkenlerdeki ortalamaları arasında fark var mı diye t-testi yapılır. Fark varsa MCAR değildir.Bu durum MAR olabilir veya MNAR olabilir.

Müdahale: Silinmemelidir (yanlılık yaratır). Atama (Imputation) yapılmalıdır. Araştıramaya dahil edip etmeyeceğini düşünebilirsin, sınırlılık olarak ifade edebilirsin.

C. MNAR (Missing Not at Random - Rastlantısal Olmayan Kayıp)

Kayıp olma sebebi, kayıp verinin kendisidir.

Örnek: Geliri çok yüksek olanların, “gelir” sorusunu boş bırakması.

Etkisi: En problemli durumdur. Standart yöntemler yanlı sonuç verir.

Kayıp Veri Başa Çıkma Yöntemleri:

A. Silme Yöntemleri (Deletion):

Listwise Deletion (Liste Bazında Silme): En az bir hücresi boş olan satırı komple atar.

Avantaj: Standart analizler için kolaydır.

Dezavantaj: Örneklem (N) ciddi oranda düşer, güç kaybı yaşanır. Sadece MCAR ise güvenlidir.

Pairwise Deletion (Çift Bazında Silme): Sadece o anki analizdeki korelasyon için kayıp olmayanları kullanır.

Risk: Kovaryans matrisini bozabilir (matematiksel olarak imkansız korelasyonlar üretebilir). Önerilmez.

B.Basit Atama Yöntemleri (Single Imputation)

Ortalama Atama (Mean Substitution): Kayıp yere serinin ortalamasını yazar.

Risk: Varyansı küçültür (veriyi merkeze yığar). Korelasyonları olduğundan düşük gösterir. Önerilmez.

Regresyon Atama: Diğer değişkenleri kullanarak kayıp veriyi tahmin eder.

Risk: Veriyi modele “çok mükemmel” uydurur (varyansı yapay olarak düzenler). Hata terimi eklenmezse sonuçlar yanıltıcı olabilir.

C. Modern ve Güçlü Yöntemler

Beklenti Maksimizasyon (EM - Expectation Maximization):

İteratif bir süreçtir. Parametreleri tahmin eder, yerine koyar, tekrar tahmin eder. Varyansı korumada ortalama atamadan çok daha iyidir.

Çoklu Atama (MI - Multiple Imputation)(En saygın yöntem):

Kayıp verinin yerine tek bir değer atamak yerine, belirsizliği de modele katarak birden fazla (örneğin 5 tane) set oluşturur ve bunların ortalamasını alır.

Önemli: İstatistiksel olarak en güçlü ve en az yanlı yöntemlerden biridir.

FIML (Full Information Maximum Likelihood):

Yapısal Eşitlik Modellemesi (SEM) yapacaksan, MI ile birlikte altın standarttır. Veriyi atamaz, mevcut veriyi kullanarak olabilirlik fonksiyonunu maksimize eder.

library(dplyr)
library(haven) # SPSS dosyalarını R ortamına aktarmak için haven paketi kullanıyoruz.
screen <- read_sav("SCREEN.sav")
screen <- expss::drop_var_labs(screen) 
head(screen) # Veri setinin ilk birkaç satırını görüntüle
summary(screen)
##      SUBNO          TIMEDRS          ATTDRUG          ATTHOUSE    
##  Min.   :  1.0   Min.   : 0.000   Min.   : 5.000   Min.   : 2.00  
##  1st Qu.:137.0   1st Qu.: 2.000   1st Qu.: 7.000   1st Qu.:21.00  
##  Median :314.0   Median : 4.000   Median : 8.000   Median :24.00  
##  Mean   :317.4   Mean   : 7.901   Mean   : 7.686   Mean   :23.54  
##  3rd Qu.:483.0   3rd Qu.:10.000   3rd Qu.: 9.000   3rd Qu.:27.00  
##  Max.   :758.0   Max.   :81.000   Max.   :10.000   Max.   :35.00  
##                                                    NA's   :1      
##      INCOME         EMPLMNT         MSTATUS           RACE      
##  Min.   : 1.00   Min.   :0.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.: 2.50   1st Qu.:0.000   1st Qu.:2.000   1st Qu.:1.000  
##  Median : 4.00   Median :0.000   Median :2.000   Median :1.000  
##  Mean   : 4.21   Mean   :0.471   Mean   :1.778   Mean   :1.088  
##  3rd Qu.: 6.00   3rd Qu.:1.000   3rd Qu.:2.000   3rd Qu.:1.000  
##  Max.   :10.00   Max.   :1.000   Max.   :2.000   Max.   :2.000  
##  NA's   :26

psych paketini kullanarak daha detaylı betimsel istatistikler elde edilir. burada -1 yapma sebebimiz subno yu analizin dışında bırakmak mad: median deviation

library(psych)
describe(screen[,-1])

gtsummary paketini kullanarak sunuma hazır tablolar oluşturulur.

library(gtsummary)
library(xfun)
library(tidyverse)
screen %>% 
  select(2:6) %>%
  tbl_summary(
    statistic = all_continuous() ~ c("{min}, {max}"),
    missing = "always"
  )
Characteristic N = 4651
TIMEDRS 0, 81
    Unknown 0
ATTDRUG
    5 13 (2.8%)
    6 60 (13%)
    7 126 (27%)
    8 149 (32%)
    9 95 (20%)
    10 22 (4.7%)
    Unknown 0
ATTHOUSE 2.0, 35.0
    Unknown 1
INCOME 1.00, 10.00
    Unknown 26
EMPLMNT 219 (47%)
    Unknown 0
1 Min, Max; n (%)

vtable paketini kullanarak özet tablolar oluşturulur.

library(vtable)
sumtable(screen, summ=c('notNA(x)','min(x)','max(x)'))
Summary Statistics
Variable NotNA Min Max
SUBNO 465 1 758
TIMEDRS 465 0 81
ATTDRUG 465 5 10
ATTHOUSE 464 2 35
INCOME 439 1 10
MSTATUS 465 1 2
RACE 465 1 2
st(screen, summ = c('notNA(x)','min(x)','max(x)'),
   summ.names = c('Frekans','Minimum','Maximum'))
Summary Statistics
Variable Frekans Minimum Maximum
SUBNO 465 1 758
TIMEDRS 465 0 81
ATTDRUG 465 5 10
ATTHOUSE 464 2 35
INCOME 439 1 10
MSTATUS 465 1 2
RACE 465 1 2

kable fonksiyonunu kullanarak markdown formatında tablolar oluşturulur.

kable(describe(screen[,-1]), format='markdown', caption="Betimsel İstatistikler", digits=2)
Betimsel İstatistikler
vars n mean sd median trimmed mad min max range skew kurtosis se
TIMEDRS 1 465 7.90 10.95 4 5.61 4.45 0 81 81 3.23 12.88 0.51
ATTDRUG 2 465 7.69 1.16 8 7.71 1.48 5 10 5 -0.12 -0.47 0.05
ATTHOUSE 3 464 23.54 4.48 24 23.62 4.45 2 35 33 -0.45 1.51 0.21
INCOME 4 439 4.21 2.42 4 4.01 2.97 1 10 9 0.58 -0.38 0.12
EMPLMNT 5 465 0.47 0.50 0 0.46 0.00 0 1 1 0.12 -1.99 0.02
MSTATUS 6 465 1.78 0.42 2 1.85 0.00 1 2 1 -1.34 -0.21 0.02
RACE 7 465 1.09 0.28 1 1.00 0.00 1 2 1 2.90 6.40 0.01

skimr paketini kullanarak veri setinin detaylı bir özet alınır.

library(skimr)
skim(screen)
Data summary
Name screen
Number of rows 465
Number of columns 8
_______________________
Column type frequency:
numeric 8
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
SUBNO 0 1.00 317.38 194.16 1 137.0 314 483 758 ▇▆▆▇▁
TIMEDRS 0 1.00 7.90 10.95 0 2.0 4 10 81 ▇▁▁▁▁
ATTDRUG 0 1.00 7.69 1.16 5 7.0 8 9 10 ▃▇▇▅▁
ATTHOUSE 1 1.00 23.54 4.48 2 21.0 24 27 35 ▁▁▅▇▂
INCOME 26 0.94 4.21 2.42 1 2.5 4 6 10 ▆▇▅▃▂
EMPLMNT 0 1.00 0.47 0.50 0 0.0 0 1 1 ▇▁▁▁▇
MSTATUS 0 1.00 1.78 0.42 1 2.0 2 2 2 ▂▁▁▁▇
RACE 0 1.00 1.09 0.28 1 1.0 1 1 2 ▇▁▁▁▁

DataExplorer paketini kullanarak veri seti hakkında otomatik bir rapor oluşturulur.

library(DataExplorer)

Kategorik değişkende qq plot bakılmaz!

create_report(screen)
##   |                                             |                                     |   0%  |                                             |.                                    |   2%                                   |                                             |..                                   |   5% [global_options]                  |                                             |...                                  |   7%                                   |                                             |....                                 |  10% [introduce]                       |                                             |....                                 |  12%                                   |                                             |.....                                |  14% [plot_intro]
##   |                                             |......                               |  17%                                   |                                             |.......                              |  19% [data_structure]                  |                                             |........                             |  21%                                   |                                             |.........                            |  24% [missing_profile]
##   |                                             |..........                           |  26%                                   |                                             |...........                          |  29% [univariate_distribution_header]  |                                             |...........                          |  31%                                   |                                             |............                         |  33% [plot_histogram]
##   |                                             |.............                        |  36%                                   |                                             |..............                       |  38% [plot_density]                    |                                             |...............                      |  40%                                   |                                             |................                     |  43% [plot_frequency_bar]              |                                             |.................                    |  45%                                   |                                             |..................                   |  48% [plot_response_bar]               |                                             |..................                   |  50%                                   |                                             |...................                  |  52% [plot_with_bar]                   |                                             |....................                 |  55%                                   |                                             |.....................                |  57% [plot_normal_qq]
##   |                                             |......................               |  60%                                   |                                             |.......................              |  62% [plot_response_qq]                |                                             |........................             |  64%                                   |                                             |.........................            |  67% [plot_by_qq]                      |                                             |..........................           |  69%                                   |                                             |..........................           |  71% [correlation_analysis]
##   |                                             |...........................          |  74%                                   |                                             |............................         |  76% [principal_component_analysis]
##   |                                             |.............................        |  79%                                   |                                             |..............................       |  81% [bivariate_distribution_header]   |                                             |...............................      |  83%                                   |                                             |................................     |  86% [plot_response_boxplot]           |                                             |.................................    |  88%                                   |                                             |.................................    |  90% [plot_by_boxplot]                 |                                             |..................................   |  93%                                   |                                             |...................................  |  95% [plot_response_scatterplot]       |                                             |.................................... |  98%                                   |                                             |.....................................| 100% [plot_by_scatterplot]           
## /Applications/RStudio.app/Contents/Resources/app/quarto/bin/tools/x86_64/pandoc +RTS -K512m -RTS '/Users/DilekBozu/Documents/R PROJECTS/OLC 733/report.knit.md' --to html4 --from markdown+autolink_bare_uris+tex_math_single_backslash --output pandoc29ba19413d72.html --lua-filter /Library/Frameworks/R.framework/Versions/4.5-x86_64/Resources/library/rmarkdown/rmarkdown/lua/pagebreak.lua --lua-filter /Library/Frameworks/R.framework/Versions/4.5-x86_64/Resources/library/rmarkdown/rmarkdown/lua/latex-div.lua --lua-filter /Library/Frameworks/R.framework/Versions/4.5-x86_64/Resources/library/rmarkdown/rmarkdown/lua/table-classes.lua --embed-resources --standalone --variable bs3=TRUE --section-divs --table-of-contents --toc-depth 6 --template /Library/Frameworks/R.framework/Versions/4.5-x86_64/Resources/library/rmarkdown/rmd/h/default.html --no-highlight --variable highlightjs=1 --variable theme=yeti --mathjax --variable 'mathjax-url=https://mathjax.rstudio.com/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML' --include-in-header /var/folders/bz/gg0rp9ts5lj5xh_6pqyhc8_h0000gp/T//RtmplfgQSK/rmarkdown-str29ba20220431.html

funModeling paketini kullanarak veri setindeki eksik değerler ve benzersiz değerler hızlıca özetlenir.

library(funModeling)
df_status(screen)
##   variable q_zeros p_zeros q_na p_na q_inf p_inf    type unique
## 1    SUBNO       0    0.00    0 0.00     0     0 numeric    465
## 2  TIMEDRS      42    9.03    0 0.00     0     0 numeric     43
## 3  ATTDRUG       0    0.00    0 0.00     0     0 numeric      6
## 4 ATTHOUSE       0    0.00    1 0.22     0     0 numeric     26
## 5   INCOME       0    0.00   26 5.59     0     0 numeric     10
## 6  EMPLMNT     246   52.90    0 0.00     0     0 numeric      2
## 7  MSTATUS       0    0.00    0 0.00     0     0 numeric      2
## 8     RACE       0    0.00    0 0.00     0     0 numeric      2

** Kayıp Veri Analizi**

library(naniar)
library(ggplot2)
any_na(screen) # Veri setinde herhangi bir kayıp değer olup olmadığı kontrol edilir
## [1] TRUE
n_miss(screen) # Veri setindeki toplam kayıp değer sayısını verir
## [1] 27
prop_miss(screen) # Oranını hesaplar
## [1] 0.007258065
screen%>% is.na %>% colSums() # Her bir değişkendeki kayıp değer sayısını hesaplar.
##    SUBNO  TIMEDRS  ATTDRUG ATTHOUSE   INCOME  EMPLMNT  MSTATUS     RACE 
##        0        0        0        1       26        0        0        0
miss_var_summary(screen) # Değişken ve gözlem bazında kayıp veri özetlerini verir. 
miss_var_table(screen)
miss_case_summary(screen)
miss_case_table(screen)

Kayıp veriyi görselleştirmek için çeşitli grafikler oluşturma:

library(rlang)
library(ggplot2)
library(UpSetR)
library(naniar)
gg_miss_upset(screen)

vis_miss(screen)+ theme(axis.text.x=element_text(angle=80)) 

MCAR Testi

library(naniar)
mcar_test(data=screen[,c(2,3,4,5,7,8)]) # Subno ve employment değişkenlerini almadık. 
# Sonuç:p <.05, kayıp veri rastgele değil demek. Bu yüzden, kayıp veri ne ile ilişkili ona bakmamız gerekiyor. 
# Kikare analizi: Büyük örneklemden etkilenmiş olabilir.

2. adım: Veri kaybı diğer değişkenlerle ilişkili olup olmadığının kontrolü

# değişkeni kopyala
screen2 <- screen
screen2$INCOME_m <- screen2$INCOME # en fazla eksik veri income da olduğu için bunu seçtik. 

library(finalfit)
#income da eksik verisi olan ve olmayan kişilerin sırasıyla diğer değişkenlerdeki ortalamaları arasında fark var mı diye t-testi yapılıyor.

explanatory = c("TIMEDRS", "ATTDRUG", "ATTHOUSE")
dependent = "INCOME_m" 
screen2 %>% 
  missing_compare(dependent, explanatory) %>% 
    knitr::kable(row.names=FALSE, align = c("l", "l", "r", "r", "r"), 
        caption = "Eksik veriye sahip olan ve olmayan değişkenlerin ortalama karşılaştırması") 
Eksik veriye sahip olan ve olmayan değişkenlerin ortalama karşılaştırması
Missing data analysis: INCOME_m Not missing Missing p
TIMEDRS Mean (SD) 7.9 (11.1) 7.6 (7.4) 0.891
ATTDRUG Mean (SD) 7.7 (1.2) 7.9 (1.0) 0.368
ATTHOUSE Mean (SD) 23.5 (4.5) 23.7 (4.2) 0.860
# tabloda parantez içindekiler standart sapma değerleri.
# income değişkenindeki eksik veri analizdeki hiçbir değişkenle ilgili çıkmadı, hepsi p>.05 olduğu için. 

Finalfit paketinin yaptığının ayrı ayrı t testi ile yapılması:

library(tidyverse)
miss_test <- screen2 %>%mutate(miss_income = is.na(INCOME))
  
# income değişkeninde eksik verisi olmayanlar
ATTHOUSE_nonna <- miss_test %>% filter(miss_income == FALSE) %>%
   pull(ATTHOUSE)
  
# income değişkeninde eksik verisi olanlar
ATTHOUSE_na <- miss_test %>% filter(miss_income == TRUE) %>%
   pull(ATTHOUSE)  
#c Oran
t.test(ATTHOUSE_nonna, ATTHOUSE_na)
## 
##  Welch Two Sample t-test
## 
## data:  ATTHOUSE_nonna and ATTHOUSE_na
## t = -0.18904, df = 28.553, p-value = 0.8514
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.896325  1.575636
## sample estimates:
## mean of x mean of y 
##  23.53196  23.69231

** Kayıp Veriyle Baş Etme Yöntemleri**

Veri Silmeye Dayalı Yöntemler Liste Bazında Silme

na.omit(screen)

Çiftler Bazında Silme: Sadece tamamen dolu gözlemler ile analiz yapar, çok önerilmez çünkü örneklem değişmiş oluyor.

Veri Atamaya Dayalı Yöntemler Ortalama ile Atama:

Kayıp değerler, değişkenin ortalaması ile doldurulur.

Problem: standart sapmayı düşürür. Bu değer küçüldükçe istatistiksel olarak anlamsız olan değerleristatistiksel olarak anlamlı hale getirebilir. Ortalama yerine medyan atamak tavsiye edilir değişkenliği daha az azalttığı için.

screen3 <- screen
screen3$INCOME[is.na(screen3$INCOME)] <- mean(screen3$INCOME, na.rm=TRUE)
summary(screen3$INCOME)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    3.00    4.00    4.21    6.00   10.00
sd(screen$INCOME,na.rm=TRUE)
## [1] 2.418875
sd(screen3$INCOME)
## [1] 2.350128

Döngü ile Ortalama Atama:

Birden fazla değişken için kayıp değerleri ortalamayla doldururma

screen4 <- screen[,2:5]
for(i in 1:ncol(screen4)){
  screen4[ , i][is.na(screen4[ , i])] <- mean(screen4[ , i], na.rm = TRUE)
}
any_na(screen4)
## [1] FALSE

Transform Fonksiyonu ile Atama: Transform fonksiyonunu kullanarak kayıp değerleri ortalamayla doldurma

screen5 <- screen
screen5 = mutate(screen5, INCOME = ifelse(is.na(INCOME), mean(INCOME, na.rm=TRUE), INCOME))
summary(screen5) 
##      SUBNO          TIMEDRS          ATTDRUG          ATTHOUSE    
##  Min.   :  1.0   Min.   : 0.000   Min.   : 5.000   Min.   : 2.00  
##  1st Qu.:137.0   1st Qu.: 2.000   1st Qu.: 7.000   1st Qu.:21.00  
##  Median :314.0   Median : 4.000   Median : 8.000   Median :24.00  
##  Mean   :317.4   Mean   : 7.901   Mean   : 7.686   Mean   :23.54  
##  3rd Qu.:483.0   3rd Qu.:10.000   3rd Qu.: 9.000   3rd Qu.:27.00  
##  Max.   :758.0   Max.   :81.000   Max.   :10.000   Max.   :35.00  
##                                                    NA's   :1      
##      INCOME         EMPLMNT         MSTATUS           RACE      
##  Min.   : 1.00   Min.   :0.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.: 3.00   1st Qu.:0.000   1st Qu.:2.000   1st Qu.:1.000  
##  Median : 4.00   Median :0.000   Median :2.000   Median :1.000  
##  Mean   : 4.21   Mean   :0.471   Mean   :1.778   Mean   :1.088  
##  3rd Qu.: 6.00   3rd Qu.:1.000   3rd Qu.:2.000   3rd Qu.:1.000  
##  Max.   :10.00   Max.   :1.000   Max.   :2.000   Max.   :2.000  
## 

Model Tabanlı Yöntemler EM Algoritması Sürekli veride yapılabilecek bir işlem.

library(mvdalab)
dat <- introNAs(iris, percent = 25)
dat_EM<- imputeEM(dat)
dat_EM

##     Sepal.Length Sepal.Width Petal.Length Petal.Width Speciessetosa
## 1       5.100000    3.500000     1.598732   0.2000000    0.95062295
## 2       4.900000    3.000000     1.582748   0.2000000    1.00000000
## 3       4.700000    3.200000     1.300000   0.2000000    1.00000000
## 4       4.600000    3.488605     1.500000   0.1283107    1.00000000
## 5       5.000000    3.491619     1.400000   0.2000000    1.00000000
## 6       5.088357    3.234833     1.700000   0.4770233    0.72732010
## 7       4.985320    3.257626     1.400000   0.3710002    0.78697299
## 8       5.000000    3.400000     1.500000   0.2494160    1.00000000
## 9       4.400000    2.900000     1.400000   0.2000000    1.00000000
## 10      4.883070    3.100000     1.465054   0.1000000    1.00000000
## 11      5.400000    3.700000     1.500000   0.2000000    1.00000000
## 12      4.939181    3.485187     1.600000   0.2000000    1.00000000
## 13      4.800000    3.000000     1.400000   0.1000000    1.00000000
## 14      4.714793    3.292345     1.100000   0.1000000    0.92395108
## 15      4.891090    3.496465     1.200000   0.2000000    1.00000000
## 16      5.700000    4.400000     1.500000   0.4000000    1.38194379
## 17      5.400000    3.900000     2.165017   0.5754077    1.02680157
## 18      5.100000    3.500000     1.400000   0.3000000    1.00000000
## 19      5.291756    3.800000     1.700000   0.4261072    1.05600026
## 20      5.100000    3.800000     1.500000   0.3000000    1.11500534
## 21      5.400000    3.400000     1.700000   0.2000000    1.00000000
## 22      5.100000    3.700000     1.500000   0.4000000    1.00000000
## 23      4.600000    3.600000     1.000000   0.2000000    1.00000000
## 24      5.031215    3.300000     1.700000   0.5000000    1.00000000
## 25      4.800000    3.400000     1.900000   0.2000000    0.90223752
## 26      4.939181    3.485187     1.600000   0.2000000    1.00000000
## 27      5.000000    3.400000     2.021943   0.4697132    0.80615508
## 28      5.200000    3.500000     1.500000   0.2000000    0.95381598
## 29      5.200000    3.400000     1.400000   0.2000000    1.00000000
## 30      4.700000    3.200000     1.363206   0.1859616    1.00000000
## 31      4.800000    3.100000     1.600000   0.2000000    1.00000000
## 32      5.090568    3.400000     1.500000   0.3980545    0.86542796
## 33      4.917323    4.100000     1.500000   0.1000000    1.00000000
## 34      5.500000    4.200000     1.400000   0.2000000    1.00000000
## 35      4.922577    3.100000     1.556001   0.2000000    1.00000000
## 36      4.987042    3.200000     1.860738   0.2000000    0.76236840
## 37      4.901371    3.493773     1.300000   0.1854555    1.00000000
## 38      4.900000    3.600000     1.237454   0.1000000    1.00000000
## 39      4.925304    3.000000     1.604043   0.2000000    1.00000000
## 40      4.924191    3.400000     1.500000   0.2000000    1.00000000
## 41      5.000000    3.500000     1.300000   0.3000000    1.00000000
## 42      4.500000    2.300000     1.300000   0.3000000    0.34050269
## 43      4.400000    3.200000     1.186173   0.2000000    1.00000000
## 44      5.000000    3.500000     1.600000   0.6000000    1.00000000
## 45      5.100000    3.800000     1.900000   0.4000000    1.00000000
## 46      4.800000    3.000000     1.400000   0.3000000    0.69961171
## 47      5.100000    3.800000     1.333707   0.2000000    1.00000000
## 48      4.600000    3.159221     1.400000   0.1384231    0.83137484
## 49      5.300000    3.700000     1.501602   0.2000000    1.00000000
## 50      5.000000    3.300000     1.400000   0.2000000    1.00000000
## 51      5.699293    3.200000     3.917005   1.4000000    0.00000000
## 52      6.400000    3.200000     4.500000   1.5000000    0.00000000
## 53      5.612535    3.100000     3.758989   1.1700664    0.00000000
## 54      5.662145    2.612772     4.000000   1.3000000    0.00000000
## 55      6.500000    2.800000     4.600000   1.5000000    0.00000000
## 56      5.728718    2.800000     4.500000   1.3000000    0.00000000
## 57      6.300000    3.300000     4.700000   1.6000000    0.00000000
## 58      4.900000    2.400000     3.300000   1.0000000    0.00000000
## 59      6.600000    2.900000     4.600000   1.3000000    0.00000000
## 60      5.681576    2.700000     3.900000   1.4000000    0.00000000
## 61      5.000000    2.000000     3.500000   1.0000000    0.00000000
## 62      5.755877    3.000000     4.200000   1.5000000    0.00000000
## 63      5.568539    2.200000     4.033635   1.0000000    0.00000000
## 64      6.100000    2.900000     4.446309   1.4000000    0.10511638
## 65      5.600000    2.628503     3.600000   1.2219962    0.00000000
## 66      5.971019    3.100000     4.134782   1.4000000    0.25502395
## 67      5.600000    3.000000     4.500000   1.2730183    0.00000000
## 68      5.800000    2.627728     4.100000   1.0000000    0.00000000
## 69      6.200000    2.200000     4.500000   1.5000000    0.00000000
## 70      5.690549    2.500000     4.189316   1.3374917    0.00000000
## 71      5.900000    2.564067     4.800000   1.8000000    0.00000000
## 72      6.100000    2.800000     4.000000   1.3000000    0.00000000
## 73      6.300000    2.500000     4.900000   1.5000000    0.00000000
## 74      6.100000    2.800000     4.700000   1.2000000    0.06106463
## 75      5.638540    2.900000     3.902431   1.2258748    0.00000000
## 76      6.600000    3.113979     4.400000   1.7051263    0.11973821
## 77      5.793690    2.800000     4.800000   1.4000000    0.00000000
## 78      6.700000    3.000000     5.000000   1.7000000    0.00000000
## 79      5.746981    2.900000     4.152078   1.5000000    0.00000000
## 80      5.700000    2.600000     4.138258   1.3185217    0.00000000
## 81      5.500000    2.621689     3.800000   1.2214280    0.00000000
## 82      5.500000    2.400000     3.700000   1.0000000    0.00000000
## 83      5.800000    2.700000     3.900000   1.2000000    0.00000000
## 84      5.884188    2.700000     5.100000   1.6000000    0.00000000
## 85      5.400000    3.000000     4.500000   1.5000000    0.00000000
## 86      5.833287    3.400000     4.500000   1.6000000    0.00000000
## 87      6.700000    3.100000     4.700000   1.5000000    0.00000000
## 88      5.814936    3.074117     3.820729   1.2246621    0.30667189
## 89      5.686492    3.000000     4.100000   1.3000000    0.00000000
## 90      5.500000    2.500000     4.000000   1.3000000    0.00000000
## 91      5.500000    2.600000     4.400000   1.2983929    0.00000000
## 92      5.775686    3.000000     4.600000   1.4000000    0.00000000
## 93      5.800000    2.616230     4.117375   1.2000000    0.00000000
## 94      5.000000    2.300000     3.300000   1.0000000    0.02190306
## 95      5.600000    2.700000     4.200000   1.3000000    0.00000000
## 96      5.946991    3.044899     4.200000   1.3605491    0.23021273
## 97      5.700000    2.900000     4.200000   1.3000000    0.00000000
## 98      5.833072    2.900000     4.061221   1.3000000    0.17464536
## 99      5.100000    2.500000     3.675696   1.1000000    0.00000000
## 100     5.700000    2.800000     4.100000   1.3000000    0.00000000
## 101     6.300000    3.300000     6.000000   2.5000000    0.00000000
## 102     6.662646    2.700000     5.100000   1.9000000    0.00000000
## 103     7.100000    3.000000     6.207641   2.1000000   -0.17947534
## 104     6.300000    3.223028     5.600000   1.8000000    0.00000000
## 105     6.500000    3.000000     5.769672   2.2000000    0.00000000
## 106     6.916720    3.183142     6.600000   2.1000000    0.00000000
## 107     4.900000    2.500000     4.500000   1.7000000    0.00000000
## 108     7.300000    3.190489     6.210263   2.2751987    0.00000000
## 109     6.700000    2.500000     5.800000   2.1637073   -0.40657090
## 110     7.200000    3.600000     6.100000   2.5000000    0.00000000
## 111     6.500000    3.200000     5.527788   1.9802063    0.00000000
## 112     6.400000    2.700000     5.300000   1.9000000    0.00000000
## 113     6.784471    3.214157     5.500000   2.1000000    0.00000000
## 114     6.777111    3.214720     5.695696   2.0000000    0.00000000
## 115     5.808215    2.800000     4.124139   1.3328382    0.11310384
## 116     6.400000    3.200000     5.300000   2.3000000    0.02865351
## 117     6.500000    3.000000     5.500000   1.8000000    0.00000000
## 118     7.700000    3.800000     6.700000   2.2000000    0.00000000
## 119     7.700000    3.171034     6.900000   2.3000000    0.00000000
## 120     6.000000    2.982531     5.000000   1.5750265    0.10006592
## 121     6.900000    3.200000     5.700000   2.3000000    0.00000000
## 122     5.600000    2.870746     4.900000   2.0000000    0.02631659
## 123     6.888178    2.800000     6.700000   2.0000000    0.00000000
## 124     6.300000    2.700000     4.900000   1.7504434   -0.11957479
## 125     6.700000    3.300000     5.700000   2.0399199    0.00000000
## 126     7.200000    3.225602     5.819428   1.8000000    0.00000000
## 127     6.200000    2.800000     4.800000   1.8000000   -0.05586557
## 128     6.100000    3.241620     4.900000   1.8000000    0.00000000
## 129     6.400000    2.800000     5.600000   2.1000000   -0.18664132
## 130     6.678164    3.231868     5.800000   1.6000000    0.00000000
## 131     7.400000    3.213625     6.100000   1.9000000    0.00000000
## 132     7.061994    3.800000     6.400000   2.0000000    0.26744914
## 133     6.400000    2.800000     5.600000   2.2000000    0.00000000
## 134     6.551209    2.800000     5.100000   1.5000000    0.00000000
## 135     6.100000    2.600000     5.173151   1.4000000    0.00000000
## 136     7.700000    3.194523     6.100000   2.3000000    0.00000000
## 137     6.300000    3.400000     5.600000   2.4000000    0.00000000
## 138     6.400000    3.100000     5.500000   1.8437216    0.03439036
## 139     6.000000    3.243575     4.800000   1.8000000    0.00000000
## 140     6.900000    3.100000     5.400000   2.1000000    0.00000000
## 141     6.700000    3.100000     5.979587   2.4000000    0.00000000
## 142     6.606388    2.939376     5.100000   2.3000000   -0.12000333
## 143     6.662646    2.700000     5.100000   1.9000000    0.00000000
## 144     6.800000    3.200000     5.900000   2.1072108    0.00000000
## 145     6.925795    3.300000     5.700000   2.5000000    0.00000000
## 146     6.901687    3.000000     6.074152   2.3000000    0.00000000
## 147     6.644315    2.500000     5.000000   1.9000000    0.00000000
## 148     6.500000    3.000000     5.200000   2.0000000    0.00000000
## 149     6.200000    3.223120     5.400000   1.8822075    0.00000000
## 150     5.900000    3.000000     5.100000   1.8000000    0.00000000
##     Speciesversicolor Speciesvirginica
## 1         -0.01252633       0.06190338
## 2          0.00000000       0.00000000
## 3          0.00000000       0.00000000
## 4          0.00000000       0.00000000
## 5          0.00000000       0.00000000
## 6          0.29849148      -0.02581158
## 7          0.28876417      -0.07573716
## 8          0.00000000       0.00000000
## 9          0.00000000       0.00000000
## 10         0.00000000       0.00000000
## 11         0.00000000       0.00000000
## 12         0.00000000       0.00000000
## 13         0.00000000       0.00000000
## 14         0.29616480      -0.22011588
## 15         0.00000000       0.00000000
## 16        -1.19634917       0.81440538
## 17        -0.54961089       0.52280933
## 18         0.00000000       0.00000000
## 19        -0.43092690       0.37492663
## 20        -0.37237786       0.25737252
## 21         0.00000000       0.00000000
## 22         0.00000000       0.00000000
## 23         0.00000000       0.00000000
## 24         0.00000000       0.00000000
## 25         0.16321394      -0.06545146
## 26         0.00000000       0.00000000
## 27         0.11732525       0.07651967
## 28        -0.03099605       0.07718007
## 29         0.00000000       0.00000000
## 30         0.00000000       0.00000000
## 31         0.00000000       0.00000000
## 32         0.06496431       0.06960773
## 33         0.00000000       0.00000000
## 34         0.00000000       0.00000000
## 35         0.00000000       0.00000000
## 36         0.32851412      -0.09088253
## 37         0.00000000       0.00000000
## 38         0.00000000       0.00000000
## 39         0.00000000       0.00000000
## 40         0.00000000       0.00000000
## 41         0.00000000       0.00000000
## 42         1.52032490      -0.86082759
## 43         0.00000000       0.00000000
## 44         0.00000000       0.00000000
## 45         0.00000000       0.00000000
## 46         0.63354712      -0.33315883
## 47         0.00000000       0.00000000
## 48         0.47626408      -0.30763892
## 49         0.00000000       0.00000000
## 50         0.00000000       0.00000000
## 51         1.00000000       0.00000000
## 52         1.00000000       0.00000000
## 53         1.00000000       0.00000000
## 54         1.00000000       0.00000000
## 55         1.00000000       0.00000000
## 56         1.00000000       0.00000000
## 57         1.00000000       0.00000000
## 58         1.00000000       0.00000000
## 59         1.00000000       0.00000000
## 60         1.00000000       0.00000000
## 61         1.00000000       0.00000000
## 62         1.00000000       0.00000000
## 63         1.00000000       0.00000000
## 64         0.52738455       0.36749907
## 65         1.00000000       0.00000000
## 66         0.31688897       0.42808708
## 67         1.00000000       0.00000000
## 68         1.00000000       0.00000000
## 69         1.00000000       0.00000000
## 70         1.00000000       0.00000000
## 71         1.00000000       0.00000000
## 72         1.00000000       0.00000000
## 73         1.00000000       0.00000000
## 74         0.65234262       0.28659275
## 75         1.00000000       0.00000000
## 76         0.20971211       0.67054968
## 77         1.00000000       0.00000000
## 78         1.00000000       0.00000000
## 79         1.00000000       0.00000000
## 80         1.00000000       0.00000000
## 81         1.00000000       0.00000000
## 82         1.00000000       0.00000000
## 83         1.00000000       0.00000000
## 84         1.00000000       0.00000000
## 85         1.00000000       0.00000000
## 86         1.00000000       0.00000000
## 87         1.00000000       0.00000000
## 88         0.36707628       0.32625183
## 89         1.00000000       0.00000000
## 90         1.00000000       0.00000000
## 91         1.00000000       0.00000000
## 92         1.00000000       0.00000000
## 93         1.00000000       0.00000000
## 94         1.43595263      -0.45785569
## 95         1.00000000       0.00000000
## 96         0.37955233       0.39023494
## 97         1.00000000       0.00000000
## 98         0.57257256       0.25278208
## 99         1.00000000       0.00000000
## 100        1.00000000       0.00000000
## 101        0.00000000       1.00000000
## 102        0.00000000       1.00000000
## 103        0.23254003       0.94693531
## 104        0.00000000       1.00000000
## 105        0.00000000       1.00000000
## 106        0.00000000       1.00000000
## 107        0.00000000       1.00000000
## 108        0.00000000       1.00000000
## 109        0.89986294       0.50670796
## 110        0.00000000       1.00000000
## 111        0.00000000       1.00000000
## 112        0.00000000       1.00000000
## 113        0.00000000       1.00000000
## 114        0.00000000       1.00000000
## 115        0.69755505       0.18934111
## 116        0.10744020       0.86390629
## 117        0.00000000       1.00000000
## 118        0.00000000       1.00000000
## 119        0.00000000       1.00000000
## 120        0.42211299       0.47782109
## 121        0.00000000       1.00000000
## 122        0.57526432       0.39841909
## 123        0.00000000       1.00000000
## 124        0.73035452       0.38922027
## 125        0.00000000       1.00000000
## 126        0.00000000       1.00000000
## 127        0.62444085       0.43142472
## 128        0.00000000       1.00000000
## 129        0.59032825       0.59631307
## 130        0.00000000       1.00000000
## 131        0.00000000       1.00000000
## 132       -0.66009912       1.39264998
## 133        0.00000000       1.00000000
## 134        0.00000000       1.00000000
## 135        0.00000000       1.00000000
## 136        0.00000000       1.00000000
## 137        0.00000000       1.00000000
## 138        0.24022688       0.72538276
## 139        0.00000000       1.00000000
## 140        0.00000000       1.00000000
## 141        0.00000000       1.00000000
## 142        0.38891108       0.73109225
## 143        0.00000000       1.00000000
## 144        0.00000000       1.00000000
## 145        0.00000000       1.00000000
## 146        0.00000000       1.00000000
## 147        0.00000000       1.00000000
## 148        0.00000000       1.00000000
## 149        0.00000000       1.00000000
## 150        0.00000000       1.00000000

Fonksiyon kullanımı: imputeEM(data, impute.ncomps = 2, pca.ncomps = 2, CV = TRUE, Init = “mean”, scale = TRUE, iters = 25, tol = .Machine$double.eps^0.25)

data: Eksik değerlere sahip veri kümesi.

impute.ncomps: Test edilecek minimum bileşen sayısını belirler. EM algoritması için kullanılacak bileşen sayısını belirlemek amacıyla çeşitli bileşen sayıları test edilir.

pca.ncomps: Eksik veri tamamlama işlemi için kullanılacak minimum bileşen sayısını belirler. PCA (Principal Component Analysis) tabanlı tamamlama işlemi yapılıyorsa kaç bileşenin kullanılacağını belirler.

CV: Eğer TRUE ise, çapraz doğrulama (cross-validation) kullanılarak optimal bileşen sayısı belirlenir.

Init: Sürekli değişkenler için başlangıç değerinin mean (ortalama) veya median (medyan) olarak belirlenmesini sağlar.

scale: TRUE ise değişkenler birim varyansa (standart sapma = 1) ölçeklendirilir.

iters: EM algoritmasının kaç iterasyon süreceğini belirler.

tol: İterasyonların yakınsama (convergence) eşiğini belirler. Yani, ardışık iterasyonlardaki değişim bu eşiğin altına düşerse algoritma durur.

dat_EM$pca.ncomps # Kullanılan bileşen sayısı (impute.ncomps değeri).
## [1] 2
dat_EM$CV.Results # Çapraz doğrulama sonuçları. Optimal bileşen sayısının belirlenmesi için kullanılan bilgiler içerir.
dat_EM$Imputed.DataFrames # EM iterasyonları boyunca sürekli değişkenler için üretilen tahmini değerlerin listesi.
## [[1]]
##     Sepal.Length Sepal.Width Petal.Length Petal.Width Speciessetosa
## 1       5.100000    3.500000     1.572433   0.2000000   0.888443862
## 2       4.900000    3.000000     1.738130   0.2000000   1.000000000
## 3       4.700000    3.200000     1.300000   0.2000000   1.000000000
## 4       4.600000    3.411823     1.500000   0.1164440   1.000000000
## 5       5.000000    3.382802     1.400000   0.2000000   1.000000000
## 6       4.955758    3.353582     1.700000   0.2976401   0.853517731
## 7       4.833874    3.395190     1.400000   0.1681921   0.928790751
## 8       5.000000    3.400000     1.500000   0.2148192   1.000000000
## 9       4.400000    2.900000     1.400000   0.2000000   1.000000000
## 10      4.918124    3.100000     1.618795   0.1000000   1.000000000
## 11      5.400000    3.700000     1.500000   0.2000000   1.000000000
## 12      4.862283    3.385492     1.600000   0.2000000   1.000000000
## 13      4.800000    3.000000     1.400000   0.1000000   1.000000000
## 14      4.737821    3.427980     1.100000   0.1000000   0.988110881
## 15      4.816289    3.401193     1.200000   0.2000000   1.000000000
## 16      5.700000    4.400000     1.500000   0.4000000   0.945529361
## 17      5.400000    3.900000     1.299052   0.1190903   0.957343087
## 18      5.100000    3.500000     1.400000   0.3000000   1.000000000
## 19      4.605958    3.800000     1.700000  -0.0738681   1.069546905
## 20      5.100000    3.800000     1.500000   0.3000000   0.938078616
## 21      5.400000    3.400000     1.700000   0.2000000   1.000000000
## 22      5.100000    3.700000     1.500000   0.4000000   1.000000000
## 23      4.600000    3.600000     1.000000   0.2000000   1.000000000
## 24      4.966406    3.300000     1.700000   0.5000000   1.000000000
## 25      4.800000    3.400000     1.900000   0.2000000   0.891004932
## 26      4.862283    3.385492     1.600000   0.2000000   1.000000000
## 27      5.000000    3.400000     1.689382   0.2882643   0.858969682
## 28      5.200000    3.500000     1.500000   0.2000000   0.877772227
## 29      5.200000    3.400000     1.400000   0.2000000   1.000000000
## 30      4.700000    3.200000     1.490819   0.2022044   1.000000000
## 31      4.800000    3.100000     1.600000   0.2000000   1.000000000
## 32      4.857232    3.400000     1.500000   0.1929992   0.914365600
## 33      4.634507    4.100000     1.500000   0.1000000   1.000000000
## 34      5.500000    4.200000     1.400000   0.2000000   1.000000000
## 35      4.949701    3.100000     1.696172   0.2000000   1.000000000
## 36      5.010377    3.200000     1.844855   0.2000000   0.819786501
## 37      4.814141    3.401926     1.300000   0.1472348   1.000000000
## 38      4.900000    3.600000     1.262690   0.1000000   1.000000000
## 39      4.986146    3.000000     1.785479   0.2000000   1.000000000
## 40      4.847907    3.400000     1.500000   0.2000000   1.000000000
## 41      5.000000    3.500000     1.300000   0.3000000   1.000000000
## 42      4.500000    2.300000     1.300000   0.3000000   0.743318480
## 43      4.400000    3.200000     1.324318   0.2000000   1.000000000
## 44      5.000000    3.500000     1.600000   0.6000000   1.000000000
## 45      5.100000    3.800000     1.900000   0.4000000   1.000000000
## 46      4.800000    3.000000     1.400000   0.3000000   0.830403568
## 47      5.100000    3.800000     1.294321   0.2000000   1.000000000
## 48      4.600000    3.432540     1.400000   0.0519911   0.996360745
## 49      5.300000    3.700000     1.473694   0.2000000   1.000000000
## 50      5.000000    3.300000     1.400000   0.2000000   1.000000000
## 51      5.944489    3.200000     4.133853   1.4000000   0.000000000
## 52      6.400000    3.200000     4.500000   1.5000000   0.000000000
## 53      5.974429    3.100000     4.207222   1.3795291   0.000000000
## 54      5.958223    3.011369     4.000000   1.3000000   0.000000000
## 55      6.500000    2.800000     4.600000   1.5000000   0.000000000
## 56      6.067724    2.800000     4.500000   1.3000000   0.000000000
## 57      6.300000    3.300000     4.700000   1.6000000   0.000000000
## 58      4.900000    2.400000     3.300000   1.0000000   0.000000000
## 59      6.600000    2.900000     4.600000   1.3000000   0.000000000
## 60      6.055752    2.700000     3.900000   1.4000000   0.000000000
## 61      5.000000    2.000000     3.500000   1.0000000   0.000000000
## 62      6.029169    3.000000     4.200000   1.5000000   0.000000000
## 63      6.182635    2.200000     4.717420   1.0000000   0.000000000
## 64      6.100000    2.900000     4.473345   1.4000000   0.157337447
## 65      5.600000    3.052155     3.600000   1.2354264   0.000000000
## 66      5.913800    3.100000     4.058652   1.4000000   0.261851075
## 67      5.600000    3.000000     4.500000   1.3541940   0.000000000
## 68      5.800000    3.040000     4.100000   1.0000000   0.000000000
## 69      6.200000    2.200000     4.500000   1.5000000   0.000000000
## 70      6.303382    2.500000     5.013306   1.7288965   0.000000000
## 71      5.900000    2.954099     4.800000   1.8000000   0.000000000
## 72      6.100000    2.800000     4.000000   1.3000000   0.000000000
## 73      6.300000    2.500000     4.900000   1.5000000   0.000000000
## 74      6.100000    2.800000     4.700000   1.2000000   0.154460083
## 75      6.084080    2.900000     4.475916   1.4959849   0.000000000
## 76      6.600000    2.893533     4.400000   1.7289221   0.021238231
## 77      6.122527    2.800000     4.800000   1.4000000   0.000000000
## 78      6.700000    3.000000     5.000000   1.7000000   0.000000000
## 79      6.085401    2.900000     4.479152   1.5000000   0.000000000
## 80      5.700000    2.600000     4.470930   1.4938237   0.000000000
## 81      5.500000    3.052431     3.800000   1.2345675   0.000000000
## 82      5.500000    2.400000     3.700000   1.0000000   0.000000000
## 83      5.800000    2.700000     3.900000   1.2000000   0.000000000
## 84      6.227959    2.700000     5.100000   1.6000000   0.000000000
## 85      5.400000    3.000000     4.500000   1.5000000   0.000000000
## 86      5.975458    3.400000     4.500000   1.6000000   0.000000000
## 87      6.700000    3.100000     4.700000   1.5000000   0.000000000
## 88      5.824177    3.057128     3.839036   1.2199528   0.317199995
## 89      5.971733    3.000000     4.100000   1.3000000   0.000000000
## 90      5.500000    2.500000     4.000000   1.3000000   0.000000000
## 91      5.500000    2.600000     4.400000   1.4382934   0.000000000
## 92      6.047403    3.000000     4.600000   1.4000000   0.000000000
## 93      5.800000    3.027177     4.054034   1.2000000   0.000000000
## 94      5.000000    2.300000     3.300000   1.0000000   0.378184963
## 95      5.600000    2.700000     4.200000   1.3000000   0.000000000
## 96      5.971458    3.006851     4.200000   1.3763735   0.226242560
## 97      5.700000    2.900000     4.200000   1.3000000   0.000000000
## 98      6.003472    2.900000     4.278389   1.3000000   0.206471516
## 99      5.100000    2.500000     3.973603   1.1000000   0.000000000
## 100     5.700000    2.800000     4.100000   1.3000000   0.000000000
## 101     6.300000    3.300000     6.000000   2.5000000   0.000000000
## 102     6.511841    2.700000     5.100000   1.9000000   0.000000000
## 103     7.100000    3.000000     6.024313   2.1000000  -0.233547370
## 104     6.300000    2.837645     5.600000   1.8000000   0.000000000
## 105     6.500000    3.000000     5.602786   2.2000000   0.000000000
## 106     6.699547    2.758302     6.600000   2.1000000   0.000000000
## 107     4.900000    2.500000     4.500000   1.7000000   0.000000000
## 108     7.300000    2.715778     6.289332   2.2819432   0.000000000
## 109     6.700000    2.500000     5.800000   2.2455022  -0.279149132
## 110     7.200000    3.600000     6.100000   2.5000000   0.000000000
## 111     6.500000    3.200000     5.240909   1.8275426   0.000000000
## 112     6.400000    2.700000     5.300000   1.9000000   0.000000000
## 113     6.573064    2.801480     5.500000   2.1000000   0.000000000
## 114     6.564911    2.804263     5.654171   2.0000000   0.000000000
## 115     6.459352    2.800000     5.395503   1.8945458  -0.075070700
## 116     6.400000    3.200000     5.300000   2.3000000  -0.056045988
## 117     6.500000    3.000000     5.500000   1.8000000   0.000000000
## 118     7.700000    3.800000     6.700000   2.2000000   0.000000000
## 119     7.700000    2.668901     6.900000   2.3000000   0.000000000
## 120     6.000000    2.941929     5.000000   1.5783540   0.108792412
## 121     6.900000    3.200000     5.700000   2.3000000   0.000000000
## 122     5.600000    2.940811     4.900000   2.0000000   0.106768863
## 123     6.675153    2.800000     6.700000   2.0000000   0.000000000
## 124     6.300000    2.700000     4.900000   1.8040801  -0.022465602
## 125     6.700000    3.300000     5.700000   1.8977926   0.000000000
## 126     7.200000    2.768846     5.908397   1.8000000   0.000000000
## 127     6.200000    2.800000     4.800000   1.8000000   0.023134198
## 128     6.100000    2.872959     4.900000   1.8000000   0.000000000
## 129     6.400000    2.800000     5.600000   2.1000000  -0.126486922
## 130     6.478058    2.833912     5.800000   1.6000000   0.000000000
## 131     7.400000    2.742516     6.100000   1.9000000   0.000000000
## 132     6.240716    3.800000     6.400000   2.0000000   0.059954204
## 133     6.400000    2.800000     5.600000   2.2000000   0.000000000
## 134     6.390707    2.800000     5.100000   1.5000000   0.000000000
## 135     6.100000    2.600000     5.179609   1.4000000   0.000000000
## 136     7.700000    2.694272     6.100000   2.3000000   0.000000000
## 137     6.300000    3.400000     5.600000   2.4000000   0.000000000
## 138     6.400000    3.100000     5.500000   1.7583003   0.004155028
## 139     6.000000    2.882687     4.800000   1.8000000   0.000000000
## 140     6.900000    3.100000     5.400000   2.1000000   0.000000000
## 141     6.700000    3.100000     5.763646   2.4000000   0.000000000
## 142     6.586936    2.796744     5.100000   2.3000000  -0.153863743
## 143     6.511841    2.700000     5.100000   1.9000000   0.000000000
## 144     6.800000    3.200000     5.900000   1.9742676   0.000000000
## 145     6.552681    3.300000     5.700000   2.5000000   0.000000000
## 146     6.588274    3.000000     5.711419   2.3000000   0.000000000
## 147     6.555664    2.500000     5.000000   1.9000000   0.000000000
## 148     6.500000    3.000000     5.200000   2.0000000   0.000000000
## 149     6.200000    2.844789     5.400000   1.8805723   0.000000000
## 150     5.900000    3.000000     5.100000   1.8000000   0.000000000
##     Speciesversicolor Speciesvirginica
## 1           0.2363015      -0.12474537
## 2           0.0000000       0.00000000
## 3           0.0000000       0.00000000
## 4           0.0000000       0.00000000
## 5           0.0000000       0.00000000
## 6           0.2441200      -0.09763776
## 7           0.2272695      -0.15606025
## 8           0.0000000       0.00000000
## 9           0.0000000       0.00000000
## 10          0.0000000       0.00000000
## 11          0.0000000       0.00000000
## 12          0.0000000       0.00000000
## 13          0.0000000       0.00000000
## 14          0.2139902      -0.20210104
## 15          0.0000000       0.00000000
## 16          0.2235224      -0.16905177
## 17          0.2208778      -0.17822089
## 18          0.0000000       0.00000000
## 19          0.1957600      -0.26530688
## 20          0.2251903      -0.16326894
## 21          0.0000000       0.00000000
## 22          0.0000000       0.00000000
## 23          0.0000000       0.00000000
## 24          0.0000000       0.00000000
## 25          0.2357282      -0.12673312
## 26          0.0000000       0.00000000
## 27          0.2428996      -0.10186924
## 28          0.2386904      -0.11646267
## 29          0.0000000       0.00000000
## 30          0.0000000       0.00000000
## 31          0.0000000       0.00000000
## 32          0.2304987      -0.14486429
## 33          0.0000000       0.00000000
## 34          0.0000000       0.00000000
## 35          0.0000000       0.00000000
## 36          0.2516711      -0.07145757
## 37          0.0000000       0.00000000
## 38          0.0000000       0.00000000
## 39          0.0000000       0.00000000
## 40          0.0000000       0.00000000
## 41          0.0000000       0.00000000
## 42          0.2687891      -0.01210759
## 43          0.0000000       0.00000000
## 44          0.0000000       0.00000000
## 45          0.0000000       0.00000000
## 46          0.2492943      -0.07969791
## 47          0.0000000       0.00000000
## 48          0.2121433      -0.20850410
## 49          0.0000000       0.00000000
## 50          0.0000000       0.00000000
## 51          1.0000000       0.00000000
## 52          1.0000000       0.00000000
## 53          1.0000000       0.00000000
## 54          1.0000000       0.00000000
## 55          1.0000000       0.00000000
## 56          1.0000000       0.00000000
## 57          1.0000000       0.00000000
## 58          1.0000000       0.00000000
## 59          1.0000000       0.00000000
## 60          1.0000000       0.00000000
## 61          1.0000000       0.00000000
## 62          1.0000000       0.00000000
## 63          1.0000000       0.00000000
## 64          0.3999662       0.44269637
## 65          1.0000000       0.00000000
## 66          0.3765699       0.36157905
## 67          1.0000000       0.00000000
## 68          1.0000000       0.00000000
## 69          1.0000000       0.00000000
## 70          1.0000000       0.00000000
## 71          1.0000000       0.00000000
## 72          1.0000000       0.00000000
## 73          1.0000000       0.00000000
## 74          0.4006103       0.44492961
## 75          1.0000000       0.00000000
## 76          0.4304332       0.54832857
## 77          1.0000000       0.00000000
## 78          1.0000000       0.00000000
## 79          1.0000000       0.00000000
## 80          1.0000000       0.00000000
## 81          1.0000000       0.00000000
## 82          1.0000000       0.00000000
## 83          1.0000000       0.00000000
## 84          1.0000000       0.00000000
## 85          1.0000000       0.00000000
## 86          1.0000000       0.00000000
## 87          1.0000000       0.00000000
## 88          0.3641795       0.31862048
## 89          1.0000000       0.00000000
## 90          1.0000000       0.00000000
## 91          1.0000000       0.00000000
## 92          1.0000000       0.00000000
## 93          1.0000000       0.00000000
## 94          0.3505275       0.27128754
## 95          1.0000000       0.00000000
## 96          0.3845412       0.38921628
## 97          1.0000000       0.00000000
## 98          0.3889671       0.40456140
## 99          1.0000000       0.00000000
## 100         1.0000000       0.00000000
## 101         0.0000000       1.00000000
## 102         0.0000000       1.00000000
## 103         0.4874692       0.74607815
## 104         0.0000000       1.00000000
## 105         0.0000000       1.00000000
## 106         0.0000000       1.00000000
## 107         0.0000000       1.00000000
## 108         0.0000000       1.00000000
## 109         0.4976776       0.78147155
## 110         0.0000000       1.00000000
## 111         0.0000000       1.00000000
## 112         0.0000000       1.00000000
## 113         0.0000000       1.00000000
## 114         0.0000000       1.00000000
## 115         0.4519928       0.62307789
## 116         0.4477340       0.60831203
## 117         0.0000000       1.00000000
## 118         0.0000000       1.00000000
## 119         0.0000000       1.00000000
## 120         0.4108334       0.48037417
## 121         0.0000000       1.00000000
## 122         0.4112864       0.48194473
## 123         0.0000000       1.00000000
## 124         0.4402167       0.58224891
## 125         0.0000000       1.00000000
## 126         0.0000000       1.00000000
## 127         0.4300088       0.54685703
## 128         0.0000000       1.00000000
## 129         0.4635028       0.66298413
## 130         0.0000000       1.00000000
## 131         0.0000000       1.00000000
## 132         0.4217663       0.51827951
## 133         0.0000000       1.00000000
## 134         0.0000000       1.00000000
## 135         0.0000000       1.00000000
## 136         0.0000000       1.00000000
## 137         0.0000000       1.00000000
## 138         0.4342574       0.56158755
## 139         0.0000000       1.00000000
## 140         0.0000000       1.00000000
## 141         0.0000000       1.00000000
## 142         0.4696313       0.68423241
## 143         0.0000000       1.00000000
## 144         0.0000000       1.00000000
## 145         0.0000000       1.00000000
## 146         0.0000000       1.00000000
## 147         0.0000000       1.00000000
## 148         0.0000000       1.00000000
## 149         0.0000000       1.00000000
## 150         0.0000000       1.00000000
## 
## [[2]]
##     Sepal.Length Sepal.Width Petal.Length Petal.Width Speciessetosa
## 1       5.100000    3.500000     1.598732   0.2000000    0.95062295
## 2       4.900000    3.000000     1.582748   0.2000000    1.00000000
## 3       4.700000    3.200000     1.300000   0.2000000    1.00000000
## 4       4.600000    3.488605     1.500000   0.1283107    1.00000000
## 5       5.000000    3.491619     1.400000   0.2000000    1.00000000
## 6       5.088357    3.234833     1.700000   0.4770233    0.72732010
## 7       4.985320    3.257626     1.400000   0.3710002    0.78697299
## 8       5.000000    3.400000     1.500000   0.2494160    1.00000000
## 9       4.400000    2.900000     1.400000   0.2000000    1.00000000
## 10      4.883070    3.100000     1.465054   0.1000000    1.00000000
## 11      5.400000    3.700000     1.500000   0.2000000    1.00000000
## 12      4.939181    3.485187     1.600000   0.2000000    1.00000000
## 13      4.800000    3.000000     1.400000   0.1000000    1.00000000
## 14      4.714793    3.292345     1.100000   0.1000000    0.92395108
## 15      4.891090    3.496465     1.200000   0.2000000    1.00000000
## 16      5.700000    4.400000     1.500000   0.4000000    1.38194379
## 17      5.400000    3.900000     2.165017   0.5754077    1.02680157
## 18      5.100000    3.500000     1.400000   0.3000000    1.00000000
## 19      5.291756    3.800000     1.700000   0.4261072    1.05600026
## 20      5.100000    3.800000     1.500000   0.3000000    1.11500534
## 21      5.400000    3.400000     1.700000   0.2000000    1.00000000
## 22      5.100000    3.700000     1.500000   0.4000000    1.00000000
## 23      4.600000    3.600000     1.000000   0.2000000    1.00000000
## 24      5.031215    3.300000     1.700000   0.5000000    1.00000000
## 25      4.800000    3.400000     1.900000   0.2000000    0.90223752
## 26      4.939181    3.485187     1.600000   0.2000000    1.00000000
## 27      5.000000    3.400000     2.021943   0.4697132    0.80615508
## 28      5.200000    3.500000     1.500000   0.2000000    0.95381598
## 29      5.200000    3.400000     1.400000   0.2000000    1.00000000
## 30      4.700000    3.200000     1.363206   0.1859616    1.00000000
## 31      4.800000    3.100000     1.600000   0.2000000    1.00000000
## 32      5.090568    3.400000     1.500000   0.3980545    0.86542796
## 33      4.917323    4.100000     1.500000   0.1000000    1.00000000
## 34      5.500000    4.200000     1.400000   0.2000000    1.00000000
## 35      4.922577    3.100000     1.556001   0.2000000    1.00000000
## 36      4.987042    3.200000     1.860738   0.2000000    0.76236840
## 37      4.901371    3.493773     1.300000   0.1854555    1.00000000
## 38      4.900000    3.600000     1.237454   0.1000000    1.00000000
## 39      4.925304    3.000000     1.604043   0.2000000    1.00000000
## 40      4.924191    3.400000     1.500000   0.2000000    1.00000000
## 41      5.000000    3.500000     1.300000   0.3000000    1.00000000
## 42      4.500000    2.300000     1.300000   0.3000000    0.34050269
## 43      4.400000    3.200000     1.186173   0.2000000    1.00000000
## 44      5.000000    3.500000     1.600000   0.6000000    1.00000000
## 45      5.100000    3.800000     1.900000   0.4000000    1.00000000
## 46      4.800000    3.000000     1.400000   0.3000000    0.69961171
## 47      5.100000    3.800000     1.333707   0.2000000    1.00000000
## 48      4.600000    3.159221     1.400000   0.1384231    0.83137484
## 49      5.300000    3.700000     1.501602   0.2000000    1.00000000
## 50      5.000000    3.300000     1.400000   0.2000000    1.00000000
## 51      5.699293    3.200000     3.917005   1.4000000    0.00000000
## 52      6.400000    3.200000     4.500000   1.5000000    0.00000000
## 53      5.612535    3.100000     3.758989   1.1700664    0.00000000
## 54      5.662145    2.612772     4.000000   1.3000000    0.00000000
## 55      6.500000    2.800000     4.600000   1.5000000    0.00000000
## 56      5.728718    2.800000     4.500000   1.3000000    0.00000000
## 57      6.300000    3.300000     4.700000   1.6000000    0.00000000
## 58      4.900000    2.400000     3.300000   1.0000000    0.00000000
## 59      6.600000    2.900000     4.600000   1.3000000    0.00000000
## 60      5.681576    2.700000     3.900000   1.4000000    0.00000000
## 61      5.000000    2.000000     3.500000   1.0000000    0.00000000
## 62      5.755877    3.000000     4.200000   1.5000000    0.00000000
## 63      5.568539    2.200000     4.033635   1.0000000    0.00000000
## 64      6.100000    2.900000     4.446309   1.4000000    0.10511638
## 65      5.600000    2.628503     3.600000   1.2219962    0.00000000
## 66      5.971019    3.100000     4.134782   1.4000000    0.25502395
## 67      5.600000    3.000000     4.500000   1.2730183    0.00000000
## 68      5.800000    2.627728     4.100000   1.0000000    0.00000000
## 69      6.200000    2.200000     4.500000   1.5000000    0.00000000
## 70      5.690549    2.500000     4.189316   1.3374917    0.00000000
## 71      5.900000    2.564067     4.800000   1.8000000    0.00000000
## 72      6.100000    2.800000     4.000000   1.3000000    0.00000000
## 73      6.300000    2.500000     4.900000   1.5000000    0.00000000
## 74      6.100000    2.800000     4.700000   1.2000000    0.06106463
## 75      5.638540    2.900000     3.902431   1.2258748    0.00000000
## 76      6.600000    3.113979     4.400000   1.7051263    0.11973821
## 77      5.793690    2.800000     4.800000   1.4000000    0.00000000
## 78      6.700000    3.000000     5.000000   1.7000000    0.00000000
## 79      5.746981    2.900000     4.152078   1.5000000    0.00000000
## 80      5.700000    2.600000     4.138258   1.3185217    0.00000000
## 81      5.500000    2.621689     3.800000   1.2214280    0.00000000
## 82      5.500000    2.400000     3.700000   1.0000000    0.00000000
## 83      5.800000    2.700000     3.900000   1.2000000    0.00000000
## 84      5.884188    2.700000     5.100000   1.6000000    0.00000000
## 85      5.400000    3.000000     4.500000   1.5000000    0.00000000
## 86      5.833287    3.400000     4.500000   1.6000000    0.00000000
## 87      6.700000    3.100000     4.700000   1.5000000    0.00000000
## 88      5.814936    3.074117     3.820729   1.2246621    0.30667189
## 89      5.686492    3.000000     4.100000   1.3000000    0.00000000
## 90      5.500000    2.500000     4.000000   1.3000000    0.00000000
## 91      5.500000    2.600000     4.400000   1.2983929    0.00000000
## 92      5.775686    3.000000     4.600000   1.4000000    0.00000000
## 93      5.800000    2.616230     4.117375   1.2000000    0.00000000
## 94      5.000000    2.300000     3.300000   1.0000000    0.02190306
## 95      5.600000    2.700000     4.200000   1.3000000    0.00000000
## 96      5.946991    3.044899     4.200000   1.3605491    0.23021273
## 97      5.700000    2.900000     4.200000   1.3000000    0.00000000
## 98      5.833072    2.900000     4.061221   1.3000000    0.17464536
## 99      5.100000    2.500000     3.675696   1.1000000    0.00000000
## 100     5.700000    2.800000     4.100000   1.3000000    0.00000000
## 101     6.300000    3.300000     6.000000   2.5000000    0.00000000
## 102     6.662646    2.700000     5.100000   1.9000000    0.00000000
## 103     7.100000    3.000000     6.207641   2.1000000   -0.17947534
## 104     6.300000    3.223028     5.600000   1.8000000    0.00000000
## 105     6.500000    3.000000     5.769672   2.2000000    0.00000000
## 106     6.916720    3.183142     6.600000   2.1000000    0.00000000
## 107     4.900000    2.500000     4.500000   1.7000000    0.00000000
## 108     7.300000    3.190489     6.210263   2.2751987    0.00000000
## 109     6.700000    2.500000     5.800000   2.1637073   -0.40657090
## 110     7.200000    3.600000     6.100000   2.5000000    0.00000000
## 111     6.500000    3.200000     5.527788   1.9802063    0.00000000
## 112     6.400000    2.700000     5.300000   1.9000000    0.00000000
## 113     6.784471    3.214157     5.500000   2.1000000    0.00000000
## 114     6.777111    3.214720     5.695696   2.0000000    0.00000000
## 115     5.808215    2.800000     4.124139   1.3328382    0.11310384
## 116     6.400000    3.200000     5.300000   2.3000000    0.02865351
## 117     6.500000    3.000000     5.500000   1.8000000    0.00000000
## 118     7.700000    3.800000     6.700000   2.2000000    0.00000000
## 119     7.700000    3.171034     6.900000   2.3000000    0.00000000
## 120     6.000000    2.982531     5.000000   1.5750265    0.10006592
## 121     6.900000    3.200000     5.700000   2.3000000    0.00000000
## 122     5.600000    2.870746     4.900000   2.0000000    0.02631659
## 123     6.888178    2.800000     6.700000   2.0000000    0.00000000
## 124     6.300000    2.700000     4.900000   1.7504434   -0.11957479
## 125     6.700000    3.300000     5.700000   2.0399199    0.00000000
## 126     7.200000    3.225602     5.819428   1.8000000    0.00000000
## 127     6.200000    2.800000     4.800000   1.8000000   -0.05586557
## 128     6.100000    3.241620     4.900000   1.8000000    0.00000000
## 129     6.400000    2.800000     5.600000   2.1000000   -0.18664132
## 130     6.678164    3.231868     5.800000   1.6000000    0.00000000
## 131     7.400000    3.213625     6.100000   1.9000000    0.00000000
## 132     7.061994    3.800000     6.400000   2.0000000    0.26744914
## 133     6.400000    2.800000     5.600000   2.2000000    0.00000000
## 134     6.551209    2.800000     5.100000   1.5000000    0.00000000
## 135     6.100000    2.600000     5.173151   1.4000000    0.00000000
## 136     7.700000    3.194523     6.100000   2.3000000    0.00000000
## 137     6.300000    3.400000     5.600000   2.4000000    0.00000000
## 138     6.400000    3.100000     5.500000   1.8437216    0.03439036
## 139     6.000000    3.243575     4.800000   1.8000000    0.00000000
## 140     6.900000    3.100000     5.400000   2.1000000    0.00000000
## 141     6.700000    3.100000     5.979587   2.4000000    0.00000000
## 142     6.606388    2.939376     5.100000   2.3000000   -0.12000333
## 143     6.662646    2.700000     5.100000   1.9000000    0.00000000
## 144     6.800000    3.200000     5.900000   2.1072108    0.00000000
## 145     6.925795    3.300000     5.700000   2.5000000    0.00000000
## 146     6.901687    3.000000     6.074152   2.3000000    0.00000000
## 147     6.644315    2.500000     5.000000   1.9000000    0.00000000
## 148     6.500000    3.000000     5.200000   2.0000000    0.00000000
## 149     6.200000    3.223120     5.400000   1.8822075    0.00000000
## 150     5.900000    3.000000     5.100000   1.8000000    0.00000000
##     Speciesversicolor Speciesvirginica
## 1         -0.01252633       0.06190338
## 2          0.00000000       0.00000000
## 3          0.00000000       0.00000000
## 4          0.00000000       0.00000000
## 5          0.00000000       0.00000000
## 6          0.29849148      -0.02581158
## 7          0.28876417      -0.07573716
## 8          0.00000000       0.00000000
## 9          0.00000000       0.00000000
## 10         0.00000000       0.00000000
## 11         0.00000000       0.00000000
## 12         0.00000000       0.00000000
## 13         0.00000000       0.00000000
## 14         0.29616480      -0.22011588
## 15         0.00000000       0.00000000
## 16        -1.19634917       0.81440538
## 17        -0.54961089       0.52280933
## 18         0.00000000       0.00000000
## 19        -0.43092690       0.37492663
## 20        -0.37237786       0.25737252
## 21         0.00000000       0.00000000
## 22         0.00000000       0.00000000
## 23         0.00000000       0.00000000
## 24         0.00000000       0.00000000
## 25         0.16321394      -0.06545146
## 26         0.00000000       0.00000000
## 27         0.11732525       0.07651967
## 28        -0.03099605       0.07718007
## 29         0.00000000       0.00000000
## 30         0.00000000       0.00000000
## 31         0.00000000       0.00000000
## 32         0.06496431       0.06960773
## 33         0.00000000       0.00000000
## 34         0.00000000       0.00000000
## 35         0.00000000       0.00000000
## 36         0.32851412      -0.09088253
## 37         0.00000000       0.00000000
## 38         0.00000000       0.00000000
## 39         0.00000000       0.00000000
## 40         0.00000000       0.00000000
## 41         0.00000000       0.00000000
## 42         1.52032490      -0.86082759
## 43         0.00000000       0.00000000
## 44         0.00000000       0.00000000
## 45         0.00000000       0.00000000
## 46         0.63354712      -0.33315883
## 47         0.00000000       0.00000000
## 48         0.47626408      -0.30763892
## 49         0.00000000       0.00000000
## 50         0.00000000       0.00000000
## 51         1.00000000       0.00000000
## 52         1.00000000       0.00000000
## 53         1.00000000       0.00000000
## 54         1.00000000       0.00000000
## 55         1.00000000       0.00000000
## 56         1.00000000       0.00000000
## 57         1.00000000       0.00000000
## 58         1.00000000       0.00000000
## 59         1.00000000       0.00000000
## 60         1.00000000       0.00000000
## 61         1.00000000       0.00000000
## 62         1.00000000       0.00000000
## 63         1.00000000       0.00000000
## 64         0.52738455       0.36749907
## 65         1.00000000       0.00000000
## 66         0.31688897       0.42808708
## 67         1.00000000       0.00000000
## 68         1.00000000       0.00000000
## 69         1.00000000       0.00000000
## 70         1.00000000       0.00000000
## 71         1.00000000       0.00000000
## 72         1.00000000       0.00000000
## 73         1.00000000       0.00000000
## 74         0.65234262       0.28659275
## 75         1.00000000       0.00000000
## 76         0.20971211       0.67054968
## 77         1.00000000       0.00000000
## 78         1.00000000       0.00000000
## 79         1.00000000       0.00000000
## 80         1.00000000       0.00000000
## 81         1.00000000       0.00000000
## 82         1.00000000       0.00000000
## 83         1.00000000       0.00000000
## 84         1.00000000       0.00000000
## 85         1.00000000       0.00000000
## 86         1.00000000       0.00000000
## 87         1.00000000       0.00000000
## 88         0.36707628       0.32625183
## 89         1.00000000       0.00000000
## 90         1.00000000       0.00000000
## 91         1.00000000       0.00000000
## 92         1.00000000       0.00000000
## 93         1.00000000       0.00000000
## 94         1.43595263      -0.45785569
## 95         1.00000000       0.00000000
## 96         0.37955233       0.39023494
## 97         1.00000000       0.00000000
## 98         0.57257256       0.25278208
## 99         1.00000000       0.00000000
## 100        1.00000000       0.00000000
## 101        0.00000000       1.00000000
## 102        0.00000000       1.00000000
## 103        0.23254003       0.94693531
## 104        0.00000000       1.00000000
## 105        0.00000000       1.00000000
## 106        0.00000000       1.00000000
## 107        0.00000000       1.00000000
## 108        0.00000000       1.00000000
## 109        0.89986294       0.50670796
## 110        0.00000000       1.00000000
## 111        0.00000000       1.00000000
## 112        0.00000000       1.00000000
## 113        0.00000000       1.00000000
## 114        0.00000000       1.00000000
## 115        0.69755505       0.18934111
## 116        0.10744020       0.86390629
## 117        0.00000000       1.00000000
## 118        0.00000000       1.00000000
## 119        0.00000000       1.00000000
## 120        0.42211299       0.47782109
## 121        0.00000000       1.00000000
## 122        0.57526432       0.39841909
## 123        0.00000000       1.00000000
## 124        0.73035452       0.38922027
## 125        0.00000000       1.00000000
## 126        0.00000000       1.00000000
## 127        0.62444085       0.43142472
## 128        0.00000000       1.00000000
## 129        0.59032825       0.59631307
## 130        0.00000000       1.00000000
## 131        0.00000000       1.00000000
## 132       -0.66009912       1.39264998
## 133        0.00000000       1.00000000
## 134        0.00000000       1.00000000
## 135        0.00000000       1.00000000
## 136        0.00000000       1.00000000
## 137        0.00000000       1.00000000
## 138        0.24022688       0.72538276
## 139        0.00000000       1.00000000
## 140        0.00000000       1.00000000
## 141        0.00000000       1.00000000
## 142        0.38891108       0.73109225
## 143        0.00000000       1.00000000
## 144        0.00000000       1.00000000
## 145        0.00000000       1.00000000
## 146        0.00000000       1.00000000
## 147        0.00000000       1.00000000
## 148        0.00000000       1.00000000
## 149        0.00000000       1.00000000
## 150        0.00000000       1.00000000

missMethods Paketi ile EM Algoritması missMethods paketindeki impute_EM fonksiyonu, eksik verileri doldurmak için Expectation-Maximization (EM) algoritmasını kullanır. Bu fonksiyon, özellikle çok değişkenli normal dağılıma sahip veri setlerinde eksik değerleri tahmin etmek için tasarlanmıştır. Fonksiyon, norm paketindeki em.norm() fonksiyonunu kullanarak parametreleri tahmin eder ve bu parametreleri kullanarak eksik değerleri doldurur.

EM algoritması, eksik verilerin beklenen değerlerini (E-step) ve bu değerler kullanılarak parametreleri günceller (M-step). Bu işlem, parametreler yakınsayana kadar tekrarlanır.

Eğer stochastic = TRUE ise, bu beklenen değerlere çok değişkenli normal dağılımdan rastgele hatalar (residuals) eklenir. Bu, doldurulan değerlerin daha gerçekçi olmasını sağlar.

Eğer stochastic = FALSE ise, sadece beklenen değerler kullanılır ve rastgele hatalar eklenmez. Bu, deterministik bir yaklaşımdır, bu seçenek, doldurulan değerlerin daha sabit ve tahmin edilebilir olmasını sağlar.

library(missMethods)
library(mvtnorm)

# Örnek veri seti oluşturma
ds_orig <- mvtnorm::rmvnorm(100, rep(0, 7))  # 7 değişkenli normal dağılım
ds_mis <- delete_MCAR(ds_orig, p = 0.2)      # %20 eksik veri (MCAR)

# EM ile eksik verileri doldurma (stokastik olmadan)
ds_imp <- impute_EM(ds_mis, stochastic = FALSE)

# EM ile eksik verileri doldurma (stokastik olarak)
ds_imp_stochastic <- impute_EM(ds_mis, stochastic = TRUE)

# impute_EM fonksiyonu, eksik verileri doldurmak için EM algoritmasını kullanır ve stochastic argümanı ile doldurulan değerlerin deterministik mi yoksa stokastik mi olacağını kontrol eder. Bu yöntem, özellikle çok değişkenli normal dağılıma sahip veri setlerinde etkilidir.

Multiple Imputation(Çoklu Atama) Bu yöntem, kayıp değerleri rastgele tahminlerle doldurmak yerine, birden fazla olası değer üretir ve bu değerler üzerinden analizler yapar. Daha sonra bu analiz sonuçları birleştirilerek tek bir sonuç elde edilir.

Gerçekçi Tahminler: Kayıp verinin belirsizliğini dikkate alır.

İstatistiksel Güvenilirlik: Tek bir tahmin yerine birden fazla tahmin üzerinden analiz yapıldığı için daha güvenilir sonuçlar verir.

Esneklik: Farklı veri türleri ve modellerle uyumludur.

Multiple Imputation Adımları Atama (Imputation): Kayıp değerler, istatistiksel modeller kullanılarak birden fazla kez doldurulur. Genellikle 5-10 arasında tamamlanmış veri seti oluşturulur.

Analiz: Her tamamlanmış veri seti üzerinde ayrı ayrı analizler yapılır.

Birleştirme (Pooling): Analiz sonuçları, belirli kurallar çerçevesinde birleştirilir ve nihai sonuçlar elde edilir.

R’da mice (Multivariate Imputation by Chained Equations) paketi, Multiple Imputation yöntemini uygulamak için yaygın olarak kullanılır.

library(mice)
md.pattern(screen)

##     SUBNO TIMEDRS ATTDRUG EMPLMNT MSTATUS RACE ATTHOUSE INCOME   
## 438     1       1       1       1       1    1        1      1  0
## 26      1       1       1       1       1    1        1      0  1
## 1       1       1       1       1       1    1        0      1  1
##         0       0       0       0       0    0        1     26 27
# Bu fonksiyon, hangi değişkenlerde ne kadar kayıp veri olduğunu gösterir.

imputed_data <- mice(screen, m = 5, maxit = 50, method = 'pmm', seed = 500)
## 
##  iter imp variable
##   1   1  ATTHOUSE  INCOME
##   1   2  ATTHOUSE  INCOME
##   1   3  ATTHOUSE  INCOME
##   1   4  ATTHOUSE  INCOME
##   1   5  ATTHOUSE  INCOME
##   2   1  ATTHOUSE  INCOME
##   2   2  ATTHOUSE  INCOME
##   2   3  ATTHOUSE  INCOME
##   2   4  ATTHOUSE  INCOME
##   2   5  ATTHOUSE  INCOME
##   3   1  ATTHOUSE  INCOME
##   3   2  ATTHOUSE  INCOME
##   3   3  ATTHOUSE  INCOME
##   3   4  ATTHOUSE  INCOME
##   3   5  ATTHOUSE  INCOME
##   4   1  ATTHOUSE  INCOME
##   4   2  ATTHOUSE  INCOME
##   4   3  ATTHOUSE  INCOME
##   4   4  ATTHOUSE  INCOME
##   4   5  ATTHOUSE  INCOME
##   5   1  ATTHOUSE  INCOME
##   5   2  ATTHOUSE  INCOME
##   5   3  ATTHOUSE  INCOME
##   5   4  ATTHOUSE  INCOME
##   5   5  ATTHOUSE  INCOME
##   6   1  ATTHOUSE  INCOME
##   6   2  ATTHOUSE  INCOME
##   6   3  ATTHOUSE  INCOME
##   6   4  ATTHOUSE  INCOME
##   6   5  ATTHOUSE  INCOME
##   7   1  ATTHOUSE  INCOME
##   7   2  ATTHOUSE  INCOME
##   7   3  ATTHOUSE  INCOME
##   7   4  ATTHOUSE  INCOME
##   7   5  ATTHOUSE  INCOME
##   8   1  ATTHOUSE  INCOME
##   8   2  ATTHOUSE  INCOME
##   8   3  ATTHOUSE  INCOME
##   8   4  ATTHOUSE  INCOME
##   8   5  ATTHOUSE  INCOME
##   9   1  ATTHOUSE  INCOME
##   9   2  ATTHOUSE  INCOME
##   9   3  ATTHOUSE  INCOME
##   9   4  ATTHOUSE  INCOME
##   9   5  ATTHOUSE  INCOME
##   10   1  ATTHOUSE  INCOME
##   10   2  ATTHOUSE  INCOME
##   10   3  ATTHOUSE  INCOME
##   10   4  ATTHOUSE  INCOME
##   10   5  ATTHOUSE  INCOME
##   11   1  ATTHOUSE  INCOME
##   11   2  ATTHOUSE  INCOME
##   11   3  ATTHOUSE  INCOME
##   11   4  ATTHOUSE  INCOME
##   11   5  ATTHOUSE  INCOME
##   12   1  ATTHOUSE  INCOME
##   12   2  ATTHOUSE  INCOME
##   12   3  ATTHOUSE  INCOME
##   12   4  ATTHOUSE  INCOME
##   12   5  ATTHOUSE  INCOME
##   13   1  ATTHOUSE  INCOME
##   13   2  ATTHOUSE  INCOME
##   13   3  ATTHOUSE  INCOME
##   13   4  ATTHOUSE  INCOME
##   13   5  ATTHOUSE  INCOME
##   14   1  ATTHOUSE  INCOME
##   14   2  ATTHOUSE  INCOME
##   14   3  ATTHOUSE  INCOME
##   14   4  ATTHOUSE  INCOME
##   14   5  ATTHOUSE  INCOME
##   15   1  ATTHOUSE  INCOME
##   15   2  ATTHOUSE  INCOME
##   15   3  ATTHOUSE  INCOME
##   15   4  ATTHOUSE  INCOME
##   15   5  ATTHOUSE  INCOME
##   16   1  ATTHOUSE  INCOME
##   16   2  ATTHOUSE  INCOME
##   16   3  ATTHOUSE  INCOME
##   16   4  ATTHOUSE  INCOME
##   16   5  ATTHOUSE  INCOME
##   17   1  ATTHOUSE  INCOME
##   17   2  ATTHOUSE  INCOME
##   17   3  ATTHOUSE  INCOME
##   17   4  ATTHOUSE  INCOME
##   17   5  ATTHOUSE  INCOME
##   18   1  ATTHOUSE  INCOME
##   18   2  ATTHOUSE  INCOME
##   18   3  ATTHOUSE  INCOME
##   18   4  ATTHOUSE  INCOME
##   18   5  ATTHOUSE  INCOME
##   19   1  ATTHOUSE  INCOME
##   19   2  ATTHOUSE  INCOME
##   19   3  ATTHOUSE  INCOME
##   19   4  ATTHOUSE  INCOME
##   19   5  ATTHOUSE  INCOME
##   20   1  ATTHOUSE  INCOME
##   20   2  ATTHOUSE  INCOME
##   20   3  ATTHOUSE  INCOME
##   20   4  ATTHOUSE  INCOME
##   20   5  ATTHOUSE  INCOME
##   21   1  ATTHOUSE  INCOME
##   21   2  ATTHOUSE  INCOME
##   21   3  ATTHOUSE  INCOME
##   21   4  ATTHOUSE  INCOME
##   21   5  ATTHOUSE  INCOME
##   22   1  ATTHOUSE  INCOME
##   22   2  ATTHOUSE  INCOME
##   22   3  ATTHOUSE  INCOME
##   22   4  ATTHOUSE  INCOME
##   22   5  ATTHOUSE  INCOME
##   23   1  ATTHOUSE  INCOME
##   23   2  ATTHOUSE  INCOME
##   23   3  ATTHOUSE  INCOME
##   23   4  ATTHOUSE  INCOME
##   23   5  ATTHOUSE  INCOME
##   24   1  ATTHOUSE  INCOME
##   24   2  ATTHOUSE  INCOME
##   24   3  ATTHOUSE  INCOME
##   24   4  ATTHOUSE  INCOME
##   24   5  ATTHOUSE  INCOME
##   25   1  ATTHOUSE  INCOME
##   25   2  ATTHOUSE  INCOME
##   25   3  ATTHOUSE  INCOME
##   25   4  ATTHOUSE  INCOME
##   25   5  ATTHOUSE  INCOME
##   26   1  ATTHOUSE  INCOME
##   26   2  ATTHOUSE  INCOME
##   26   3  ATTHOUSE  INCOME
##   26   4  ATTHOUSE  INCOME
##   26   5  ATTHOUSE  INCOME
##   27   1  ATTHOUSE  INCOME
##   27   2  ATTHOUSE  INCOME
##   27   3  ATTHOUSE  INCOME
##   27   4  ATTHOUSE  INCOME
##   27   5  ATTHOUSE  INCOME
##   28   1  ATTHOUSE  INCOME
##   28   2  ATTHOUSE  INCOME
##   28   3  ATTHOUSE  INCOME
##   28   4  ATTHOUSE  INCOME
##   28   5  ATTHOUSE  INCOME
##   29   1  ATTHOUSE  INCOME
##   29   2  ATTHOUSE  INCOME
##   29   3  ATTHOUSE  INCOME
##   29   4  ATTHOUSE  INCOME
##   29   5  ATTHOUSE  INCOME
##   30   1  ATTHOUSE  INCOME
##   30   2  ATTHOUSE  INCOME
##   30   3  ATTHOUSE  INCOME
##   30   4  ATTHOUSE  INCOME
##   30   5  ATTHOUSE  INCOME
##   31   1  ATTHOUSE  INCOME
##   31   2  ATTHOUSE  INCOME
##   31   3  ATTHOUSE  INCOME
##   31   4  ATTHOUSE  INCOME
##   31   5  ATTHOUSE  INCOME
##   32   1  ATTHOUSE  INCOME
##   32   2  ATTHOUSE  INCOME
##   32   3  ATTHOUSE  INCOME
##   32   4  ATTHOUSE  INCOME
##   32   5  ATTHOUSE  INCOME
##   33   1  ATTHOUSE  INCOME
##   33   2  ATTHOUSE  INCOME
##   33   3  ATTHOUSE  INCOME
##   33   4  ATTHOUSE  INCOME
##   33   5  ATTHOUSE  INCOME
##   34   1  ATTHOUSE  INCOME
##   34   2  ATTHOUSE  INCOME
##   34   3  ATTHOUSE  INCOME
##   34   4  ATTHOUSE  INCOME
##   34   5  ATTHOUSE  INCOME
##   35   1  ATTHOUSE  INCOME
##   35   2  ATTHOUSE  INCOME
##   35   3  ATTHOUSE  INCOME
##   35   4  ATTHOUSE  INCOME
##   35   5  ATTHOUSE  INCOME
##   36   1  ATTHOUSE  INCOME
##   36   2  ATTHOUSE  INCOME
##   36   3  ATTHOUSE  INCOME
##   36   4  ATTHOUSE  INCOME
##   36   5  ATTHOUSE  INCOME
##   37   1  ATTHOUSE  INCOME
##   37   2  ATTHOUSE  INCOME
##   37   3  ATTHOUSE  INCOME
##   37   4  ATTHOUSE  INCOME
##   37   5  ATTHOUSE  INCOME
##   38   1  ATTHOUSE  INCOME
##   38   2  ATTHOUSE  INCOME
##   38   3  ATTHOUSE  INCOME
##   38   4  ATTHOUSE  INCOME
##   38   5  ATTHOUSE  INCOME
##   39   1  ATTHOUSE  INCOME
##   39   2  ATTHOUSE  INCOME
##   39   3  ATTHOUSE  INCOME
##   39   4  ATTHOUSE  INCOME
##   39   5  ATTHOUSE  INCOME
##   40   1  ATTHOUSE  INCOME
##   40   2  ATTHOUSE  INCOME
##   40   3  ATTHOUSE  INCOME
##   40   4  ATTHOUSE  INCOME
##   40   5  ATTHOUSE  INCOME
##   41   1  ATTHOUSE  INCOME
##   41   2  ATTHOUSE  INCOME
##   41   3  ATTHOUSE  INCOME
##   41   4  ATTHOUSE  INCOME
##   41   5  ATTHOUSE  INCOME
##   42   1  ATTHOUSE  INCOME
##   42   2  ATTHOUSE  INCOME
##   42   3  ATTHOUSE  INCOME
##   42   4  ATTHOUSE  INCOME
##   42   5  ATTHOUSE  INCOME
##   43   1  ATTHOUSE  INCOME
##   43   2  ATTHOUSE  INCOME
##   43   3  ATTHOUSE  INCOME
##   43   4  ATTHOUSE  INCOME
##   43   5  ATTHOUSE  INCOME
##   44   1  ATTHOUSE  INCOME
##   44   2  ATTHOUSE  INCOME
##   44   3  ATTHOUSE  INCOME
##   44   4  ATTHOUSE  INCOME
##   44   5  ATTHOUSE  INCOME
##   45   1  ATTHOUSE  INCOME
##   45   2  ATTHOUSE  INCOME
##   45   3  ATTHOUSE  INCOME
##   45   4  ATTHOUSE  INCOME
##   45   5  ATTHOUSE  INCOME
##   46   1  ATTHOUSE  INCOME
##   46   2  ATTHOUSE  INCOME
##   46   3  ATTHOUSE  INCOME
##   46   4  ATTHOUSE  INCOME
##   46   5  ATTHOUSE  INCOME
##   47   1  ATTHOUSE  INCOME
##   47   2  ATTHOUSE  INCOME
##   47   3  ATTHOUSE  INCOME
##   47   4  ATTHOUSE  INCOME
##   47   5  ATTHOUSE  INCOME
##   48   1  ATTHOUSE  INCOME
##   48   2  ATTHOUSE  INCOME
##   48   3  ATTHOUSE  INCOME
##   48   4  ATTHOUSE  INCOME
##   48   5  ATTHOUSE  INCOME
##   49   1  ATTHOUSE  INCOME
##   49   2  ATTHOUSE  INCOME
##   49   3  ATTHOUSE  INCOME
##   49   4  ATTHOUSE  INCOME
##   49   5  ATTHOUSE  INCOME
##   50   1  ATTHOUSE  INCOME
##   50   2  ATTHOUSE  INCOME
##   50   3  ATTHOUSE  INCOME
##   50   4  ATTHOUSE  INCOME
##   50   5  ATTHOUSE  INCOME
# m = 5: 5 tamamlanmış veri seti oluştur
# maxit = 50: Maksimum 50 iterasyon yap
# method = 'pmm': Predictive Mean Matching yöntemi sürekli değişkenler için uygundur. kategorik değişkense logistic regresyon kullanabilirsin. her bir sütuna ayrı yöntem de ekleyebilirsin c() fonksiyonu ile.Örnek:

# pmm: Sürekli değişkenler için Predictive Mean Matching.

# logreg: İkili (binary) değişkenler için Lojistik Regresyon.

# polyreg: Kategorik değişkenler için Polytomous Regresyon.

# Bu yöntemleri mice() fonksiyonunda belirtebilirsiniz:

# methods <- c("pmm", "logreg", "polyreg")
# mice ile oluşturulan tamamlanmış veri setlerini inceleme:

imputed_data$imp
## $SUBNO
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
## 
## $TIMEDRS
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
## 
## $ATTDRUG
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
## 
## $ATTHOUSE
##      1  2  3  4  5
## 253 26 25 20 17 21
## 
## $INCOME
##     1  2 3  4 5
## 52  2  5 1  3 1
## 64  6  4 6  6 6
## 69  1  1 6  3 1
## 77  2  2 2  1 4
## 118 4  8 9  5 4
## 135 6  8 5 10 7
## 161 8  5 4  4 4
## 172 3  1 3  3 3
## 173 1  8 4  4 7
## 174 5  5 2  5 4
## 181 8  3 6  4 7
## 196 7  8 5  1 9
## 203 8  4 5  5 5
## 236 2  1 5  1 3
## 240 4  3 3  1 3
## 258 5  7 7  6 8
## 304 1  3 4  8 7
## 321 3  1 3  6 4
## 325 3  3 4  5 5
## 352 1  5 8  2 5
## 378 3  5 2  5 4
## 379 1  5 4  3 4
## 409 5  4 4  7 2
## 419 6  1 2  1 1
## 421 3  8 4  3 9
## 435 4 10 6  1 5
## 
## $EMPLMNT
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
## 
## $MSTATUS
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
## 
## $RACE
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
# Tamamlanmış veri setleri üzerinde analiz yapabilir ve sonuçları birleştirebilirsiniz.

# Örnek: Lineer Regresyon Analizi

fit <- with(imputed_data, lm(TIMEDRS ~ ATTHOUSE + INCOME))
pooled_results <- pool(fit)
summary(pooled_results)
# with(): Her bir tamamlanmış veri seti üzerinde analiz yapar.
# pool(): Analiz sonuçlarını birleştirir.
# Eğer tamamlanmış bir veri setini tek bir veri seti olarak kullanmak istersek, complete() fonksiyonunu kullanabiliriz.

# Tamamlanmış veri setini al (örneğin, ilk tamamlanmış veri seti)
completed_data_1 <- complete(imputed_data, 1)
completed_data_2 <- complete(imputed_data, 2)
completed_data_3 <- complete(imputed_data, 3)
completed_data_4 <- complete(imputed_data, 4)
completed_data_5 <- complete(imputed_data, 5)

m1 <- lm(TIMEDRS ~ ATTHOUSE + INCOME,data= completed_data_1)
m2 <- lm(TIMEDRS ~ ATTHOUSE + INCOME,data= completed_data_2)
m3 <- lm(TIMEDRS ~ ATTHOUSE + INCOME,data= completed_data_3)
m4 <- lm(TIMEDRS ~ ATTHOUSE + INCOME,data= completed_data_4)
m5 <- lm(TIMEDRS ~ ATTHOUSE + INCOME,data= completed_data_5)

sum(m1$coefficients[2] +
m2$coefficients[2] + 
m3$coefficients[2] + 
m4$coefficients[2] +
m5$coefficients[2])/5
## [1] 0.3139818

Veri setinde yapılanlar

atthouse değişkeninde bir kayıp değer bulunmaktadır ve liste bazında silme yöntemi ile veri setinden çıkarılmıştır.

Veri setinde income değişkeni 26 kayıp değere sahiptir ve bu sayı örneklemin %5’inden fazladır. Eğer bu değişken araştırma açısından öneme sahip değilse, veri setinden çıkarılabilir, aksi halde kayıp verinin tahmin edilmesi yöntemlerinden biri kullanılabilir.

income değişkenindeki kayıp değerler için kayıp verinin tahmin edilmesi yöntemlerinden ortalamanın yerleştirilmesi kullanılarak kayıp değer yerine değişkenin ortalama değeri (4.21 değeri) yerleştirilmiştir.

screen <- screen %>% 
mutate(INCOME = ifelse(is.na(INCOME), mean(INCOME, na.rm =TRUE),
                       INCOME)) %>% na.omit()
summary(screen)
##      SUBNO          TIMEDRS          ATTDRUG         ATTHOUSE    
##  Min.   :  1.0   Min.   : 0.000   Min.   : 5.00   Min.   : 2.00  
##  1st Qu.:136.8   1st Qu.: 2.000   1st Qu.: 7.00   1st Qu.:21.00  
##  Median :313.5   Median : 4.000   Median : 8.00   Median :24.00  
##  Mean   :317.3   Mean   : 7.914   Mean   : 7.69   Mean   :23.54  
##  3rd Qu.:483.2   3rd Qu.:10.000   3rd Qu.: 9.00   3rd Qu.:27.00  
##  Max.   :758.0   Max.   :81.000   Max.   :10.00   Max.   :35.00  
##      INCOME          EMPLMNT         MSTATUS          RACE      
##  Min.   : 1.000   Min.   :0.000   Min.   :1.00   Min.   :1.000  
##  1st Qu.: 3.000   1st Qu.:0.000   1st Qu.:2.00   1st Qu.:1.000  
##  Median : 4.000   Median :0.000   Median :2.00   Median :1.000  
##  Mean   : 4.208   Mean   :0.472   Mean   :1.78   Mean   :1.086  
##  3rd Qu.: 6.000   3rd Qu.:1.000   3rd Qu.:2.00   3rd Qu.:1.000  
##  Max.   :10.000   Max.   :1.000   Max.   :2.00   Max.   :2.000

** Örnek Uygulama

Örnek uygulama için hazır veri seti olan sat.act veri setini kullandım. Örneklem sayısı 700. Verideki değişkenler:

Gender (Cinsiyet): Kategorik bir değişkendir. (1 = Erkek, 2 = Kadın).

Education (Eğitim): 1’den (Lise) 5’e (Lisansüstü) kadar sıralanmış eğitim seviyesi.

Age (Yaş): Katılımcıların yaş bilgisi.

ACT: Toplam puan (1-36 arası).Genel akademik başarı.

SATV (SAT Verbal): Sözel yetenek puanı (200-800 arası).

SATQ (SAT Quantitative): Sayısal yetenek puanı (200-800 arası).

?sat.act
data(sat.act)
veri<- sat.act
head(veri)
summary(veri)
##      gender        education          age             ACT       
##  Min.   :1.000   Min.   :0.000   Min.   :13.00   Min.   : 3.00  
##  1st Qu.:1.000   1st Qu.:3.000   1st Qu.:19.00   1st Qu.:25.00  
##  Median :2.000   Median :3.000   Median :22.00   Median :29.00  
##  Mean   :1.647   Mean   :3.164   Mean   :25.59   Mean   :28.55  
##  3rd Qu.:2.000   3rd Qu.:4.000   3rd Qu.:29.00   3rd Qu.:32.00  
##  Max.   :2.000   Max.   :5.000   Max.   :65.00   Max.   :36.00  
##                                                                 
##       SATV            SATQ      
##  Min.   :200.0   Min.   :200.0  
##  1st Qu.:550.0   1st Qu.:530.0  
##  Median :620.0   Median :620.0  
##  Mean   :612.2   Mean   :610.2  
##  3rd Qu.:700.0   3rd Qu.:700.0  
##  Max.   :800.0   Max.   :800.0  
##                  NA's   :13
# Min-max değerler tüm değişkenler için normal aralıkta gözüküyor. Bir tek eğitim değişkeninde 0 kodlamış, halbuki eğitim düzeyi 1-5 arasında olmalıydı?
library(gtsummary)
veri %>% 
  select(2:6) %>%
  tbl_summary(
    statistic = all_continuous() ~ c("{min}, {max}"),
    missing = "always"
  )
Characteristic N = 7001
education
    0 57 (8.1%)
    1 45 (6.4%)
    2 44 (6.3%)
    3 275 (39%)
    4 138 (20%)
    5 141 (20%)
    Unknown 0
age 13, 65
    Unknown 0
ACT 3, 36
    Unknown 0
SATV 200, 800
    Unknown 0
SATQ 200, 800
    Unknown 13
1 n (%); Min, Max

Analiz sonucuna göre, sadece SATQ değerinde 13 eksik veri var. 57 kişi eğitim değişkenini 0 olarak kodlamış, yani dökümantasyondan 1-5 arası diye anladım ama, yüzde 8lik oranda sanki hatalı giriş için çok fazla bi oran, nasıl yorumlamalıyım bu durumu bilemedim, o yüzden bu değişken için şimdilik birşey yapmıyorum.

library(funModeling)
df_status(veri)
##    variable q_zeros p_zeros q_na p_na q_inf p_inf    type unique
## 1    gender       0    0.00    0 0.00     0     0 integer      2
## 2 education      57    8.14    0 0.00     0     0 integer      6
## 3       age       0    0.00    0 0.00     0     0 integer     48
## 4       ACT       0    0.00    0 0.00     0     0 integer     23
## 5      SATV       0    0.00    0 0.00     0     0 integer     70
## 6      SATQ       0    0.00   13 1.86     0     0 integer     72
veri %>% is.na() %>% colSums()
##    gender education       age       ACT      SATV      SATQ 
##         0         0         0         0         0        13

Kayıp veri için MCAR testi sonucu p > 0.05 olduğu için kayıp veri tamamen tesadüfidir, bu 13 satırı silebiliriz.

library(naniar)
mcar_test(data=veri[,c(1,2,3,4,5,6)]) 

Veri kaybının diğer değişkenlerle ilgili olup olmadığının incelenmesi sonucunda tüm değişkenlerin p-değerleri 0.05’ten büyük olarak bulunmuştur.

# Önce kategorik değişkenleri faktöre çevirme:

veri$gender <- as.factor(veri$gender)
veri$education <- as.factor(veri$education)

veri2 <- veri
veri2$SATQ_m <- veri2$SATQ

library(finalfit)

explanatory = c("ACT", "SATV", "gender", "education", "age")
dependent = "SATQ_m"
veri2 %>% 
  missing_compare(dependent, explanatory) %>% 
    knitr::kable(row.names=FALSE, align = c("l", "l", "r", "r", "r"), 
        caption = "Eksik veriye sahip olan ve olmayan değişkenlerin ortalama karşılaştırması") 
Eksik veriye sahip olan ve olmayan değişkenlerin ortalama karşılaştırması
Missing data analysis: SATQ_m Not missing Missing p
ACT Mean (SD) 28.6 (4.8) 28.4 (4.6) 0.903
SATV Mean (SD) 612.3 (113.3) 606.9 (93.3) 0.864
gender 1 245 (99.2) 2 (0.8) 0.221
2 442 (97.6) 11 (2.4)
education 0 56 (98.2) 1 (1.8) 0.704
1 43 (95.6) 2 (4.4)
2 43 (97.7) 1 (2.3)
3 269 (97.8) 6 (2.2)
4 137 (99.3) 1 (0.7)
5 139 (98.6) 2 (1.4)
age Mean (SD) 25.6 (9.5) 23.2 (10.0) 0.350

Yapılan analizler, kayıp veri örüntüsünün MCAR olduğunu gösteriyor o yüzden liste bazında silme yöntemi ile kayıp veriye sahip olan gözlemleri veri setinden çıkarıyorum.

na.omit(veri) 

Deneme amaçlı ortalama atama yöntemi ile uygulama yaptım:

veri3 <-veri
veri3$SATQ[is.na(veri3$SATQ)] <- mean(veri3$SATQ, na.rm=TRUE)
summary(veri3$SATQ)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   200.0   530.0   620.0   610.2   700.0   800.0

Multiple Imputation (Çoklu Atama) denemesi:

md.pattern(veri)

##     gender education age ACT SATV SATQ   
## 687      1         1   1   1    1    1  0
## 13       1         1   1   1    1    0  1
##          0         0   0   0    0   13 13
imputed_data <- mice(veri, m = 5, maxit = 50, method = 'pmm', seed = 500)
## 
##  iter imp variable
##   1   1  SATQ
##   1   2  SATQ
##   1   3  SATQ
##   1   4  SATQ
##   1   5  SATQ
##   2   1  SATQ
##   2   2  SATQ
##   2   3  SATQ
##   2   4  SATQ
##   2   5  SATQ
##   3   1  SATQ
##   3   2  SATQ
##   3   3  SATQ
##   3   4  SATQ
##   3   5  SATQ
##   4   1  SATQ
##   4   2  SATQ
##   4   3  SATQ
##   4   4  SATQ
##   4   5  SATQ
##   5   1  SATQ
##   5   2  SATQ
##   5   3  SATQ
##   5   4  SATQ
##   5   5  SATQ
##   6   1  SATQ
##   6   2  SATQ
##   6   3  SATQ
##   6   4  SATQ
##   6   5  SATQ
##   7   1  SATQ
##   7   2  SATQ
##   7   3  SATQ
##   7   4  SATQ
##   7   5  SATQ
##   8   1  SATQ
##   8   2  SATQ
##   8   3  SATQ
##   8   4  SATQ
##   8   5  SATQ
##   9   1  SATQ
##   9   2  SATQ
##   9   3  SATQ
##   9   4  SATQ
##   9   5  SATQ
##   10   1  SATQ
##   10   2  SATQ
##   10   3  SATQ
##   10   4  SATQ
##   10   5  SATQ
##   11   1  SATQ
##   11   2  SATQ
##   11   3  SATQ
##   11   4  SATQ
##   11   5  SATQ
##   12   1  SATQ
##   12   2  SATQ
##   12   3  SATQ
##   12   4  SATQ
##   12   5  SATQ
##   13   1  SATQ
##   13   2  SATQ
##   13   3  SATQ
##   13   4  SATQ
##   13   5  SATQ
##   14   1  SATQ
##   14   2  SATQ
##   14   3  SATQ
##   14   4  SATQ
##   14   5  SATQ
##   15   1  SATQ
##   15   2  SATQ
##   15   3  SATQ
##   15   4  SATQ
##   15   5  SATQ
##   16   1  SATQ
##   16   2  SATQ
##   16   3  SATQ
##   16   4  SATQ
##   16   5  SATQ
##   17   1  SATQ
##   17   2  SATQ
##   17   3  SATQ
##   17   4  SATQ
##   17   5  SATQ
##   18   1  SATQ
##   18   2  SATQ
##   18   3  SATQ
##   18   4  SATQ
##   18   5  SATQ
##   19   1  SATQ
##   19   2  SATQ
##   19   3  SATQ
##   19   4  SATQ
##   19   5  SATQ
##   20   1  SATQ
##   20   2  SATQ
##   20   3  SATQ
##   20   4  SATQ
##   20   5  SATQ
##   21   1  SATQ
##   21   2  SATQ
##   21   3  SATQ
##   21   4  SATQ
##   21   5  SATQ
##   22   1  SATQ
##   22   2  SATQ
##   22   3  SATQ
##   22   4  SATQ
##   22   5  SATQ
##   23   1  SATQ
##   23   2  SATQ
##   23   3  SATQ
##   23   4  SATQ
##   23   5  SATQ
##   24   1  SATQ
##   24   2  SATQ
##   24   3  SATQ
##   24   4  SATQ
##   24   5  SATQ
##   25   1  SATQ
##   25   2  SATQ
##   25   3  SATQ
##   25   4  SATQ
##   25   5  SATQ
##   26   1  SATQ
##   26   2  SATQ
##   26   3  SATQ
##   26   4  SATQ
##   26   5  SATQ
##   27   1  SATQ
##   27   2  SATQ
##   27   3  SATQ
##   27   4  SATQ
##   27   5  SATQ
##   28   1  SATQ
##   28   2  SATQ
##   28   3  SATQ
##   28   4  SATQ
##   28   5  SATQ
##   29   1  SATQ
##   29   2  SATQ
##   29   3  SATQ
##   29   4  SATQ
##   29   5  SATQ
##   30   1  SATQ
##   30   2  SATQ
##   30   3  SATQ
##   30   4  SATQ
##   30   5  SATQ
##   31   1  SATQ
##   31   2  SATQ
##   31   3  SATQ
##   31   4  SATQ
##   31   5  SATQ
##   32   1  SATQ
##   32   2  SATQ
##   32   3  SATQ
##   32   4  SATQ
##   32   5  SATQ
##   33   1  SATQ
##   33   2  SATQ
##   33   3  SATQ
##   33   4  SATQ
##   33   5  SATQ
##   34   1  SATQ
##   34   2  SATQ
##   34   3  SATQ
##   34   4  SATQ
##   34   5  SATQ
##   35   1  SATQ
##   35   2  SATQ
##   35   3  SATQ
##   35   4  SATQ
##   35   5  SATQ
##   36   1  SATQ
##   36   2  SATQ
##   36   3  SATQ
##   36   4  SATQ
##   36   5  SATQ
##   37   1  SATQ
##   37   2  SATQ
##   37   3  SATQ
##   37   4  SATQ
##   37   5  SATQ
##   38   1  SATQ
##   38   2  SATQ
##   38   3  SATQ
##   38   4  SATQ
##   38   5  SATQ
##   39   1  SATQ
##   39   2  SATQ
##   39   3  SATQ
##   39   4  SATQ
##   39   5  SATQ
##   40   1  SATQ
##   40   2  SATQ
##   40   3  SATQ
##   40   4  SATQ
##   40   5  SATQ
##   41   1  SATQ
##   41   2  SATQ
##   41   3  SATQ
##   41   4  SATQ
##   41   5  SATQ
##   42   1  SATQ
##   42   2  SATQ
##   42   3  SATQ
##   42   4  SATQ
##   42   5  SATQ
##   43   1  SATQ
##   43   2  SATQ
##   43   3  SATQ
##   43   4  SATQ
##   43   5  SATQ
##   44   1  SATQ
##   44   2  SATQ
##   44   3  SATQ
##   44   4  SATQ
##   44   5  SATQ
##   45   1  SATQ
##   45   2  SATQ
##   45   3  SATQ
##   45   4  SATQ
##   45   5  SATQ
##   46   1  SATQ
##   46   2  SATQ
##   46   3  SATQ
##   46   4  SATQ
##   46   5  SATQ
##   47   1  SATQ
##   47   2  SATQ
##   47   3  SATQ
##   47   4  SATQ
##   47   5  SATQ
##   48   1  SATQ
##   48   2  SATQ
##   48   3  SATQ
##   48   4  SATQ
##   48   5  SATQ
##   49   1  SATQ
##   49   2  SATQ
##   49   3  SATQ
##   49   4  SATQ
##   49   5  SATQ
##   50   1  SATQ
##   50   2  SATQ
##   50   3  SATQ
##   50   4  SATQ
##   50   5  SATQ
imputed_data$imp$SATQ # # SATQ için atanan 13 değer (5 farklı senaryo için) 
# 1. Regresyon analizi
fit <- with(imputed_data, lm(SATQ ~ SATV + age + gender))

# 2. 5 farklı analizi tek bir sonuçta birleştir
pooled_results <- pool(fit)

# 3. Sonuç tablosunu görüntüle
summary(pooled_results)

** Öğrenme Günlüğü **

İlk derse katılamadım o yüzden bu hafta için videoyu izleyip, derste yapılan uygulamaları yaptım. Kayıp veri temizleme işi dışardan bakıldığında basit bir silme işi gibi gözükse de çok katmanlı düşünmeyi gerektirdiği için birazcık karışık duruyor. Ama, analize başlamadan önce elbette tamamlanması gereken en önemli adım. Özellikle kayıp verinin miktarından ziyade örüntüsünün (MCAR, MAR, MNAR ayrımı) önemli olduğunu görmek, benim için en önemli çıktılarından biri oldu bu dersin. Bu aşamadaki işlemlerin, analize başlamadan önce veriyi daha iyi tanımayı sağladığını düşünüyorum, şu an ne zaman hangi yöntemi kullanacağım konusu tabi ki çok oturmasa da zamanla aynı işlemi tekrarladıkça daha yetkin olacağımı düşünüyorum. Umarım hayatımın geri kalanında temiz veri setleri ile karşılaşırım:) Dönemin ilk öğrenme günlüğü hayırlı olsun, bereketiyle gelsin diyorum:))