Miktar Kuralı: Kayıp veri oranı <%5 ise ve dağılım rastlantısalsa (MCAR), ciddi sorun yok. Ama,örneklem küçükse %5 bile önemli olabilir. Düşük oran + MCAR + yeterli örneklem = Listwise genellikle güvenlidir.
Örüntü Testi (Little’s MCAR Test): Amaç: Kayıp verinin rastlantısal olup olmadığını istatistiksel olarak test etmek. Hipotez (H0): Kayıp veri dağılımı rastlantısaldır. Yorum: p > .05 çıkması istenen durumdur. Bu, verinin tamamen rastlantısal (MCAR) dağıldığını gösterir.
Kayıp Veri Türleri:
A. MCAR (Missing Completely at Random - Tamamen Rastlantısal Kayıp)
Kayıp olma durumu, ne diğer değişkenlere ne de verinin kendisine bağlıdır. Tamamen tesadüfidir.
Etkisi: Silmek (Deletion) yansızlık (bias) yaratmaz, ancak örneklem küçüldüğü için istatistiksel güç (power) düşer.
B. MAR (Missing at Random - Rastlantısal Kayıp)
Kayıp olma olasılığı, veri setindeki başka bir gözlenen değişkene bağlıdır.
Örnek: Kadınların yaşlarını boş bırakma ihtimalinin erkeklerden yüksek olması (Cinsiyet değişkenine bağlı kayıp).
Tanılama Yöntemi (Görselleştirme ve T-Testi):
Değişkeni “Kayıp Olanlar” ve “Kayıp Olmayanlar” diye ikiye ayırıp, diğer değişkenlerdeki ortalamaları arasında fark var mı diye t-testi yapılır. Fark varsa MCAR değildir.Bu durum MAR olabilir veya MNAR olabilir.
Müdahale: Silinmemelidir (yanlılık yaratır). Atama (Imputation) yapılmalıdır. Araştıramaya dahil edip etmeyeceğini düşünebilirsin, sınırlılık olarak ifade edebilirsin.
C. MNAR (Missing Not at Random - Rastlantısal Olmayan Kayıp)
Kayıp olma sebebi, kayıp verinin kendisidir.
Örnek: Geliri çok yüksek olanların, “gelir” sorusunu boş bırakması.
Etkisi: En problemli durumdur. Standart yöntemler yanlı sonuç verir.
Kayıp Veri Başa Çıkma Yöntemleri:
A. Silme Yöntemleri (Deletion):
Listwise Deletion (Liste Bazında Silme): En az bir hücresi boş olan satırı komple atar.
Avantaj: Standart analizler için kolaydır.
Dezavantaj: Örneklem (N) ciddi oranda düşer, güç kaybı yaşanır. Sadece MCAR ise güvenlidir.
Pairwise Deletion (Çift Bazında Silme): Sadece o anki analizdeki korelasyon için kayıp olmayanları kullanır.
Risk: Kovaryans matrisini bozabilir (matematiksel olarak imkansız korelasyonlar üretebilir). Önerilmez.
B.Basit Atama Yöntemleri (Single Imputation)
Ortalama Atama (Mean Substitution): Kayıp yere serinin ortalamasını yazar.
Risk: Varyansı küçültür (veriyi merkeze yığar). Korelasyonları olduğundan düşük gösterir. Önerilmez.
Regresyon Atama: Diğer değişkenleri kullanarak kayıp veriyi tahmin eder.
Risk: Veriyi modele “çok mükemmel” uydurur (varyansı yapay olarak düzenler). Hata terimi eklenmezse sonuçlar yanıltıcı olabilir.
C. Modern ve Güçlü Yöntemler
Beklenti Maksimizasyon (EM - Expectation Maximization):
İteratif bir süreçtir. Parametreleri tahmin eder, yerine koyar, tekrar tahmin eder. Varyansı korumada ortalama atamadan çok daha iyidir.
Çoklu Atama (MI - Multiple Imputation)(En saygın yöntem):
Kayıp verinin yerine tek bir değer atamak yerine, belirsizliği de modele katarak birden fazla (örneğin 5 tane) set oluşturur ve bunların ortalamasını alır.
Önemli: İstatistiksel olarak en güçlü ve en az yanlı yöntemlerden biridir.
FIML (Full Information Maximum Likelihood):
Yapısal Eşitlik Modellemesi (SEM) yapacaksan, MI ile birlikte altın standarttır. Veriyi atamaz, mevcut veriyi kullanarak olabilirlik fonksiyonunu maksimize eder.
library(dplyr)
library(haven) # SPSS dosyalarını R ortamına aktarmak için haven paketi kullanıyoruz.
screen <- read_sav("SCREEN.sav")
screen <- expss::drop_var_labs(screen)
head(screen) # Veri setinin ilk birkaç satırını görüntüle
summary(screen)
## SUBNO TIMEDRS ATTDRUG ATTHOUSE
## Min. : 1.0 Min. : 0.000 Min. : 5.000 Min. : 2.00
## 1st Qu.:137.0 1st Qu.: 2.000 1st Qu.: 7.000 1st Qu.:21.00
## Median :314.0 Median : 4.000 Median : 8.000 Median :24.00
## Mean :317.4 Mean : 7.901 Mean : 7.686 Mean :23.54
## 3rd Qu.:483.0 3rd Qu.:10.000 3rd Qu.: 9.000 3rd Qu.:27.00
## Max. :758.0 Max. :81.000 Max. :10.000 Max. :35.00
## NA's :1
## INCOME EMPLMNT MSTATUS RACE
## Min. : 1.00 Min. :0.000 Min. :1.000 Min. :1.000
## 1st Qu.: 2.50 1st Qu.:0.000 1st Qu.:2.000 1st Qu.:1.000
## Median : 4.00 Median :0.000 Median :2.000 Median :1.000
## Mean : 4.21 Mean :0.471 Mean :1.778 Mean :1.088
## 3rd Qu.: 6.00 3rd Qu.:1.000 3rd Qu.:2.000 3rd Qu.:1.000
## Max. :10.00 Max. :1.000 Max. :2.000 Max. :2.000
## NA's :26
psych paketini kullanarak daha detaylı betimsel istatistikler elde edilir. burada -1 yapma sebebimiz subno yu analizin dışında bırakmak mad: median deviation
library(psych)
describe(screen[,-1])
gtsummary paketini kullanarak sunuma hazır tablolar oluşturulur.
library(gtsummary)
library(xfun)
library(tidyverse)
screen %>%
select(2:6) %>%
tbl_summary(
statistic = all_continuous() ~ c("{min}, {max}"),
missing = "always"
)
| Characteristic | N = 4651 |
|---|---|
| TIMEDRS | 0, 81 |
| Unknown | 0 |
| ATTDRUG | |
| 5 | 13 (2.8%) |
| 6 | 60 (13%) |
| 7 | 126 (27%) |
| 8 | 149 (32%) |
| 9 | 95 (20%) |
| 10 | 22 (4.7%) |
| Unknown | 0 |
| ATTHOUSE | 2.0, 35.0 |
| Unknown | 1 |
| INCOME | 1.00, 10.00 |
| Unknown | 26 |
| EMPLMNT | 219 (47%) |
| Unknown | 0 |
| 1 Min, Max; n (%) | |
vtable paketini kullanarak özet tablolar oluşturulur.
library(vtable)
sumtable(screen, summ=c('notNA(x)','min(x)','max(x)'))
| Variable | NotNA | Min | Max |
|---|---|---|---|
| SUBNO | 465 | 1 | 758 |
| TIMEDRS | 465 | 0 | 81 |
| ATTDRUG | 465 | 5 | 10 |
| ATTHOUSE | 464 | 2 | 35 |
| INCOME | 439 | 1 | 10 |
| MSTATUS | 465 | 1 | 2 |
| RACE | 465 | 1 | 2 |
st(screen, summ = c('notNA(x)','min(x)','max(x)'),
summ.names = c('Frekans','Minimum','Maximum'))
| Variable | Frekans | Minimum | Maximum |
|---|---|---|---|
| SUBNO | 465 | 1 | 758 |
| TIMEDRS | 465 | 0 | 81 |
| ATTDRUG | 465 | 5 | 10 |
| ATTHOUSE | 464 | 2 | 35 |
| INCOME | 439 | 1 | 10 |
| MSTATUS | 465 | 1 | 2 |
| RACE | 465 | 1 | 2 |
kable fonksiyonunu kullanarak markdown formatında tablolar oluşturulur.
kable(describe(screen[,-1]), format='markdown', caption="Betimsel İstatistikler", digits=2)
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| TIMEDRS | 1 | 465 | 7.90 | 10.95 | 4 | 5.61 | 4.45 | 0 | 81 | 81 | 3.23 | 12.88 | 0.51 |
| ATTDRUG | 2 | 465 | 7.69 | 1.16 | 8 | 7.71 | 1.48 | 5 | 10 | 5 | -0.12 | -0.47 | 0.05 |
| ATTHOUSE | 3 | 464 | 23.54 | 4.48 | 24 | 23.62 | 4.45 | 2 | 35 | 33 | -0.45 | 1.51 | 0.21 |
| INCOME | 4 | 439 | 4.21 | 2.42 | 4 | 4.01 | 2.97 | 1 | 10 | 9 | 0.58 | -0.38 | 0.12 |
| EMPLMNT | 5 | 465 | 0.47 | 0.50 | 0 | 0.46 | 0.00 | 0 | 1 | 1 | 0.12 | -1.99 | 0.02 |
| MSTATUS | 6 | 465 | 1.78 | 0.42 | 2 | 1.85 | 0.00 | 1 | 2 | 1 | -1.34 | -0.21 | 0.02 |
| RACE | 7 | 465 | 1.09 | 0.28 | 1 | 1.00 | 0.00 | 1 | 2 | 1 | 2.90 | 6.40 | 0.01 |
skimr paketini kullanarak veri setinin detaylı bir özet alınır.
library(skimr)
skim(screen)
| Name | screen |
| Number of rows | 465 |
| Number of columns | 8 |
| _______________________ | |
| Column type frequency: | |
| numeric | 8 |
| ________________________ | |
| Group variables | None |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| SUBNO | 0 | 1.00 | 317.38 | 194.16 | 1 | 137.0 | 314 | 483 | 758 | ▇▆▆▇▁ |
| TIMEDRS | 0 | 1.00 | 7.90 | 10.95 | 0 | 2.0 | 4 | 10 | 81 | ▇▁▁▁▁ |
| ATTDRUG | 0 | 1.00 | 7.69 | 1.16 | 5 | 7.0 | 8 | 9 | 10 | ▃▇▇▅▁ |
| ATTHOUSE | 1 | 1.00 | 23.54 | 4.48 | 2 | 21.0 | 24 | 27 | 35 | ▁▁▅▇▂ |
| INCOME | 26 | 0.94 | 4.21 | 2.42 | 1 | 2.5 | 4 | 6 | 10 | ▆▇▅▃▂ |
| EMPLMNT | 0 | 1.00 | 0.47 | 0.50 | 0 | 0.0 | 0 | 1 | 1 | ▇▁▁▁▇ |
| MSTATUS | 0 | 1.00 | 1.78 | 0.42 | 1 | 2.0 | 2 | 2 | 2 | ▂▁▁▁▇ |
| RACE | 0 | 1.00 | 1.09 | 0.28 | 1 | 1.0 | 1 | 1 | 2 | ▇▁▁▁▁ |
DataExplorer paketini kullanarak veri seti hakkında otomatik bir rapor oluşturulur.
library(DataExplorer)
Kategorik değişkende qq plot bakılmaz!
create_report(screen)
## | | | 0% | |. | 2% | |.. | 5% [global_options] | |... | 7% | |.... | 10% [introduce] | |.... | 12% | |..... | 14% [plot_intro]
## | |...... | 17% | |....... | 19% [data_structure] | |........ | 21% | |......... | 24% [missing_profile]
## | |.......... | 26% | |........... | 29% [univariate_distribution_header] | |........... | 31% | |............ | 33% [plot_histogram]
## | |............. | 36% | |.............. | 38% [plot_density] | |............... | 40% | |................ | 43% [plot_frequency_bar] | |................. | 45% | |.................. | 48% [plot_response_bar] | |.................. | 50% | |................... | 52% [plot_with_bar] | |.................... | 55% | |..................... | 57% [plot_normal_qq]
## | |...................... | 60% | |....................... | 62% [plot_response_qq] | |........................ | 64% | |......................... | 67% [plot_by_qq] | |.......................... | 69% | |.......................... | 71% [correlation_analysis]
## | |........................... | 74% | |............................ | 76% [principal_component_analysis]
## | |............................. | 79% | |.............................. | 81% [bivariate_distribution_header] | |............................... | 83% | |................................ | 86% [plot_response_boxplot] | |................................. | 88% | |................................. | 90% [plot_by_boxplot] | |.................................. | 93% | |................................... | 95% [plot_response_scatterplot] | |.................................... | 98% | |.....................................| 100% [plot_by_scatterplot]
## /Applications/RStudio.app/Contents/Resources/app/quarto/bin/tools/x86_64/pandoc +RTS -K512m -RTS '/Users/DilekBozu/Documents/R PROJECTS/OLC 733/report.knit.md' --to html4 --from markdown+autolink_bare_uris+tex_math_single_backslash --output pandoc29ba19413d72.html --lua-filter /Library/Frameworks/R.framework/Versions/4.5-x86_64/Resources/library/rmarkdown/rmarkdown/lua/pagebreak.lua --lua-filter /Library/Frameworks/R.framework/Versions/4.5-x86_64/Resources/library/rmarkdown/rmarkdown/lua/latex-div.lua --lua-filter /Library/Frameworks/R.framework/Versions/4.5-x86_64/Resources/library/rmarkdown/rmarkdown/lua/table-classes.lua --embed-resources --standalone --variable bs3=TRUE --section-divs --table-of-contents --toc-depth 6 --template /Library/Frameworks/R.framework/Versions/4.5-x86_64/Resources/library/rmarkdown/rmd/h/default.html --no-highlight --variable highlightjs=1 --variable theme=yeti --mathjax --variable 'mathjax-url=https://mathjax.rstudio.com/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML' --include-in-header /var/folders/bz/gg0rp9ts5lj5xh_6pqyhc8_h0000gp/T//RtmplfgQSK/rmarkdown-str29ba20220431.html
funModeling paketini kullanarak veri setindeki eksik değerler ve benzersiz değerler hızlıca özetlenir.
library(funModeling)
df_status(screen)
## variable q_zeros p_zeros q_na p_na q_inf p_inf type unique
## 1 SUBNO 0 0.00 0 0.00 0 0 numeric 465
## 2 TIMEDRS 42 9.03 0 0.00 0 0 numeric 43
## 3 ATTDRUG 0 0.00 0 0.00 0 0 numeric 6
## 4 ATTHOUSE 0 0.00 1 0.22 0 0 numeric 26
## 5 INCOME 0 0.00 26 5.59 0 0 numeric 10
## 6 EMPLMNT 246 52.90 0 0.00 0 0 numeric 2
## 7 MSTATUS 0 0.00 0 0.00 0 0 numeric 2
## 8 RACE 0 0.00 0 0.00 0 0 numeric 2
library(naniar)
library(ggplot2)
any_na(screen) # Veri setinde herhangi bir kayıp değer olup olmadığı kontrol edilir
## [1] TRUE
n_miss(screen) # Veri setindeki toplam kayıp değer sayısını verir
## [1] 27
prop_miss(screen) # Oranını hesaplar
## [1] 0.007258065
screen%>% is.na %>% colSums() # Her bir değişkendeki kayıp değer sayısını hesaplar.
## SUBNO TIMEDRS ATTDRUG ATTHOUSE INCOME EMPLMNT MSTATUS RACE
## 0 0 0 1 26 0 0 0
miss_var_summary(screen) # Değişken ve gözlem bazında kayıp veri özetlerini verir.
miss_var_table(screen)
miss_case_summary(screen)
miss_case_table(screen)
Kayıp veriyi görselleştirmek için çeşitli grafikler oluşturma:
library(rlang)
library(ggplot2)
library(UpSetR)
library(naniar)
gg_miss_upset(screen)
vis_miss(screen)+ theme(axis.text.x=element_text(angle=80))
MCAR Testi
library(naniar)
mcar_test(data=screen[,c(2,3,4,5,7,8)]) # Subno ve employment değişkenlerini almadık.
# Sonuç:p <.05, kayıp veri rastgele değil demek. Bu yüzden, kayıp veri ne ile ilişkili ona bakmamız gerekiyor.
# Kikare analizi: Büyük örneklemden etkilenmiş olabilir.
2. adım: Veri kaybı diğer değişkenlerle ilişkili olup olmadığının kontrolü
# değişkeni kopyala
screen2 <- screen
screen2$INCOME_m <- screen2$INCOME # en fazla eksik veri income da olduğu için bunu seçtik.
library(finalfit)
#income da eksik verisi olan ve olmayan kişilerin sırasıyla diğer değişkenlerdeki ortalamaları arasında fark var mı diye t-testi yapılıyor.
explanatory = c("TIMEDRS", "ATTDRUG", "ATTHOUSE")
dependent = "INCOME_m"
screen2 %>%
missing_compare(dependent, explanatory) %>%
knitr::kable(row.names=FALSE, align = c("l", "l", "r", "r", "r"),
caption = "Eksik veriye sahip olan ve olmayan değişkenlerin ortalama karşılaştırması")
| Missing data analysis: INCOME_m | Not missing | Missing | p | |
|---|---|---|---|---|
| TIMEDRS | Mean (SD) | 7.9 (11.1) | 7.6 (7.4) | 0.891 |
| ATTDRUG | Mean (SD) | 7.7 (1.2) | 7.9 (1.0) | 0.368 |
| ATTHOUSE | Mean (SD) | 23.5 (4.5) | 23.7 (4.2) | 0.860 |
# tabloda parantez içindekiler standart sapma değerleri.
# income değişkenindeki eksik veri analizdeki hiçbir değişkenle ilgili çıkmadı, hepsi p>.05 olduğu için.
Finalfit paketinin yaptığının ayrı ayrı t testi ile yapılması:
library(tidyverse)
miss_test <- screen2 %>%mutate(miss_income = is.na(INCOME))
# income değişkeninde eksik verisi olmayanlar
ATTHOUSE_nonna <- miss_test %>% filter(miss_income == FALSE) %>%
pull(ATTHOUSE)
# income değişkeninde eksik verisi olanlar
ATTHOUSE_na <- miss_test %>% filter(miss_income == TRUE) %>%
pull(ATTHOUSE)
#c Oran
t.test(ATTHOUSE_nonna, ATTHOUSE_na)
##
## Welch Two Sample t-test
##
## data: ATTHOUSE_nonna and ATTHOUSE_na
## t = -0.18904, df = 28.553, p-value = 0.8514
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.896325 1.575636
## sample estimates:
## mean of x mean of y
## 23.53196 23.69231
Veri Silmeye Dayalı Yöntemler Liste Bazında Silme
na.omit(screen)
Çiftler Bazında Silme: Sadece tamamen dolu gözlemler ile analiz yapar, çok önerilmez çünkü örneklem değişmiş oluyor.
Veri Atamaya Dayalı Yöntemler Ortalama ile Atama:
Kayıp değerler, değişkenin ortalaması ile doldurulur.
Problem: standart sapmayı düşürür. Bu değer küçüldükçe istatistiksel olarak anlamsız olan değerleristatistiksel olarak anlamlı hale getirebilir. Ortalama yerine medyan atamak tavsiye edilir değişkenliği daha az azalttığı için.
screen3 <- screen
screen3$INCOME[is.na(screen3$INCOME)] <- mean(screen3$INCOME, na.rm=TRUE)
summary(screen3$INCOME)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 3.00 4.00 4.21 6.00 10.00
sd(screen$INCOME,na.rm=TRUE)
## [1] 2.418875
sd(screen3$INCOME)
## [1] 2.350128
Döngü ile Ortalama Atama:
Birden fazla değişken için kayıp değerleri ortalamayla doldururma
screen4 <- screen[,2:5]
for(i in 1:ncol(screen4)){
screen4[ , i][is.na(screen4[ , i])] <- mean(screen4[ , i], na.rm = TRUE)
}
any_na(screen4)
## [1] FALSE
Transform Fonksiyonu ile Atama: Transform fonksiyonunu kullanarak kayıp değerleri ortalamayla doldurma
screen5 <- screen
screen5 = mutate(screen5, INCOME = ifelse(is.na(INCOME), mean(INCOME, na.rm=TRUE), INCOME))
summary(screen5)
## SUBNO TIMEDRS ATTDRUG ATTHOUSE
## Min. : 1.0 Min. : 0.000 Min. : 5.000 Min. : 2.00
## 1st Qu.:137.0 1st Qu.: 2.000 1st Qu.: 7.000 1st Qu.:21.00
## Median :314.0 Median : 4.000 Median : 8.000 Median :24.00
## Mean :317.4 Mean : 7.901 Mean : 7.686 Mean :23.54
## 3rd Qu.:483.0 3rd Qu.:10.000 3rd Qu.: 9.000 3rd Qu.:27.00
## Max. :758.0 Max. :81.000 Max. :10.000 Max. :35.00
## NA's :1
## INCOME EMPLMNT MSTATUS RACE
## Min. : 1.00 Min. :0.000 Min. :1.000 Min. :1.000
## 1st Qu.: 3.00 1st Qu.:0.000 1st Qu.:2.000 1st Qu.:1.000
## Median : 4.00 Median :0.000 Median :2.000 Median :1.000
## Mean : 4.21 Mean :0.471 Mean :1.778 Mean :1.088
## 3rd Qu.: 6.00 3rd Qu.:1.000 3rd Qu.:2.000 3rd Qu.:1.000
## Max. :10.00 Max. :1.000 Max. :2.000 Max. :2.000
##
Model Tabanlı Yöntemler EM Algoritması Sürekli veride yapılabilecek bir işlem.
library(mvdalab)
dat <- introNAs(iris, percent = 25)
dat_EM<- imputeEM(dat)
dat_EM
## Sepal.Length Sepal.Width Petal.Length Petal.Width Speciessetosa
## 1 5.100000 3.500000 1.598732 0.2000000 0.95062295
## 2 4.900000 3.000000 1.582748 0.2000000 1.00000000
## 3 4.700000 3.200000 1.300000 0.2000000 1.00000000
## 4 4.600000 3.488605 1.500000 0.1283107 1.00000000
## 5 5.000000 3.491619 1.400000 0.2000000 1.00000000
## 6 5.088357 3.234833 1.700000 0.4770233 0.72732010
## 7 4.985320 3.257626 1.400000 0.3710002 0.78697299
## 8 5.000000 3.400000 1.500000 0.2494160 1.00000000
## 9 4.400000 2.900000 1.400000 0.2000000 1.00000000
## 10 4.883070 3.100000 1.465054 0.1000000 1.00000000
## 11 5.400000 3.700000 1.500000 0.2000000 1.00000000
## 12 4.939181 3.485187 1.600000 0.2000000 1.00000000
## 13 4.800000 3.000000 1.400000 0.1000000 1.00000000
## 14 4.714793 3.292345 1.100000 0.1000000 0.92395108
## 15 4.891090 3.496465 1.200000 0.2000000 1.00000000
## 16 5.700000 4.400000 1.500000 0.4000000 1.38194379
## 17 5.400000 3.900000 2.165017 0.5754077 1.02680157
## 18 5.100000 3.500000 1.400000 0.3000000 1.00000000
## 19 5.291756 3.800000 1.700000 0.4261072 1.05600026
## 20 5.100000 3.800000 1.500000 0.3000000 1.11500534
## 21 5.400000 3.400000 1.700000 0.2000000 1.00000000
## 22 5.100000 3.700000 1.500000 0.4000000 1.00000000
## 23 4.600000 3.600000 1.000000 0.2000000 1.00000000
## 24 5.031215 3.300000 1.700000 0.5000000 1.00000000
## 25 4.800000 3.400000 1.900000 0.2000000 0.90223752
## 26 4.939181 3.485187 1.600000 0.2000000 1.00000000
## 27 5.000000 3.400000 2.021943 0.4697132 0.80615508
## 28 5.200000 3.500000 1.500000 0.2000000 0.95381598
## 29 5.200000 3.400000 1.400000 0.2000000 1.00000000
## 30 4.700000 3.200000 1.363206 0.1859616 1.00000000
## 31 4.800000 3.100000 1.600000 0.2000000 1.00000000
## 32 5.090568 3.400000 1.500000 0.3980545 0.86542796
## 33 4.917323 4.100000 1.500000 0.1000000 1.00000000
## 34 5.500000 4.200000 1.400000 0.2000000 1.00000000
## 35 4.922577 3.100000 1.556001 0.2000000 1.00000000
## 36 4.987042 3.200000 1.860738 0.2000000 0.76236840
## 37 4.901371 3.493773 1.300000 0.1854555 1.00000000
## 38 4.900000 3.600000 1.237454 0.1000000 1.00000000
## 39 4.925304 3.000000 1.604043 0.2000000 1.00000000
## 40 4.924191 3.400000 1.500000 0.2000000 1.00000000
## 41 5.000000 3.500000 1.300000 0.3000000 1.00000000
## 42 4.500000 2.300000 1.300000 0.3000000 0.34050269
## 43 4.400000 3.200000 1.186173 0.2000000 1.00000000
## 44 5.000000 3.500000 1.600000 0.6000000 1.00000000
## 45 5.100000 3.800000 1.900000 0.4000000 1.00000000
## 46 4.800000 3.000000 1.400000 0.3000000 0.69961171
## 47 5.100000 3.800000 1.333707 0.2000000 1.00000000
## 48 4.600000 3.159221 1.400000 0.1384231 0.83137484
## 49 5.300000 3.700000 1.501602 0.2000000 1.00000000
## 50 5.000000 3.300000 1.400000 0.2000000 1.00000000
## 51 5.699293 3.200000 3.917005 1.4000000 0.00000000
## 52 6.400000 3.200000 4.500000 1.5000000 0.00000000
## 53 5.612535 3.100000 3.758989 1.1700664 0.00000000
## 54 5.662145 2.612772 4.000000 1.3000000 0.00000000
## 55 6.500000 2.800000 4.600000 1.5000000 0.00000000
## 56 5.728718 2.800000 4.500000 1.3000000 0.00000000
## 57 6.300000 3.300000 4.700000 1.6000000 0.00000000
## 58 4.900000 2.400000 3.300000 1.0000000 0.00000000
## 59 6.600000 2.900000 4.600000 1.3000000 0.00000000
## 60 5.681576 2.700000 3.900000 1.4000000 0.00000000
## 61 5.000000 2.000000 3.500000 1.0000000 0.00000000
## 62 5.755877 3.000000 4.200000 1.5000000 0.00000000
## 63 5.568539 2.200000 4.033635 1.0000000 0.00000000
## 64 6.100000 2.900000 4.446309 1.4000000 0.10511638
## 65 5.600000 2.628503 3.600000 1.2219962 0.00000000
## 66 5.971019 3.100000 4.134782 1.4000000 0.25502395
## 67 5.600000 3.000000 4.500000 1.2730183 0.00000000
## 68 5.800000 2.627728 4.100000 1.0000000 0.00000000
## 69 6.200000 2.200000 4.500000 1.5000000 0.00000000
## 70 5.690549 2.500000 4.189316 1.3374917 0.00000000
## 71 5.900000 2.564067 4.800000 1.8000000 0.00000000
## 72 6.100000 2.800000 4.000000 1.3000000 0.00000000
## 73 6.300000 2.500000 4.900000 1.5000000 0.00000000
## 74 6.100000 2.800000 4.700000 1.2000000 0.06106463
## 75 5.638540 2.900000 3.902431 1.2258748 0.00000000
## 76 6.600000 3.113979 4.400000 1.7051263 0.11973821
## 77 5.793690 2.800000 4.800000 1.4000000 0.00000000
## 78 6.700000 3.000000 5.000000 1.7000000 0.00000000
## 79 5.746981 2.900000 4.152078 1.5000000 0.00000000
## 80 5.700000 2.600000 4.138258 1.3185217 0.00000000
## 81 5.500000 2.621689 3.800000 1.2214280 0.00000000
## 82 5.500000 2.400000 3.700000 1.0000000 0.00000000
## 83 5.800000 2.700000 3.900000 1.2000000 0.00000000
## 84 5.884188 2.700000 5.100000 1.6000000 0.00000000
## 85 5.400000 3.000000 4.500000 1.5000000 0.00000000
## 86 5.833287 3.400000 4.500000 1.6000000 0.00000000
## 87 6.700000 3.100000 4.700000 1.5000000 0.00000000
## 88 5.814936 3.074117 3.820729 1.2246621 0.30667189
## 89 5.686492 3.000000 4.100000 1.3000000 0.00000000
## 90 5.500000 2.500000 4.000000 1.3000000 0.00000000
## 91 5.500000 2.600000 4.400000 1.2983929 0.00000000
## 92 5.775686 3.000000 4.600000 1.4000000 0.00000000
## 93 5.800000 2.616230 4.117375 1.2000000 0.00000000
## 94 5.000000 2.300000 3.300000 1.0000000 0.02190306
## 95 5.600000 2.700000 4.200000 1.3000000 0.00000000
## 96 5.946991 3.044899 4.200000 1.3605491 0.23021273
## 97 5.700000 2.900000 4.200000 1.3000000 0.00000000
## 98 5.833072 2.900000 4.061221 1.3000000 0.17464536
## 99 5.100000 2.500000 3.675696 1.1000000 0.00000000
## 100 5.700000 2.800000 4.100000 1.3000000 0.00000000
## 101 6.300000 3.300000 6.000000 2.5000000 0.00000000
## 102 6.662646 2.700000 5.100000 1.9000000 0.00000000
## 103 7.100000 3.000000 6.207641 2.1000000 -0.17947534
## 104 6.300000 3.223028 5.600000 1.8000000 0.00000000
## 105 6.500000 3.000000 5.769672 2.2000000 0.00000000
## 106 6.916720 3.183142 6.600000 2.1000000 0.00000000
## 107 4.900000 2.500000 4.500000 1.7000000 0.00000000
## 108 7.300000 3.190489 6.210263 2.2751987 0.00000000
## 109 6.700000 2.500000 5.800000 2.1637073 -0.40657090
## 110 7.200000 3.600000 6.100000 2.5000000 0.00000000
## 111 6.500000 3.200000 5.527788 1.9802063 0.00000000
## 112 6.400000 2.700000 5.300000 1.9000000 0.00000000
## 113 6.784471 3.214157 5.500000 2.1000000 0.00000000
## 114 6.777111 3.214720 5.695696 2.0000000 0.00000000
## 115 5.808215 2.800000 4.124139 1.3328382 0.11310384
## 116 6.400000 3.200000 5.300000 2.3000000 0.02865351
## 117 6.500000 3.000000 5.500000 1.8000000 0.00000000
## 118 7.700000 3.800000 6.700000 2.2000000 0.00000000
## 119 7.700000 3.171034 6.900000 2.3000000 0.00000000
## 120 6.000000 2.982531 5.000000 1.5750265 0.10006592
## 121 6.900000 3.200000 5.700000 2.3000000 0.00000000
## 122 5.600000 2.870746 4.900000 2.0000000 0.02631659
## 123 6.888178 2.800000 6.700000 2.0000000 0.00000000
## 124 6.300000 2.700000 4.900000 1.7504434 -0.11957479
## 125 6.700000 3.300000 5.700000 2.0399199 0.00000000
## 126 7.200000 3.225602 5.819428 1.8000000 0.00000000
## 127 6.200000 2.800000 4.800000 1.8000000 -0.05586557
## 128 6.100000 3.241620 4.900000 1.8000000 0.00000000
## 129 6.400000 2.800000 5.600000 2.1000000 -0.18664132
## 130 6.678164 3.231868 5.800000 1.6000000 0.00000000
## 131 7.400000 3.213625 6.100000 1.9000000 0.00000000
## 132 7.061994 3.800000 6.400000 2.0000000 0.26744914
## 133 6.400000 2.800000 5.600000 2.2000000 0.00000000
## 134 6.551209 2.800000 5.100000 1.5000000 0.00000000
## 135 6.100000 2.600000 5.173151 1.4000000 0.00000000
## 136 7.700000 3.194523 6.100000 2.3000000 0.00000000
## 137 6.300000 3.400000 5.600000 2.4000000 0.00000000
## 138 6.400000 3.100000 5.500000 1.8437216 0.03439036
## 139 6.000000 3.243575 4.800000 1.8000000 0.00000000
## 140 6.900000 3.100000 5.400000 2.1000000 0.00000000
## 141 6.700000 3.100000 5.979587 2.4000000 0.00000000
## 142 6.606388 2.939376 5.100000 2.3000000 -0.12000333
## 143 6.662646 2.700000 5.100000 1.9000000 0.00000000
## 144 6.800000 3.200000 5.900000 2.1072108 0.00000000
## 145 6.925795 3.300000 5.700000 2.5000000 0.00000000
## 146 6.901687 3.000000 6.074152 2.3000000 0.00000000
## 147 6.644315 2.500000 5.000000 1.9000000 0.00000000
## 148 6.500000 3.000000 5.200000 2.0000000 0.00000000
## 149 6.200000 3.223120 5.400000 1.8822075 0.00000000
## 150 5.900000 3.000000 5.100000 1.8000000 0.00000000
## Speciesversicolor Speciesvirginica
## 1 -0.01252633 0.06190338
## 2 0.00000000 0.00000000
## 3 0.00000000 0.00000000
## 4 0.00000000 0.00000000
## 5 0.00000000 0.00000000
## 6 0.29849148 -0.02581158
## 7 0.28876417 -0.07573716
## 8 0.00000000 0.00000000
## 9 0.00000000 0.00000000
## 10 0.00000000 0.00000000
## 11 0.00000000 0.00000000
## 12 0.00000000 0.00000000
## 13 0.00000000 0.00000000
## 14 0.29616480 -0.22011588
## 15 0.00000000 0.00000000
## 16 -1.19634917 0.81440538
## 17 -0.54961089 0.52280933
## 18 0.00000000 0.00000000
## 19 -0.43092690 0.37492663
## 20 -0.37237786 0.25737252
## 21 0.00000000 0.00000000
## 22 0.00000000 0.00000000
## 23 0.00000000 0.00000000
## 24 0.00000000 0.00000000
## 25 0.16321394 -0.06545146
## 26 0.00000000 0.00000000
## 27 0.11732525 0.07651967
## 28 -0.03099605 0.07718007
## 29 0.00000000 0.00000000
## 30 0.00000000 0.00000000
## 31 0.00000000 0.00000000
## 32 0.06496431 0.06960773
## 33 0.00000000 0.00000000
## 34 0.00000000 0.00000000
## 35 0.00000000 0.00000000
## 36 0.32851412 -0.09088253
## 37 0.00000000 0.00000000
## 38 0.00000000 0.00000000
## 39 0.00000000 0.00000000
## 40 0.00000000 0.00000000
## 41 0.00000000 0.00000000
## 42 1.52032490 -0.86082759
## 43 0.00000000 0.00000000
## 44 0.00000000 0.00000000
## 45 0.00000000 0.00000000
## 46 0.63354712 -0.33315883
## 47 0.00000000 0.00000000
## 48 0.47626408 -0.30763892
## 49 0.00000000 0.00000000
## 50 0.00000000 0.00000000
## 51 1.00000000 0.00000000
## 52 1.00000000 0.00000000
## 53 1.00000000 0.00000000
## 54 1.00000000 0.00000000
## 55 1.00000000 0.00000000
## 56 1.00000000 0.00000000
## 57 1.00000000 0.00000000
## 58 1.00000000 0.00000000
## 59 1.00000000 0.00000000
## 60 1.00000000 0.00000000
## 61 1.00000000 0.00000000
## 62 1.00000000 0.00000000
## 63 1.00000000 0.00000000
## 64 0.52738455 0.36749907
## 65 1.00000000 0.00000000
## 66 0.31688897 0.42808708
## 67 1.00000000 0.00000000
## 68 1.00000000 0.00000000
## 69 1.00000000 0.00000000
## 70 1.00000000 0.00000000
## 71 1.00000000 0.00000000
## 72 1.00000000 0.00000000
## 73 1.00000000 0.00000000
## 74 0.65234262 0.28659275
## 75 1.00000000 0.00000000
## 76 0.20971211 0.67054968
## 77 1.00000000 0.00000000
## 78 1.00000000 0.00000000
## 79 1.00000000 0.00000000
## 80 1.00000000 0.00000000
## 81 1.00000000 0.00000000
## 82 1.00000000 0.00000000
## 83 1.00000000 0.00000000
## 84 1.00000000 0.00000000
## 85 1.00000000 0.00000000
## 86 1.00000000 0.00000000
## 87 1.00000000 0.00000000
## 88 0.36707628 0.32625183
## 89 1.00000000 0.00000000
## 90 1.00000000 0.00000000
## 91 1.00000000 0.00000000
## 92 1.00000000 0.00000000
## 93 1.00000000 0.00000000
## 94 1.43595263 -0.45785569
## 95 1.00000000 0.00000000
## 96 0.37955233 0.39023494
## 97 1.00000000 0.00000000
## 98 0.57257256 0.25278208
## 99 1.00000000 0.00000000
## 100 1.00000000 0.00000000
## 101 0.00000000 1.00000000
## 102 0.00000000 1.00000000
## 103 0.23254003 0.94693531
## 104 0.00000000 1.00000000
## 105 0.00000000 1.00000000
## 106 0.00000000 1.00000000
## 107 0.00000000 1.00000000
## 108 0.00000000 1.00000000
## 109 0.89986294 0.50670796
## 110 0.00000000 1.00000000
## 111 0.00000000 1.00000000
## 112 0.00000000 1.00000000
## 113 0.00000000 1.00000000
## 114 0.00000000 1.00000000
## 115 0.69755505 0.18934111
## 116 0.10744020 0.86390629
## 117 0.00000000 1.00000000
## 118 0.00000000 1.00000000
## 119 0.00000000 1.00000000
## 120 0.42211299 0.47782109
## 121 0.00000000 1.00000000
## 122 0.57526432 0.39841909
## 123 0.00000000 1.00000000
## 124 0.73035452 0.38922027
## 125 0.00000000 1.00000000
## 126 0.00000000 1.00000000
## 127 0.62444085 0.43142472
## 128 0.00000000 1.00000000
## 129 0.59032825 0.59631307
## 130 0.00000000 1.00000000
## 131 0.00000000 1.00000000
## 132 -0.66009912 1.39264998
## 133 0.00000000 1.00000000
## 134 0.00000000 1.00000000
## 135 0.00000000 1.00000000
## 136 0.00000000 1.00000000
## 137 0.00000000 1.00000000
## 138 0.24022688 0.72538276
## 139 0.00000000 1.00000000
## 140 0.00000000 1.00000000
## 141 0.00000000 1.00000000
## 142 0.38891108 0.73109225
## 143 0.00000000 1.00000000
## 144 0.00000000 1.00000000
## 145 0.00000000 1.00000000
## 146 0.00000000 1.00000000
## 147 0.00000000 1.00000000
## 148 0.00000000 1.00000000
## 149 0.00000000 1.00000000
## 150 0.00000000 1.00000000
Fonksiyon kullanımı: imputeEM(data, impute.ncomps = 2, pca.ncomps = 2, CV = TRUE, Init = “mean”, scale = TRUE, iters = 25, tol = .Machine$double.eps^0.25)
data: Eksik değerlere sahip veri kümesi.
impute.ncomps: Test edilecek minimum bileşen sayısını belirler. EM algoritması için kullanılacak bileşen sayısını belirlemek amacıyla çeşitli bileşen sayıları test edilir.
pca.ncomps: Eksik veri tamamlama işlemi için kullanılacak minimum bileşen sayısını belirler. PCA (Principal Component Analysis) tabanlı tamamlama işlemi yapılıyorsa kaç bileşenin kullanılacağını belirler.
CV: Eğer TRUE ise, çapraz doğrulama (cross-validation) kullanılarak optimal bileşen sayısı belirlenir.
Init: Sürekli değişkenler için başlangıç değerinin mean (ortalama) veya median (medyan) olarak belirlenmesini sağlar.
scale: TRUE ise değişkenler birim varyansa (standart sapma = 1) ölçeklendirilir.
iters: EM algoritmasının kaç iterasyon süreceğini belirler.
tol: İterasyonların yakınsama (convergence) eşiğini belirler. Yani, ardışık iterasyonlardaki değişim bu eşiğin altına düşerse algoritma durur.
dat_EM$pca.ncomps # Kullanılan bileşen sayısı (impute.ncomps değeri).
## [1] 2
dat_EM$CV.Results # Çapraz doğrulama sonuçları. Optimal bileşen sayısının belirlenmesi için kullanılan bilgiler içerir.
dat_EM$Imputed.DataFrames # EM iterasyonları boyunca sürekli değişkenler için üretilen tahmini değerlerin listesi.
## [[1]]
## Sepal.Length Sepal.Width Petal.Length Petal.Width Speciessetosa
## 1 5.100000 3.500000 1.572433 0.2000000 0.888443862
## 2 4.900000 3.000000 1.738130 0.2000000 1.000000000
## 3 4.700000 3.200000 1.300000 0.2000000 1.000000000
## 4 4.600000 3.411823 1.500000 0.1164440 1.000000000
## 5 5.000000 3.382802 1.400000 0.2000000 1.000000000
## 6 4.955758 3.353582 1.700000 0.2976401 0.853517731
## 7 4.833874 3.395190 1.400000 0.1681921 0.928790751
## 8 5.000000 3.400000 1.500000 0.2148192 1.000000000
## 9 4.400000 2.900000 1.400000 0.2000000 1.000000000
## 10 4.918124 3.100000 1.618795 0.1000000 1.000000000
## 11 5.400000 3.700000 1.500000 0.2000000 1.000000000
## 12 4.862283 3.385492 1.600000 0.2000000 1.000000000
## 13 4.800000 3.000000 1.400000 0.1000000 1.000000000
## 14 4.737821 3.427980 1.100000 0.1000000 0.988110881
## 15 4.816289 3.401193 1.200000 0.2000000 1.000000000
## 16 5.700000 4.400000 1.500000 0.4000000 0.945529361
## 17 5.400000 3.900000 1.299052 0.1190903 0.957343087
## 18 5.100000 3.500000 1.400000 0.3000000 1.000000000
## 19 4.605958 3.800000 1.700000 -0.0738681 1.069546905
## 20 5.100000 3.800000 1.500000 0.3000000 0.938078616
## 21 5.400000 3.400000 1.700000 0.2000000 1.000000000
## 22 5.100000 3.700000 1.500000 0.4000000 1.000000000
## 23 4.600000 3.600000 1.000000 0.2000000 1.000000000
## 24 4.966406 3.300000 1.700000 0.5000000 1.000000000
## 25 4.800000 3.400000 1.900000 0.2000000 0.891004932
## 26 4.862283 3.385492 1.600000 0.2000000 1.000000000
## 27 5.000000 3.400000 1.689382 0.2882643 0.858969682
## 28 5.200000 3.500000 1.500000 0.2000000 0.877772227
## 29 5.200000 3.400000 1.400000 0.2000000 1.000000000
## 30 4.700000 3.200000 1.490819 0.2022044 1.000000000
## 31 4.800000 3.100000 1.600000 0.2000000 1.000000000
## 32 4.857232 3.400000 1.500000 0.1929992 0.914365600
## 33 4.634507 4.100000 1.500000 0.1000000 1.000000000
## 34 5.500000 4.200000 1.400000 0.2000000 1.000000000
## 35 4.949701 3.100000 1.696172 0.2000000 1.000000000
## 36 5.010377 3.200000 1.844855 0.2000000 0.819786501
## 37 4.814141 3.401926 1.300000 0.1472348 1.000000000
## 38 4.900000 3.600000 1.262690 0.1000000 1.000000000
## 39 4.986146 3.000000 1.785479 0.2000000 1.000000000
## 40 4.847907 3.400000 1.500000 0.2000000 1.000000000
## 41 5.000000 3.500000 1.300000 0.3000000 1.000000000
## 42 4.500000 2.300000 1.300000 0.3000000 0.743318480
## 43 4.400000 3.200000 1.324318 0.2000000 1.000000000
## 44 5.000000 3.500000 1.600000 0.6000000 1.000000000
## 45 5.100000 3.800000 1.900000 0.4000000 1.000000000
## 46 4.800000 3.000000 1.400000 0.3000000 0.830403568
## 47 5.100000 3.800000 1.294321 0.2000000 1.000000000
## 48 4.600000 3.432540 1.400000 0.0519911 0.996360745
## 49 5.300000 3.700000 1.473694 0.2000000 1.000000000
## 50 5.000000 3.300000 1.400000 0.2000000 1.000000000
## 51 5.944489 3.200000 4.133853 1.4000000 0.000000000
## 52 6.400000 3.200000 4.500000 1.5000000 0.000000000
## 53 5.974429 3.100000 4.207222 1.3795291 0.000000000
## 54 5.958223 3.011369 4.000000 1.3000000 0.000000000
## 55 6.500000 2.800000 4.600000 1.5000000 0.000000000
## 56 6.067724 2.800000 4.500000 1.3000000 0.000000000
## 57 6.300000 3.300000 4.700000 1.6000000 0.000000000
## 58 4.900000 2.400000 3.300000 1.0000000 0.000000000
## 59 6.600000 2.900000 4.600000 1.3000000 0.000000000
## 60 6.055752 2.700000 3.900000 1.4000000 0.000000000
## 61 5.000000 2.000000 3.500000 1.0000000 0.000000000
## 62 6.029169 3.000000 4.200000 1.5000000 0.000000000
## 63 6.182635 2.200000 4.717420 1.0000000 0.000000000
## 64 6.100000 2.900000 4.473345 1.4000000 0.157337447
## 65 5.600000 3.052155 3.600000 1.2354264 0.000000000
## 66 5.913800 3.100000 4.058652 1.4000000 0.261851075
## 67 5.600000 3.000000 4.500000 1.3541940 0.000000000
## 68 5.800000 3.040000 4.100000 1.0000000 0.000000000
## 69 6.200000 2.200000 4.500000 1.5000000 0.000000000
## 70 6.303382 2.500000 5.013306 1.7288965 0.000000000
## 71 5.900000 2.954099 4.800000 1.8000000 0.000000000
## 72 6.100000 2.800000 4.000000 1.3000000 0.000000000
## 73 6.300000 2.500000 4.900000 1.5000000 0.000000000
## 74 6.100000 2.800000 4.700000 1.2000000 0.154460083
## 75 6.084080 2.900000 4.475916 1.4959849 0.000000000
## 76 6.600000 2.893533 4.400000 1.7289221 0.021238231
## 77 6.122527 2.800000 4.800000 1.4000000 0.000000000
## 78 6.700000 3.000000 5.000000 1.7000000 0.000000000
## 79 6.085401 2.900000 4.479152 1.5000000 0.000000000
## 80 5.700000 2.600000 4.470930 1.4938237 0.000000000
## 81 5.500000 3.052431 3.800000 1.2345675 0.000000000
## 82 5.500000 2.400000 3.700000 1.0000000 0.000000000
## 83 5.800000 2.700000 3.900000 1.2000000 0.000000000
## 84 6.227959 2.700000 5.100000 1.6000000 0.000000000
## 85 5.400000 3.000000 4.500000 1.5000000 0.000000000
## 86 5.975458 3.400000 4.500000 1.6000000 0.000000000
## 87 6.700000 3.100000 4.700000 1.5000000 0.000000000
## 88 5.824177 3.057128 3.839036 1.2199528 0.317199995
## 89 5.971733 3.000000 4.100000 1.3000000 0.000000000
## 90 5.500000 2.500000 4.000000 1.3000000 0.000000000
## 91 5.500000 2.600000 4.400000 1.4382934 0.000000000
## 92 6.047403 3.000000 4.600000 1.4000000 0.000000000
## 93 5.800000 3.027177 4.054034 1.2000000 0.000000000
## 94 5.000000 2.300000 3.300000 1.0000000 0.378184963
## 95 5.600000 2.700000 4.200000 1.3000000 0.000000000
## 96 5.971458 3.006851 4.200000 1.3763735 0.226242560
## 97 5.700000 2.900000 4.200000 1.3000000 0.000000000
## 98 6.003472 2.900000 4.278389 1.3000000 0.206471516
## 99 5.100000 2.500000 3.973603 1.1000000 0.000000000
## 100 5.700000 2.800000 4.100000 1.3000000 0.000000000
## 101 6.300000 3.300000 6.000000 2.5000000 0.000000000
## 102 6.511841 2.700000 5.100000 1.9000000 0.000000000
## 103 7.100000 3.000000 6.024313 2.1000000 -0.233547370
## 104 6.300000 2.837645 5.600000 1.8000000 0.000000000
## 105 6.500000 3.000000 5.602786 2.2000000 0.000000000
## 106 6.699547 2.758302 6.600000 2.1000000 0.000000000
## 107 4.900000 2.500000 4.500000 1.7000000 0.000000000
## 108 7.300000 2.715778 6.289332 2.2819432 0.000000000
## 109 6.700000 2.500000 5.800000 2.2455022 -0.279149132
## 110 7.200000 3.600000 6.100000 2.5000000 0.000000000
## 111 6.500000 3.200000 5.240909 1.8275426 0.000000000
## 112 6.400000 2.700000 5.300000 1.9000000 0.000000000
## 113 6.573064 2.801480 5.500000 2.1000000 0.000000000
## 114 6.564911 2.804263 5.654171 2.0000000 0.000000000
## 115 6.459352 2.800000 5.395503 1.8945458 -0.075070700
## 116 6.400000 3.200000 5.300000 2.3000000 -0.056045988
## 117 6.500000 3.000000 5.500000 1.8000000 0.000000000
## 118 7.700000 3.800000 6.700000 2.2000000 0.000000000
## 119 7.700000 2.668901 6.900000 2.3000000 0.000000000
## 120 6.000000 2.941929 5.000000 1.5783540 0.108792412
## 121 6.900000 3.200000 5.700000 2.3000000 0.000000000
## 122 5.600000 2.940811 4.900000 2.0000000 0.106768863
## 123 6.675153 2.800000 6.700000 2.0000000 0.000000000
## 124 6.300000 2.700000 4.900000 1.8040801 -0.022465602
## 125 6.700000 3.300000 5.700000 1.8977926 0.000000000
## 126 7.200000 2.768846 5.908397 1.8000000 0.000000000
## 127 6.200000 2.800000 4.800000 1.8000000 0.023134198
## 128 6.100000 2.872959 4.900000 1.8000000 0.000000000
## 129 6.400000 2.800000 5.600000 2.1000000 -0.126486922
## 130 6.478058 2.833912 5.800000 1.6000000 0.000000000
## 131 7.400000 2.742516 6.100000 1.9000000 0.000000000
## 132 6.240716 3.800000 6.400000 2.0000000 0.059954204
## 133 6.400000 2.800000 5.600000 2.2000000 0.000000000
## 134 6.390707 2.800000 5.100000 1.5000000 0.000000000
## 135 6.100000 2.600000 5.179609 1.4000000 0.000000000
## 136 7.700000 2.694272 6.100000 2.3000000 0.000000000
## 137 6.300000 3.400000 5.600000 2.4000000 0.000000000
## 138 6.400000 3.100000 5.500000 1.7583003 0.004155028
## 139 6.000000 2.882687 4.800000 1.8000000 0.000000000
## 140 6.900000 3.100000 5.400000 2.1000000 0.000000000
## 141 6.700000 3.100000 5.763646 2.4000000 0.000000000
## 142 6.586936 2.796744 5.100000 2.3000000 -0.153863743
## 143 6.511841 2.700000 5.100000 1.9000000 0.000000000
## 144 6.800000 3.200000 5.900000 1.9742676 0.000000000
## 145 6.552681 3.300000 5.700000 2.5000000 0.000000000
## 146 6.588274 3.000000 5.711419 2.3000000 0.000000000
## 147 6.555664 2.500000 5.000000 1.9000000 0.000000000
## 148 6.500000 3.000000 5.200000 2.0000000 0.000000000
## 149 6.200000 2.844789 5.400000 1.8805723 0.000000000
## 150 5.900000 3.000000 5.100000 1.8000000 0.000000000
## Speciesversicolor Speciesvirginica
## 1 0.2363015 -0.12474537
## 2 0.0000000 0.00000000
## 3 0.0000000 0.00000000
## 4 0.0000000 0.00000000
## 5 0.0000000 0.00000000
## 6 0.2441200 -0.09763776
## 7 0.2272695 -0.15606025
## 8 0.0000000 0.00000000
## 9 0.0000000 0.00000000
## 10 0.0000000 0.00000000
## 11 0.0000000 0.00000000
## 12 0.0000000 0.00000000
## 13 0.0000000 0.00000000
## 14 0.2139902 -0.20210104
## 15 0.0000000 0.00000000
## 16 0.2235224 -0.16905177
## 17 0.2208778 -0.17822089
## 18 0.0000000 0.00000000
## 19 0.1957600 -0.26530688
## 20 0.2251903 -0.16326894
## 21 0.0000000 0.00000000
## 22 0.0000000 0.00000000
## 23 0.0000000 0.00000000
## 24 0.0000000 0.00000000
## 25 0.2357282 -0.12673312
## 26 0.0000000 0.00000000
## 27 0.2428996 -0.10186924
## 28 0.2386904 -0.11646267
## 29 0.0000000 0.00000000
## 30 0.0000000 0.00000000
## 31 0.0000000 0.00000000
## 32 0.2304987 -0.14486429
## 33 0.0000000 0.00000000
## 34 0.0000000 0.00000000
## 35 0.0000000 0.00000000
## 36 0.2516711 -0.07145757
## 37 0.0000000 0.00000000
## 38 0.0000000 0.00000000
## 39 0.0000000 0.00000000
## 40 0.0000000 0.00000000
## 41 0.0000000 0.00000000
## 42 0.2687891 -0.01210759
## 43 0.0000000 0.00000000
## 44 0.0000000 0.00000000
## 45 0.0000000 0.00000000
## 46 0.2492943 -0.07969791
## 47 0.0000000 0.00000000
## 48 0.2121433 -0.20850410
## 49 0.0000000 0.00000000
## 50 0.0000000 0.00000000
## 51 1.0000000 0.00000000
## 52 1.0000000 0.00000000
## 53 1.0000000 0.00000000
## 54 1.0000000 0.00000000
## 55 1.0000000 0.00000000
## 56 1.0000000 0.00000000
## 57 1.0000000 0.00000000
## 58 1.0000000 0.00000000
## 59 1.0000000 0.00000000
## 60 1.0000000 0.00000000
## 61 1.0000000 0.00000000
## 62 1.0000000 0.00000000
## 63 1.0000000 0.00000000
## 64 0.3999662 0.44269637
## 65 1.0000000 0.00000000
## 66 0.3765699 0.36157905
## 67 1.0000000 0.00000000
## 68 1.0000000 0.00000000
## 69 1.0000000 0.00000000
## 70 1.0000000 0.00000000
## 71 1.0000000 0.00000000
## 72 1.0000000 0.00000000
## 73 1.0000000 0.00000000
## 74 0.4006103 0.44492961
## 75 1.0000000 0.00000000
## 76 0.4304332 0.54832857
## 77 1.0000000 0.00000000
## 78 1.0000000 0.00000000
## 79 1.0000000 0.00000000
## 80 1.0000000 0.00000000
## 81 1.0000000 0.00000000
## 82 1.0000000 0.00000000
## 83 1.0000000 0.00000000
## 84 1.0000000 0.00000000
## 85 1.0000000 0.00000000
## 86 1.0000000 0.00000000
## 87 1.0000000 0.00000000
## 88 0.3641795 0.31862048
## 89 1.0000000 0.00000000
## 90 1.0000000 0.00000000
## 91 1.0000000 0.00000000
## 92 1.0000000 0.00000000
## 93 1.0000000 0.00000000
## 94 0.3505275 0.27128754
## 95 1.0000000 0.00000000
## 96 0.3845412 0.38921628
## 97 1.0000000 0.00000000
## 98 0.3889671 0.40456140
## 99 1.0000000 0.00000000
## 100 1.0000000 0.00000000
## 101 0.0000000 1.00000000
## 102 0.0000000 1.00000000
## 103 0.4874692 0.74607815
## 104 0.0000000 1.00000000
## 105 0.0000000 1.00000000
## 106 0.0000000 1.00000000
## 107 0.0000000 1.00000000
## 108 0.0000000 1.00000000
## 109 0.4976776 0.78147155
## 110 0.0000000 1.00000000
## 111 0.0000000 1.00000000
## 112 0.0000000 1.00000000
## 113 0.0000000 1.00000000
## 114 0.0000000 1.00000000
## 115 0.4519928 0.62307789
## 116 0.4477340 0.60831203
## 117 0.0000000 1.00000000
## 118 0.0000000 1.00000000
## 119 0.0000000 1.00000000
## 120 0.4108334 0.48037417
## 121 0.0000000 1.00000000
## 122 0.4112864 0.48194473
## 123 0.0000000 1.00000000
## 124 0.4402167 0.58224891
## 125 0.0000000 1.00000000
## 126 0.0000000 1.00000000
## 127 0.4300088 0.54685703
## 128 0.0000000 1.00000000
## 129 0.4635028 0.66298413
## 130 0.0000000 1.00000000
## 131 0.0000000 1.00000000
## 132 0.4217663 0.51827951
## 133 0.0000000 1.00000000
## 134 0.0000000 1.00000000
## 135 0.0000000 1.00000000
## 136 0.0000000 1.00000000
## 137 0.0000000 1.00000000
## 138 0.4342574 0.56158755
## 139 0.0000000 1.00000000
## 140 0.0000000 1.00000000
## 141 0.0000000 1.00000000
## 142 0.4696313 0.68423241
## 143 0.0000000 1.00000000
## 144 0.0000000 1.00000000
## 145 0.0000000 1.00000000
## 146 0.0000000 1.00000000
## 147 0.0000000 1.00000000
## 148 0.0000000 1.00000000
## 149 0.0000000 1.00000000
## 150 0.0000000 1.00000000
##
## [[2]]
## Sepal.Length Sepal.Width Petal.Length Petal.Width Speciessetosa
## 1 5.100000 3.500000 1.598732 0.2000000 0.95062295
## 2 4.900000 3.000000 1.582748 0.2000000 1.00000000
## 3 4.700000 3.200000 1.300000 0.2000000 1.00000000
## 4 4.600000 3.488605 1.500000 0.1283107 1.00000000
## 5 5.000000 3.491619 1.400000 0.2000000 1.00000000
## 6 5.088357 3.234833 1.700000 0.4770233 0.72732010
## 7 4.985320 3.257626 1.400000 0.3710002 0.78697299
## 8 5.000000 3.400000 1.500000 0.2494160 1.00000000
## 9 4.400000 2.900000 1.400000 0.2000000 1.00000000
## 10 4.883070 3.100000 1.465054 0.1000000 1.00000000
## 11 5.400000 3.700000 1.500000 0.2000000 1.00000000
## 12 4.939181 3.485187 1.600000 0.2000000 1.00000000
## 13 4.800000 3.000000 1.400000 0.1000000 1.00000000
## 14 4.714793 3.292345 1.100000 0.1000000 0.92395108
## 15 4.891090 3.496465 1.200000 0.2000000 1.00000000
## 16 5.700000 4.400000 1.500000 0.4000000 1.38194379
## 17 5.400000 3.900000 2.165017 0.5754077 1.02680157
## 18 5.100000 3.500000 1.400000 0.3000000 1.00000000
## 19 5.291756 3.800000 1.700000 0.4261072 1.05600026
## 20 5.100000 3.800000 1.500000 0.3000000 1.11500534
## 21 5.400000 3.400000 1.700000 0.2000000 1.00000000
## 22 5.100000 3.700000 1.500000 0.4000000 1.00000000
## 23 4.600000 3.600000 1.000000 0.2000000 1.00000000
## 24 5.031215 3.300000 1.700000 0.5000000 1.00000000
## 25 4.800000 3.400000 1.900000 0.2000000 0.90223752
## 26 4.939181 3.485187 1.600000 0.2000000 1.00000000
## 27 5.000000 3.400000 2.021943 0.4697132 0.80615508
## 28 5.200000 3.500000 1.500000 0.2000000 0.95381598
## 29 5.200000 3.400000 1.400000 0.2000000 1.00000000
## 30 4.700000 3.200000 1.363206 0.1859616 1.00000000
## 31 4.800000 3.100000 1.600000 0.2000000 1.00000000
## 32 5.090568 3.400000 1.500000 0.3980545 0.86542796
## 33 4.917323 4.100000 1.500000 0.1000000 1.00000000
## 34 5.500000 4.200000 1.400000 0.2000000 1.00000000
## 35 4.922577 3.100000 1.556001 0.2000000 1.00000000
## 36 4.987042 3.200000 1.860738 0.2000000 0.76236840
## 37 4.901371 3.493773 1.300000 0.1854555 1.00000000
## 38 4.900000 3.600000 1.237454 0.1000000 1.00000000
## 39 4.925304 3.000000 1.604043 0.2000000 1.00000000
## 40 4.924191 3.400000 1.500000 0.2000000 1.00000000
## 41 5.000000 3.500000 1.300000 0.3000000 1.00000000
## 42 4.500000 2.300000 1.300000 0.3000000 0.34050269
## 43 4.400000 3.200000 1.186173 0.2000000 1.00000000
## 44 5.000000 3.500000 1.600000 0.6000000 1.00000000
## 45 5.100000 3.800000 1.900000 0.4000000 1.00000000
## 46 4.800000 3.000000 1.400000 0.3000000 0.69961171
## 47 5.100000 3.800000 1.333707 0.2000000 1.00000000
## 48 4.600000 3.159221 1.400000 0.1384231 0.83137484
## 49 5.300000 3.700000 1.501602 0.2000000 1.00000000
## 50 5.000000 3.300000 1.400000 0.2000000 1.00000000
## 51 5.699293 3.200000 3.917005 1.4000000 0.00000000
## 52 6.400000 3.200000 4.500000 1.5000000 0.00000000
## 53 5.612535 3.100000 3.758989 1.1700664 0.00000000
## 54 5.662145 2.612772 4.000000 1.3000000 0.00000000
## 55 6.500000 2.800000 4.600000 1.5000000 0.00000000
## 56 5.728718 2.800000 4.500000 1.3000000 0.00000000
## 57 6.300000 3.300000 4.700000 1.6000000 0.00000000
## 58 4.900000 2.400000 3.300000 1.0000000 0.00000000
## 59 6.600000 2.900000 4.600000 1.3000000 0.00000000
## 60 5.681576 2.700000 3.900000 1.4000000 0.00000000
## 61 5.000000 2.000000 3.500000 1.0000000 0.00000000
## 62 5.755877 3.000000 4.200000 1.5000000 0.00000000
## 63 5.568539 2.200000 4.033635 1.0000000 0.00000000
## 64 6.100000 2.900000 4.446309 1.4000000 0.10511638
## 65 5.600000 2.628503 3.600000 1.2219962 0.00000000
## 66 5.971019 3.100000 4.134782 1.4000000 0.25502395
## 67 5.600000 3.000000 4.500000 1.2730183 0.00000000
## 68 5.800000 2.627728 4.100000 1.0000000 0.00000000
## 69 6.200000 2.200000 4.500000 1.5000000 0.00000000
## 70 5.690549 2.500000 4.189316 1.3374917 0.00000000
## 71 5.900000 2.564067 4.800000 1.8000000 0.00000000
## 72 6.100000 2.800000 4.000000 1.3000000 0.00000000
## 73 6.300000 2.500000 4.900000 1.5000000 0.00000000
## 74 6.100000 2.800000 4.700000 1.2000000 0.06106463
## 75 5.638540 2.900000 3.902431 1.2258748 0.00000000
## 76 6.600000 3.113979 4.400000 1.7051263 0.11973821
## 77 5.793690 2.800000 4.800000 1.4000000 0.00000000
## 78 6.700000 3.000000 5.000000 1.7000000 0.00000000
## 79 5.746981 2.900000 4.152078 1.5000000 0.00000000
## 80 5.700000 2.600000 4.138258 1.3185217 0.00000000
## 81 5.500000 2.621689 3.800000 1.2214280 0.00000000
## 82 5.500000 2.400000 3.700000 1.0000000 0.00000000
## 83 5.800000 2.700000 3.900000 1.2000000 0.00000000
## 84 5.884188 2.700000 5.100000 1.6000000 0.00000000
## 85 5.400000 3.000000 4.500000 1.5000000 0.00000000
## 86 5.833287 3.400000 4.500000 1.6000000 0.00000000
## 87 6.700000 3.100000 4.700000 1.5000000 0.00000000
## 88 5.814936 3.074117 3.820729 1.2246621 0.30667189
## 89 5.686492 3.000000 4.100000 1.3000000 0.00000000
## 90 5.500000 2.500000 4.000000 1.3000000 0.00000000
## 91 5.500000 2.600000 4.400000 1.2983929 0.00000000
## 92 5.775686 3.000000 4.600000 1.4000000 0.00000000
## 93 5.800000 2.616230 4.117375 1.2000000 0.00000000
## 94 5.000000 2.300000 3.300000 1.0000000 0.02190306
## 95 5.600000 2.700000 4.200000 1.3000000 0.00000000
## 96 5.946991 3.044899 4.200000 1.3605491 0.23021273
## 97 5.700000 2.900000 4.200000 1.3000000 0.00000000
## 98 5.833072 2.900000 4.061221 1.3000000 0.17464536
## 99 5.100000 2.500000 3.675696 1.1000000 0.00000000
## 100 5.700000 2.800000 4.100000 1.3000000 0.00000000
## 101 6.300000 3.300000 6.000000 2.5000000 0.00000000
## 102 6.662646 2.700000 5.100000 1.9000000 0.00000000
## 103 7.100000 3.000000 6.207641 2.1000000 -0.17947534
## 104 6.300000 3.223028 5.600000 1.8000000 0.00000000
## 105 6.500000 3.000000 5.769672 2.2000000 0.00000000
## 106 6.916720 3.183142 6.600000 2.1000000 0.00000000
## 107 4.900000 2.500000 4.500000 1.7000000 0.00000000
## 108 7.300000 3.190489 6.210263 2.2751987 0.00000000
## 109 6.700000 2.500000 5.800000 2.1637073 -0.40657090
## 110 7.200000 3.600000 6.100000 2.5000000 0.00000000
## 111 6.500000 3.200000 5.527788 1.9802063 0.00000000
## 112 6.400000 2.700000 5.300000 1.9000000 0.00000000
## 113 6.784471 3.214157 5.500000 2.1000000 0.00000000
## 114 6.777111 3.214720 5.695696 2.0000000 0.00000000
## 115 5.808215 2.800000 4.124139 1.3328382 0.11310384
## 116 6.400000 3.200000 5.300000 2.3000000 0.02865351
## 117 6.500000 3.000000 5.500000 1.8000000 0.00000000
## 118 7.700000 3.800000 6.700000 2.2000000 0.00000000
## 119 7.700000 3.171034 6.900000 2.3000000 0.00000000
## 120 6.000000 2.982531 5.000000 1.5750265 0.10006592
## 121 6.900000 3.200000 5.700000 2.3000000 0.00000000
## 122 5.600000 2.870746 4.900000 2.0000000 0.02631659
## 123 6.888178 2.800000 6.700000 2.0000000 0.00000000
## 124 6.300000 2.700000 4.900000 1.7504434 -0.11957479
## 125 6.700000 3.300000 5.700000 2.0399199 0.00000000
## 126 7.200000 3.225602 5.819428 1.8000000 0.00000000
## 127 6.200000 2.800000 4.800000 1.8000000 -0.05586557
## 128 6.100000 3.241620 4.900000 1.8000000 0.00000000
## 129 6.400000 2.800000 5.600000 2.1000000 -0.18664132
## 130 6.678164 3.231868 5.800000 1.6000000 0.00000000
## 131 7.400000 3.213625 6.100000 1.9000000 0.00000000
## 132 7.061994 3.800000 6.400000 2.0000000 0.26744914
## 133 6.400000 2.800000 5.600000 2.2000000 0.00000000
## 134 6.551209 2.800000 5.100000 1.5000000 0.00000000
## 135 6.100000 2.600000 5.173151 1.4000000 0.00000000
## 136 7.700000 3.194523 6.100000 2.3000000 0.00000000
## 137 6.300000 3.400000 5.600000 2.4000000 0.00000000
## 138 6.400000 3.100000 5.500000 1.8437216 0.03439036
## 139 6.000000 3.243575 4.800000 1.8000000 0.00000000
## 140 6.900000 3.100000 5.400000 2.1000000 0.00000000
## 141 6.700000 3.100000 5.979587 2.4000000 0.00000000
## 142 6.606388 2.939376 5.100000 2.3000000 -0.12000333
## 143 6.662646 2.700000 5.100000 1.9000000 0.00000000
## 144 6.800000 3.200000 5.900000 2.1072108 0.00000000
## 145 6.925795 3.300000 5.700000 2.5000000 0.00000000
## 146 6.901687 3.000000 6.074152 2.3000000 0.00000000
## 147 6.644315 2.500000 5.000000 1.9000000 0.00000000
## 148 6.500000 3.000000 5.200000 2.0000000 0.00000000
## 149 6.200000 3.223120 5.400000 1.8822075 0.00000000
## 150 5.900000 3.000000 5.100000 1.8000000 0.00000000
## Speciesversicolor Speciesvirginica
## 1 -0.01252633 0.06190338
## 2 0.00000000 0.00000000
## 3 0.00000000 0.00000000
## 4 0.00000000 0.00000000
## 5 0.00000000 0.00000000
## 6 0.29849148 -0.02581158
## 7 0.28876417 -0.07573716
## 8 0.00000000 0.00000000
## 9 0.00000000 0.00000000
## 10 0.00000000 0.00000000
## 11 0.00000000 0.00000000
## 12 0.00000000 0.00000000
## 13 0.00000000 0.00000000
## 14 0.29616480 -0.22011588
## 15 0.00000000 0.00000000
## 16 -1.19634917 0.81440538
## 17 -0.54961089 0.52280933
## 18 0.00000000 0.00000000
## 19 -0.43092690 0.37492663
## 20 -0.37237786 0.25737252
## 21 0.00000000 0.00000000
## 22 0.00000000 0.00000000
## 23 0.00000000 0.00000000
## 24 0.00000000 0.00000000
## 25 0.16321394 -0.06545146
## 26 0.00000000 0.00000000
## 27 0.11732525 0.07651967
## 28 -0.03099605 0.07718007
## 29 0.00000000 0.00000000
## 30 0.00000000 0.00000000
## 31 0.00000000 0.00000000
## 32 0.06496431 0.06960773
## 33 0.00000000 0.00000000
## 34 0.00000000 0.00000000
## 35 0.00000000 0.00000000
## 36 0.32851412 -0.09088253
## 37 0.00000000 0.00000000
## 38 0.00000000 0.00000000
## 39 0.00000000 0.00000000
## 40 0.00000000 0.00000000
## 41 0.00000000 0.00000000
## 42 1.52032490 -0.86082759
## 43 0.00000000 0.00000000
## 44 0.00000000 0.00000000
## 45 0.00000000 0.00000000
## 46 0.63354712 -0.33315883
## 47 0.00000000 0.00000000
## 48 0.47626408 -0.30763892
## 49 0.00000000 0.00000000
## 50 0.00000000 0.00000000
## 51 1.00000000 0.00000000
## 52 1.00000000 0.00000000
## 53 1.00000000 0.00000000
## 54 1.00000000 0.00000000
## 55 1.00000000 0.00000000
## 56 1.00000000 0.00000000
## 57 1.00000000 0.00000000
## 58 1.00000000 0.00000000
## 59 1.00000000 0.00000000
## 60 1.00000000 0.00000000
## 61 1.00000000 0.00000000
## 62 1.00000000 0.00000000
## 63 1.00000000 0.00000000
## 64 0.52738455 0.36749907
## 65 1.00000000 0.00000000
## 66 0.31688897 0.42808708
## 67 1.00000000 0.00000000
## 68 1.00000000 0.00000000
## 69 1.00000000 0.00000000
## 70 1.00000000 0.00000000
## 71 1.00000000 0.00000000
## 72 1.00000000 0.00000000
## 73 1.00000000 0.00000000
## 74 0.65234262 0.28659275
## 75 1.00000000 0.00000000
## 76 0.20971211 0.67054968
## 77 1.00000000 0.00000000
## 78 1.00000000 0.00000000
## 79 1.00000000 0.00000000
## 80 1.00000000 0.00000000
## 81 1.00000000 0.00000000
## 82 1.00000000 0.00000000
## 83 1.00000000 0.00000000
## 84 1.00000000 0.00000000
## 85 1.00000000 0.00000000
## 86 1.00000000 0.00000000
## 87 1.00000000 0.00000000
## 88 0.36707628 0.32625183
## 89 1.00000000 0.00000000
## 90 1.00000000 0.00000000
## 91 1.00000000 0.00000000
## 92 1.00000000 0.00000000
## 93 1.00000000 0.00000000
## 94 1.43595263 -0.45785569
## 95 1.00000000 0.00000000
## 96 0.37955233 0.39023494
## 97 1.00000000 0.00000000
## 98 0.57257256 0.25278208
## 99 1.00000000 0.00000000
## 100 1.00000000 0.00000000
## 101 0.00000000 1.00000000
## 102 0.00000000 1.00000000
## 103 0.23254003 0.94693531
## 104 0.00000000 1.00000000
## 105 0.00000000 1.00000000
## 106 0.00000000 1.00000000
## 107 0.00000000 1.00000000
## 108 0.00000000 1.00000000
## 109 0.89986294 0.50670796
## 110 0.00000000 1.00000000
## 111 0.00000000 1.00000000
## 112 0.00000000 1.00000000
## 113 0.00000000 1.00000000
## 114 0.00000000 1.00000000
## 115 0.69755505 0.18934111
## 116 0.10744020 0.86390629
## 117 0.00000000 1.00000000
## 118 0.00000000 1.00000000
## 119 0.00000000 1.00000000
## 120 0.42211299 0.47782109
## 121 0.00000000 1.00000000
## 122 0.57526432 0.39841909
## 123 0.00000000 1.00000000
## 124 0.73035452 0.38922027
## 125 0.00000000 1.00000000
## 126 0.00000000 1.00000000
## 127 0.62444085 0.43142472
## 128 0.00000000 1.00000000
## 129 0.59032825 0.59631307
## 130 0.00000000 1.00000000
## 131 0.00000000 1.00000000
## 132 -0.66009912 1.39264998
## 133 0.00000000 1.00000000
## 134 0.00000000 1.00000000
## 135 0.00000000 1.00000000
## 136 0.00000000 1.00000000
## 137 0.00000000 1.00000000
## 138 0.24022688 0.72538276
## 139 0.00000000 1.00000000
## 140 0.00000000 1.00000000
## 141 0.00000000 1.00000000
## 142 0.38891108 0.73109225
## 143 0.00000000 1.00000000
## 144 0.00000000 1.00000000
## 145 0.00000000 1.00000000
## 146 0.00000000 1.00000000
## 147 0.00000000 1.00000000
## 148 0.00000000 1.00000000
## 149 0.00000000 1.00000000
## 150 0.00000000 1.00000000
missMethods Paketi ile EM Algoritması missMethods paketindeki impute_EM fonksiyonu, eksik verileri doldurmak için Expectation-Maximization (EM) algoritmasını kullanır. Bu fonksiyon, özellikle çok değişkenli normal dağılıma sahip veri setlerinde eksik değerleri tahmin etmek için tasarlanmıştır. Fonksiyon, norm paketindeki em.norm() fonksiyonunu kullanarak parametreleri tahmin eder ve bu parametreleri kullanarak eksik değerleri doldurur.
EM algoritması, eksik verilerin beklenen değerlerini (E-step) ve bu değerler kullanılarak parametreleri günceller (M-step). Bu işlem, parametreler yakınsayana kadar tekrarlanır.
Eğer stochastic = TRUE ise, bu beklenen değerlere çok değişkenli normal dağılımdan rastgele hatalar (residuals) eklenir. Bu, doldurulan değerlerin daha gerçekçi olmasını sağlar.
Eğer stochastic = FALSE ise, sadece beklenen değerler kullanılır ve rastgele hatalar eklenmez. Bu, deterministik bir yaklaşımdır, bu seçenek, doldurulan değerlerin daha sabit ve tahmin edilebilir olmasını sağlar.
library(missMethods)
library(mvtnorm)
# Örnek veri seti oluşturma
ds_orig <- mvtnorm::rmvnorm(100, rep(0, 7)) # 7 değişkenli normal dağılım
ds_mis <- delete_MCAR(ds_orig, p = 0.2) # %20 eksik veri (MCAR)
# EM ile eksik verileri doldurma (stokastik olmadan)
ds_imp <- impute_EM(ds_mis, stochastic = FALSE)
# EM ile eksik verileri doldurma (stokastik olarak)
ds_imp_stochastic <- impute_EM(ds_mis, stochastic = TRUE)
# impute_EM fonksiyonu, eksik verileri doldurmak için EM algoritmasını kullanır ve stochastic argümanı ile doldurulan değerlerin deterministik mi yoksa stokastik mi olacağını kontrol eder. Bu yöntem, özellikle çok değişkenli normal dağılıma sahip veri setlerinde etkilidir.
Multiple Imputation(Çoklu Atama) Bu yöntem, kayıp değerleri rastgele tahminlerle doldurmak yerine, birden fazla olası değer üretir ve bu değerler üzerinden analizler yapar. Daha sonra bu analiz sonuçları birleştirilerek tek bir sonuç elde edilir.
Gerçekçi Tahminler: Kayıp verinin belirsizliğini dikkate alır.
İstatistiksel Güvenilirlik: Tek bir tahmin yerine birden fazla tahmin üzerinden analiz yapıldığı için daha güvenilir sonuçlar verir.
Esneklik: Farklı veri türleri ve modellerle uyumludur.
Multiple Imputation Adımları Atama (Imputation): Kayıp değerler, istatistiksel modeller kullanılarak birden fazla kez doldurulur. Genellikle 5-10 arasında tamamlanmış veri seti oluşturulur.
Analiz: Her tamamlanmış veri seti üzerinde ayrı ayrı analizler yapılır.
Birleştirme (Pooling): Analiz sonuçları, belirli kurallar çerçevesinde birleştirilir ve nihai sonuçlar elde edilir.
R’da mice (Multivariate Imputation by Chained Equations) paketi, Multiple Imputation yöntemini uygulamak için yaygın olarak kullanılır.
library(mice)
md.pattern(screen)
## SUBNO TIMEDRS ATTDRUG EMPLMNT MSTATUS RACE ATTHOUSE INCOME
## 438 1 1 1 1 1 1 1 1 0
## 26 1 1 1 1 1 1 1 0 1
## 1 1 1 1 1 1 1 0 1 1
## 0 0 0 0 0 0 1 26 27
# Bu fonksiyon, hangi değişkenlerde ne kadar kayıp veri olduğunu gösterir.
imputed_data <- mice(screen, m = 5, maxit = 50, method = 'pmm', seed = 500)
##
## iter imp variable
## 1 1 ATTHOUSE INCOME
## 1 2 ATTHOUSE INCOME
## 1 3 ATTHOUSE INCOME
## 1 4 ATTHOUSE INCOME
## 1 5 ATTHOUSE INCOME
## 2 1 ATTHOUSE INCOME
## 2 2 ATTHOUSE INCOME
## 2 3 ATTHOUSE INCOME
## 2 4 ATTHOUSE INCOME
## 2 5 ATTHOUSE INCOME
## 3 1 ATTHOUSE INCOME
## 3 2 ATTHOUSE INCOME
## 3 3 ATTHOUSE INCOME
## 3 4 ATTHOUSE INCOME
## 3 5 ATTHOUSE INCOME
## 4 1 ATTHOUSE INCOME
## 4 2 ATTHOUSE INCOME
## 4 3 ATTHOUSE INCOME
## 4 4 ATTHOUSE INCOME
## 4 5 ATTHOUSE INCOME
## 5 1 ATTHOUSE INCOME
## 5 2 ATTHOUSE INCOME
## 5 3 ATTHOUSE INCOME
## 5 4 ATTHOUSE INCOME
## 5 5 ATTHOUSE INCOME
## 6 1 ATTHOUSE INCOME
## 6 2 ATTHOUSE INCOME
## 6 3 ATTHOUSE INCOME
## 6 4 ATTHOUSE INCOME
## 6 5 ATTHOUSE INCOME
## 7 1 ATTHOUSE INCOME
## 7 2 ATTHOUSE INCOME
## 7 3 ATTHOUSE INCOME
## 7 4 ATTHOUSE INCOME
## 7 5 ATTHOUSE INCOME
## 8 1 ATTHOUSE INCOME
## 8 2 ATTHOUSE INCOME
## 8 3 ATTHOUSE INCOME
## 8 4 ATTHOUSE INCOME
## 8 5 ATTHOUSE INCOME
## 9 1 ATTHOUSE INCOME
## 9 2 ATTHOUSE INCOME
## 9 3 ATTHOUSE INCOME
## 9 4 ATTHOUSE INCOME
## 9 5 ATTHOUSE INCOME
## 10 1 ATTHOUSE INCOME
## 10 2 ATTHOUSE INCOME
## 10 3 ATTHOUSE INCOME
## 10 4 ATTHOUSE INCOME
## 10 5 ATTHOUSE INCOME
## 11 1 ATTHOUSE INCOME
## 11 2 ATTHOUSE INCOME
## 11 3 ATTHOUSE INCOME
## 11 4 ATTHOUSE INCOME
## 11 5 ATTHOUSE INCOME
## 12 1 ATTHOUSE INCOME
## 12 2 ATTHOUSE INCOME
## 12 3 ATTHOUSE INCOME
## 12 4 ATTHOUSE INCOME
## 12 5 ATTHOUSE INCOME
## 13 1 ATTHOUSE INCOME
## 13 2 ATTHOUSE INCOME
## 13 3 ATTHOUSE INCOME
## 13 4 ATTHOUSE INCOME
## 13 5 ATTHOUSE INCOME
## 14 1 ATTHOUSE INCOME
## 14 2 ATTHOUSE INCOME
## 14 3 ATTHOUSE INCOME
## 14 4 ATTHOUSE INCOME
## 14 5 ATTHOUSE INCOME
## 15 1 ATTHOUSE INCOME
## 15 2 ATTHOUSE INCOME
## 15 3 ATTHOUSE INCOME
## 15 4 ATTHOUSE INCOME
## 15 5 ATTHOUSE INCOME
## 16 1 ATTHOUSE INCOME
## 16 2 ATTHOUSE INCOME
## 16 3 ATTHOUSE INCOME
## 16 4 ATTHOUSE INCOME
## 16 5 ATTHOUSE INCOME
## 17 1 ATTHOUSE INCOME
## 17 2 ATTHOUSE INCOME
## 17 3 ATTHOUSE INCOME
## 17 4 ATTHOUSE INCOME
## 17 5 ATTHOUSE INCOME
## 18 1 ATTHOUSE INCOME
## 18 2 ATTHOUSE INCOME
## 18 3 ATTHOUSE INCOME
## 18 4 ATTHOUSE INCOME
## 18 5 ATTHOUSE INCOME
## 19 1 ATTHOUSE INCOME
## 19 2 ATTHOUSE INCOME
## 19 3 ATTHOUSE INCOME
## 19 4 ATTHOUSE INCOME
## 19 5 ATTHOUSE INCOME
## 20 1 ATTHOUSE INCOME
## 20 2 ATTHOUSE INCOME
## 20 3 ATTHOUSE INCOME
## 20 4 ATTHOUSE INCOME
## 20 5 ATTHOUSE INCOME
## 21 1 ATTHOUSE INCOME
## 21 2 ATTHOUSE INCOME
## 21 3 ATTHOUSE INCOME
## 21 4 ATTHOUSE INCOME
## 21 5 ATTHOUSE INCOME
## 22 1 ATTHOUSE INCOME
## 22 2 ATTHOUSE INCOME
## 22 3 ATTHOUSE INCOME
## 22 4 ATTHOUSE INCOME
## 22 5 ATTHOUSE INCOME
## 23 1 ATTHOUSE INCOME
## 23 2 ATTHOUSE INCOME
## 23 3 ATTHOUSE INCOME
## 23 4 ATTHOUSE INCOME
## 23 5 ATTHOUSE INCOME
## 24 1 ATTHOUSE INCOME
## 24 2 ATTHOUSE INCOME
## 24 3 ATTHOUSE INCOME
## 24 4 ATTHOUSE INCOME
## 24 5 ATTHOUSE INCOME
## 25 1 ATTHOUSE INCOME
## 25 2 ATTHOUSE INCOME
## 25 3 ATTHOUSE INCOME
## 25 4 ATTHOUSE INCOME
## 25 5 ATTHOUSE INCOME
## 26 1 ATTHOUSE INCOME
## 26 2 ATTHOUSE INCOME
## 26 3 ATTHOUSE INCOME
## 26 4 ATTHOUSE INCOME
## 26 5 ATTHOUSE INCOME
## 27 1 ATTHOUSE INCOME
## 27 2 ATTHOUSE INCOME
## 27 3 ATTHOUSE INCOME
## 27 4 ATTHOUSE INCOME
## 27 5 ATTHOUSE INCOME
## 28 1 ATTHOUSE INCOME
## 28 2 ATTHOUSE INCOME
## 28 3 ATTHOUSE INCOME
## 28 4 ATTHOUSE INCOME
## 28 5 ATTHOUSE INCOME
## 29 1 ATTHOUSE INCOME
## 29 2 ATTHOUSE INCOME
## 29 3 ATTHOUSE INCOME
## 29 4 ATTHOUSE INCOME
## 29 5 ATTHOUSE INCOME
## 30 1 ATTHOUSE INCOME
## 30 2 ATTHOUSE INCOME
## 30 3 ATTHOUSE INCOME
## 30 4 ATTHOUSE INCOME
## 30 5 ATTHOUSE INCOME
## 31 1 ATTHOUSE INCOME
## 31 2 ATTHOUSE INCOME
## 31 3 ATTHOUSE INCOME
## 31 4 ATTHOUSE INCOME
## 31 5 ATTHOUSE INCOME
## 32 1 ATTHOUSE INCOME
## 32 2 ATTHOUSE INCOME
## 32 3 ATTHOUSE INCOME
## 32 4 ATTHOUSE INCOME
## 32 5 ATTHOUSE INCOME
## 33 1 ATTHOUSE INCOME
## 33 2 ATTHOUSE INCOME
## 33 3 ATTHOUSE INCOME
## 33 4 ATTHOUSE INCOME
## 33 5 ATTHOUSE INCOME
## 34 1 ATTHOUSE INCOME
## 34 2 ATTHOUSE INCOME
## 34 3 ATTHOUSE INCOME
## 34 4 ATTHOUSE INCOME
## 34 5 ATTHOUSE INCOME
## 35 1 ATTHOUSE INCOME
## 35 2 ATTHOUSE INCOME
## 35 3 ATTHOUSE INCOME
## 35 4 ATTHOUSE INCOME
## 35 5 ATTHOUSE INCOME
## 36 1 ATTHOUSE INCOME
## 36 2 ATTHOUSE INCOME
## 36 3 ATTHOUSE INCOME
## 36 4 ATTHOUSE INCOME
## 36 5 ATTHOUSE INCOME
## 37 1 ATTHOUSE INCOME
## 37 2 ATTHOUSE INCOME
## 37 3 ATTHOUSE INCOME
## 37 4 ATTHOUSE INCOME
## 37 5 ATTHOUSE INCOME
## 38 1 ATTHOUSE INCOME
## 38 2 ATTHOUSE INCOME
## 38 3 ATTHOUSE INCOME
## 38 4 ATTHOUSE INCOME
## 38 5 ATTHOUSE INCOME
## 39 1 ATTHOUSE INCOME
## 39 2 ATTHOUSE INCOME
## 39 3 ATTHOUSE INCOME
## 39 4 ATTHOUSE INCOME
## 39 5 ATTHOUSE INCOME
## 40 1 ATTHOUSE INCOME
## 40 2 ATTHOUSE INCOME
## 40 3 ATTHOUSE INCOME
## 40 4 ATTHOUSE INCOME
## 40 5 ATTHOUSE INCOME
## 41 1 ATTHOUSE INCOME
## 41 2 ATTHOUSE INCOME
## 41 3 ATTHOUSE INCOME
## 41 4 ATTHOUSE INCOME
## 41 5 ATTHOUSE INCOME
## 42 1 ATTHOUSE INCOME
## 42 2 ATTHOUSE INCOME
## 42 3 ATTHOUSE INCOME
## 42 4 ATTHOUSE INCOME
## 42 5 ATTHOUSE INCOME
## 43 1 ATTHOUSE INCOME
## 43 2 ATTHOUSE INCOME
## 43 3 ATTHOUSE INCOME
## 43 4 ATTHOUSE INCOME
## 43 5 ATTHOUSE INCOME
## 44 1 ATTHOUSE INCOME
## 44 2 ATTHOUSE INCOME
## 44 3 ATTHOUSE INCOME
## 44 4 ATTHOUSE INCOME
## 44 5 ATTHOUSE INCOME
## 45 1 ATTHOUSE INCOME
## 45 2 ATTHOUSE INCOME
## 45 3 ATTHOUSE INCOME
## 45 4 ATTHOUSE INCOME
## 45 5 ATTHOUSE INCOME
## 46 1 ATTHOUSE INCOME
## 46 2 ATTHOUSE INCOME
## 46 3 ATTHOUSE INCOME
## 46 4 ATTHOUSE INCOME
## 46 5 ATTHOUSE INCOME
## 47 1 ATTHOUSE INCOME
## 47 2 ATTHOUSE INCOME
## 47 3 ATTHOUSE INCOME
## 47 4 ATTHOUSE INCOME
## 47 5 ATTHOUSE INCOME
## 48 1 ATTHOUSE INCOME
## 48 2 ATTHOUSE INCOME
## 48 3 ATTHOUSE INCOME
## 48 4 ATTHOUSE INCOME
## 48 5 ATTHOUSE INCOME
## 49 1 ATTHOUSE INCOME
## 49 2 ATTHOUSE INCOME
## 49 3 ATTHOUSE INCOME
## 49 4 ATTHOUSE INCOME
## 49 5 ATTHOUSE INCOME
## 50 1 ATTHOUSE INCOME
## 50 2 ATTHOUSE INCOME
## 50 3 ATTHOUSE INCOME
## 50 4 ATTHOUSE INCOME
## 50 5 ATTHOUSE INCOME
# m = 5: 5 tamamlanmış veri seti oluştur
# maxit = 50: Maksimum 50 iterasyon yap
# method = 'pmm': Predictive Mean Matching yöntemi sürekli değişkenler için uygundur. kategorik değişkense logistic regresyon kullanabilirsin. her bir sütuna ayrı yöntem de ekleyebilirsin c() fonksiyonu ile.Örnek:
# pmm: Sürekli değişkenler için Predictive Mean Matching.
# logreg: İkili (binary) değişkenler için Lojistik Regresyon.
# polyreg: Kategorik değişkenler için Polytomous Regresyon.
# Bu yöntemleri mice() fonksiyonunda belirtebilirsiniz:
# methods <- c("pmm", "logreg", "polyreg")
# mice ile oluşturulan tamamlanmış veri setlerini inceleme:
imputed_data$imp
## $SUBNO
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
##
## $TIMEDRS
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
##
## $ATTDRUG
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
##
## $ATTHOUSE
## 1 2 3 4 5
## 253 26 25 20 17 21
##
## $INCOME
## 1 2 3 4 5
## 52 2 5 1 3 1
## 64 6 4 6 6 6
## 69 1 1 6 3 1
## 77 2 2 2 1 4
## 118 4 8 9 5 4
## 135 6 8 5 10 7
## 161 8 5 4 4 4
## 172 3 1 3 3 3
## 173 1 8 4 4 7
## 174 5 5 2 5 4
## 181 8 3 6 4 7
## 196 7 8 5 1 9
## 203 8 4 5 5 5
## 236 2 1 5 1 3
## 240 4 3 3 1 3
## 258 5 7 7 6 8
## 304 1 3 4 8 7
## 321 3 1 3 6 4
## 325 3 3 4 5 5
## 352 1 5 8 2 5
## 378 3 5 2 5 4
## 379 1 5 4 3 4
## 409 5 4 4 7 2
## 419 6 1 2 1 1
## 421 3 8 4 3 9
## 435 4 10 6 1 5
##
## $EMPLMNT
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
##
## $MSTATUS
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
##
## $RACE
## [1] 1 2 3 4 5
## <0 rows> (or 0-length row.names)
# Tamamlanmış veri setleri üzerinde analiz yapabilir ve sonuçları birleştirebilirsiniz.
# Örnek: Lineer Regresyon Analizi
fit <- with(imputed_data, lm(TIMEDRS ~ ATTHOUSE + INCOME))
pooled_results <- pool(fit)
summary(pooled_results)
# with(): Her bir tamamlanmış veri seti üzerinde analiz yapar.
# pool(): Analiz sonuçlarını birleştirir.
# Eğer tamamlanmış bir veri setini tek bir veri seti olarak kullanmak istersek, complete() fonksiyonunu kullanabiliriz.
# Tamamlanmış veri setini al (örneğin, ilk tamamlanmış veri seti)
completed_data_1 <- complete(imputed_data, 1)
completed_data_2 <- complete(imputed_data, 2)
completed_data_3 <- complete(imputed_data, 3)
completed_data_4 <- complete(imputed_data, 4)
completed_data_5 <- complete(imputed_data, 5)
m1 <- lm(TIMEDRS ~ ATTHOUSE + INCOME,data= completed_data_1)
m2 <- lm(TIMEDRS ~ ATTHOUSE + INCOME,data= completed_data_2)
m3 <- lm(TIMEDRS ~ ATTHOUSE + INCOME,data= completed_data_3)
m4 <- lm(TIMEDRS ~ ATTHOUSE + INCOME,data= completed_data_4)
m5 <- lm(TIMEDRS ~ ATTHOUSE + INCOME,data= completed_data_5)
sum(m1$coefficients[2] +
m2$coefficients[2] +
m3$coefficients[2] +
m4$coefficients[2] +
m5$coefficients[2])/5
## [1] 0.3139818
Veri setinde yapılanlar
atthouse değişkeninde bir kayıp değer bulunmaktadır ve liste bazında silme yöntemi ile veri setinden çıkarılmıştır.
Veri setinde income değişkeni 26 kayıp değere sahiptir ve bu sayı örneklemin %5’inden fazladır. Eğer bu değişken araştırma açısından öneme sahip değilse, veri setinden çıkarılabilir, aksi halde kayıp verinin tahmin edilmesi yöntemlerinden biri kullanılabilir.
income değişkenindeki kayıp değerler için kayıp verinin tahmin edilmesi yöntemlerinden ortalamanın yerleştirilmesi kullanılarak kayıp değer yerine değişkenin ortalama değeri (4.21 değeri) yerleştirilmiştir.
screen <- screen %>%
mutate(INCOME = ifelse(is.na(INCOME), mean(INCOME, na.rm =TRUE),
INCOME)) %>% na.omit()
summary(screen)
## SUBNO TIMEDRS ATTDRUG ATTHOUSE
## Min. : 1.0 Min. : 0.000 Min. : 5.00 Min. : 2.00
## 1st Qu.:136.8 1st Qu.: 2.000 1st Qu.: 7.00 1st Qu.:21.00
## Median :313.5 Median : 4.000 Median : 8.00 Median :24.00
## Mean :317.3 Mean : 7.914 Mean : 7.69 Mean :23.54
## 3rd Qu.:483.2 3rd Qu.:10.000 3rd Qu.: 9.00 3rd Qu.:27.00
## Max. :758.0 Max. :81.000 Max. :10.00 Max. :35.00
## INCOME EMPLMNT MSTATUS RACE
## Min. : 1.000 Min. :0.000 Min. :1.00 Min. :1.000
## 1st Qu.: 3.000 1st Qu.:0.000 1st Qu.:2.00 1st Qu.:1.000
## Median : 4.000 Median :0.000 Median :2.00 Median :1.000
## Mean : 4.208 Mean :0.472 Mean :1.78 Mean :1.086
## 3rd Qu.: 6.000 3rd Qu.:1.000 3rd Qu.:2.00 3rd Qu.:1.000
## Max. :10.000 Max. :1.000 Max. :2.00 Max. :2.000
Örnek uygulama için hazır veri seti olan sat.act veri setini kullandım. Örneklem sayısı 700. Verideki değişkenler:
Gender (Cinsiyet): Kategorik bir değişkendir. (1 = Erkek, 2 = Kadın).
Education (Eğitim): 1’den (Lise) 5’e (Lisansüstü) kadar sıralanmış eğitim seviyesi.
Age (Yaş): Katılımcıların yaş bilgisi.
ACT: Toplam puan (1-36 arası).Genel akademik başarı.
SATV (SAT Verbal): Sözel yetenek puanı (200-800 arası).
SATQ (SAT Quantitative): Sayısal yetenek puanı (200-800 arası).
?sat.act
data(sat.act)
veri<- sat.act
head(veri)
summary(veri)
## gender education age ACT
## Min. :1.000 Min. :0.000 Min. :13.00 Min. : 3.00
## 1st Qu.:1.000 1st Qu.:3.000 1st Qu.:19.00 1st Qu.:25.00
## Median :2.000 Median :3.000 Median :22.00 Median :29.00
## Mean :1.647 Mean :3.164 Mean :25.59 Mean :28.55
## 3rd Qu.:2.000 3rd Qu.:4.000 3rd Qu.:29.00 3rd Qu.:32.00
## Max. :2.000 Max. :5.000 Max. :65.00 Max. :36.00
##
## SATV SATQ
## Min. :200.0 Min. :200.0
## 1st Qu.:550.0 1st Qu.:530.0
## Median :620.0 Median :620.0
## Mean :612.2 Mean :610.2
## 3rd Qu.:700.0 3rd Qu.:700.0
## Max. :800.0 Max. :800.0
## NA's :13
# Min-max değerler tüm değişkenler için normal aralıkta gözüküyor. Bir tek eğitim değişkeninde 0 kodlamış, halbuki eğitim düzeyi 1-5 arasında olmalıydı?
library(gtsummary)
veri %>%
select(2:6) %>%
tbl_summary(
statistic = all_continuous() ~ c("{min}, {max}"),
missing = "always"
)
| Characteristic | N = 7001 |
|---|---|
| education | |
| 0 | 57 (8.1%) |
| 1 | 45 (6.4%) |
| 2 | 44 (6.3%) |
| 3 | 275 (39%) |
| 4 | 138 (20%) |
| 5 | 141 (20%) |
| Unknown | 0 |
| age | 13, 65 |
| Unknown | 0 |
| ACT | 3, 36 |
| Unknown | 0 |
| SATV | 200, 800 |
| Unknown | 0 |
| SATQ | 200, 800 |
| Unknown | 13 |
| 1 n (%); Min, Max | |
Analiz sonucuna göre, sadece SATQ değerinde 13 eksik veri var. 57 kişi eğitim değişkenini 0 olarak kodlamış, yani dökümantasyondan 1-5 arası diye anladım ama, yüzde 8lik oranda sanki hatalı giriş için çok fazla bi oran, nasıl yorumlamalıyım bu durumu bilemedim, o yüzden bu değişken için şimdilik birşey yapmıyorum.
library(funModeling)
df_status(veri)
## variable q_zeros p_zeros q_na p_na q_inf p_inf type unique
## 1 gender 0 0.00 0 0.00 0 0 integer 2
## 2 education 57 8.14 0 0.00 0 0 integer 6
## 3 age 0 0.00 0 0.00 0 0 integer 48
## 4 ACT 0 0.00 0 0.00 0 0 integer 23
## 5 SATV 0 0.00 0 0.00 0 0 integer 70
## 6 SATQ 0 0.00 13 1.86 0 0 integer 72
veri %>% is.na() %>% colSums()
## gender education age ACT SATV SATQ
## 0 0 0 0 0 13
Kayıp veri için MCAR testi sonucu p > 0.05 olduğu için kayıp veri tamamen tesadüfidir, bu 13 satırı silebiliriz.
library(naniar)
mcar_test(data=veri[,c(1,2,3,4,5,6)])
Veri kaybının diğer değişkenlerle ilgili olup olmadığının incelenmesi sonucunda tüm değişkenlerin p-değerleri 0.05’ten büyük olarak bulunmuştur.
# Önce kategorik değişkenleri faktöre çevirme:
veri$gender <- as.factor(veri$gender)
veri$education <- as.factor(veri$education)
veri2 <- veri
veri2$SATQ_m <- veri2$SATQ
library(finalfit)
explanatory = c("ACT", "SATV", "gender", "education", "age")
dependent = "SATQ_m"
veri2 %>%
missing_compare(dependent, explanatory) %>%
knitr::kable(row.names=FALSE, align = c("l", "l", "r", "r", "r"),
caption = "Eksik veriye sahip olan ve olmayan değişkenlerin ortalama karşılaştırması")
| Missing data analysis: SATQ_m | Not missing | Missing | p | |
|---|---|---|---|---|
| ACT | Mean (SD) | 28.6 (4.8) | 28.4 (4.6) | 0.903 |
| SATV | Mean (SD) | 612.3 (113.3) | 606.9 (93.3) | 0.864 |
| gender | 1 | 245 (99.2) | 2 (0.8) | 0.221 |
| 2 | 442 (97.6) | 11 (2.4) | ||
| education | 0 | 56 (98.2) | 1 (1.8) | 0.704 |
| 1 | 43 (95.6) | 2 (4.4) | ||
| 2 | 43 (97.7) | 1 (2.3) | ||
| 3 | 269 (97.8) | 6 (2.2) | ||
| 4 | 137 (99.3) | 1 (0.7) | ||
| 5 | 139 (98.6) | 2 (1.4) | ||
| age | Mean (SD) | 25.6 (9.5) | 23.2 (10.0) | 0.350 |
Yapılan analizler, kayıp veri örüntüsünün MCAR olduğunu gösteriyor o yüzden liste bazında silme yöntemi ile kayıp veriye sahip olan gözlemleri veri setinden çıkarıyorum.
na.omit(veri)
Deneme amaçlı ortalama atama yöntemi ile uygulama yaptım:
veri3 <-veri
veri3$SATQ[is.na(veri3$SATQ)] <- mean(veri3$SATQ, na.rm=TRUE)
summary(veri3$SATQ)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 200.0 530.0 620.0 610.2 700.0 800.0
Multiple Imputation (Çoklu Atama) denemesi:
md.pattern(veri)
## gender education age ACT SATV SATQ
## 687 1 1 1 1 1 1 0
## 13 1 1 1 1 1 0 1
## 0 0 0 0 0 13 13
imputed_data <- mice(veri, m = 5, maxit = 50, method = 'pmm', seed = 500)
##
## iter imp variable
## 1 1 SATQ
## 1 2 SATQ
## 1 3 SATQ
## 1 4 SATQ
## 1 5 SATQ
## 2 1 SATQ
## 2 2 SATQ
## 2 3 SATQ
## 2 4 SATQ
## 2 5 SATQ
## 3 1 SATQ
## 3 2 SATQ
## 3 3 SATQ
## 3 4 SATQ
## 3 5 SATQ
## 4 1 SATQ
## 4 2 SATQ
## 4 3 SATQ
## 4 4 SATQ
## 4 5 SATQ
## 5 1 SATQ
## 5 2 SATQ
## 5 3 SATQ
## 5 4 SATQ
## 5 5 SATQ
## 6 1 SATQ
## 6 2 SATQ
## 6 3 SATQ
## 6 4 SATQ
## 6 5 SATQ
## 7 1 SATQ
## 7 2 SATQ
## 7 3 SATQ
## 7 4 SATQ
## 7 5 SATQ
## 8 1 SATQ
## 8 2 SATQ
## 8 3 SATQ
## 8 4 SATQ
## 8 5 SATQ
## 9 1 SATQ
## 9 2 SATQ
## 9 3 SATQ
## 9 4 SATQ
## 9 5 SATQ
## 10 1 SATQ
## 10 2 SATQ
## 10 3 SATQ
## 10 4 SATQ
## 10 5 SATQ
## 11 1 SATQ
## 11 2 SATQ
## 11 3 SATQ
## 11 4 SATQ
## 11 5 SATQ
## 12 1 SATQ
## 12 2 SATQ
## 12 3 SATQ
## 12 4 SATQ
## 12 5 SATQ
## 13 1 SATQ
## 13 2 SATQ
## 13 3 SATQ
## 13 4 SATQ
## 13 5 SATQ
## 14 1 SATQ
## 14 2 SATQ
## 14 3 SATQ
## 14 4 SATQ
## 14 5 SATQ
## 15 1 SATQ
## 15 2 SATQ
## 15 3 SATQ
## 15 4 SATQ
## 15 5 SATQ
## 16 1 SATQ
## 16 2 SATQ
## 16 3 SATQ
## 16 4 SATQ
## 16 5 SATQ
## 17 1 SATQ
## 17 2 SATQ
## 17 3 SATQ
## 17 4 SATQ
## 17 5 SATQ
## 18 1 SATQ
## 18 2 SATQ
## 18 3 SATQ
## 18 4 SATQ
## 18 5 SATQ
## 19 1 SATQ
## 19 2 SATQ
## 19 3 SATQ
## 19 4 SATQ
## 19 5 SATQ
## 20 1 SATQ
## 20 2 SATQ
## 20 3 SATQ
## 20 4 SATQ
## 20 5 SATQ
## 21 1 SATQ
## 21 2 SATQ
## 21 3 SATQ
## 21 4 SATQ
## 21 5 SATQ
## 22 1 SATQ
## 22 2 SATQ
## 22 3 SATQ
## 22 4 SATQ
## 22 5 SATQ
## 23 1 SATQ
## 23 2 SATQ
## 23 3 SATQ
## 23 4 SATQ
## 23 5 SATQ
## 24 1 SATQ
## 24 2 SATQ
## 24 3 SATQ
## 24 4 SATQ
## 24 5 SATQ
## 25 1 SATQ
## 25 2 SATQ
## 25 3 SATQ
## 25 4 SATQ
## 25 5 SATQ
## 26 1 SATQ
## 26 2 SATQ
## 26 3 SATQ
## 26 4 SATQ
## 26 5 SATQ
## 27 1 SATQ
## 27 2 SATQ
## 27 3 SATQ
## 27 4 SATQ
## 27 5 SATQ
## 28 1 SATQ
## 28 2 SATQ
## 28 3 SATQ
## 28 4 SATQ
## 28 5 SATQ
## 29 1 SATQ
## 29 2 SATQ
## 29 3 SATQ
## 29 4 SATQ
## 29 5 SATQ
## 30 1 SATQ
## 30 2 SATQ
## 30 3 SATQ
## 30 4 SATQ
## 30 5 SATQ
## 31 1 SATQ
## 31 2 SATQ
## 31 3 SATQ
## 31 4 SATQ
## 31 5 SATQ
## 32 1 SATQ
## 32 2 SATQ
## 32 3 SATQ
## 32 4 SATQ
## 32 5 SATQ
## 33 1 SATQ
## 33 2 SATQ
## 33 3 SATQ
## 33 4 SATQ
## 33 5 SATQ
## 34 1 SATQ
## 34 2 SATQ
## 34 3 SATQ
## 34 4 SATQ
## 34 5 SATQ
## 35 1 SATQ
## 35 2 SATQ
## 35 3 SATQ
## 35 4 SATQ
## 35 5 SATQ
## 36 1 SATQ
## 36 2 SATQ
## 36 3 SATQ
## 36 4 SATQ
## 36 5 SATQ
## 37 1 SATQ
## 37 2 SATQ
## 37 3 SATQ
## 37 4 SATQ
## 37 5 SATQ
## 38 1 SATQ
## 38 2 SATQ
## 38 3 SATQ
## 38 4 SATQ
## 38 5 SATQ
## 39 1 SATQ
## 39 2 SATQ
## 39 3 SATQ
## 39 4 SATQ
## 39 5 SATQ
## 40 1 SATQ
## 40 2 SATQ
## 40 3 SATQ
## 40 4 SATQ
## 40 5 SATQ
## 41 1 SATQ
## 41 2 SATQ
## 41 3 SATQ
## 41 4 SATQ
## 41 5 SATQ
## 42 1 SATQ
## 42 2 SATQ
## 42 3 SATQ
## 42 4 SATQ
## 42 5 SATQ
## 43 1 SATQ
## 43 2 SATQ
## 43 3 SATQ
## 43 4 SATQ
## 43 5 SATQ
## 44 1 SATQ
## 44 2 SATQ
## 44 3 SATQ
## 44 4 SATQ
## 44 5 SATQ
## 45 1 SATQ
## 45 2 SATQ
## 45 3 SATQ
## 45 4 SATQ
## 45 5 SATQ
## 46 1 SATQ
## 46 2 SATQ
## 46 3 SATQ
## 46 4 SATQ
## 46 5 SATQ
## 47 1 SATQ
## 47 2 SATQ
## 47 3 SATQ
## 47 4 SATQ
## 47 5 SATQ
## 48 1 SATQ
## 48 2 SATQ
## 48 3 SATQ
## 48 4 SATQ
## 48 5 SATQ
## 49 1 SATQ
## 49 2 SATQ
## 49 3 SATQ
## 49 4 SATQ
## 49 5 SATQ
## 50 1 SATQ
## 50 2 SATQ
## 50 3 SATQ
## 50 4 SATQ
## 50 5 SATQ
imputed_data$imp$SATQ # # SATQ için atanan 13 değer (5 farklı senaryo için)
# 1. Regresyon analizi
fit <- with(imputed_data, lm(SATQ ~ SATV + age + gender))
# 2. 5 farklı analizi tek bir sonuçta birleştir
pooled_results <- pool(fit)
# 3. Sonuç tablosunu görüntüle
summary(pooled_results)
İlk derse katılamadım o yüzden bu hafta için videoyu izleyip, derste yapılan uygulamaları yaptım. Kayıp veri temizleme işi dışardan bakıldığında basit bir silme işi gibi gözükse de çok katmanlı düşünmeyi gerektirdiği için birazcık karışık duruyor. Ama, analize başlamadan önce elbette tamamlanması gereken en önemli adım. Özellikle kayıp verinin miktarından ziyade örüntüsünün (MCAR, MAR, MNAR ayrımı) önemli olduğunu görmek, benim için en önemli çıktılarından biri oldu bu dersin. Bu aşamadaki işlemlerin, analize başlamadan önce veriyi daha iyi tanımayı sağladığını düşünüyorum, şu an ne zaman hangi yöntemi kullanacağım konusu tabi ki çok oturmasa da zamanla aynı işlemi tekrarladıkça daha yetkin olacağımı düşünüyorum. Umarım hayatımın geri kalanında temiz veri setleri ile karşılaşırım:) Dönemin ilk öğrenme günlüğü hayırlı olsun, bereketiyle gelsin diyorum:))