Eknometri proje

İlk Proje

R yükleme

markdown başlangıç

Web sayfasını hazırlama

Internete yükleme

FORMUL

\[A=\frac{1}{n}\Sigma^n_i(a_i)\]

library(WDI)

library(ggplot2)

# Gerekli kütüphaneleri yükleme
install.packages("ggplot2")

## The following package(s) will be installed:
## - ggplot2 [3.5.0]
## These packages will be installed into "~/IMANO/renv/library/R-4.3/x86_64-w64-mingw32".
## 
## # Installing packages --------------------------------------------------------
## - Installing ggplot2 ...                        OK [linked from cache]
## Successfully installed 1 package in 46 milliseconds.

library(ggplot2)

# Kore ve Çin'in yıllık inflasyon verileri
yillar <- c(2015, 2016, 2017, 2018, 2019, 2020, 2021) # Yıllar
kore_inflasyon <- c(0.7, 1.0, 1.9, 1.5, 0.4, 0.5, 1.5) # Kore'nin yıllık inflasyonu (%)
cin_inflasyon <- c(1.4, 2.0, 1.6, 2.1, 2.9, 2.5, 1.8) # Çin'in yıllık inflasyonu (%)

# Verileri bir veri çerçevesine dönüştürme
veriler <- data.frame(Yıl = yillar, Kore = kore_inflasyon, Çin = cin_inflasyon)

# Grafik çizimi
ggplot(veriler, aes(x = Yıl)) +
  geom_line(aes(y = Kore, color = "Kore")) +
  geom_line(aes(y = Çin, color = "Çin")) +
  labs(title = "Kore ve Çin'in Yıllık Inflasyon Oranı",
       x = "Yıl",
       y = "Yıllık Inflasyon Oranı (%)",
       color = "Ülke") +
  scale_color_manual(values = c("Kore" = "blue", "Çin" = "red")) +
  theme_minimal()

Makina öğrenmesi açıklayın?

Makina öğrenmesi açıklayın? ChatGPT Makina öğrenmesi, bilgisayar sistemlerinin verilerden öğrenme yeteneği kazanarak belirli bir görevi gerçekleştirmek için algoritmalar geliştirmesini sağlayan bir yapay zeka dalıdır. Makina öğrenmesi, belirli bir görev için programlanmaktan ziyade verilere dayalı olarak öğrenme kapasitesine sahiptir. Bu, veri analizi, desen tanıma, tahmin, sınıflandırma ve kümelenme gibi birçok farklı görevde kullanılabilir.

Makina öğrenmesi genellikle üç ana kategori altında incelenir:

Denetimli Öğrenme (Supervised Learning): Bu yaklaşım, belirli bir giriş verisiyle bir çıkışı ilişkilendirme görevini ele alır. Bir öğrenme algoritması, eğitim veri setindeki giriş-çıkış ilişkisini öğrenir ve daha sonra yeni giriş verileriyle bu ilişkiyi kullanarak tahminler yapabilir. Örneğin, ev fiyatlarını tahmin etmek veya e-postaları spam ve spam olmayan olarak sınıflandırmak gibi görevler bu kategoriye girer.

Denetimsiz Öğrenme (Unsupervised Learning): Bu yaklaşım, veri setinde yapısal bir çıkarım yapmadan önceki herhangi bir etiketleme veya yönlendirme olmadan veri analizi gerçekleştirir. Burada algoritma, veri setindeki gizli yapıları veya desenleri keşfetmeye çalışır. Örneğin, benzer özelliklere sahip veri noktalarını gruplamak veya veri setindeki ana temaları belirlemek gibi görevler bu kategoriye girer.

Pekiştirme Öğrenme (Reinforcement Learning): Bu yaklaşım, bir ajanın belirli bir çevreye karşı nasıl davranacağını öğrenmeye çalışır. Ajan, çevresiyle etkileşime girer, bir eylem gerçekleştirir, çevre tarafından bir geri bildirim alır ve bu geri bildirimi kullanarak gelecekteki eylemlerini ayarlar. Ajan, belirli bir hedefi veya ödülü maksimize etmek için en iyi eylem stratejisini öğrenmeye çalışır. Örneğin, bir robotun bir engeli aşması veya bir oyun stratejisi geliştirmesi gibi görevler bu kategoriye girer.

Makina öğrenmesi, veri analitiği, yapay zeka ve bilgi işlem alanlarında geniş bir uygulama alanına sahiptir ve günümüzde birçok endüstride kullanılmaktadır, örneğin sağlık, finans, otomotiv, perakende ve daha birçok alanda

kaggle projesi

spaceship titanic (kaggel tanıtımı)

Spacehip Titanic (Kaggle Tanıtımı) “2912 yılına hoş geldiniz, burada veri bilimi becerilerinizin bir kozmik gizemi çözmek için gerektiği bir zamandayız. Dört ışık yılı uzaklıktan bir ileti aldık ve durum iyi görünmüyor.

Uzay Gemisi Titanic, bir ay önce fırlatılan bir yıldızlararası yolcu gemisiydi. Yaklaşık 13.000 yolcuyla yola çıkan gemi, Güneş sistemimizden üç yeni yaşanabilir yıldız etrafında dönen gezegenlere göçmenleri taşıyarak ilk seferine başladı.

İlk varış noktası olan 55 Cancri E’ye, Alfa Centauri’yi dolaşırken, dikkatsiz Uzay Gemisi Titanic, bir toz bulutunun içinde gizlenmiş bir uzay-zaman anormalliğiyle çarpıştı. Ne yazık ki, adını taşıdığı gemiye bin yıl önceki kaderle benzer bir kaderi paylaştı. Gemi bütünlüğünü korudu, ancak neredeyse yolcuların yarısı alternatif bir boyuta taşındı!

Kurtarma ekiplerine yardım etmek ve kayıp yolcuları kurtarmak için, uzay gemisinin hasar görmüş bilgisayar sisteminden kurtarılan kayıtları kullanarak hangi yolcuların anormallik tarafından taşındığını tahmin etmeniz isteniyor.

Onları kurtarmaya yardım edin ve tarihi değiştirin!”

Ortalama, standart sapma, kovaryans ve korelasyon nedir?

ortalama nedir

“Ortalama”, bir veri kümesindeki sayıların genel bir temsilini ifade eden bir terimdir. Bir veri kümesindeki sayıların toplamının sayı adedine bölünmesiyle bulunur.

Ortalama, veri setinin genel eğilimini anlamak için kullanışlı bir ölçüdür. Örneğin, bir sınıftaki öğrencilerin notlarının ortalama alınması, sınıfın genel performansını anlamak için kullanılabilir.

ortalama formülü

\[\bar{X} = \frac {\Sigma^n_İ (X_i)}{n} \]

Standart sapma nedir

Standart sapma, bir veri kümesindeki değerlerin ortalamadan ne kadar uzaklaştığını ölçen bir istatistiksel ölçüdür. Yani, bir veri setinin ne kadar homojen veya heterojen olduğunu belirlemeye yardımcı olur. Bir veri setindeki her bir değerin ortalamadan ne kadar farklı olduğunu bulmak için standart sapma hesaplanır.

Standart sapma formülü

\[\sigma = \sqrt \frac {\Sigma^N_i (X_i-\bar{X})^2}{N} \]

kovaryans nedir?

Kovaryans, iki değişken arasındaki ilişkinin değişkenliklerini ölçen bir istatistiksel terimdir. Özellikle, bu iki değişkenin birlikte nasıl değiştiğini ölçmek için kullanılır. Kovaryans, bu değişkenlerin birlikte artıp azaldığı durumları ve bunların ne kadar birbirine bağlı olduğunu belirlemeye yardımcı olur.

kovaryans formülü

\[ cov(X,Y)=\frac {\Sigma^n_i (X_i-X)(Y_i-Y)}{n-1} \]

korelasyon nedir ?

korelasyon bir istatistik terimi olup, iki değişken arasındaki ilişkiyi ölçen bir ölçüdür. Bu ilişki, değişkenlerin birlikte nasıl değiştiğini ve birbirlerine ne kadar bağımlı olduklarını belirler. Daha basit bir tanımla, korelasyon, iki değişken arasındaki ilişkinin doğasını ve yönünü belirler. İki değişken arasında pozitif bir korelasyon varsa, bir değişken arttığında diğerinin de arttığı görülür. Negatif bir korelasyon ise bir değişken arttığında diğerinin azaldığını gösterir

korelasyon formülü

\[R = \frac {\Sigma (x_i-\bar{x})(y_i-\bar{y})}{ \sqrt {\Sigma (x_i-\bar{x})^2 \Sigma (y_i-\bar{y})}}\]

Train ve test nedir?

“Train” ve “test”, makine öğrenimi ve veri bilimi gibi alanlarda kullanılan terimlerdir.

Eğitim (Train):

Eğitim aşamasında, bir makine öğrenimi modeli belirli bir veri kümesi üzerinde eğitilir. Bu veri kümesi genellikle etiketlenmiş verilerden oluşur, yani girdi özelliklerinin yanı sıra her bir veri örneği için doğru çıktılar (etiketler) da bulunur. Makine öğrenimi modeli, eğitim veri kümesindeki desenleri öğrenir ve bu desenleri kullanarak belirli bir görevi (örneğin, sınıflandırma veya regresyon) gerçekleştirmek için optimize edilir. Eğitim aşamasında, model genellikle belirli bir algoritma ve hiperparametreler kullanılarak eğitilir. Amacı, eğitim veri kümesindeki hata veya kaybı minimize etmektir. Test:

Test aşamasında, eğitilmiş model başka bir veri kümesi üzerinde değerlendirilir. Bu veri kümesi, genellikle eğitim veri kümesinden farklıdır ve makine öğrenimi modelinin gerçek dünya verileri üzerinde ne kadar iyi performans gösterdiğini ölçmek için kullanılır. Test veri kümesi genellikle aynı formatta olup aynı özellikleri içerir, ancak model tarafından daha önce görülmemiş verilerden oluşur. Test aşamasında, modelin tahminlerinin gerçek değerlerle karşılaştırılması ve modelin performansının ölçülmesi için çeşitli değerlendirme metrikleri kullanılır. Bu metrikler, modelin ne kadar iyi çalıştığını belirlemek için kullanılabilir ve aşırı uydurma (overfitting) gibi olası problemleri tanımlamak için yardımcı olabilir. Bu iki aşama, makine öğrenimi modelinin eğitilmesi, doğrulanması ve nihayetinde gerçek dünya verileri üzerinde uygulanması için kritik öneme sahiptir.

library(readr)

test <- read_csv("test.csv")

## Rows: 4277 Columns: 13
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (2): CryoSleep, VIP
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

train <- read_csv("train.csv")

## Rows: 8693 Columns: 14
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (3): CryoSleep, VIP, Transported
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

library(rmarkdown)

paged_table(train)

paged_table(test)

.PassengerId : Her yolcu için benzersiz bir Kimlik. Her Kimlik gggg_pp biçimini alır; burada gggg yolcunun birlikte seyahat ettiği grubu belirtir ve pp grup içindeki numaradır. Bir gruptaki insanlar çoğunlukla aile üyeleridir, ancak her zaman değil.

.HomePlanet: Yolcunun ayrıldığı gezegen, genellikle daimi ikamet ettikleri gezegen.

.CryoSleep: Yolcunun yolculuk süresince askıya alınmış animasyona alınmayı seçip seçmediğini belirtir. Dondurucu uykudaki yolcular kabinlerine hapsedilir.

.Cabin: Yolcunun kaldığı kabin numarası. Güverte/numara/yan formunu alır; burada taraf, İskele için P veya Sancak için S olabilir.

.Destination: Yolcunun ineceği gezegen.

.Age: Yolcunun yaşı.

.VIP: Yolcunun yolculuk sırasında özel VIP hizmeti için ödeme yapıp yapmadığı.

.RoomService, FoodCourt, ShoppingMall, Spa, VRDeck: Yolcunun, Uzay Gemisi Titanic’in birçok lüks olanağının her birinde fatura ettiği tutar.

.Name: Yolcunun adı ve soyadı.

.Transported: Yolcunun başka bir boyuta taşınıp taşınmadığı. Bu hedeftir, tahmin etmeye çalıştığınız sütundur.

VERI SETI ACIKLAYIN ?

Veri seti, bir araya getirilmiş veya düzenlenmiş verilerin yapılandırılmış bir koleksiyonudur. Bu veriler, belirli bir amaca hizmet etmek üzere toplanmış veya oluşturulmuş olabilir. Veri setleri genellikle bir veya birden fazla değişkenin (veri noktaları veya gözlemler) bir araya getirilmesinden oluşur ve genellikle bir tablo, matris veya diğer veri depolama biçimlerinde temsil edilirler.

Bir veri seti şu bileşenlerden oluşur:

Gözlemler (Samples): Her bir gözlem, veri setindeki bir biriktirilmiş veri noktasını veya bir örneği temsil eder. Örneğin, bir veri seti, bir müşterinin demografik bilgilerini içerebilir ve her bir gözlem bir müşteriyi temsil eder.

Değişkenler (Features): Değişkenler, her bir gözlemin özelliklerini tanımlayan ölçümler veya niteliklerdir. Örneğin, bir müşteri veri setinde, değişkenler müşterinin yaş, cinsiyet, gelir seviyesi gibi özelliklerini temsil eder.

Veri Tipi (Data Type): Her değişkenin bir veri tipi vardır, bu tip verinin hangi tür bilgiyi içerdiğini belirtir. Örneğin, bir değişken sayısal (örneğin, yaş) veya kategorik (örneğin, cinsiyet) olabilir.

Bağımlı ve Bağımsız Değişkenler: Bir veri setinde, genellikle bağımlı ve bağımsız değişkenler vardır. Bağımlı değişken, genellikle modelin tahmin etmeye çalıştığı veya açıklamaya çalıştığı değişkendir. Bağımsız değişkenler ise bağımlı değişkeni etkileyen faktörlerdir.

Veri Setinin Boyutu (Size of the Data Set): Veri setinin boyutu, içerdiği gözlem ve değişken sayısını ifade eder. Büyük veri setleri binlerce veya milyonlarca gözlem ve yüzlerce veya binlerce değişken içerebilirken, küçük veri setleri yalnızca birkaç gözlem ve değişkene sahip olabilir.

Veri setleri, veri bilimi ve makine öğrenimi gibi alanlarda analiz, modelleme ve keşif amaçları için kullanılır. Veri setlerinin iyi bir şekilde anlaşılması ve doğru bir şekilde kullanılması, veri odaklı karar verme süreçlerinin geliştirilmesi için önemlidir.

CABIN 3 FARKLI GRUP CIKARMAK

library(explore)

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(tidyr)

train <- separate(train, Cabin, into = c("sutun1", "sutun2", "sutun3"), sep = "/", remove=FALSE)

test <- separate(test, Cabin, into = c("sutun1", "sutun2", "sutun3"), sep = "/", remove=FALSE)

summary(train)

##  PassengerId         HomePlanet        CryoSleep          Cabin          
##  Length:8693        Length:8693        Mode :logical   Length:8693       
##  Class :character   Class :character   FALSE:5439      Class :character  
##  Mode  :character   Mode  :character   TRUE :3037      Mode  :character  
##                                        NA's :217                         
##                                                                          
##                                                                          
##                                                                          
##     sutun1             sutun2             sutun3          Destination       
##  Length:8693        Length:8693        Length:8693        Length:8693       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##       Age           VIP           RoomService        FoodCourt      
##  Min.   : 0.00   Mode :logical   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:19.00   FALSE:8291      1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :27.00   TRUE :199       Median :    0.0   Median :    0.0  
##  Mean   :28.83   NA's :203       Mean   :  224.7   Mean   :  458.1  
##  3rd Qu.:38.00                   3rd Qu.:   47.0   3rd Qu.:   76.0  
##  Max.   :79.00                   Max.   :14327.0   Max.   :29813.0  
##  NA's   :179                     NA's   :181       NA's   :183      
##   ShoppingMall          Spa              VRDeck            Name          
##  Min.   :    0.0   Min.   :    0.0   Min.   :    0.0   Length:8693       
##  1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0   Class :character  
##  Median :    0.0   Median :    0.0   Median :    0.0   Mode  :character  
##  Mean   :  173.7   Mean   :  311.1   Mean   :  304.9                     
##  3rd Qu.:   27.0   3rd Qu.:   59.0   3rd Qu.:   46.0                     
##  Max.   :23492.0   Max.   :22408.0   Max.   :24133.0                     
##  NA's   :208       NA's   :183       NA's   :188                         
##  Transported    
##  Mode :logical  
##  FALSE:4315     
##  TRUE :4378     
##                 
##                 
##                 
##

library(stringr)

test[c("ailenumara", "ailesira")] <- str_split_fixed(test$PassengerId, "_",2)

train <- train %>% select(-Cabin)
test <- test %>% select(-Cabin)

unique(train$HomePlanet)

## [1] "Europa" "Earth"  "Mars"   NA

levels(test$HomePlanet)

## NULL

train$HomePlanet <- addNA(train$HomePlanet)

test$HomePlanet <- addNA(test$HomePlanet)

levels(train$HomePlanet)[is.na(levels(train$HomePlanet))] <- "NA"

levels(test$HomePlanet)[is.na(levels(test$HomePlanet))] <- "NA"

train %>% describe_all()

## # A tibble: 16 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  chr       0    0     8693    NA  NA       NA
##  2 HomePlanet   fct       0    0        4    NA  NA       NA
##  3 CryoSleep    lgl     217    2.5      3     0   0.36     1
##  4 sutun1       chr     199    2.3      9    NA  NA       NA
##  5 sutun2       chr     199    2.3   1818    NA  NA       NA
##  6 sutun3       chr     199    2.3      3    NA  NA       NA
##  7 Destination  chr     182    2.1      4    NA  NA       NA
##  8 Age          dbl     179    2.1     81     0  28.8     79
##  9 VIP          lgl     203    2.3      3     0   0.02     1
## 10 RoomService  dbl     181    2.1   1274     0 225.   14327
## 11 FoodCourt    dbl     183    2.1   1508     0 458.   29813
## 12 ShoppingMall dbl     208    2.4   1116     0 174.   23492
## 13 Spa          dbl     183    2.1   1328     0 311.   22408
## 14 VRDeck       dbl     188    2.2   1307     0 305.   24133
## 15 Name         chr     200    2.3   8474    NA  NA       NA
## 16 Transported  lgl       0    0        2     0   0.5      1

test %>% describe_all()

## # A tibble: 17 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  chr       0    0     4277    NA  NA       NA
##  2 HomePlanet   fct       0    0        4    NA  NA       NA
##  3 CryoSleep    lgl      93    2.2      3     0   0.37     1
##  4 sutun1       chr     100    2.3      9    NA  NA       NA
##  5 sutun2       chr     100    2.3   1506    NA  NA       NA
##  6 sutun3       chr     100    2.3      3    NA  NA       NA
##  7 Destination  chr      92    2.2      4    NA  NA       NA
##  8 Age          dbl      91    2.1     80     0  28.7     79
##  9 VIP          lgl      93    2.2      3     0   0.02     1
## 10 RoomService  dbl      82    1.9    843     0 219.   11567
## 11 FoodCourt    dbl     106    2.5    903     0 439.   25273
## 12 ShoppingMall dbl      98    2.3    716     0 177.    8292
## 13 Spa          dbl     101    2.4    834     0 303.   19844
## 14 VRDeck       dbl      80    1.9    797     0 311.   22272
## 15 Name         chr      94    2.2   4177    NA  NA       NA
## 16 ailenumara   chr       0    0     3063    NA  NA       NA
## 17 ailesira     chr       0    0        8    NA  NA       NA

train <- train %>%
  group_by(HomePlanet) %>%
  mutate_at(vars(Age), ~replace_na(., mean(., na.rm = TRUE)))

tesrt <- test %>%
  group_by(HomePlanet) %>%
  mutate_at(vars(Age), ~replace_na(., mean(., na.rm = TRUE)))

train %>% describe_all()

## # A tibble: 16 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  chr       0    0     8693    NA  NA       NA
##  2 HomePlanet   fct       0    0        4    NA  NA       NA
##  3 CryoSleep    lgl     217    2.5      3     0   0.36     1
##  4 sutun1       chr     199    2.3      9    NA  NA       NA
##  5 sutun2       chr     199    2.3   1818    NA  NA       NA
##  6 sutun3       chr     199    2.3      3    NA  NA       NA
##  7 Destination  chr     182    2.1      4    NA  NA       NA
##  8 Age          dbl       0    0       84     0  28.8     79
##  9 VIP          lgl     203    2.3      3     0   0.02     1
## 10 RoomService  dbl     181    2.1   1274     0 225.   14327
## 11 FoodCourt    dbl     183    2.1   1508     0 458.   29813
## 12 ShoppingMall dbl     208    2.4   1116     0 174.   23492
## 13 Spa          dbl     183    2.1   1328     0 311.   22408
## 14 VRDeck       dbl     188    2.2   1307     0 305.   24133
## 15 Name         chr     200    2.3   8474    NA  NA       NA
## 16 Transported  lgl       0    0        2     0   0.5      1

test %>% describe_all()

## # A tibble: 17 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  chr       0    0     4277    NA  NA       NA
##  2 HomePlanet   fct       0    0        4    NA  NA       NA
##  3 CryoSleep    lgl      93    2.2      3     0   0.37     1
##  4 sutun1       chr     100    2.3      9    NA  NA       NA
##  5 sutun2       chr     100    2.3   1506    NA  NA       NA
##  6 sutun3       chr     100    2.3      3    NA  NA       NA
##  7 Destination  chr      92    2.2      4    NA  NA       NA
##  8 Age          dbl      91    2.1     80     0  28.7     79
##  9 VIP          lgl      93    2.2      3     0   0.02     1
## 10 RoomService  dbl      82    1.9    843     0 219.   11567
## 11 FoodCourt    dbl     106    2.5    903     0 439.   25273
## 12 ShoppingMall dbl      98    2.3    716     0 177.    8292
## 13 Spa          dbl     101    2.4    834     0 303.   19844
## 14 VRDeck       dbl      80    1.9    797     0 311.   22272
## 15 Name         chr      94    2.2   4177    NA  NA       NA
## 16 ailenumara   chr       0    0     3063    NA  NA       NA
## 17 ailesira     chr       0    0        8    NA  NA       NA

train$CryoSleep <- addNA(train$CryoSleep)

test$CryoSleep <- addNA(test$CryoSleep)

levels(train$CryoSleep)[is.na(levels(train$CryoSleep))] <- "NA"

levels(test$CryoSleep)[is.na(levels(test$CryoSleep))] <- "NA"

train %>% describe_all()

## # A tibble: 16 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  chr       0    0     8693    NA  NA       NA
##  2 HomePlanet   fct       0    0        4    NA  NA       NA
##  3 CryoSleep    fct       0    0        3    NA  NA       NA
##  4 sutun1       chr     199    2.3      9    NA  NA       NA
##  5 sutun2       chr     199    2.3   1818    NA  NA       NA
##  6 sutun3       chr     199    2.3      3    NA  NA       NA
##  7 Destination  chr     182    2.1      4    NA  NA       NA
##  8 Age          dbl       0    0       84     0  28.8     79
##  9 VIP          lgl     203    2.3      3     0   0.02     1
## 10 RoomService  dbl     181    2.1   1274     0 225.   14327
## 11 FoodCourt    dbl     183    2.1   1508     0 458.   29813
## 12 ShoppingMall dbl     208    2.4   1116     0 174.   23492
## 13 Spa          dbl     183    2.1   1328     0 311.   22408
## 14 VRDeck       dbl     188    2.2   1307     0 305.   24133
## 15 Name         chr     200    2.3   8474    NA  NA       NA
## 16 Transported  lgl       0    0        2     0   0.5      1

test %>% describe_all()

## # A tibble: 17 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  chr       0    0     4277    NA  NA       NA
##  2 HomePlanet   fct       0    0        4    NA  NA       NA
##  3 CryoSleep    fct       0    0        3    NA  NA       NA
##  4 sutun1       chr     100    2.3      9    NA  NA       NA
##  5 sutun2       chr     100    2.3   1506    NA  NA       NA
##  6 sutun3       chr     100    2.3      3    NA  NA       NA
##  7 Destination  chr      92    2.2      4    NA  NA       NA
##  8 Age          dbl      91    2.1     80     0  28.7     79
##  9 VIP          lgl      93    2.2      3     0   0.02     1
## 10 RoomService  dbl      82    1.9    843     0 219.   11567
## 11 FoodCourt    dbl     106    2.5    903     0 439.   25273
## 12 ShoppingMall dbl      98    2.3    716     0 177.    8292
## 13 Spa          dbl     101    2.4    834     0 303.   19844
## 14 VRDeck       dbl      80    1.9    797     0 311.   22272
## 15 Name         chr      94    2.2   4177    NA  NA       NA
## 16 ailenumara   chr       0    0     3063    NA  NA       NA
## 17 ailesira     chr       0    0        8    NA  NA       NA

unique(train$Destination)

## [1] "TRAPPIST-1e"   "PSO J318.5-22" "55 Cancri e"   NA

train$Destination <- addNA(train$Destination)

test$Destination <- addNA(test$Destination)

levels(train$Destination)[is.na(levels(train$Destination))] <- "NA"

levels(test$Destination)[is.na(levels(test$Destination))] <- "NA"

train$sutun1 <- addNA(train$sutun1)

test$sutun1 <- addNA(test$sutun1)

levels(train$sutun1)[is.na(levels(train$sutun1))] <- "NA"

levels(test$sutun1)[is.na(levels(test$sutun1))] <- "NA"

train %>% describe_all()

## # A tibble: 16 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  chr       0    0     8693    NA  NA       NA
##  2 HomePlanet   fct       0    0        4    NA  NA       NA
##  3 CryoSleep    fct       0    0        3    NA  NA       NA
##  4 sutun1       fct       0    0        9    NA  NA       NA
##  5 sutun2       chr     199    2.3   1818    NA  NA       NA
##  6 sutun3       chr     199    2.3      3    NA  NA       NA
##  7 Destination  fct       0    0        4    NA  NA       NA
##  8 Age          dbl       0    0       84     0  28.8     79
##  9 VIP          lgl     203    2.3      3     0   0.02     1
## 10 RoomService  dbl     181    2.1   1274     0 225.   14327
## 11 FoodCourt    dbl     183    2.1   1508     0 458.   29813
## 12 ShoppingMall dbl     208    2.4   1116     0 174.   23492
## 13 Spa          dbl     183    2.1   1328     0 311.   22408
## 14 VRDeck       dbl     188    2.2   1307     0 305.   24133
## 15 Name         chr     200    2.3   8474    NA  NA       NA
## 16 Transported  lgl       0    0        2     0   0.5      1

test %>% describe_all()

## # A tibble: 17 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  chr       0    0     4277    NA  NA       NA
##  2 HomePlanet   fct       0    0        4    NA  NA       NA
##  3 CryoSleep    fct       0    0        3    NA  NA       NA
##  4 sutun1       fct       0    0        9    NA  NA       NA
##  5 sutun2       chr     100    2.3   1506    NA  NA       NA
##  6 sutun3       chr     100    2.3      3    NA  NA       NA
##  7 Destination  fct       0    0        4    NA  NA       NA
##  8 Age          dbl      91    2.1     80     0  28.7     79
##  9 VIP          lgl      93    2.2      3     0   0.02     1
## 10 RoomService  dbl      82    1.9    843     0 219.   11567
## 11 FoodCourt    dbl     106    2.5    903     0 439.   25273
## 12 ShoppingMall dbl      98    2.3    716     0 177.    8292
## 13 Spa          dbl     101    2.4    834     0 303.   19844
## 14 VRDeck       dbl      80    1.9    797     0 311.   22272
## 15 Name         chr      94    2.2   4177    NA  NA       NA
## 16 ailenumara   chr       0    0     3063    NA  NA       NA
## 17 ailesira     chr       0    0        8    NA  NA       NA

train$VIP <- addNA(train$VIP)

test$VIP <- addNA(test$VIP)

levels(train$VIP)[is.na(levels(train$VIP))] <- "NA"

levels(test$VIP)[is.na(levels(test$VIP))] <- "NA"

train <- train %>%
  group_by(Destination) %>%
  mutate_at(vars(RoomService), ~replace_na(., mean(., na.rm = TRUE)))

test <- test %>%
  group_by(Destination) %>%
  mutate_at(vars(RoomService), ~replace_na(., mean(., na.rm = TRUE)))

train %>% describe_all()

## # A tibble: 16 × 8
##    variable     type     na na_pct unique   min  mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl> <dbl> <dbl>
##  1 PassengerId  chr       0    0     8693    NA  NA      NA
##  2 HomePlanet   fct       0    0        4    NA  NA      NA
##  3 CryoSleep    fct       0    0        3    NA  NA      NA
##  4 sutun1       fct       0    0        9    NA  NA      NA
##  5 sutun2       chr     199    2.3   1818    NA  NA      NA
##  6 sutun3       chr     199    2.3      3    NA  NA      NA
##  7 Destination  fct       0    0        4    NA  NA      NA
##  8 Age          dbl       0    0       84     0  28.8    79
##  9 VIP          fct       0    0        3    NA  NA      NA
## 10 RoomService  dbl       0    0     1277     0 225.  14327
## 11 FoodCourt    dbl     183    2.1   1508     0 458.  29813
## 12 ShoppingMall dbl     208    2.4   1116     0 174.  23492
## 13 Spa          dbl     183    2.1   1328     0 311.  22408
## 14 VRDeck       dbl     188    2.2   1307     0 305.  24133
## 15 Name         chr     200    2.3   8474    NA  NA      NA
## 16 Transported  lgl       0    0        2     0   0.5     1

test %>% describe_all()

## # A tibble: 17 × 8
##    variable     type     na na_pct unique   min  mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl> <dbl> <dbl>
##  1 PassengerId  chr       0    0     4277    NA  NA      NA
##  2 HomePlanet   fct       0    0        4    NA  NA      NA
##  3 CryoSleep    fct       0    0        3    NA  NA      NA
##  4 sutun1       fct       0    0        9    NA  NA      NA
##  5 sutun2       chr     100    2.3   1506    NA  NA      NA
##  6 sutun3       chr     100    2.3      3    NA  NA      NA
##  7 Destination  fct       0    0        4    NA  NA      NA
##  8 Age          dbl      91    2.1     80     0  28.7    79
##  9 VIP          fct       0    0        3    NA  NA      NA
## 10 RoomService  dbl       0    0      846     0 219.  11567
## 11 FoodCourt    dbl     106    2.5    903     0 439.  25273
## 12 ShoppingMall dbl      98    2.3    716     0 177.   8292
## 13 Spa          dbl     101    2.4    834     0 303.  19844
## 14 VRDeck       dbl      80    1.9    797     0 311.  22272
## 15 Name         chr      94    2.2   4177    NA  NA      NA
## 16 ailenumara   chr       0    0     3063    NA  NA      NA
## 17 ailesira     chr       0    0        8    NA  NA      NA

train <- train %>% mutate(FoodCourt = coalesce(FoodCourt, 0))

test <- test %>% mutate(FoodCourt = coalesce(FoodCourt, 0))

train %>% describe_all()

## # A tibble: 16 × 8
##    variable     type     na na_pct unique   min  mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl> <dbl> <dbl>
##  1 PassengerId  chr       0    0     8693    NA  NA      NA
##  2 HomePlanet   fct       0    0        4    NA  NA      NA
##  3 CryoSleep    fct       0    0        3    NA  NA      NA
##  4 sutun1       fct       0    0        9    NA  NA      NA
##  5 sutun2       chr     199    2.3   1818    NA  NA      NA
##  6 sutun3       chr     199    2.3      3    NA  NA      NA
##  7 Destination  fct       0    0        4    NA  NA      NA
##  8 Age          dbl       0    0       84     0  28.8    79
##  9 VIP          fct       0    0        3    NA  NA      NA
## 10 RoomService  dbl       0    0     1277     0 225.  14327
## 11 FoodCourt    dbl       0    0     1507     0 448.  29813
## 12 ShoppingMall dbl     208    2.4   1116     0 174.  23492
## 13 Spa          dbl     183    2.1   1328     0 311.  22408
## 14 VRDeck       dbl     188    2.2   1307     0 305.  24133
## 15 Name         chr     200    2.3   8474    NA  NA      NA
## 16 Transported  lgl       0    0        2     0   0.5     1

test %>% describe_all()

## # A tibble: 17 × 8
##    variable     type     na na_pct unique   min  mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl> <dbl> <dbl>
##  1 PassengerId  chr       0    0     4277    NA  NA      NA
##  2 HomePlanet   fct       0    0        4    NA  NA      NA
##  3 CryoSleep    fct       0    0        3    NA  NA      NA
##  4 sutun1       fct       0    0        9    NA  NA      NA
##  5 sutun2       chr     100    2.3   1506    NA  NA      NA
##  6 sutun3       chr     100    2.3      3    NA  NA      NA
##  7 Destination  fct       0    0        4    NA  NA      NA
##  8 Age          dbl      91    2.1     80     0  28.7    79
##  9 VIP          fct       0    0        3    NA  NA      NA
## 10 RoomService  dbl       0    0      846     0 219.  11567
## 11 FoodCourt    dbl       0    0      902     0 429.  25273
## 12 ShoppingMall dbl      98    2.3    716     0 177.   8292
## 13 Spa          dbl     101    2.4    834     0 303.  19844
## 14 VRDeck       dbl      80    1.9    797     0 311.  22272
## 15 Name         chr      94    2.2   4177    NA  NA      NA
## 16 ailenumara   chr       0    0     3063    NA  NA      NA
## 17 ailesira     chr       0    0        8    NA  NA      NA

train <- train %>% mutate(ShoppingMall = coalesce(ShoppingMall, 0),
                          Spa = coalesce(Spa, 0),
                          VRDeck = coalesce(VRDeck, 0))

test <- test %>% mutate(ShoppingMall = coalesce(ShoppingMall, 0),
                          Spa = coalesce(Spa, 0),
                          VRDeck = coalesce(VRDeck, 0))

train %>% describe_all()

## # A tibble: 16 × 8
##    variable     type     na na_pct unique   min  mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl> <dbl> <dbl>
##  1 PassengerId  chr       0    0     8693    NA  NA      NA
##  2 HomePlanet   fct       0    0        4    NA  NA      NA
##  3 CryoSleep    fct       0    0        3    NA  NA      NA
##  4 sutun1       fct       0    0        9    NA  NA      NA
##  5 sutun2       chr     199    2.3   1818    NA  NA      NA
##  6 sutun3       chr     199    2.3      3    NA  NA      NA
##  7 Destination  fct       0    0        4    NA  NA      NA
##  8 Age          dbl       0    0       84     0  28.8    79
##  9 VIP          fct       0    0        3    NA  NA      NA
## 10 RoomService  dbl       0    0     1277     0 225.  14327
## 11 FoodCourt    dbl       0    0     1507     0 448.  29813
## 12 ShoppingMall dbl       0    0     1115     0 170.  23492
## 13 Spa          dbl       0    0     1327     0 305.  22408
## 14 VRDeck       dbl       0    0     1306     0 298.  24133
## 15 Name         chr     200    2.3   8474    NA  NA      NA
## 16 Transported  lgl       0    0        2     0   0.5     1

test %>% describe_all()

## # A tibble: 17 × 8
##    variable     type     na na_pct unique   min  mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl> <dbl> <dbl>
##  1 PassengerId  chr       0    0     4277    NA  NA      NA
##  2 HomePlanet   fct       0    0        4    NA  NA      NA
##  3 CryoSleep    fct       0    0        3    NA  NA      NA
##  4 sutun1       fct       0    0        9    NA  NA      NA
##  5 sutun2       chr     100    2.3   1506    NA  NA      NA
##  6 sutun3       chr     100    2.3      3    NA  NA      NA
##  7 Destination  fct       0    0        4    NA  NA      NA
##  8 Age          dbl      91    2.1     80     0  28.7    79
##  9 VIP          fct       0    0        3    NA  NA      NA
## 10 RoomService  dbl       0    0      846     0 219.  11567
## 11 FoodCourt    dbl       0    0      902     0 429.  25273
## 12 ShoppingMall dbl       0    0      715     0 173.   8292
## 13 Spa          dbl       0    0      833     0 296.  19844
## 14 VRDeck       dbl       0    0      796     0 305.  22272
## 15 Name         chr      94    2.2   4177    NA  NA      NA
## 16 ailenumara   chr       0    0     3063    NA  NA      NA
## 17 ailesira     chr       0    0        8    NA  NA      NA

train <- train %>% select(-Name)

train %>% describe_all()

## # A tibble: 15 × 8
##    variable     type     na na_pct unique   min  mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl> <dbl> <dbl>
##  1 PassengerId  chr       0    0     8693    NA  NA      NA
##  2 HomePlanet   fct       0    0        4    NA  NA      NA
##  3 CryoSleep    fct       0    0        3    NA  NA      NA
##  4 sutun1       fct       0    0        9    NA  NA      NA
##  5 sutun2       chr     199    2.3   1818    NA  NA      NA
##  6 sutun3       chr     199    2.3      3    NA  NA      NA
##  7 Destination  fct       0    0        4    NA  NA      NA
##  8 Age          dbl       0    0       84     0  28.8    79
##  9 VIP          fct       0    0        3    NA  NA      NA
## 10 RoomService  dbl       0    0     1277     0 225.  14327
## 11 FoodCourt    dbl       0    0     1507     0 448.  29813
## 12 ShoppingMall dbl       0    0     1115     0 170.  23492
## 13 Spa          dbl       0    0     1327     0 305.  22408
## 14 VRDeck       dbl       0    0     1306     0 298.  24133
## 15 Transported  lgl       0    0        2     0   0.5     1

train$sutun2 <- addNA(train$sutun2)

test$sutun2 <- addNA(test$sutun2)

levels(train$sutun2)[is.na(levels(train$sutun2))] <- "NA"

levels(test$sutun2)[is.na(levels(test$sutun2))] <- "NA"

train %>% describe_all()

## # A tibble: 15 × 8
##    variable     type     na na_pct unique   min  mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl> <dbl> <dbl>
##  1 PassengerId  chr       0    0     8693    NA  NA      NA
##  2 HomePlanet   fct       0    0        4    NA  NA      NA
##  3 CryoSleep    fct       0    0        3    NA  NA      NA
##  4 sutun1       fct       0    0        9    NA  NA      NA
##  5 sutun2       fct       0    0     1818    NA  NA      NA
##  6 sutun3       chr     199    2.3      3    NA  NA      NA
##  7 Destination  fct       0    0        4    NA  NA      NA
##  8 Age          dbl       0    0       84     0  28.8    79
##  9 VIP          fct       0    0        3    NA  NA      NA
## 10 RoomService  dbl       0    0     1277     0 225.  14327
## 11 FoodCourt    dbl       0    0     1507     0 448.  29813
## 12 ShoppingMall dbl       0    0     1115     0 170.  23492
## 13 Spa          dbl       0    0     1327     0 305.  22408
## 14 VRDeck       dbl       0    0     1306     0 298.  24133
## 15 Transported  lgl       0    0        2     0   0.5     1

test %>% describe_all()

## # A tibble: 17 × 8
##    variable     type     na na_pct unique   min  mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl> <dbl> <dbl>
##  1 PassengerId  chr       0    0     4277    NA  NA      NA
##  2 HomePlanet   fct       0    0        4    NA  NA      NA
##  3 CryoSleep    fct       0    0        3    NA  NA      NA
##  4 sutun1       fct       0    0        9    NA  NA      NA
##  5 sutun2       fct       0    0     1506    NA  NA      NA
##  6 sutun3       chr     100    2.3      3    NA  NA      NA
##  7 Destination  fct       0    0        4    NA  NA      NA
##  8 Age          dbl      91    2.1     80     0  28.7    79
##  9 VIP          fct       0    0        3    NA  NA      NA
## 10 RoomService  dbl       0    0      846     0 219.  11567
## 11 FoodCourt    dbl       0    0      902     0 429.  25273
## 12 ShoppingMall dbl       0    0      715     0 173.   8292
## 13 Spa          dbl       0    0      833     0 296.  19844
## 14 VRDeck       dbl       0    0      796     0 305.  22272
## 15 Name         chr      94    2.2   4177    NA  NA      NA
## 16 ailenumara   chr       0    0     3063    NA  NA      NA
## 17 ailesira     chr       0    0        8    NA  NA      NA

character nedir?

Character”, İngilizce kökenli bir terim olup farklı bağlamlarda farklı anlamlara gelebilir. Genel olarak kullanıldığında, “character” kelimesi bir kişinin veya varlığın kişilik özelliklerini, davranışlarını ve değerlerini ifade eder. Ancak bu terim farklı alanlarda da farklı anlamlar taşıyabilir:

Edebiyat ve Sinema: Bir hikaye veya filmdeki karakterler, o hikayenin veya filmin yaratılmış kişileridir. Bu karakterler, yazarın veya senaristin belirlediği özelliklere, motivasyonlara ve gelişimlere sahip olabilirler. Örneğin, Harry Potter serisindeki “Harry Potter” veya “Hermione Granger” gibi karakterler edebi eserlerin karakterleridir.

Yazılı Metinlerde Kullanımı: Metinlerde kullanıldığında, “character” kelimesi bir harfi veya sembolü ifade edebilir. Örneğin, bir yazılı metinde “A”, “B”, “C” gibi harfler karakterler olarak adlandırılabilir.

Karakter kodlaması (Character Encoding): Bilgisayar biliminde, karakterlerin sayısal değerlere dönüştürülmesi ve saklanması için kullanılan sistemdir. ASCII ve Unicode gibi karakter kodlamaları yaygın olarak kullanılan örneklerdir.

Kişilik Özellikleri ve Değerler: “Good character” veya “bad character” gibi ifadelerde kullanıldığında, kişinin sahip olduğu karakter; yani dürüstlük, cesaret, adanmışlık gibi kişilik özellikleri ve değerlerdir.

Karakter Analizi: Psikolojide, “character” terimi bir kişinin davranışlarını, duygularını, düşüncelerini ve motivasyonlarını içeren kompleks bir yapıyı ifade edebilir. Karakter analizi, bu yapıyı anlamak ve tanımlamak için kullanılır.

Bu bağlamlardan hangisinin sorunuzla ilgili olduğunu belirtirseniz daha spesifik bir açıklama yapabilirim.

factor nedir?

“Factor” kelimesi, İngilizce kökenli olup farklı bağlamlarda farklı anlamlara gelebilir. İşte yaygın kullanım alanlarından bazıları:

Matematik ve İstatistik: Bir sayıyı veya terimi tam bölen bir sayı veya terimdir. Örneğin, 6’nın faktörleri 1, 2, 3 ve 6’dır çünkü bu sayılar 6’yı tam böler.

Faktör Analizi: Bu terim, özellikle sosyal bilimler ve istatistik alanlarında kullanılır. Faktör analizi, çok değişkenli veri setlerindeki değişkenler arasındaki ilişkileri inceleyen bir istatistiksel yöntemdir. Bu analiz, veri setindeki yapıyı anlamak ve daha az sayıda temel faktörü açıklamak için kullanılır.

İşletme ve Ekonomi: “Faktör” terimi, ekonomide ve işletme yönetiminde, bir sonucu etkileyen veya belirleyen unsurları ifade eder. Örneğin, ekonominin büyüme hızını etkileyen faktörler arasında tüketim harcamaları, yatırımlar ve dış ticaret dengesi gibi unsurlar sayılabilir.

Bilgisayar Bilimi: “Faktör” kelimesi, algoritmik karmaşıklığı ifade etmek için kullanılabilir. Örneğin, bir algoritmanın performansı genellikle giriş boyutunun bir fonksiyonu olarak ifade edilir ve bu faktör algoritmanın etkinliğini belirler.

Genetik: Genetik biliminde, “faktör” terimi, belirli bir özellik veya hastalığın oluşumunda rol oynayan genetik veya çevresel bileşenleri ifade eder. Örneğin, bir hastalığın oluşumunda genetik faktörlerin rolü olduğu söylenebilir.

Bağlamına bağlı olarak, “faktör” kelimesinin anlamı değişebilir. Bu nedenle, hangi alanda kullanıldığına bağlı olarak daha spesifik bir açıklama yapılabilir.

hist(train$Age)

hist(train$RoomService)

hist(train$FoodCourt)

hist(train$ShoppingMall)

hist(train$Spa)

summary(train)

##  PassengerId         HomePlanet   CryoSleep        sutun1         sutun2    
##  Length:8693        Earth :4602   FALSE:5439   F      :2794   NA     : 199  
##  Class :character   Europa:2131   TRUE :3037   G      :2559   82     :  28  
##  Mode  :character   Mars  :1759   NA   : 217   E      : 876   19     :  22  
##                     NA    : 201                B      : 779   86     :  22  
##                                                C      : 747   176    :  21  
##                                                D      : 478   56     :  21  
##                                                (Other): 460   (Other):8380  
##     sutun3                 Destination        Age           VIP      
##  Length:8693        55 Cancri e  :1800   Min.   : 0.00   FALSE:8291  
##  Class :character   PSO J318.5-22: 796   1st Qu.:20.00   TRUE : 199  
##  Mode  :character   TRAPPIST-1e  :5915   Median :27.00   NA   : 203  
##                     NA           : 182   Mean   :28.83               
##                                          3rd Qu.:37.00               
##                                          Max.   :79.00               
##                                                                      
##   RoomService        FoodCourt        ShoppingMall          Spa         
##  Min.   :    0.0   Min.   :    0.0   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :    0.0   Median :    0.0   Median :    0.0   Median :    0.0  
##  Mean   :  224.7   Mean   :  448.4   Mean   :  169.6   Mean   :  304.6  
##  3rd Qu.:   78.0   3rd Qu.:   61.0   3rd Qu.:   22.0   3rd Qu.:   53.0  
##  Max.   :14327.0   Max.   :29813.0   Max.   :23492.0   Max.   :22408.0  
##                                                                         
##      VRDeck        Transported    
##  Min.   :    0.0   Mode :logical  
##  1st Qu.:    0.0   FALSE:4315     
##  Median :    0.0   TRUE :4378     
##  Mean   :  298.3                  
##  3rd Qu.:   40.0                  
##  Max.   :24133.0                  
##

library(VIM)

## Loading required package: colorspace

## Loading required package: grid

## VIM is ready to use.

## Suggestions and bug-reports can be submitted at: https://github.com/statistikat/VIM/issues

## 
## Attaching package: 'VIM'

## The following object is masked from 'package:datasets':
## 
##     sleep

VIM::aggr(x= train, sortVars=T)

## 
##  Variables sorted by number of missings: 
##      Variable      Count
##        sutun3 0.02289198
##   PassengerId 0.00000000
##    HomePlanet 0.00000000
##     CryoSleep 0.00000000
##        sutun1 0.00000000
##        sutun2 0.00000000
##   Destination 0.00000000
##           Age 0.00000000
##           VIP 0.00000000
##   RoomService 0.00000000
##     FoodCourt 0.00000000
##  ShoppingMall 0.00000000
##           Spa 0.00000000
##        VRDeck 0.00000000
##   Transported 0.00000000

VIM::aggr(x= test, sortVars=T)

## 
##  Variables sorted by number of missings: 
##      Variable      Count
##        sutun3 0.02338087
##          Name 0.02197802
##           Age 0.02127660
##   PassengerId 0.00000000
##    HomePlanet 0.00000000
##     CryoSleep 0.00000000
##        sutun1 0.00000000
##        sutun2 0.00000000
##   Destination 0.00000000
##           VIP 0.00000000
##   RoomService 0.00000000
##     FoodCourt 0.00000000
##  ShoppingMall 0.00000000
##           Spa 0.00000000
##        VRDeck 0.00000000
##    ailenumara 0.00000000
##      ailesira 0.00000000