ILK PROJE

.R yükledik

.R Markdown başlangıç

.Web sayfası hazırlandık

.İnternete yükledik

FORMÜL

\[ F=q( E+v × B ) \]

Fransa ve Çin’in 2017-2021 arasındaki enflasyon grafiğini

library(WDI)
library(ggplot2)

enflasyon_verileri <- data.frame(
  ülke = c(rep("Erithre", 10), rep("Bangladeş", 10)),
  yıl = rep(2010:2019, 2),
  enflasyon = c(2.5, 3.0, 6.5, 3.2, 2.5, 7.0, 4.2, 2.5, 4.8, 5.0,
                1.8, 1.7, 4.9, 2.9, 2.2, 7.3, 2.5, 5.6, 2.8, 3.0)
)

grafik <- ggplot(enflasyon_verileri, aes(x = yıl, y = enflasyon, color = ülke)) +
  geom_line() +
  geom_point() +
  labs(x = "Yıl", y = "Enflasyon Oranı", color = "Ülke") +
  ggtitle("Erithre ve Bangladeş Enflasyon Oranı (2017-2021)")


print(grafik)

Makine öğrenimi

Makine öğrenmesi, bilgisayar sistemlerinin veri analizi yapabilmesi ve verilerden öğrenme süreci ile gelecekteki kararları veya tahminleri geliştirebilmesi için kullanılan bir yapay zeka dalıdır. Bu, bilgisayarların belirli bir görevi belirli bir performans ölçütü üzerinden doğrulukla gerçekleştirebilmelerini sağlar.

Makine öğrenimi genellikle iki ana kategori altında incelenir:

  1. Denetimli Öğrenme (Supervised Learning): Bu tür öğrenmede, algoritma, etiketlenmiş (labelled) veri kümesinden örnekler alır. Her örnek, girdi verileri ve ona karşılık gelen hedef çıktı (etiket) arasında ilişki kurar. Algoritma, bu ilişkiyi öğrenir ve daha sonra yeni, önceden görülmemiş girdi verileri için doğru çıktıları tahmin edebilir. Denetimli öğrenme algoritmaları, sınıflandırma (classification) ve regresyon (regression) gibi farklı türdeki problemleri çözmek için kullanılabilir.

  2. Denetimsiz Öğrenme (Unsupervised Learning): Bu türde, veriler etiketlenmemiş ve hedef çıktılar belirtilmemiştir. Algoritma, veri kümesindeki yapıyı veya ilişkileri öğrenmeye çalışır. Denetimsiz öğrenme algoritmaları, kümeleme (clustering) gibi veri gruplama veya boyut indirgeme (dimensionality reduction) gibi veri özelliklerini azaltma gibi görevler için kullanılabilir.

Makine öğrenimi, birçok farklı alanda kullanılır, örneğin:

  • Tıp: Hastalıkları teşhis etme veya tedavi seçeneklerini belirleme.
  • Finans: Hisse senedi fiyatlarını tahmin etme veya kredi riski değerlendirmesi yapma.
  • Pazarlama: Müşteri segmentasyonu veya ürün önerileri yapma.
  • Otomasyon: Robotik veya endüstriyel süreçlerde verimlilik artırma.

Makine öğrenimi, veriye dayalı karar alma süreçlerini otomatikleştirmeye ve insanların büyük miktarda veri üzerindeki karmaşıklığı anlamasına ve işlemesine yardımcı olur.

Space titanic

kaggle proje

pacehip titanic( kaggle tanınım)

Hoş geldiniz 2912 yılına, burada veri bilimi becerilerinizin bir kozmik gizemi çözmek için gerekliliği var. Dört ışık yılı uzaklıktan bir ileti aldık ve işler iyi görünmüyor.

Uzay Gemisi Titanik, bir ay önce fırlatılan bir yıldızlar arası yolcu gemisiydi. Yaklaşık 13.000 yolcusuyla gemi, güneş sistemimizden üç yakın yıldız etrafında dönen yeni yaşanabilir gezegenlere göçmenleri taşıyarak ilk seferine çıktı.

İlk hedefi olan sıcak 55 Cancri E’ye doğru rotasını sürdürürken Alfa Centauri’yi dolaşırken, dikkatsiz Uzay Gemisi Titanik, bir toz bulutunun içinde gizlenmiş bir uzay-zaman anomalisiyle çarpıştı. Ne yazık ki, isim kardeşi olan gemi, bin yıl öncekine benzer bir kaderle karşılaştı. Gemisi bütün kaldı ancak neredeyse yolcuların yarısı alternatif bir boyuta taşındı!

Kurtarma ekiplerine yardım etmek ve kayıp yolcuları kurtarmak için, geminin hasar görmüş bilgisayar sisteminden kurtarılan kayıtları kullanarak hangi yolcuların anomali tarafından taşındığını tahmin etmeniz isteniyor.

Onları kurtarın ve tarihi değiştirin!

Kovaryans nedir?

Kovaryans, istatistik ve olasılık teorisinde, iki rastgele değişken arasındaki ilişkinin ölçüsünü ifade eden bir terimdir. Özellikle, kovaryans, bu değişkenlerin birlikte nasıl değiştiğini gösterir.

Matematiksel olarak, X ve Y gibi iki rastgele değişken arasındaki kovaryans, X ve Y’nin ortalamalarından sapmaların çarpımının beklenen değeridir.

Formülü

\[ {cov} (X,Y) = \frac {\Sigma (X_i-\bar{X})(Y_i-\bar{Y})}{n-1} \]

Örnek

# Örnek veri setini oluşturalım
ziyaretci <- c(100, 150, 200, 250, 300) # Ziyaretçi sayısı
satis <- c(500, 750, 1000, 1250, 1500)   # Satış geliri

# Veri setini bir veri çerçevesine dönüştürelim
veri <- data.frame(ziyaretci, satis)

# Kovaryansı hesaplayalım
kovaryans <- cov(veri$ziyaretci, veri$satis)

# Sonucu yazdıralım
print(kovaryans)
## [1] 31250

Ortalama nedir

“Ortalama”, bir veri kümesinin genel bir temsilini belirtmek için kullanılan bir terimdir. Birçok farklı bağlamda kullanılabilir. Genellikle, bir sayı dizisinin toplamının eleman sayısına bölünmesiyle elde edilen aritmetik ortalama kastedilir. Örneğin, bir sınıftaki öğrencilerin notlarının aritmetik ortalaması, tüm notların toplanması ve bu toplamın öğrenci sayısına bölünmesiyle bulunur.

Ancak, “ortalama” terimi, bir veri kümesinin genel bir temsilini ifade eden diğer ölçümler için de kullanılabilir. Bunlar, medyan (veri kümesinin ortasındaki değer), mod (en sık tekrar eden değer) ve geometrik ortalama (sayıların çarpımının kökü) gibi ölçümleri içerebilir.

Bir konseptin ortalama değeri, genellikle o konseptin tipik veya temsil edici bir değerini sağlar. Örneğin, bir sınıfın ortalama notu, sınıftaki genel performansı temsil edebilir.

Formülü

\[ \bar{X} = \frac {\Sigma^n_i (X_i)}{n} \]

Örnek

# Öğrencilerin final notlarını içeren bir vektör oluşturalım
final_notlar <- c(85, 78, 92, 88, 95, 81, 90, 87, 84, 79)

# Aritmetik ortalama hesaplama
ortalama <- mean(final_notlar)
print(ortalama)
## [1] 85.9

Standart sapma nedir?

Standart sapma, bir veri kümesindeki değerlerin ortalama etrafında ne kadar yayıldığını ölçen bir istatistiksel ölçümdür. Bir başka deyişle, standart sapma, bir veri setinin dağılımının ne kadar değişken olduğunu ölçer.

Bir veri setindeki her bir değerin, ortalama değerden ne kadar uzaklıkta olduğunu ölçer. Bu uzaklıkların karelerinin toplamının, toplam örnek sayısının bir eksiğiyle bölünmesiyle hesaplanır. Ardından, elde edilen sonucun karekökü alınarak standart sapma bulunur.

Standart sapma, veri setindeki değerlerin ne kadar yayıldığını ölçtüğü için, daha yüksek bir standart sapma değeri, verilerin ortalama etrafında daha fazla değişkenlik gösterdiğini gösterir. Daha düşük bir standart sapma değeri ise, verilerin ortalama etrafında daha az değişkenlik gösterdiğini ifade eder.

Formülü

\[ \sigma = \sqrt \frac {\Sigma^N_i (X_i-\bar{X})^2}{N} \]

Örnek

# Örnek veri seti oluşturalım
veri <- c(12, 15, 18, 20, 22, 25, 28, 30)

# Standart sapmayı hesaplayalım
standart_sapma <- sd(veri)
print(standart_sapma)
## [1] 6.250714

Korelasyon nedir?

Korelasyon, istatistikte iki değişken arasındaki ilişkinin gücünü ve yönünü ölçen bir istatistiksel ölçümdür. Yani, korelasyon, bir değişkenin değerlerinin, diğer değişkenin değerlerine ne kadar yakın bir ilişki içinde olduğunu gösterir.

Korelasyon genellikle -1 ile +1 arasında bir değer alır.

  • Pozitif korelasyon: +1’e yaklaştıkça, iki değişken arasındaki ilişki o kadar güçlenir. Yani bir değişkenin değeri arttıkça, diğer değişkenin değeri de artar.
  • Negatif korelasyon: -1’e yaklaştıkça, iki değişken arasındaki ilişki o kadar güçlenir. Yani bir değişkenin değeri arttıkça, diğer değişkenin değeri azalır.
  • Korelasyonun 0 olması: İki değişken arasında herhangi bir ilişki olmadığını gösterir.

Korelasyon katsayısı, Pearson korelasyon katsayısı (r) olarak da adlandırılır. Pearson korelasyon katsayısı, iki değişken arasındaki ilişkiyi ölçmek için en yaygın kullanılan yöntemdir. Ancak, bu katsayı, yalnızca lineer ilişkileri ölçer. Eğer ilişki lineer olmayan bir ilişki içeriyorsa, diğer korelasyon yöntemleri kullanılabilir, bunlar arasında Spearman’s rank correlation coefficient veya Kendall’s tau coefficient gibi yöntemler bulunur.

Formülü

\[ R = \frac {\Sigma (x_i-\bar{x})(y_i-\bar{y})}{ \sqrt {\Sigma (x_i-\bar{x})^2 \Sigma (y_i-\bar{y})^2}} \]

Örnek

# İki örnek değişken oluşturalım
x <- c(10, 20, 30, 40, 50)
y <- c(15, 25, 35, 45, 55)

# Pearson korelasyon katsayısını hesaplayalım
korelasyon <- cor(x, y)
print(korelasyon)
## [1] 1

Train ve test

library(readr)
train <- read_csv("train.csv")
library(readr)
test=read_csv("test.csv")
test
## # A tibble: 4,277 × 13
##    PassengerId HomePlanet CryoSleep Cabin Destination   Age VIP   RoomService
##    <chr>       <chr>      <lgl>     <chr> <chr>       <dbl> <lgl>       <dbl>
##  1 0013_01     Earth      TRUE      G/3/S TRAPPIST-1e    27 FALSE           0
##  2 0018_01     Earth      FALSE     F/4/S TRAPPIST-1e    19 FALSE           0
##  3 0019_01     Europa     TRUE      C/0/S 55 Cancri e    31 FALSE           0
##  4 0021_01     Europa     FALSE     C/1/S TRAPPIST-1e    38 FALSE           0
##  5 0023_01     Earth      FALSE     F/5/S TRAPPIST-1e    20 FALSE          10
##  6 0027_01     Earth      FALSE     F/7/P TRAPPIST-1e    31 FALSE           0
##  7 0029_01     Europa     TRUE      B/2/P 55 Cancri e    21 FALSE           0
##  8 0032_01     Europa     TRUE      D/0/S TRAPPIST-1e    20 FALSE           0
##  9 0032_02     Europa     TRUE      D/0/S 55 Cancri e    23 FALSE           0
## 10 0033_01     Earth      FALSE     F/7/S 55 Cancri e    24 FALSE           0
## # ℹ 4,267 more rows
## # ℹ 5 more variables: FoodCourt <dbl>, ShoppingMall <dbl>, Spa <dbl>,
## #   VRDeck <dbl>, Name <chr>
train
## # A tibble: 8,693 × 14
##    PassengerId HomePlanet CryoSleep Cabin Destination     Age VIP   RoomService
##    <chr>       <chr>      <lgl>     <chr> <chr>         <dbl> <lgl>       <dbl>
##  1 0001_01     Europa     FALSE     B/0/P TRAPPIST-1e      39 FALSE           0
##  2 0002_01     Earth      FALSE     F/0/S TRAPPIST-1e      24 FALSE         109
##  3 0003_01     Europa     FALSE     A/0/S TRAPPIST-1e      58 TRUE           43
##  4 0003_02     Europa     FALSE     A/0/S TRAPPIST-1e      33 FALSE           0
##  5 0004_01     Earth      FALSE     F/1/S TRAPPIST-1e      16 FALSE         303
##  6 0005_01     Earth      FALSE     F/0/P PSO J318.5-22    44 FALSE           0
##  7 0006_01     Earth      FALSE     F/2/S TRAPPIST-1e      26 FALSE          42
##  8 0006_02     Earth      TRUE      G/0/S TRAPPIST-1e      28 FALSE           0
##  9 0007_01     Earth      FALSE     F/3/S TRAPPIST-1e      35 FALSE           0
## 10 0008_01     Europa     TRUE      B/1/P 55 Cancri e      14 FALSE           0
## # ℹ 8,683 more rows
## # ℹ 6 more variables: FoodCourt <dbl>, ShoppingMall <dbl>, Spa <dbl>,
## #   VRDeck <dbl>, Name <chr>, Transported <lgl>

Veri seti açıklama

Bu yarışmada göreviniz , Uzay Gemisi Titanik’in uzay-zaman anomalisiyle çarpışması sırasında bir yolcunun alternatif bir boyuta taşınıp taşınmadığını tahmin etmektir . Bu tahminleri yapmanıza yardımcı olmak için size geminin hasarlı bilgisayar sisteminden kurtarılan bir dizi kişisel kayıt veriliyor.

Dosya ve Veri Alanı Açıklamaları - train.csv - Yolcuların yaklaşık üçte ikisinin (~8700) kişisel kayıtları, eğitim verileri olarak kullanılacak.

  • PassengerId- Her yolcu için benzersiz bir Kimlik. Her kimlik, yolcunun birlikte seyahat ettiği grubu belirten ve grup içindeki numarası olan gggg_ppformu alır . Bir gruptaki insanlar çoğunlukla aile üyeleridir, ancak her zaman değil.ggggpp

  • HomePlanet- Yolcunun ayrıldığı gezegen, genellikle daimi ikamet ettikleri gezegen.

  • CryoSleep- Yolcunun yolculuk süresince askıya alınmış animasyona alınmayı seçip seçmediğini belirtir. Dondurucu uykudaki yolcular kabinlerine hapsedilir.

  • Cabin - Yolcunun kaldığı kabin numarası. Biçimi güverte/numara/taraf şeklindedir, taraf P (Port) için ya da S (Starboard) için olabilir..

  • Destination- Yolcunun ineceği gezegen.

  • Age- Yolcunun yaşı.

  • VIP- Yolcunun yolculuk sırasında özel VIP hizmeti için ödeme yapıp yapmadığı.

  • RoomService, FoodCourt, ShoppingMall, Spa, VRDeck- Yolcunun Uzay Gemisi Titanic’in birçok lüks olanağının her birinde fatura ettiği tutar.

  • Name- Yolcunun adı ve soyadı.

  • Transported- Yolcunun başka bir boyuta taşınıp taşınmadığı. Bu hedeftir, tahmin etmeye çalıştığınız sütundur.

Cabin üç farklı grup çıkarma

library(tidyverse)
library(explore)
train <- separate(train, Cabin, into = c("sutun1", "sutun2", "sutun3"), sep = "/", remove=FALSE)
summary(train)
##  PassengerId         HomePlanet        CryoSleep          Cabin          
##  Length:8693        Length:8693        Mode :logical   Length:8693       
##  Class :character   Class :character   FALSE:5439      Class :character  
##  Mode  :character   Mode  :character   TRUE :3037      Mode  :character  
##                                        NA's :217                         
##                                                                          
##                                                                          
##                                                                          
##     sutun1             sutun2             sutun3          Destination       
##  Length:8693        Length:8693        Length:8693        Length:8693       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##       Age           VIP           RoomService        FoodCourt      
##  Min.   : 0.00   Mode :logical   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:19.00   FALSE:8291      1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :27.00   TRUE :199       Median :    0.0   Median :    0.0  
##  Mean   :28.83   NA's :203       Mean   :  224.7   Mean   :  458.1  
##  3rd Qu.:38.00                   3rd Qu.:   47.0   3rd Qu.:   76.0  
##  Max.   :79.00                   Max.   :14327.0   Max.   :29813.0  
##  NA's   :179                     NA's   :181       NA's   :183      
##   ShoppingMall          Spa              VRDeck            Name          
##  Min.   :    0.0   Min.   :    0.0   Min.   :    0.0   Length:8693       
##  1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0   Class :character  
##  Median :    0.0   Median :    0.0   Median :    0.0   Mode  :character  
##  Mean   :  173.7   Mean   :  311.1   Mean   :  304.9                     
##  3rd Qu.:   27.0   3rd Qu.:   59.0   3rd Qu.:   46.0                     
##  Max.   :23492.0   Max.   :22408.0   Max.   :24133.0                     
##  NA's   :208       NA's   :183       NA's   :188                         
##  Transported    
##  Mode :logical  
##  FALSE:4315     
##  TRUE :4378     
##                 
##                 
##                 
## 

Train’de Boşlukları doldurulması

train=train %>% mutate_if(is.character,as.factor)
train$HomePlanet <- as.factor(train$HomePlanet)
train %>% describe_all()
## # A tibble: 17 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  fct       0    0     8693    NA  NA       NA
##  2 HomePlanet   fct     201    2.3      4    NA  NA       NA
##  3 CryoSleep    lgl     217    2.5      3     0   0.36     1
##  4 Cabin        fct     199    2.3   6561    NA  NA       NA
##  5 sutun1       fct     199    2.3      9    NA  NA       NA
##  6 sutun2       fct     199    2.3   1818    NA  NA       NA
##  7 sutun3       fct     199    2.3      3    NA  NA       NA
##  8 Destination  fct     182    2.1      4    NA  NA       NA
##  9 Age          dbl     179    2.1     81     0  28.8     79
## 10 VIP          lgl     203    2.3      3     0   0.02     1
## 11 RoomService  dbl     181    2.1   1274     0 225.   14327
## 12 FoodCourt    dbl     183    2.1   1508     0 458.   29813
## 13 ShoppingMall dbl     208    2.4   1116     0 174.   23492
## 14 Spa          dbl     183    2.1   1328     0 311.   22408
## 15 VRDeck       dbl     188    2.2   1307     0 305.   24133
## 16 Name         fct     200    2.3   8474    NA  NA       NA
## 17 Transported  lgl       0    0        2     0   0.5      1
ggplot(train, aes(x=RoomService))+
  geom_histogram()

library(mice)
VIM::aggr(x= train, sortVars=T)

## 
##  Variables sorted by number of missings: 
##      Variable      Count
##     CryoSleep 0.02496261
##  ShoppingMall 0.02392730
##           VIP 0.02335212
##    HomePlanet 0.02312205
##          Name 0.02300702
##         Cabin 0.02289198
##        sutun1 0.02289198
##        sutun2 0.02289198
##        sutun3 0.02289198
##        VRDeck 0.02162660
##     FoodCourt 0.02105142
##           Spa 0.02105142
##   Destination 0.02093639
##   RoomService 0.02082135
##           Age 0.02059128
##   PassengerId 0.00000000
##   Transported 0.00000000
md.pattern(train[1:600,])

##     PassengerId Transported VIP FoodCourt Destination Spa Name CryoSleep VRDeck
## 453           1           1   1         1           1   1    1         1      1
## 14            1           1   1         1           1   1    1         1      1
## 15            1           1   1         1           1   1    1         1      1
## 2             1           1   1         1           1   1    1         1      1
## 12            1           1   1         1           1   1    1         1      1
## 3             1           1   1         1           1   1    1         1      1
## 14            1           1   1         1           1   1    1         1      1
## 14            1           1   1         1           1   1    1         1      1
## 1             1           1   1         1           1   1    1         1      1
## 1             1           1   1         1           1   1    1         1      1
## 8             1           1   1         1           1   1    1         1      0
## 1             1           1   1         1           1   1    1         1      0
## 2             1           1   1         1           1   1    1         1      0
## 1             1           1   1         1           1   1    1         1      0
## 11            1           1   1         1           1   1    1         0      1
## 1             1           1   1         1           1   1    1         0      1
## 1             1           1   1         1           1   1    1         0      0
## 11            1           1   1         1           1   1    0         1      1
## 10            1           1   1         1           1   0    1         1      1
## 7             1           1   1         1           0   1    1         1      1
## 1             1           1   1         1           0   1    1         1      1
## 1             1           1   1         1           0   1    1         1      0
## 6             1           1   1         0           1   1    1         1      1
## 1             1           1   1         0           1   1    1         1      1
## 1             1           1   1         0           1   1    1         1      0
## 1             1           1   1         0           0   1    1         1      1
## 6             1           1   0         1           1   1    1         1      1
## 1             1           1   0         1           1   1    1         1      1
##               0           0   7         9          10  10   11        13     15
##     RoomService Cabin sutun1 sutun2 sutun3 Age HomePlanet ShoppingMall    
## 453           1     1      1      1      1   1          1            1   0
## 14            1     1      1      1      1   1          1            0   1
## 15            1     1      1      1      1   1          0            1   1
## 2             1     1      1      1      1   1          0            0   2
## 12            1     1      1      1      1   0          1            1   1
## 3             1     1      1      1      1   0          1            0   2
## 14            1     0      0      0      0   1          1            1   4
## 14            0     1      1      1      1   1          1            1   1
## 1             0     1      1      1      1   1          0            1   2
## 1             0     0      0      0      0   1          1            1   5
## 8             1     1      1      1      1   1          1            1   1
## 1             1     1      1      1      1   1          1            0   2
## 2             1     1      1      1      1   0          1            1   2
## 1             1     0      0      0      0   1          1            1   5
## 11            1     1      1      1      1   1          1            1   1
## 1             1     0      0      0      0   1          1            1   5
## 1             1     1      1      1      1   1          1            1   2
## 11            1     1      1      1      1   1          1            1   1
## 10            1     1      1      1      1   1          1            1   1
## 7             1     1      1      1      1   1          1            1   1
## 1             1     1      1      1      1   1          0            1   2
## 1             1     1      1      1      1   1          1            1   2
## 6             1     1      1      1      1   1          1            1   1
## 1             1     0      0      0      0   1          1            1   5
## 1             1     1      1      1      1   1          1            1   2
## 1             1     1      1      1      1   1          1            1   2
## 6             1     1      1      1      1   1          1            1   1
## 1             1     1      1      1      1   0          1            1   2
##              16    18     18     18     18  18         19           20 220
summary(train)
##   PassengerId    HomePlanet   CryoSleep           Cabin          sutun1    
##  0001_01:   1   Earth :4602   Mode :logical   G/734/S:   8   F      :2794  
##  0002_01:   1   Europa:2131   FALSE:5439      B/11/S :   7   G      :2559  
##  0003_01:   1   Mars  :1759   TRUE :3037      B/201/P:   7   E      : 876  
##  0003_02:   1   NA's  : 201   NA's :217       B/82/S :   7   B      : 779  
##  0004_01:   1                                 C/137/S:   7   C      : 747  
##  0005_01:   1                                 (Other):8458   (Other): 739  
##  (Other):8687                                 NA's   : 199   NA's   : 199  
##      sutun2      sutun3            Destination        Age       
##  82     :  28   P   :4206   55 Cancri e  :1800   Min.   : 0.00  
##  19     :  22   S   :4288   PSO J318.5-22: 796   1st Qu.:19.00  
##  86     :  22   NA's: 199   TRAPPIST-1e  :5915   Median :27.00  
##  176    :  21               NA's         : 182   Mean   :28.83  
##  56     :  21                                    3rd Qu.:38.00  
##  (Other):8380                                    Max.   :79.00  
##  NA's   : 199                                    NA's   :179    
##     VIP           RoomService        FoodCourt        ShoppingMall    
##  Mode :logical   Min.   :    0.0   Min.   :    0.0   Min.   :    0.0  
##  FALSE:8291      1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0  
##  TRUE :199       Median :    0.0   Median :    0.0   Median :    0.0  
##  NA's :203       Mean   :  224.7   Mean   :  458.1   Mean   :  173.7  
##                  3rd Qu.:   47.0   3rd Qu.:   76.0   3rd Qu.:   27.0  
##                  Max.   :14327.0   Max.   :29813.0   Max.   :23492.0  
##                  NA's   :181       NA's   :183       NA's   :208      
##       Spa              VRDeck                        Name      Transported    
##  Min.   :    0.0   Min.   :    0.0   Alraium Disivering:   2   Mode :logical  
##  1st Qu.:    0.0   1st Qu.:    0.0   Ankalik Nateansive:   2   FALSE:4315     
##  Median :    0.0   Median :    0.0   Anton Woody       :   2   TRUE :4378     
##  Mean   :  311.1   Mean   :  304.9   Apix Wala         :   2                  
##  3rd Qu.:   59.0   3rd Qu.:   46.0   Asch Stradick     :   2                  
##  Max.   :22408.0   Max.   :24133.0   (Other)           :8483                  
##  NA's   :183       NA's   :188       NA's              : 200
library(ggplot2)
train <- train[complete.cases(train), ]
summary(train)
##   PassengerId    HomePlanet   CryoSleep            Cabin          sutun1    
##  0001_01:   1   Earth :3566   Mode :logical   B/11/S  :   7   F      :2152  
##  0002_01:   1   Europa:1673   FALSE:4274      C/137/S :   7   G      :1973  
##  0003_01:   1   Mars  :1367   TRUE :2332      E/13/S  :   7   E      : 683  
##  0003_02:   1                                 G/1476/S:   7   B      : 628  
##  0004_01:   1                                 G/734/S :   7   C      : 587  
##  0005_01:   1                                 C/21/P  :   6   D      : 374  
##  (Other):6600                                 (Other) :6565   (Other): 209  
##      sutun2     sutun3          Destination        Age           VIP         
##  82     :  22   P:3261   55 Cancri e  :1407   Min.   : 0.00   Mode :logical  
##  56     :  19   S:3345   PSO J318.5-22: 623   1st Qu.:19.00   FALSE:6444     
##  97     :  19            TRAPPIST-1e  :4576   Median :27.00   TRUE :162      
##  176    :  18                                 Mean   :28.89                  
##  186    :  17                                 3rd Qu.:38.00                  
##  269    :  17                                 Max.   :79.00                  
##  (Other):6494                                                                
##   RoomService     FoodCourt         ShoppingMall          Spa         
##  Min.   :   0   Min.   :    0.00   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:   0   1st Qu.:    0.00   1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :   0   Median :    0.00   Median :    0.0   Median :    0.0  
##  Mean   : 223   Mean   :  478.96   Mean   :  178.4   Mean   :  313.2  
##  3rd Qu.:  49   3rd Qu.:   82.75   3rd Qu.:   30.0   3rd Qu.:   65.0  
##  Max.   :9920   Max.   :29813.00   Max.   :12253.0   Max.   :22408.0  
##                                                                       
##      VRDeck                        Name      Transported    
##  Min.   :    0.0   Alraium Disivering:   2   Mode :logical  
##  1st Qu.:    0.0   Ankalik Nateansive:   2   FALSE:3279     
##  Median :    0.0   Anton Woody       :   2   TRUE :3327     
##  Mean   :  303.8   Apix Wala         :   2                  
##  3rd Qu.:   52.0   Asch Stradick     :   2                  
##  Max.   :20336.0   Carry Contrevins  :   2                  
##                    (Other)           :6594