EKONOMETRI

Öğrenci Nuraması: 2010703504

ILK PROJE

R Yüklemeyi yaptım

Rmarkdown ile başladım

Web sayfasını hazırlama yaptım

Internette yükleme yaptım

FORMUL YAZMA

\[ P=(1+i)^n \]

library(WDI)
library(ggplot2)
# ggplot2 paketini yükle
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
# ggplot2 paketini kullan
library(ggplot2)

# Verileri oluÅŸtur
yillar <- c(2019, 2020, 2021, 2022, 2023)  # Yıllar
kanada_enflasyon <- c(1.9, 0.7, 2.2, 1.5, 1.8)  # Kanada'nın yıllık enflasyon oranları
turkiye_enflasyon <- c(11.1, 14.6, 17.1, 21.3, 18.0)  # Türkiye'nin yıllık enflasyon oranları

# Veri çerçevesini oluştur 
enflasyon_verileri <- data.frame(Yil = yillar, Kanada = kanada_enflasyon, Turkiye = turkiye_enflasyon)

# Çizgi grafiğini oluştur
grafik <- ggplot(enflasyon_verileri, aes(x = Yil)) +
  geom_line(aes(y = Kanada, color = "Kanada")) +
  geom_line(aes(y = Turkiye, color = "Türkiye")) +
  labs(title = "Kanada ve Türkiye Enflasyonu (2019-2023)",
       x = "Yıl",
       y = "Enflasyon Oranı (%)") +
  scale_color_manual(values = c("Kanada" = "blue", "Türkiye" = "red")) + # Renkleri ayarla
  theme_minimal() # Tema ayarları

# Grafiği göster
print(grafik)

Makine Öğrenmsei

Makine öğrenmesi, bilgisayar sistemlerinin veri kullanarak belirli bir görevi veya problemleri öğrenmesini sağlayan bir yapay zeka alt dalıdır. Bu öğrenme süreci, belirli bir deneyime veya veri kümesine dayanarak, algoritmaların belirli bir görevi gerçekleştirmek için modeller oluşturmasını ve iyileştirmesini içerir. Makine öğrenimi genellikle üç kategoride incelenir: denetimli öğrenme, denetimsiz öğrenme ve güçlendirme öğrenmesi.

Denetimli Öğrenme: Bu yöntemde, eğitim veri seti içinde giriş ve çıkışlar arasındaki ilişkiyi öğrenen bir model oluşturulur. Model, giriş verilerinden çıkarılan özelliklerle çıktıları tahmin etmek için kullanılır. Denetimli öğrenme, sınıflandırma (bir girişin bir kategoriye atanması) ve regresyon (bir çıktının bir değere tahmin edilmesi) gibi birçok görevde kullanılabilir.

Denetimsiz Öğrenme: Bu yöntemde, veri setindeki yapıları ve ilişkileri keşfetmek için model oluşturulur. Denetimsiz öğrenme genellikle veri kümesinin karmaşıklığını azaltma, desenleri belirleme veya veriye öznitelikler atama gibi görevlerde kullanılır. Kümelenme ve boyut indirgeme gibi teknikler bu kategoriye girer.

Güçlendirme Öğrenmesi: Bu yöntemde, bir ajan belirli bir ortamda belirli bir hedefi (örneğin, maksimum ödülü) elde etmek için etkileşime girer. Ajan, çevresinden geribildirim alarak ve deneyerek öğrenir. Örneğin, bir oyun oynayan bir yapay zeka ajanı, oyun sonucunu iyileştirmek için çeşitli stratejileri öğrenir.

Kaggle Projesi

Spacehip titanic(Kaggle Tanımı)

2912 yılına hoş geldiniz, burada veri bilimi yeteneklerinizin bir kozmik gizemi çözmede gerekeceği bir yerdesiniz. Dört ışık yılı uzaktan bir ileti aldık ve durum iyi değil.

Uzay Gemisi Titanic, bir ay önce fırlatılan bir yıldızlar arası yolcu gemisiydi. Neredeyse 13.000 yolcuyla donatılmış olarak, gemi, güneş sistemimizden üç yakındaki yıldızların etrafında dönen yeni yaşanabilir dış gezegenlere göçmenleri taşıyarak ilk seyahatine çıktı.

İlk varış noktası olan sıcak 55 Cancri E’ye doğru yol alırken Alpha Centauri’yi dolaşırken, dikkatsiz Uzay Gemisi Titanic, bir toz bulutunun içinde gizlenmiş bir uzayzaman anormalliğiyle çarpıştı. Ne yazık ki, adını 1000 yıl önceki eşinden alan gemi benzer bir kaderle karşılaştı. Gemi bütünlüğünü korudu ancak neredeyse yolcuların yarısı alternatif bir boyuta taşındı!

Kurtarma ekiplerine yardım etmek ve kayıp yolcuları kurtarmak için, geminin hasar görmüş bilgisayar sisteminden kurtarılan kayıtları kullanarak anormalliğin taşıdığı yolcuları tahmin etmeniz istenmektedir.

Onları kurtarın ve tarihi değiştirin!

Ortalama nedir?

Ortalama, bir veri setinin merkezi bir ölçüsüdür. Bir veri kümesindeki değerlerin toplamının, eleman sayısına bölünmesiyle bulunur. Aritmetik ortalama en yaygın kullanılan ortalama türüdür. Örneğin, bir sınıftaki öğrencilerin notları veri kümesi olarak düşünüldüğünde, bu notların toplamı alınır ve öğrenci sayısına bölünerek sınıfın aritmetik ortalaması bulunur.

Ortalama Formülü

\[ \ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]

# Örnek bir veri kümesi oluştur
veri <- c(3, 7, 2, 9, 4, 6, 8, 5, 1)

# Veri kümesinin ortalama değerini hesapla
ortalama <- mean(veri)

# Hesaplanan ortalama değeri yazdır
print(ortalama)
## [1] 5

Standart Sapma nedir?

Standart sapma, bir veri kümesindeki değerlerin ne kadar dağıldığını veya yayıldığını ölçen istatistiksel bir ölçümdür. Bir başka deyişle, standart sapma, bir veri kümesindeki değerlerin ortalamadan ne kadar uzaklaştığını ölçer.

Standart sapma, bir veri kümesindeki her bir değerin, ortalama değerden ne kadar uzaklıkta olduğunu hesaplar. Bu farkların karelerinin toplamının, toplam veri sayısına bölünmesi ve ardından karekökünün alınmasıyla hesaplanır.

Standart Sapma Fömülü

\[ \sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}} \ \]

# Örnek bir veri kümesi oluştur
veri <- c(3, 7, 2, 9, 4, 6, 8, 5, 1)

# Veri kümesinin standart sapmasını hesapla
standart_sapma <- sd(veri)

# Hesaplanan standart sapma değerini yazdır
print(standart_sapma)
## [1] 2.738613

kovaryans nedir?

Kovaryans, iki değişken arasındaki ilişkinin ne kadar değişkenlik gösterdiğini ölçen bir istatistiksel terimdir. İki değişken arasındaki ilişkinin doğrusal olup olmadığını belirlemek için kullanılır.Kovaryans, iki değişkenin aynı anda nasıl değiştiğini ölçer. Pozitif bir kovaryans, iki değişkenin aynı yönde değiştiğini, negatif bir kovaryans ise iki değişkenin ters yönde değiştiğini gösterir. Kovaryansın mutlak değeri, iki değişken arasındaki ilişkinin gücünü gösterir. Ancak, kovaryansın değeri, ölçülen değişkenlerin birimlerine bağlıdır, bu yüzden bazen karşılaştırılması zor olabilir.

Kovaryans Förmülü

\[ \text{Cov}(X,Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) \]

# Örnek veri kümesi
x <- c(2, 3, 4, 5, 6)
y <- c(4, 5, 6, 7, 8)

# Kovaryansı hesapla
kovaryans <- cov(x, y)

# Hesaplanan kovaryansı yazdır
print(kovaryans)
## [1] 2.5

Korelasyon nedir?

Korelasyon, iki değişken arasındaki ilişkinin gücünü ve yönünü ölçen bir istatistiksel terimdir. Korelasyon, bu ilişkinin doğrusallığını ve ne kadar güçlü olduğunu belirler. Korelasyon katsayısı, -1 ile 1 arasında bir değer alır.

korelasyon Förmülü

\[ \text{corr}(X, Y) = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2 \cdot \sum_{i=1}^{n}(Y_i - \bar{Y})^2}} \ \]

### Örnek veri kümesi
x <- c(2, 3, 4, 5, 6)
y <- c(4, 5, 6, 7, 8)

# Korelasyonu hesapla
korelasyon <- cor(x, y)

# Hesaplanan korelasyonu yazdır
print(korelasyon )
## [1] 1

TRAIN VE TEST SET

Veri seti açıklaması Bu yarışmada, Uzay Gemisi Titanic’in uzayzaman anormalliği ile çarpışması sırasında bir yolcunun alternatif bir boyuta taşınıp taşınmadığını tahmin etmeniz gerekmektedir. Bu tahminleri yapmanıza yardımcı olmak için, geminin hasar görmüş bilgisayar sisteminden kurtarılan bir dizi kişisel kayıt verilmiştir.

Dosya ve Veri Alanı Açıklamaları train.csv - Yaklaşık olarak yolcuların üçte ikisi (~8700) için kişisel kayıtlar, eğitim verisi olarak kullanılacaktır. PassengerId - Her bir yolcu için benzersiz bir kimlik. Her kimlik, gggg_pp şeklinde olup, gggg yolcuyla seyahat eden grubu gösterir ve pp ise gruptaki numarasını belirtir. Bir gruptaki insanlar genellikle aile üyeleridir, ancak her zaman değil. HomePlanet - Yolcunun ayrıldığı gezegen, genellikle kalıcı ikamet gezegenleri. CryoSleep - Yolcunun yolculuk süresince askıya alınmış animasyona girmeyi seçip seçmediğini gösterir. Cryosleep’teki yolcular kabinlerine kapatılır. Cabin - Yolcunun kaldığı kabin numarası. Side, P için Port veya S için Starboard olabilen deck/num/side şeklinde alınır. Destination - Yolcunun iniş yapacağı gezegen. Age - Yolcunun yaşı. VIP - Yolcunun yolculuk sırasında özel VIP hizmeti için ödeme yapmış olup olmadığı. RoomService, FoodCourt, ShoppingMall, Spa, VRDeck - Yolcunun Uzay Gemisi Titanic’in birçok lüks olanaklarında ne kadar fatura ödediği. Name - Yolcunun adı ve soyadı. Transported - Yolcunun başka bir boyuta taşınıp taşınmadığı. Bu, tahmin etmeye çalıştığınız sütun olan hedeftir. test.csv - Geriye kalan yolcuların üçte biri (~4300) için kişisel kayıtlar, test verisi olarak kullanılacaktır. Göreviniz, bu setteki yolcular için Transported değerini tahmin etmektir. sample_submission.csv - Doğru formatta bir gönderim dosyası. PassengerId - Test setindeki her bir yolcu için kimlik. Transported - Hedef. Her yolcu için, ya True ya da False tahmini yapın.

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(readr)
train <- read_csv("train.csv")
test <- read_csv("test.csv")
train <- separate(train, PassengerId, into = c("group_id", "sequence_number"), sep = "_", remove = FALSE)
tekrarlanan_gruplar <- train %>%
  group_by(group_id) %>%
  filter(n() > 1) %>%
  pull(group_id)
train <- train %>%
  mutate(beraber_yolculuk_yapanlar = ifelse(group_id %in% tekrarlanan_gruplar, TRUE, FALSE))
train <- separate(train, Cabin, into = c("sutun1", "sutun2", "sutun3"), sep = "/", remove = FALSE)
library(explore)
train$HomePlanet <- as.factor(train$HomePlanet)
train$Destination <- as.factor(train$Destination)
summary(train)
##  PassengerId          group_id         sequence_number     HomePlanet  
##  Length:8693        Length:8693        Length:8693        Earth :4602  
##  Class :character   Class :character   Class :character   Europa:2131  
##  Mode  :character   Mode  :character   Mode  :character   Mars  :1759  
##                                                           NA's  : 201  
##                                                                        
##                                                                        
##                                                                        
##  CryoSleep          Cabin              sutun1             sutun2         
##  Mode :logical   Length:8693        Length:8693        Length:8693       
##  FALSE:5439      Class :character   Class :character   Class :character  
##  TRUE :3037      Mode  :character   Mode  :character   Mode  :character  
##  NA's :217                                                               
##                                                                          
##                                                                          
##                                                                          
##     sutun3                 Destination        Age           VIP         
##  Length:8693        55 Cancri e  :1800   Min.   : 0.00   Mode :logical  
##  Class :character   PSO J318.5-22: 796   1st Qu.:19.00   FALSE:8291     
##  Mode  :character   TRAPPIST-1e  :5915   Median :27.00   TRUE :199      
##                     NA's         : 182   Mean   :28.83   NA's :203      
##                                          3rd Qu.:38.00                  
##                                          Max.   :79.00                  
##                                          NA's   :179                    
##   RoomService        FoodCourt        ShoppingMall          Spa         
##  Min.   :    0.0   Min.   :    0.0   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :    0.0   Median :    0.0   Median :    0.0   Median :    0.0  
##  Mean   :  224.7   Mean   :  458.1   Mean   :  173.7   Mean   :  311.1  
##  3rd Qu.:   47.0   3rd Qu.:   76.0   3rd Qu.:   27.0   3rd Qu.:   59.0  
##  Max.   :14327.0   Max.   :29813.0   Max.   :23492.0   Max.   :22408.0  
##  NA's   :181       NA's   :183       NA's   :208       NA's   :183      
##      VRDeck            Name           Transported     beraber_yolculuk_yapanlar
##  Min.   :    0.0   Length:8693        Mode :logical   Mode :logical            
##  1st Qu.:    0.0   Class :character   FALSE:4315      FALSE:4805               
##  Median :    0.0   Mode  :character   TRUE :4378      TRUE :3888               
##  Mean   :  304.9                                                               
##  3rd Qu.:   46.0                                                               
##  Max.   :24133.0                                                               
##  NA's   :188
# Örnek veri çerçevesi oluşturma
df <- data.frame(
  group_id = c(1, 1, 2, 3, 4),
  homeplanet = c("A", NA, "B", "C", "A")
)

# NA değerlerini "Dünya" olarak doldurma
df$homeplanet[is.na(df$homeplanet)] <- "Dünya"

# EÄŸitim seti oluÅŸturma
training_set <- df

# Hedef değişkeni ayırma
labels <- training_set$homeplanet
training_set$homeplanet <- NULL

# EÄŸitim setini kontrol etme
print(training_set)
##   group_id
## 1        1
## 2        1
## 3        2
## 4        3
## 5        4
print(labels)
## [1] "A"     "Dünya" "B"     "C"     "A"
# Rastgele veri seti oluÅŸturma
set.seed(123) # Çalışmanın tekrarlanabilirliği için seed ayarlayalım

num_samples <- 1000  # Örneklem sayısı

# Rastgele group_id ve homeplanet sütunlarını oluşturma
group_id <- sample(1:5, num_samples, replace = TRUE)
homeplanet <- sample(c("A", "NA", "B", "C"), num_samples, replace = TRUE)

# Veri çerçevesi oluşturma
df <- data.frame(
  group_id = group_id,
  homeplanet = homeplanet
)

# NA değerlerini "Dünya" olarak değiştirme
df$homeplanet[is.na(df$homeplanet)] <- "Dünya"

# Sonuçları kontrol etme
head(df)
##   group_id homeplanet
## 1        3          B
## 2        3          C
## 3        2         NA
## 4        2          B
## 5        3          C
## 6        5          B
library(dplyr)
train <- transform(train,
                   groupId = substr(PassengerId, 1, 4),
                   PassengerNumber = substr(PassengerId, 6, nchar(PassengerId)))
train$GroupId <- duplicated(train$groupId) | duplicated(train$groupId, fromLast = TRUE)
library(tidyverse)
train$deck <- substr(train$Cabin, 1, 1)
train$num <- substring(train$Cabin, 2, nchar(train$Cabin) - 2)
train$side <- substr(train$Cabin, nchar(train$Cabin), nchar(train$Cabin))
summary(train)
##  PassengerId          group_id         sequence_number     HomePlanet  
##  Length:8693        Length:8693        Length:8693        Earth :4602  
##  Class :character   Class :character   Class :character   Europa:2131  
##  Mode  :character   Mode  :character   Mode  :character   Mars  :1759  
##                                                           NA's  : 201  
##                                                                        
##                                                                        
##                                                                        
##  CryoSleep          Cabin              sutun1             sutun2         
##  Mode :logical   Length:8693        Length:8693        Length:8693       
##  FALSE:5439      Class :character   Class :character   Class :character  
##  TRUE :3037      Mode  :character   Mode  :character   Mode  :character  
##  NA's :217                                                               
##                                                                          
##                                                                          
##                                                                          
##     sutun3                 Destination        Age           VIP         
##  Length:8693        55 Cancri e  :1800   Min.   : 0.00   Mode :logical  
##  Class :character   PSO J318.5-22: 796   1st Qu.:19.00   FALSE:8291     
##  Mode  :character   TRAPPIST-1e  :5915   Median :27.00   TRUE :199      
##                     NA's         : 182   Mean   :28.83   NA's :203      
##                                          3rd Qu.:38.00                  
##                                          Max.   :79.00                  
##                                          NA's   :179                    
##   RoomService        FoodCourt        ShoppingMall          Spa         
##  Min.   :    0.0   Min.   :    0.0   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :    0.0   Median :    0.0   Median :    0.0   Median :    0.0  
##  Mean   :  224.7   Mean   :  458.1   Mean   :  173.7   Mean   :  311.1  
##  3rd Qu.:   47.0   3rd Qu.:   76.0   3rd Qu.:   27.0   3rd Qu.:   59.0  
##  Max.   :14327.0   Max.   :29813.0   Max.   :23492.0   Max.   :22408.0  
##  NA's   :181       NA's   :183       NA's   :208       NA's   :183      
##      VRDeck            Name           Transported     beraber_yolculuk_yapanlar
##  Min.   :    0.0   Length:8693        Mode :logical   Mode :logical            
##  1st Qu.:    0.0   Class :character   FALSE:4315      FALSE:4805               
##  Median :    0.0   Mode  :character   TRUE :4378      TRUE :3888               
##  Mean   :  304.9                                                               
##  3rd Qu.:   46.0                                                               
##  Max.   :24133.0                                                               
##  NA's   :188                                                                   
##    groupId          PassengerNumber     GroupId            deck          
##  Length:8693        Length:8693        Mode :logical   Length:8693       
##  Class :character   Class :character   FALSE:4805      Class :character  
##  Mode  :character   Mode  :character   TRUE :3888      Mode  :character  
##                                                                          
##                                                                          
##                                                                          
##                                                                          
##      num                side          
##  Length:8693        Length:8693       
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
##                                       
## 
train$HomePlanet <- as.factor(train$HomePlanet)
train <- train %>%
  group_by(PassengerNumber) %>%
  mutate(homeplanet = ifelse(is.na(HomePlanet), unique(HomePlanet[!is.na(HomePlanet)]),HomePlanet))
summary(train)
##  PassengerId          group_id         sequence_number     HomePlanet  
##  Length:8693        Length:8693        Length:8693        Earth :4602  
##  Class :character   Class :character   Class :character   Europa:2131  
##  Mode  :character   Mode  :character   Mode  :character   Mars  :1759  
##                                                           NA's  : 201  
##                                                                        
##                                                                        
##                                                                        
##  CryoSleep          Cabin              sutun1             sutun2         
##  Mode :logical   Length:8693        Length:8693        Length:8693       
##  FALSE:5439      Class :character   Class :character   Class :character  
##  TRUE :3037      Mode  :character   Mode  :character   Mode  :character  
##  NA's :217                                                               
##                                                                          
##                                                                          
##                                                                          
##     sutun3                 Destination        Age           VIP         
##  Length:8693        55 Cancri e  :1800   Min.   : 0.00   Mode :logical  
##  Class :character   PSO J318.5-22: 796   1st Qu.:19.00   FALSE:8291     
##  Mode  :character   TRAPPIST-1e  :5915   Median :27.00   TRUE :199      
##                     NA's         : 182   Mean   :28.83   NA's :203      
##                                          3rd Qu.:38.00                  
##                                          Max.   :79.00                  
##                                          NA's   :179                    
##   RoomService        FoodCourt        ShoppingMall          Spa         
##  Min.   :    0.0   Min.   :    0.0   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :    0.0   Median :    0.0   Median :    0.0   Median :    0.0  
##  Mean   :  224.7   Mean   :  458.1   Mean   :  173.7   Mean   :  311.1  
##  3rd Qu.:   47.0   3rd Qu.:   76.0   3rd Qu.:   27.0   3rd Qu.:   59.0  
##  Max.   :14327.0   Max.   :29813.0   Max.   :23492.0   Max.   :22408.0  
##  NA's   :181       NA's   :183       NA's   :208       NA's   :183      
##      VRDeck            Name           Transported     beraber_yolculuk_yapanlar
##  Min.   :    0.0   Length:8693        Mode :logical   Mode :logical            
##  1st Qu.:    0.0   Class :character   FALSE:4315      FALSE:4805               
##  Median :    0.0   Mode  :character   TRUE :4378      TRUE :3888               
##  Mean   :  304.9                                                               
##  3rd Qu.:   46.0                                                               
##  Max.   :24133.0                                                               
##  NA's   :188                                                                   
##    groupId          PassengerNumber     GroupId            deck          
##  Length:8693        Length:8693        Mode :logical   Length:8693       
##  Class :character   Class :character   FALSE:4805      Class :character  
##  Mode  :character   Mode  :character   TRUE :3888      Mode  :character  
##                                                                          
##                                                                          
##                                                                          
##                                                                          
##      num                side             homeplanet   
##  Length:8693        Length:8693        Min.   :1.000  
##  Class :character   Class :character   1st Qu.:1.000  
##  Mode  :character   Mode  :character   Median :1.000  
##                                        Mean   :1.673  
##                                        3rd Qu.:2.000  
##                                        Max.   :3.000  
## 
hist(train$FoodCourt)

hist(train$RoomService)

hist(train$Age)

 hist(train$Spa)

test <- transform(test,
                   groupId = substr(PassengerId, 1, 4),
                   PassengerNumber = substr(PassengerId, 6, nchar(PassengerId)))
test$GroupId <- duplicated(test$groupId) | duplicated(test$groupId, fromLast = TRUE)
test$deck <- substr(test$Cabin, 1, 1)
test$num <- substring(test$Cabin, 2, nchar(test$Cabin) - 2)
test$side <- substr(test$Cabin, nchar(test$Cabin), nchar(test$Cabin))
summary(test)
##  PassengerId         HomePlanet        CryoSleep          Cabin          
##  Length:4277        Length:4277        Mode :logical   Length:4277       
##  Class :character   Class :character   FALSE:2640      Class :character  
##  Mode  :character   Mode  :character   TRUE :1544      Mode  :character  
##                                        NA's :93                          
##                                                                          
##                                                                          
##                                                                          
##  Destination             Age           VIP           RoomService     
##  Length:4277        Min.   : 0.00   Mode :logical   Min.   :    0.0  
##  Class :character   1st Qu.:19.00   FALSE:4110      1st Qu.:    0.0  
##  Mode  :character   Median :26.00   TRUE :74        Median :    0.0  
##                     Mean   :28.66   NA's :93        Mean   :  219.3  
##                     3rd Qu.:37.00                   3rd Qu.:   53.0  
##                     Max.   :79.00                   Max.   :11567.0  
##                     NA's   :91                      NA's   :82       
##    FoodCourt        ShoppingMall         Spa              VRDeck       
##  Min.   :    0.0   Min.   :   0.0   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:    0.0   1st Qu.:   0.0   1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :    0.0   Median :   0.0   Median :    0.0   Median :    0.0  
##  Mean   :  439.5   Mean   : 177.3   Mean   :  303.1   Mean   :  310.7  
##  3rd Qu.:   78.0   3rd Qu.:  33.0   3rd Qu.:   50.0   3rd Qu.:   36.0  
##  Max.   :25273.0   Max.   :8292.0   Max.   :19844.0   Max.   :22272.0  
##  NA's   :106       NA's   :98       NA's   :101       NA's   :80       
##      Name             groupId          PassengerNumber     GroupId       
##  Length:4277        Length:4277        Length:4277        Mode :logical  
##  Class :character   Class :character   Class :character   FALSE:2340     
##  Mode  :character   Mode  :character   Mode  :character   TRUE :1937     
##                                                                          
##                                                                          
##                                                                          
##                                                                          
##      deck               num                side          
##  Length:4277        Length:4277        Length:4277       
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##                                                          
##                                                          
## 
test$HomePlanet <- as.factor(test$HomePlanet)
test <- test %>%
  group_by(PassengerNumber) %>%
  mutate(homeplanet = ifelse(is.na(HomePlanet), unique(HomePlanet[!is.na(HomePlanet)]),HomePlanet))
summary(test)
##  PassengerId         HomePlanet   CryoSleep          Cabin          
##  Length:4277        Earth :2263   Mode :logical   Length:4277       
##  Class :character   Europa:1002   FALSE:2640      Class :character  
##  Mode  :character   Mars  : 925   TRUE :1544      Mode  :character  
##                     NA's  :  87   NA's :93                          
##                                                                     
##                                                                     
##                                                                     
##  Destination             Age           VIP           RoomService     
##  Length:4277        Min.   : 0.00   Mode :logical   Min.   :    0.0  
##  Class :character   1st Qu.:19.00   FALSE:4110      1st Qu.:    0.0  
##  Mode  :character   Median :26.00   TRUE :74        Median :    0.0  
##                     Mean   :28.66   NA's :93        Mean   :  219.3  
##                     3rd Qu.:37.00                   3rd Qu.:   53.0  
##                     Max.   :79.00                   Max.   :11567.0  
##                     NA's   :91                      NA's   :82       
##    FoodCourt        ShoppingMall         Spa              VRDeck       
##  Min.   :    0.0   Min.   :   0.0   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:    0.0   1st Qu.:   0.0   1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :    0.0   Median :   0.0   Median :    0.0   Median :    0.0  
##  Mean   :  439.5   Mean   : 177.3   Mean   :  303.1   Mean   :  310.7  
##  3rd Qu.:   78.0   3rd Qu.:  33.0   3rd Qu.:   50.0   3rd Qu.:   36.0  
##  Max.   :25273.0   Max.   :8292.0   Max.   :19844.0   Max.   :22272.0  
##  NA's   :106       NA's   :98       NA's   :101       NA's   :80       
##      Name             groupId          PassengerNumber     GroupId       
##  Length:4277        Length:4277        Length:4277        Mode :logical  
##  Class :character   Class :character   Class :character   FALSE:2340     
##  Mode  :character   Mode  :character   Mode  :character   TRUE :1937     
##                                                                          
##                                                                          
##                                                                          
##                                                                          
##      deck               num                side             homeplanet   
##  Length:4277        Length:4277        Length:4277        Min.   :1.000  
##  Class :character   Class :character   Class :character   1st Qu.:1.000  
##  Mode  :character   Mode  :character   Mode  :character   Median :1.000  
##                                                           Mean   :1.687  
##                                                           3rd Qu.:2.000  
##                                                           Max.   :3.000  
## 
hist(test$FoodCourt)

hist(test$RoomService)

hist(test$Age)

hist(test$Spa)