Veri setine erişmek için titanic sitesini ziyaret edebilirsiniz.

1.Veri Seti Hikayesi/Tanımı ve Amaçlar

Titanic veri seti, Titanic gemisinin yolcularına ait bazı bilgileri içeren bir veri setidir. Veri seti, gemide bulunan her yolcu için aşağıdaki değişkenleri içermektedir:

PassengerId: Yolcu kimlik numarası

Survived: Hayatta kalma durumu (0 = hayatta kalmadı, 1 = hayatta kaldı)

Pclass: Bilet sınıfı (1 = 1. sınıf, 2 = 2. sınıf, 3 = 3. sınıf)

Name: Yolcunun adı

Sex: Yolcunun cinsiyeti (male = erkek, female = kadın)

Age: Yolcunun yaşı

SibSp: Titanic’te bulunan kardeş/eş sayısı

Parch : Titanic’te bulunan ebeveyn/çocuk sayısı

Ticket: Bilet numarası

Fare : Yolcu ücreti

Cabin: Yolcunun kabin numarası

Embarked: Yolcunun bindiği liman (C = Cherbourg, Q = Queenstown, S = Southampton)

Bu değişkenler, Titanic veri setinde bulunan tüm sütunların tanımını oluşturur.

AMAÇ: Veri incelemesi yapıldıktan sonra uygun olan model seçilerek veri setindeki yolcuların hayatta kalma durumunu tahmin etmek

2. Kütüphanelerin Yüklenmesi

library(readr)
library(tidyr)
library(tidyverse)
library(dplyr)
library(knitr)

3. Veri Setini Yükleme

library(readr)
test <- read_csv("/home/ilke/Downloads/test.csv")
train <- read_csv("/home/ilke/Downloads/train.csv")
colnames(test)
##  [1] "PassengerId" "Pclass"      "Name"        "Sex"         "Age"        
##  [6] "SibSp"       "Parch"       "Ticket"      "Fare"        "Cabin"      
## [11] "Embarked"
colnames(train)
##  [1] "PassengerId" "Survived"    "Pclass"      "Name"        "Sex"        
##  [6] "Age"         "SibSp"       "Parch"       "Ticket"      "Fare"       
## [11] "Cabin"       "Embarked"

3.1 test-train veri setlerinin birleştirilmesi

test$Survived <- NA
#test veri setine survived sütununu ekledim.
merged_df <- merge(train, test, all = TRUE)
head(merged_df)
##   PassengerId Survived Pclass
## 1           1        0      3
## 2           2        1      1
## 3           3        1      3
## 4           4        1      1
## 5           5        0      3
## 6           6        0      3
##                                                  Name    Sex Age SibSp Parch
## 1                             Braund, Mr. Owen Harris   male  22     1     0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female  38     1     0
## 3                              Heikkinen, Miss. Laina female  26     0     0
## 4        Futrelle, Mrs. Jacques Heath (Lily May Peel) female  35     1     0
## 5                            Allen, Mr. William Henry   male  35     0     0
## 6                                    Moran, Mr. James   male  NA     0     0
##             Ticket    Fare Cabin Embarked
## 1        A/5 21171  7.2500  <NA>        S
## 2         PC 17599 71.2833   C85        C
## 3 STON/O2. 3101282  7.9250  <NA>        S
## 4           113803 53.1000  C123        S
## 5           373450  8.0500  <NA>        S
## 6           330877  8.4583  <NA>        Q
tail(merged_df)
##      PassengerId Survived Pclass                           Name    Sex  Age
## 1304        1304       NA      3 Henriksson, Miss. Jenny Lovisa female 28.0
## 1305        1305       NA      3             Spector, Mr. Woolf   male   NA
## 1306        1306       NA      1   Oliva y Ocana, Dona. Fermina female 39.0
## 1307        1307       NA      3   Saether, Mr. Simon Sivertsen   male 38.5
## 1308        1308       NA      3            Ware, Mr. Frederick   male   NA
## 1309        1309       NA      3       Peter, Master. Michael J   male   NA
##      SibSp Parch             Ticket     Fare Cabin Embarked
## 1304     0     0             347086   7.7750  <NA>        S
## 1305     0     0          A.5. 3236   8.0500  <NA>        S
## 1306     0     0           PC 17758 108.9000  C105        C
## 1307     0     0 SOTON/O.Q. 3101262   7.2500  <NA>        S
## 1308     0     0             359309   8.0500  <NA>        S
## 1309     1     1               2668  22.3583  <NA>        C
merged_df %>% 
  glimpse()
## Rows: 1,309
## Columns: 12
## $ PassengerId <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17,…
## $ Survived    <dbl> 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1…
## $ Pclass      <dbl> 3, 1, 3, 1, 3, 3, 1, 3, 3, 2, 3, 1, 3, 3, 3, 2, 3, 2, 3, 3…
## $ Name        <chr> "Braund, Mr. Owen Harris", "Cumings, Mrs. John Bradley (Fl…
## $ Sex         <chr> "male", "female", "female", "female", "male", "male", "mal…
## $ Age         <dbl> 22, 38, 26, 35, 35, NA, 54, 2, 27, 14, 4, 58, 20, 39, 14, …
## $ SibSp       <dbl> 1, 1, 0, 1, 0, 0, 0, 3, 0, 1, 1, 0, 0, 1, 0, 0, 4, 0, 1, 0…
## $ Parch       <dbl> 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 1, 0, 0, 5, 0, 0, 1, 0, 0, 0…
## $ Ticket      <chr> "A/5 21171", "PC 17599", "STON/O2. 3101282", "113803", "37…
## $ Fare        <dbl> 7.2500, 71.2833, 7.9250, 53.1000, 8.0500, 8.4583, 51.8625,…
## $ Cabin       <chr> NA, "C85", NA, "C123", NA, NA, "E46", NA, NA, NA, "G6", "C…
## $ Embarked    <chr> "S", "C", "S", "S", "S", "Q", "S", "S", "S", "C", "S", "S"…