Veri setine erişmek için titanic sitesini ziyaret edebilirsiniz.
Titanic veri seti, Titanic gemisinin yolcularına ait bazı bilgileri içeren bir veri setidir. Veri seti, gemide bulunan her yolcu için aşağıdaki değişkenleri içermektedir:
PassengerId: Yolcu kimlik numarası
Survived: Hayatta kalma durumu (0 = hayatta kalmadı, 1 = hayatta kaldı)
Pclass: Bilet sınıfı (1 = 1. sınıf, 2 = 2. sınıf, 3 = 3. sınıf)
Name: Yolcunun adı
Sex: Yolcunun cinsiyeti (male = erkek, female = kadın)
Age: Yolcunun yaşı
SibSp: Titanic’te bulunan kardeş/eş sayısı
Parch : Titanic’te bulunan ebeveyn/çocuk sayısı
Ticket: Bilet numarası
Fare : Yolcu ücreti
Cabin: Yolcunun kabin numarası
Embarked: Yolcunun bindiği liman (C = Cherbourg, Q = Queenstown, S = Southampton)
Bu değişkenler, Titanic veri setinde bulunan tüm sütunların tanımını oluşturur.
library(readr)
library(tidyr)
library(tidyverse)
library(dplyr)
library(knitr)
library(readr)
test <- read_csv("/home/ilke/Downloads/test.csv")
train <- read_csv("/home/ilke/Downloads/train.csv")
colnames(test)
## [1] "PassengerId" "Pclass" "Name" "Sex" "Age"
## [6] "SibSp" "Parch" "Ticket" "Fare" "Cabin"
## [11] "Embarked"
colnames(train)
## [1] "PassengerId" "Survived" "Pclass" "Name" "Sex"
## [6] "Age" "SibSp" "Parch" "Ticket" "Fare"
## [11] "Cabin" "Embarked"
test$Survived <- NA
#test veri setine survived sütununu ekledim.
merged_df <- merge(train, test, all = TRUE)
head(merged_df)
## PassengerId Survived Pclass
## 1 1 0 3
## 2 2 1 1
## 3 3 1 3
## 4 4 1 1
## 5 5 0 3
## 6 6 0 3
## Name Sex Age SibSp Parch
## 1 Braund, Mr. Owen Harris male 22 1 0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0
## 3 Heikkinen, Miss. Laina female 26 0 0
## 4 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0
## 5 Allen, Mr. William Henry male 35 0 0
## 6 Moran, Mr. James male NA 0 0
## Ticket Fare Cabin Embarked
## 1 A/5 21171 7.2500 <NA> S
## 2 PC 17599 71.2833 C85 C
## 3 STON/O2. 3101282 7.9250 <NA> S
## 4 113803 53.1000 C123 S
## 5 373450 8.0500 <NA> S
## 6 330877 8.4583 <NA> Q
tail(merged_df)
## PassengerId Survived Pclass Name Sex Age
## 1304 1304 NA 3 Henriksson, Miss. Jenny Lovisa female 28.0
## 1305 1305 NA 3 Spector, Mr. Woolf male NA
## 1306 1306 NA 1 Oliva y Ocana, Dona. Fermina female 39.0
## 1307 1307 NA 3 Saether, Mr. Simon Sivertsen male 38.5
## 1308 1308 NA 3 Ware, Mr. Frederick male NA
## 1309 1309 NA 3 Peter, Master. Michael J male NA
## SibSp Parch Ticket Fare Cabin Embarked
## 1304 0 0 347086 7.7750 <NA> S
## 1305 0 0 A.5. 3236 8.0500 <NA> S
## 1306 0 0 PC 17758 108.9000 C105 C
## 1307 0 0 SOTON/O.Q. 3101262 7.2500 <NA> S
## 1308 0 0 359309 8.0500 <NA> S
## 1309 1 1 2668 22.3583 <NA> C
merged_df %>%
glimpse()
## Rows: 1,309
## Columns: 12
## $ PassengerId <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17,…
## $ Survived <dbl> 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1…
## $ Pclass <dbl> 3, 1, 3, 1, 3, 3, 1, 3, 3, 2, 3, 1, 3, 3, 3, 2, 3, 2, 3, 3…
## $ Name <chr> "Braund, Mr. Owen Harris", "Cumings, Mrs. John Bradley (Fl…
## $ Sex <chr> "male", "female", "female", "female", "male", "male", "mal…
## $ Age <dbl> 22, 38, 26, 35, 35, NA, 54, 2, 27, 14, 4, 58, 20, 39, 14, …
## $ SibSp <dbl> 1, 1, 0, 1, 0, 0, 0, 3, 0, 1, 1, 0, 0, 1, 0, 0, 4, 0, 1, 0…
## $ Parch <dbl> 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 1, 0, 0, 5, 0, 0, 1, 0, 0, 0…
## $ Ticket <chr> "A/5 21171", "PC 17599", "STON/O2. 3101282", "113803", "37…
## $ Fare <dbl> 7.2500, 71.2833, 7.9250, 53.1000, 8.0500, 8.4583, 51.8625,…
## $ Cabin <chr> NA, "C85", NA, "C123", NA, NA, "E46", NA, NA, NA, "G6", "C…
## $ Embarked <chr> "S", "C", "S", "S", "S", "Q", "S", "S", "S", "C", "S", "S"…