EKONOMETRI PROJESI

ilk proje

. R yükleme

. Rmarkdown başlangıç

. Web sayfasını hazırlama

. internet yükleme

Formül yazma

\[ x=1 y<-2 z<-x+y A=(x^2)+(2*y)+(z) B<-x*x +2*y+z \]

\[ x=\frac{-b±\sqrt{b^2-4ac}}{2a} \]

\[ \sigma^2=\frac{1}{n}\sum_{i=1}^{n} (i_1-\bar{x})^2 \]

library(WDI)

## Warning: le package 'WDI' a été compilé avec la version R 4.3.3

library(ggplot2)

## Warning: le package 'ggplot2' a été compilé avec la version R 4.3.3

# Gerekli kütüphaneleri yükleyin
library(ggplot2)

# Veri çerçevesini oluşturun (örnek veriler)
years <- 2011:2021
turkey_inflation <- c(64.86, 67.07, 69.1, 71.12, 72.89, 67.07, 64.86, 65.74, 67.07, 64.86, 67.07)
canada_inflation <- c(2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9)

# Veri çerçevesini oluşturun
inflation_data <- data.frame(Year = years, Turkey = turkey_inflation, Canada = canada_inflation)

# Çizim
ggplot(inflation_data, aes(x = Year)) +
  geom_line(aes(y = Turkey, color = "Turkey"), size = 1) +
  geom_line(aes(y = Canada, color = "Canada"), size = 1) +
  labs(title = "Türkiye ve Kanada Enflasyonu (2011-2021)",
       x = "Yıl",
       y = "Enflasyon Oranı",
       color = "Ülke") +
  theme_minimal()

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Makine öğrenmesi Açıklayın

Tanım: Makine öğrenmesi, bilgisayarları verilerden öğrenmeyi öğretmeye ve bunu yapmak için açıkça programlanmak yerine deneyimle geliştirmeye odaklanır. Algoritmalar büyük veri kümelerinde desenleri ve korelasyonları bulmak ve bu analize dayalı en iyi kararları ve tahminleri yapmak için eğitilir. Makine öğrenmesi uygulamaları kullanımla gelişir ve daha fazla veri erişimi olduğunda daha doğru hale gelir.

Yapay zekâ

Yapay Zeka ile İlişkisi: Makine öğrenmesi, yapay zekanın (AI) bir alt kümesidir. Yapay zeka, verileri işleyerek kararlar ve tahminler yapar. Makine öğrenmesi algoritmaları ise bu verileri işlemesine gerek kalmadan daha akıllı bir şekilde öğrenmesini ve sonuçlar elde etmesini sağlar.

Derin öğrenme

Derin Öğrenme: Derin öğrenme, nöral ağların birçok katmanını ve büyük hacimli karmaşık verileri içerdiği için “derin” olarak adlandırılır. Bu tür makine öğrenimi, konuşma tanıma, görüntü sınıflandırması ve eczacılık analizi gibi uygulamalarda kullanılır.

Kaggle Projesi

Spacehip Titanic (Kaggle Taıtımı)

Hoş geldiniz 2912 yılına, burada veri bilimi yeteneklerinizin bir kozmik gizemi çözmek için gerektiği bir yerdesiniz. Dört ışık yılı uzaktan bir ileti aldık ve durum pek iç açıcı değil.

Uzay Gemisi Titanic, bir ay önce fırlatılan yıldızlar arası bir yolcu gemisiydi. Yaklaşık 13,000 yolcuyla donatılmış olarak, gemi, güneş sistemimizden ayrılarak, yakındaki yıldızlar etrafında dönen üç yeni yaşanabilir ötegezegenine göçmen taşıyan ilk seferine çıktı.

Alpha Centauri’yi dönerken ilk varış noktasına - kavurucu 55 Cancri E’ye - ulaşma yolunda, dikkatsiz Uzay Gemisi Titanic, bir toz bulutu içinde gizlenmiş bir uzay-zaman anormalliği ile çarpıştı. Maalesef, bin yıl öncesinin adını taşıyan gemi gibi benzer bir kaderi paylaştı. Gemisi sağlam kalsa da, yolcuların neredeyse yarısı alternatif bir boyuta taşındı!

Kurtarma ekiplerine yardımcı olmak ve kaybolan yolcuları kurtarmak için, sizi geminin hasar görmüş bilgisayar sisteminden kurtarılan kayıtları kullanarak anomali tarafından taşınan hangi yolcuların olduğunu tahmin etmeye çağırıyoruz.

Onları kurtarmaya yardımcı olun ve tarihi değiştirin!

Ortalama, standart sapma, kovaryans ve korelasyon nedir?

. Formüllerini yazın -Örnek yazın . Örneği çözün

Ortalama

Ortalama, istatistik bilim dalında ve veri analizinde kullanılan bir veri dizisinin orta konumunu, tek bir sayı ile ifade eden betimsel istatistik ölçüsüdür. Günlük hayatta ortalama dendiğinde genellikle kast edilen aritmetik ortalama olmakla beraber, matematik ve istatistikte farklı merkezsel konum ölçüleri de kullanılır. İşte bazı ortalama tipleri:

Aritmetik Ortalama: Bir veri dizisinin elemanlarının toplamının eleman sayısına bölünmesiyle elde edilir. Bu ölçüm sıkça kullanılır, ancak bazı eksik yönleri vardır. Özellikle verilerin ölçülme ölçeğinin aralıklı veya oransal olması gerekir. İsimsel ölçekli veriler için aritmetik ortalama anlamsızdır. Medyan (Ortanca): Veri dizisini sıraladığımızda ortadaki değeri ifade eder. Eğer veri sayısı çiftse, ortadaki iki değerin aritmetik ortalaması alınır. Mod (Tepedeğer): Veri dizisinde en sık tekrar eden değeri ifade eder. Mod, kategorik verilerde de kullanılır. Geometrik Ortalama: Çarpma işlemi ile hesaplanır ve genellikle oranlarla ilgili verilerde kullanılır. Harmonik Ortalama: Ters oranların aritmetik ortalamasıdır ve özellikle hız, zaman ve oranlarla ilgili problemlerde kullanılır.

standart sapma

Standart sapma, bir veri grubundaki sayıların aritmetik ortalamaya göre nasıl bir yayılım gösterdiğini ölçen bir yöntemdir. Bu istatistiksel kavram, veri grubundaki elemanların aritmetik ortalamaya yakınlığını veya uzaklığını ifade eder. İki farklı veri grubunun aritmetik ortalaması aynı ise, açıklığı büyük olanın standart sapması büyük, küçük olanın ise standart sapması küçük olur. Standart sapma, veri grubundaki değerlerin dağılımını anlamamıza yardımcı olur.

Standart sapma hesaplamak için aşağıdaki adımları izleriz:

Veri grubunun aritmetik ortalaması bulunur. Her bir sayının aritmetik ortalama ile arasındaki fark hesaplanır. Her bir sayının aritmetik ortalamadan farkının karesi alınır. Farkların kareleri toplanır. Toplamın sonucu, veri grubundaki sayı adetini bir eksiğine bölünür. Çıkan sonucun karekökü alınır.

Kovaryans

Kovaryans, iki rastgele değişkenin birlikte ne kadar değiştiklerinin ölçüsüdür. İki değişken arasındaki doğrusal ilişkinin değişkenliğini ifade eder. Kovaryansın işareti, değişkenler arasındaki doğrusal ilişki eğilimini gösterir. İşte daha detaylı bilgi:

Tanım: Kovaryans, iki rastgele değişkenin beraber değişimlerini inceleyen bir istatistiktir. Özel bir durum olarak, iki değişken birbirine özdeşse, kovaryans o tek özdeş değişkenin varyansı olur. İki değişkenin birbirine benzer (eş) işlevli olması kovaryant; iki değişkenin birbirine zıt işlevli olması kontravaryant olarak ifade edilir 1. İşaret ve İlişki: Kovaryansın işareti, değişkenler arasındaki doğrusal ilişki eğilimini gösterir. Pozitif kovaryans, değişkenlerin benzer davranış gösterme eğiliminde olduğunu ifade eder. Negatif kovaryans ise değişkenlerin zıt davranış gösterme eğiliminde olduğunu gösterir. Büyüklük: Kovaryansın büyüklüğü, iki rastgele değişken için ortak olan varyansların geometrik ortalamasıdır.

Korelasyon: Korelasyon katsayısı, iki rastgele değişken için toplam varyansların geometrik ortalamasına bölünerek kovaryansı normalleştirir. Korelasyon, kovaryansın boyutsuz bir ölçüsüdür ve iki değişken arasındaki ilişkinin gücünü ifade eder 2. Kovaryans, istatistikte önemli bir kavramdır ve değişkenler arasındaki ilişkiyi anlamak için kullanılır.

korelasyon

Korelasyon, iki veya daha fazla değişken arasındaki ilişkiyi ölçen istatistiksel bir kavramdır. Bu ilişki, değişkenlerin birlikte nasıl değiştiğini veya birbirlerini nasıl etkilediğini gösterir. Korelasyon, bu ilişkinin gücünü ve yönünü belirlememize yardımcı olur

Korelasyon Katsayısı: Korelasyon katsayısı, iki değişken arasındaki ilişkinin derecesini ifade eder. Değişkenler arasındaki ilişkiyi anlamak için kullanılır. Korelasyon katsayısı, -1 ile +1 arasında değer alır: Pozitif (+) korelasyon, değişkenlerin benzer davranış gösterme eğiliminde olduğunu ifade eder. Negatif (-) korelasyon, değişkenlerin zıt davranış gösterme eğiliminde olduğunu gösterir. 0 korelasyon ise iki değişken arasında herhangi bir ilişki olmadığını ifade eder.

Korelasyon, ekonomiden bilime, pazarlamadan tıbba kadar birçok endüstride kullanılır. Ancak unutulmamalıdır ki korelasyon, iki değişken arasında sebep-sonuç ilişkisi olmadan da yüksek bir değer çıkabilir. Bu nedenle araştırmacının modelini sağlam kurması önemlidir.

Ortalama-Formülü-Örneği-Çözümü

\[ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]

\[ \bar{x} =\frac{\sum_{i=1}^{n}( 10+20+30+40+50)}{5}=30 \]

\[ \bar{y} = \frac{\sum_{i=1}^{n}( 12+14+25+60+70)}{5}=36,2 \]

# Örnek veri oluşturma
veri <- c(10, 20, 30, 40, 50)

# Verinin ortalamasını hesaplama
ortalama <- mean(veri)

# Sonucu ekrana yazdırma
print(ortalama)

## [1] 30

Standart sapma -Formülü-Örneği-Çözümü

\[\sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n}} \]

\[\sigma =\sqrt{\frac{\sum_{i=1}^{n}( 10-30)^2+( 20-30)^2+( 30-30)^2+( 40-30)^2+( 50-30)^2}{5}} \]

\[\sigma= \sqrt4.9799598392 \]

# Örnek veri oluşturma
veri <- c(23, 45, 56, 34, 67, 32, 55, 21, 44)

# Standart sapma hesaplama
standart_sapma <- sd(veri)
print(standart_sapma)

## [1] 15.68793

Kovaryans -Formülü-Örneği-Çözümü

\[ \text{cov}(X, Y) = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{n} \] \[ \text{cov}(X, Y) = \frac{\sum_{i=1}^{n}((10- 30)+(20- 30)+(30- 30)+(40- 30)+(50- 30))(12-36.2)+(14-36.2)+(25-36.2)+(60-36.2)+(70-36.2))}{5}=4,84 \] \[\text{cov}(X, Y) = 4,84 \]

# Örnek veri setini oluşturalım
x <- c(1, 2, 3, 4, 5)  # Birinci değişken
y <- c(3, 4, 2, 5, 1)  # İkinci değişken

# Kovaryansı hesaplayalım
covariance <- cov(x, y)
print(covariance)

## [1] -0.75

Korelasyon-Formülü-Örneği-Çözümü

\[ \text{corr}(X, Y) = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2 \cdot \sum_{i=1}^{n}(Y_i -\bar{Y})^2}} \]

\[ \text{corr}(X, Y) = \frac{\sum_{i=1}^{n}(((10- 30)+(20- 30)+(30- 30)+(40- 30)+(50- 30))(12-36.2)+(14-36.2)+(25-36.2)+(60-36.2)+(70-36.2)))}{\sqrt{\sum_{i=1}^{n} (10-30)^2+( 20-30)^2+( 30-30)^2+( 40-30)^2+( 50-30)^2 \sum_{i=1}^{n}(12-36.2)^2+(14-36.2)^2+(25-36.2)^2+(60-36.2^2)+(70-36.2)^2}} \]

\[ \text{corr}(X, Y) = 0,0951755326 \]

# Iris veri setini yükle
data(iris)

# Korelasyon matrisini hesapla
correlation_matrix <- cor(iris[, 1:4])

# Korelasyon matrisini göster
print(correlation_matrix)

##              Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
## Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259
## Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
## Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000

library(dplyr)

## Warning: le package 'dplyr' a été compilé avec la version R 4.3.3

## 
## Attachement du package : 'dplyr'

## Les objets suivants sont masqués depuis 'package:stats':
## 
##     filter, lag

## Les objets suivants sont masqués depuis 'package:base':
## 
##     intersect, setdiff, setequal, union

TRAIN VE TEST NEDIR?

Makine öğrenmesinde, veri setlerini eğitim ve test alt kümelerine ayırmak önemlidir. İşte bu kavramların anlamları:

Train Veri Seti: Eğitim veri seti olarak da bilinir. Temel modelleme denemeleri yapmak için kullanılır. En doğru makine öğrenmesi algoritması seçilmeye çalışılır. Bu veri seti, en fazla örneklem alınan gözlemlerden oluşur. Genellikle veri setinin %60 ila %90’ı arasında bir bölümü eğitim için ayrılır.

Validation (Doğrulama) Veri Seti: Eğitim veri seti içinden seçilir. Model seçimi ve algoritma belirleme amacıyla kullanılır. Hiper parametre ayarları ve model iyileştirmeleri bu veri seti üzerinde yapılır. Özellikle büyük veri setlerinde sürekli eğitim verisi üzerinde çalışmak mümkün olmadığından küçük bir bölüm validation olarak ayrılır. Test Veri Seti: Validation verisinin yer aldığı eğitim veri setinden kalan bölüme denir. Modelin gerçek dünya verilerine ne kadar iyi uyum sağlayabileceğini test etmek için kullanılır. Daha önce eğitim veri seti üzerinden öğrenilmiş makine öğrenmesi modeli bu veri seti üzerinde uygulanır. Bu ayrılmış alt kümeler sayesinde, modelin performansını objektif bir şekilde değerlendirebiliriz.

library(readr)

## Warning: le package 'readr' a été compilé avec la version R 4.3.3

test <- read_csv("test.csv")

## Rows: 4277 Columns: 13
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (2): CryoSleep, VIP
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

library(readr)
train <- read_csv("train.csv")

## Rows: 8693 Columns: 14
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (3): CryoSleep, VIP, Transported
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

View(train)

library(rmarkdown)

paged_table(train)

paged_table(test)

hist(train$Age)

library(readr)

train=read_csv("train.csv")

test=read_csv("test.csv")

library(explore)

## Warning: le package 'explore' a été compilé avec la version R 4.3.3

train

## # A tibble: 8,693 × 14
##    PassengerId HomePlanet CryoSleep Cabin Destination     Age VIP   RoomService
##    <chr>       <chr>      <lgl>     <chr> <chr>         <dbl> <lgl>       <dbl>
##  1 0001_01     Europa     FALSE     B/0/P TRAPPIST-1e      39 FALSE           0
##  2 0002_01     Earth      FALSE     F/0/S TRAPPIST-1e      24 FALSE         109
##  3 0003_01     Europa     FALSE     A/0/S TRAPPIST-1e      58 TRUE           43
##  4 0003_02     Europa     FALSE     A/0/S TRAPPIST-1e      33 FALSE           0
##  5 0004_01     Earth      FALSE     F/1/S TRAPPIST-1e      16 FALSE         303
##  6 0005_01     Earth      FALSE     F/0/P PSO J318.5-22    44 FALSE           0
##  7 0006_01     Earth      FALSE     F/2/S TRAPPIST-1e      26 FALSE          42
##  8 0006_02     Earth      TRUE      G/0/S TRAPPIST-1e      28 FALSE           0
##  9 0007_01     Earth      FALSE     F/3/S TRAPPIST-1e      35 FALSE           0
## 10 0008_01     Europa     TRUE      B/1/P 55 Cancri e      14 FALSE           0
## # ℹ 8,683 more rows
## # ℹ 6 more variables: FoodCourt <dbl>, ShoppingMall <dbl>, Spa <dbl>,
## #   VRDeck <dbl>, Name <chr>, Transported <lgl>

hist(train$RoomService)

test

## # A tibble: 4,277 × 13
##    PassengerId HomePlanet CryoSleep Cabin Destination   Age VIP   RoomService
##    <chr>       <chr>      <lgl>     <chr> <chr>       <dbl> <lgl>       <dbl>
##  1 0013_01     Earth      TRUE      G/3/S TRAPPIST-1e    27 FALSE           0
##  2 0018_01     Earth      FALSE     F/4/S TRAPPIST-1e    19 FALSE           0
##  3 0019_01     Europa     TRUE      C/0/S 55 Cancri e    31 FALSE           0
##  4 0021_01     Europa     FALSE     C/1/S TRAPPIST-1e    38 FALSE           0
##  5 0023_01     Earth      FALSE     F/5/S TRAPPIST-1e    20 FALSE          10
##  6 0027_01     Earth      FALSE     F/7/P TRAPPIST-1e    31 FALSE           0
##  7 0029_01     Europa     TRUE      B/2/P 55 Cancri e    21 FALSE           0
##  8 0032_01     Europa     TRUE      D/0/S TRAPPIST-1e    20 FALSE           0
##  9 0032_02     Europa     TRUE      D/0/S 55 Cancri e    23 FALSE           0
## 10 0033_01     Earth      FALSE     F/7/S 55 Cancri e    24 FALSE           0
## # ℹ 4,267 more rows
## # ℹ 5 more variables: FoodCourt <dbl>, ShoppingMall <dbl>, Spa <dbl>,
## #   VRDeck <dbl>, Name <chr>

library(tidyverse)

## Warning: le package 'tidyverse' a été compilé avec la version R 4.3.3

## Warning: le package 'tibble' a été compilé avec la version R 4.3.3

## Warning: le package 'tidyr' a été compilé avec la version R 4.3.3

## Warning: le package 'purrr' a été compilé avec la version R 4.3.3

## Warning: le package 'forcats' a été compilé avec la version R 4.3.3

## Warning: le package 'lubridate' a été compilé avec la version R 4.3.3

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

Character nedir

character veri türü, metin veya dize degerlerini temsil etmek için kullanilir. Bu veri türü, R’de metinleri depolamak için kullanlir. Metinler, R’de string olarak da bilinir. Verileri karakter formatinda saklamak için en basit yöntem, metin parçasinin etrafina çift tirnak isareti () koymaktir.

Factor nedir

Studio kullanirken “factor”, verileri kategorize etmek ve sinirli sayida farkli degeri depolamak icin kullanilan bir veri türüdür. Bu veri türü, hem metin hem de tamsayi verilerini seviyeler olarak depolar. Yani, “factor”, kategorik bir degisken olarak da bilinir ve belirli bir sayida benzersiz degeri olan sütunlarda kullanislidir.

• Örnegin, medeni durum gibi bir veri alan sadece “bekar”, “evii”, “ayrilmis”, “bosanmis” veya “dul” gibi degerleri icerebilir. Bu tür verileri “factor” olarak saklamak, analizlerde ve grafiklerde kullanmak için uygundur.

library(ggplot2)

summary(veri)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   21.00   32.00   44.00   41.89   55.00   67.00

Veri seti açıklayın

Bu yarışmada göreviniz , Uzay Gemisi Titanik’in uzay-zaman anomalisiyle çarpışması sırasında bir yolcunun alternatif bir boyuta taşınıp taşınmadığını tahmin etmektir . Bu tahminleri yapmanıza yardımcı olmak için size geminin hasarlı bilgisayar sisteminden kurtarılan bir dizi kişisel kayıt veriliyor.

Dosya ve Veri Alanı Açıklamaları

train.csv - Yolcuların yaklaşık üçte ikisinin (~8700) kişisel kayıtları, eğitim verileri olarak kullanılacak.

PassengerId- Her yolcu için benzersiz bir Kimlik. Her kimlik, yolcunun birlikte seyahat ettiği grubu belirten ve grup içindeki numarası olan gggg_ppformu alır . Bir gruptaki insanlar çoğunlukla aile üyeleridir, ancak her zaman değil.ggggpp.

HomePlanet- Yolcunun ayrıldığı gezegen, genellikle daimi ikamet ettikleri gezegen.

CryoSleep- Yolcunun yolculuk süresince askıya alınmış animasyona alınmayı seçip seçmediğini belirtir. Dondurucu uykudaki yolcular kabinlerine hapsedilir.

Cabin - Yolcunun kaldığı kabin numarası. Biçimi güverte/numara/taraf şeklindedir, taraf P (Port) için ya da S (Starboard) için olabilir..

Destination- Yolcunun ineceği gezegen.

Age- Yolcunun yaşı.

VIP- Yolcunun yolculuk sırasında özel VIP hizmeti için ödeme yapıp yapmadığı.

RoomService, FoodCourt, ShoppingMall, Spa, VRDeck- Yolcunun Uzay Gemisi Titanic’in birçok lüks olanağının her birinde fatura ettiği tutar.

Name- Yolcunun adı ve soyadı.

Transported- Yolcunun başka bir boyuta taşınıp taşınmadığı. Bu hedeftir, tahmin etmeye çalıştığınız sütundur.

test.csv - Yolcuların geri kalan üçte birinin (~4300) kişisel kayıtları, test verisi olarak kullanılacak. TransportedGöreviniz bu setteki yolcular için değerini tahmin etmektir.

sample_submission.csv - Doğru formatta bir gönderim dosyası.

PassengerId- Test setindeki her yolcunun kimliği.

Transported- Hedef. Her yolcu için veya’dan birini tahmin Trueedin False.

CABIN 3 FARKLI GRUP ÇIKARMAK

library(explore)

library(tidyverse)

train <- separate(train, Cabin, into = c("sutun1", "sutun2", "sutun3"), sep = "/", remove=FALSE)

Farklı train boşlukları

train$HomePlanet <- as.factor(train$HomePlanet)

train=train %>% mutate_if(is.character,as.factor)

train %>% describe_all()

## # A tibble: 17 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  fct       0    0     8693    NA  NA       NA
##  2 HomePlanet   fct     201    2.3      4    NA  NA       NA
##  3 CryoSleep    lgl     217    2.5      3     0   0.36     1
##  4 Cabin        fct     199    2.3   6561    NA  NA       NA
##  5 sutun1       fct     199    2.3      9    NA  NA       NA
##  6 sutun2       fct     199    2.3   1818    NA  NA       NA
##  7 sutun3       fct     199    2.3      3    NA  NA       NA
##  8 Destination  fct     182    2.1      4    NA  NA       NA
##  9 Age          dbl     179    2.1     81     0  28.8     79
## 10 VIP          lgl     203    2.3      3     0   0.02     1
## 11 RoomService  dbl     181    2.1   1274     0 225.   14327
## 12 FoodCourt    dbl     183    2.1   1508     0 458.   29813
## 13 ShoppingMall dbl     208    2.4   1116     0 174.   23492
## 14 Spa          dbl     183    2.1   1328     0 311.   22408
## 15 VRDeck       dbl     188    2.2   1307     0 305.   24133
## 16 Name         fct     200    2.3   8474    NA  NA       NA
## 17 Transported  lgl       0    0        2     0   0.5      1

ggplot(train, aes(x=RoomService))+
  geom_histogram()

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## Warning: Removed 181 rows containing non-finite outside the scale range
## (`stat_bin()`).

library(mice)

VIM::aggr(x=train,sortVars=T)

## 
##  Variables sorted by number of missings: 
##      Variable      Count
##     CryoSleep 0.02496261
##  ShoppingMall 0.02392730
##           VIP 0.02335212
##    HomePlanet 0.02312205
##          Name 0.02300702
##         Cabin 0.02289198
##        sutun1 0.02289198
##        sutun2 0.02289198
##        sutun3 0.02289198
##        VRDeck 0.02162660
##     FoodCourt 0.02105142
##           Spa 0.02105142
##   Destination 0.02093639
##   RoomService 0.02082135
##           Age 0.02059128
##   PassengerId 0.00000000
##   Transported 0.00000000

md.pattern(train[1:500,])

##     PassengerId Transported VIP Destination FoodCourt Spa VRDeck Name CryoSleep
## 376           1           1   1           1         1   1      1    1         1
## 13            1           1   1           1         1   1      1    1         1
## 14            1           1   1           1         1   1      1    1         1
## 12            1           1   1           1         1   1      1    1         1
## 3             1           1   1           1         1   1      1    1         1
## 12            1           1   1           1         1   1      1    1         1
## 2             1           1   1           1         1   1      1    1         1
## 13            1           1   1           1         1   1      1    1         1
## 1             1           1   1           1         1   1      1    1         1
## 10            1           1   1           1         1   1      1    1         0
## 1             1           1   1           1         1   1      1    1         0
## 11            1           1   1           1         1   1      1    0         1
## 6             1           1   1           1         1   1      0    1         1
## 1             1           1   1           1         1   1      0    1         1
## 1             1           1   1           1         1   1      0    1         0
## 8             1           1   1           1         1   0      1    1         1
## 4             1           1   1           1         0   1      1    1         1
## 1             1           1   1           1         0   1      1    1         1
## 1             1           1   1           1         0   1      0    1         1
## 5             1           1   1           0         1   1      1    1         1
## 1             1           1   1           0         1   1      1    1         1
## 4             1           1   0           1         1   1      1    1         1
##               0           0   4           6         6   8      9   11        12
##     RoomService HomePlanet Age Cabin sutun1 sutun2 sutun3 ShoppingMall    
## 376           1          1   1     1      1      1      1            1   0
## 13            1          1   1     1      1      1      1            0   1
## 14            1          1   1     0      0      0      0            1   4
## 12            1          1   0     1      1      1      1            1   1
## 3             1          1   0     1      1      1      1            0   2
## 12            1          0   1     1      1      1      1            1   1
## 2             1          0   1     1      1      1      1            0   2
## 13            0          1   1     1      1      1      1            1   1
## 1             0          1   1     0      0      0      0            1   5
## 10            1          1   1     1      1      1      1            1   1
## 1             1          1   1     0      0      0      0            1   5
## 11            1          1   1     1      1      1      1            1   1
## 6             1          1   1     1      1      1      1            1   1
## 1             1          1   1     0      0      0      0            1   5
## 1             1          1   1     1      1      1      1            1   2
## 8             1          1   1     1      1      1      1            1   1
## 4             1          1   1     1      1      1      1            1   1
## 1             1          1   1     0      0      0      0            1   5
## 1             1          1   1     1      1      1      1            1   2
## 5             1          1   1     1      1      1      1            1   1
## 1             1          0   1     1      1      1      1            1   2
## 4             1          1   1     1      1      1      1            1   1
##              14         15  15    18     18     18     18           18 190

summary(train)

##   PassengerId    HomePlanet   CryoSleep           Cabin          sutun1    
##  0001_01:   1   Earth :4602   Mode :logical   G/734/S:   8   F      :2794  
##  0002_01:   1   Europa:2131   FALSE:5439      B/11/S :   7   G      :2559  
##  0003_01:   1   Mars  :1759   TRUE :3037      B/201/P:   7   E      : 876  
##  0003_02:   1   NA's  : 201   NA's :217       B/82/S :   7   B      : 779  
##  0004_01:   1                                 C/137/S:   7   C      : 747  
##  0005_01:   1                                 (Other):8458   (Other): 739  
##  (Other):8687                                 NA's   : 199   NA's   : 199  
##      sutun2      sutun3            Destination        Age       
##  82     :  28   P   :4206   55 Cancri e  :1800   Min.   : 0.00  
##  19     :  22   S   :4288   PSO J318.5-22: 796   1st Qu.:19.00  
##  86     :  22   NA's: 199   TRAPPIST-1e  :5915   Median :27.00  
##  176    :  21               NA's         : 182   Mean   :28.83  
##  56     :  21                                    3rd Qu.:38.00  
##  (Other):8380                                    Max.   :79.00  
##  NA's   : 199                                    NA's   :179    
##     VIP           RoomService        FoodCourt        ShoppingMall    
##  Mode :logical   Min.   :    0.0   Min.   :    0.0   Min.   :    0.0  
##  FALSE:8291      1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0  
##  TRUE :199       Median :    0.0   Median :    0.0   Median :    0.0  
##  NA's :203       Mean   :  224.7   Mean   :  458.1   Mean   :  173.7  
##                  3rd Qu.:   47.0   3rd Qu.:   76.0   3rd Qu.:   27.0  
##                  Max.   :14327.0   Max.   :29813.0   Max.   :23492.0  
##                  NA's   :181       NA's   :183       NA's   :208      
##       Spa              VRDeck                        Name      Transported    
##  Min.   :    0.0   Min.   :    0.0   Alraium Disivering:   2   Mode :logical  
##  1st Qu.:    0.0   1st Qu.:    0.0   Ankalik Nateansive:   2   FALSE:4315     
##  Median :    0.0   Median :    0.0   Anton Woody       :   2   TRUE :4378     
##  Mean   :  311.1   Mean   :  304.9   Apix Wala         :   2                  
##  3rd Qu.:   59.0   3rd Qu.:   46.0   Asch Stradick     :   2                  
##  Max.   :22408.0   Max.   :24133.0   (Other)           :8483                  
##  NA's   :183       NA's   :188       NA's              : 200

library(ggplot2)

train <- train[complete.cases(train), ]

summary(train)

##   PassengerId    HomePlanet   CryoSleep            Cabin          sutun1    
##  0001_01:   1   Earth :3566   Mode :logical   B/11/S  :   7   F      :2152  
##  0002_01:   1   Europa:1673   FALSE:4274      C/137/S :   7   G      :1973  
##  0003_01:   1   Mars  :1367   TRUE :2332      E/13/S  :   7   E      : 683  
##  0003_02:   1                                 G/1476/S:   7   B      : 628  
##  0004_01:   1                                 G/734/S :   7   C      : 587  
##  0005_01:   1                                 C/21/P  :   6   D      : 374  
##  (Other):6600                                 (Other) :6565   (Other): 209  
##      sutun2     sutun3          Destination        Age           VIP         
##  82     :  22   P:3261   55 Cancri e  :1407   Min.   : 0.00   Mode :logical  
##  56     :  19   S:3345   PSO J318.5-22: 623   1st Qu.:19.00   FALSE:6444     
##  97     :  19            TRAPPIST-1e  :4576   Median :27.00   TRUE :162      
##  176    :  18                                 Mean   :28.89                  
##  186    :  17                                 3rd Qu.:38.00                  
##  269    :  17                                 Max.   :79.00                  
##  (Other):6494                                                                
##   RoomService     FoodCourt         ShoppingMall          Spa         
##  Min.   :   0   Min.   :    0.00   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:   0   1st Qu.:    0.00   1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :   0   Median :    0.00   Median :    0.0   Median :    0.0  
##  Mean   : 223   Mean   :  478.96   Mean   :  178.4   Mean   :  313.2  
##  3rd Qu.:  49   3rd Qu.:   82.75   3rd Qu.:   30.0   3rd Qu.:   65.0  
##  Max.   :9920   Max.   :29813.00   Max.   :12253.0   Max.   :22408.0  
##                                                                       
##      VRDeck                        Name      Transported    
##  Min.   :    0.0   Alraium Disivering:   2   Mode :logical  
##  1st Qu.:    0.0   Ankalik Nateansive:   2   FALSE:3279     
##  Median :    0.0   Anton Woody       :   2   TRUE :3327     
##  Mean   :  303.8   Apix Wala         :   2                  
##  3rd Qu.:   52.0   Asch Stradick     :   2                  
##  Max.   :20336.0   Carry Contrevins  :   2                  
##                    (Other)           :6594

train %>% describe_all()

## # A tibble: 17 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  fct       0      0   6606    NA  NA       NA
##  2 HomePlanet   fct       0      0      3    NA  NA       NA
##  3 CryoSleep    lgl       0      0      2     0   0.35     1
##  4 Cabin        fct       0      0   5305    NA  NA       NA
##  5 sutun1       fct       0      0      8    NA  NA       NA
##  6 sutun2       fct       0      0   1734    NA  NA       NA
##  7 sutun3       fct       0      0      2    NA  NA       NA
##  8 Destination  fct       0      0      3    NA  NA       NA
##  9 Age          dbl       0      0     80     0  28.9     79
## 10 VIP          lgl       0      0      2     0   0.02     1
## 11 RoomService  dbl       0      0   1093     0 223.    9920
## 12 FoodCourt    dbl       0      0   1293     0 479.   29813
## 13 ShoppingMall dbl       0      0    984     0 178.   12253
## 14 Spa          dbl       0      0   1143     0 313.   22408
## 15 VRDeck       dbl       0      0   1106     0 304.   20336
## 16 Name         fct       0      0   6590    NA  NA       NA
## 17 Transported  lgl       0      0      2     0   0.5      1