EKONOMETRI PROJESI
ilk proje
. R yükleme
. Rmarkdown başlangıç
. Web sayfasını hazırlama
. internet yükleme
Formül yazma
\[ x=1 y<-2 z<-x+y A=(x^2)+(2*y)+(z) B<-x*x +2*y+z \]
\[ x=\frac{-b±\sqrt{b^2-4ac}}{2a} \]
\[ \sigma^2=\frac{1}{n}\sum_{i=1}^{n} (i_1-\bar{x})^2 \]
## Warning: le package 'WDI' a été compilé avec la version R 4.3.3
## Warning: le package 'ggplot2' a été compilé avec la version R 4.3.3
# Gerekli kütüphaneleri yükleyin
library(ggplot2)
# Veri çerçevesini oluşturun (örnek veriler)
years <- 2011:2021
turkey_inflation <- c(64.86, 67.07, 69.1, 71.12, 72.89, 67.07, 64.86, 65.74, 67.07, 64.86, 67.07)
canada_inflation <- c(2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9)
# Veri çerçevesini oluşturun
inflation_data <- data.frame(Year = years, Turkey = turkey_inflation, Canada = canada_inflation)
# Çizim
ggplot(inflation_data, aes(x = Year)) +
geom_line(aes(y = Turkey, color = "Turkey"), size = 1) +
geom_line(aes(y = Canada, color = "Canada"), size = 1) +
labs(title = "Türkiye ve Kanada Enflasyonu (2011-2021)",
x = "Yıl",
y = "Enflasyon Oranı",
color = "Ülke") +
theme_minimal()## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Makine öğrenmesi Açıklayın
Tanım: Makine öğrenmesi, bilgisayarları verilerden öğrenmeyi öğretmeye ve bunu yapmak için açıkça programlanmak yerine deneyimle geliştirmeye odaklanır. Algoritmalar büyük veri kümelerinde desenleri ve korelasyonları bulmak ve bu analize dayalı en iyi kararları ve tahminleri yapmak için eğitilir. Makine öğrenmesi uygulamaları kullanımla gelişir ve daha fazla veri erişimi olduğunda daha doğru hale gelir.
Yapay zekâ
Yapay Zeka ile İlişkisi: Makine öğrenmesi, yapay zekanın (AI) bir alt kümesidir. Yapay zeka, verileri işleyerek kararlar ve tahminler yapar. Makine öğrenmesi algoritmaları ise bu verileri işlemesine gerek kalmadan daha akıllı bir şekilde öğrenmesini ve sonuçlar elde etmesini sağlar.
Derin öğrenme
Derin Öğrenme: Derin öğrenme, nöral ağların birçok katmanını ve büyük hacimli karmaşık verileri içerdiği için “derin” olarak adlandırılır. Bu tür makine öğrenimi, konuşma tanıma, görüntü sınıflandırması ve eczacılık analizi gibi uygulamalarda kullanılır.
Kaggle Projesi
Spacehip Titanic (Kaggle Taıtımı)
Hoş geldiniz 2912 yılına, burada veri bilimi yeteneklerinizin bir kozmik gizemi çözmek için gerektiği bir yerdesiniz. Dört ışık yılı uzaktan bir ileti aldık ve durum pek iç açıcı değil.
Uzay Gemisi Titanic, bir ay önce fırlatılan yıldızlar arası bir yolcu gemisiydi. Yaklaşık 13,000 yolcuyla donatılmış olarak, gemi, güneş sistemimizden ayrılarak, yakındaki yıldızlar etrafında dönen üç yeni yaşanabilir ötegezegenine göçmen taşıyan ilk seferine çıktı.
Alpha Centauri’yi dönerken ilk varış noktasına - kavurucu 55 Cancri E’ye - ulaşma yolunda, dikkatsiz Uzay Gemisi Titanic, bir toz bulutu içinde gizlenmiş bir uzay-zaman anormalliği ile çarpıştı. Maalesef, bin yıl öncesinin adını taşıyan gemi gibi benzer bir kaderi paylaştı. Gemisi sağlam kalsa da, yolcuların neredeyse yarısı alternatif bir boyuta taşındı!
Kurtarma ekiplerine yardımcı olmak ve kaybolan yolcuları kurtarmak için, sizi geminin hasar görmüş bilgisayar sisteminden kurtarılan kayıtları kullanarak anomali tarafından taşınan hangi yolcuların olduğunu tahmin etmeye çağırıyoruz.
Onları kurtarmaya yardımcı olun ve tarihi değiştirin!
Ortalama, standart sapma, kovaryans ve korelasyon nedir?
. Formüllerini yazın -Örnek yazın . Örneği çözün
Ortalama
Ortalama, istatistik bilim dalında ve veri analizinde kullanılan bir veri dizisinin orta konumunu, tek bir sayı ile ifade eden betimsel istatistik ölçüsüdür. Günlük hayatta ortalama dendiğinde genellikle kast edilen aritmetik ortalama olmakla beraber, matematik ve istatistikte farklı merkezsel konum ölçüleri de kullanılır. İşte bazı ortalama tipleri:
Aritmetik Ortalama: Bir veri dizisinin elemanlarının toplamının eleman sayısına bölünmesiyle elde edilir. Bu ölçüm sıkça kullanılır, ancak bazı eksik yönleri vardır. Özellikle verilerin ölçülme ölçeğinin aralıklı veya oransal olması gerekir. İsimsel ölçekli veriler için aritmetik ortalama anlamsızdır. Medyan (Ortanca): Veri dizisini sıraladığımızda ortadaki değeri ifade eder. Eğer veri sayısı çiftse, ortadaki iki değerin aritmetik ortalaması alınır. Mod (Tepedeğer): Veri dizisinde en sık tekrar eden değeri ifade eder. Mod, kategorik verilerde de kullanılır. Geometrik Ortalama: Çarpma işlemi ile hesaplanır ve genellikle oranlarla ilgili verilerde kullanılır. Harmonik Ortalama: Ters oranların aritmetik ortalamasıdır ve özellikle hız, zaman ve oranlarla ilgili problemlerde kullanılır.
standart sapma
Standart sapma, bir veri grubundaki sayıların aritmetik ortalamaya göre nasıl bir yayılım gösterdiğini ölçen bir yöntemdir. Bu istatistiksel kavram, veri grubundaki elemanların aritmetik ortalamaya yakınlığını veya uzaklığını ifade eder. İki farklı veri grubunun aritmetik ortalaması aynı ise, açıklığı büyük olanın standart sapması büyük, küçük olanın ise standart sapması küçük olur. Standart sapma, veri grubundaki değerlerin dağılımını anlamamıza yardımcı olur.
Standart sapma hesaplamak için aşağıdaki adımları izleriz:
Veri grubunun aritmetik ortalaması bulunur. Her bir sayının aritmetik ortalama ile arasındaki fark hesaplanır. Her bir sayının aritmetik ortalamadan farkının karesi alınır. Farkların kareleri toplanır. Toplamın sonucu, veri grubundaki sayı adetini bir eksiğine bölünür. Çıkan sonucun karekökü alınır.
Kovaryans
Kovaryans, iki rastgele değişkenin birlikte ne kadar değiştiklerinin ölçüsüdür. İki değişken arasındaki doğrusal ilişkinin değişkenliğini ifade eder. Kovaryansın işareti, değişkenler arasındaki doğrusal ilişki eğilimini gösterir. İşte daha detaylı bilgi:
Tanım: Kovaryans, iki rastgele değişkenin beraber değişimlerini inceleyen bir istatistiktir. Özel bir durum olarak, iki değişken birbirine özdeşse, kovaryans o tek özdeş değişkenin varyansı olur. İki değişkenin birbirine benzer (eş) işlevli olması kovaryant; iki değişkenin birbirine zıt işlevli olması kontravaryant olarak ifade edilir 1. İşaret ve İlişki: Kovaryansın işareti, değişkenler arasındaki doğrusal ilişki eğilimini gösterir. Pozitif kovaryans, değişkenlerin benzer davranış gösterme eğiliminde olduğunu ifade eder. Negatif kovaryans ise değişkenlerin zıt davranış gösterme eğiliminde olduğunu gösterir. Büyüklük: Kovaryansın büyüklüğü, iki rastgele değişken için ortak olan varyansların geometrik ortalamasıdır.
Korelasyon: Korelasyon katsayısı, iki rastgele değişken için toplam varyansların geometrik ortalamasına bölünerek kovaryansı normalleştirir. Korelasyon, kovaryansın boyutsuz bir ölçüsüdür ve iki değişken arasındaki ilişkinin gücünü ifade eder 2. Kovaryans, istatistikte önemli bir kavramdır ve değişkenler arasındaki ilişkiyi anlamak için kullanılır.
korelasyon
Korelasyon, iki veya daha fazla değişken arasındaki ilişkiyi ölçen istatistiksel bir kavramdır. Bu ilişki, değişkenlerin birlikte nasıl değiştiğini veya birbirlerini nasıl etkilediğini gösterir. Korelasyon, bu ilişkinin gücünü ve yönünü belirlememize yardımcı olur
Korelasyon Katsayısı: Korelasyon katsayısı, iki değişken arasındaki ilişkinin derecesini ifade eder. Değişkenler arasındaki ilişkiyi anlamak için kullanılır. Korelasyon katsayısı, -1 ile +1 arasında değer alır: Pozitif (+) korelasyon, değişkenlerin benzer davranış gösterme eğiliminde olduğunu ifade eder. Negatif (-) korelasyon, değişkenlerin zıt davranış gösterme eğiliminde olduğunu gösterir. 0 korelasyon ise iki değişken arasında herhangi bir ilişki olmadığını ifade eder.
Korelasyon, ekonomiden bilime, pazarlamadan tıbba kadar birçok endüstride kullanılır. Ancak unutulmamalıdır ki korelasyon, iki değişken arasında sebep-sonuç ilişkisi olmadan da yüksek bir değer çıkabilir. Bu nedenle araştırmacının modelini sağlam kurması önemlidir.
Ortalama-Formülü-Örneği-Çözümü
\[ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]
\[ \bar{x} =\frac{\sum_{i=1}^{n}( 10+20+30+40+50)}{5}=30 \]
\[ \bar{y} = \frac{\sum_{i=1}^{n}( 12+14+25+60+70)}{5}=36,2 \]
# Örnek veri oluşturma
veri <- c(10, 20, 30, 40, 50)
# Verinin ortalamasını hesaplama
ortalama <- mean(veri)
# Sonucu ekrana yazdırma
print(ortalama)## [1] 30
Standart sapma -Formülü-Örneği-Çözümü
\[\sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n}} \]
\[\sigma =\sqrt{\frac{\sum_{i=1}^{n}( 10-30)^2+( 20-30)^2+( 30-30)^2+( 40-30)^2+( 50-30)^2}{5}} \]
\[\sigma= \sqrt4.9799598392 \]
# Örnek veri oluşturma
veri <- c(23, 45, 56, 34, 67, 32, 55, 21, 44)
# Standart sapma hesaplama
standart_sapma <- sd(veri)
print(standart_sapma)## [1] 15.68793
Kovaryans -Formülü-Örneği-Çözümü
\[ \text{cov}(X, Y) = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{n} \] \[ \text{cov}(X, Y) = \frac{\sum_{i=1}^{n}((10- 30)+(20- 30)+(30- 30)+(40- 30)+(50- 30))(12-36.2)+(14-36.2)+(25-36.2)+(60-36.2)+(70-36.2))}{5}=4,84 \] \[\text{cov}(X, Y) = 4,84 \]
# Örnek veri setini oluşturalım
x <- c(1, 2, 3, 4, 5) # Birinci değişken
y <- c(3, 4, 2, 5, 1) # İkinci değişken
# Kovaryansı hesaplayalım
covariance <- cov(x, y)
print(covariance)## [1] -0.75
Korelasyon-Formülü-Örneği-Çözümü
\[ \text{corr}(X, Y) = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2 \cdot \sum_{i=1}^{n}(Y_i -\bar{Y})^2}} \]
\[ \text{corr}(X, Y) = \frac{\sum_{i=1}^{n}(((10- 30)+(20- 30)+(30- 30)+(40- 30)+(50- 30))(12-36.2)+(14-36.2)+(25-36.2)+(60-36.2)+(70-36.2)))}{\sqrt{\sum_{i=1}^{n} (10-30)^2+( 20-30)^2+( 30-30)^2+( 40-30)^2+( 50-30)^2 \sum_{i=1}^{n}(12-36.2)^2+(14-36.2)^2+(25-36.2)^2+(60-36.2^2)+(70-36.2)^2}} \]
\[ \text{corr}(X, Y) = 0,0951755326 \]
# Iris veri setini yükle
data(iris)
# Korelasyon matrisini hesapla
correlation_matrix <- cor(iris[, 1:4])
# Korelasyon matrisini göster
print(correlation_matrix)## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
## Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259
## Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654
## Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000
## Warning: le package 'dplyr' a été compilé avec la version R 4.3.3
##
## Attachement du package : 'dplyr'
## Les objets suivants sont masqués depuis 'package:stats':
##
## filter, lag
## Les objets suivants sont masqués depuis 'package:base':
##
## intersect, setdiff, setequal, union
TRAIN VE TEST NEDIR?
Makine öğrenmesinde, veri setlerini eğitim ve test alt kümelerine ayırmak önemlidir. İşte bu kavramların anlamları:
Train Veri Seti: Eğitim veri seti olarak da bilinir. Temel modelleme denemeleri yapmak için kullanılır. En doğru makine öğrenmesi algoritması seçilmeye çalışılır. Bu veri seti, en fazla örneklem alınan gözlemlerden oluşur. Genellikle veri setinin %60 ila %90’ı arasında bir bölümü eğitim için ayrılır.
Validation (Doğrulama) Veri Seti: Eğitim veri seti içinden seçilir. Model seçimi ve algoritma belirleme amacıyla kullanılır. Hiper parametre ayarları ve model iyileştirmeleri bu veri seti üzerinde yapılır. Özellikle büyük veri setlerinde sürekli eğitim verisi üzerinde çalışmak mümkün olmadığından küçük bir bölüm validation olarak ayrılır. Test Veri Seti: Validation verisinin yer aldığı eğitim veri setinden kalan bölüme denir. Modelin gerçek dünya verilerine ne kadar iyi uyum sağlayabileceğini test etmek için kullanılır. Daha önce eğitim veri seti üzerinden öğrenilmiş makine öğrenmesi modeli bu veri seti üzerinde uygulanır. Bu ayrılmış alt kümeler sayesinde, modelin performansını objektif bir şekilde değerlendirebiliriz.
## Warning: le package 'readr' a été compilé avec la version R 4.3.3
## Rows: 4277 Columns: 13
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (2): CryoSleep, VIP
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## Rows: 8693 Columns: 14
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (3): CryoSleep, VIP, Transported
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## Warning: le package 'explore' a été compilé avec la version R 4.3.3
## # A tibble: 8,693 × 14
## PassengerId HomePlanet CryoSleep Cabin Destination Age VIP RoomService
## <chr> <chr> <lgl> <chr> <chr> <dbl> <lgl> <dbl>
## 1 0001_01 Europa FALSE B/0/P TRAPPIST-1e 39 FALSE 0
## 2 0002_01 Earth FALSE F/0/S TRAPPIST-1e 24 FALSE 109
## 3 0003_01 Europa FALSE A/0/S TRAPPIST-1e 58 TRUE 43
## 4 0003_02 Europa FALSE A/0/S TRAPPIST-1e 33 FALSE 0
## 5 0004_01 Earth FALSE F/1/S TRAPPIST-1e 16 FALSE 303
## 6 0005_01 Earth FALSE F/0/P PSO J318.5-22 44 FALSE 0
## 7 0006_01 Earth FALSE F/2/S TRAPPIST-1e 26 FALSE 42
## 8 0006_02 Earth TRUE G/0/S TRAPPIST-1e 28 FALSE 0
## 9 0007_01 Earth FALSE F/3/S TRAPPIST-1e 35 FALSE 0
## 10 0008_01 Europa TRUE B/1/P 55 Cancri e 14 FALSE 0
## # ℹ 8,683 more rows
## # ℹ 6 more variables: FoodCourt <dbl>, ShoppingMall <dbl>, Spa <dbl>,
## # VRDeck <dbl>, Name <chr>, Transported <lgl>
## # A tibble: 4,277 × 13
## PassengerId HomePlanet CryoSleep Cabin Destination Age VIP RoomService
## <chr> <chr> <lgl> <chr> <chr> <dbl> <lgl> <dbl>
## 1 0013_01 Earth TRUE G/3/S TRAPPIST-1e 27 FALSE 0
## 2 0018_01 Earth FALSE F/4/S TRAPPIST-1e 19 FALSE 0
## 3 0019_01 Europa TRUE C/0/S 55 Cancri e 31 FALSE 0
## 4 0021_01 Europa FALSE C/1/S TRAPPIST-1e 38 FALSE 0
## 5 0023_01 Earth FALSE F/5/S TRAPPIST-1e 20 FALSE 10
## 6 0027_01 Earth FALSE F/7/P TRAPPIST-1e 31 FALSE 0
## 7 0029_01 Europa TRUE B/2/P 55 Cancri e 21 FALSE 0
## 8 0032_01 Europa TRUE D/0/S TRAPPIST-1e 20 FALSE 0
## 9 0032_02 Europa TRUE D/0/S 55 Cancri e 23 FALSE 0
## 10 0033_01 Earth FALSE F/7/S 55 Cancri e 24 FALSE 0
## # ℹ 4,267 more rows
## # ℹ 5 more variables: FoodCourt <dbl>, ShoppingMall <dbl>, Spa <dbl>,
## # VRDeck <dbl>, Name <chr>
## Warning: le package 'tidyverse' a été compilé avec la version R 4.3.3
## Warning: le package 'tibble' a été compilé avec la version R 4.3.3
## Warning: le package 'tidyr' a été compilé avec la version R 4.3.3
## Warning: le package 'purrr' a été compilé avec la version R 4.3.3
## Warning: le package 'forcats' a été compilé avec la version R 4.3.3
## Warning: le package 'lubridate' a été compilé avec la version R 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
Character nedir
character veri türü, metin veya dize degerlerini temsil etmek için kullanilir. Bu veri türü, R’de metinleri depolamak için kullanlir. Metinler, R’de string olarak da bilinir. Verileri karakter formatinda saklamak için en basit yöntem, metin parçasinin etrafina çift tirnak isareti () koymaktir.
Factor nedir
Studio kullanirken “factor”, verileri kategorize etmek ve sinirli sayida farkli degeri depolamak icin kullanilan bir veri türüdür. Bu veri türü, hem metin hem de tamsayi verilerini seviyeler olarak depolar. Yani, “factor”, kategorik bir degisken olarak da bilinir ve belirli bir sayida benzersiz degeri olan sütunlarda kullanislidir.
• Örnegin, medeni durum gibi bir veri alan sadece “bekar”, “evii”, “ayrilmis”, “bosanmis” veya “dul” gibi degerleri icerebilir. Bu tür verileri “factor” olarak saklamak, analizlerde ve grafiklerde kullanmak için uygundur.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 21.00 32.00 44.00 41.89 55.00 67.00
Veri seti açıklayın
Bu yarışmada göreviniz , Uzay Gemisi Titanik’in uzay-zaman anomalisiyle çarpışması sırasında bir yolcunun alternatif bir boyuta taşınıp taşınmadığını tahmin etmektir . Bu tahminleri yapmanıza yardımcı olmak için size geminin hasarlı bilgisayar sisteminden kurtarılan bir dizi kişisel kayıt veriliyor.
Dosya ve Veri Alanı Açıklamaları
train.csv - Yolcuların yaklaşık üçte ikisinin (~8700) kişisel kayıtları, eğitim verileri olarak kullanılacak.
PassengerId- Her yolcu için benzersiz bir Kimlik. Her kimlik, yolcunun birlikte seyahat ettiği grubu belirten ve grup içindeki numarası olan gggg_ppformu alır . Bir gruptaki insanlar çoğunlukla aile üyeleridir, ancak her zaman değil.ggggpp.
HomePlanet- Yolcunun ayrıldığı gezegen, genellikle daimi ikamet ettikleri gezegen.
CryoSleep- Yolcunun yolculuk süresince askıya alınmış animasyona alınmayı seçip seçmediğini belirtir. Dondurucu uykudaki yolcular kabinlerine hapsedilir.
Cabin - Yolcunun kaldığı kabin numarası. Biçimi güverte/numara/taraf şeklindedir, taraf P (Port) için ya da S (Starboard) için olabilir..
Destination- Yolcunun ineceği gezegen.
Age- Yolcunun yaşı.
VIP- Yolcunun yolculuk sırasında özel VIP hizmeti için ödeme yapıp yapmadığı.
RoomService, FoodCourt, ShoppingMall, Spa, VRDeck- Yolcunun Uzay Gemisi Titanic’in birçok lüks olanağının her birinde fatura ettiği tutar.
Name- Yolcunun adı ve soyadı.
Transported- Yolcunun başka bir boyuta taşınıp taşınmadığı. Bu hedeftir, tahmin etmeye çalıştığınız sütundur.
test.csv - Yolcuların geri kalan üçte birinin (~4300) kişisel kayıtları, test verisi olarak kullanılacak. TransportedGöreviniz bu setteki yolcular için değerini tahmin etmektir.
sample_submission.csv - Doğru formatta bir gönderim dosyası.
PassengerId- Test setindeki her yolcunun kimliği.
Transported- Hedef. Her yolcu için veya’dan birini tahmin Trueedin False.
CABIN 3 FARKLI GRUP ÇIKARMAK
Farklı train boşlukları
## # A tibble: 17 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 PassengerId fct 0 0 8693 NA NA NA
## 2 HomePlanet fct 201 2.3 4 NA NA NA
## 3 CryoSleep lgl 217 2.5 3 0 0.36 1
## 4 Cabin fct 199 2.3 6561 NA NA NA
## 5 sutun1 fct 199 2.3 9 NA NA NA
## 6 sutun2 fct 199 2.3 1818 NA NA NA
## 7 sutun3 fct 199 2.3 3 NA NA NA
## 8 Destination fct 182 2.1 4 NA NA NA
## 9 Age dbl 179 2.1 81 0 28.8 79
## 10 VIP lgl 203 2.3 3 0 0.02 1
## 11 RoomService dbl 181 2.1 1274 0 225. 14327
## 12 FoodCourt dbl 183 2.1 1508 0 458. 29813
## 13 ShoppingMall dbl 208 2.4 1116 0 174. 23492
## 14 Spa dbl 183 2.1 1328 0 311. 22408
## 15 VRDeck dbl 188 2.2 1307 0 305. 24133
## 16 Name fct 200 2.3 8474 NA NA NA
## 17 Transported lgl 0 0 2 0 0.5 1
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 181 rows containing non-finite outside the scale range
## (`stat_bin()`).
##
## Variables sorted by number of missings:
## Variable Count
## CryoSleep 0.02496261
## ShoppingMall 0.02392730
## VIP 0.02335212
## HomePlanet 0.02312205
## Name 0.02300702
## Cabin 0.02289198
## sutun1 0.02289198
## sutun2 0.02289198
## sutun3 0.02289198
## VRDeck 0.02162660
## FoodCourt 0.02105142
## Spa 0.02105142
## Destination 0.02093639
## RoomService 0.02082135
## Age 0.02059128
## PassengerId 0.00000000
## Transported 0.00000000
## PassengerId Transported VIP Destination FoodCourt Spa VRDeck Name CryoSleep
## 376 1 1 1 1 1 1 1 1 1
## 13 1 1 1 1 1 1 1 1 1
## 14 1 1 1 1 1 1 1 1 1
## 12 1 1 1 1 1 1 1 1 1
## 3 1 1 1 1 1 1 1 1 1
## 12 1 1 1 1 1 1 1 1 1
## 2 1 1 1 1 1 1 1 1 1
## 13 1 1 1 1 1 1 1 1 1
## 1 1 1 1 1 1 1 1 1 1
## 10 1 1 1 1 1 1 1 1 0
## 1 1 1 1 1 1 1 1 1 0
## 11 1 1 1 1 1 1 1 0 1
## 6 1 1 1 1 1 1 0 1 1
## 1 1 1 1 1 1 1 0 1 1
## 1 1 1 1 1 1 1 0 1 0
## 8 1 1 1 1 1 0 1 1 1
## 4 1 1 1 1 0 1 1 1 1
## 1 1 1 1 1 0 1 1 1 1
## 1 1 1 1 1 0 1 0 1 1
## 5 1 1 1 0 1 1 1 1 1
## 1 1 1 1 0 1 1 1 1 1
## 4 1 1 0 1 1 1 1 1 1
## 0 0 4 6 6 8 9 11 12
## RoomService HomePlanet Age Cabin sutun1 sutun2 sutun3 ShoppingMall
## 376 1 1 1 1 1 1 1 1 0
## 13 1 1 1 1 1 1 1 0 1
## 14 1 1 1 0 0 0 0 1 4
## 12 1 1 0 1 1 1 1 1 1
## 3 1 1 0 1 1 1 1 0 2
## 12 1 0 1 1 1 1 1 1 1
## 2 1 0 1 1 1 1 1 0 2
## 13 0 1 1 1 1 1 1 1 1
## 1 0 1 1 0 0 0 0 1 5
## 10 1 1 1 1 1 1 1 1 1
## 1 1 1 1 0 0 0 0 1 5
## 11 1 1 1 1 1 1 1 1 1
## 6 1 1 1 1 1 1 1 1 1
## 1 1 1 1 0 0 0 0 1 5
## 1 1 1 1 1 1 1 1 1 2
## 8 1 1 1 1 1 1 1 1 1
## 4 1 1 1 1 1 1 1 1 1
## 1 1 1 1 0 0 0 0 1 5
## 1 1 1 1 1 1 1 1 1 2
## 5 1 1 1 1 1 1 1 1 1
## 1 1 0 1 1 1 1 1 1 2
## 4 1 1 1 1 1 1 1 1 1
## 14 15 15 18 18 18 18 18 190
## PassengerId HomePlanet CryoSleep Cabin sutun1
## 0001_01: 1 Earth :4602 Mode :logical G/734/S: 8 F :2794
## 0002_01: 1 Europa:2131 FALSE:5439 B/11/S : 7 G :2559
## 0003_01: 1 Mars :1759 TRUE :3037 B/201/P: 7 E : 876
## 0003_02: 1 NA's : 201 NA's :217 B/82/S : 7 B : 779
## 0004_01: 1 C/137/S: 7 C : 747
## 0005_01: 1 (Other):8458 (Other): 739
## (Other):8687 NA's : 199 NA's : 199
## sutun2 sutun3 Destination Age
## 82 : 28 P :4206 55 Cancri e :1800 Min. : 0.00
## 19 : 22 S :4288 PSO J318.5-22: 796 1st Qu.:19.00
## 86 : 22 NA's: 199 TRAPPIST-1e :5915 Median :27.00
## 176 : 21 NA's : 182 Mean :28.83
## 56 : 21 3rd Qu.:38.00
## (Other):8380 Max. :79.00
## NA's : 199 NA's :179
## VIP RoomService FoodCourt ShoppingMall
## Mode :logical Min. : 0.0 Min. : 0.0 Min. : 0.0
## FALSE:8291 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0
## TRUE :199 Median : 0.0 Median : 0.0 Median : 0.0
## NA's :203 Mean : 224.7 Mean : 458.1 Mean : 173.7
## 3rd Qu.: 47.0 3rd Qu.: 76.0 3rd Qu.: 27.0
## Max. :14327.0 Max. :29813.0 Max. :23492.0
## NA's :181 NA's :183 NA's :208
## Spa VRDeck Name Transported
## Min. : 0.0 Min. : 0.0 Alraium Disivering: 2 Mode :logical
## 1st Qu.: 0.0 1st Qu.: 0.0 Ankalik Nateansive: 2 FALSE:4315
## Median : 0.0 Median : 0.0 Anton Woody : 2 TRUE :4378
## Mean : 311.1 Mean : 304.9 Apix Wala : 2
## 3rd Qu.: 59.0 3rd Qu.: 46.0 Asch Stradick : 2
## Max. :22408.0 Max. :24133.0 (Other) :8483
## NA's :183 NA's :188 NA's : 200
## PassengerId HomePlanet CryoSleep Cabin sutun1
## 0001_01: 1 Earth :3566 Mode :logical B/11/S : 7 F :2152
## 0002_01: 1 Europa:1673 FALSE:4274 C/137/S : 7 G :1973
## 0003_01: 1 Mars :1367 TRUE :2332 E/13/S : 7 E : 683
## 0003_02: 1 G/1476/S: 7 B : 628
## 0004_01: 1 G/734/S : 7 C : 587
## 0005_01: 1 C/21/P : 6 D : 374
## (Other):6600 (Other) :6565 (Other): 209
## sutun2 sutun3 Destination Age VIP
## 82 : 22 P:3261 55 Cancri e :1407 Min. : 0.00 Mode :logical
## 56 : 19 S:3345 PSO J318.5-22: 623 1st Qu.:19.00 FALSE:6444
## 97 : 19 TRAPPIST-1e :4576 Median :27.00 TRUE :162
## 176 : 18 Mean :28.89
## 186 : 17 3rd Qu.:38.00
## 269 : 17 Max. :79.00
## (Other):6494
## RoomService FoodCourt ShoppingMall Spa
## Min. : 0 Min. : 0.00 Min. : 0.0 Min. : 0.0
## 1st Qu.: 0 1st Qu.: 0.00 1st Qu.: 0.0 1st Qu.: 0.0
## Median : 0 Median : 0.00 Median : 0.0 Median : 0.0
## Mean : 223 Mean : 478.96 Mean : 178.4 Mean : 313.2
## 3rd Qu.: 49 3rd Qu.: 82.75 3rd Qu.: 30.0 3rd Qu.: 65.0
## Max. :9920 Max. :29813.00 Max. :12253.0 Max. :22408.0
##
## VRDeck Name Transported
## Min. : 0.0 Alraium Disivering: 2 Mode :logical
## 1st Qu.: 0.0 Ankalik Nateansive: 2 FALSE:3279
## Median : 0.0 Anton Woody : 2 TRUE :3327
## Mean : 303.8 Apix Wala : 2
## 3rd Qu.: 52.0 Asch Stradick : 2
## Max. :20336.0 Carry Contrevins : 2
## (Other) :6594
## # A tibble: 17 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 PassengerId fct 0 0 6606 NA NA NA
## 2 HomePlanet fct 0 0 3 NA NA NA
## 3 CryoSleep lgl 0 0 2 0 0.35 1
## 4 Cabin fct 0 0 5305 NA NA NA
## 5 sutun1 fct 0 0 8 NA NA NA
## 6 sutun2 fct 0 0 1734 NA NA NA
## 7 sutun3 fct 0 0 2 NA NA NA
## 8 Destination fct 0 0 3 NA NA NA
## 9 Age dbl 0 0 80 0 28.9 79
## 10 VIP lgl 0 0 2 0 0.02 1
## 11 RoomService dbl 0 0 1093 0 223. 9920
## 12 FoodCourt dbl 0 0 1293 0 479. 29813
## 13 ShoppingMall dbl 0 0 984 0 178. 12253
## 14 Spa dbl 0 0 1143 0 313. 22408
## 15 VRDeck dbl 0 0 1106 0 304. 20336
## 16 Name fct 0 0 6590 NA NA NA
## 17 Transported lgl 0 0 2 0 0.5 1