Hangi yolcuların alternatif bir boyuta taşınacağını tahmin edinKozmik bir gizemi çözmek için veri bilimi becerilerinize ihtiyaç duyulan 2912 yılına hoş geldiniz. Dört ışık yılı öteden bir sinyal aldık ve işler pek iyi görünmüyor.
Uzay Gemisi Titanik, bir ay önce fırlatılan yıldızlararası bir yolcu gemisiydi. Gemide neredeyse 13.000 yolcu bulunan gemi, güneş sistemimizden göçmenleri yakın yıldızların yörüngesinde bulunan üç yeni yaşanabilir dış gezegene taşımak üzere ilk yolculuğuna çıktı.
Dikkatsiz Uzay Gemisi Titanic , ilk varış noktası olan kavurucu 55 Cancri E’ye giderken Alpha Centauri’yi dönerken, bir toz bulutunun içine gizlenmiş bir uzay-zaman anormalliğiyle çarpıştı. Ne yazık ki 1000 yıl öncesindeki adaşı ile benzer bir kaderle karşılaştı. Gemi sağlam kalmasına rağmen yolcuların neredeyse yarısı alternatif bir boyuta taşındı!
Kurtarma ekiplerine yardımcı olmak ve kayıp yolcuları geri almak için, uzay gemisinin hasarlı bilgisayar sisteminden elde edilen kayıtları kullanarak anormallik nedeniyle hangi yolcuların taşındığını tahmin etmeniz gerekiyor.
library(readr)
train <- read_csv("train.csv")
## Rows: 8693 Columns: 14
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (3): CryoSleep, VIP, Transported
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(train)
Bu yarışmada göreviniz , Uzay Gemisi Titanik’in uzay-zaman anomalisiyle çarpışması sırasında bir yolcunun alternatif bir boyuta taşınıp taşınmadığını tahmin etmektir . Bu tahminleri yapmanıza yardımcı olmak için size geminin hasarlı bilgisayar sisteminden kurtarılan bir dizi kişisel kayıt veriliyor.
1- train.csv - Yolcuların yaklaşık üçte ikisinin (~8700) kişisel kayıtları, eğitim verileri olarak kullanılacak.
2- PassengerId- Her yolcu için benzersiz bir Kimlik. Her kimlik, yolcunun birlikte seyahat ettiği grubu belirten ve grup içindeki numarası olan gggg_ppformu alır.Bir gruptaki insanlar çoğunlukla aile üyeleridir, ancak her zaman değil.ggggpp
3- HomePlanet- Yolcunun ayrıldığı gezegen, genellikle daimi ikamet ettikleri gezegen.
4- CryoSleep- Yolcunun yolculuk süresince askıya alınmış animasyona alınmayı seçip seçmediğini belirtir. Dondurucu uykudaki yolcular kabinlerine hapsedilir.
5- Cabin- Yolcunun kaldığı kabin numarası. deck/num/sideİskele sideveya PSancak formunu alır.
6- Destination- Yolcunun ineceği gezegen.
7- Age- Yolcunun yaşı.
8- VIP- Yolcunun yolculuk sırasında özel VIP hizmeti için ödeme yapıp yapmadığı.
9- RoomService, FoodCourt, ShoppingMall, Spa, VRDeck- Yolcunun Uzay Gemisi Titanic’in birçok lüks olanağının her birinde fatura ettiği tuta.
10- Name- Yolcunun adı ve soyad.
11- Transported- Yolcunun başka bir boyuta taşınıp taşınmadığ. Bu hedeftir, tahmin etmeye çalıştığınız sütundur.
12- test.csv - Yolcuların geri kalan üçte birinin (~4300) kişisel kayıtları, test verisi olarak kullanılacak. TransportedGöreviniz bu setteki yolcular için değerini tahmin etmektir.
str(train)
## spc_tbl_ [8,693 × 14] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ PassengerId : chr [1:8693] "0001_01" "0002_01" "0003_01" "0003_02" ...
## $ HomePlanet : chr [1:8693] "Europa" "Earth" "Europa" "Europa" ...
## $ CryoSleep : logi [1:8693] FALSE FALSE FALSE FALSE FALSE FALSE ...
## $ Cabin : chr [1:8693] "B/0/P" "F/0/S" "A/0/S" "A/0/S" ...
## $ Destination : chr [1:8693] "TRAPPIST-1e" "TRAPPIST-1e" "TRAPPIST-1e" "TRAPPIST-1e" ...
## $ Age : num [1:8693] 39 24 58 33 16 44 26 28 35 14 ...
## $ VIP : logi [1:8693] FALSE FALSE TRUE FALSE FALSE FALSE ...
## $ RoomService : num [1:8693] 0 109 43 0 303 0 42 0 0 0 ...
## $ FoodCourt : num [1:8693] 0 9 3576 1283 70 ...
## $ ShoppingMall: num [1:8693] 0 25 0 371 151 0 3 0 17 0 ...
## $ Spa : num [1:8693] 0 549 6715 3329 565 ...
## $ VRDeck : num [1:8693] 0 44 49 193 2 0 0 NA 0 0 ...
## $ Name : chr [1:8693] "Maham Ofracculy" "Juanna Vines" "Altark Susent" "Solam Susent" ...
## $ Transported : logi [1:8693] FALSE TRUE FALSE FALSE TRUE TRUE ...
## - attr(*, "spec")=
## .. cols(
## .. PassengerId = col_character(),
## .. HomePlanet = col_character(),
## .. CryoSleep = col_logical(),
## .. Cabin = col_character(),
## .. Destination = col_character(),
## .. Age = col_double(),
## .. VIP = col_logical(),
## .. RoomService = col_double(),
## .. FoodCourt = col_double(),
## .. ShoppingMall = col_double(),
## .. Spa = col_double(),
## .. VRDeck = col_double(),
## .. Name = col_character(),
## .. Transported = col_logical()
## .. )
## - attr(*, "problems")=<externalptr>
“structure” (yapı) kısaltmasıdır ve genellikle bir veri çerçevesinin yapısını incelemek için kullanılır. Bu kod, belirli bir veri çerçevesinin içeriği ve yapısı hakkında genel bir bilgi sağlar.
str(train) kodunun yaptığı bazı şeyler:
Veri Çerçevesinin Yapısı: str fonksiyonu, veri çerçevesinin temel yapısını (structure) gösterir. Bu, veri çerçevesindeki değişkenlerin adlarını ve türlerini içerir.
Veri Çerçevesindeki Değişkenlerin Türleri: Her bir değişkenin türü (integer, character, factor, vb.) str tarafından gösterilir.
İlk Gözlemler: Veri çerçevesinin başındaki birkaç gözlemi gösterir.
library(DataExplorer)
create_report(train)
##
##
## processing file: report.rmd
##
|
| | 0%
|
|. | 2%
|
|.. | 5% [global_options]
|
|... | 7%
|
|.... | 10% [introduce]
|
|.... | 12%
|
|..... | 14% [plot_intro]
|
|...... | 17%
|
|....... | 19% [data_structure]
|
|........ | 21%
|
|......... | 24% [missing_profile]
|
|.......... | 26%
|
|........... | 29% [univariate_distribution_header]
|
|........... | 31%
|
|............ | 33% [plot_histogram]
|
|............. | 36%
|
|.............. | 38% [plot_density]
|
|............... | 40%
|
|................ | 43% [plot_frequency_bar]
|
|................. | 45%
|
|.................. | 48% [plot_response_bar]
|
|.................. | 50%
|
|................... | 52% [plot_with_bar]
|
|.................... | 55%
|
|..................... | 57% [plot_normal_qq]
|
|...................... | 60%
|
|....................... | 62% [plot_response_qq]
|
|........................ | 64%
|
|......................... | 67% [plot_by_qq]
|
|.......................... | 69%
|
|.......................... | 71% [correlation_analysis]
|
|........................... | 74%
|
|............................ | 76% [principal_component_analysis]
|
|............................. | 79%
|
|.............................. | 81% [bivariate_distribution_header]
|
|............................... | 83%
|
|................................ | 86% [plot_response_boxplot]
|
|................................. | 88%
|
|................................. | 90% [plot_by_boxplot]
|
|.................................. | 93%
|
|................................... | 95% [plot_response_scatterplot]
|
|.................................... | 98%
|
|.....................................| 100% [plot_by_scatterplot]
## output file: C:/Users/pc/Desktop/Final Projesi/report.knit.md
## "C:/Program Files/RStudio/resources/app/bin/quarto/bin/tools/pandoc" +RTS -K512m -RTS "C:\Users\pc\Desktop\FINALP~1\REPORT~1.MD" --to html4 --from markdown+autolink_bare_uris+tex_math_single_backslash --output pandoc62c2e57dc7.html --lua-filter "C:\Users\pc\AppData\Local\R\win-library\4.3\rmarkdown\rmarkdown\lua\pagebreak.lua" --lua-filter "C:\Users\pc\AppData\Local\R\win-library\4.3\rmarkdown\rmarkdown\lua\latex-div.lua" --embed-resources --standalone --variable bs3=TRUE --section-divs --table-of-contents --toc-depth 6 --template "C:\Users\pc\AppData\Local\R\win-library\4.3\rmarkdown\rmd\h\default.html" --no-highlight --variable highlightjs=1 --variable theme=yeti --mathjax --variable "mathjax-url=https://mathjax.rstudio.com/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML" --include-in-header "C:\Users\pc\AppData\Local\Temp\RtmpkNiGpH\rmarkdown-str62c670540f6.html"
##
## Output created: report.html
Grafiği solunda yer alan ölçülerin
adlarını ifade etmektedir.
Ölçülerde ilk olarak karşımıza ayrık sütunlar yüzdesi bizi karşımakta Ayrık sütunlar yüzdesi %57.1 olarak karşımıza çıkmaktadır.
Sütunların ikinci kısmını oluşturan sürekli sütunların ise oranının %42.9 olarak gözlemlenmektedir.
Burada arık sütunlarının sürekli sütunlara göre daha fazla olduğu gözlemlenmektedir.
Eksik sütunların değerinin %0 olmasını anlamı ise eksik sütun olmadığını gösterir.
“Complete rows” ifadesi genellikle veri setindeki satırların tam ve eksiksiz olarak doldurulmuş olup olmadığını belirtir. Yani, bir satırın tüm değişkenleri için bilgi içerdiği durumları ifade eder. Toplam satırların içinde hangi yüzde oranında tam ve eksiksiz bilgi içeren satırların bulunduğunu gösterir.
Complete row yüzdesi %76.0’dır. %76 yüksek bir yüzdeliktir.veri setinde çoğu satırın eksiksiz bilgiye sahiptir.
“Missing observations” ifadesi, bir yüzde grafiğinde genellikle eksik değerlere sahip olan gözlemlerin yüzde oranını ifade eder. Yani, veri setindeki herhangi bir değişkenin eksik (NaN veya NA) değerlere sahip olan gözlemleri temsil eder.
Bu ifade, eksik değerlerin veri setinde ne kadar yaygın olduğunu gösterir. Eksik gözlemler, veri analizi ve modelleme süreçlerinde dikkate alınması gereken önemli bir konudur. Eksik değerlere sahip gözlemler, analiz sonuçlarını etkileyebilir ve eksik veri yönetimi, doğru sonuçlar elde etmek için önemlidir.
“missing observations” yüzde grafiği, herhangi bir değişkenin eksik gözlemlerinin toplam gözlem sayısı içindeki yüzde oranını gösterir. Bu oranın yüksek olması, eksik veri sorunlarının önemli olabileceğini gösterir.
Bizim yüzdelik oranımız ise %1.9’dur.
Eksik veri profili grafiği genellikle eksik değerlerin değişkenlere göre dağılımını görsel olarak temsil eden bir grafiktir. Bu grafikte, her bir değişken için eksik değerlerin yüzdesini gösteren bir çubuk veya çizgi grafiği kullanılır. Bu, her değişkenin eksik değerlerinin oranını görmemize olanak tanır.
Eksik veri profili grafiğinde eksik değerlerin yüzdesini incelediğinizde, her bir değişkenin eksik değer oranının belirli bir aralıkta (band) olduğunu gözlemleyebiliriz.
Bu, veri setindeki değişkenler arasında eksik veri durumlarının benzer bir şekilde dağıldığını veya farklılık gösterdiğini anlamak için kullanılabilir. Bu bilgi, eksik veri yönetimi stratejilerini belirlemede ve eksik değerlerin etkisini değerlendirmede yardımcı olabilir.
1.Tranported yüzdelik oranı %0’dır.Transported üzerinde eksik bilgi bulunmamaktadır.
2.PassengerId yüzdelik oranı %0’dır. PassengerId üzerinde transported’da görüldüğü gibi eksik bilgi yoktur.
3.Age yüzdelik oranı %2.06’dır. Yolcuların yaşına bakıldığında eksik bilgiler bulunmaktadır.
4.RoomService yüzdelik oranı %2.08’dir. Yolcuların Uzay Gemisi Titanic’in birçok lüks olanağının her birinde fatura ettiği tutarda da eksik bilgiler bulunmaktadır
5.Destination yüzdelik oranı %2.09’dur. Yolcuların ineceği gezegenlerde de eksik bilgiler bulunmaktadır.
6.Spa yüzdelik oranı %2.11’dir.
7.FoodCourt yüzdelik oranı %2.11’dir.
8.VRDeck yüzdelik oranı %2.16’dır.
9.Cabin yüzdelik oranı %2.29’dur.Yolcuların kaldığı kabin numaralarında da eksik bilgilere rastlanmaktadır.
10.Name yüzdelik oranı %2.3’tür.Yolcuların adı ve soyadında da eksik bilgiler bulunmaktadır.
11.HomePlanet yüzdelik oranı %2.31’dir.Yolcuların ayrıldığı gezegen, genellikle daimi ikamet ettikleri gezegenlerdede eksik bilgiler bulunmaktadır.
12.VIP yüzdelik oranı %2.34’tür.Yolcuların yolculuk sırasında özel VIP hizmeti için ödeme yapıp yapmadığı hakkında eksik bilgiler vardır.
13.ShoppingMall yüzdelik oranı %2.39’dur.