İLK PROJE

.R yükleme

.Rmarkdown başlangıç

.Web sayfasını hazırlama

.İnternete yükleme

FORMÜL YAZMA

Formül yazmak için latexten yardım alınır.Örneğin bir denklem yazmak için :

\[ \int_{0}^{2k}\sin(x)dx \]

\[ \sum_{k=1}^{n}\frac{1}{n^2}=\frac{\pi^2}{6} \] Başka bir örnek :

\[ (a_1+a_2)^2=a_1^2+2a_1a_2+a_2^2 \] şeklinde formüller elde edilir.

Satır içi denklem girmek için denklem komutları metnin içinde \(..\) karakterleri arasında yazılmalıdır.Örneğin metin içinde \(y=x^2+1\) şeklinde yazılırsa:

\[y=x^2+1\] şeklinde görülür.

GRAFİK OLUŞTURMA

ggplot2 paketini yükle

library(ggplot2)

örnek veri oluştur

data <- data.frame(
  Grup = c("A", "B", "C", "D"),
  Değer = c(23, 45, 56, 78)
)

sütun grafiğini oluştur

ggplot(data, aes(x = Grup, y = Değer))+
  geom_bar(stat = "identity")

library(ggplot2)
data <- data.frame(
  Değer = rnorm(100) # 100 adet normal dağılımlı rastgele sayı oluştur
)
ggplot(data , aes(x=Değer))+
  geom_density(fill = "skyblue", color = "blue")

MAKİNE ÖĞRENMESİNİ AÇIKLAYIN:

Makine öğrenimi (ML), tükettikleri verilere göre öğrenen ya da performansı iyileştiren sistemler oluşturmaya odaklanan bir yapay zeka (AI) alt kümesidir. Yapay zeka, insan zekasını taklit eden sistemler veya makineler anlamına gelen kapsamlı bir terimdir. Makine öğrenimi ve yapay zeka genellikle bir arada değerlendirilir. Kimi durumlarda birbirinin yerine kullanılır ancak aynı anlama gelmezler. Tüm makine öğrenimi çözümleri yapay zeka iken tüm yapay zeka çözümlerinin makine öğrenimi olmaması önemli bir ayrımdır.

Günümüzde makine öğrenimi her yerde çalışıyor. Bankalarla etkileşim kurduğumuzda, online alışveriş yaptığımızda veya sosyal medyayı kullandığımızda verimli, sorunsuz ve güvenli bir deneyim elde etmemiz için makine öğrenimi algoritmaları devreye giriyor. Makine öğrenimi ve bu çerçevedeki teknoloji hızla gelişiyor ve keşfettiğimiz özellikleri buz dağının yalnızca görünen yüzü.

KAGGLE PROJESİ

## Spacehip Titanic (Kaggle Tanıtımı)

“2912 yılına hoş geldiniz, burada veri bilimi becerilerinizin bir kozmik gizemi çözmek için gerektiği bir zamandayız. Dört ışık yılı uzaklıktan bir ileti aldık ve durum iyi görünmüyor.

Uzay Gemisi Titanic, bir ay önce fırlatılan bir yıldızlararası yolcu gemisiydi. Yaklaşık 13.000 yolcuyla yola çıkan gemi, Güneş sistemimizden üç yeni yaşanabilir yıldız etrafında dönen gezegenlere göçmenleri taşıyarak ilk seferine başladı.

İlk varış noktası olan 55 Cancri E’ye, Alfa Centauri’yi dolaşırken, dikkatsiz Uzay Gemisi Titanic, bir toz bulutunun içinde gizlenmiş bir uzay-zaman anormalliğiyle çarpıştı. Ne yazık ki, adını taşıdığı gemiye bin yıl önceki kaderle benzer bir kaderi paylaştı. Gemi bütünlüğünü korudu, ancak neredeyse yolcuların yarısı alternatif bir boyuta taşındı!

Kurtarma ekiplerine yardım etmek ve kayıp yolcuları kurtarmak için, uzay gemisinin hasar görmüş bilgisayar sisteminden kurtarılan kayıtları kullanarak hangi yolcuların anormallik tarafından taşındığını tahmin etmeniz isteniyor.

Onları kurtarmaya yardım edin ve tarihi değiştirin!”

ORTALAMA , STANDART SAPMA , KOVARYANS VE KORELASYON NEDİR ?

Ortalama : Ortalama veya merkezsel konum ölçüleri, istatistik bilim dalında ve veri analizinde kullanılan bir veri dizisinin orta konumunu, tek bir sayı ile ifade eden betimsel istatistik ölçüsüdür. Günlük hayatta ortalama dendiğinde genellikle kast edilen aritmetik ortalama olmakla beraber bu ölçünün çok belirli bazı dezavantajları söz konusudur. Bu yüzden matematik ve istatistikte, bir anakütle veya örneklem veri dizisi değerlerini temsil eden tek bir orta değer veya beklenen değer, olarak medyan (ortanca), mod (tepedeğer), geometrik ortalama, harmonik ortalama vb adlari verilen birçok değişik merkezsel konum ölçüleri geliştirilmiş ve pratikte kullanılmaktadır.

Ortalama Formülü:

\[ a1+a2+a3+...+an=x \] ise bu sayıların ortalaması:

\[ x/n \] > Ortalama İle İlgili Örnek:

Örnek olarak “12, 20, 14, 10” yaşlarında olan 4 kişinin yaşlarının aritmetik ortalamasını hesaplayalım.

Çözüm: Tüm yaşlar toplanır ve 56 bulunur. Elde edilen toplam 4 kişi olduğundan, 4 kişinin yaşını hesapladığımızdan 4’e bölünür. Sonuç olarak aritmetik ortalama 56/4 işleminin ardından 14 olarak bulunur.

Standart Sapma: Standart sapma varyansın kareköküdür. Daha matematiksel bir ifade ile standart sapma veri değerlerinin aritmetik ortalamadan farklarının karelerinin toplamının veri sayısı -1’e bölümünün kareköküdür, yani verilerin ortalamadan sapmalarının kareler ortalamasının karekökü olarak tanımlanır. Standart sapma kavramının yayılma ölçüsü olarak kullanılmasını anlamak için ölçüm birimine bakmak gerekir. Diğer yayılma ölçüsü olan varyans verilerin ortalamadan farklarının karelerinin ortalaması olarak tanımlanır. Böylece varyans ölçüsü için veri birimlerinin karesi alınması gerekir ve varyansın birimi veri biriminin karesidir. Bu durum pratikte istenmeyen sonuçlar yaratabilir (Örneğin veriler birimi kilogram ise varyans birimi kilogram kare olur). Bundan kaçınmak için standart sapma için varyansın karekökü alınarak standart sapma birim veri birimi olması sağlanır ve verinin yayılımı böylece veri birimleri ile ölçülür.

Standart Sapma Formülü :

\[ \sigma=\sqrt{\frac{1}{n}{\sum_{i=1}^n(x_i-\bar{x} )^2}} \]
>Kovaryans Ve Korelasyon: Biraz bahsedecek olursak kovaryans katsayısı değişkenler arasındaki ilişkiyi aynı veya zıt yönde olarak belirler. Değişkenler arasındaki ilişkinin derecesinin kuvvetli veya zayıf gibi şiddeti hakkında bilgiyi ise bize korelasyon katsayısı verir.

Kovaryans Ve Korelasyon Formülü:

\[ Cov(X_İ,X_J)=E((X_İ-E(X_İ))((X_J-E(X_J)))=E(X_İX_J)-E(X_İ)E(X_J) \]

\[ r=\Sigma(X_i-\hat{X})(Y_i-\hat{Y})/\Sigma(X_i-\hat{X})^2\Sigma(Y_i-\hat{Y})^2 \]

VERİ SETİ AÇIKLAMASI

train.csv - Personal records for about two-thirds (~8700) of the passengers, to be used as training data. PassengerId - A unique Id for each passenger. Each Id takes the form gggg_pp where gggg indicates a group the passenger is travelling with and pp is their number within the group. People in a group are often family members, but not always. HomePlanet - The planet the passenger departed from, typically their planet of permanent residence. CryoSleep - Indicates whether the passenger elected to be put into suspended animation for the duration of the voyage. Passengers in cryosleep are confined to their cabins. Cabin - The cabin number where the passenger is staying. Takes the form deck/num/side, where side can be either P for Port or S for Starboard. Destination - The planet the passenger will be debarking to. Age - The age of the passenger. VIP - Whether the passenger has paid for special VIP service during the voyage. RoomService, FoodCourt, ShoppingMall, Spa, VRDeck - Amount the passenger has billed at each of the Spaceship Titanic’s many luxury amenities. Name - The first and last names of the passenger.

PassengerId - Her yolcu için benzersiz bir kimlik. Her kimlik, gggg_pp biçiminde olup, gggg yolcu ile seyahat eden grubu gösterir ve pp grubun içindeki sıra numarasını belirtir. Bir grup içindekiler genellikle aile üyeleridir, ancak her zaman değil.

HomePlanet - Yolcunun ayrıldığı gezegen, genellikle kalıcı ikamet gezegenidir.

CryoSleep - Yolcunun seyahat süresince askıya alınmak üzere seçilip seçilmediğini belirtir. Cryosleep’te olan yolcular kabinlerine kapatılır.

Cabin - Yolcunun kaldığı kabin numarası. Şekli deck/num/side’dir, side P (Port) veya S (Starboard) olabilir.

Destination - Yolcunun iniş yapacağı gezegen.

Age - Yolcunun yaşı.

VIP - Yolcunun seyahat sırasında özel VIP hizmeti için ödeme yapılıp yapılmadığını belirtir.

RoomService, FoodCourt, ShoppingMall, Spa, VRDeck - Yolcunun Spaceship Titanic’in birçok lüks olanaklarından her birinde ne kadar harcama yaptığını gösterir.

Name - Yolcunun adı ve soyadı.

Transported - Yolcunun başka bir boyuta taşınıp taşınmadığını belirtir. Bu, tahmin etmeye çalıştığınız hedef sütundur.

test.csv - Personal records for the remaining one-third (~4300) of the passengers, to be used as test data. Your task is to predict the value of Transported for the passengers in this set. sample_submission.csv - A submission file in the correct format. PassengerId - Id for each passenger in the test set. Transported - The target. For each passenger, predict either True or False.

library(readr)
test<- read_csv("test.csv")
## Rows: 4277 Columns: 13
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (2): CryoSleep, VIP
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(test)
test
## # A tibble: 4,277 × 13
##    PassengerId HomePlanet CryoSleep Cabin Destination   Age VIP   RoomService
##    <chr>       <chr>      <lgl>     <chr> <chr>       <dbl> <lgl>       <dbl>
##  1 0013_01     Earth      TRUE      G/3/S TRAPPIST-1e    27 FALSE           0
##  2 0018_01     Earth      FALSE     F/4/S TRAPPIST-1e    19 FALSE           0
##  3 0019_01     Europa     TRUE      C/0/S 55 Cancri e    31 FALSE           0
##  4 0021_01     Europa     FALSE     C/1/S TRAPPIST-1e    38 FALSE           0
##  5 0023_01     Earth      FALSE     F/5/S TRAPPIST-1e    20 FALSE          10
##  6 0027_01     Earth      FALSE     F/7/P TRAPPIST-1e    31 FALSE           0
##  7 0029_01     Europa     TRUE      B/2/P 55 Cancri e    21 FALSE           0
##  8 0032_01     Europa     TRUE      D/0/S TRAPPIST-1e    20 FALSE           0
##  9 0032_02     Europa     TRUE      D/0/S 55 Cancri e    23 FALSE           0
## 10 0033_01     Earth      FALSE     F/7/S 55 Cancri e    24 FALSE           0
## # ℹ 4,267 more rows
## # ℹ 5 more variables: FoodCourt <dbl>, ShoppingMall <dbl>, Spa <dbl>,
## #   VRDeck <dbl>, Name <chr>
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ stringr   1.5.1
## ✔ forcats   1.0.0     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
test <- read_csv("test.csv")
## Rows: 4277 Columns: 13
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (2): CryoSleep, VIP
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
str(test)
## spc_tbl_ [4,277 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ PassengerId : chr [1:4277] "0013_01" "0018_01" "0019_01" "0021_01" ...
##  $ HomePlanet  : chr [1:4277] "Earth" "Earth" "Europa" "Europa" ...
##  $ CryoSleep   : logi [1:4277] TRUE FALSE TRUE FALSE FALSE FALSE ...
##  $ Cabin       : chr [1:4277] "G/3/S" "F/4/S" "C/0/S" "C/1/S" ...
##  $ Destination : chr [1:4277] "TRAPPIST-1e" "TRAPPIST-1e" "55 Cancri e" "TRAPPIST-1e" ...
##  $ Age         : num [1:4277] 27 19 31 38 20 31 21 20 23 24 ...
##  $ VIP         : logi [1:4277] FALSE FALSE FALSE FALSE FALSE FALSE ...
##  $ RoomService : num [1:4277] 0 0 0 0 10 0 0 0 0 0 ...
##  $ FoodCourt   : num [1:4277] 0 9 0 6652 0 ...
##  $ ShoppingMall: num [1:4277] 0 0 0 0 635 263 0 0 0 0 ...
##  $ Spa         : num [1:4277] 0 2823 0 181 0 ...
##  $ VRDeck      : num [1:4277] 0 0 0 585 0 60 0 0 0 0 ...
##  $ Name        : chr [1:4277] "Nelly Carsoning" "Lerome Peckers" "Sabih Unhearfus" "Meratz Caltilter" ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   PassengerId = col_character(),
##   ..   HomePlanet = col_character(),
##   ..   CryoSleep = col_logical(),
##   ..   Cabin = col_character(),
##   ..   Destination = col_character(),
##   ..   Age = col_double(),
##   ..   VIP = col_logical(),
##   ..   RoomService = col_double(),
##   ..   FoodCourt = col_double(),
##   ..   ShoppingMall = col_double(),
##   ..   Spa = col_double(),
##   ..   VRDeck = col_double(),
##   ..   Name = col_character()
##   .. )
##  - attr(*, "problems")=<externalptr>
unique(test$HomePlanet)
## [1] "Earth"  "Europa" "Mars"   NA
unique(test$Destination)
## [1] "TRAPPIST-1e"   "55 Cancri e"   "PSO J318.5-22" NA
test[test == ""] <- NA

Bu kısımda sütunları tek tek ayırdık.

 test[c('sütun1', 'sütun2', 'sütun3')] <-str_split_fixed(test$Cabin,'/', 3)

PassengerId sütununun içinde iki tane bilgi vardı.Bu kısımda bu ve bu iki bilgiyi çıkarttık.(ailenum ve ailesıra)

test[c('ailenum','ailesıra')] <- str_split_fixed(test$PassengerId,"_",2)
test <- test %>% select(- Cabin)
library(dplyr)
library(tidyr)
test <- test %>% group_by(HomePlanet,Destination) %>%
  mutate(Age = replace_na(Age,mean(Age, na.rm = TRUE)))
table(test$Transported) / length(test$Transported)
## Warning: Unknown or uninitialised column: `Transported`.
## Unknown or uninitialised column: `Transported`.
## numeric(0)
ggplot(test, aes(x = HomePlanet, fill = factor(HomePlanet))) +
  geom_bar() +
  labs(title = "HomePlanet", y = "Frequency")

ggplot(test, aes(x = Destination, fill = factor(Destination))) +
  geom_bar() +
  labs(title = "Destination", y = "Frequency")

ggplot(test, aes(x = HomePlanet, fill = factor(HomePlanet))) +
  geom_bar() +
  labs(title = "HomePlanet", y = "Frequency")

ggplot(test, aes(x = sütun1, fill = factor(sütun1))) +
  geom_bar() +
  labs(title = "sütun1", y = "Frequency")

ggplot(test, aes(x = Age)) +
  geom_histogram(fill = "skyblue", color = "black")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.