ilk proje

.R yükleme

.Rmarkdown başlangıç

. Web sayfasını hazırlama

.internet yükleme

Formül yazma

# Gerekli kütüphaneleri yükleyin
library(ggplot2)

## Warning: le package 'ggplot2' a été compilé avec la version R 4.3.3

# Veri çerçevesini oluşturun (örnek veriler)
years <- 2011:2021
turkey_inflation <- c(64.86, 67.07, 69.1, 71.12, 72.89, 67.07, 64.86, 65.74, 67.07, 64.86, 67.07)
canada_inflation <- c(2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9)

# Veri çerçevesini oluşturun
inflation_data <- data.frame(Year = years, Turkey = turkey_inflation, Canada = canada_inflation)

# Çizim
ggplot(inflation_data, aes(x = Year)) +
  geom_line(aes(y = Turkey, color = "Turkey"), size = 1) +
  geom_line(aes(y = Canada, color = "Canada"), size = 1) +
  labs(title = "Türkiye ve Kanada Enflasyonu (2011-2021)",
       x = "Yıl",
       y = "Enflasyon Oranı",
       color = "Ülke") +
  theme_minimal()

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Makine öğrenmesi Açıklayın

Tanım: Makine öğrenmesi, bilgisayarları verilerden öğrenmeyi öğretmeye ve bunu yapmak için açıkça programlanmak yerine deneyimle geliştirmeye odaklanır. Algoritmalar büyük veri kümelerinde desenleri ve korelasyonları bulmak ve bu analize dayalı en iyi kararları ve tahminleri yapmak için eğitilir. Makine öğrenmesi uygulamaları kullanımla gelişir ve daha fazla veri erişimi olduğunda daha doğru hale gelir.

Yapay zekâ

Yapay Zeka ile İlişkisi: Makine öğrenmesi, yapay zekanın (AI) bir alt kümesidir. Yapay zeka, verileri işleyerek kararlar ve tahminler yapar. Makine öğrenmesi algoritmaları ise bu verileri işlemesine gerek kalmadan daha akıllı bir şekilde öğrenmesini ve sonuçlar elde etmesini sağlar.

Derin öğrenme

Derin Öğrenme: Derin öğrenme, nöral ağların birçok katmanını ve büyük hacimli karmaşık verileri içerdiği için “derin” olarak adlandırılır. Bu tür makine öğrenimi, konuşma tanıma, görüntü sınıflandırması ve eczacılık analizi gibi uygulamalarda kullanılır.

Kaggle Projesi

Spacehip Titanic (Kaggle Taıtımı)

Hoş geldiniz 2912 yılına, burada veri bilimi yeteneklerinizin bir kozmik gizemi çözmek için gerektiği bir yerdesiniz. Dört ışık yılı uzaktan bir ileti aldık ve durum pek iç açıcı değil.

Uzay Gemisi Titanic, bir ay önce fırlatılan yıldızlar arası bir yolcu gemisiydi. Yaklaşık 13,000 yolcuyla donatılmış olarak, gemi, güneş sistemimizden ayrılarak, yakındaki yıldızlar etrafında dönen üç yeni yaşanabilir ötegezegenine göçmen taşıyan ilk seferine çıktı.

Alpha Centauri’yi dönerken ilk varış noktasına - kavurucu 55 Cancri E’ye - ulaşma yolunda, dikkatsiz Uzay Gemisi Titanic, bir toz bulutu içinde gizlenmiş bir uzay-zaman anormalliği ile çarpıştı. Maalesef, bin yıl öncesinin adını taşıyan gemi gibi benzer bir kaderi paylaştı. Gemisi sağlam kalsa da, yolcuların neredeyse yarısı alternatif bir boyuta taşındı!

Kurtarma ekiplerine yardımcı olmak ve kaybolan yolcuları kurtarmak için, sizi geminin hasar görmüş bilgisayar sisteminden kurtarılan kayıtları kullanarak anomali tarafından taşınan hangi yolcuların olduğunu tahmin etmeye çağırıyoruz.

Onları kurtarmaya yardımcı olun ve tarihi değiştirin!

Ortalama, standart sapma, kovaryans ve korelasyon nedir?

. Formüllerini yazın -Örnek yazın . Örneği çözün

Ortalama

Ortalama, istatistik bilim dalında ve veri analizinde kullanılan bir veri dizisinin orta konumunu, tek bir sayı ile ifade eden betimsel istatistik ölçüsüdür. Günlük hayatta ortalama dendiğinde genellikle kast edilen aritmetik ortalama olmakla beraber, matematik ve istatistikte farklı merkezsel konum ölçüleri de kullanılır. İşte bazı ortalama tipleri:

Aritmetik Ortalama: Bir veri dizisinin elemanlarının toplamının eleman sayısına bölünmesiyle elde edilir. Bu ölçüm sıkça kullanılır, ancak bazı eksik yönleri vardır. Özellikle verilerin ölçülme ölçeğinin aralıklı veya oransal olması gerekir. İsimsel ölçekli veriler için aritmetik ortalama anlamsızdır. Medyan (Ortanca): Veri dizisini sıraladığımızda ortadaki değeri ifade eder. Eğer veri sayısı çiftse, ortadaki iki değerin aritmetik ortalaması alınır. Mod (Tepedeğer): Veri dizisinde en sık tekrar eden değeri ifade eder. Mod, kategorik verilerde de kullanılır. Geometrik Ortalama: Çarpma işlemi ile hesaplanır ve genellikle oranlarla ilgili verilerde kullanılır. Harmonik Ortalama: Ters oranların aritmetik ortalamasıdır ve özellikle hız, zaman ve oranlarla ilgili problemlerde kullanılır.

standart sapma

Standart sapma, bir veri grubundaki sayıların aritmetik ortalamaya göre nasıl bir yayılım gösterdiğini ölçen bir yöntemdir. Bu istatistiksel kavram, veri grubundaki elemanların aritmetik ortalamaya yakınlığını veya uzaklığını ifade eder. İki farklı veri grubunun aritmetik ortalaması aynı ise, açıklığı büyük olanın standart sapması büyük, küçük olanın ise standart sapması küçük olur. Standart sapma, veri grubundaki değerlerin dağılımını anlamamıza yardımcı olur.

Standart sapma hesaplamak için aşağıdaki adımları izleriz:

Veri grubunun aritmetik ortalaması bulunur. Her bir sayının aritmetik ortalama ile arasındaki fark hesaplanır. Her bir sayının aritmetik ortalamadan farkının karesi alınır. Farkların kareleri toplanır. Toplamın sonucu, veri grubundaki sayı adetini bir eksiğine bölünür. Çıkan sonucun karekökü alınır.

Kovaryans

Kovaryans, iki rastgele değişkenin birlikte ne kadar değiştiklerinin ölçüsüdür. İki değişken arasındaki doğrusal ilişkinin değişkenliğini ifade eder. Kovaryansın işareti, değişkenler arasındaki doğrusal ilişki eğilimini gösterir. İşte daha detaylı bilgi:

Tanım: Kovaryans, iki rastgele değişkenin beraber değişimlerini inceleyen bir istatistiktir. Özel bir durum olarak, iki değişken birbirine özdeşse, kovaryans o tek özdeş değişkenin varyansı olur. İki değişkenin birbirine benzer (eş) işlevli olması kovaryant; iki değişkenin birbirine zıt işlevli olması kontravaryant olarak ifade edilir 1. İşaret ve İlişki: Kovaryansın işareti, değişkenler arasındaki doğrusal ilişki eğilimini gösterir. Pozitif kovaryans, değişkenlerin benzer davranış gösterme eğiliminde olduğunu ifade eder. Negatif kovaryans ise değişkenlerin zıt davranış gösterme eğiliminde olduğunu gösterir. Büyüklük: Kovaryansın büyüklüğü, iki rastgele değişken için ortak olan varyansların geometrik ortalamasıdır.

Korelasyon: Korelasyon katsayısı, iki rastgele değişken için toplam varyansların geometrik ortalamasına bölünerek kovaryansı normalleştirir. Korelasyon, kovaryansın boyutsuz bir ölçüsüdür ve iki değişken arasındaki ilişkinin gücünü ifade eder 2. Kovaryans, istatistikte önemli bir kavramdır ve değişkenler arasındaki ilişkiyi anlamak için kullanılır.

korelasyon

Korelasyon, iki veya daha fazla değişken arasındaki ilişkiyi ölçen istatistiksel bir kavramdır. Bu ilişki, değişkenlerin birlikte nasıl değiştiğini veya birbirlerini nasıl etkilediğini gösterir. Korelasyon, bu ilişkinin gücünü ve yönünü belirlememize yardımcı olur

Korelasyon Katsayısı: Korelasyon katsayısı, iki değişken arasındaki ilişkinin derecesini ifade eder. Değişkenler arasındaki ilişkiyi anlamak için kullanılır. Korelasyon katsayısı, -1 ile +1 arasında değer alır: Pozitif (+) korelasyon, değişkenlerin benzer davranış gösterme eğiliminde olduğunu ifade eder. Negatif (-) korelasyon, değişkenlerin zıt davranış gösterme eğiliminde olduğunu gösterir. 0 korelasyon ise iki değişken arasında herhangi bir ilişki olmadığını ifade eder.

Korelasyon, ekonomiden bilime, pazarlamadan tıbba kadar birçok endüstride kullanılır. Ancak unutulmamalıdır ki korelasyon, iki değişken arasında sebep-sonuç ilişkisi olmadan da yüksek bir değer çıkabilir. Bu nedenle araştırmacının modelini sağlam kurması önemlidir.

Ortalama-Formülü-Örneği-Çözümü

# Örnek veri oluşturma
veri <- c(10, 20, 30, 40, 50)

# Verinin ortalamasını hesaplama
ortalama <- mean(veri)

# Sonucu ekrana yazdırma
print(ortalama)

## [1] 30

Standart sapma -Formülü-Örneği-Çözümü

# Örnek veri oluşturma
veri <- c(23, 45, 56, 34, 67, 32, 55, 21, 44)

# Standart sapma hesaplama
standart_sapma <- sd(veri)
print(standart_sapma)

## [1] 15.68793

Kovaryans -Formülü-Örneği-Çözümü

# Örnek veri setini oluşturalım
x <- c(1, 2, 3, 4, 5)  # Birinci değişken
y <- c(3, 4, 2, 5, 1)  # İkinci değişken

# Kovaryansı hesaplayalım
covariance <- cov(x, y)
print(covariance)

## [1] -0.75

Korelasyon-Formülü-Örneği-Çözümü

# Iris veri setini yükle
data(iris)

# Korelasyon matrisini hesapla
correlation_matrix <- cor(iris[, 1:4])

# Korelasyon matrisini göster
print(correlation_matrix)

##              Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
## Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259
## Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
## Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000

library(readr)

## Warning: le package 'readr' a été compilé avec la version R 4.3.3

test <- read_csv("~/test.csv")

## Rows: 4277 Columns: 13
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (2): CryoSleep, VIP
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

View(test)

library(readr)
train <- read_csv("~/train.csv")

## Rows: 8693 Columns: 14
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (3): CryoSleep, VIP, Transported
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

View(train)

library(readr)
sample_submission <- read_csv("~/sample_submission.csv")

## Rows: 4277 Columns: 2
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): PassengerId
## lgl (1): Transported
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

View(sample_submission)

library(WDI)

## Warning: le package 'WDI' a été compilé avec la version R 4.3.3

library(ggplot2)

library(dplyr)

## Warning: le package 'dplyr' a été compilé avec la version R 4.3.3

## 
## Attachement du package : 'dplyr'

## Les objets suivants sont masqués depuis 'package:stats':
## 
##     filter, lag

## Les objets suivants sont masqués depuis 'package:base':
## 
##     intersect, setdiff, setequal, union

library(readr)

library(rmarkdown)

TRAIN VE TEST NEDIR?

Makine öğrenmesinde, veri setlerini eğitim ve test alt kümelerine ayırmak önemlidir. İşte bu kavramların anlamları:

Train Veri Seti: Eğitim veri seti olarak da bilinir. Temel modelleme denemeleri yapmak için kullanılır. En doğru makine öğrenmesi algoritması seçilmeye çalışılır. Bu veri seti, en fazla örneklem alınan gözlemlerden oluşur. Genellikle veri setinin %60 ila %90’ı arasında bir bölümü eğitim için ayrılır.

Validation (Doğrulama) Veri Seti: Eğitim veri seti içinden seçilir. Model seçimi ve algoritma belirleme amacıyla kullanılır. Hiper parametre ayarları ve model iyileştirmeleri bu veri seti üzerinde yapılır. Özellikle büyük veri setlerinde sürekli eğitim verisi üzerinde çalışmak mümkün olmadığından küçük bir bölüm validation olarak ayrılır. Test Veri Seti: Validation verisinin yer aldığı eğitim veri setinden kalan bölüme denir. Modelin gerçek dünya verilerine ne kadar iyi uyum sağlayabileceğini test etmek için kullanılır. Daha önce eğitim veri seti üzerinden öğrenilmiş makine öğrenmesi modeli bu veri seti üzerinde uygulanır. Bu ayrılmış alt kümeler sayesinde, modelin performansını objektif bir şekilde değerlendirebiliriz.

paged_table(train)

paged_table(test)

hist(train$Age)

hist(train$RoomService)

hist(train$ShoppingMall)

hist(train$Spa)

library(explore)

## Warning: le package 'explore' a été compilé avec la version R 4.3.3

summary(veri)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   21.00   32.00   44.00   41.89   55.00   67.00

Veri seti açıklayın

Bu yarışmada göreviniz , Uzay Gemisi Titanik’in uzay-zaman anomalisiyle çarpışması sırasında bir yolcunun alternatif bir boyuta taşınıp taşınmadığını tahmin etmektir . Bu tahminleri yapmanıza yardımcı olmak için size geminin hasarlı bilgisayar sisteminden kurtarılan bir dizi kişisel kayıt veriliyor.

Dosya ve Veri Alanı Açıklamaları

train.csv - Yolcuların yaklaşık üçte ikisinin (~8700) kişisel kayıtları, eğitim verileri olarak kullanılacak.

PassengerId- Her yolcu için benzersiz bir Kimlik. Her kimlik, yolcunun birlikte seyahat ettiği grubu belirten ve grup içindeki numarası olan gggg_ppformu alır . Bir gruptaki insanlar çoğunlukla aile üyeleridir, ancak her zaman değil.ggggpp.

HomePlanet- Yolcunun ayrıldığı gezegen, genellikle daimi ikamet ettikleri gezegen.

CryoSleep- Yolcunun yolculuk süresince askıya alınmış animasyona alınmayı seçip seçmediğini belirtir. Dondurucu uykudaki yolcular kabinlerine hapsedilir.

Cabin - Yolcunun kaldığı kabin numarası. Biçimi güverte/numara/taraf şeklindedir, taraf P (Port) için ya da S (Starboard) için olabilir..

Destination- Yolcunun ineceği gezegen.

Age- Yolcunun yaşı.

VIP- Yolcunun yolculuk sırasında özel VIP hizmeti için ödeme yapıp yapmadığı.

RoomService, FoodCourt, ShoppingMall, Spa, VRDeck- Yolcunun Uzay Gemisi Titanic’in birçok lüks olanağının her birinde fatura ettiği tutar.

Name- Yolcunun adı ve soyadı.

Transported- Yolcunun başka bir boyuta taşınıp taşınmadığı. Bu hedeftir, tahmin etmeye çalıştığınız sütundur.

test.csv - Yolcuların geri kalan üçte birinin (~4300) kişisel kayıtları, test verisi olarak kullanılacak. TransportedGöreviniz bu setteki yolcular için değerini tahmin etmektir.

sample_submission.csv - Doğru formatta bir gönderim dosyası.

PassengerId- Test setindeki her yolcunun kimliği.

Transported- Hedef. Her yolcu için veya’dan birini tahmin Trueedin False.

library(tidyverse)

## Warning: le package 'tidyverse' a été compilé avec la version R 4.3.3

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

CABIN 3 FARKLI GRUP ÇIKARMAK

train <- separate(train, Cabin, into = c("sutun1", "sutun2", "sutun3"), sep = "/", remove=FALSE)

test <- separate(test, Cabin, into = c("sutun1", "sutun2", "sutun3"), sep = "/", remove=FALSE)

summary(train)

##  PassengerId         HomePlanet        CryoSleep          Cabin          
##  Length:8693        Length:8693        Mode :logical   Length:8693       
##  Class :character   Class :character   FALSE:5439      Class :character  
##  Mode  :character   Mode  :character   TRUE :3037      Mode  :character  
##                                        NA's :217                         
##                                                                          
##                                                                          
##                                                                          
##     sutun1             sutun2             sutun3          Destination       
##  Length:8693        Length:8693        Length:8693        Length:8693       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##       Age           VIP           RoomService        FoodCourt      
##  Min.   : 0.00   Mode :logical   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:19.00   FALSE:8291      1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :27.00   TRUE :199       Median :    0.0   Median :    0.0  
##  Mean   :28.83   NA's :203       Mean   :  224.7   Mean   :  458.1  
##  3rd Qu.:38.00                   3rd Qu.:   47.0   3rd Qu.:   76.0  
##  Max.   :79.00                   Max.   :14327.0   Max.   :29813.0  
##  NA's   :179                     NA's   :181       NA's   :183      
##   ShoppingMall          Spa              VRDeck            Name          
##  Min.   :    0.0   Min.   :    0.0   Min.   :    0.0   Length:8693       
##  1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0   Class :character  
##  Median :    0.0   Median :    0.0   Median :    0.0   Mode  :character  
##  Mean   :  173.7   Mean   :  311.1   Mean   :  304.9                     
##  3rd Qu.:   27.0   3rd Qu.:   59.0   3rd Qu.:   46.0                     
##  Max.   :23492.0   Max.   :22408.0   Max.   :24133.0                     
##  NA's   :208       NA's   :183       NA's   :188                         
##  Transported    
##  Mode :logical  
##  FALSE:4315     
##  TRUE :4378     
##                 
##                 
##                 
##

summary(test)

##  PassengerId         HomePlanet        CryoSleep          Cabin          
##  Length:4277        Length:4277        Mode :logical   Length:4277       
##  Class :character   Class :character   FALSE:2640      Class :character  
##  Mode  :character   Mode  :character   TRUE :1544      Mode  :character  
##                                        NA's :93                          
##                                                                          
##                                                                          
##                                                                          
##     sutun1             sutun2             sutun3          Destination       
##  Length:4277        Length:4277        Length:4277        Length:4277       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##       Age           VIP           RoomService        FoodCourt      
##  Min.   : 0.00   Mode :logical   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:19.00   FALSE:4110      1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :26.00   TRUE :74        Median :    0.0   Median :    0.0  
##  Mean   :28.66   NA's :93        Mean   :  219.3   Mean   :  439.5  
##  3rd Qu.:37.00                   3rd Qu.:   53.0   3rd Qu.:   78.0  
##  Max.   :79.00                   Max.   :11567.0   Max.   :25273.0  
##  NA's   :91                      NA's   :82        NA's   :106      
##   ShoppingMall         Spa              VRDeck            Name          
##  Min.   :   0.0   Min.   :    0.0   Min.   :    0.0   Length:4277       
##  1st Qu.:   0.0   1st Qu.:    0.0   1st Qu.:    0.0   Class :character  
##  Median :   0.0   Median :    0.0   Median :    0.0   Mode  :character  
##  Mean   : 177.3   Mean   :  303.1   Mean   :  310.7                     
##  3rd Qu.:  33.0   3rd Qu.:   50.0   3rd Qu.:   36.0                     
##  Max.   :8292.0   Max.   :19844.0   Max.   :22272.0                     
##  NA's   :98       NA's   :101       NA's   :80

Farklı train boşlukları

train$HomePlanet <- as.factor(train$HomePlanet)

test$HomePlanet <- as.factor(test$HomePlanet)

train=train %>% mutate_if(is.character,as.factor)

test=test %>% mutate_if(is.character,as.factor)

ggplot(train, aes(x=RoomService))+
  geom_histogram()

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## Warning: Removed 181 rows containing non-finite outside the scale range
## (`stat_bin()`).

library(mice)

## Warning: le package 'mice' a été compilé avec la version R 4.3.3

## Warning in check_dep_version(): ABI version mismatch: 
## lme4 was built with Matrix ABI version 1
## Current Matrix ABI version is 0
## Please re-install lme4 from source or restore original 'Matrix' package

## 
## Attachement du package : 'mice'

## L'objet suivant est masqué depuis 'package:stats':
## 
##     filter

## Les objets suivants sont masqués depuis 'package:base':
## 
##     cbind, rbind

library(VIM)

## Warning: le package 'VIM' a été compilé avec la version R 4.3.3

## Le chargement a nécessité le package : colorspace

## Le chargement a nécessité le package : grid

## VIM is ready to use.

## Suggestions and bug-reports can be submitted at: https://github.com/statistikat/VIM/issues

## 
## Attachement du package : 'VIM'

## L'objet suivant est masqué depuis 'package:datasets':
## 
##     sleep

VIM::aggr(x=test,sortVars=T)

## 
##  Variables sorted by number of missings: 
##      Variable      Count
##     FoodCourt 0.02478373
##           Spa 0.02361468
##         Cabin 0.02338087
##        sutun1 0.02338087
##        sutun2 0.02338087
##        sutun3 0.02338087
##  ShoppingMall 0.02291326
##          Name 0.02197802
##     CryoSleep 0.02174421
##           VIP 0.02174421
##   Destination 0.02151040
##           Age 0.02127660
##    HomePlanet 0.02034136
##   RoomService 0.01917232
##        VRDeck 0.01870470
##   PassengerId 0.00000000

md.pattern(train[1:500,])

##     PassengerId Transported VIP Destination FoodCourt Spa VRDeck Name CryoSleep
## 376           1           1   1           1         1   1      1    1         1
## 13            1           1   1           1         1   1      1    1         1
## 14            1           1   1           1         1   1      1    1         1
## 12            1           1   1           1         1   1      1    1         1
## 3             1           1   1           1         1   1      1    1         1
## 12            1           1   1           1         1   1      1    1         1
## 2             1           1   1           1         1   1      1    1         1
## 13            1           1   1           1         1   1      1    1         1
## 1             1           1   1           1         1   1      1    1         1
## 10            1           1   1           1         1   1      1    1         0
## 1             1           1   1           1         1   1      1    1         0
## 11            1           1   1           1         1   1      1    0         1
## 6             1           1   1           1         1   1      0    1         1
## 1             1           1   1           1         1   1      0    1         1
## 1             1           1   1           1         1   1      0    1         0
## 8             1           1   1           1         1   0      1    1         1
## 4             1           1   1           1         0   1      1    1         1
## 1             1           1   1           1         0   1      1    1         1
## 1             1           1   1           1         0   1      0    1         1
## 5             1           1   1           0         1   1      1    1         1
## 1             1           1   1           0         1   1      1    1         1
## 4             1           1   0           1         1   1      1    1         1
##               0           0   4           6         6   8      9   11        12
##     RoomService HomePlanet Age Cabin sutun1 sutun2 sutun3 ShoppingMall    
## 376           1          1   1     1      1      1      1            1   0
## 13            1          1   1     1      1      1      1            0   1
## 14            1          1   1     0      0      0      0            1   4
## 12            1          1   0     1      1      1      1            1   1
## 3             1          1   0     1      1      1      1            0   2
## 12            1          0   1     1      1      1      1            1   1
## 2             1          0   1     1      1      1      1            0   2
## 13            0          1   1     1      1      1      1            1   1
## 1             0          1   1     0      0      0      0            1   5
## 10            1          1   1     1      1      1      1            1   1
## 1             1          1   1     0      0      0      0            1   5
## 11            1          1   1     1      1      1      1            1   1
## 6             1          1   1     1      1      1      1            1   1
## 1             1          1   1     0      0      0      0            1   5
## 1             1          1   1     1      1      1      1            1   2
## 8             1          1   1     1      1      1      1            1   1
## 4             1          1   1     1      1      1      1            1   1
## 1             1          1   1     0      0      0      0            1   5
## 1             1          1   1     1      1      1      1            1   2
## 5             1          1   1     1      1      1      1            1   1
## 1             1          0   1     1      1      1      1            1   2
## 4             1          1   1     1      1      1      1            1   1
##              14         15  15    18     18     18     18           18 190

summary(train)

##   PassengerId    HomePlanet   CryoSleep           Cabin          sutun1    
##  0001_01:   1   Earth :4602   Mode :logical   G/734/S:   8   F      :2794  
##  0002_01:   1   Europa:2131   FALSE:5439      B/11/S :   7   G      :2559  
##  0003_01:   1   Mars  :1759   TRUE :3037      B/201/P:   7   E      : 876  
##  0003_02:   1   NA's  : 201   NA's :217       B/82/S :   7   B      : 779  
##  0004_01:   1                                 C/137/S:   7   C      : 747  
##  0005_01:   1                                 (Other):8458   (Other): 739  
##  (Other):8687                                 NA's   : 199   NA's   : 199  
##      sutun2      sutun3            Destination        Age       
##  82     :  28   P   :4206   55 Cancri e  :1800   Min.   : 0.00  
##  19     :  22   S   :4288   PSO J318.5-22: 796   1st Qu.:19.00  
##  86     :  22   NA's: 199   TRAPPIST-1e  :5915   Median :27.00  
##  176    :  21               NA's         : 182   Mean   :28.83  
##  56     :  21                                    3rd Qu.:38.00  
##  (Other):8380                                    Max.   :79.00  
##  NA's   : 199                                    NA's   :179    
##     VIP           RoomService        FoodCourt        ShoppingMall    
##  Mode :logical   Min.   :    0.0   Min.   :    0.0   Min.   :    0.0  
##  FALSE:8291      1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0  
##  TRUE :199       Median :    0.0   Median :    0.0   Median :    0.0  
##  NA's :203       Mean   :  224.7   Mean   :  458.1   Mean   :  173.7  
##                  3rd Qu.:   47.0   3rd Qu.:   76.0   3rd Qu.:   27.0  
##                  Max.   :14327.0   Max.   :29813.0   Max.   :23492.0  
##                  NA's   :181       NA's   :183       NA's   :208      
##       Spa              VRDeck                        Name      Transported    
##  Min.   :    0.0   Min.   :    0.0   Alraium Disivering:   2   Mode :logical  
##  1st Qu.:    0.0   1st Qu.:    0.0   Ankalik Nateansive:   2   FALSE:4315     
##  Median :    0.0   Median :    0.0   Anton Woody       :   2   TRUE :4378     
##  Mean   :  311.1   Mean   :  304.9   Apix Wala         :   2                  
##  3rd Qu.:   59.0   3rd Qu.:   46.0   Asch Stradick     :   2                  
##  Max.   :22408.0   Max.   :24133.0   (Other)           :8483                  
##  NA's   :183       NA's   :188       NA's              : 200

summary(test)

##   PassengerId    HomePlanet   CryoSleep           Cabin          sutun1    
##  0013_01:   1   Earth :2263   Mode :logical   G/160/P:   8   F      :1445  
##  0018_01:   1   Europa:1002   FALSE:2640      B/31/P :   7   G      :1222  
##  0019_01:   1   Mars  : 925   TRUE :1544      D/273/S:   7   E      : 447  
##  0021_01:   1   NA's  :  87   NA's :93        E/228/S:   7   B      : 362  
##  0023_01:   1                                 G/748/S:   7   C      : 355  
##  0027_01:   1                                 (Other):4141   (Other): 346  
##  (Other):4271                                 NA's   : 100   NA's   : 100  
##      sutun2      sutun3            Destination        Age       
##  4      :  21   P   :2084   55 Cancri e  : 841   Min.   : 0.00  
##  31     :  18   S   :2093   PSO J318.5-22: 388   1st Qu.:19.00  
##  197    :  16   NA's: 100   TRAPPIST-1e  :2956   Median :26.00  
##  294    :  16               NA's         :  92   Mean   :28.66  
##  228    :  14                                    3rd Qu.:37.00  
##  (Other):4092                                    Max.   :79.00  
##  NA's   : 100                                    NA's   :91     
##     VIP           RoomService        FoodCourt        ShoppingMall   
##  Mode :logical   Min.   :    0.0   Min.   :    0.0   Min.   :   0.0  
##  FALSE:4110      1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:   0.0  
##  TRUE :74        Median :    0.0   Median :    0.0   Median :   0.0  
##  NA's :93        Mean   :  219.3   Mean   :  439.5   Mean   : 177.3  
##                  3rd Qu.:   53.0   3rd Qu.:   78.0   3rd Qu.:  33.0  
##                  Max.   :11567.0   Max.   :25273.0   Max.   :8292.0  
##                  NA's   :82        NA's   :106       NA's   :98      
##       Spa              VRDeck                      Name     
##  Min.   :    0.0   Min.   :    0.0   Berta Barnolderg:   2  
##  1st Qu.:    0.0   1st Qu.:    0.0   Chrey Colte     :   2  
##  Median :    0.0   Median :    0.0   Cints Erle      :   2  
##  Mean   :  303.1   Mean   :  310.7   Cocors Cola     :   2  
##  3rd Qu.:   50.0   3rd Qu.:   36.0   Con Pashe       :   2  
##  Max.   :19844.0   Max.   :22272.0   (Other)         :4173  
##  NA's   :101       NA's   :80        NA's            :  94

train <- train[complete.cases(train), ]

test <- test[complete.cases(test), ]

VIM::aggr(x=train,sortVars=T)

## 
##  Variables sorted by number of missings: 
##      Variable Count
##   PassengerId     0
##    HomePlanet     0
##     CryoSleep     0
##         Cabin     0
##        sutun1     0
##        sutun2     0
##        sutun3     0
##   Destination     0
##           Age     0
##           VIP     0
##   RoomService     0
##     FoodCourt     0
##  ShoppingMall     0
##           Spa     0
##        VRDeck     0
##          Name     0
##   Transported     0

Logistic

train_set <- train[2:15]

test_set <- test[2:14]

library(caTools)

## Warning: le package 'caTools' a été compilé avec la version R 4.3.3

# Gerekli paketler
install.packages("caTools")

## Warning: le package 'caTools' est en cours d'utilisation et ne sera pas
## installé

library(caTools)

# İkili sınıflandırma problemi oluşturmak için iris veri setini kullanma
data(iris)
iris$Species <- ifelse(iris$Species == "setosa", 1, 0)  # setosa türünü 1, diğerlerini 0 olarak etiketle

# Eğitim ve test setlerine ayırma
set.seed(123)
split <- sample.split(iris$Species, SplitRatio = 0.75)
train_data <- subset(iris, split == TRUE)
test_data <- subset(iris, split == FALSE)

# Lojistik regresyon modelini kurma
model <- glm(Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, 
             data = train_data, family = binomial)

## Warning: glm.fit: l'algorithme n'a pas convergé

## Warning: glm.fit: des probabilités ont été ajustées numériquement à 0 ou 1

# Modelin özetini inceleme
summary(model)

## 
## Call:
## glm(formula = Species ~ Sepal.Length + Sepal.Width + Petal.Length + 
##     Petal.Width, family = binomial, data = train_data)
## 
## Coefficients:
##                Estimate Std. Error z value Pr(>|z|)
## (Intercept)     -16.287 544251.935       0        1
## Sepal.Length     11.892 150193.441       0        1
## Sepal.Width       7.553  63231.521       0        1
## Petal.Length    -20.212 121742.580       0        1
## Petal.Width     -22.113 168950.062       0        1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1.4431e+02  on 112  degrees of freedom
## Residual deviance: 2.4705e-09  on 108  degrees of freedom
## AIC: 10
## 
## Number of Fisher Scoring iterations: 25

# Test veri seti üzerinde tahmin yapma
pred_probs <- predict(model, newdata = test_data, type = "response")

# Olasılıkları sınıflandırma (0.5 eşiğini kullanarak)
predictions <- ifelse(pred_probs > 0.5, 1, 0)

# Karışıklık matrisi oluşturma
confusion_matrix <- table(Predicted = predictions, Actual = test_data$Species)
print(confusion_matrix)

##          Actual
## Predicted  0  1
##         0 25  0
##         1  0 12

# Doğruluk oranını hesaplama
accuracy <- sum(predictions == test_data$Species) / nrow(test_data)
print(paste("Accuracy:", accuracy))

## [1] "Accuracy: 1"

# Gerekli paketler
install.packages("caTools")

## Warning: le package 'caTools' est en cours d'utilisation et ne sera pas
## installé

library(caTools)

# Veri setinizin yüklü olduğunu varsayıyorum
# Örnek olarak iris veri setini kullanarak bir ikili sınıflandırma problemi oluşturuyoruz
data(iris)
iris$Transported <- ifelse(iris$Species == "setosa", 1, 0)  # Örnek olarak 'setosa' türünü 1, diğerlerini 0 olarak etiketle

# Eğitim ve test setlerine ayırma
set.seed(123)
split <- sample.split(iris$Transported, SplitRatio = 0.75)
training_set <- subset(iris, split == TRUE)
test_set <- subset(iris, split == FALSE)

EKONOMETRI FINAL PROJESI

MARIAM KALLIMI WARDOUGOU

05.05.2024