ilk proje
.R yükleme
.Rmarkdown başlangıç
. Web sayfasını hazırlama
.internet yükleme
Formül yazma
## Warning: le package 'ggplot2' a été compilé avec la version R 4.3.3
# Veri çerçevesini oluşturun (örnek veriler)
years <- 2011:2021
turkey_inflation <- c(64.86, 67.07, 69.1, 71.12, 72.89, 67.07, 64.86, 65.74, 67.07, 64.86, 67.07)
canada_inflation <- c(2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9, 2.8, 2.9)
# Veri çerçevesini oluşturun
inflation_data <- data.frame(Year = years, Turkey = turkey_inflation, Canada = canada_inflation)
# Çizim
ggplot(inflation_data, aes(x = Year)) +
geom_line(aes(y = Turkey, color = "Turkey"), size = 1) +
geom_line(aes(y = Canada, color = "Canada"), size = 1) +
labs(title = "Türkiye ve Kanada Enflasyonu (2011-2021)",
x = "Yıl",
y = "Enflasyon Oranı",
color = "Ülke") +
theme_minimal()## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Makine öğrenmesi Açıklayın
Tanım: Makine öğrenmesi, bilgisayarları verilerden öğrenmeyi öğretmeye ve bunu yapmak için açıkça programlanmak yerine deneyimle geliştirmeye odaklanır. Algoritmalar büyük veri kümelerinde desenleri ve korelasyonları bulmak ve bu analize dayalı en iyi kararları ve tahminleri yapmak için eğitilir. Makine öğrenmesi uygulamaları kullanımla gelişir ve daha fazla veri erişimi olduğunda daha doğru hale gelir.
Yapay zekâ
Yapay Zeka ile İlişkisi: Makine öğrenmesi, yapay zekanın (AI) bir alt kümesidir. Yapay zeka, verileri işleyerek kararlar ve tahminler yapar. Makine öğrenmesi algoritmaları ise bu verileri işlemesine gerek kalmadan daha akıllı bir şekilde öğrenmesini ve sonuçlar elde etmesini sağlar.
Derin öğrenme
Derin Öğrenme: Derin öğrenme, nöral ağların birçok katmanını ve büyük hacimli karmaşık verileri içerdiği için “derin” olarak adlandırılır. Bu tür makine öğrenimi, konuşma tanıma, görüntü sınıflandırması ve eczacılık analizi gibi uygulamalarda kullanılır.
Kaggle Projesi
Spacehip Titanic (Kaggle Taıtımı)
Hoş geldiniz 2912 yılına, burada veri bilimi yeteneklerinizin bir kozmik gizemi çözmek için gerektiği bir yerdesiniz. Dört ışık yılı uzaktan bir ileti aldık ve durum pek iç açıcı değil.
Uzay Gemisi Titanic, bir ay önce fırlatılan yıldızlar arası bir yolcu gemisiydi. Yaklaşık 13,000 yolcuyla donatılmış olarak, gemi, güneş sistemimizden ayrılarak, yakındaki yıldızlar etrafında dönen üç yeni yaşanabilir ötegezegenine göçmen taşıyan ilk seferine çıktı.
Alpha Centauri’yi dönerken ilk varış noktasına - kavurucu 55 Cancri E’ye - ulaşma yolunda, dikkatsiz Uzay Gemisi Titanic, bir toz bulutu içinde gizlenmiş bir uzay-zaman anormalliği ile çarpıştı. Maalesef, bin yıl öncesinin adını taşıyan gemi gibi benzer bir kaderi paylaştı. Gemisi sağlam kalsa da, yolcuların neredeyse yarısı alternatif bir boyuta taşındı!
Kurtarma ekiplerine yardımcı olmak ve kaybolan yolcuları kurtarmak için, sizi geminin hasar görmüş bilgisayar sisteminden kurtarılan kayıtları kullanarak anomali tarafından taşınan hangi yolcuların olduğunu tahmin etmeye çağırıyoruz.
Onları kurtarmaya yardımcı olun ve tarihi değiştirin!
Ortalama, standart sapma, kovaryans ve korelasyon nedir?
. Formüllerini yazın -Örnek yazın . Örneği çözün
Ortalama
Ortalama, istatistik bilim dalında ve veri analizinde kullanılan bir veri dizisinin orta konumunu, tek bir sayı ile ifade eden betimsel istatistik ölçüsüdür. Günlük hayatta ortalama dendiğinde genellikle kast edilen aritmetik ortalama olmakla beraber, matematik ve istatistikte farklı merkezsel konum ölçüleri de kullanılır. İşte bazı ortalama tipleri:
Aritmetik Ortalama: Bir veri dizisinin elemanlarının toplamının eleman sayısına bölünmesiyle elde edilir. Bu ölçüm sıkça kullanılır, ancak bazı eksik yönleri vardır. Özellikle verilerin ölçülme ölçeğinin aralıklı veya oransal olması gerekir. İsimsel ölçekli veriler için aritmetik ortalama anlamsızdır. Medyan (Ortanca): Veri dizisini sıraladığımızda ortadaki değeri ifade eder. Eğer veri sayısı çiftse, ortadaki iki değerin aritmetik ortalaması alınır. Mod (Tepedeğer): Veri dizisinde en sık tekrar eden değeri ifade eder. Mod, kategorik verilerde de kullanılır. Geometrik Ortalama: Çarpma işlemi ile hesaplanır ve genellikle oranlarla ilgili verilerde kullanılır. Harmonik Ortalama: Ters oranların aritmetik ortalamasıdır ve özellikle hız, zaman ve oranlarla ilgili problemlerde kullanılır.
standart sapma
Standart sapma, bir veri grubundaki sayıların aritmetik ortalamaya göre nasıl bir yayılım gösterdiğini ölçen bir yöntemdir. Bu istatistiksel kavram, veri grubundaki elemanların aritmetik ortalamaya yakınlığını veya uzaklığını ifade eder. İki farklı veri grubunun aritmetik ortalaması aynı ise, açıklığı büyük olanın standart sapması büyük, küçük olanın ise standart sapması küçük olur. Standart sapma, veri grubundaki değerlerin dağılımını anlamamıza yardımcı olur.
Standart sapma hesaplamak için aşağıdaki adımları izleriz:
Veri grubunun aritmetik ortalaması bulunur. Her bir sayının aritmetik ortalama ile arasındaki fark hesaplanır. Her bir sayının aritmetik ortalamadan farkının karesi alınır. Farkların kareleri toplanır. Toplamın sonucu, veri grubundaki sayı adetini bir eksiğine bölünür. Çıkan sonucun karekökü alınır.
Kovaryans
Kovaryans, iki rastgele değişkenin birlikte ne kadar değiştiklerinin ölçüsüdür. İki değişken arasındaki doğrusal ilişkinin değişkenliğini ifade eder. Kovaryansın işareti, değişkenler arasındaki doğrusal ilişki eğilimini gösterir. İşte daha detaylı bilgi:
Tanım: Kovaryans, iki rastgele değişkenin beraber değişimlerini inceleyen bir istatistiktir. Özel bir durum olarak, iki değişken birbirine özdeşse, kovaryans o tek özdeş değişkenin varyansı olur. İki değişkenin birbirine benzer (eş) işlevli olması kovaryant; iki değişkenin birbirine zıt işlevli olması kontravaryant olarak ifade edilir 1. İşaret ve İlişki: Kovaryansın işareti, değişkenler arasındaki doğrusal ilişki eğilimini gösterir. Pozitif kovaryans, değişkenlerin benzer davranış gösterme eğiliminde olduğunu ifade eder. Negatif kovaryans ise değişkenlerin zıt davranış gösterme eğiliminde olduğunu gösterir. Büyüklük: Kovaryansın büyüklüğü, iki rastgele değişken için ortak olan varyansların geometrik ortalamasıdır.
Korelasyon: Korelasyon katsayısı, iki rastgele değişken için toplam varyansların geometrik ortalamasına bölünerek kovaryansı normalleştirir. Korelasyon, kovaryansın boyutsuz bir ölçüsüdür ve iki değişken arasındaki ilişkinin gücünü ifade eder 2. Kovaryans, istatistikte önemli bir kavramdır ve değişkenler arasındaki ilişkiyi anlamak için kullanılır.
korelasyon
Korelasyon, iki veya daha fazla değişken arasındaki ilişkiyi ölçen istatistiksel bir kavramdır. Bu ilişki, değişkenlerin birlikte nasıl değiştiğini veya birbirlerini nasıl etkilediğini gösterir. Korelasyon, bu ilişkinin gücünü ve yönünü belirlememize yardımcı olur
Korelasyon Katsayısı: Korelasyon katsayısı, iki değişken arasındaki ilişkinin derecesini ifade eder. Değişkenler arasındaki ilişkiyi anlamak için kullanılır. Korelasyon katsayısı, -1 ile +1 arasında değer alır: Pozitif (+) korelasyon, değişkenlerin benzer davranış gösterme eğiliminde olduğunu ifade eder. Negatif (-) korelasyon, değişkenlerin zıt davranış gösterme eğiliminde olduğunu gösterir. 0 korelasyon ise iki değişken arasında herhangi bir ilişki olmadığını ifade eder.
Korelasyon, ekonomiden bilime, pazarlamadan tıbba kadar birçok endüstride kullanılır. Ancak unutulmamalıdır ki korelasyon, iki değişken arasında sebep-sonuç ilişkisi olmadan da yüksek bir değer çıkabilir. Bu nedenle araştırmacının modelini sağlam kurması önemlidir.
Ortalama-Formülü-Örneği-Çözümü
# Örnek veri oluşturma
veri <- c(10, 20, 30, 40, 50)
# Verinin ortalamasını hesaplama
ortalama <- mean(veri)
# Sonucu ekrana yazdırma
print(ortalama)## [1] 30
Standart sapma -Formülü-Örneği-Çözümü
# Örnek veri oluşturma
veri <- c(23, 45, 56, 34, 67, 32, 55, 21, 44)
# Standart sapma hesaplama
standart_sapma <- sd(veri)
print(standart_sapma)## [1] 15.68793
Kovaryans -Formülü-Örneği-Çözümü
# Örnek veri setini oluşturalım
x <- c(1, 2, 3, 4, 5) # Birinci değişken
y <- c(3, 4, 2, 5, 1) # İkinci değişken
# Kovaryansı hesaplayalım
covariance <- cov(x, y)
print(covariance)## [1] -0.75
Korelasyon-Formülü-Örneği-Çözümü
# Iris veri setini yükle
data(iris)
# Korelasyon matrisini hesapla
correlation_matrix <- cor(iris[, 1:4])
# Korelasyon matrisini göster
print(correlation_matrix)## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
## Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259
## Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654
## Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000
## Warning: le package 'readr' a été compilé avec la version R 4.3.3
## Rows: 4277 Columns: 13
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (2): CryoSleep, VIP
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## Rows: 8693 Columns: 14
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (3): CryoSleep, VIP, Transported
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## Rows: 4277 Columns: 2
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): PassengerId
## lgl (1): Transported
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## Warning: le package 'WDI' a été compilé avec la version R 4.3.3
## Warning: le package 'dplyr' a été compilé avec la version R 4.3.3
##
## Attachement du package : 'dplyr'
## Les objets suivants sont masqués depuis 'package:stats':
##
## filter, lag
## Les objets suivants sont masqués depuis 'package:base':
##
## intersect, setdiff, setequal, union
TRAIN VE TEST NEDIR?
Makine öğrenmesinde, veri setlerini eğitim ve test alt kümelerine ayırmak önemlidir. İşte bu kavramların anlamları:
Train Veri Seti: Eğitim veri seti olarak da bilinir. Temel modelleme denemeleri yapmak için kullanılır. En doğru makine öğrenmesi algoritması seçilmeye çalışılır. Bu veri seti, en fazla örneklem alınan gözlemlerden oluşur. Genellikle veri setinin %60 ila %90’ı arasında bir bölümü eğitim için ayrılır.
Validation (Doğrulama) Veri Seti: Eğitim veri seti içinden seçilir. Model seçimi ve algoritma belirleme amacıyla kullanılır. Hiper parametre ayarları ve model iyileştirmeleri bu veri seti üzerinde yapılır. Özellikle büyük veri setlerinde sürekli eğitim verisi üzerinde çalışmak mümkün olmadığından küçük bir bölüm validation olarak ayrılır. Test Veri Seti: Validation verisinin yer aldığı eğitim veri setinden kalan bölüme denir. Modelin gerçek dünya verilerine ne kadar iyi uyum sağlayabileceğini test etmek için kullanılır. Daha önce eğitim veri seti üzerinden öğrenilmiş makine öğrenmesi modeli bu veri seti üzerinde uygulanır. Bu ayrılmış alt kümeler sayesinde, modelin performansını objektif bir şekilde değerlendirebiliriz.
## Warning: le package 'explore' a été compilé avec la version R 4.3.3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 21.00 32.00 44.00 41.89 55.00 67.00
Veri seti açıklayın
Bu yarışmada göreviniz , Uzay Gemisi Titanik’in uzay-zaman anomalisiyle çarpışması sırasında bir yolcunun alternatif bir boyuta taşınıp taşınmadığını tahmin etmektir . Bu tahminleri yapmanıza yardımcı olmak için size geminin hasarlı bilgisayar sisteminden kurtarılan bir dizi kişisel kayıt veriliyor.
Dosya ve Veri Alanı Açıklamaları
train.csv - Yolcuların yaklaşık üçte ikisinin (~8700) kişisel kayıtları, eğitim verileri olarak kullanılacak.
PassengerId- Her yolcu için benzersiz bir Kimlik. Her kimlik, yolcunun birlikte seyahat ettiği grubu belirten ve grup içindeki numarası olan gggg_ppformu alır . Bir gruptaki insanlar çoğunlukla aile üyeleridir, ancak her zaman değil.ggggpp.
HomePlanet- Yolcunun ayrıldığı gezegen, genellikle daimi ikamet ettikleri gezegen.
CryoSleep- Yolcunun yolculuk süresince askıya alınmış animasyona alınmayı seçip seçmediğini belirtir. Dondurucu uykudaki yolcular kabinlerine hapsedilir.
Cabin - Yolcunun kaldığı kabin numarası. Biçimi güverte/numara/taraf şeklindedir, taraf P (Port) için ya da S (Starboard) için olabilir..
Destination- Yolcunun ineceği gezegen.
Age- Yolcunun yaşı.
VIP- Yolcunun yolculuk sırasında özel VIP hizmeti için ödeme yapıp yapmadığı.
RoomService, FoodCourt, ShoppingMall, Spa, VRDeck- Yolcunun Uzay Gemisi Titanic’in birçok lüks olanağının her birinde fatura ettiği tutar.
Name- Yolcunun adı ve soyadı.
Transported- Yolcunun başka bir boyuta taşınıp taşınmadığı. Bu hedeftir, tahmin etmeye çalıştığınız sütundur.
test.csv - Yolcuların geri kalan üçte birinin (~4300) kişisel kayıtları, test verisi olarak kullanılacak. TransportedGöreviniz bu setteki yolcular için değerini tahmin etmektir.
sample_submission.csv - Doğru formatta bir gönderim dosyası.
PassengerId- Test setindeki her yolcunun kimliği.
Transported- Hedef. Her yolcu için veya’dan birini tahmin Trueedin False.
## Warning: le package 'tidyverse' a été compilé avec la version R 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
CABIN 3 FARKLI GRUP ÇIKARMAK
## PassengerId HomePlanet CryoSleep Cabin
## Length:8693 Length:8693 Mode :logical Length:8693
## Class :character Class :character FALSE:5439 Class :character
## Mode :character Mode :character TRUE :3037 Mode :character
## NA's :217
##
##
##
## sutun1 sutun2 sutun3 Destination
## Length:8693 Length:8693 Length:8693 Length:8693
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
##
## Age VIP RoomService FoodCourt
## Min. : 0.00 Mode :logical Min. : 0.0 Min. : 0.0
## 1st Qu.:19.00 FALSE:8291 1st Qu.: 0.0 1st Qu.: 0.0
## Median :27.00 TRUE :199 Median : 0.0 Median : 0.0
## Mean :28.83 NA's :203 Mean : 224.7 Mean : 458.1
## 3rd Qu.:38.00 3rd Qu.: 47.0 3rd Qu.: 76.0
## Max. :79.00 Max. :14327.0 Max. :29813.0
## NA's :179 NA's :181 NA's :183
## ShoppingMall Spa VRDeck Name
## Min. : 0.0 Min. : 0.0 Min. : 0.0 Length:8693
## 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0 Class :character
## Median : 0.0 Median : 0.0 Median : 0.0 Mode :character
## Mean : 173.7 Mean : 311.1 Mean : 304.9
## 3rd Qu.: 27.0 3rd Qu.: 59.0 3rd Qu.: 46.0
## Max. :23492.0 Max. :22408.0 Max. :24133.0
## NA's :208 NA's :183 NA's :188
## Transported
## Mode :logical
## FALSE:4315
## TRUE :4378
##
##
##
##
## PassengerId HomePlanet CryoSleep Cabin
## Length:4277 Length:4277 Mode :logical Length:4277
## Class :character Class :character FALSE:2640 Class :character
## Mode :character Mode :character TRUE :1544 Mode :character
## NA's :93
##
##
##
## sutun1 sutun2 sutun3 Destination
## Length:4277 Length:4277 Length:4277 Length:4277
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
##
## Age VIP RoomService FoodCourt
## Min. : 0.00 Mode :logical Min. : 0.0 Min. : 0.0
## 1st Qu.:19.00 FALSE:4110 1st Qu.: 0.0 1st Qu.: 0.0
## Median :26.00 TRUE :74 Median : 0.0 Median : 0.0
## Mean :28.66 NA's :93 Mean : 219.3 Mean : 439.5
## 3rd Qu.:37.00 3rd Qu.: 53.0 3rd Qu.: 78.0
## Max. :79.00 Max. :11567.0 Max. :25273.0
## NA's :91 NA's :82 NA's :106
## ShoppingMall Spa VRDeck Name
## Min. : 0.0 Min. : 0.0 Min. : 0.0 Length:4277
## 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0 Class :character
## Median : 0.0 Median : 0.0 Median : 0.0 Mode :character
## Mean : 177.3 Mean : 303.1 Mean : 310.7
## 3rd Qu.: 33.0 3rd Qu.: 50.0 3rd Qu.: 36.0
## Max. :8292.0 Max. :19844.0 Max. :22272.0
## NA's :98 NA's :101 NA's :80
Farklı train boşlukları
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 181 rows containing non-finite outside the scale range
## (`stat_bin()`).
## Warning: le package 'mice' a été compilé avec la version R 4.3.3
## Warning in check_dep_version(): ABI version mismatch:
## lme4 was built with Matrix ABI version 1
## Current Matrix ABI version is 0
## Please re-install lme4 from source or restore original 'Matrix' package
##
## Attachement du package : 'mice'
## L'objet suivant est masqué depuis 'package:stats':
##
## filter
## Les objets suivants sont masqués depuis 'package:base':
##
## cbind, rbind
## Warning: le package 'VIM' a été compilé avec la version R 4.3.3
## Le chargement a nécessité le package : colorspace
## Le chargement a nécessité le package : grid
## VIM is ready to use.
## Suggestions and bug-reports can be submitted at: https://github.com/statistikat/VIM/issues
##
## Attachement du package : 'VIM'
## L'objet suivant est masqué depuis 'package:datasets':
##
## sleep
##
## Variables sorted by number of missings:
## Variable Count
## FoodCourt 0.02478373
## Spa 0.02361468
## Cabin 0.02338087
## sutun1 0.02338087
## sutun2 0.02338087
## sutun3 0.02338087
## ShoppingMall 0.02291326
## Name 0.02197802
## CryoSleep 0.02174421
## VIP 0.02174421
## Destination 0.02151040
## Age 0.02127660
## HomePlanet 0.02034136
## RoomService 0.01917232
## VRDeck 0.01870470
## PassengerId 0.00000000
## PassengerId Transported VIP Destination FoodCourt Spa VRDeck Name CryoSleep
## 376 1 1 1 1 1 1 1 1 1
## 13 1 1 1 1 1 1 1 1 1
## 14 1 1 1 1 1 1 1 1 1
## 12 1 1 1 1 1 1 1 1 1
## 3 1 1 1 1 1 1 1 1 1
## 12 1 1 1 1 1 1 1 1 1
## 2 1 1 1 1 1 1 1 1 1
## 13 1 1 1 1 1 1 1 1 1
## 1 1 1 1 1 1 1 1 1 1
## 10 1 1 1 1 1 1 1 1 0
## 1 1 1 1 1 1 1 1 1 0
## 11 1 1 1 1 1 1 1 0 1
## 6 1 1 1 1 1 1 0 1 1
## 1 1 1 1 1 1 1 0 1 1
## 1 1 1 1 1 1 1 0 1 0
## 8 1 1 1 1 1 0 1 1 1
## 4 1 1 1 1 0 1 1 1 1
## 1 1 1 1 1 0 1 1 1 1
## 1 1 1 1 1 0 1 0 1 1
## 5 1 1 1 0 1 1 1 1 1
## 1 1 1 1 0 1 1 1 1 1
## 4 1 1 0 1 1 1 1 1 1
## 0 0 4 6 6 8 9 11 12
## RoomService HomePlanet Age Cabin sutun1 sutun2 sutun3 ShoppingMall
## 376 1 1 1 1 1 1 1 1 0
## 13 1 1 1 1 1 1 1 0 1
## 14 1 1 1 0 0 0 0 1 4
## 12 1 1 0 1 1 1 1 1 1
## 3 1 1 0 1 1 1 1 0 2
## 12 1 0 1 1 1 1 1 1 1
## 2 1 0 1 1 1 1 1 0 2
## 13 0 1 1 1 1 1 1 1 1
## 1 0 1 1 0 0 0 0 1 5
## 10 1 1 1 1 1 1 1 1 1
## 1 1 1 1 0 0 0 0 1 5
## 11 1 1 1 1 1 1 1 1 1
## 6 1 1 1 1 1 1 1 1 1
## 1 1 1 1 0 0 0 0 1 5
## 1 1 1 1 1 1 1 1 1 2
## 8 1 1 1 1 1 1 1 1 1
## 4 1 1 1 1 1 1 1 1 1
## 1 1 1 1 0 0 0 0 1 5
## 1 1 1 1 1 1 1 1 1 2
## 5 1 1 1 1 1 1 1 1 1
## 1 1 0 1 1 1 1 1 1 2
## 4 1 1 1 1 1 1 1 1 1
## 14 15 15 18 18 18 18 18 190
## PassengerId HomePlanet CryoSleep Cabin sutun1
## 0001_01: 1 Earth :4602 Mode :logical G/734/S: 8 F :2794
## 0002_01: 1 Europa:2131 FALSE:5439 B/11/S : 7 G :2559
## 0003_01: 1 Mars :1759 TRUE :3037 B/201/P: 7 E : 876
## 0003_02: 1 NA's : 201 NA's :217 B/82/S : 7 B : 779
## 0004_01: 1 C/137/S: 7 C : 747
## 0005_01: 1 (Other):8458 (Other): 739
## (Other):8687 NA's : 199 NA's : 199
## sutun2 sutun3 Destination Age
## 82 : 28 P :4206 55 Cancri e :1800 Min. : 0.00
## 19 : 22 S :4288 PSO J318.5-22: 796 1st Qu.:19.00
## 86 : 22 NA's: 199 TRAPPIST-1e :5915 Median :27.00
## 176 : 21 NA's : 182 Mean :28.83
## 56 : 21 3rd Qu.:38.00
## (Other):8380 Max. :79.00
## NA's : 199 NA's :179
## VIP RoomService FoodCourt ShoppingMall
## Mode :logical Min. : 0.0 Min. : 0.0 Min. : 0.0
## FALSE:8291 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0
## TRUE :199 Median : 0.0 Median : 0.0 Median : 0.0
## NA's :203 Mean : 224.7 Mean : 458.1 Mean : 173.7
## 3rd Qu.: 47.0 3rd Qu.: 76.0 3rd Qu.: 27.0
## Max. :14327.0 Max. :29813.0 Max. :23492.0
## NA's :181 NA's :183 NA's :208
## Spa VRDeck Name Transported
## Min. : 0.0 Min. : 0.0 Alraium Disivering: 2 Mode :logical
## 1st Qu.: 0.0 1st Qu.: 0.0 Ankalik Nateansive: 2 FALSE:4315
## Median : 0.0 Median : 0.0 Anton Woody : 2 TRUE :4378
## Mean : 311.1 Mean : 304.9 Apix Wala : 2
## 3rd Qu.: 59.0 3rd Qu.: 46.0 Asch Stradick : 2
## Max. :22408.0 Max. :24133.0 (Other) :8483
## NA's :183 NA's :188 NA's : 200
## PassengerId HomePlanet CryoSleep Cabin sutun1
## 0013_01: 1 Earth :2263 Mode :logical G/160/P: 8 F :1445
## 0018_01: 1 Europa:1002 FALSE:2640 B/31/P : 7 G :1222
## 0019_01: 1 Mars : 925 TRUE :1544 D/273/S: 7 E : 447
## 0021_01: 1 NA's : 87 NA's :93 E/228/S: 7 B : 362
## 0023_01: 1 G/748/S: 7 C : 355
## 0027_01: 1 (Other):4141 (Other): 346
## (Other):4271 NA's : 100 NA's : 100
## sutun2 sutun3 Destination Age
## 4 : 21 P :2084 55 Cancri e : 841 Min. : 0.00
## 31 : 18 S :2093 PSO J318.5-22: 388 1st Qu.:19.00
## 197 : 16 NA's: 100 TRAPPIST-1e :2956 Median :26.00
## 294 : 16 NA's : 92 Mean :28.66
## 228 : 14 3rd Qu.:37.00
## (Other):4092 Max. :79.00
## NA's : 100 NA's :91
## VIP RoomService FoodCourt ShoppingMall
## Mode :logical Min. : 0.0 Min. : 0.0 Min. : 0.0
## FALSE:4110 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0
## TRUE :74 Median : 0.0 Median : 0.0 Median : 0.0
## NA's :93 Mean : 219.3 Mean : 439.5 Mean : 177.3
## 3rd Qu.: 53.0 3rd Qu.: 78.0 3rd Qu.: 33.0
## Max. :11567.0 Max. :25273.0 Max. :8292.0
## NA's :82 NA's :106 NA's :98
## Spa VRDeck Name
## Min. : 0.0 Min. : 0.0 Berta Barnolderg: 2
## 1st Qu.: 0.0 1st Qu.: 0.0 Chrey Colte : 2
## Median : 0.0 Median : 0.0 Cints Erle : 2
## Mean : 303.1 Mean : 310.7 Cocors Cola : 2
## 3rd Qu.: 50.0 3rd Qu.: 36.0 Con Pashe : 2
## Max. :19844.0 Max. :22272.0 (Other) :4173
## NA's :101 NA's :80 NA's : 94
##
## Variables sorted by number of missings:
## Variable Count
## PassengerId 0
## HomePlanet 0
## CryoSleep 0
## Cabin 0
## sutun1 0
## sutun2 0
## sutun3 0
## Destination 0
## Age 0
## VIP 0
## RoomService 0
## FoodCourt 0
## ShoppingMall 0
## Spa 0
## VRDeck 0
## Name 0
## Transported 0
Logistic
## Warning: le package 'caTools' a été compilé avec la version R 4.3.3
## Warning: le package 'caTools' est en cours d'utilisation et ne sera pas
## installé
library(caTools)
# İkili sınıflandırma problemi oluşturmak için iris veri setini kullanma
data(iris)
iris$Species <- ifelse(iris$Species == "setosa", 1, 0) # setosa türünü 1, diğerlerini 0 olarak etiketle
# Eğitim ve test setlerine ayırma
set.seed(123)
split <- sample.split(iris$Species, SplitRatio = 0.75)
train_data <- subset(iris, split == TRUE)
test_data <- subset(iris, split == FALSE)
# Lojistik regresyon modelini kurma
model <- glm(Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width,
data = train_data, family = binomial)## Warning: glm.fit: l'algorithme n'a pas convergé
## Warning: glm.fit: des probabilités ont été ajustées numériquement à 0 ou 1
##
## Call:
## glm(formula = Species ~ Sepal.Length + Sepal.Width + Petal.Length +
## Petal.Width, family = binomial, data = train_data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -16.287 544251.935 0 1
## Sepal.Length 11.892 150193.441 0 1
## Sepal.Width 7.553 63231.521 0 1
## Petal.Length -20.212 121742.580 0 1
## Petal.Width -22.113 168950.062 0 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1.4431e+02 on 112 degrees of freedom
## Residual deviance: 2.4705e-09 on 108 degrees of freedom
## AIC: 10
##
## Number of Fisher Scoring iterations: 25
# Test veri seti üzerinde tahmin yapma
pred_probs <- predict(model, newdata = test_data, type = "response")
# Olasılıkları sınıflandırma (0.5 eşiğini kullanarak)
predictions <- ifelse(pred_probs > 0.5, 1, 0)
# Karışıklık matrisi oluşturma
confusion_matrix <- table(Predicted = predictions, Actual = test_data$Species)
print(confusion_matrix)## Actual
## Predicted 0 1
## 0 25 0
## 1 0 12
# Doğruluk oranını hesaplama
accuracy <- sum(predictions == test_data$Species) / nrow(test_data)
print(paste("Accuracy:", accuracy))## [1] "Accuracy: 1"
## Warning: le package 'caTools' est en cours d'utilisation et ne sera pas
## installé
library(caTools)
# Veri setinizin yüklü olduğunu varsayıyorum
# Örnek olarak iris veri setini kullanarak bir ikili sınıflandırma problemi oluşturuyoruz
data(iris)
iris$Transported <- ifelse(iris$Species == "setosa", 1, 0) # Örnek olarak 'setosa' türünü 1, diğerlerini 0 olarak etiketle
# Eğitim ve test setlerine ayırma
set.seed(123)
split <- sample.split(iris$Transported, SplitRatio = 0.75)
training_set <- subset(iris, split == TRUE)
test_set <- subset(iris, split == FALSE)