EKONOMETRI ILK PROJE
ILK PROJE
R yükleme
Rmarkdown başlangıç
Web sayfasını hazırlama
İnternete yükleme
FORMUL YAZMA
\[ \pi= \frac{P_t-P_{t-1}}{P_{t-1}} \]
turkey_inflation_df <- data.frame(year = as.numeric(row.names(turkey_inflation)), inflation = turkey_inflation$FP.CPI.TOTL.ZG)japan_inflation_df <- data.frame(year = as.numeric(row.names(japan_inflation)), inflation = japan_inflation$FP.CPI.TOTL.ZG)ggplot() +
geom_line(data = turkey_inflation_df, aes(x = year, y = inflation, color = "Turkey")) +
geom_line(data = japan_inflation_df, aes(x = year, y = inflation, color = "Japan"))## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_line()`).
Makine Öğrenmesi Açıklayın
Makine öğrenmesi, bilgisayar sistemlerinin veriye dayalı deneyimler yoluyla öğrenmesini sağlayan bir yapay zeka dalıdır. Geleneksel programlamada, bir bilgisayar bir problemi çözmek için belirli adımları izler ve kodlanmış kurallara göre işlem yapar. Ancak, makine öğrenmesinde, programlar belirli bir görevi doğrudan kodlamak yerine, veriler üzerinde çalışarak deneyimlerinden öğrenirler.
Makine öğrenmesi genellikle üç ana kategoride incelenir:
Denetimli Öğrenme (Supervised Learning): Bu yöntemde, algoritma bir giriş (input) verisiyle bir çıkış (output) verisi arasındaki ilişkiyi öğrenmeye çalışır. Örneğin, bir görüntüyü tanımlamak için, algoritma birçok görüntüyle eğitilir ve her görüntünün doğru etiketini (örneğin, içinde bulunan nesnenin türünü) içeren bir eğitim veri seti kullanır.
Denetimsiz Öğrenme (Unsupervised Learning): Bu yöntemde, verilerin yapısal özelliklerini bulmaya çalışırız. Algoritma, veriler arasındaki desenleri veya ilişkileri öğrenmeye çalışır, ancak bu verilerin herhangi bir etiketi veya doğru çıkış yoktur. Kümeleme (clustering) ve boyut azaltma (dimensionality reduction) gibi teknikler bu kategoriye girer.
Güçlendirme Öğrenmesi (Reinforcement Learning): Bu türde, bir ajan (agent), bir ortamla etkileşime girer ve bu ortamda belirli bir amacı başarmaya çalışır. Ajan, ortamı gözlemleyerek ve bu gözlemlere dayanarak belirli eylemler seçer. Bu eylemlerin sonuçlarına göre ödüller alır veya cezalar alır. Hedef, uzun vadede maksimum ödülü elde etmek için doğru eylemleri öğrenmektir.
Makine öğrenimi uygulamaları arasında görüntü ve konuşma tanıma, spam filtreleme, öneri sistemleri, tıbbi tanılar, finansal tahminler ve oyun stratejileri gibi birçok alan bulunmaktadır. Bu teknoloji, büyük miktarda veri ve yüksek işleme gücüyle birlikte etkili bir şekilde çalışır.
Kaggle Projesi

Spacehip Titanic (Kaggle Tanıtımı)
“2912 yılına hoş geldiniz, burada veri bilimi becerilerinizin bir kozmik gizemi çözmek için gerektiği bir zamandayız. Dört ışık yılı uzaklıktan bir ileti aldık ve durum iyi görünmüyor.
Uzay Gemisi Titanic, bir ay önce fırlatılan bir yıldızlararası yolcu gemisiydi. Yaklaşık 13.000 yolcuyla yola çıkan gemi, Güneş sistemimizden üç yeni yaşanabilir yıldız etrafında dönen gezegenlere göçmenleri taşıyarak ilk seferine başladı.
İlk varış noktası olan 55 Cancri E’ye, Alfa Centauri’yi dolaşırken, dikkatsiz Uzay Gemisi Titanic, bir toz bulutunun içinde gizlenmiş bir uzay-zaman anormalliğiyle çarpıştı. Ne yazık ki, adını taşıdığı gemiye bin yıl önceki kaderle benzer bir kaderi paylaştı. Gemi bütünlüğünü korudu, ancak neredeyse yolcuların yarısı alternatif bir boyuta taşındı!
Kurtarma ekiplerine yardım etmek ve kayıp yolcuları kurtarmak için, uzay gemisinin hasar görmüş bilgisayar sisteminden kurtarılan kayıtları kullanarak hangi yolcuların anormallik tarafından taşındığını tahmin etmeniz isteniyor.
Onları kurtarmaya yardım edin ve tarihi değiştirin!”
Ortalama, standart sapma, kovaryans ve korelasyon nedir?
Ortalama nedir ?
“Ortalama”, bir veri kümesinin genel bir özetini sağlayan bir istatistiksel ölçüdür. Bir veri kümesinin ortalama değeri, tüm veri noktalarının toplamının veri noktalarının sayısına bölünmesiyle elde edilir.
formul
\[ \bar{X} = \frac {\Sigma^n_İ (X_i)}{n} \]
Standart sapma nedir ?
Standart sapma, bir veri setinin dağılımının yayılma veya değişkenliğini ölçen bir istatistiksel ölçüdür. Standart sapma, bir veri setindeki her bir veri noktasının, ortalama değerden ne kadar uzaklıkta olduğunu gösterir. Daha yüksek bir standart sapma, veri noktalarının ortalamadan daha fazla dağıldığı anlamına gelirken, daha düşük bir standart sapma, veri noktalarının daha yakın olduğunu gösterir.
\[ R = \frac {\Sigma (x_i-\bar{x})(y_i-\bar{y})}{ \sqrt {\Sigma (x_i-\bar{x})^2 \Sigma (y_i-\bar{y})}} \]
kovaryans nedir ?
Kovaryans, iki değişken arasındaki ilişkinin ne ölçüde değiştiğini ölçen bir istatistiksel terimdir. Özellikle, iki değişken arasındaki ilişkinin doğrusal olup olmadığını belirlemek için kullanılır.
\[ \bar{X} = \frac {\Sigma^n_İ (X_i)}{n} \]
korelasyon nedir ?
Korelasyon, iki değişken arasındaki ilişkinin doğrusallığını ve bu ilişkinin gücünü ölçen bir istatistiksel terimdir. İki değişken arasındaki ilişki ne kadar güçlüyse, korelasyon katsayısı o kadar yaklaşık ±1 olur. Korelasyon katsayısı, ilişkinin yönünü (pozitif veya negatif) ve gücünü belirtir.
\[ \sigma = \sqrt \frac {\Sigma^N_i (X_i-\bar{X})^2}{N} \]
Train ve test nedir ?
“Train” ve “test”, makine öğrenimi ve veri bilimi alanlarında model performansını değerlendirmek için kullanılan kavramlardır.
Eğitim Veri Seti (Training Data): Eğitim veri seti, bir makine öğrenimi modelinin öğrenmesi için kullanılan veri setidir. Bu veri seti, modelin giriş verileri ile bunlara karşılık gelen hedef çıktıları içerir. Model, eğitim veri setini kullanarak giriş verileri ile çıktıları arasındaki ilişkiyi öğrenir.
Test Veri Seti (Test Data): Test veri seti, eğitim veri setinden bağımsız olarak modelin performansını değerlendirmek için kullanılan veri setidir. Test veri seti, modelin eğitim sırasında gördüğü ancak modelin doğruluğunu ölçmek için kullanılmamış olan verileri içerir. Model, test veri setindeki giriş verilerini kullanarak tahminler yapar ve bu tahminlerin gerçek çıktılarla karşılaştırılmasını sağlar.
Modelin performansını değerlendirmek için, genellikle eğitim veri seti ve test veri seti arasında rastgele bir bölünme yapılır. Eğitim veri seti, genellikle modelin %70-80’ini eğitmek için kullanılırken, test veri seti geriye kalan %20-30’unu modelin performansını değerlendirmek için kullanılır. Bu bölünme, modelin eğitim sırasında eğitim veri setine aşırı uyum (overfitting) yapmasını engellemek için önemlidir. Aşırı uyum, modelin eğitim veri setine çok iyi uymasına rağmen, genelleme yapma yeteneğinin zayıf olduğu durumu ifade eder. Test veri seti, modelin gerçek dünya verileri üzerinde ne kadar iyi performans göstereceğini daha doğru bir şekilde belirlememize yardımcı olur.
## Rows: 4277 Columns: 13
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (2): CryoSleep, VIP
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## Rows: 8693 Columns: 14
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (3): CryoSleep, VIP, Transported
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Veri seti açıklayın ?
Veri seti, bir araştırma, deney veya analiz için toplanan veya oluşturulan verilerin yapılandırılmış bir koleksiyonudur. Veri setleri, belirli bir konuya veya problem alanına odaklanan, birbiriyle ilişkili veya bağımsız değişkenleri içerebilir. Veri setleri, genellikle tablo veya matris biçiminde organize edilir ve her bir satır bir veri noktasını (örneği) temsil ederken, her bir sütun bir özellik veya değişkeni temsil eder.
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ stringr 1.5.1
## ✔ forcats 1.0.0 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## # A tibble: 14 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 PassengerId chr 0 0 8693 NA NA NA
## 2 HomePlanet chr 201 2.3 4 NA NA NA
## 3 CryoSleep lgl 217 2.5 3 0 0.36 1
## 4 Cabin chr 199 2.3 6561 NA NA NA
## 5 Destination chr 182 2.1 4 NA NA NA
## 6 Age dbl 179 2.1 81 0 28.8 79
## 7 VIP lgl 203 2.3 3 0 0.02 1
## 8 RoomService dbl 181 2.1 1274 0 225. 14327
## 9 FoodCourt dbl 183 2.1 1508 0 458. 29813
## 10 ShoppingMall dbl 208 2.4 1116 0 174. 23492
## 11 Spa dbl 183 2.1 1328 0 311. 22408
## 12 VRDeck dbl 188 2.2 1307 0 305. 24133
## 13 Name chr 200 2.3 8474 NA NA NA
## 14 Transported lgl 0 0 2 0 0.5 1
## # A tibble: 13 × 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 PassengerId chr 0 0 4277 NA NA NA
## 2 HomePlanet chr 87 2 4 NA NA NA
## 3 CryoSleep lgl 93 2.2 3 0 0.37 1
## 4 Cabin chr 100 2.3 3266 NA NA NA
## 5 Destination chr 92 2.2 4 NA NA NA
## 6 Age dbl 91 2.1 80 0 28.7 79
## 7 VIP lgl 93 2.2 3 0 0.02 1
## 8 RoomService dbl 82 1.9 843 0 219. 11567
## 9 FoodCourt dbl 106 2.5 903 0 439. 25273
## 10 ShoppingMall dbl 98 2.3 716 0 177. 8292
## 11 Spa dbl 101 2.4 834 0 303. 19844
## 12 VRDeck dbl 80 1.9 797 0 311. 22272
## 13 Name chr 94 2.2 4177 NA NA NA
`