EKONOMETRI ILK PROJE

ILK PROJE

R yükleme

Rmarkdown başlangıç

Web sayfasını hazırlama

İnternete yükleme

FORMUL YAZMA

\[ \pi= \frac{P_t-P_{t-1}}{P_{t-1}} \]

library(WDI)

library(ggplot2)

turkey_inflation <- WDI(country = "TR", indicator = "FP.CPI.TOTL.ZG", start = 2000, end = 2023)

japan_inflation <- WDI(country = "JP", indicator = "FP.CPI.TOTL.ZG", start = 2000, end = 2022)

turkey_inflation_df <- data.frame(year = as.numeric(row.names(turkey_inflation)), inflation = turkey_inflation$FP.CPI.TOTL.ZG)

japan_inflation_df <- data.frame(year = as.numeric(row.names(japan_inflation)), inflation = japan_inflation$FP.CPI.TOTL.ZG)

ggplot() +
  geom_line(data = turkey_inflation_df, aes(x = year, y = inflation, color = "Turkey")) +
  geom_line(data = japan_inflation_df, aes(x = year, y = inflation, color = "Japan"))

## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_line()`).

Makine Öğrenmesi Açıklayın

Makine öğrenmesi, bilgisayar sistemlerinin veriye dayalı deneyimler yoluyla öğrenmesini sağlayan bir yapay zeka dalıdır. Geleneksel programlamada, bir bilgisayar bir problemi çözmek için belirli adımları izler ve kodlanmış kurallara göre işlem yapar. Ancak, makine öğrenmesinde, programlar belirli bir görevi doğrudan kodlamak yerine, veriler üzerinde çalışarak deneyimlerinden öğrenirler.

Makine öğrenmesi genellikle üç ana kategoride incelenir:

Denetimli Öğrenme (Supervised Learning): Bu yöntemde, algoritma bir giriş (input) verisiyle bir çıkış (output) verisi arasındaki ilişkiyi öğrenmeye çalışır. Örneğin, bir görüntüyü tanımlamak için, algoritma birçok görüntüyle eğitilir ve her görüntünün doğru etiketini (örneğin, içinde bulunan nesnenin türünü) içeren bir eğitim veri seti kullanır.

Denetimsiz Öğrenme (Unsupervised Learning): Bu yöntemde, verilerin yapısal özelliklerini bulmaya çalışırız. Algoritma, veriler arasındaki desenleri veya ilişkileri öğrenmeye çalışır, ancak bu verilerin herhangi bir etiketi veya doğru çıkış yoktur. Kümeleme (clustering) ve boyut azaltma (dimensionality reduction) gibi teknikler bu kategoriye girer.

Güçlendirme Öğrenmesi (Reinforcement Learning): Bu türde, bir ajan (agent), bir ortamla etkileşime girer ve bu ortamda belirli bir amacı başarmaya çalışır. Ajan, ortamı gözlemleyerek ve bu gözlemlere dayanarak belirli eylemler seçer. Bu eylemlerin sonuçlarına göre ödüller alır veya cezalar alır. Hedef, uzun vadede maksimum ödülü elde etmek için doğru eylemleri öğrenmektir.

Makine öğrenimi uygulamaları arasında görüntü ve konuşma tanıma, spam filtreleme, öneri sistemleri, tıbbi tanılar, finansal tahminler ve oyun stratejileri gibi birçok alan bulunmaktadır. Bu teknoloji, büyük miktarda veri ve yüksek işleme gücüyle birlikte etkili bir şekilde çalışır.

Kaggle Projesi

Spacehip Titanic (Kaggle Tanıtımı)

“2912 yılına hoş geldiniz, burada veri bilimi becerilerinizin bir kozmik gizemi çözmek için gerektiği bir zamandayız. Dört ışık yılı uzaklıktan bir ileti aldık ve durum iyi görünmüyor.

Uzay Gemisi Titanic, bir ay önce fırlatılan bir yıldızlararası yolcu gemisiydi. Yaklaşık 13.000 yolcuyla yola çıkan gemi, Güneş sistemimizden üç yeni yaşanabilir yıldız etrafında dönen gezegenlere göçmenleri taşıyarak ilk seferine başladı.

İlk varış noktası olan 55 Cancri E’ye, Alfa Centauri’yi dolaşırken, dikkatsiz Uzay Gemisi Titanic, bir toz bulutunun içinde gizlenmiş bir uzay-zaman anormalliğiyle çarpıştı. Ne yazık ki, adını taşıdığı gemiye bin yıl önceki kaderle benzer bir kaderi paylaştı. Gemi bütünlüğünü korudu, ancak neredeyse yolcuların yarısı alternatif bir boyuta taşındı!

Kurtarma ekiplerine yardım etmek ve kayıp yolcuları kurtarmak için, uzay gemisinin hasar görmüş bilgisayar sisteminden kurtarılan kayıtları kullanarak hangi yolcuların anormallik tarafından taşındığını tahmin etmeniz isteniyor.

Onları kurtarmaya yardım edin ve tarihi değiştirin!”

Ortalama, standart sapma, kovaryans ve korelasyon nedir?

Ortalama nedir ?

“Ortalama”, bir veri kümesinin genel bir özetini sağlayan bir istatistiksel ölçüdür. Bir veri kümesinin ortalama değeri, tüm veri noktalarının toplamının veri noktalarının sayısına bölünmesiyle elde edilir.

formul

\[ \bar{X} = \frac {\Sigma^n_İ (X_i)}{n} \]

Standart sapma nedir ?

Standart sapma, bir veri setinin dağılımının yayılma veya değişkenliğini ölçen bir istatistiksel ölçüdür. Standart sapma, bir veri setindeki her bir veri noktasının, ortalama değerden ne kadar uzaklıkta olduğunu gösterir. Daha yüksek bir standart sapma, veri noktalarının ortalamadan daha fazla dağıldığı anlamına gelirken, daha düşük bir standart sapma, veri noktalarının daha yakın olduğunu gösterir.

\[ R = \frac {\Sigma (x_i-\bar{x})(y_i-\bar{y})}{ \sqrt {\Sigma (x_i-\bar{x})^2 \Sigma (y_i-\bar{y})}} \]

kovaryans nedir ?

Kovaryans, iki değişken arasındaki ilişkinin ne ölçüde değiştiğini ölçen bir istatistiksel terimdir. Özellikle, iki değişken arasındaki ilişkinin doğrusal olup olmadığını belirlemek için kullanılır.

\[ \bar{X} = \frac {\Sigma^n_İ (X_i)}{n} \]

korelasyon nedir ?

Korelasyon, iki değişken arasındaki ilişkinin doğrusallığını ve bu ilişkinin gücünü ölçen bir istatistiksel terimdir. İki değişken arasındaki ilişki ne kadar güçlüyse, korelasyon katsayısı o kadar yaklaşık ±1 olur. Korelasyon katsayısı, ilişkinin yönünü (pozitif veya negatif) ve gücünü belirtir.

\[ \sigma = \sqrt \frac {\Sigma^N_i (X_i-\bar{X})^2}{N} \]

Train ve test nedir ?

“Train” ve “test”, makine öğrenimi ve veri bilimi alanlarında model performansını değerlendirmek için kullanılan kavramlardır.

Eğitim Veri Seti (Training Data): Eğitim veri seti, bir makine öğrenimi modelinin öğrenmesi için kullanılan veri setidir. Bu veri seti, modelin giriş verileri ile bunlara karşılık gelen hedef çıktıları içerir. Model, eğitim veri setini kullanarak giriş verileri ile çıktıları arasındaki ilişkiyi öğrenir.

Test Veri Seti (Test Data): Test veri seti, eğitim veri setinden bağımsız olarak modelin performansını değerlendirmek için kullanılan veri setidir. Test veri seti, modelin eğitim sırasında gördüğü ancak modelin doğruluğunu ölçmek için kullanılmamış olan verileri içerir. Model, test veri setindeki giriş verilerini kullanarak tahminler yapar ve bu tahminlerin gerçek çıktılarla karşılaştırılmasını sağlar.

Modelin performansını değerlendirmek için, genellikle eğitim veri seti ve test veri seti arasında rastgele bir bölünme yapılır. Eğitim veri seti, genellikle modelin %70-80’ini eğitmek için kullanılırken, test veri seti geriye kalan %20-30’unu modelin performansını değerlendirmek için kullanılır. Bu bölünme, modelin eğitim sırasında eğitim veri setine aşırı uyum (overfitting) yapmasını engellemek için önemlidir. Aşırı uyum, modelin eğitim veri setine çok iyi uymasına rağmen, genelleme yapma yeteneğinin zayıf olduğu durumu ifade eder. Test veri seti, modelin gerçek dünya verileri üzerinde ne kadar iyi performans göstereceğini daha doğru bir şekilde belirlememize yardımcı olur.

library(readr)

library(readr)
test <- read_csv("~/Ekonometrı proje/test.csv")

## Rows: 4277 Columns: 13
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (2): CryoSleep, VIP
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

View(test)

train <- read_csv("~/Ekonometrı proje/train.csv")

## Rows: 8693 Columns: 14
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): PassengerId, HomePlanet, Cabin, Destination, Name
## dbl (6): Age, RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
## lgl (3): CryoSleep, VIP, Transported
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

View(train)

library(rmarkdown)

paged_table(test)

paged_table(train)

Veri seti açıklayın ?

Veri seti, bir araştırma, deney veya analiz için toplanan veya oluşturulan verilerin yapılandırılmış bir koleksiyonudur. Veri setleri, belirli bir konuya veya problem alanına odaklanan, birbiriyle ilişkili veya bağımsız değişkenleri içerebilir. Veri setleri, genellikle tablo veya matris biçiminde organize edilir ve her bir satır bir veri noktasını (örneği) temsil ederken, her bir sütun bir özellik veya değişkeni temsil eder.

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ stringr   1.5.1
## ✔ forcats   1.0.0     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(explore)

train %>% describe_all()

## # A tibble: 14 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  chr       0    0     8693    NA  NA       NA
##  2 HomePlanet   chr     201    2.3      4    NA  NA       NA
##  3 CryoSleep    lgl     217    2.5      3     0   0.36     1
##  4 Cabin        chr     199    2.3   6561    NA  NA       NA
##  5 Destination  chr     182    2.1      4    NA  NA       NA
##  6 Age          dbl     179    2.1     81     0  28.8     79
##  7 VIP          lgl     203    2.3      3     0   0.02     1
##  8 RoomService  dbl     181    2.1   1274     0 225.   14327
##  9 FoodCourt    dbl     183    2.1   1508     0 458.   29813
## 10 ShoppingMall dbl     208    2.4   1116     0 174.   23492
## 11 Spa          dbl     183    2.1   1328     0 311.   22408
## 12 VRDeck       dbl     188    2.2   1307     0 305.   24133
## 13 Name         chr     200    2.3   8474    NA  NA       NA
## 14 Transported  lgl       0    0        2     0   0.5      1

test %>% describe_all()

## # A tibble: 13 × 8
##    variable     type     na na_pct unique   min   mean   max
##    <chr>        <chr> <int>  <dbl>  <int> <dbl>  <dbl> <dbl>
##  1 PassengerId  chr       0    0     4277    NA  NA       NA
##  2 HomePlanet   chr      87    2        4    NA  NA       NA
##  3 CryoSleep    lgl      93    2.2      3     0   0.37     1
##  4 Cabin        chr     100    2.3   3266    NA  NA       NA
##  5 Destination  chr      92    2.2      4    NA  NA       NA
##  6 Age          dbl      91    2.1     80     0  28.7     79
##  7 VIP          lgl      93    2.2      3     0   0.02     1
##  8 RoomService  dbl      82    1.9    843     0 219.   11567
##  9 FoodCourt    dbl     106    2.5    903     0 439.   25273
## 10 ShoppingMall dbl      98    2.3    716     0 177.    8292
## 11 Spa          dbl     101    2.4    834     0 303.   19844
## 12 VRDeck       dbl      80    1.9    797     0 311.   22272
## 13 Name         chr      94    2.2   4177    NA  NA       NA