istatistik

  • İstatistik, bilimsel araştırma yöntemleriyle toplanan verinin anlamlı bir bütün haline getirilmesi için düzenlenmesi, analiz edilmesi, çözümlemelere dayalı sonuçların değerlendirilmesi ve yorumlanması sonucunda oluşan tahminler yapmaya yönelik bir bilimdir. İstatistik kısaca, elde edilen verilerden bilgi çıkarmak için kullanılan bir yöntemdir.

Örneklem

Örneklemin önemini şu şekilde anlatabiliriz:

Amerikada yürütülen bir çalışmada, yeni doğan bebekler için anne sütü 6 ay’a kadar yararlı, sonrası için yararlı olmadığı elde edilmiş. - Örneklem olarak sadece amerikalı bebekler alınmış. - Peki diğer ülkeler?…. Güney Afrikada yapılan diğer araştırmada 2 yıl anne sütü ile beslenen bebeklerin daha sağlıklı olduğu sonucuna varılmış. Bu durumda Amerika’daki ve Afrika’daki bu araştırmaların arasındaki fark ÖRNEKLEMDİR.

Değişkenler

Değişkenlerin değerleri her bir gözlem üzerinden elde edilmektedir. Başka bir deyimle, her bir gözleme göre farklılık göstermektedir.

Bağımlı ve Bağımsız Değişkenler

Bağımlı değişken bağımsız değişkenin değerlerinden etkilenen değişkendir. Tahmin Edilen ve Tahmin Edici olarak da ayrılabilir.

Bir örnek ile açıklayalım:

Kira fiyatlarından bahsedelim, kirayı tahmin edicek bir model oluşturalım. Bağımlı değişkenimiz kira miktarı oluyor çünkü kira miktarını bulmaya çalışıyoruz, bağımsız ise kira miktarını etkileyen değişkendir, örneğin: oda sayısı veya konumu..

Matrisler

Öncelikle x adında bir vektör oluşturuyorum ve bu vekörün elemanları 1,2,3,4 olsun.

x = c(1,2,3,4)

Oluşturacağım matrixde 1,2,3,4 elemanlarını kullanıyorum ve ilk parametreye x diyorum ardından “nrow” yani satır sayısı ve sonra “ncol” sütün sayısı olarak çalıştırıyorum.

matrix(x, nrow =2, ncol=2)
##      [,1] [,2]
## [1,]    1    3
## [2,]    2    4

Bu matrixde ilk önce sutunlardan başladı 1-2 , 3-4 olarak ancak bunu tam tersi olarak da değiştirebilirim.

matrix(x, nrow =2, ncol=2, byrow = TRUE)
##      [,1] [,2]
## [1,]    1    2
## [2,]    3    4

byrow = TRUE komutunu çalıstırarak satırların ve sutunların yerlerini değiştirebiliriz.

Betimsel istatistikler Toplam değer ve ortalama

Bir vekörun oluşturalım

y <- c(23,45,67,43,56)

Uzunluk eleman sayısı

vektörün gözlam sayısını ve uzunluğunu “lenght” fonksiyonunu kullanarak görebiliriz

length(y)
## [1] 5

Toplam

vektörün bütün elemanlarını toplamak için “sum” fonksiyonunu kullanıyoruz

sum(y)
## [1] 234

Ortalama

vektörün bütün elemanlarının toplamının ortalamasına “mean” fonksiyonunu kullanarak erişebiliriz

mean(y)
## [1] 46.8

başka bir seçenek ise

ort<- sum(y) / length(y)

Standart sapma

  • Değişkendeki değerlerin ortalamadan ne kadar saptığını gösteren bir metriktir.
  • Başka bir deyimle değerlerin ortalamadan sapma değerlerinin ortalaması.
  • Standart sapma değerinin yüksek olması 1 birim üzerinden değişkendeki değerlerin birbirine uzak olduğunu, yani daha geniş dağıldığını göstermektedir.

Standart sapma hesaplama fonksiyonu

a<- c(12,34,56,34,23,45)

standart sapma hesaplamasını “sd” fonksiyonunu kullanarak erişebiliriz

sd(a)
## [1] 15.55635

Varyans

  • Standart sapmanın karesidir.
  • Varyans gözlemlerin değişkenliğini tanımlayan bir numerik değerdir.
  • Başka bir deyimler gözlemlerin örneklemde ne kadar yayıldığını gösteren değerdir.
  • Standart sapmadan farkı, standart sapma veri set içerisindeki gözlemlerin ortalamadan farklılığını tanımlar varyans ise değişkenliği tanımlar.

Vayans hesaplama fonksiyonu

b<- c(12,14,10,11,13,17,16)

öncelikle standart sapmasını buluyoruz

sd(b)
## [1] 2.56348

varyansı bulmak için “var” fonksiyonunu kullanabiliriz

var(b)
## [1] 6.571429

başka bir yöntem ise varyansı bulmak için standart sapmanın karesini alıyoruz

sd(b)**2
## [1] 6.571429

Medyan

  • Medyan ortanca değerdir, bir serimizi büyükten küçüğe doğru sıraladığımızda ortada kalan değer bize medyan değerini verir.
c<- c(12,34,56,23,34,12,35)

Bu vektörun ortanca değerini “median” fonksiyonunu kullanarak bulabiliriz

median(c)
## [1] 34

Açıklık

  • Minimum değer ile maksimum değer arasındaki fark bize açıklık değerini veriyor.
max(c) - min(c)
## [1] 44

Çeyreklikler

  • Çeyreklikler serimizi 4 eşit parçaya böldüğümüzde elde ettiğimiz q1, q2, q3 değerleri idi ve bu değerler bizim 1. çeyrek, 2.çeyrek ve 3. çeyreklerimizi elde etmemizi sağlıyor.

Çeyreklikleri “quantite” fonksiyonu kullanarak bulabiliriz.

quantile(c)
##   0%  25%  50%  75% 100% 
## 12.0 17.5 34.0 34.5 56.0