ÖZET

İstatistik alanında testler parametrik testler ve parametrik olmayan testler olmak üzere ikiye ayrılır. Değişkenlerin normal dağılım göstermesi, varyansların homojen olması ve gözlem sayısının 30 ve üstü olması varsayımlarının sağlanması durumunda parametrik testler kullanılır. Varsayımların sağlanmadığı durumlarda parametrik olmayan testler kullanılır. Bu çalışmada kapsamında, parametrik olmayan testlerden Mann Whitney-U, Wilcoxon İşaretli Sıralar, Kruskal Wallis, Ki-kare testleri ele alınmış ve R programlama dili kullanılarak analizleri sunulmuştur.

PARAMETRİK OLMAYAN TESTLER

İstatistik alanında testler parametrik testler ve parametrik olmayan testler olmak üzere ikiye ayrılır. Değişkenlerin normal dağılım göstermesi, varyansların homojen olması ve gözlem sayısının 30 ve üstü olması varsayımlarının sağlanması durumunda parametrik testler (t-test, Z-testi, ANOVA ya da ANCOVA gibi) kullanılır (Eser, Aksu ve Güzeller, 2019; Büyüköztürk, 2010; Kalaycı, 2010). Bu varsayımların karşılanmadığı durumlarda parametrik olmayan (nonparametrik) testler kullanılır (Kloke, McKean & McKean, 2015). Bir diğer deyişle, parametrik olmayan istatistiksel yöntemler, verilerin belirli olasılık dağılımı hakkında varsayımlarda bulunmadan istatistiksel analiz için kullanılabilen tekniklerdir. Bu yöntemler, temel dağılımın bilinmediği veya normal dağılım gibi yaygın parametrik dağılımlara uymayabileceği veri kümelerini analiz etmek için değerli bir araç olabilir. Hipotez testleri oluşturulurken, herhangi bir evrenden çekilen örneklem dağılımı, evren dağılımı hakkında bilgi verebilir (Karagöz, 2010). Evren dağılımı bilindiği durumlarda parametrik istatistikler kullanılır. Ancak evren dağılımının bilinmediği ya da herhangi bir varsayımda bulunulmadığı durumlarda parametrik olmayan testler kullanılır (Gamgam, 1998).

Gibbons & Chakraborti (2011) ‘ e göre, parametrik olmayan istatistiksel yöntemler, özellikle sosyal bilimler, tıbbi araştırmalar ve çevre çalışmaları gibi çeşitli araştırma alanlarında yaygın olarak kullanılmaktadır. Bu yöntemler, verilerin altında yatan olasılık dağılımları hakkında varsayımlar gerektirmez ve küçük örneklem boyutlarına sahip veya normal olmayan dağılımlara sahip veri setlerine uygulanabilir. Parametrik yöntemler, tüm durumlar için doğru seçenek değildirler ve uygun olmayan koşullarda kullanımları sonucunda “β tipi hata” oluşabilir. Parametrik yöntemlerin kullanılabilmeleri için çeşitli koşullar gereklidir ve bunların yerine gelmediği durumlardaki uygulamaların sonuçları yanlış olabilir. Araştırıcının, sürekli değişkenlerle gerçekleştirilmiş çalışmalardaki ilk sorgulaması, eldeki verilerin özelliklerine göre hangi tip yöntemin kullanılması gerektiği yönünde olmalıdır. Daha güvenli olmaları nedeni ile parametrik yöntemler kullanmak uygun olaaktır; ancak koşullar uygun değilse kullanılmaları hata oluşturabileceğinden yerlerine uygun parametrik olmayan seçenek kullanılmalıdır (Kalaycı, 2010).

Parametrik olmayan yöntemler, veriler hakkında hiç veya çok sınırlı varsayımlar yapılmasını gerektiren alternatif bir dizi istatistiksel yöntem sağlar (Whitley & Ball, 2002). Etkili parametrik testlerden daha az duyarlıdır. Bu nedenle varolan gruplar arasındaki farklılıkları bulmada yetersiz kalabilmektedir (Kalaycı, 2010). Parametrik olmayan testler için verilerin rassal ve bağımsız olarak elde edilmeli ve veriler sınıflama (nominal) ya da sıralama (ordinal) ölçeğinde olmalıdır (Büyüköztürk, 2010; Kalaycı, 2010; Tanrıverdi, 2019). Veriler genellikle sıralandıktan ya da işarete dönüştürüldükten sonra test edilir (Miller ve Miller, 2006). Genel olarak parametrik olmayan analiz yöntemlerinde, yapılan tüm ölçümler sıralanır ve her bir ölçüme karşılık gelecek bir sıra değeri belirlenir. Gruplar ya da ölçümler arasındaki farklılık bu sıra değerleri kullanılarak değerlendirilir. Bu uygulamanın temel amacı, ölçüm gruplarının olabildiğince normal dağılıma yaklaştırılarak hata olasılığını azaltmaktır (Whitley & Ball, 2002).

Parametrik olmayan testler, veri setinde belirli bir dağılım varsayımı yapmaksızın kullanılan istatistiksel testlerdir. Bu testler, veri setinde normal dağılım gibi bir varsayım yapmadan çeşitli istatistiksel analizler yapmaya olanak tanır. Ancak, parametrik olmayan testler de bazı varsayımlar yapar. Bu varsayımların yerine getirildiğinden emin olmak, parametrik olmayan testlerin doğru sonuçlar vermesini sağlar. Parametrik olmayan testlerin varsayımları şöyledir (Büyüköztürk, 2010):

Parametrik olmayan testler gruplar arasındaki sistematik farklılıkları karşılaştırmak için kullanılır (Güler, 2016). Parametrik testlerde genelde ortalamalar karşılaştırılırken, parametrik olmayan testlerde karşılaştırmalar genellikle ortanca değere, verinin şekline ve dağılımına göre yapılır. Bu nedenle parametrik olmayan testler oluşturulurken hipotezlerin ve yorumlamaların ortalamalar üzerine kurulmamasına dikkat etmek gerekir. Elde edilen fark dağılımlara ait farktır ve ortalamaları yorumlamak mümkün değildir. Veriler sıralama ölçeği düzeyinde olduğu için yorumlanması eşit aralıklı ölçekteki gibi yapılmamalıdır. Ayrıca, parametrik testlere göre daha güçsüz olduklarından, etki büyüklüklerinin ve güç analizlerinin sunulması önemlidir (Genç & Soysal, 2018; Güler, 2016; Karagöz, 2010). Bu çalışmada parametrik olmayan testlerden Mann-Whitney U testi, Wilcoxon işaret testi, Kruskal-Wallis testi ve Ki Kare testi ele alınacaktır.

Tanımlayıcı İstatistikler

Tanımlayıcı istatistikler, veri setinde bulunan özellikleri ve dağılımları tanımlamak için kullanılan istatistiksel yöntemlerdir. Bu yöntemler, veri setini özetlemek ve anlamak için kullanılır (Aydın vd., 2018; Kuznetsova, Brockhoff & Christensen, 2016). Bu yöntemler arasında veri setinin özet bilgisi, frekans dağılımları, ortalama, medyan, varyans, mod gibi ölçütler yer alır. Bu ölçütler, veri setinin genel özelliklerini ortaya çıkarmak için kullanılır. Tanımlayıcı istatistiklerin hesaplanması sonraki aşamalarda yapılacak analiz sonuçlarının yorumlanması konusunda yardımcı olacağından, analizlerden önce araştırmacının veri setini daha iyi anlaması için tanımlayıcı istatistiklerin hesaplanması ve yorumlanması gerekir (Eser, Aksu ve Güzeller, 2019).

R programlama dili, tanımlayıcı istatistikleri analiz etmek için çeşitli fonksiyonlar ve paketler sunmaktadır. Örnek olarak, veri kümesinde bulunan değişkenlerin ortalama, medyan, mod gibi temel istatistiklerini hesaplamak için summary() fonksiyonu kullanılabilir. Ayrıca, veri kümesinde bulunan değişkenlerin dağılımını görselleştirmek için hist(), boxplot() gibi fonksiyonlar kullanılabilir.

Aritmetik Ortalama: Bir veri setindeki tüm değerlerin toplamının, o serideki veri sayısına bölünmesi ile hesaplanır. mean () fonksiyonu ile hesaplanır. Birden fazla değişkenin ortalaması colMeans () fonksiyonu ile hesaplanır.

mean(data_lise$basari,na.rm = T)

colMeans(data_lise[,c("basari","kaygi")],na.rm = T)

Ortanca: Bir veri setinde tam ortada yer alan değerdir. Sıralanmış bir seride tam ortaya denk gelen değerdir. median () fonksiyonu ile hesaplanır.

median(data_lise$basari,na.rm = T)

Varyans: Bir veri seti içindeki değerlerin ortalamadan sapmalarının karelerinin toplamının, toplam değer sayısına bölünmesiyle hesaplanır. var () fonksiyonu ile hesaplanır.

var(data_lise$basari,na.rm = T)

Standart Sapma: Ölçümlerin ortalamadan ne kadar uzaklaştığını gösterir, varyansın pozitif kareköküne eşittir.

sd(data_lise$basari,na.rm = T)

Çarpıklık: Bir veri setinde dağılımın ortalama etrafındaki simetriden ne kadar saptığını gösterir. moments (Komsta & Novomestky, 2015) paketinde yer alan skewness fonksiyonu ile hesaplanabilir.

library(moments) skewness(data_lise$basari,na.rm = T)

Basıklık: Bir veri setinde verilerin tepe noktalarının durumunun normalden sapması (basık veya sivri olması) hakkında bilgi verir. moments (Komsta & Novomestky, 2015) paketinde yer alan kurtosis() fonksiyonu ile hesaplanabilir.

library(moments) kurtosis(data_lise$basari,na.rm = T)

Ortalama = Ortanca = Mod ise dağılım normaldir. Normalden sapma arttıkça bu değerler bir birinden uzaklaşır.

Çarpıklık Katsayısı (Ç.K.) = 0 ise dağılım normaldir. Ç.K. ± 1 sınırları arasında ise dağılımın normal dağılımdan önemli ölçüde sapmadığı şeklinde yorumlanır. Ç.K. negatif ise sola çarpıklık vardır ve ortalama ortancadan küçüktür. Ç.K. pozitif ise sağa çarpıklık vardır ve ortalama ortancadan büyüktür.

Basıklık katsayısı (B.K.) = 0 ise dağılım normaldir. B.K. negatifse eğri normale göre daha basıktır. BK. pozitifse eğri normale göre daha sivridir.

Mann Whitney U-Testi

İki ilişkisiz örneklemden elde edilen puanların karşılaştırılmasında kullanılır (Erilli, 2018; Kalaycı, 2010; Mann & Whitney, 1947). İki ilişkisiz grubun, ilgilenilen değişken bakımından evrende benzer dağılımlara sahip olup olmadığını test eder (Büyüköztürk, 2010). Bir başka deyişle, birbirinden bağımsız iki grubun veya örneklemin bağımlı bir değişkene ilişkin ölçümlerinin karşılaştırılarak iki dağılım arasında anlamlı bir fark olup olmadığını test etmek amacıyla kullanılır (Ural ve Kılıç, 2006). Bu test bağımsız örnekler için uygulanan t-testlerinin parametrik olmayan alternatifidir ve örneklenen iki grubun tek bir popülasyondan olup olmadığını belirlemek üzere kullanılır (McKnight & Najab, 2010).

Mann-Whitney U testi, iki bağımsız örneğin ortancaları arasında anlamlı bir fark olup olmadığını belirlemek için kullanılabilen bir testtir. Test, gözlemlerin ham değerlerinden ziyade sıralarına dayanır, bu da onu aykırı değerlere ve normal olmamaya karşı daha sağlam kılar (Hollander, Wolfe & Chicken, 2013; Sidney, 1957). Test, Wilcoxon sıra toplamı testi olarak da bilinir ve normallik ve eşit varyans varsayımları karşılanmadığında genellikle t-testine bir alternatif olarak kullanılır.

Mann Whitney-U testinde iki grup birbirinden bağımsızdır ve bağımlı değişkenler sıralama düzeyindedir. Mann Whitney-U testinde eşit aralıklı düzeyde veri olmadığından ortalamalar yerine dağılımlar karşılaştırılır. Mann Whitney-U testinde hipotezler ilişkisiz grupların ortancaları üzerine değil bir gruptaki gözlemlerin diğer gruptaki gözlemlerden büyük/küçük/farklı olduğu üzerine kurulur (McClave & Sincich, 2006). Üç Sürekli değişkenlerin iki grup içerisinde değerlerini sıralı hale dönüştürür. Böylece iki grup arasındaki sıralamanın farklı olup olmadığını değerlendirir. Değerler sıralı hale dönüştürüldüğü için değerlerin asıl dağılımları önemli değildir (Kalaycı, 2010). Strateji, iki örneklemden alınan değerlerin sıra sıralamasında rastgele mi karıştırıldığını yoksa birleştirildiğinde zıt uçlarda kümelenip kümelenmediğini belirlemektir (Corder & Foreman, 2014).

Testin Varsayımları (Büyüköztürk, 2010; Kalaycı, 2010; McKnight & Najab, 2010; Whitley & Ball, 2002)

  • Örneklemler arasında herhangi bir ilişki yoktur ve her örneklemin oluşması diğer örneklemlerin oluşumunu etkilememektedir.

  • Örneklemlerin herhangi bir değişkeni sürekli olmalıdır.

  • Örneklemlerin herhangi bir değişkeni normal dağılım göstermelidir.

  • Örneklemlerin herhangi bir değişkeni arasındaki varyanslar eşit olmalıdır.

Testin Aşamaları

İlk olarak iki ilişkisiz örnekleme ait puanlara, gruba bakılmaksızın en küçükten en yüksek puana doğru sıra sayıları verilir. En küçük puana, en küçük sıra sayısı olan 1 değeri verilerek en yüksek puana doğru sıralama yapılır. Analiz iki gruba ait puanların sıra sayıları toplamlarını temel alır. Elde edilen sıra toplamları, grup büyüklüklerine bölünerek grupların sıra ortalamaları bulunur (Büyüköztürk, 2010; Kalaycı, 2010).

  • Mann Whitney U testi gerçekleştirilmeden önce teste ilişkin problem cümlesi yazılır ve problem cümlesine ilişkin hipotezler kurulur. Daha sonra varsayımlar test edilir ve analiz gerçekleştirilir.

  • U değeri hesaplandıktan sonra, U değerinin karşılaştırıldığı kritik değerlere bakılarak hipotez testi yapılır. Eğer U değeri kritik değerden daha küçükse, medyanlar arasında anlamlı bir fark olduğuna karar verilir.

  • İlk olarak, test edilecek hipotezler belirlenir. Null hipotezi, iki örneklemin medyanlarının eşit olduğudur. Alternatif hipotez ise iki örneklemin medyanlarının farklı olduğudur.

  • İki örneklemin verileri, her bir örneklemin içindeki değerler arasında sıralanır.

  • Sıralanmış veriler üzerinden U değeri hesaplanır. U değeri, küçük örneklem için küçük değerlerin toplamıdır.

  • U değeri, istatistiksel olarak anlamlı olup olmadığını belirlemek için kritik değerler ile karşılaştırılır.

Eğer p-değeri kabul edilebilir bir seviyede ise null hipotezi reddedilir ve alternatif hipotez kabul edilir. Bu durumda iki örneklemin medyanları arasında anlamlı bir fark olduğu sonucuna varılır.

Araştırma Problemi

Bir araştırmacı, öğrencilerin okuma seviyelerinin cinsiyetlerine göre farklı olup olmadığını incelemek istemektedir. Cinsiyete göre okuma seviyeleri arasında anlamlı bir fark var mıdır?

Hipotezler

H0: Cinsiyetler arasında okuma seviyesi farkı yoktur.

H1: Cinsiyetler arasında okuma seviyesi farkı vardır.

Veri seti oluşturma

Öncelikle veri çekme işlemi yapılarak veriler RStudio’ya çağrılmalıdır. Veri çekme işlemi sanal depolardan veri çekme, RStudio aracılığı ile veri çekme veya veri seti çalışma klasörünün içinde ise RStudio’ya adres belirtmeden veri çekme, R Studio’da veri seti oluşturma şeklinde yapılabilir.

Cinsiyet (Erkek/Kadın)

Okuma Seviyesi (1-5 arası skala)

# Cinsiyetler için 0: Erkek, 1: Kadın
cinsiyet <- sample(c(0, 1), 100, replace = TRUE, prob = c(0.5, 0.5))
# Okuma seviyesi için 1-5 arası rastgele değerler
okuma_seviyesi <- sample(1:5, 100, replace = TRUE)
# Veri setini oluşturalım
veri_seti <- data.frame(cinsiyet, okuma_seviyesi)
str(veri_seti)
## 'data.frame':    100 obs. of  2 variables:
##  $ cinsiyet      : num  1 0 1 1 0 1 0 0 0 1 ...
##  $ okuma_seviyesi: int  2 3 2 3 4 4 4 4 3 3 ...

Örneklemin tanımlanması amacıyla ile tanımlayıcı istatistikler gerçekleştirilmiştir. Cinsiyete göre okuma seviyelerine ilişkin tanımlayıcı istatistikler Tablo 1’de sunulmuştur.

# Cinsiyetler için 0: Erkek, 1: Kadın
mean(veri_seti[veri_seti$cinsiyet == "1",]$okuma_seviyesi)
## [1] 3.037037
median(veri_seti[veri_seti$cinsiyet == "1",]$okuma_seviyesi)
## [1] 3
sd(veri_seti[veri_seti$cinsiyet == "1",]$okuma_seviyesi)
## [1] 1.427003
mean(veri_seti[veri_seti$cinsiyet == "0",]$okuma_seviyesi)
## [1] 2.891304
median(veri_seti[veri_seti$cinsiyet == "0",]$okuma_seviyesi)
## [1] 3
sd(veri_seti[veri_seti$cinsiyet == "0",]$okuma_seviyesi)
## [1] 1.320408
#çarpıklık hesapla
library(moments)
skewness(veri_seti[veri_seti$cinsiyet == "1",]$okuma_seviyesi,na.rm = T)
## [1] -0.1048285
skewness(veri_seti[veri_seti$cinsiyet == "0",]$okuma_seviyesi,na.rm = T)
## [1] 0.02579211
#basıklık hesapla
library(moments)
kurtosis(veri_seti[veri_seti$cinsiyet == "1",]$okuma_seviyesi,na.rm = T)
## [1] 1.675822
kurtosis(veri_seti[veri_seti$cinsiyet == "0",]$okuma_seviyesi,na.rm = T)
## [1] 1.902504

Tablo 1. Cinsiyet ve okuma seviyelerine ilişkin tanımlayıcı istatistikler

Cinsiyet n X S Medyan Çarpıklık Basıklık
Erkek 51 3.191 1.423 3 -0.204 1.745
Kadın 49 3.075 1.627 3 0.0126 1.410

Tablo 1 incelendiğinde, katılımcıların 49’unu kadın, 51’ini erkek katılımcılar oluşturmaktadır. Okuma seviyesi puanları ortalamalarına bakıldığında, erkek katılımcıların ortalama puanı (X=3,018), kadın katılımcıların ortalama puanından (X=3,173) yüksek olduğu görülmektedir. Erkeklerin okuma seviyeleri ortanca değeri 3, kadınların okuma seviyeleri ortanca değeri 3,5’tir. Erkek katılımcıların okuma seviyeleri puanları standart sapma değeri 1,51 iken kadınların 1,48 olarak hesaplanmıştır. Erkek katılımcıların okuma seviyeleri puanlarının dağılımı 0.067 çarpıklık ve 1.548 basıklık değerine sahiptir. Kadın katılımcıların okuma seviyeleri puanlarının dağılımı -0.219 çarpıklık ve 1.627 basıklık değerine sahiptir.

Cinsiyet ve okuma seviyelerine ilişkin boxplot grafiği

# Boxplot grafiği oluşturma
boxplot(okuma_seviyesi ~ cinsiyet, data = veri_seti, xlab = "Cinsiyet", ylab = "Okuma Seviyesi", main = "Cinsiyet ve Okuma Seviyesi")

Cinsiyet ve okuma seviyesi puanlarına ilişkin boxplot grafiği incelendiğinde, erkek ve kadın katılımcılar için elde edilen grafikler sırasıyla 0 ve 1 olarak isimlendirilmiştir. Veri setlerine bakıldığında uç değerlerin olmadığı görülmektedir. Erkeklerin okuma seviyesi ortanca değerinin kadınların okuma seviyesi ortanca değeri ile aynı olduğu görülmektedir. Kadınların okuma seviyesi düzeyine bakıldığında kutu grafiğinin tam ortasında yer alan medyan değeri (Q2) kutunun alt kenarı olan Q1 ile üst değeri olan Q3 değerinin arasında yer aldığı için normal dağılım gösterdiği söylenebilir. Ancak erkeklerin okuma seviyesi düzeyine bakıldığında verilerin normal dağılım sergilemediği ve sağa çarpık olduğu söylenebilir.

Varsayımların Kontrolü

  • Bağımlı değişken olan kaygı değişkeni sürekli yapıdadır.

  • Bağımsız değişken olan cinsiyet, kategorilerden biri kız diğeri erkek olmak üzere kategorik iki bağımsız gruptan oluşmaktadır.

  • Gözlemlerin bağımsız olduğu varsayılmıştır.

Varsayımların kontrol edilmesinden sonra analiz aşamasına geçilir.

Mann Whitney U-testi analizleri stats paketinde yer alan wilcox.test() fonksiyonu ile analiz edilebilir.

wilcox.test(okuma_seviyesi ~ cinsiyet, mu=0, alt="two.sided", conf.int= 1, conf.level=0.95, paired=F, exact=F, correct=F)
## 
##  Wilcoxon rank sum test
## 
## data:  okuma_seviyesi by cinsiyet
## W = 1163.5, p-value = 0.5791
## alternative hypothesis: true location shift is not equal to 0
## 95 percent confidence interval:
##  -9.999724e-01  6.891724e-05
## sample estimates:
## difference in location 
##          -6.562666e-05

Analiz sonucuna göre, erkekler ve kadınlar arasında okuma seviyesi puanlarında istatistiksel olarak anlamlı bir farklılık bulunmamıştır (W=1116, p>.05). H0 hipotezi kabul edilir. Sıra ortalamaları dikkate alındığında, erkek ve kadın katılımcıların sıra ortalamaları arasında istatistiksel olarak anlamlı bir farklılık görülmemiştir. Bu sonuca göre, okuma seviyelerinin cinsiyetle ilişkili bir faktör olmadığı düşünülmektedir.

Wilcoxon İşaretli Sıralar Testi

Wilcoxon İşaretli Sıralar Testi tekrarlanan değerler için kullanılmaktadır (Corder & Foreman, 2014; Kalaycı, 2010). Test, Wilcoxon tarafından geliştirilmiştir ve bağımlı örneklemler t-testinin parametrik olmayan karşılığıdır (Akgül ve Çevik, 2003; Wilcoxon, 1945). Bağımlı örneklem t-testinin kullanımının uygun olmadığı ve normallik varsayımının sağlanmadığı durumda kullanılmaktadır. Wilcoxon İşaretli Sıralar testi az denekli yürütülen grupiçi karşılaştırmalarda kullanılır. İlişkili iki ölçüm setine ait fark puanlarının yönünün yanısıra puanlar arasındaki farkın anlamlılığını test etmek amacıyla kullanılır (Büyüköztürk, 2010).

Wilcoxon İşaretli Sıralar Testi, iki kategorik değişken arasındaki ilişkiyi ölçmek için kullanılan bir nonparametrik istatistik testidir. Test, iki değişken arasında ortalama farkının var olup olmadığını belirlemek için kullanılır. Test, her iki değişken arasındaki farkların sıralı hali oluşturulur ve bu sıralanmış değerlerin işaretleri (pozitif veya negatif) atanır. Daha sonra, pozitif işaretli farkların toplamı (W+) veya negatif işaretli farkların toplamı (W-) hesaplanır. Elde edilen W değeri, normal dağılım gösteren bir teori değeriyle karşılaştırılır.

Testin Varsayımları (Büyüköztürk, 2010; Kalaycı, 2010)

  • Örneklemlerin bağımsız olması: Her kategorik değişken için örneklemlerin diğer kategorik değişkenlerdeki örneklemlerle bağımsız olduğu varsayılır.

  • Örneklemlerin normal dağılmamış olması: Her kategorik değişken için örneklemlerin normal dağılmış olması gerekmez, ancak normal dağılmış olması ideal olarak daha iyi sonuçlar verecektir.

  • Örneklem büyüklüklerinin aynı olması: Her kategorik değişken için örneklem büyüklüklerinin aynı olması gerekmez, ancak aynı büyüklükte olması ideal olarak daha iyi sonuçlar verecektir.

  • Örneklemlerin homojen variansa sahip olması: Her kategorik değişken için örneklemlerin homojen variansa sahip olması gerekmez, ancak homojen variansa sahip olması ideal olarak daha iyi sonuçlar verecektir.

Testin Aşamaları

Wilcoxon İşaretli Sıralar testi fark puanları üzerinden yürütülür. Fark puanları küçükten büyüğe doğru, 1’den başlayarak işaretine dikkat edilmeksizin sıra sayıları verilmesi temeline dayanır (Büyüköztürk, 2010). Wilcoxon İşaretli Sıralar Testi, her iki grubun verilerini birleştirir ve verileri işaretler (örneğin, 1 veya -1) ile işaretler. Ardından, işaretli verilerin sıralanması yapılır ve her işaretli değer için bir puan verilir. Bu puanlar, her iki grubun verileri arasındaki medyan farkının anlamlı olup olmadığını test etmek için kullanılır.

Araştırma Sorusu

Bir araştırmacı, Çevrimiçi eğitim programının uygulanmasının öğrencilerin motivasyon düzeylerine etkisini incelemek istiyor. Çevrimiçi eğitim programı uygulamasının öğrencilerin uygulama öncesi ve sonrası motivasyon düzeyleri arasında fark var mıdır?

Hipotezler

Ho: Çevrimiçi eğitim programı uygulamasının öğrencilerin uygulama öncesi ve sonrası motivasyon düzeyleri arasında fark yoktur. (μA = μB)

H1: Çevrimiçi eğitim programı uygulamasının öğrencilerin uygulama öncesi ve sonrası motivasyon düzeyleri arasında fark vardır. (μA ≠ μB)

Veri Seti Oluşturma

R Programlama Dili İle Veri Seti Üretimi:

onmoti <- c(9, 3, 8, 5, 5, 10, 2, 10, 3, 8, 6, 7)
sonmoti <- c(4, 7, 6, 4, 5, 2, 3, 4, 6, 9, 6, 7)
veri_seti <- data.frame(onmoti, sonmoti)
str(veri_seti)
## 'data.frame':    12 obs. of  2 variables:
##  $ onmoti : num  9 3 8 5 5 10 2 10 3 8 ...
##  $ sonmoti: num  4 7 6 4 5 2 3 4 6 9 ...

Varsayımların Kontrolü

  • Bağımlı değişken olan matematik puanları sürekli bir yapıya sahiptir.
  • Ölçme sonuçları farklı iki uygulama için aynı bireylerden elde edilmiştir.
  • Gözlemlerin bağımsız olduğu varsayılmıştır.

Wilcoxon İşaretli Sıralar testi uç değerlere ve normalliğin sağlanmamasına karşı dirençli bir test olsa da, boxplot grafiklerini yorumlamak veri setine hakim olma anlamında önemli olacaktır (Eser, Aksu ve Güzeller, 2019).

İki farklı eğitim programının öğrencilerin motivasyon düzeylerine ilişkin boxplot grafiği:

# Boxplot grafiği oluşturma
boxplot(onmoti, data = veri_seti,  main = "Ön Motivasyon Seviyesi")

boxplot(sonmoti, data = veri_seti, main = "Son Motivasyon Seviyesi")

Çevrimiçi eğitim programı uygulamasının öğrencilerin motivasyon düzeylerine ilişkin elde edilen boxplot grafiği incelendiğinde uç değer olmadığı görülmektedir. Ön motivasyon düzeyine bakıldığında kutu grafiğinin medyan değeri (Q2), kutunun alt kenarı olan Q1 ile üst değeri olan Q3 değerinin arasında yer alsa da verinin bir miktar sola çarpık olduğu söylenebilir. Ancak Son motivasyon düzeyine bakıldığında verinin sağa çarpık olduğu açıkça görülmektedir.

Varsayımların kontrol edilmesinden sonra analiz aşamasına geçilir.

Wilcoxon İşaretli Sıralar Testi analizleri stats paketinde yer alan wilcox.test() fonksiyonu ile analiz edilebilir.

#Wilcoxon İşaretli Sıralar Testi
wilcox.test(onmoti, sonmoti, mu=0, alt="two.sided", conf.int=T, conf.level=0.95, paired=T, exact=F, correct=F)
## 
##  Wilcoxon signed rank test
## 
## data:  onmoti and sonmoti
## V = 30, p-value = 0.3726
## alternative hypothesis: true location shift is not equal to 0
## 95 percent confidence interval:
##  -2.000017  5.000048
## sample estimates:
## (pseudo)median 
##        1.49993

Çevrimiçi eğitim programı uygulamasının öğrencilerin ön ve son motivasyon düzeyleri arasındaki farkı test etmek için Wilcoxon İşaretli Sıralar Testi analiz sonuçlarına göre, çevrimiçi eğitim programının uygulanmasının ön ve son motivasyon düzeyleri arasında istatistiksel olarak anlamlı farklılık yoktur (V=30; p>.05). H1 hipotezi reddedilmiştir. Bu sonuca göre çevrimiçi eğitim programının uygulanmasının öğrencilerin ön ve son motivasyon düzeyleri arasında istatistiksel olarak anlamlı farklılık olmadığı görülmektedir.

Kruskal Wallis Testi

Kruskal-Wallis testi, birden fazla kategorik değişken arasındaki ilişkiyi ölçmek için kullanılan bir nonparametrik istatistik testidir (Kruskal & Wallis, 1952). Test, en az üç kategori arasındaki ortalama farkların var olup olmadığını belirlemek için kullanılır. Test, Kruskal ve Wallis tarafından geliştirilmiştir ve normal dağılım gösteremeyen veya n örneklem büyüklüğü küçük olan veriler için kullanılabilir. Bu test, ANOVA (Analysis of Variance) testinin nonparametrik versiyonudur.

Kruskal-Wallis testi, her kategorik değişken için sıralanmış değerler oluşturulur ve bu değerler arasındaki farkların ortalaması hesaplanır. Daha sonra, elde edilen ortalamalar arasındaki farkların var olup olmadığı test edilir.

Testin Varsayımları (Büyüköztürk, 2010; Kalaycı, 2010; McKnight & Najab, 2010; Whitley & Ball, 2002)

  • Bağımlı değişkenler sıralama ölçeğindedir.
  • Bağımsız değişken üç ya da daha fazla bağımsız gruptan meydana gelmelidir.
  • Gözlemler birbirinden bağımsızdır.

Testin Aşamaları (Büyüköztürk, 2010; Conover, 1999; Kalaycı, 2010)

  • Üç veya daha fazla kategorik değişken arasında medyan farkı yoktur.
  • Her kategorik değişken için sıralanmış değerler oluşturulur ve bu sıralanmış değerlerin Ranks hesaplanır.
  • Ranks değerleri arasındaki farkların kareleri alınır ve her kategorik değişken için toplanır. Elde edilen H değeri hesaplanır.
  • H değeri, normal dağılım gösteren bir teori değeri ile karşılaştırılır ve P-değeri hesaplanır.
  • P-değerin önceden belirlenmiş bir kritik değerin altında olup olmadığına bakılarak kabul edilip edilmeye karar verilir. Eğer P-değer kritik değerin altındaysa H0 hipotezi reddedilir ve alternatif hipotez kabul edilir.

Araştırma Sorusu

Bir araştırmacı, 30 öğrencinin fen bilimleri sınavından elde ettikleri toplam puanlara ilişkin verilerden yola çıkarak, öğrencilerin fen bilimleri sınavından aldıkları toplam puanların yaş gruplarındaki sıra ortalamaları arasındaki farkın eşitlik durumu belirlemeye çalışmaktadır. Öğrencilerin fen bilimleri sınavından aldıkları toplam puanların yaş gruplarındaki sıra ortalamaları farklılaşmakta mıdır?

Hipotezler

H0 : Öğrencilerin fen bilimleri sınavından aldıkları toplam puanların yaş gruplarındaki sıra ortalamaları birbirine eşittir.

H1 : Öğrencilerin fen bilimleri sınavından aldıkları toplam puanların yaş gruplarındaki sıra ortalamaları birbirine eşit değildir.

Analize başlamadan önce analize ilişkin varsayımlar test edilmiş ve bu varsayımların testi sonucunda elde edilen sonuçlar sunulmuştur.

R Studio’ya Veri Çekme

R programlama dili ile analiz etmek için, öncelikle veri seti R ortamına yüklenir.

yas <- c(1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1)
puan <- c(22, 19, 19, 10, 40, 30, 19, 17, 19, 26, 22, 19, 19, 10, 18, 30, 19, 17, 39, 26, 22, 19, 19, 10, 18, 30, 8, 17, 19, 26)
veri_seti <- data.frame(yas, puan)
str(veri_seti)
## 'data.frame':    30 obs. of  2 variables:
##  $ yas : num  1 2 3 1 2 3 1 2 3 1 ...
##  $ puan: num  22 19 19 10 40 30 19 17 19 26 ...

Varsayımların Kontrolü

  • Bağımlı değişken olan öğrencilerin fen bilimleri sınavından aldıkları puanlar sürekli bir yapıya sahiptir.
  • Bağımsız değişken olan yaş değişkeni 10-13 14-17, 19+ olmak üzere üç farklı bağımsız yaş grubundan meydana gelmektedir.
  • Her bir öğrencinin sadece tek bir yaş grubu içinde yer aldığı varsayılarak gözlemlerin bağımsızlığı kabul edilmiştir.

Varsayımların kontrol edilmesinden sonra analiz aşamasına geçilir.

Kruskal Wallis H Testi analizleri haven paketinde yer alan kruskal.test() fonksiyonu ile analiz edilebilir.

kruskal.test(puan ~ yas, data = veri_seti)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  puan by yas
## Kruskal-Wallis chi-squared = 4.3641, df = 2, p-value = 0.1128

Analiz sonucu incelendiğinde, Kruskal Wallis ki kare değerinin istatistiksel olarak anlamlı düzeyde olduğu görülmektedir (X2=4,364; p>.05). Bu sonuca göre H1 hipotezi reddedilir. Öğrencilerin fen bilimleri sınavından aldıkları toplam puanların yaş gruplarındaki sıra ortalamalarının birbirine eşit olmadığı sonucuna varılmıştır.

Ki-Kare Testi

Ki-kare testi, iki veya daha fazla örneklem arasındaki frekans dağılımları arasındaki farklılığı ölçmek için kullanılan bir istatistiksel testti; bu test, veri normal dağılımlı değilse bile kullanılabilir (Kalaycı, 2010; Woolson & Clarke, 2011). Ki-Kare testi, veri serisindeki değerlerin belirli bir dağılıma uymadığını test etmek için kullanılan önemli bir parametrik olmayan istatistik yöntemidir (Scribbr, 2022). Bu test, veri serisindeki değerlerin beklenen değerler ile karşılaştırılmasını sağlar ve hipotezin doğruluğunu test etmek için kullanılır. Biri sınıflamalı diğeri sıralamalı olan iki değişkenin birbirinden bağımsızlığını başka bir ifade ile aralarında manidar bir ilişki olup olmadığını test etme amacıyla kullanılır (Aktürk ve Acemoğlu, 2011).

Ki-Kare testi, veri serisindeki değerlerin beklenen değerler ile karşılaştırılmasını sağlar. Bu karşılaştırma sonucunda elde edilen Ki-Kare değeri, hipotezin doğruluğunu test etmek için kullanılır. Ki-Kare değeri, hipotezin doğruluğu durumunda beklenen bir değerdir. Eğer elde edilen Ki-Kare değeri, beklenen değerden daha büyükse, hipotez reddedilir.

Parametrik olmayan testler içinde en yaygın olarak kullanılanı ki-kare testidir. Ki-kare testi, uygunluk ve bağımsızlık testi olarak ikiye ayrılır. Ki-kare uygunluk testi, kategorik bir değişkenin frekans dağılımının beklentilerinizden farklı olup olmadığını test etmek için kullanılır. Ki-kare bağımsızlık testi, iki kategorik değişkenin birbiriyle ilişkili olup olmadığını test etmek için kullanılır. İki bağımsız değişken arasındaki ilişkiyi ölçer. Bu testte bir nominal değişkenin, diğer bir nominal değişkenle ilişkili olup olmadığı araştırılır. Kikare testinde beklenen değerlerin 5’ten küçük olması istenir. %20’sinde beklenen değeri 5’ten az ise ki-kare testi anlamlıdır (Büyüköztürk, 2002). Gözlenen ve beklenen değerler arasındaki fark arttıkça ki-kare anlamlı çıkar.

Testin Varsayımları (Büyüköztürk, 2010; Kalaycı, 2010; Scribbr.com, 2022)

  • Örneklemlerin büyüklüğü yeterlidir, yani her bir kategori için en az 5 olay olması gerekir.

  • Örneklemler arasındaki farklılıklar rastgele olmalıdır.

  • Örneklemlerin dağılımı binom veya normal dağılım gibi belli bir dağılıma sahip olmalıdır.

  • Her bir kategori için örneklemler arasında eşit sayıda olaylar olmalıdır.

  • Örneklemler arasındaki farklılıklar binom veya normal dağılım gibi belli bir dağılıma sahip olmalıdır.

**Testin Aşamaları

  • İlgilenilen değişkenler arasında bir fark olduğu veya olmadığı için bir hipotez oluşturulur.
  • Testin gerçekleştirileceği örneklem seçilir.
  • Seçilen örneklem üzerinde veri toplanır.
  • Toplanan veriler aracılığıyla Ki-Kare testi uygulanır ve p değeri hesaplanır.
  • p değeri, hipotezlerin doğrulanıp doğrulanmadığına karar vermek için kullanılır.

Araştırma Problemi

Öğretmenlerin cinsiyetleri ile telefon kullanım sıklığı arasında bir ilişki var mıdır?

Hipotezler

H0: Öğretmenlerin cinsiyetleri ile telefon kullanım sıklığı arasında ilişki yoktur.

H1: Öğretmenlerin cinsiyetleri ile telefon kullanım sıklığı arasında ilişki vardır.

Veri çekme

Cinsiyet (Erkek/Kadın)

Telefon kullanım sıklığı (az, orta, fazla

R Programlama Dili İle Veri Seti Üretimi:

data <- data.frame(cinsiyet = c("Erkek", "Erkek", "Erkek", "Erkek", "Kadın", "Kadın", "Kadın", "Kadın"),
                   kullanim = c("Az", "Az", "Orta", "Fazla", "Az", "Az", "Fazla", "Fazla"))
str(data)
## 'data.frame':    8 obs. of  2 variables:
##  $ cinsiyet: chr  "Erkek" "Erkek" "Erkek" "Erkek" ...
##  $ kullanim: chr  "Az" "Az" "Orta" "Fazla" ...

Cinsiyete göre telefon kullanım frekansları:

table(data)
##         kullanim
## cinsiyet Az Fazla Orta
##    Erkek  2     1    1
##    Kadın  2     2    0

Analiz sonuçları incelendiğinde, erkek katılımcıların 2’sinin telefon kullanım sıklığı az, 1’nin fazla ve 1’nin orta düzeyde olduğu görülmektedir. Kadın katılımcıların ise 2’sinin telefon kullanım sıklığının az ve 2 ’nin fazla düzeyde olduğu görülmektedir.

table () fonksiyonu oluşturulan bu tablonun, RStudio ortamında sağ konsola kaydedilmesi gerekmektedir. Bu işlem için:

kayit=table(data)

Değişkenlere ilişkin dağılımı daha iyi anlayabilmek amacıyla barplot () fonksiyonu ile grafik oluşturulabilir.

barplot(kayit, beside=T, legend=T)

Bar grafiğine bakıldığında öğretmenlerin telefon kullanım sıklıklarına göre dağılımları görülmektedir. Telefon kullanım sıklığını fazla olarak nitelendiren kadınların sayısının fazla olduğu görülmektedir.

Varsayımların Kontrolü

  • İlişkisi incelenecek olan değişkenler cinsiyet ve telefon kullanım sıklığı kategoriktir.
  • Değişkenler birbirinden bağımsızdır.

Varsayımların kontrol edilmesinden sonra analiz aşamasına geçilir.

Ki-Kare Testi analizleri vcd paketinde yer alan chisq.test() fonksiyonu ile analiz edilebilir.

chisq.test(data$cinsiyet, data$kullanim)
## Warning in chisq.test(data$cinsiyet, data$kullanim): Chi-squared approximation
## may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  data$cinsiyet and data$kullanim
## X-squared = 1.3333, df = 2, p-value = 0.5134

Analiz sonuçları incelendiğinde, öğretmenlerin cinsiyete göre telefon kullanım sıklıkları arasında istatistiksel olarak anlamlı bir fark görülmemiştir (X2=1,33; p>.05) H0 hipotezi kabul edilmiştir. Cinsiyet ile telefon kullanım sıklığının birbirinden bağımsız olduğu söylenebilir.

KAYNAKLAR

Akgül, A., & Çevik, O. (2005). Statistical analysis techniques. Emek Ofset, Ankara, Turkey.

Aktürk, Z., & Acemoğlu, H. (2011). Sağlık çalışanları için araştırma ve pratik istatistik. İstanbul: Anadolu Ofset.

Aydın, B., Algina, J., Leite, W., & Atılgan, H. (2018). Sosyal Bilimler İçin R’ a Giriş . Ankara: Anı Yayıncılık.
Büyüköztürk, S. (2010). Sosyal bilimler için veri analizi el kitabı.(12. Baskı). Ankara: Pegem Yayıncılık.

Conover, W. J. (1999). Practical nonparametric statistics (3rd ed.). John Wiley & Sons.

Corder, G. W., & Foreman, D. I. (2014). Nonparametric statistics: A step-by-step approach. John Wiley & Sons.

Erilli, N.A. (2018). İstatistik-2. Ankara: Seçkin Yayıncılık.

Eser, M. T., Aksu, G., & Güzeller, C. O. (2019). R programlama dili ile temel istatistikler ve raporlama. Ankara: Pegem Akademi.

Gamam, H. (1998). Parametrik Olmayan İstatistiksel Yöntemler. Ankara: Gazi Üniversitesi.

Genç, S. & Soysal, M. İ. (2018). Parametri̇k ve parametri̇k olmayan çoklu karşilaştirma testleri̇. Black Sea Journal of Engineering and Science, 1(1), 18-27.

Gibbons, J. D., & Chakraborti, S. (2011). Nonparametric statistical methods: a review. John Wiley & Sons.

Güler, N. (2016). Sosyal bilimler için istatistik. Pegem Atıf İndeksi, 001-726.

Hollander, M., Wolfe, D. A., & Chicken, E. (2013). Nonparametric statistical methods. John Wiley & Sons.

Kalaycı, Ş. (2010). SPSS uygulamalı çok değişkenli istatistik teknikleri. Ankara, Turkey: Asil Yayın Dağıtım. (5. Baskı)

Karagöz, Y. (2010). Nonparametrik tekniklerin güç ve etkinlikleri. Elektronik Sosyal Bilimler Dergisi, 9(33), 18-40.

Kloke, J., McKean, J. W., & McKean, J. W. (2015). Nonparametric statistical methods using R. Boca Raton: CRC Press.

Kruskal, W. H., & Wallis, W. A. (1952). Use of ranks in one-criterion variance analysis. Journal of the American Statistical Association, 47(260), 583-621.

Kuznetsova, A., Brockhoff, P. B., & Christensen, R. H. B. (2016). Descriptive statistics: An introduction. Sage.

Mann, H. B., & Whitney, D. R. (1947). On a test of whether one of two random variables is stochastically larger than the other. The annals of mathematical statistics, 50-60.

McClave, J. T., & Sincich, T. (2006). Statistics: Annotated Instructor’s Edition.

McKnight, P. E., & Najab, J. (2010). Mann‐Whitney U Test. The Corsini encyclopedia of psychology, 1-1.

Miller, I., & Miller, M. (2006). John Freund Matematiksel İstatistik. Altıncı baskıdan çev. Ed.: Ü. Şenesen. Istanbul: Literatür, 551-552.

Scribbr.com (2011). “Chi-Squared Goodness-of-Fit Test.” Statistics How To, https://www.scribbr.com/statistics/chi-square-tests/

Sidney, S. (1957). Nonparametric statistics for the behavioral sciences. The Journal of Nervous and Mental Disease, 125(3), 497.

Tanrıverdi, E. (2019). Parametrik olmayan testler: Teori ve uygulama (Master’s thesis, İnönü Üniversitesi Sosyal Bilimleri Enstitüsü).

Ural, A., & Kılıç, İ. (2006). Bilimsel araştırma süreci ve SPSS ile veri analizi. Detay Yayıncılık. (2. Baskı)

Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics Bulletin, 1(6), 80-83.

Whitley, E., & Ball, J. (2002). Statistics review 6: Nonparametric methods. Critical care, 6(6), 1-5.

Woolson, R. F., & Clarke, W. R. (2011). Statistical methods for the analysis of biomedical data. John Wiley & Sons.

Yılmaz, Y., & Yılmaz, Y. (2005). Parametrik olmayan testlerin pazarlama alanındaki araştırmalarda kullanımı: 1995-2002 arası yazın taraması. Dokuz Eylül Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, (7, 3).