ÖNEMLİ BİLGİLER

Beklenen Değer (Expected Value) ve Gözlemlenen Değer (Observed Value) Kavramları – Kategorik Değişkenlerde İlişki Analizi

Eğer veri setimiz Türkiye’yi temsil ediyorsa ve kadınlarla erkekler arasında yapay zekadan haberdar olma konusunda istatistiksel olarak anlamlı bir fark yoksa, her iki grupta da haberdarlık oranının genel popülasyondaki orana (%78.6 evet, %21.4 hayır) çok yakın olmasını bekleriz.

Beklenen Değer (Expected Value): Genel trendin, tüm veri setinin bize gösterdiği orandır. Yani “eğer gruplar arasında gerçekten fark yoksa” her grupta da yaklaşık %78.6’sının yapay zekayı duyduğunu bekleriz.

Gözlemlenen Değer (Observed Value): Gerçekte veride gördüğümüz, ölçtüğümüz oranlardır.

Hocamızın vurguladığı kritik mantık şudur:

Gruplar arasında fark yoksa, gözlemlenen değerler beklenen değerlere çok yakın olmalıdır.

Gözlemlenen değerler beklenen değerlerden belirgin şekilde uzaklaşırsa, bu durum gerçek bir farklılığa (signal) işaret eder.

Bu mantık, sayısal değişkenlerdeki noise ve signal ayrımının kategorik değişkenlerdeki karşılığıdır.

Sayısal değişkenlerde: Standart sapma / standart hata = noise; onun ötesindeki örüntü = signal.

Kategorik değişkenlerde: Genel trend (beklenen değer) = noise; ondan sapma (gözlemlenen değer) = signal.

Dolayısıyla çapraz tabloyu oluşturduktan sonra sadece oranlara bakmayacağız; gözlemlenen değerlerin beklenen değerlerden ne kadar uzaklaştığını Ki-kare testiyle de kontrol edeceğiz. Bu sayede “kadınlarla erkekler arasında yapay zekadan haberdar olma konusunda istatistiksel olarak anlamlı bir fark var mı?” sorusuna bilimsel olarak cevap verebileceğiz.

Analize Başlıyoruz : Çapraz Tablo ile İlgili Adımlar

Hocamızın Tavsiyesi : “Çapraz tabloya geliyorum. Burada SPSS bize satır ve sütunlardan oluşan bir tablo oluşturacağımızı söylüyor. Peki satıra neyi, sütuna neyi koymalıyız? Genellikle satıra bağımsız değişkeni (örneğin cinsiyet), sütuna ise bağımlı değişkeni (örneğin yapay zekadan haberdar olma durumu) yerleştiririm.”

tersinden de yapabiliriz yani satır sütun atamalarını değiştirir isek

Çapraz Tabloda Ham Sayılar (Count) Yerine Yüzdelere (Percentages) Bakmanın Önemi Hocamız, oluşturulan çapraz tabloyu yorumlarken çok önemli bir noktaya dikkat çekmiştir: “Mesela erkeklerin 714’ü evet biliyorum demiş, kadınların 641’i. Tamam erkekler daha çokmuş gibi görünüyor ama sayıdan hemen yorum yapamam. Neden? Çünkü benim örneklemimde erkeklerin toplam sayısı zaten kadınlardan biraz daha fazla olabilir. Dolayısıyla ham sayılara (Count) bakarak ‘erkekler daha çok haberdar’ diyemem. Orantısal bakmam lazım.”

Hocamız, çapraz tablolarda ham sayılar üzerinden yorum yapmanın yanıltıcı olabileceğini vurgulamıştır. Çünkü grupların toplam büyüklükleri farklıdır (burada Erkekler 875, Kadınlar 849). Bu yüzden doğru yorum için yüzdeleri (Row Percentages veya Column Percentages) kullanmak zorunludur.

Özetle:

Ham sayılara (Count) bakmak → yanıltıcı olabilir.

Yüzdelere (Percent) bakmak → gruplar arası gerçek orantısal farkı gösterir.

Hocamız bu nedenle tabloyu yüzde olarak yeniden düzenleyip (satır veya sütun yüzdelerini aktif ederek) kadın ve erkeklerin yapay zekadan haberdar olma oranlarını karşılaştırmaya devam edecektir.

Dikkat : Çapraz Tabloda Yüzde Gösterimi: Column Percentages (Sütun Yüzdeleri) Seçimi

Hocamız, çapraz tabloyu daha anlamlı hale getirmek için Cells ayarlarına girerek yüzde seçeneklerini belirlemiştir: “Bu hücrede ben diyor ki yüzdelikleri sana istersen satıra göre, istersen sütuna göre, istersen toplama göre veririm. Aksine bir nedenimiz yoksa arkadaşlar , bağımsız değişken nerede ise yüzdeliği oraya göre istiyoruz.”

Bağımsız değişken olan Cinsiyet’i sütuna (Column) yerleştirdiği için Column (sütun yüzdeleri) seçeneğini işaretlemiştir.

Böylece tablo şu şekilde yorumlanacaktır:

Her sütun (Erkek ve Kadın) kendi toplamına göre yüzde verecektir.

Erkeklerin ve kadınların “Yapay zeka kavramını daha önce hiç duydunuz mu?” sorusuna verdikleri Evet/Hayır cevaplarının oranları net bir şekilde görülebilecektir.

Bu seçim, grupların (cinsiyetlerin) kendi içindeki dağılımları (haberdar olma oranları) açısından karşılaştırma yapmayı kolaylaştırır ve ham sayılardan (Count) ziyade orantısal farkları öne çıkarır.

Continue ve OK tıklandığında;

Eğer istersek sayı değerlerini kaldırıp sadece yüzde değerlerini bırakabiliriz. O zaman aşağıdaki düzenlemeyi yapmamız gerekir.

Sadece yüzdeli sonuç gelir.

Çapraz Tablodan Elde Edilen Haberdarlık Oranları ve İlk Betimsel Yorum Hocamız, cinsiyete göre yapay zeka haberdarlık oranlarını gösteren çapraz tabloyu incelediğinde şu sonuçları elde etmiştir:

Erkekler: Yapay zekayı duyduğunu belirtenlerin oranı %81.6

Kadınlar: Yapay zekayı duyduğunu belirtenlerin oranı %75.5

Genel (Tüm örneklem): Yapay zekayı duyanların oranı %78.6

Hocamız şu yorumu yaptı: “Erkeklerde %81.6, kadınlarda %75.5 Aralarında fark var gibi görünüyor. Erkekler genel ortalamanın (%78.6) biraz üzerinde, kadınlar ise biraz altında.

Ancak hemen karar vermeyiz. Çünkü bu sadece betimsel (descriptive) bir farktır. Gerçek popülasyonda da anlamlı bir farklılık olup olmadığını anlamak için gözlemlenen değerlerin (observed) beklenen değerlerden (%78.6) ne kadar uzaklaştığını istatistiksel olarak test etmek gerekir.

Bu nedenle hocamız, “fark var mı yok mu?” sorusuna kesin cevap verebilmek için Ki-kare (Chi-Square) testi yapacağını belirtmiştir.

2.3.6 Ki-Kare (Chi-Square) Testi: Kategorik Değişkenler Arasındaki İlişkinin İstatistiksel Testi

Ki-kare testi, iki veya daha fazla kategorik değişken arasındaki ilişkinin istatistiksel olarak anlamlı olup olmadığını test eden temel bir çıkarımsal istatistik yöntemidir.

Özellikle çapraz tablo (Crosstabs) analizlerinde kullanılır. Testin temel mantığı şudur:

Eğer iki değişken arasında gerçekten bir ilişki yoksa (boş hipotez), her gruptaki gözlemlenen frekanslar (observed values) genel popülasyondaki beklenen frekanslara (expected values) çok yakın olmalıdır.

Gözlemlenen değerler beklenen değerlerden anlamlı derecede uzaklaşırsa, bu sapmanın rastgele örneklem hatasından (noise) değil, gerçek bir farklılıktan (signal) kaynaklandığı sonucuna varılır.

Bu test sayesinde sadece “oranlar farklı görünüyor” demekle kalmayıp, “bu fark Türkiye genelinde de anlamlı mı?” sorusuna bilimsel olarak cevap verebiliriz.

Continue ve OK tıklandığında

Ki-Kare (Chi-Square) Testi Sonucu: Cinsiyete Göre Yapay Zeka Haberdarlık Oranlarındaki Farkın İstatistiksel Anlamlılığı Pearson Chi-Square değeri 9.529, serbestlik derecesi (df) 1 ve Two-Sided p-değeri = 0.002 olarak bulunmuştur.

Bu p-değeri 0.05’ten küçük olduğu için boş hipotez (H₀) reddedilir ve şu sonuca varılır: Kadınlar ve erkekler arasında yapay zekadan haberdar olma oranı bakımından istatistiksel olarak anlamlı bir fark vardır.

Erkeklerde haberdar olma oranı: %81.6

Kadınlarda haberdar olma oranı: %75.5

Hocamız, bu farkın rastgele örneklem varyasyonundan değil, gerçek bir popülasyon farkından kaynaklandığını vurgulamıştır. Eğer p-değeri 0.05 ve üzeri olsaydı “aralarında fark yoktur” diyecektik; ancak 0.002 gibi çok düşük bir p-değeri bize “fark anlamlıdır” dedirtmektedir.

Bir Başka Analiz : Kentleşme Düzeyine (Kırsal – Orta Yoğun Kent – Yoğun Kent) Göre Yapay Zeka Haberdarlık Oranlarının Çapraz Tablo ile İncelenmesi

İlgili değişkenleri atayalım. degurba (kentleşme durumu) ve digaifam (yapay zeka kullanımı)

Reset diyerek önce sadece çapraz tablo olarak görelim

Buradan şimdi yüzdelikler üzerinden kıyaslama yapmak için değerleri yüzdelik haline getirmek istiyoruz. Bunun için tekrar çapraz tablo kısmından Cells içine girmek gerekir.

Bağımsız değişken kolonda o yüzden column seçeriz. Yani degurba (kentleşme durumu) Ayrıca sadece yüzdelik görmek istediğmiz için Observed kısmının tikini de kaldırırız.

Continue ve OK tıklayıp sonuca ulaşırız.

Kentleşme Düzeyine Göre Yapay Zeka Haberdarlık Oranlarının Betimsel Değerlendirmesi (Beklenen ve Gözlemlenen Değerler)

Hocamız, kentleşme durumu (Kırsal – Orta Yoğun Kent – Yoğun Kent) ile yapay zeka haberdarlığı arasındaki çapraz tabloyu inceledikten sonra şu yorumu yapmıştır: “Her birisi beklenen değerden ne kadar uzakta, ne kadar yakında şeklinde… Bu Ki-kare testine gidelim.

Tablodan elde edilen gözlemlenen oranlar şöyledir:

Kırsal: %67.3 (genel ortalama %78.6’dan 11.3 puan aşağı)

Orta Yoğun Kent: %75.7 (genel ortalamadan 2.9 puan aşağı)

Yoğun Kent: %82.1 (genel ortalamadan 3.5 puan yukarı)

Continue ve OK tıklayıp sonuca ulaşırız.

Kentleşme Düzeyine Göre Yapay Zeka Haberdarlık Oranlarının Ki-Kare Testi Sonucu :

p-değeri 0.05’ten (ve hatta 0.001’den) çok daha küçük çıktığı için boş hipotez reddedilir.

Kentleşme düzeyi ile yapay zekadan haberdar olma arasında istatistiksel olarak anlamlı bir fark vardır. Yoğun kentte yaşayanların haberdarlık oranı belirgin şekilde daha yüksekken, kırsal kesimde bu oran daha düşüktür. Bu fark rastgele örneklem hatasından değil, gerçek popülasyon düzeyinde bir farklılıktan kaynaklanmaktadır.

2.3.7 Ki-Kare Testinin Hesaplanma Mantığı: Observed (Gözlemlenen) ve Expected (Beklenen) Değerlerin Karşılaştırılması

Hocamız, Ki-kare testinin temel mantığını açıklamak için çapraz tablo ayarlarına dönmüştür:“Peki bu kare nasıl hesaplanıyor arkadaşlar?” diyerek, her hücrenin gözlemlenen frekansı (Observed) ile beklenen frekansı (Expected) arasındaki farkın önemini vurgulamıştır.

Ki-kare testi, her hücredeki (Observed – Expected) farklarının karelerini toplayarak hesaplanır. Bu farklar ne kadar büyükse, iki değişken arasındaki ilişkinin o kadar güçlü ve istatistiksel olarak anlamlı olduğu sonucuna varılır.

Hocamız bu adımla, Ki-kare testinin “sadece bir sihirli sayı” olmadığını, aslında beklenen ve gözlemlenen değerler arasındaki sapmanın matematiksel olarak ölçülmesi olduğunu somut bir şekilde göstermiştir.

Continue ve OK tıklayıp Observed (Gözlemlenen) değerlerine ulaşırız.

observed ve expected değerlerini aynı anda görelim.

Continue ve OK tıklayıp Observed (Gözlemlenen) ve Expected (Beklenen) değerlerine ulaşırız.

Observed (Gözlemlenen) ve Expected (Beklenen) Değerlerin Karşılaştırılması – Kentleşme Düzeyine Göre Sapmalar

Hocamız, Ki-kare testinin temel mantığını somutlaştırmak için çapraz tabloda Observed Count (gerçekte gözlemlenen sayılar) ile Expected Count (eğer iki değişken arasında hiçbir ilişki olmasaydı beklenen sayılar) değerlerini yan yana göstermiştir.

“Evet, yapay zeka kavramını duydum” cevabı için:

Kırsal: Gerçekte 187 kişi evet demiş → Beklenen değer 218.5 idi. → Kırsalda haberdarlık oranı beklenenden belirgin şekilde düşük.

Orta Yoğun Kent: Gerçekte 227 kişi evet demiş → Beklenen değer 235.8 idi. → Beklenenden biraz daha az.

Yoğun Kent: Gerçekte 941 kişi evet demiş → Beklenen değer 900.7 idi. → Yoğun kentte haberdarlık oranı beklenenden belirgin şekilde yüksek.

Hocanın özeti şudur:

Eğer kentleşme durumu ile yapay zeka haberdarlığı arasında hiçbir ilişki olmasaydı, her grupta genel popülasyon oranına (%78.6) yakın bir dağılım görmemiz gerekirdi. Ancak kırsalda beklenenden daha az, yoğun kentte ise beklenenden daha fazla kişi “evet” demiştir. Bu sapmalar, gruplar arasında gerçek bir farklılık (signal) olduğunu işaret etmektedir.

Bu karşılaştırma, Ki-kare testinin matematiksel temelini oluşturan “gözlemlenen değerlerin beklenen değerlerden ne kadar uzaklaştığı” prensibini çok net bir şekilde göstermektedir.

2.3.8 Ki-Kare (Chi-Square) Testinin Matematiksel Hesaplanması

Ki-kare testi, çapraz tablodaki gözlemlenen frekanslar (Observed) ile beklenen frekanslar (Expected) arasındaki farkın ne kadar büyük olduğunu ölçer. Temel mantık şudur:

Eğer iki değişken arasında hiçbir ilişki yoksa, her hücredeki gözlemlenen değer beklenen değere çok yakın olmalıdır. Farklar ne kadar büyükse, ilişki o kadar güçlüdür.

Ki-kare istatistiği şu formülle hesaplanır: \[\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}\] Burada:

\(O_i\) = Gözlemlenen frekans (Observed Count)

\(E_i\) = Beklenen frekans (Expected Count)

Toplam, tablodaki tüm hücreler için yapılır.

Adım Adım Hesaplama Mantığı:

Her hücre için (Gözlemlenen - Beklenen) farkı bulunur.

Bu farkın karesi alınır.

Karesi alınan fark, beklenen değere bölünür → bu işlem her hücre için tekrarlanır.

Tüm hücrelerden elde edilen değerler toplanır → \(\chi^2\) istatistiği elde edilir.

Elde edilen \(\chi^2\) değeri, serbestlik derecesi (df) ile birlikte Ki-kare dağılım tablosundan veya SPSS’in verdiği p-değeri ile yorumlanır.

Serbestlik derecesi (df):

\[df = (r-1) \times (c-1)\]

(r = satır sayısı, c = sütun sayısı)

Hocamızın örneğinde (Yapay Zeka Haberdarlığı × Kentleşme Durumu) tablosunda gördüğümüz gibi:

Bu sapmaların kareleri toplanınca \(\chi^2 = 31.163\) gibi büyük bir değer elde edilmiş ve p < 0.001 çıkmıştır.

Özet: Ki-kare, her hücrenin “beklenenden ne kadar uzaklaştığını” ölçer. Uzaklaşma büyükse (yani \(\chi^2\) büyükse), iki kategorik değişken arasında istatistiksel olarak anlamlı bir ilişki vardır.