p-Değeri, Etki Büyüklüğü ve Güç

www.medyanistdanismanlik.com
info@medyanistdanismanlik.com

Giriş / Introduction

Bilimsel çalışmalarda hipotez testi önemli bir adımdır. Ancak p-değerine olan aşırı odaklanma, bazı önemli kavramların göz ardı edilmesine yol açabilir. Bu yazıda, p-değerlerinin problemleri, etki büyüklüğü ve güven aralıklarının raporlanması gerekliliği ve güç analizi hakkında konuşacağız.

Hypothesis testing is a critical step in scientific studies. However, an excessive focus on p-values can lead to overlooking some important concepts. In this text, we will discuss the problems of p-values, the necessity of reporting effect sizes and confidence intervals, and the importance of power analysis.

Not/Note: Bu içerik Sjoerd Huisman’ın ders notlarından alınarak hazırlanmıştır. / This content is adapted from Sjoerd Huisman’s lecture notes.

Amaçlarımız / Objectives

  • P-değeri nedir ve sorunları nelerdir? / What are p-values and their problems?
  • Alternatif olarak neleri raporlamalıyız? / What should we report instead?
  • Etkileşimli örneklerle analiz nasıl yapılır? / How to analyze with interactive examples?

P-Değeri Nedir? / What is a P-Value?

P-değeri, sıfır hipotezinin (\(H_0\)) doğru olduğu varsayımı altında gözlemlenen veya daha uç bir sonucun olasılığıdır. Bir p-değeri ( )’dan küçükse, sonuç genellikle istatistiksel olarak anlamlı kabul edilir.

The p-value is the probability of observing a result as extreme as (or more extreme than) the observed one, assuming the null hypothesis (\(H_0\)) is true. A p-value smaller than ( ) is generally considered statistically significant.


P-Değerinin Sorunları / Problems with P-Values

  • Yorumlama Zorlukları / Interpretation Challenges:
    • Düşük bir p-değeri, \(H_0\)’ın yanlış olduğu anlamına gelmez.
    • A small p-value does not mean that \(H_0\) is false.
    • Yüksek bir p-değeri, \(H_0\)’ın doğru olduğunu göstermez.
    • A high p-value does not mean that \(H_0\) is true.
  • Pratik Anlamsızlık / Practical Irrelevance:
    • Çok büyük örnek boyutlarında, küçük farklar bile anlamlı çıkabilir.
    • In very large sample sizes, even small differences can appear significant.
    • Küçük örnek boyutlarında, büyük farklar anlamlı çıkmayabilir.
    • In small sample sizes, even large differences may not be significant.
  • Yayın Yanlılığı / Publication Bias:
    • Anlamlı p-değeri elde eden çalışmalar daha çok yayınlanır.
    • Studies with significant p-values are more likely to get published.

Etki Büyüklüğü ve Güven Aralıkları / Effect Size and Confidence Intervals

Etki Büyüklüğü Nedir? / What is Effect Size?

Etki büyüklüğü, bir etkinin büyüklüğünü gösteren bir ölçüttür. Örnekler: Effect size is a measure of the magnitude of an effect. Examples:

  • Diyetle kan basıncının 10 mmHg düşmesi. / A diet reducing blood pressure by 10 mmHg.
  • Derslere katılarak sınavı geçme şansının %30 artması. / Attending lectures increasing the chance of passing an exam by 30%.
  • Düzenli egzersizle dinlenme nabzının dakikada 5 atım düşmesi. / Regular exercise reducing resting heart rate by 5 bpm.
  • Psikoterapi seanslarının depresyon ölçeği puanını 15 puan azaltması. / Psychotherapy sessions reducing depression scale scores by 15 points.
  • Yeni bir öğretim yönteminin, öğrencilerin matematik test puanlarını %20 artırması. / A new teaching method increasing math test scores by 20%.

Raporlanması gereken iki temel ölçüt bulunmaktadır: Two key metrics should be reported:

  1. Mutlak Etki Büyüklüğü / Absolute Effect Size: Bir değişkenin etkisini birim bazında ifade eder. Örneğin kan basıncındaki 10 mmHg’lik düşüş gibi. / Expresses the effect of a variable in absolute terms, such as a 10 mmHg reduction in blood pressure.

  2. Standartlaştırılmış Etki Büyüklüğü / Standardized Effect Size: Farklı değişkenler ve ölçüm birimleri arasında karşılaştırma yapılabilmesini sağlar. Örneğin: Enables comparison across different variables and measurement units. For example:

    • Cohen’s d: İki grup arasındaki ortalama farkın standart sapmaya bölünmesiyle elde edilir. / Calculated as the mean difference between two groups divided by the standard deviation.
    • Pearson’s r: İki değişken arasındaki doğrusal ilişkiyi gösterir. / Shows the linear relationship between two variables.
    • Eta kare (η²): Varyansın toplam varyansa oranı ile ölçülür. / Measures the proportion of variance explained by the effect.

Ek olarak, araştırmacılar Glass’s delta, Cliff’s delta gibi diğer metrikleri de belirli durumlarda raporlayabilirler. Additionally, researchers may report other metrics like Glass’s delta or Cliff’s delta in specific cases.

Güven Aralığı Nedir? / What is a Confidence Interval?

Güven aralığı, bir tahminin çevresindeki belirsizliği ifade eden bir ölçüttür. Örneğin: A confidence interval is a measure of the uncertainty surrounding an estimate. For example:

“Kan basıncı 10 ± 2 mmHg düşer” ifadesi, gerçek düşüşün 8 mmHg ile 12 mmHg arasında olabileceğini belirtir. “A blood pressure reduction of 10 ± 2 mmHg” suggests that the actual reduction could range between 8 and 12 mmHg.

Güven Aralıklarının Önemi / Importance of Confidence Intervals

  • Belirsizliğin İletimi / Conveying Uncertainty: Güven aralığı, bir çalışmanın bulgularındaki belirsizliği açıkça gösterir. / Confidence intervals clearly show the uncertainty in a study’s findings.
  • Tahminin Güvenilirliği / Estimate Reliability: Daha dar güven aralıkları, tahminin daha güvenilir olduğunu gösterir. / Narrower confidence intervals indicate more reliable estimates.
  • Etki Boyutunun Yorumu / Interpreting Effect Size: Güven aralığı, etki büyüklüğünün önemli olup olmadığını belirlemek için kritik bir araçtır. / Confidence intervals are crucial for determining whether an effect size is meaningful.

Örnekler / Examples

  1. Bir ilacın etkisi: / The effect of a drug:
    • Tahmini: Kan basıncı 10 ± 2 mmHg düşer. / Estimate: Blood pressure decreases by 10 ± 2 mmHg.
    • Güven aralığı: [8, 12] mmHg. / Confidence interval: [8, 12] mmHg.
  2. Bir eğitim programının etkisi: / The effect of an educational program:
    • Tahmini: Matematik test puanları 15 ± 3 puan artar. / Estimate: Math test scores increase by 15 ± 3 points.
    • Güven aralığı: [12, 18] puan. / Confidence interval: [12, 18] points.
  3. Bir pazarlama kampanyasının etkisi: / The effect of a marketing campaign:
    • Tahmini: Satış oranları %5 ± %1 artar. / Estimate: Sales rates increase by 5 ± 1%.
    • Güven aralığı: [%4, %6]. / Confidence interval: [%4, %6].

Raporlama Önerisi / Reporting Recommendations

Etkili bir rapor için aşağıdakiler birlikte verilmelidir: / An effective report should include:

  • P-değeri / P-value: Sonucun istatistiksel anlamlılığını gösterir. / Indicates the statistical significance of the result.
  • Etki Büyüklüğü / Effect Size: Sonucun büyüklüğünü ve pratik anlamını gösterir. / Indicates the magnitude and practical significance of the result.
  • Güven Aralığı / Confidence Interval: Sonuçların güvenilirliğini ve belirsizliklerini açıkça ifade eder. / Clearly expresses the reliability and uncertainty of the results.

Bu üç bileşenin birlikte raporlanması, bir çalışmanın sonuçlarının daha iyi anlaşılmasını sağlar ve bilimsel bulguların güvenilirliğini artırır. Reporting these three components together improves the understanding of study results and enhances the reliability of scientific findings.


Örnek 1: Sample Size and p-value - Örnek Boyutunun p-değerine Etkisi

library(ggplot2)

# Örnek veriler oluşturma
set.seed(123)
örnek_boyutları <- c(10, 20, 50, 100, 200, 500, 1000)
p_degerleri <- c(0.25, 0.18, 0.12, 0.08, 0.04, 0.02, 0.01)

# Veri çerçevesi oluşturma
data <- data.framernek_boyutu = örnek_boyutları, p_degeri = p_degerleri)

# Grafik çizimi
ggplot(data, aes(x = örnek_boyutu, y = p_degeri)) +
  geom_line(color = "blue", size = 1) +
  geom_point(size = 3, color = "red") +
  scale_x_log10(breaks = örnek_boyutları) +
  labs(
    title = "Örnek Boyutu Artışının P-Değerine Etkisi",
    x = "Örnek Sayısı (n)",
    y = "P-Değeri"
  ) +
  theme_minimal()
Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
ℹ Please use `linewidth` instead.

Örnek 2: Effect Size and Power - Etki Büyüklüğünün Güce Etkisi

library(ggplot2)

# Güç verisi
effect_power <- data.frame(
  etkiler = seq(0.1, 1, by = 0.1),
  güç = c(0.2, 0.35, 0.5, 0.65, 0.75, 0.85, 0.9, 0.95, 0.98, 0.99)
)

# Grafik oluşturma
ggplot(effect_power, aes(x = etkiler, y = güç)) +
  geom_line(color = "blue") +
  geom_point(color = "red") +
  labs(
    title = "Effect Size and Power-Etki Büyüklüğünün Güce Etkisi",
    x = "Effect Size-Etki Büyüklüğü (Cohen's d)",
    y = "Power"
  )

Sonuç / Conclusion

  • P-Değeri: Tek başına yeterli bir ölçüt değildir; anlamlılık göstermesi yanında etki büyüklüğü ve güven aralıkları ile desteklenmelidir.
  • Etki Büyüklüğü ve Güven Aralıkları: Bulguların anlamlılık ve pratik önemini ifade etmek için mutlaka raporlanmalıdır.
  • Güç Analizi: Araştırma tasarımı ve sonuçların güvenilirliği için kritik bir öneme sahiptir.

Bilimsel çalışmaların daha güvenilir olması için bu üç unsura birlikte odaklanmalıyız.

  • P-Value: It is not sufficient on its own; significance should be supported by effect size and confidence intervals.
  • Effect Size and Confidence Intervals: These must be reported to convey the significance and practical relevance of the findings.
  • Power Analysis: Crucial for the design of studies and the reliability of results.

To ensure the reliability of scientific research, we must focus on these three elements together.

Not/Note: Bu içerik Sjoerd Huisman’ın ders notlarından alınarak hazırlanmıştır. / This content is adapted from Sjoerd Huisman’s lecture notes.