H0 ne zaman reddedilir ?

Risalet

Global Mod
Global Mod
“H0 ne zaman reddedilir?” — Meraklı bir forumdaşın samimi girişi

Hepimiz veriyle boğuşurken şu cümleyi bir yerlerde görmüşüzdür: “p < 0,05 ise H0 reddedilir.” Peki bu sadece bir ezber mi, yoksa arkasında koca bir düşünce tarihi ve pratikte kritik nüanslar mı var? Gel, rahat bir koltuk çek; kahveni al. H0’ı ne zaman, hangi şartlarda, hangi akıl yürütme biçimiyle reddettiğimizi; bunun geçmişini, bugününü, yarınını dost meclisi tadında konuşalım.

Tarihsel Köken: Fisher, Neyman-Pearson ve “kritik bölgeler”

İstatistiksel hipotez testinin iki güçlü kökü var. R.A. Fisher, tek seferlik bir deneyde verinin “H0 altında ne kadar şaşırtıcı” olduğuna bakmayı önerdi ve p-değerini sahneye çıkardı. Neyman-Pearson ise daha “karar kuralları” ve uzun vadeli hata oranları üzerinden gitti: önceden belirlenen bir α (tip I hata olasılığı) koy, kritik bölgeyi tanımla, test istatistiği bu bölgeye düşerse H0’ı reddet.

Bu iki yaklaşım pratikte iç içe geçti: p-değeri < α olduğunda H0 “reddedilir” denir. Ama altını çizelim: Fisher’cı bakış daha keşifsel ve kanıt gücüne, Neyman-Pearson çizgisi ise karar teorisine ve tekrarlanan deney davranışına yaslanır. “Reddetme” dilinin kökeni bu karar-kural geleneğidir.

Kısa Cevap (Ama Derin Nefesle): H0 ne zaman reddedilir?

1. Önceden belirlenmiş anlamlılık düzeyinde (α) p-değeri küçükse.

- Standart: α = 0,05. Eğer p < α ise veri, H0 altında “yeterince nadir” görülür; reddederiz.

2. Test istatistiği kritik bölgeye düşerse.

- Örneğin z-testinde |z| > z_{kritik} ise (mesela iki kuyruklu testte 1,96), H0 reddedilir.

3. Güven aralığı H0’ın belirttiği değeri dışlarsa.

- %95 GA, 0 etkisini (mesela fark=0) kapsamıyorsa, bu da H0 reddine denktir.

4. Doğru model varsayımları sağlanıyorsa.

- Normallik, bağımsızlık, varyans homojenliği gibi koşullar bozulursa testin hata oranları sapar; “reddetme” mekanik bir işaret olmaktan çıkar.

5. Çoklu karşılaştırma düzeltmeleri uygulandıysa.

- 20 hipotez test edip en küçük p’yi seçmek başka, Bonferroni/FDR gibi düzeltmelerle kontrol etmek bambaşka. “Reddetme” çoklu testte daha zordur ve öyle olmalıdır.

6. Yeterli güç (power) varsa.

- Güç düşükse anlamlı bir etkiyi kaçırırız (tip II hata). Reddetmeme “H0 doğrudur” anlamına gelmez; çoğu zaman “kanıt yetmedi” demektir.

Bugünün Dünyası: P-değeri, etki büyüklüğü ve çoğaltılabilirlik

Günümüzde H0 reddi, yalnızca p-değerine bakmaktan ibaret değil. Aşağıdaki bileşim daha sağlıklı:

- Etki büyüklüğü (Cohen’s d, OR, RR): Anlamlı ama minik etkiler pratikte önemsiz olabilir.

- Güven aralıkları: Bize “belirsizlik payı” anlatır; sadece “reddet/etme” değil, “ne kadar emin, ne ölçüde büyük?” sorusunu da cevaplar.

- Ön kayıt (preregistration) ve çoğaltma (replication): p-hacking ve dosya çekmecesi yanlılığını dizginler.

- Eşdeğerlik ve üstün olmama testleri: “Fark yok”u göstermek için klasik H0 testi uygun değil; TOST gibi yöntemlerle “klinik/iş değeri” açısından farkın önemsiz olduğunu kanıtlamaya çalışırız.

Somut Senaryolar: Laboratuvardan ürüne, üründen sahaya

- A/B testleri: Web sayfasında yeni buton renginin tıklanmayı artırıp artırmadığı… H0: fark=0. Yeterli örneklem, doğru deney planı ve çoklu test düzeltmesiyle p < α ise H0 reddedilir; yeni varyant devreye alınır.

- Klinik araştırmalar: İlacın plaseboya üstünlüğü. Sadece “istatistiksel” değil, klinik anlamlılık da aranır; güven aralığının klinik eşiklerin dışına taşması önemlidir.

- Mühendislik/kalite: Sürecin hatalı oranı kabul edilebilir sınırları aşıyor mu? Burada tip I/II hataların maliyetleri (geri çağırma, marka hasarı vs.) kararı belirler.

Stratejik ve empatik perspektifler: Kararı kim, nasıl veriyor?

Toplumsal cinsiyetle ilgili ortalama eğilimlerden söz ederken bireysel farklılıkların çok geniş olduğunu, niteliklerin cinsiyete indirgenemeyeceğini vurgulayalım. Literatürde bazı eğilimler rapor edilse de bunlar genelleme değil bağlam olarak görülmeli. Bu uyarıyla, karar mantığına dair iki farklı mercek işe yarayabilir:

- Sonuç/strateji odaklı mercek: “Hata maliyeti nedir? Bütçe, süre, rekabet baskısı altında hangi α’yı seçmeliyiz? Güç analizi ile en az kaç örneklem?” Bu kanatta HIPPO (highest paid person’s opinion) yerine önceden tanımlı karar kuralları, risk matrisi, Bayes güncellemesi öne çıkar.

- Empati/topluluk odaklı mercek: “Bu karardan etkilenecek kullanıcı/hasta/çalışan grupları kimler? Yanlış pozitif/negatiflerin kimlerde ne tür yükler doğuracağını nasıl tartarız? Sonuçları açık ve ulaşılır biçimde nasıl paylaşırız?” Burada etik onam, şeffaflık, paydaş iletişimi, zarar asgariye indirimi gündemdedir.

Pratikte en iyi sonuç, bu iki merceği birlikte kullanmakla gelir: net karar kuralları + paydaş etkilerini içeren sorumlu uygulama.

Tip I ve Tip II Hata: “Reddettim, peki neyi göze aldım?”

- Tip I hata (yanlış pozitif): Gerçekte doğru olan H0’ı reddetmek. Oranı α’dır. Ürün değişikliğini hatalı biçimde yayına almak gibi.

- Tip II hata (yanlış negatif): Gerçekte yanlış olan H0’ı reddetmemek. Oranı β; gücümüz 1−β. İyi bir yeniliği kaçırmak gibi.

α’yı düşürmek tip I hatayı azaltır ama tip II’yi artırabilir. Bu dengeyi örneklem büyüklüğü, etki büyüklüğü, varyans ve tasarım kalitesi belirler.

Varsayımlar ve sağlamlık: Reddetmeden önce zemini kontrol et

Birçok klasik test (t, ANOVA) normal dağılım, bağımsızlık, homojen varyans gibi varsayımlara dayanır. Bunlar ihlal edilirse:

- Dönüşüm (log vb.), sağlam yöntemler (Welch t-testi, trimmed mean), parametrik olmayan testler (Mann–Whitney, Kruskal–Wallis) veya bootstrap tercih edilir.

- Model uyumu sağlanmadan elde edilen “anlamlılık” kolayca yanıltıcı olabilir; H0’ı reddetmek için önce modelin gerçekliğe uyduğunu görmek gerekir.

Çoklu test ve veriyle oynama: Tünelin sonunda yanılgı</color]

- Çoklu karşılaştırma: 100 hipotez test edersen bir kısmı tesadüfen “anlamlı” çıkar. Bonferroni, Holm, Benjamini–Hochberg (FDR) gibi yöntemler toplam yanlış keşifleri kontrol eder.

- P-hacking: Durdur-go stratejileri, uç değer ayıklama oyunları, post-hoc hipotezler… H0 reddi, analiz özgürlüklerinin şeffaf raporlanmasını gerektirir. Ön kayıt ve veri paylaşımı bu yüzden önemlidir.

Alternatifler ve tamamlayıcılar: Bayes, ROPE, TOST

- Bayes yaklaşımı: P(H0|veri) sormaya daha yakın durur; Bayes faktörü ile H1’e karşı H0’ın göreli kanıtını kıyaslar. Bazen H0’ı reddetmek yerine H0 lehine kanıt da gösterebilir.

- Eşdeğerlik/Üstün olmama: “Fark yok” demek için klasik test yeterli değildir; TOST prosedürü ile pratik önemsizlik aralığı (ROPE) tanımlanır ve GA’nın bu aralığın tamamen içinde kalması aranır.

Gelecek: “Anlamlılık” ötesi bir karar ekosistemi

- Çok ölçütlü kararlar: p-değeri + etki büyüklüğü + GA + maliyet/yarar + paydaş etkileri + ön-kayıt uyumu.

- Uyarlanabilir deneyler: Sıralı tasarımlar (sequential/alpha spending) hız ve etik kazandırır; “ne zaman durup karar vereceğiz?” sorusuna planlı yanıt verir.

- Açık bilim: Ham veri, kod, protokoller açıklandıkça reddetme kararlarının güvenilirliği ve çoğaltılabilirliği artar.

Hızlı kontrol listesi: H0’ı reddetmeden önce kendime sorarım

- α’yı önceden belirledim mi?

- Gücü örneklem hesabıyla planladım mı?

- Varsayımlar makul mü; ihlaller için sağlam yöntem kullandım mı?

- Çoklu test/durdurma oyunları için düzeltme yaptım mı?

- Etki büyüklüğü pratikte anlamlı mı; GA ne diyor?

- Kararın paydaşlar üzerindeki etik/operasyonel etkilerini tarttım mı?

- Sonuçları şeffaf ve çoğaltılabilir biçimde raporluyor muyum?

Sohbeti büyütelim: Diğer alanlarla köprüler

- Hukuk: “Makul şüphe” ve ispat standartları, tip I/II hatalara dair toplumsal tercihleri andırır.

- Yapay zekâ: Model kıyaslarında H0 reddi yerine bilgi ölçütleri (AIC/BIC), çapraz doğrulama ve Bayes faktörleri sık kullanılır.

- Davranış bilimleri ve etik: Bir “anlamlı” sonucun toplumsal etkisi; örneğin eğitimde küçük ama kalıcı bir kazanım bile stratejik olarak çok değerli olabilir.

- Ürün yönetimi: A/B testleri sadece “kazanan varyant” değil, müşteri deneyimi ve uzun dönem metriği ile birlikte değerlendirilir.

Kapanış: Reddetmek bir son değil, iyi tasarlanmış bir başlangıç

H0’ı reddetmek, tek başına zafer ilanı değil; iyi planlanmış bir karar sürecinin dönüm noktasıdır. Tarihsel köklerin, bugünün sağlam yöntemlerinin ve yarının açık-bilim pratiğinin birleştiği yerde “reddetme” değil, anlamlandırma güç kazanır. p-değerini bir trafik ışığı değil, çok göstergeli bir gösterge panelinin tek lambası gibi görmek; etki büyüklüğü, güven aralıkları, çoklu test, paydaş etkileri ve etikle birlikte okumak en sağlıklı yoldur. Sohbeti buradan sürdürelim: Sizin alanda “H0 reddi” nerede anlamlı, nerede yetersiz kalıyor?