Bilgisayarla Çıkarımsal İstatistik

Bilgisayarla Çıkarımsal İstatistik Büyük Veri Endüstri Çalıştayı, 30 Ekim 017 abancı Üniversitesi, M, Emirgan H. ait Ölmez HOlmez VERİM 017 Büyük Veri Endüstri Çalıştayı H Olmez 017 1

Yeniden örnekleme Çıkarımsal İstatistik ANA KÜTLE Örneklem TEORİK ANA KÜTLE DAĞILIMI s/ n (Normal dağılım?) ANA KÜTLE Örneklem 1 Örneklem Örneklem 3................... Örneklem M Örneklem dağılımı x 1 x x 3 x m ANA KÜTLE Örneklem x 1 x Bootstrap dağılımı x 3.... x m VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017

Hipotezlerin sınanması Adım 1: Problemin tanımlanması ve hipotezlerin oluşturulması Problem: Bu yıl gelen istatistik öğrencilerinin IQ seviyesinin 10 nin üzerinde olduğu iddia edilmektedir İstatistik öğrencilerinin ortalama IQ seviyesi en fazla 10 dir Şüpheci Bence bunlar çok akıllı çocuklar. Kesinlikle daha yüksektir. Hipotezler: ıfır Hipotezi (H 0 ) : μ IQ 10 (doğru varsayılan) Alternatif Hipotez (H A ) : μ IQ > 10 Hızlı özet Destekçi VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 3

Adım : Anlamlılık seviyesi: α H 0 hipotezini, doğru olduğunda yanlışlıkla reddetmekle yapmayı göze aldığımız hata değeridir. Konvansiyonel değeri: %5 (%95 güven seviyesi) Adım 3: Veriyi topla (n = 0) Örnek = { 19, 15, 14, 10, 117, 134, 1, 13, 1, 118, 13, 1, 10, 14, 119, 13, 10, 11, 119, 19 } Hızlı özet X = 1.7 Adım 4: Örneklem dağılımını seç ve test istatistiğini belirle Ana kütle dağılımı :? Ana kütle std sapması :? Örnek büyüklüğü : 0 ource: Wikipedia t-dağılımı VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 4

Adım 5: Test istatistiğini ve kritik değerleri hesapla t-istatistiği: t s / x örnek ortalaması s örnek standart sapması n örnek büyüklüğü x IQ n 1.7 10 4.131/ 0.9 Hızlı özet > 1 - pt(.9, 19) [1] 0.004391871 H 0 ı reddedemiyoruz t kritik =.015 alan = α = 0.05 alan = p = 0.00439 t =.9 H 0 ı reddediyoruz VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 5

imülasyon VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 6

N adet koordinatı 0 ve 1 arasında rastgele örnekle Çeyrek daire içine isabet eden noktaları say Bu sayının N ye oranı π sayısının çeyreğini verecektir Farklı N değerleriyle π sayısının tahmini: pir <- function(n) { x <- runif(n,0,1) y <- runif(n,0,1) d <- sqrt(x^ + y^) return(4*sum(d < 1.0)/N) } set.seed(7) cat(pir(1000),pir(10000), pir(100000),pir(1000000)) 3.19 3.131 3.1484 3.141764 π sayısının tahmini Oran y r Oran r r Alan Alan 1/ 4daire 1/ 4kare / 4 4 x VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 7

π sayısının tahmini VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 8

İstatistikte imülasyon Yöntemleri Hesaplama kapasitesindeki artışla birlikte istatistikte birçok problem bilgisayar simülasyonlarıyla çözülebilir hale geldi. Örneklem dağılımı : Hesaplaması zor imülasyonu kolay imülasyon yöntemlerinden bazıları: Direkt simülasyon Karılma/Rastgele permütasyonlar Bootstrapping (bootstrap örneklemeleri) VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 9

DİREKT İMÜLAYON VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 10

Direkt simülasyon Problem: Madeni parayı 30 kez atarak tura sayıyorsunuz. Bu adil bir para mıdır? 30 atışta tura adil bir madeni parayla bile gayet mümkündür. Adil bir parayla 30 atışta tura göremezsin. Bu para hileli. [H 0 ] [H A ] Klasik yöntem: ıfır hipotezinin (H 0 ) doğruluğunu kabul et ve hipotezi sına Adil bir madeni para ile 30 atışta tura gelmesi olasılığı nedir? Ref: tatistics for Hackers, Jake Vanderplas, PyCon 016 VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 11

Direkt simülasyon Teorik model : Binom dağılımı ile 30 atışta tura olasılığı: p( k, n) p( k n k k nk p (1 p) k tura olasılığı,30) 30 k ve (n-k) yazı olasılığı n n k p ( k nt, n) p (1 p) k nt k 30 (0.5) k (0.5) n k n! k!( n k)! 0.008 %0.8 H 0 ın doğru olduğu varsayımıyla (adil para) tesadüfen bu veriye ulaşma olasılığı : %0.8 30k 0.008 < 0.05 => H 0 ı reddediyoruz: Para hileli! k nk n içinde k olası yerleştirme (binom katsayıları) n atışta n T ya da daha fazla sayıda tura gelme olasılığı VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 1

Daha kolay bir yol var mı? imülasyon: N = 10000 ; M = 0 set.seed(10) for (i in 1:N) { x1 <- sample(0:1, 30, replace=t) if (sum(x1) >= ) { M = M + 1 } } cat("'den fazla Tura sayisi : ", M, "\n") cat("m / N degeri : ", M/N, "\n") 'den fazla Tura sayisi : 81 M / N degeri : 0.0081 p-değeri 0.05 den daha küçük H 0 ı reddet (hileli para!) Direkt simülasyon VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 13

KARILMA (Rastgele Permütasyonlar) VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 14

Karılma? Araştırma konusu: Bira içmek sizi sivrisineklere karşı daha kolay bir hedef haline getirir mi? Yalnızca bira içen 5 ve yalnızca su içen 18 denekle bir deney yürütüyoruz. Her bir grupta kaç adet sivrisineğin denekleri hedef aldığını kaydediyoruz. Ref: tatistics without the agonizing pain, John Rauser, trata Conf. 014 VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 15

U BİRA 1 19 13 7 19 0 0 3 15 17 1 4 31 6 15 0 8 0 7 19 5 1 4 4 31 4 8 4 9 1 19 18 1 1 18 7 0 16 3 0 μ B = 3.6 μ = 19. Karılma Fark: δ = μ B - μ = 4.4 Bira içen denekleri ısıran ortalama sivrisinek sayısı su içenleri ısıranlardan 4.4 daha fazla... Bu fark istatistiki olarak anlamlı mı, yoksa tamamen rastlantı mıdır? VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 16

Analitik Çözüm Karılma Şüpheci => ıfır Hipotezi H 0 : μ B = μ Destekçi => Alternatif Hip. H A : μ B μ ana kütleye ilişkin bir hipotez problemi: Varyanslar bilinmiyor ve birbirlerinden farklı Uygun dağılım : t-dağılımı İstatistiki test : t-test (Welch s t-test) t-skoru için gerekli ortalama ve varyans hesapları: Ortalamalar: μ B = 3.6 ve μ = 19. Varyanslar: B = 17.08, = 13.48 ; N B = 5 ve N =18 B N B i1 ( X N i B ) 1 B 17.08 N i1 ( X N i ) 1 13.48 VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 17

VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 t-skoru: Eğer şüpheci haklıysa (şayet sıfır hipotezi doğruysa), bu durumda t aşağıdaki formüle göre dağılıyor demektir (t için olasılık yoğunluk fonksiyonu): 18 Karılma 39.14 0.033 0.0194.051 1 18 0.749 1 5 0.683 0.749) (0.683 1 ) / ( 1 ) / ( )] / ( ) / [( B B B B B N N N N N N df 3.68 ) / ( ) / ( ) ( B B B N N t 1 1 ) / ( 1 ), ( t t p Burada Γ Gamma fonksiyonu, ν ise aşağıdaki formüle göre hesaplanan serbestlik derecesidir (df)

Karılma Verilen dağılımdan t-skorunun 3.68 den daha büyük olma olasılığını bulmamız gerekiyor. Alternatif olarak, df=39.1 and α=0.05 (anlamlılık seviyesi) değerleri için t-dağılımı tablosundan kritik t-skorunu okuyabiliriz => t kritik =.0 39.1 Tablodan okuyamıyorsanız, aşağıdaki R komutunu kullanabilirsiniz: > qt(p=0.975, df=39.14) [1].046 bu da size α=0.05 için kritik t değerini verecektir. VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 19

Karılma t-skoru = 3.68 >.0 olduğu için ıfır Hipotezini reddediyoruz.ortalama 4.4 fark istatistiki olarak anlamlı (p-değeri = 0.00035 < 0.05) onuç: Bira tüketimi insanları sivrisinek saldırılarına karşı daha cazip hale getiriyor. > 1 - pt(3.68, 39.14) [1] 0.0003506143 t = 3.68 alan = α = 0.05 alan = 0.00035 << 0.05 H 0 ı reddediyoruz H 0 ı reddediyoruz t kritik =.0 H 0 ı reddedemiyoruz VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 0

Karılma Bu problemi çözmenin daha kolay bir yolu yok mu? Elimizde yalnızca kaç adet sivrisinek tarafından cazip bulunduğunu bildiğimiz bir denek listesi var. ıfır Hipotezi: ivrisineklere hedef olma konusunda bira ve su içenler arasında bir fark yok! Şayet bu doğruysa, ölçümlerde kullandığımız etiketlerin (su veya bira) de bir önemi olmamalı. Kısacası, bu etiketleri rastgele karıştırabilir ve herhangi bir gruba atayabiliriz. VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 1

Karılma Fikir Bira ve u grupları için dağılım simülasyonları yaratacağız. Yöntem Bira ve su gruplarından rastgele kayıtlar seçerek her iki grup için ortalamaları hesaplayacak ve bunu birçok kez tekrarlayacağız. Motivasyon ıfır hipotezinde iddia edildiği gibi iki grup arasında bir fark yoksa, hangi verinin neyle etiketlendiği (su veya bira) sonucu değiştirmeyecektir. VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017

Prosedür (1) Etiketleri karıştır: Karılma N B = 5 N = 18 BİRA 7 19 0 0 3 17 1 4 31 6 8 0 7 19 5 31 4 8 4 9 1 1 18 7 0 U 1 19 13 15 15 0 1 4 4 1 19 18 16 3 0 VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 3

Karılma Prosedür () Düzenle: Tüm bira rengi etiketleri birleştir ve yeni bir bira grubu oluştur. Geri kalanları su grubunda topla: BİRA 7 0 3 1 4 6 8 19 5 4 8 1 1 18 0 1 19 1 4 1 19 16 0 Ortalamalar farkı: Δμ = 1.64 1.94 = -0.3 U 19 0 17 31 0 7 31 4 9 7 13 15 15 0 4 18 3 VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017

Prosedür (3) Tekrar karıştır ve düzenle. (1) ve () üzerinde döngü ile N defa tekrarla i=1,...,n için Δμ i değerlerinden oluşan sıklık dağılımını oluştur N=5 N=10-5 Karılma N=1 Δμ 0 5 N=0 Δμ Δμ Δμ -5 0 5 N=30-5 0 5 N=40-5 0 5 N=50000-5 0 5 Δμ -5 0 5 Δμ -5 0 5 Δμ VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 5

N=50000 Karılma 0.05 den küçük. Böylece H 0 ı reddediyoruz ve bira ile su içenler arasında istatistiki olarak anlamlı bir fark olduğu sonucuna varıyoruz. 4.4 %0.036 << %.5 Burada gerçek dağılımı temsilen bir örneklem vekili oluşturduk. Farkın 4.4 ten büyük olduğu (Δμ > 4.4) örneklerin toplam iterasyon sayısına oranı: N4.4 18 0.00036 N tot 50000 Bu değer, H 0 ın doğru olduğu varsayımıyla en az elimizdeki örneklemde gördüğümüz kadar ya da daha büyük bir etki görme olasılığıdır [pr(veri H 0 )]. Görünen etki rastgele değişkenliğin bir sonucu değildir. Δμ VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 6

Karar: Karılma eçim yanlılığının bulunmadığı ve örneklemlerin anakütleyi temsil ettiği durumlarda geçerlidir. VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 7

Özetle... Buradaki metodolojiyi takip ederek Rastgele sayılar üretebiliyorsanız Basit bir döngü yazabiliyorsanız (Python/R vb) imülasyonla istatistik işinizi kolaylaştırabilir Daha fazla sayıda uygulama ve yönteme ilişkin detaylı sunum ve örnek R programları için: github.com/solmez VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 8

Kaynaklar Think tats: Probability and tatistics for Programmers, Allen Downey Computer Age tatistical Inference, Bradley Efron, Trevor Hastie Re-sampling: The new statistics, Julian L. imon tatistics for Hackers, Jake Vanderplas, Pycon 016 tatistics without the agonizing pain, John Rauser, trata+hadoop World, 014 unum ve R programları: github.com/solmez VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 9

H. ait Ölmez, PhD abancı Üniversitesi Mühendislik ve Doğa Bil. Fakültesi olmez@sabanciuniv.edu @saitolmez solmez solmez Teşekkürler VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 30