Bilgisayarla Çıkarımsal İstatistik

Benzer belgeler
ĐŞLE 544 ĐSTATĐSTĐK ARA SINAV 11 Mayıs 2006

İstatistik ve Olasılık

İSTATİSTİK II. Hipotez Testleri 1

İÇİNDEKİLER ÖN SÖZ...

İki Ortalama Arasındaki Farkın Önemlilik Testi (Student s t Test) Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

Hipotez Testleri. Mühendislikte İstatistik Yöntemler

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

T TESTİ: ORTALAMALAR ARASI FARKLARIN TEST EDİLMESİ. Yrd. Doç. Dr. C. Deha DOĞAN

İSTATİSTİKSEL TAHMİNLEME. Örneklem istatistiklerinden hareketle ana kütle parametreleri hakkında genelleme yapmaya istatistiksel tahminleme denir.

Hipotez Testi Rehberi. Orhan Çevik İstanbul, 30 Ağustos 2014

ARALIK TAHMİNİ (INTERVAL ESTIMATION):

Hipotez. Hipotez Testleri. Y. Doç. Dr. İbrahim Turan Nisan 2011

Bir Normal Dağılım Ortalaması İçin Testler

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

EME Sistem Simülasyonu. Girdi Analizi Prosedürü. Olasılık Çizgesi. Dağılıma Uyumun Kontrol Edilmesi. Dağılıma İyi Uyum Testleri Ders 10

İçindekiler. Ön Söz... xiii

Appendix C: İstatistiksel Çıkarsama

Aktüerlik Sınavları I. Seviye / Olasılık-İstatistik Örnek Sorular I

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Bir torbada 6 kırmızı, 3 yeşil ve 2 mavi top bulunmaktadır. 4 top rastgele çekilirse çekilen topların hiç birinin mavi olmama ihtimali nedir?

İSTATİSTİK MHN3120 Malzeme Mühendisliği

Parametrik Olmayan Testler. İşaret Testi-The Sign Test Mann-Whiney U Testi Wilcoxon Testi Kruskal-Wallis Testi

DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

LAÜ FEN EDEBĐYAT FAKÜLTESĐ PSĐKOLOJĐ BÖLÜMÜ PSK 106 ĐSTATĐSTĐK YÖNTEMLER I BAHAR DÖNEMĐ DÖNEM SONU SINAV SORULARI

BİYOİSTATİSTİK PARAMETRİK TESTLER

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

İstatistik ve Olasılık

BÖLÜM 12 STUDENT T DAĞILIMI

ANADOLU ÜNİVERSİTESİ. ENM 317 Prof. Dr. Nihal ERGİNEL

İkiden Çok Grup Karşılaştırmaları

BÖLÜM 10 ÖRNEKLEME YÖNTEMLERİ

Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

EME 3105 SİSTEM SİMÜLASYONU. Girdi Analizi Prosedürü. Dağılıma Uyum Testleri. Dağılıma Uyumun Kontrol Edilmesi. Girdi Analizi-II Ders 9

İstatistik ve Olasılık

Hatalar Bilgisi ve İstatistik Ders Kodu: Kredi: 3 / ECTS: 5

İstatistik ve Olasılık

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

Olasılık ve Normal Dağılım

H 0 : θ = θ 0 Bu sıfır hipotezi şunu ifade eder: Anakütle parametresi θ belirli bir θ 0

ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ

Örneklem Dağılımları & Hipotez Testleri Örneklem Dağılımı

İstatistiksel Yorumlama

LAÜ FEN EDEBĐYAT FAKÜLTESĐ PSĐKOLOJĐ BÖLÜMÜ PSK 106 ĐSTATĐSTĐK YÖNTEMLER I BAHAR DÖNEMĐ TELAFĐ SINAVI SORULARI

Sürekli Rastsal Değişkenler

SÜREKLİ OLASILIK DAĞILIŞLARI

Ders 6: Sürekli Olasılık Dağılımları

İki İlişkili Örneklem için t-testi. Tekrarlı ölçümler için t hipotez testine uygun araştırma çalışmalarının yapısını anlamak.

Rastgele Değişkenlerin Dağılımları. Mühendislikte İstatistik Yöntemler

İstatistik ve Olasılık

Merkezi Limit Teoremi

ANADOLU ÜNİVERSİTESİ. ENM317 Mühendislik İstatistiği İSTATİSTİKSEL TAHMİN Prof. Dr. Nihal ERGİNEL


OLASILIK ve İSTATİSTİK Hipotez Testleri

1 Hipotez konusuna öncelikle yokluk hipoteziyle başlanılan yaklaşımda, araştırma hipotezleri ALTERNATİF HİPOTEZLER olarak adlandırılmaktadır.

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: END 2303

Deney Dizaynı ve Veri Analizi Ders Notları

ANADOLU ÜNİVERSİTESİ. ENM 317 MÜHENDİSLİK İSTATİSTİĞİ PARAMETRİK OLMAYAN TESTLER Prof. Dr. Nihal ERGİNEL

BÖLÜM 13 HİPOTEZ TESTİ

İSTATİSTİK 2. Hipotez Testi 21/03/2012 AYŞE S. ÇAĞLI.

NORMAL DAĞILIM VE ÖNEMLİLİK TESTLERİ İLE İLGİLİ PROBLEMLER

istatistik 4. Bir frekans dağılımına ilişkin birikimli seriler 1. Birimlerle ilgili aşağıdaki ifadelerden hangisi

PARAMETRİK OLMAYAN TESTLER

Yrd. Doç. Dr. Neşet Demirci, Balıkesir Üniversitesi NEF Fizik Eğitimi. Parametrik Olmayan Testler. Ki-kare (Chi-Square) Testi

Kazanımlar. Z puanları yerine T istatistiğini ne. zaman kullanacağını bilmek. t istatistiği ile hipotez test etmek

ANADOLU ÜNİVERSİTESİ. ENM 317 MÜHENDİSLİK İSTATİSTİĞİ İYİ UYUM TESTİ Prof.Dr. Nihal ERGİNEL

13. Olasılık Dağılımlar

LAÜ FEN EDEBĐYAT FAKÜLTESĐ PSĐKOLOJĐ BÖLÜMÜ PSK 106 ĐSTATĐSTĐK YÖNTEMLER I BAHAR DÖNEMĐ BÜTÜNLEME SINAVI SORULARI

Prof. Dr. Özkan ÜNVER Prof. Dr. Hamza GAMGAM Doç. Dr. Bülent ALTUNKAYNAK SPSS UYGULAMALI TEMEL İSTATİSTİK YÖNTEMLER

İstatistik ve Olasılık

K BAĞIMSIZ ÖRNEKLEM HİPOTEZ TESTLERİ

IE 303T Sistem Benzetimi L E C T U R E 6 : R A S S A L R A K A M Ü R E T I M I

HİPOTEZ TESTLERİ. Yrd. Doç. Dr. Emre ATILGAN

Hipotez Testi ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI. Ders 4 Minitab da İstatiksel Çıkarım-I. Hipotez Testi. Hipotez Testi

Parametrik Olmayan İstatistik. Prof. Dr. Cenk ÖZLER

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş

SİMÜLASYON ÇEŞİTLERİ HAZIRLAYAN: ÖZLEM AYDIN

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

A İSTATİSTİK. 1. nc r, n tane nesneden her defasında r tanesinin alındığı (sıralama önemsiz) kombinasyonların sayısını göstermektedir.


Araştırma Yöntemleri. Çıkarımsal İstatistikler: Parametrik Testler I. Giriş

PARAMETRİK OLMAYAN İSTATİSTİKSEL TEKNİKLER

Mühendislikte İstatistiksel Yöntemler

Kestirim (Tahmin) Bilimsel çalışmaların amacı, örneklem değerinden evren değerlerinin kestirilmesidir.

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

ANADOLU ÜNİVERSİTESİ REGRESYON KATSAYILARININ GÜVEN ARALIĞI = + REGRESYON KATSAYILARININ GÜVEN ARALIĞI

KRUSKAL WALLIS VARYANS ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

Merkezi eğilim ölçüleri ile bir frekans dağılımının merkezi belirlenirken; yayılma ölçüleri ile değişkenliği veya yayılma düzeyini tespit eder.

SÜREKLĠ OLASILIK DAĞILIMLARI

8.Hafta. Değişkenlik Ölçüleri. Öğr.Gör.Muhsin ÇELİK. Uygun değişkenlik ölçüsünü hesaplayıp yorumlayabilecek,

BİYOİSTATİSTİK Uygulama 4 Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

Nokta ve Aralık Tahmini Merkezi Limit Teoremi Örneklem Dağılımı Hipotez Testlerine Giriş

BİYOİSTATİSTİK. Uygulama 4. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Örneklem Dağılımları ve Merkezi Limit Teoremi

HİPOTEZ TESTLERİ HİPOTEZ NEDİR?

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

10. Bir ana kütle oranının tahmininde α = 0,05 ise kullanılan Z değeri nedir? A) 1,64 B) 1,84 C) 1,96 D) 2,28 E) 3,08

Temel İstatistik. Y.Doç.Dr. İbrahim Turan Mart Tanımlayıcı İstatistik. Dağılımları Tanımlayıcı Ölçüler Dağılış Ölçüleri

OLASILIK ve KURAMSAL DAĞILIMLAR

Transkript:

Bilgisayarla Çıkarımsal İstatistik Büyük Veri Endüstri Çalıştayı, 30 Ekim 017 abancı Üniversitesi, M, Emirgan H. ait Ölmez HOlmez VERİM 017 Büyük Veri Endüstri Çalıştayı H Olmez 017 1

Yeniden örnekleme Çıkarımsal İstatistik ANA KÜTLE Örneklem TEORİK ANA KÜTLE DAĞILIMI s/ n (Normal dağılım?) ANA KÜTLE Örneklem 1 Örneklem Örneklem 3................... Örneklem M Örneklem dağılımı x 1 x x 3 x m ANA KÜTLE Örneklem x 1 x Bootstrap dağılımı x 3.... x m VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017

Hipotezlerin sınanması Adım 1: Problemin tanımlanması ve hipotezlerin oluşturulması Problem: Bu yıl gelen istatistik öğrencilerinin IQ seviyesinin 10 nin üzerinde olduğu iddia edilmektedir İstatistik öğrencilerinin ortalama IQ seviyesi en fazla 10 dir Şüpheci Bence bunlar çok akıllı çocuklar. Kesinlikle daha yüksektir. Hipotezler: ıfır Hipotezi (H 0 ) : μ IQ 10 (doğru varsayılan) Alternatif Hipotez (H A ) : μ IQ > 10 Hızlı özet Destekçi VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 3

Adım : Anlamlılık seviyesi: α H 0 hipotezini, doğru olduğunda yanlışlıkla reddetmekle yapmayı göze aldığımız hata değeridir. Konvansiyonel değeri: %5 (%95 güven seviyesi) Adım 3: Veriyi topla (n = 0) Örnek = { 19, 15, 14, 10, 117, 134, 1, 13, 1, 118, 13, 1, 10, 14, 119, 13, 10, 11, 119, 19 } Hızlı özet X = 1.7 Adım 4: Örneklem dağılımını seç ve test istatistiğini belirle Ana kütle dağılımı :? Ana kütle std sapması :? Örnek büyüklüğü : 0 ource: Wikipedia t-dağılımı VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 4

Adım 5: Test istatistiğini ve kritik değerleri hesapla t-istatistiği: t s / x örnek ortalaması s örnek standart sapması n örnek büyüklüğü x IQ n 1.7 10 4.131/ 0.9 Hızlı özet > 1 - pt(.9, 19) [1] 0.004391871 H 0 ı reddedemiyoruz t kritik =.015 alan = α = 0.05 alan = p = 0.00439 t =.9 H 0 ı reddediyoruz VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 5

imülasyon VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 6

N adet koordinatı 0 ve 1 arasında rastgele örnekle Çeyrek daire içine isabet eden noktaları say Bu sayının N ye oranı π sayısının çeyreğini verecektir Farklı N değerleriyle π sayısının tahmini: pir <- function(n) { x <- runif(n,0,1) y <- runif(n,0,1) d <- sqrt(x^ + y^) return(4*sum(d < 1.0)/N) } set.seed(7) cat(pir(1000),pir(10000), pir(100000),pir(1000000)) 3.19 3.131 3.1484 3.141764 π sayısının tahmini Oran y r Oran r r Alan Alan 1/ 4daire 1/ 4kare / 4 4 x VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 7

π sayısının tahmini VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 8

İstatistikte imülasyon Yöntemleri Hesaplama kapasitesindeki artışla birlikte istatistikte birçok problem bilgisayar simülasyonlarıyla çözülebilir hale geldi. Örneklem dağılımı : Hesaplaması zor imülasyonu kolay imülasyon yöntemlerinden bazıları: Direkt simülasyon Karılma/Rastgele permütasyonlar Bootstrapping (bootstrap örneklemeleri) VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 9

DİREKT İMÜLAYON VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 10

Direkt simülasyon Problem: Madeni parayı 30 kez atarak tura sayıyorsunuz. Bu adil bir para mıdır? 30 atışta tura adil bir madeni parayla bile gayet mümkündür. Adil bir parayla 30 atışta tura göremezsin. Bu para hileli. [H 0 ] [H A ] Klasik yöntem: ıfır hipotezinin (H 0 ) doğruluğunu kabul et ve hipotezi sına Adil bir madeni para ile 30 atışta tura gelmesi olasılığı nedir? Ref: tatistics for Hackers, Jake Vanderplas, PyCon 016 VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 11

Direkt simülasyon Teorik model : Binom dağılımı ile 30 atışta tura olasılığı: p( k, n) p( k n k k nk p (1 p) k tura olasılığı,30) 30 k ve (n-k) yazı olasılığı n n k p ( k nt, n) p (1 p) k nt k 30 (0.5) k (0.5) n k n! k!( n k)! 0.008 %0.8 H 0 ın doğru olduğu varsayımıyla (adil para) tesadüfen bu veriye ulaşma olasılığı : %0.8 30k 0.008 < 0.05 => H 0 ı reddediyoruz: Para hileli! k nk n içinde k olası yerleştirme (binom katsayıları) n atışta n T ya da daha fazla sayıda tura gelme olasılığı VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 1

Daha kolay bir yol var mı? imülasyon: N = 10000 ; M = 0 set.seed(10) for (i in 1:N) { x1 <- sample(0:1, 30, replace=t) if (sum(x1) >= ) { M = M + 1 } } cat("'den fazla Tura sayisi : ", M, "\n") cat("m / N degeri : ", M/N, "\n") 'den fazla Tura sayisi : 81 M / N degeri : 0.0081 p-değeri 0.05 den daha küçük H 0 ı reddet (hileli para!) Direkt simülasyon VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 13

KARILMA (Rastgele Permütasyonlar) VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 14

Karılma? Araştırma konusu: Bira içmek sizi sivrisineklere karşı daha kolay bir hedef haline getirir mi? Yalnızca bira içen 5 ve yalnızca su içen 18 denekle bir deney yürütüyoruz. Her bir grupta kaç adet sivrisineğin denekleri hedef aldığını kaydediyoruz. Ref: tatistics without the agonizing pain, John Rauser, trata Conf. 014 VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 15

U BİRA 1 19 13 7 19 0 0 3 15 17 1 4 31 6 15 0 8 0 7 19 5 1 4 4 31 4 8 4 9 1 19 18 1 1 18 7 0 16 3 0 μ B = 3.6 μ = 19. Karılma Fark: δ = μ B - μ = 4.4 Bira içen denekleri ısıran ortalama sivrisinek sayısı su içenleri ısıranlardan 4.4 daha fazla... Bu fark istatistiki olarak anlamlı mı, yoksa tamamen rastlantı mıdır? VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 16

Analitik Çözüm Karılma Şüpheci => ıfır Hipotezi H 0 : μ B = μ Destekçi => Alternatif Hip. H A : μ B μ ana kütleye ilişkin bir hipotez problemi: Varyanslar bilinmiyor ve birbirlerinden farklı Uygun dağılım : t-dağılımı İstatistiki test : t-test (Welch s t-test) t-skoru için gerekli ortalama ve varyans hesapları: Ortalamalar: μ B = 3.6 ve μ = 19. Varyanslar: B = 17.08, = 13.48 ; N B = 5 ve N =18 B N B i1 ( X N i B ) 1 B 17.08 N i1 ( X N i ) 1 13.48 VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 17

VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 t-skoru: Eğer şüpheci haklıysa (şayet sıfır hipotezi doğruysa), bu durumda t aşağıdaki formüle göre dağılıyor demektir (t için olasılık yoğunluk fonksiyonu): 18 Karılma 39.14 0.033 0.0194.051 1 18 0.749 1 5 0.683 0.749) (0.683 1 ) / ( 1 ) / ( )] / ( ) / [( B B B B B N N N N N N df 3.68 ) / ( ) / ( ) ( B B B N N t 1 1 ) / ( 1 ), ( t t p Burada Γ Gamma fonksiyonu, ν ise aşağıdaki formüle göre hesaplanan serbestlik derecesidir (df)

Karılma Verilen dağılımdan t-skorunun 3.68 den daha büyük olma olasılığını bulmamız gerekiyor. Alternatif olarak, df=39.1 and α=0.05 (anlamlılık seviyesi) değerleri için t-dağılımı tablosundan kritik t-skorunu okuyabiliriz => t kritik =.0 39.1 Tablodan okuyamıyorsanız, aşağıdaki R komutunu kullanabilirsiniz: > qt(p=0.975, df=39.14) [1].046 bu da size α=0.05 için kritik t değerini verecektir. VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 19

Karılma t-skoru = 3.68 >.0 olduğu için ıfır Hipotezini reddediyoruz.ortalama 4.4 fark istatistiki olarak anlamlı (p-değeri = 0.00035 < 0.05) onuç: Bira tüketimi insanları sivrisinek saldırılarına karşı daha cazip hale getiriyor. > 1 - pt(3.68, 39.14) [1] 0.0003506143 t = 3.68 alan = α = 0.05 alan = 0.00035 << 0.05 H 0 ı reddediyoruz H 0 ı reddediyoruz t kritik =.0 H 0 ı reddedemiyoruz VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 0

Karılma Bu problemi çözmenin daha kolay bir yolu yok mu? Elimizde yalnızca kaç adet sivrisinek tarafından cazip bulunduğunu bildiğimiz bir denek listesi var. ıfır Hipotezi: ivrisineklere hedef olma konusunda bira ve su içenler arasında bir fark yok! Şayet bu doğruysa, ölçümlerde kullandığımız etiketlerin (su veya bira) de bir önemi olmamalı. Kısacası, bu etiketleri rastgele karıştırabilir ve herhangi bir gruba atayabiliriz. VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 1

Karılma Fikir Bira ve u grupları için dağılım simülasyonları yaratacağız. Yöntem Bira ve su gruplarından rastgele kayıtlar seçerek her iki grup için ortalamaları hesaplayacak ve bunu birçok kez tekrarlayacağız. Motivasyon ıfır hipotezinde iddia edildiği gibi iki grup arasında bir fark yoksa, hangi verinin neyle etiketlendiği (su veya bira) sonucu değiştirmeyecektir. VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017

Prosedür (1) Etiketleri karıştır: Karılma N B = 5 N = 18 BİRA 7 19 0 0 3 17 1 4 31 6 8 0 7 19 5 31 4 8 4 9 1 1 18 7 0 U 1 19 13 15 15 0 1 4 4 1 19 18 16 3 0 VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 3

Karılma Prosedür () Düzenle: Tüm bira rengi etiketleri birleştir ve yeni bir bira grubu oluştur. Geri kalanları su grubunda topla: BİRA 7 0 3 1 4 6 8 19 5 4 8 1 1 18 0 1 19 1 4 1 19 16 0 Ortalamalar farkı: Δμ = 1.64 1.94 = -0.3 U 19 0 17 31 0 7 31 4 9 7 13 15 15 0 4 18 3 VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017

Prosedür (3) Tekrar karıştır ve düzenle. (1) ve () üzerinde döngü ile N defa tekrarla i=1,...,n için Δμ i değerlerinden oluşan sıklık dağılımını oluştur N=5 N=10-5 Karılma N=1 Δμ 0 5 N=0 Δμ Δμ Δμ -5 0 5 N=30-5 0 5 N=40-5 0 5 N=50000-5 0 5 Δμ -5 0 5 Δμ -5 0 5 Δμ VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 5

N=50000 Karılma 0.05 den küçük. Böylece H 0 ı reddediyoruz ve bira ile su içenler arasında istatistiki olarak anlamlı bir fark olduğu sonucuna varıyoruz. 4.4 %0.036 << %.5 Burada gerçek dağılımı temsilen bir örneklem vekili oluşturduk. Farkın 4.4 ten büyük olduğu (Δμ > 4.4) örneklerin toplam iterasyon sayısına oranı: N4.4 18 0.00036 N tot 50000 Bu değer, H 0 ın doğru olduğu varsayımıyla en az elimizdeki örneklemde gördüğümüz kadar ya da daha büyük bir etki görme olasılığıdır [pr(veri H 0 )]. Görünen etki rastgele değişkenliğin bir sonucu değildir. Δμ VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 6

Karar: Karılma eçim yanlılığının bulunmadığı ve örneklemlerin anakütleyi temsil ettiği durumlarda geçerlidir. VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 7

Özetle... Buradaki metodolojiyi takip ederek Rastgele sayılar üretebiliyorsanız Basit bir döngü yazabiliyorsanız (Python/R vb) imülasyonla istatistik işinizi kolaylaştırabilir Daha fazla sayıda uygulama ve yönteme ilişkin detaylı sunum ve örnek R programları için: github.com/solmez VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 8

Kaynaklar Think tats: Probability and tatistics for Programmers, Allen Downey Computer Age tatistical Inference, Bradley Efron, Trevor Hastie Re-sampling: The new statistics, Julian L. imon tatistics for Hackers, Jake Vanderplas, Pycon 016 tatistics without the agonizing pain, John Rauser, trata+hadoop World, 014 unum ve R programları: github.com/solmez VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 9

H. ait Ölmez, PhD abancı Üniversitesi Mühendislik ve Doğa Bil. Fakültesi olmez@sabanciuniv.edu @saitolmez solmez solmez Teşekkürler VERİM Büyük Veri Endüstri Çalıştayı H Olmez 017 30