Parametrik Olmayan İstatistiksel Yöntemler IST-4035-7- DEÜ İstatistik Bölümü 018 Güz 1 Non-Parametric Statistics Nominal Ordinal Interval One Sample Tests Binomial test Run test Kolmogrov-Smirnov test X test Sign test Wilcoxon Rank test Related Mc Nemar test Sign test Walsh Test Wilcoxon Signed Rank test Randomization test Two Sample Tests Unrelated Fisher Exact Probability test X test Median test Mann-Whitney U test Kolmogrov-Smirnov test Ansari-Bradley Mood Testi test Moses test Related Cochran Q test Friedman F test Page test k - Samples Tests Unrelated X test Kruskal-Wallis test Median test Jonckheere-Terpstra test 1
Bağımsızlık ve Homojenlik için Ki-Kare (Chi-Square) Testleri Bağımsızlık ve homojenlik için ki-kare testleri temelde uyum iyiliği testlerindendir. Bu testlerde gözlenen frekanslar ile boş hipotezi doğru iken beklenen frekansların karşılaştırılması yapılır. Yani gözlenen frekansların beklenen frekanslara uyumunun ölçüsü hesaplanır. Bağımsızlık için ki-kare testlerinde, biri sınıflama diğeri sıralama veya ikisi de sınıflama düzeyinde ölçülen iki değişkenin arasında ilişki olmadığını veya bu değişkenlerin bağımsız olduğunu ifade eden boş hipotezi test edilir. Homojenlik için ki-kare testlerinde de bağımlı değişken sınıflama veya sıralama düzeyinde ölçüldüğünde iki bağımsız örneğin aynı kitleden geldiğini ifade eden yokluk hipotezi test edilir. 3 Bağımsızlık için Ki-Kare Testi Birçok araştırmada iki değişken arasında ilişki olup olmadığının veya bunların bağımsız olup olmadığının ortaya çıkartılması istenir. Örneğin bir araştırmacı cinsiyet ile eğitim düzeyi arasında ilişki olup olmadığını araştırmak isteyebilir. Bir eğitimci sınava hazırlık yöntemi ile başarı düzeyi arasında ilişki olup olmadığını bilmek isteyebilir. Eğer bu tür iki değişken arasında ilişki yok ise bu iki değişkenin bağımsız olduğu söylenir. Yani kitledeki birimlerden herhangi birinde değişkenlerden birinin değerini bilmek diğer değişkenin değerini tahmin etmede yardımcı olmaz. Diğer yandan iki değişken arasında 4 ilişki var ise tahmin edilmesinde yardımcı olur.
Bağımsızlık için Ki-Kare Testi Ki-kare bağımsızlık testi için önemli olan iki nokta vardır. 1) n hacimli örneklem kitleden rassal olarak seçilmelidir. ) Örneklem birimleri bir çapraz tabloda özetlenmelidir. 5 Bağımsızlık için Ki-Kare Testi Ki-kare bağımsızlık testi için kontenjans (olumsallık) tablosu İlk değişkenin düzeyleri İkinci değişkenin düzeyleri Kategori 1 j c Toplam 1 n 11 n 1 n 1j n 1c n 1. n 1 n n j n c n. i n i1 n i n ij n ic n i. r n r1 n r n rj n rc n r. Toplam n. 1 n. n. j n. c n n ij :birinci değişkenin i. ve ikinci değişkenin j. düzeyindeki örneklem birimlerinin sayısı n i. :birinci değişkenin i. düzeyindeki örneklem birimlerinin sayısı n j. :ikinci değişkenin j. düzeyindeki örneklem birimlerinin sayısı n ij değerleri daha önce sözü edilen gözlenen frekanslardır. Bunu Oij olarak gösterelim. 6 3
Bağımsızlık için Ki-Kare Testi/Varsayımlar Örneklem ilgilenilen kitleden rassal olarak seçilen n sayıda birimden oluşur. Gözlemler iki kritere göre çapraz tablo olarak gösterilebilir. Değişkenler kategorik olmalıdır (sayısal değerlere göre sınıflama yapılacaksa bu değerler çakışmamalıdır). 7 Bağımsızlık için Ki-Kare Testi/Hipotezler H 0 : Değişkenler bağımsızdır. H 1 : Değişkenler bağımsız değildir. Veya H 0 : Değişkenler arasında ilişki yoktur. H 1 : Değişkenler arasında ilişki vardır. 8 4
Bağımsızlık için Ki-Kare Testi/Test İstatistiği Bağımsızlık için ki-kare testi gözlenen frekanslar ile H 0 hipotezi doğru iken beklenen frekansların karşılaştırılması temeline dayanır. Yani bu test c r tane hücrenin her birinde gözlenen frekans ile boş hipotezi doğru iken beklenen frekansın karşılaştırılmasına dayanır. Bu durumda beklenen frekanslar E ij ile gösterilirse; E ij (n.j ).(n n i. ) 9 Bağımsızlık için Ki-Kare Testi/Test İstatistiği Her bir hücre için gözlenen frekanslar ve beklenen frekanslar elde edildikten sonra bu iki farkın büyüklüğü test istatistiğine yansıtılır. i r c O ij E ij 1 j1 E ij test istatistiği (r-1) (c-1) serbestlik dereceli dağılır. 10 5
Bağımsızlık için Ki-Kare Testi/Karar Kuralı hesap >,( r1)( c1) ise H 0 reddedilir. 11 Bağımsızlık için Ki-Kare Testi/Örnek 1 Rassal olarak seçilen 400 yabancıya Türkiye de kaldıkları süre içinde yaptıkları harcama ile uyrukları sorulmuş ve alınan cevaplarla aşağıdaki çapraz tablo oluşturulmuştur. Uyruk ile harcama tutarı birbirinden bağımsız mıdır? (α=0.05) Uyruk Harcama ($/gün) Alman İngiliz İtalyan Amerikalı Diğer Toplam 50 30 30 60 0 10 150 51-100 40 0 15 40 0 135 101 30 10 5 60 10 115 100 60 80 10 40 400 1 6
Bağımsızlık için Ki-Kare Testi/Örnek 1 İlk önce beklenen frekanslar hesaplanır. E ij (n.j ).(n n i. ) Uyruk Harcama ($/gün) Alman İngiliz İtalyan Amerikalı Diğer Toplam 50 30(37.5) 30(.5) 60(30) 0(45) 10(15) 150 51-100 40(33.75) 0(0.5) 15(7) 40(40.5) 0(13.5) 135 101 30(8.75) 10(17.5) 5(3) 60(34.5) 10(11.5) 115 100 60 80 10 40 400 13 Bağımsızlık için Ki-Kare Testi/Örnek 1 Daha sonra hipotezler belirlenip test istatistiği hesaplanır. H 0 : harcama tutarı uyruktan bağımsızdır. H 1 : harcama tutarı uyruktan bağımsız değildir. r c i1 j1 Oij Eij 30 37.5 30.5 10 11.5 Eij 37.5.5... 11.5 95.4171 14 7
Bağımsızlık için Ki-Kare Testi/Örnek 1 Son olarak karar kuralı uygulanır.,( r1)( c1) 0.05,8 15.507 hesap 95.4171 0.05, 8 15.507 olduğundan H 0 reddedilir. Yani uyruk ile harcama tutarı birbirinden bağımsız değildir. P-değeri??? R ile uygulama? 15 Bağımsızlık için Ki-Kare Testi/Örnek Bir hastalığa yakalananlar arasından 00 kişi rassal olarak seçilmiş ve yine rassal olarak 4 gruba ayrılmışlardır. Gruplardaki hastalara farklı tedavi yöntemleri uygulanmış ve tedavi sonrasında iyileşip iyileşmedikleri belirlenmiştir. Tedavi yöntemi ve iyileşme durumlarına göre hazırlanan tablo aşağıda verilmiştir. α=0.05 için bu değişkenlerin bağımsız olduğu söylenebilir mi? Tedavi yöntemi Tedavi sonrası durum A B C D Toplam İyileşti 5 30 40 3 118 İyileşmedi 5 0 10 7 8 Toplam 50 50 50 50 00 16 8
Bağımsızlık için Ki-Kare Testi/Örnek / SPSS Çözümü 1.Veri Girişi.Frekansları belirtme: DataWeight Cases 17 Bağımsızlık için Ki-Kare Testi/Örnek / SPSS Çözümü 3.Analiz: AnalyzeDescriptive StatisticsCrosstabs 18 9
Bağımsızlık için Ki-Kare Testi/Örnek / SPSS Çözümü hasta * tedavi Crosstabulation hasta Total 1 Count Expected Count Count Expected Count Count Expected Count tedavi 1 3 4 Total 5 30 40 3 118 9,5 9,5 9,5 9,5 118,0 5 0 10 7 8 0,5 0,5 0,5 0,5 8,0 50 50 50 50 00 50,0 50,0 50,0 50,0 00,0 Chi-Square Tests Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association Asymp. Sig. Value df (-sided) 14,303 a 3,003 15,093 3,00,066 1,798 N of Valid Cases 00 a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 0,50. 19 x lik Çapraz Tablo İki değişkenin de ikişer düzeyi var ise x lik tablo elde edilir. Bu durumda (r-1)(c-1) den serbestlik derecesi 1 olarak elde edilir. Bu durumda chi-square test istatistiğinin değerini aşağıdaki şekilde bulabiliriz. Birinci kriterin düzeyleri ikinci kriterin düzeyleri 1 Toplam 1 a b a+b c d c+d Toplam a+c b+d n n.(ad bc) (a c)(b d)(c d)(a b) 0 10
Bağımsızlık için Ki-Kare Testi/x lik Çapraz Tablo/Örnek 1 Gece sigara içmenin akciğer kanseri ile ilişkisinin araştırıldığı bir çalışmada 56 yetişkine ait bilgiler aşağıdaki tabloda verilmiştir. Bu değerlere göre gece sigara içmek ile akciğer kanseri birbiri ile ilişkili midir? (=0.05) Gece sigara içimi Evet Hayır Toplam Akciğer kanseri Evet 0 16 36 Hayır 6 14 0 Toplam 6 30 56 1 Bağımsızlık için Ki-Kare Testi/x lik Çapraz Tablo/Örnek 1 H 0 :Gece sigara içimi ile akciğer kanseri arasında ilişki yoktur. H ı : iki değişken ilişkilidir. (bağımsız değildir) n.(ad bc) (a c)(b d)(c d)(a b) 56(0*1416*6) 6*30*0*36 3.376 0.05,1 3.841 hesap 3.376 1 3.841 0.05, olduğundan H 0 reddedilemez. 11
Chi-square testi uyarılar Ki-Kare test istatistiği beklenen frekanslar yeterince büyük ise (r-1)(c-1) serbestlik dereceli ki-kare dağılımına sahiptir. Bu test istatistiğinin kullanılabilmesi için hiçbir hücrede beklenen frekanslar 1 den küçük olmamalıdır. x lik tablolarda tüm hücrelerde beklenen frekanslar 5 olmalıdır. (Aksi durumda Fisher Exact Test kullanılabilir.) Bir başka görüşe göre x lik tabloda beklenen frekansı 5 ten küçük en az bir hücre varsa Yates düzeltmesi kullanılmalıdır. Daha büyük tablolarda hücrelerin %80 inde beklenen frekanslar 5 olmalıdır. Küçük örneklemlerde Chi-Square testi yanlış sonuçlar verebilir. Yaygın bir görüşe göre n<0 olduğunda Chi- Square test kullanılmamalıdır. 3 Yates s Düzeltmesi (Yates,1934) x lik tablolarda ki-kare değeri hesaplanırken Yates in süreklilik düzeltmesi kullanılabilir. Bu düzeltme kullanıldığında test istatistiği; c n.( ad bc 0.5n) (a c)(b d)(c d)(a b) Önceki örnek bu düzeltme terimi ile hesaplansaydı; c 56( (0*14) (16*6) (0.5*56)) 6*30* 0*36.47 bulunur ve c.47 0.05, 1 3.841 olduğundan H 0 reddedilemez, sonuç değişmeyecekti. 4 1
Homojenlik için Ki-Kare Testi İki bağımsız örnekleme ait problemlerde yanıt değişkeni sayısal (aralıklı veya oransal ölçekte) ise bu durumda kullanılan testler, Medyan, Mann-Whitney testleri idi. Yanıt değişkeni sınıflayıcı ya da sıralayıcı ölçmekte verilmiş ise ki-kare testi ile çözümlenebilir. 5 Homojenlik için Ki-Kare Testi Örneğin n 1 büyüklüğündeki bir örneklemdeki hastalara A ilacı, n büyüklüğündeki başka bir örnekleme B ilacı uygulandıktan sonra hastalar iyileşti iyileşmedi olarak değerlendirilmiş ise bu durumda x boyulu çapraz tablo elde edilir. Benzer biçimde A ve B makinalarının çıktılarından rassal olarak seçilen 100 er ürün çok kaliteli yeterli kötü olarak değerlendirilirse x3 boyutlu çapraz tablo elde edilir. Bu tür problemlerde bu iki örneklemin aynı kitleden gelip gelmediği belirlenmeye çalışılır. 6 13
Homojenlik için Ki-Kare Testi/Varsayımlar Örneklemler rassal olarak seçilmiştir. Örneklemler bağımsızdır. Değişkenler kategorik olmalıdır (sayısal değerlere göre sınıflama yapılacaksa bu değerler çakışmamalıdır). 7 Homojenlik için Ki-Kare Testi/Hipotezler H 0 : Örneklemler aynı kitleden gelmiştir. H 1 : Örneklemler aynı kitleden gelmemiştir. Veya H 0 : Örneklemlerin geldiği kitleler homojendir. H 1 : Örneklemlerin geldiği kitleler homojen değildir. 8 14
Homojenlik için Ki-Kare Testi/Test İstatistiği i r c O ij Eij 1 j1 Eij Test istatistiği (r-1)*(c-1) serbestlik dereceli ki-kare dağılır. Tablo x lik ise önceden bahsedilen eşitlik kullanılabilir. 9 Homojenlik için Ki-Kare Testi/Karar Kuralı hesap,( r1)( c1) ise H 0 reddedilir. Bağımsızlık testinde verilen uyarılar ve Yates süreklilik düzeltmesi homojenlik testi içinde geçerlidir. 30 15
Homojenlik için Ki-Kare Testi/Örnek 1 A ve B makinelerinden rassal olarak seçilen 100 er ürünün kalite durumuna göre dağılımı aşağıda verilmektedir. =0.05 alınır ise bu örneklemlerin aynı kitleden geldikleri söylenebilir mi? Kalite Makine Sağlam Kusurlu Toplam A 90 10 100 B 70 30 100 Toplam 160 40 00 31 Homojenlik için Ki-Kare Testi/Örnek 1 H 0 :Örneklemler aynı kitleden gelmiştir. H 1 :Örneklemler aynı kitleden gelmemiştir. n.(ad bc) 00(90*30 70*10) (a c)(b d)(c d)(a b) 160*40*100*100 1.5 hesap 1.5 0.05, 1 3.841 olduğundan H 0 reddedilir. Bu örneklemler %95 güvenle aynı kitleden gelmemektedir. Yates süreklilik düzeltmesi uygulanırsa c 11.815 bulunur ve yine H 0 reddedilir. 3 16
Homojenlik için Ki-Kare Testi/Örnek Farklı sosyal sınıflardan gelen öğrencilerin meslek ve akademik alan seçimlerinin araştırıldığı bir çalışmada 197 öğrenci rassal olarak seçilmiş ve aşağıdaki sonuçlar elde edilmiştir. Bu verilere göre ekonomik durumu farklı öğrencilerin alan seçimlerine göre dağılımlarının aynı olduğunu %10 anlam düzeyinde araştırınız? Ekonomik durum beşeri bilimler sosyal bilimler biyolojik bilimler sayısal bilimler mühendislik toplam ücretli 1,505% 43,011% 9,677% 15,054% 10,753% 47,08% burslu 5,96% 37,500% 9,615% 15,385% 11,538% 5,79% toplam 3,858% 40,10% 9,645% 15,8% 11,168% 100% 33 Homojenlik için Ki-Kare Testi/Örnek H 0 : Örneklemlerin geldiği kitleler aynıdır. H 1 : Örneklemlerin geldiği kitleler aynı değildir. Yüzde tablosundan önce frekanslar elde edilecek Ekonomik durum beşeri sosyal bilimler bilimler biyolojik bilimler sayısal bilimler mühendislik toplam ücretli 0 40 9 14 10 93 burslu 7 39 10 16 1 104 toplam 47 79 19 30 197 34 17
Homojenlik için Ki-Kare Testi/Örnek ekodurum * alan Crosstabulation ekodurum Total 1 Count Expected Count Count Expected Count Count Expected Count alan 1 3 4 5 Total 0 40 9 14 10 93, 37,3 9,0 14, 10,4 93,0 7 39 10 16 1 104 4,8 41,7 10,0 15,8 11,6 104,0 47 79 19 30 197 47,0 79,0 19,0 30,0,0 197,0 Chi-Square Tests Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Asymp. Sig. Value df (-sided),811 a 4,937,813 4,937,006 1,936 197 a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 8,97. 35 18