BİYOİSTATİSTİK Kategorik Veri Analizi Dr. Öğr. Üyesi Aslı SUNER KARAKÜLAH Ege Üniversitesi, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim AD. Web: www.biyoistatistik.med.ege.edu.tr 1
SAYIMLA ELDE EDİLEN VERİLER Araştırmalarda ilgilenilen değişkenler bazen niteliksel (kalitatif) bir yapıda olabilmektedir. Göz rengi, cinsiyet ve eğitim düzeyi gibi yapıları gereği niteliksel olan değişkenler bulunduğu gibi, niceliksel (kantitatif) yapıda olan bazı değişkenler de sınıflandırılarak niteliksel hale dönüştürülebilmektedir. 2
Örneğin; Bitki Boyu (niceliksel): 0-110 cm Bitki Boyu (niteliksel): 0-60 kısa 61-110 uzun 3
Niteliksel yapıya sahip değişkenler üzerinde yapılan gözlemler, çoğunlukla araştırılan özelliği gösteren ünitelerin sayıları şeklinde olmaktadır. Örneğin; Mavi gözlü öğrencilerin sayısı 4
Ele alınan değişken niteliksel yapıda ve elde edilen gözlemler birey sayıları şeklinde ise, değişkenin sınıflara dağılımlarıyla ilgili parametrik test teknikleri kullanılarak hipotez testi yapılamamaktadır. 5
Elimizde iki kategorik değişken (nominal/ordinal) varsa, bu iki değişkeni aynı anda nasıl inceleriz? 6
ÖRNEĞİN; Ege Üniversitesi Diş Hekimliği Fakültesine gelen hastaların, kliniklere başvuru tercihlerinde cinsiyet açısından bir farklılık olup olmadığını araştırmak istiyoruz. 7
İncelediğimiz ilk kategorik değişken klinik başvuru tercihi; 1-Kontrol 2-Tedavi İncelediğimiz ikinci kategorik değişken cinsiyet; 1-Erkek 2-Bayan 8
Hipotezimiz: H 0 : Erkek ve bayanların kliniklere başvuru tercihleri arasında fark yoktur. H 1 : Erkek ve bayanların kliniklere başvuru tercihleri arasında fark vardır. 9
Çapraz tablo (crosstab) DEĞİŞKEN-2 DEĞİŞKEN-1 Düzey 1 Düzey 2 Toplam Düzey 1 a b a+b Düzey 2 c d c+d Toplam a+c b+d a+b+c+d 10
Çapraz tablo (crosstab) DEĞİŞKEN-2 DEĞİŞKEN-1 Kadın Erkek Toplam Kontrol 20 15 35 Tedavi 45 30 75 Toplam 65 45 110 Ki-kare analizi gözlenen frekanslarla beklenen frekanslar arasındaki farka bakmaktadır. 11
GÖZLENEN FREKANSLAR DEĞİŞKEN-2 DEĞİŞKEN-1 Kadın Erkek Toplam Kontrol 20 15 35 Tedavi 45 30 75 Toplam 65 45 110 BEKLENEN FREKANSLAR??? 12
GÖZLENEN FREKANSLAR DEĞİŞKEN-2 DEĞİŞKEN-1 Kadın Erkek Toplam Kontrol 20 15 35 Tedavi 45 30 75 Toplam 65 45 110 Beklenen frekansların hesaplanması: 110 kişiden 65 i kadın ise; 35 kontrol hastasının kaçının kadın olmasını beklersiniz? 110 65 35 X X=(65x35)/110=20,68 13
Kategorik verilerin analizinde, yaygın olarak ki-kare dağılımı kullanılmakta, dağılıma uygun hipotez testleri genelde uyum iyiliği testleri bağımsızlık testleri bağımlı örnek testleri olarak sınıflandırılmaktadır. 14
1. Uyum İyiliği Testleri Gözlenen frekansların, H 0 hipotezinde öne sürülen teorik frekanslara uyup uymadığının araştırılmasında kullanılmaktadır. Örneğin; Belirli bir hastalığa tutulan kişilerin kan gruplarının dağılımının, kitlenin dağılımına uyup uymadığının araştırılması gerekebilir. 15
1. Uyum İyiliği Testleri (devam) G i = i.sınıfta gözlenen frekans B i = i.sınıfta H 0 hipotezine göre beklenen frekans k = sınıf sayısı 16
Örnek 1: Bir örnek olarak dört laborantın belirli bir süre içerisinde kırmış oldukları cam malzeme sayılarını ele alalım. α=0.05 önem düzeyinde laborantların aynı derecede dikkatli olup olmadıklarını araştırınız. Laborant 1 2 3 4 Toplam Kırdıkları cam malzeme 30 45 28 57 160 17
H 0 hipotezi bu laborantların aynı derecede dikkatli oldukları ve kırdıkları cam malzeme sayılarındaki farklılıkların ise şansa bağlı olarak değiştiğidir. H 0 : p 1 =p 2 =p 3 =p 4 =p=1/4 H 1 : En az bir eşitlik geçersizdir. p i =Kırılan bir cam malzemenin i inci laborant tarafından kırılmış olması olasılığıdır. 18
H 0 hipotezi altında her bir laborantın eşit sayıda cam malzeme kırmaları beklendiğinden her bir laborant için beklenen değer 160/4=40 olarak bulunmuştur. Laborant 1 2 3 4 Toplam Kırdıkları cam malzeme (G) 30 45 28 57 160 Beklenen Değerler (B) 40 40 40 40 19
k=4 sınıf olduğundan serbestlik derecesi 4-1=3 olur. H 0 RED Yorum: H 0 hipotezi reddedilir, laborantlar aynı derecede dikkatli değildir. 20
2. Bağımsızlık Testleri Araştırmalarda, örneklemdeki bireyler iki farklı kritere göre sınıflandırılabilirler. Örneğin; Sigara içip içmemelerine göre, İçki içip içmemelerine göre, Renklerine göre, Yaşadıkları yere göre, Tiroid bezinin fonksiyonuna göre, vb 21
2. Bağımsızlık Testleri (devam) Bu şekilde sınıflandırılan verilerde genellikle sınıflamaya konu olan kriterlerin birbirinden bağımsız olup olmadığı test edilmek istenir. İki farklı kritere göre verilerin sınıflandırılması söz konusu olduğunda iki yönlü tablolar (veya olağanlık tabloları) kullanılır. 22
2. Bağımsızlık Testleri (devam) Tablonun bir tarafında ele alınan kriterlerden birinin sınıfları, diğer tarafında ise ikinci karakterin sınıfları yer alır. Bu satır ve sütunların kesişimlerinde ise ele alınan kriterler bakımından aynı özellikleri gösteren bireylerin sayıları bulunmaktadır. İki nominal ya da biri ordinal diğeri nominal skalada elde edilmiş değişkenin bağımsızlığını test etmek için kullanılmaktadır. 23
2. Bağımsızlık Testleri (devam) H 0 : X ile Y değişkenleri birbirinden bağımsızdır. H 1 : X ile Y bağımlıdır. 24
n n n h c i. ij j1.j ij i 1 r r c.. ij i 1 j 1 0 G G.. G H hipotezinin doğruluğu altında; nn i..j B ij bulunur ve, n 2 r c Gij B 2 ij 2 ~ h [sd (r 1) (c 1)] i 1 j 1 Bij 2 2 [sd (r 1) (c 1)] 0 H hipotezi reddedilir. 25
r=2, c=2 olan 2x2 tablolarda n (G G G G ) 2.. 11 22 12 21 n n n n 1. 2. 1. 2. 2 formülü kullanılabilir. 26
Örnek 2: Rasgele seçilen 100 kişi 50 şer kişilik 2 gruba ayrılmış ve bir gruba incelenen ilaç diğer gruba da etken madde içermeyen placebo verilmiştir. Belli bir süre sonra bu 100 kişide ilacın yan etkileri araştırılmıştır. İlacın yan etkisinin olup olmadığını α=0.05 güven düzeyinde araştırınız. Yan etki VAR Yan etki YOK Toplam İlaç alan 15 35 50 Placebo alan 4 46 50 Toplam 19 81 100 27
H 0 : İlacın yan etkisi yoktur. H 1 : İlacın yan etkisi vardır. Serbestlik derecesi = (2-1)(2-1) = 1 H 0 RED Yorum: H 0 red edilir, ilacın yan etkisi vardır. 28
2x2 tablolarda gözlem sayısının az olduğu durumlarda ve tüm beklenen değerlerin 5 ten büyük olduğu durumlarda Yates Düzeltmesi yapılarak ki-kare uygulaması önerilmektedir. Gözlem sayısı çok az olduğunda (40 tan az) durumlarda ve özellikle 5 ten küçük beklenen değerler olduğu durumlarda Fisher in Tam Olasılık Testi kullanılmalıdır. 29
r=2, c=2 olan 2x2 tablolarda n (G G G G ) 2.. 11 22 12 21 n n n n 1. 2. 1. 2. 2 formülü iken; Yates Düzeltmeli Formül: 2 n (G G G G ) 0.5n 2.. 11 22 12 21.. n n n n 1. 2..1.2 30
Yates düzeltmesi yapıldığında Örnek 2 için hesaplanan değer; H 0 RED Yorum: H 0 red edilir, ilacın yan etkisi vardır. 31
R x C Tablolar r x c tablolarda herhangi bir gözdeki beklenen değer 1 den küçük ise ve/veya 5 ten küçük olan gözlerin sayısı toplam göz sayısının %20 sinden çok ise, ki-kare testini kullanmak sakıncalıdır. Özellikle H 0 hipotezinin reddedildiği durumlarda çözüm grupları birleştirmek ya da sebep olan grupları analize almamaktır. 32
3. Bağımlı Örnek Testleri Seçilen örneklerin birbirinden bağımsız olmadığı durumlarda bağımlı örnek testleri kullanılır. McNemar testi olarak da bilinir. Örneğin; Tedavi öncesi ve sonrası Eğitim verilme öncesi ve sonrası Operasyon öncesi ve sonrası, vb. 33
3. Bağımlı Örnek Testleri (devam) Sonra Önce + - + A B - C D Böyle bir tabloda araştırmacıyı ilgilendiren veriler önceden sonraya geçişte sınıf değiştiren bireylerin sayıları olan B ve C dir. H 0 : Önce sonra arasında farklılık yoktur. H 1 : Önce sonra arasında farklılık anlamlıdır. ( B C 1) B C 2 2 2 ~ [sd 1] 34
Örnek 3: Bir yöreden rasgele seçilen 60 kişinin eğitim uygulanmadan önceki ve eğitim uygulandıktan sonraki sigara içme alışkanlıklarının incelendiği bir araştırmanın verileri aşağıdaki tabloda verilmiştir. Eğitimin sigara içme alışkanlığı üzerine bir etkisi olup olmadığını α=0.05 güven düzeyinde araştırınız. Eğitim Sonrası Eğitim Öncesi 5 >5 5 20 8 >5 4 28 35
Eğitim Sonrası Eğitim Öncesi 5 >5 5 20 8 >5 4 28 Tabloya göre 4 kişinin eğitim öncesi günde 5 ve 5 ten az sigara içtiği, eğitim sonrasında ise sigara içimini arttırarak günde 5 ten çok sigara içtiği görülmektedir. 8 kişinin de sigarayı azalttığı görülmektedir. 36
Eğitim Sonrası Eğitim Öncesi 5 >5 5 20 8 >5 4 28 Eğer eğitimin sigara içme alışkanlığı üzerine bir etkisi yoksa bu gözlerdeki kişilerin beklenen değerleri birbirine eşit olur. H 0 : p 1 = p 2 H 1 : p 1 p 2 veya H 0 : Önce sonra arasında farklılık yoktur. H 1 : Önce sonra arasında farklılık anlamlıdır. 2 37
H 0 REDDEDİLEMEZ Yorum: H 0 reddedilemez, eğitimin sigara içme alışkanlığı üzerine etkisi yoktur. 38
ÖNEMLİ GELİR DÜZEYİ EĞİTİM DÜZEYİ İLKOKUL VE ALTI ORTAOKUL LİSE VE ÜZERİ TOPLAM 1000 TL VE ALTI 26 10 8 44 1000-2000 TL 30 15 12 57 2000-3000 TL 12 55 72 139 3000-4000 TL 2 5 60 67 4000 TL VE ÜZERİ 0 5 15 20 TOPLAM 70 90 167 327 Yapacağımız analizler için tablonun her bir gözünde (a, b, c, d) 5 ten büyük değerler olması istenir. Bu kuralın karşılanmaması durumunda Fisher exact testi uygulanır. Analizleri yapabilmek için tablonun gözlerinde 0 değeri istenmez. 39
ÖNEMLİ GELİR DÜZEYİ EĞİTİM DÜZEYİ İLKOKUL VE ALTI ORTAOKUL LİSE VE ÜZERİ TOPLAM 1000 TL VE ALTI 26 10 8 44 1000-2000 TL 30 15 12 57 2000-3000 TL 12 55 72 139 3000-4000 TL 2 5 60 67 4000 TL VE ÜZERİ 0 5 15 20 TOPLAM 70 90 167 327 Bu durumda ilgili değişkenin yeniden gruplanması ya da örneklem büyüklüğünün arttırılması bu sorunu çözebilmektedir. 40
ÖNEMLİ GELİR DÜZEYİ EĞİTİM DÜZEYİ İLKOKUL VE ALTI ORTAOKUL LİSE VE ÜZERİ TOPLAM 1000 TL VE ALTI 26 10 8 44 1000-2000 TL 30 15 12 57 2000 VE ÜZERİ 14 65 147 226 TOPLAM 70 90 167 327 Bu durumda ilgili değişkenin yeniden gruplanması ya da örneklem büyüklüğünün arttırılması bu sorunu çözebilmektedir. 41
42
43
44
45
46
Haftaya derste anlatılacak konular Uygulama 8 47