Değişken Türleri, Tanımlayıcı İstatistikler ve Normal Dağılım Dr. Deniz Özel Erkan
Evren Parametre Örneklem Çıkarım Veri İstatistik
İstatistik Tanımlayıcı (Descriptive) Çıkarımsal (Inferential) Özetleme Sınıflama Görselleştirme Evrenden örnekleme genelleme Hipotez testi İlişki belirleme Tahminde bulunma
Değişken Farklı değerler alabilen veya değişen özellikler veya durumlardır. Çoğu araştırma iki değişken arasındaki ilişki veya iki/daha fazla grup arasındaki farkla ilgili genel bir soru ile başlar.
Değişken türleri Nicel Kategorik (nominal, ordinal) Time-to-event
Nicel değişkenler Sayısal sürekli: Belirli bir aralıkta her değeri alabilir (ör: boy 168,88) Sayısal kesikli: Belirli değerler alabilir (ör: çocuk sayısı)
Sayısal değişken Ölçme yapılarak ya da sayma yoluyla elde edilen değişkenlerdir. Örnekler: Yaş BMI (Vücut kitle indeksi) Ölçekten elde edilen toplam puan Hemoglobin, kolesterol gibi kandan cihaz yardımıyla ölçülen değişkenler Hastanede kalış süresi Sistolik kan basıncı Hastanın maliyeti
Kategorik-Binary İkili (binary): İki kategorili Sağ/Ölü Deney/Placebo Hasta/Sağlam HT var/ht yok
Kategorik-Nominal Nominal: Sıralama yapılamayan kategoriler Kan grubu Medeni durum Meslek
Kategorik-Ordinal Ordinal: Sıralama yapılabilen kategoriler Kanser evresi (I, II, III, IV) Doğum sırası (1., 2., 3. sıra) Likert ölçeği (Kesinlikle katılmıyorum, katılmıyorum, kararsızım, katılıyorum, kesinlikle katılıyorum) Yaş grubu (10-20, 21-30, 31-40)
Çeşitli örnekler Cinsiyet (kadın-erkek) Gelir (düşük-orta-yüksek) Eğitim durumu (ilköğretim-lise-üniversite) Diyabet (var-yok)-ht (var-yok) Test sonucu (pozitif-negatif) Sigara (içen-bırakmış-içmeyen) Hastalığın evresi (I-II-III)
Zamana bağlı değişkenler Bir olayın görülme zamanı, hastanın son görüldüğü tarih Hibrittir. İkili (olay oldu/olmadı) da olabilir, süre de olabilir. Kohort veya RKÇ gibi zamana bağlı takip gerektiren çalışmalarda hesaplanır Ör: Ölüm zamanı, MI zamanı, KBH zamanı
Veriyle tanışmak Kategorik Her kategoride kaç n var? Yüzdesi? Nicel Dağılımın formu nedir (normal mi dağılıyor, sağa/sola mı çarpık) Verinin merkezi nerede? Verinin yayılımı/değişkenliği nasıldır?
Merkezi ölçütler Ortalama Medyan Mod
Ortalama Dağılım simetrikse kullanılır Uç değerlerden etkilenir Daha detaylı bilgi verir Standart sapma ile birlikte sunulur 1 5 4 3 2 X = 1 + 5 + 4 + 3 + 2 = 15 Toplamı örneklem sayısına böl (n = 5): Ortalama= 15 / 5 = 3
Medyan Dağılım sağa veya sola çarpıksa kullanılır Uç değerlerden etkilenmez Bilgi kaybı Min-Max veya IQR ile birlikte sunulur 24 18 19 42 16 12 Sırala 42 24 19 18 16 12 Ortadaki değer (N + 1) / 2 = (6 + 1) / 2 = 3.5 Medyan = 3. ve 4. skor ortalaması: (19 + 18) / 2 = 18.5
Mod En sık tekrarlanan değer 24 18 19 42 16 12 18 19 19 Mod: 19
Yaygınlık gösteren ölçütler Standart sapma, Varyans Range (aralık) Persentil (çeyreklik) Inter-quartile range (IQR)
Standart sapma 2 4 6 8 10 Ort: 6 Verinin ortalamadan ne kadar uzakta olduğunu gösterir Ortalamadan uzaklık X i X n? Değildir çünkü sonuç 0 a eşittir. Çare:
9 hastanın yaşı: Range-IQR 22, 16, 24, 17, 16, 25, 20, 19, 26 Range: Max-Min= 26-16=10 Medyan 16 16 17 19 20 22 24 25 26 (16 + 17) 2 Q 1 = = 16.5 Q 3 = = 24.5 Q 3 Q 1 = 24.5 16.5 IQR = 8 (24 + 25) 2
Güven aralığı Evren parametresi için akla yatkın değer aralığı sunar. Tahminin kesinliğini hakkında fikir verir. Aralık genişse sonuçlar güven vermez. İstatistiksel anlamlılık yorumu yapılabilir. Güven aralığı H0 hipotezindeki değeri içermiyorsa p<0,05 denilir.
Biraz matematik 50 lise öğrencisinden oluşan bir örneklemin haftalık tv seyretme sürelerinin incelenmesi sonucunda, ortalama 20,5 saat ve standart sapması 5,5 saat olarak hesaplanmıştır. Bütün lise öğrencilerinin ortalama TV seyretme süreleri hakkında %95 lik güven aralığını belirleyin. n z X n z X n z X or X n z then For n z X or X n z then For n
Veri sunumu Kategorik Tablo: Sayı, % Grafik: Bar grafik, Pie chart Nicel/sürekli Tablo: Mean±Sd veya Median (IQR) veya Median (Min-Max) Grafik: Box plot, Histogram Scatter plot?
Baseline Patient Characteristics Characteristics Ranolazine (n=3279) Placebo (n=3281) Age, median (IQR), y 64 (55-72) 64 (56-72) Age 75y 562/3279 (17.1) 592/3281 (18.0) Female Sex 1106/3279 (33.7) 1185/3281 (36.1) White Race 3112/3279 (94.9) 3129/3281 (95.4) Weight, median (IQR), kg 80 (72-92) 81 (71-91) BMI, median (IQR) 28 (25-31) 28 (25-32) Comorbidities Diabetes mellitus 1104/3279 (33.7) 1116/3281 (34.0) Hypertension 2395/3257 (73.5) 2409/3258 (73.9) Hyperlipidemia 2028/3016 (67.2) 2022/2982 (67.8) Current Smoker 872/3276 (26.6) 804/3280 (24.5) Cardiac History Prior MI 1119/3245 (34.5) 1095/3251 (33.7) Prior coronary revascularization 891/3277 (27.2) 853/3278 (26.0) Prior heart failure 538/3279 (16.4) 557/3281 (17.0) (Morrow et al. Effects of Ranolazine on Recurrent Cardiovascular Events in Patients with Non-ST-Elevation Acute Coronary Syndromes. JAMA 2007; 297: 1775-1783.)
Verim normal dağılıyor mu? Sayısal verileri kullanan istatistiksel test seçiminde önemli (özellikle düşük örneklemde) Tüm sayısal veriler normal dağılmaz. Nasıl test ederiz?
Normal dağılım kontrolü
1. Histogram çan eğrisi şeklinde mi?
2. Normal olasılık grafiği (q-q plot) lineer mi?
3. Tanımlayıcı istatistiklere bak Ortalama ve medyan birbirine yakın mı? Standart sapma ortalamanın yarısından/dörtte birinden az mı? Çarpıklık/standart hatası, basıklık/standart hatası değerleri -1,96 ve +1,96 arasında mı?
4. Son olarak normallik testine bak (Shapiro Wilk) Örneklem sayısı arttıkça güvenilir değil. Çünkü p değeri ile çalışıyor. Grafiklere güven, normallik testi tamamlayıcı olsun. Mükemmeliyetçi olma. Dağılım çok çarpık olmadığı sürece, normal dağılıma yaklaşım konusunda optimist ol.
TEŞEKKÜRLER