LOJİSTİK REGRESYON ANALİZİ
Lojistik Regresyon Analizini daha kolay izleyebilmek için bazı terimleri tanımlayalım: 1. Değişken (incelenen özellik): Bireyden bireye farklı değerler alabilen özellik, fenomen ya da olay 2. Değişkenlerin Ölçüm biçimi: Ölçüm biçimi yönünden değişkenler iki gruba ayrılır: Nitel (nitelik,kategorik) değişkenler Sayısal değişkenler
Nitel değişkenler Ölçülemez, sadece nitelendirilebilir. Örneğin; Cinsiyet : Erkek kadın Hast.sonucu: İyileşti iyileşmedi, Eğitim : İlk orta lise yüksek gibi. Sayısal değişkenler: 1. Kesikli sayısal 2. Sürekli sayısal olarak iki gruba ayrılır.
Kesikli sayısal değişkenler: Belirli bir aralıktaki tam sayıları (10, 74, 187 gibi) alabilen değişkendir: Nabız sayısı, Ölen sayısı, Çocuk sayısı gibi. Sürekli sayısal değişkenler: Ölçümle belirtilen ve bir aralıkta bütün desimal değerleri (12.8, 140.6, 60.7 gibi) alabilen değişkendir. Kan basıncı ölçümü, Biyokimyasal ölçümler, Boy uzunluğu, ağırlık, yaş gibi.
3. Bağımlı değişken: Diğer değişkenler tarafından etkilenen değişkendir. 4. Bağımsız değişken: Bağımlı değişkeni etkileyen değişkendir. Örnek: Bağımlı değişken : Hipertansiyon Bağımsız değişkenler : Yaş, cinsiyet, biyokimyasal ve diğer sosyal değişkenler
LOJİSTİK REGRESYON
Bilinen doğrusal regresyon analizinde bağımlı değişken ve bağımsız değişken(ler) sayısal (ölçümle belirtilen sürekli ya da kesikli sayısal) olarak belirtilir. Örneğin, yaş ile kan basıncı arasında bir ilişki aranacaksa; hem yaş, hem de kan basıncı sayısal olarak belirtilmelidir. Nitelik olarak belirtilemezler.
Bağımlı değişken nitelik olarak belirtilirse, bağımsız değişken ya da değişkenlerle arasındaki ilişki lojistik regresyon yöntemiyle aranır. İzleyen tabloda doğrusal ve lojistik regresyon yöntemleri karşılaştırılmıştır:
DEĞİŞKENLER BAĞIMLI BAĞIMSIZ DOĞRUSAL REGRESYON ANALİZİ SÜREKLİ SAYISAL KESİKLİ SAYISAL SÜREKLİ SAYISAL KESİKLİ SAYISAL LOJİSTİK REGRESYON ANALİZİ NİTELİK SÜREKLİ SAYISAL KESİKLİ SAYISAL NİTELİK (Her bağımsız değişken başka bir ölçüm biçimine de sahip olabilir)
Nitelik bağımlı değişken: 2 Kategorili olabilir : İyileşti iyileşmedi, yaşıyor (Binominal) öldü, etkili etkisiz gibi. 2+ Kategorili sırasız olabilir: Çalışıyor, çalışmıyor, emekli (Multinominal) gibi 2+ Kategorili sıralı olabilir : Çok etkili orta derecede etkili (Ordinal) etkisiz gibi Her durumda lojistik regresyon analizi uygulanabilir.
Lojistik regresyonun uygulandığı durumlar: Bağımlı değişkenin kategori sayısına göre uygulanacak yöntem farklıdır. En çok uygulandığı durum bağımlı değişkenin iki kategorili (iyileşti iyileşmedi gibi) olduğu durumdur. İzleyen tabloyu inceleyelim:
Bağımlı Değişken Kategori Sayısı Bağımsız Değişken Sayısı Bağımsız Değişkenin Kategori Sayısı Uygulanacak Yöntem 2 1 2 2 1 2+ 2 2+ Çeşitli 2+ sırasız Tek/çok Çeşitli 2+ sıralı Tek/çok Çeşitli Binominal lojistik regresyon Binominal lojistik regresyon Çok değişkenli lojistik regresyon Multinominal lojistik regresyon Ordinal lojistik regresyon
Lojistik regresyon yönteminin hedefi, bağımlı değişkenin sonucunu tahmin edebilecek en sade modeli bulmaktır. Lojistik regresyon analizi sonucunda elde edilen modelin uygun olup olmadığı model ki kare testi ile, Her bir bağımsız değişkenin modelde varlığının anlamlı olup olmadığı ise Wald istatistiği ile test edilir.
TANIMLAR Lojistik Regresyon ile ilgili bazı terimleri tanımlayalım:
Odds, odds ratio ve lojit Bu terimler, lojistik regresyonda önemli temel terimlerdir. Odds Odds başarı ya da görülme olasılığının p, başarısızlık ya da görülmeme olasılığına 1 p oranıdır. Odds ratio (OR) İki odds un birbirine oranıdır. İki değişken arasındaki ilişkinin özet bir ölçüsüdür. İzleyen tabloyu inceleyelim:
Risk Hastalık Var Yok Toplam Var 35 16 51 Yok 25 61 86 Toplam 60 77 137 Riskli olanlarda hastalığa yakalanma odds u: 35/16= 2.18, Risksiz olanlarda hastalığa yakalanma odds u: 25/61= 0.41 dir.
Bu iki odds un birbirine oranı odds ratio yu verir: Odds ratio=2.18/ 0.41 = 5.3 Yorum: Risk altında olanların hastalığa yakalanma riski, risk altında olmayanlara göre 5.3 kat daha fazladır.
Lojit Odds ratio nun doğal logaritmasıdır. Odds ratio asimetriktir. Doğal logaritması alınarak simetrik hale dönüştürülür. Lojit katsayıları (lojit) doğrusal regresyon analizindeki β katsayısının karşılığıdır. Paket programlar β katsayısının standart hatasını, anlamlılık için Wald istatistiğini, odds ratio ve odds ratio nun güven aralığını vermektedir.
VARSAYIMLAR Lojistik regresyon yönteminde doğrusal regresyon analizindeki varsayımların hiçbirisi aranmaz. Bu nedenle araştırıcılara önemli esneklik sağlamaktadır ve daha fazla tercih edilen bir yöntem haline gelmiştir. Ancak, aşağıda belirtilen noktalar lojistik regresyon analizi kullanılarak yapılacak araştırmalarda dikkate alınmalıdır:
Uygun Tüm Bağımsız Değişkenler Modele Dahil Edilmelidir Bazı değişkenlerin modele dahil edilmemesi hata teriminin büyümesine ve modelin yetersizliğine neden olabilir. Uygun Olmayan Tüm Bağımsız Değişkenler Dışlanmalıdır Nedensel olarak uygun olmayan değişkenlerin modele dahil edilmesi; modeli komplike yapabilir, modelin yorumlanmasının zorlaştırabilir, bu değişkenlerin bağımlı değişken üzerinde pay sahibi imiş gibi yanlış izlenim vermesine neden olabilir.
Aynı birey üzerinde bir kez gözlem yapılmalı, tekrarlayan ölçümler olmamalıdır. Bağımsız Değişkenlerde Ölçüm Hatası Küçük Olmalıdır Ölçüm hataları küçük olmalı, kayıp (eksik) veri olmamalıdır. Hatalar, katsayıların tahmininde yanlılığa ve modelin yetersizliğine neden olur.
Bağımsız Değişkenler Arasında Çoklu Bağlantı (Multicollinearity) Olmamalıdır Bağımsız değişkenler birbirleriyle ilişkili olmamalıdır. Aşırı Değerler Olmamalıdır Doğrusal regresyonda olduğu gibi, aşırı değerler sonucu önemli derecede etkileyebilir.
Örneklem Büyüklüğü Yeterli Olmalıdır Az sayıda birey içeren örneklemde tahmin edilen değerlerin güvenilirliği azalır. Kural olarak, modeldeki her bağımsız değişken için en az 10 birey önerilmektedir.
Beklenen ve Gözlenen Varyanslar Arasındaki Fark Bağımlı değişkenin beklenen varyansı ile gözlenen varyansı arasında büyük bir fark varsa modelin yetersiz olduğu ve yeniden tanımlanması gerekir. Olası nedenler; ya örneklem rastgele yöntemle seçilmemiştir ya da araştırma düzeninde ciddi sorun vardır.
LOJİSTİK REGRESYON YÖNTEMLERİ İÇİN ÖRNEKLER
Örnek 1. Hastalığa yakalanma ile Yaş ile arasındaki ilişkiyi lojistik regresyonla inceleyelim: Bağımlı değişken : Hastalığa yakalanma: Bağımsız değişken: Yaş 1.1. Bağımlı ve bağımsız değişkenlerin her ikisi de iki kategorili olarak incelenmek istenirse aşağıdaki Tabloda verilen düzeni elde ederiz.
Risk (yaş) Hastalık Var Yok 50+ 21 6 27 <50 22 51 73 Toplam 43 57 100 Toplam Katsayı (β) SH β/sh YAŞ 2.094 0.529 3.96 Sabit ( ) 0.841 0.255 3.30
Regresyon eşitliği y= 0.841+2.094 yaş Odds Ratio = 8.1 Wald testi = 3.96 1 serbestlik derecesinde P<0.05 % 95 GA(OR)= e = 2.9 22.9 Yorum: Yukarıdaki bulgulara göre yaşı ileri olanların hastalığa yakalanma riski, yaşı ileri olmayanlara göre 8.1 kat daha fazladır. Bununla birlikte, %95 güven aralığı oldukça geniştir (2.9 22.9).
1.2. Bağımlı Değişken : İki Kategorili Bağımsız Değişken : İkiden Çok Kategorili Yukarıdaki örnekte yaşı risk faktörü olarak iki kategorili (<50 ve 50+) düzenlemiştik. Bu örnekte yaşı dört kategorili olarak inceleyelim:
Risk Grubu Kod Hastalık Var Yok Toplam Odds İlk gruba karşı odds Ratio 30 39 0 4 26 30 4/26=0.154 1 40 49 1 9 21 30 9/21=0.429 2.79 50 59 2 16 14 30 16/14=1.143 7.42 60+ 3 22 8 30 22/8=2.750 17.86 Toplam 51 69 120
Bu analizde, 30 39 yaş grubu risksiz ya da referans grubu olarak alınmış ve 0 kodu verilmiştir. Referans grubuna (30 39 yaş) göre; 40 49 yaş grubu 2.79 kat, 50 59 yaş grubu 7.42 kat, 60+ yaş grubu 17.86 kat daha risklidir.
Örnek 2. Demans geliştirmeyi önlemede ya da gidişatını iyileştirmede antihipertansif ilaçların etkisini çok değişkenli lojistik regresyon ile incelemek için bir çalışma planlayalım:
Bu amaçla üç grup oluşturulacaktır: Sistolik kan basıncı 140+ olup ilaç alanlar Sistolik kan basıncı 140+ olup ilaç almayanlar Sistolik kan basıncı normal olanlar Her hasta grubunda 25 erkek, 25 kadın olmak üzere 50 hasta bulunacaktır. Gruplardaki bireyler yaş, cinsiyet ve eğitim düzeyi yönünden benzer olacaktır.
Tüm bireylere başlangıçta MMSE (Mini Mental State Examination) testi uygulanacak ve 25+ puan alarak demans negatif (normal) bulunanlar araştırmaya dahil edilecektir. Tüm bireyler 5 yıl süreyle her yıl bir kez olmak üzere sürekli izlenecek ve her izlemde MMSE testi uygulanacak ve değerlendirilecektir. Çalışmada kullanılması düşünülen değişkenler şunlardır:
Bağımlı değişken:mmse puanı: 9: Ciddi düzeyde demans 10 20 : Orta düzeyde 21 24 : Hafif düzeyde 25+: Demans yok (Normal) Bağımsız değişkenler: Yaş: 65 69, 70 74 Cinsiyet: Erkek,Kadın Eğitim: Düşük, orta, yüksek Antihipertansif ilaç: Almıyor, Alıyor Hasta grubu: Sistolik kan basıncı 140+ olup ilaç alanlar Sistolik kan basıncı 140+ olup ilaç almayanlar Sistolik kan basıncı normal olanlar
BİR SORU: ARAŞTIRICILAR BİYOİSTATİSTİK UZMANINA NE ZAMAN BAŞVURMALIDIR? YANIT: İZLEYEN SLAYTA BAKINIZ
Araştırma yapıldıktan sonra Biyoistatistikçiye başvurmak; ölüye otopsi yapmasını istemekten başka bir şey değildir. Çünkü, Bu aşamada biyoistatistikçi sadece, araştırmanın neden öldüğünü söyleyebilir. R.A. Fisher