LOJİSTİK REGRESYON ANALİZİ



Benzer belgeler
Korelasyon, Korelasyon Türleri ve Regresyon

KORELASYON VE REGRESYON ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

Sık kullanılan istatistiksel yöntemler ve yorumlama. Doç. Dr. Seval KUL Gaziantep Üniversitesi Tıp Fakültesi

UYGUN HİPOTEZ TESTİNİN SEÇİMİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

İLERİ BİYOİSTATİSTİK KURSU

İki Ortalama Arasındaki Farkın Önemlilik Testi (Student s t Test) Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

İÇİNDEKİLER ÖN SÖZ...

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

BİYOİSTATİSTİK Korelasyon Analizi Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

Koşullu Öngörümleme. Bu nedenle koşullu öngörümleme gerçekleştirilmelidir.

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

İstatistik ve Olasılık

İÇİNDEKİLER ÖNSÖZ... Örneklem Genişliğinin Elde edilmesi... 1

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

1. FARKLILIKLARIN TESPİTİNE YÖNELİK HİPOTEZ TESTLERİ

İSTATİSTİK 1. Ankara Üniversitesi Eğitim Bilimleri Fakültesi Ölçme ve Değerlendirme Anabilim Dalı. Yrd. Doç. Dr. C. Deha DOĞAN

K BAĞIMSIZ ÖRNEKLEM HİPOTEZ TESTLERİ

ÖĞRENCİNİN ADI SOYADI:. NO:

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

BİYOİSTATİSTİK. Uygulama 4. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

IİSTATIİSTIİK. Mustafa Sezer PEHLI VAN

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

TRAFĠK KAZA ĠSTATĠSTĠKLERĠNE ANALĠTĠK BĠR BAKIġ. Prof.Dr.Tülay Saraçbaşı Hacettepe Üniversitesi İstatistik Bölümü, Ankara. Özet

Varyans Analizi (ANOVA) Kruskal-Wallis H Testi. Doç. Dr. Ertuğrul ÇOLAK. Eskişehir Osmangazi Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

Su Ürünlerinde Temel İstatistik. Ders 2: Tanımlar

YATIRIM. Ders 7: CAPM ve APT. Bölüm 2: Uygulamalar ve Sınamalar

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

2. BASİT DOĞRUSAL REGRESYON 12

BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın.

Matris Cebiriyle Çoklu Regresyon Modeli

Değişken Türleri, Tanımlayıcı İstatistikler ve Normal Dağılım. Dr. Deniz Özel Erkan

Ekonometri I VARSAYIMLARI

İSTATİSTİK-II. Korelasyon ve Regresyon

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

YARI LOGARİTMİK MODELLERDE KUKLA DECİşKENLERİN KA TSA YıLARıNIN YORUMU

ISTATISTIK VE OLASILIK SINAVI EKİM 2016 WEB SORULARI

Projede istatistik analiz planı

BİLİMSEL ARAŞTIRMA YÖNTEMLERİ. Bazı Temel Kavramlar

Kategorik Veri Analizi

Parametrik Olmayan İstatistiksel Yöntemler IST

İSTATİSTİKTE TEMEL KAVRAMLAR

Tekrarlı Ölçümler ANOVA

Yazılım Hata Kestirimi İçin Veri Analizi Yöntemlerinin Kullanılması

PARAMETRİK TESTLER. Tek Örneklem t-testi. 200 öğrencinin matematik dersinden aldıkları notların ortalamasının 70 e eşit olup olmadığını test ediniz.

ÜSTEL DÜZLEŞTİRME YÖNTEMİ

REGRESYON ANALĐZĐ. 1

İstatistik, genel olarak, rassal bir olayı (ya da deneyi) matematiksel olarak modellemek ve bu model yardımıyla, anakütlenin bilinmeyen karakteristik

NORMAL DAĞILIM VE ÖNEMLİLİK TESTLERİ İLE İLGİLİ PROBLEMLER

TOBB Ekonomi ve Teknoloji Üniversitesi İKT352 Ekonometri II, Dönem Sonu Sınavı

Ch. 12: Zaman Serisi Regresyonlarında Ardışık Bağıntı (Serial Correlation) ve Değişen Varyans

Non-Parametrik İstatistiksel Yöntemler

Ortalamaların karşılaştırılması

Risk Yönetimi ve İşletmelerde Uygulanabilirliği. Demet BARLİN HARMANKAYA 11 Aralık 2013

OLASILIK TEORİSİ VE İSTATİSTİK

İçindekiler. Ön Söz... xiii

1

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT

TOBB Ekonomi ve Teknoloji Üniversitesi İKT351 Ekonometri I, Ara Sınavı

Akdeniz Üniversitesi

İLERİ ARAŞTIRMA SORU HAVUZU

Yapılan alan araştırması sonucunda aşağıdaki sonuçlar elde edilmiştir. ( ) ( ) ( ) ( )


Frekans. Hemoglobin Düzeyi

Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

Basit ve Çoklu Doğrusal Regresyon

İÇİNDEKİLER. Birinci Bölüm UYGULAMA VERİLERİ

TANIMLAYICI İSTATİSTİKLER

Prof. Dr. Özkan ÜNVER Prof. Dr. Hamza GAMGAM Doç. Dr. Bülent ALTUNKAYNAK SPSS UYGULAMALI TEMEL İSTATİSTİK YÖNTEMLER

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Nokta ve Aralık Tahmini Merkezi Limit Teoremi Örneklem Dağılımı Hipotez Testlerine Giriş

istatistik El 10 1_ ve 2_ sorular a Ş3 gldakl bilgilere göre Al 4 Bl 6 cı 7 Dl 8 Al 5 B) 12 CL 27 D) 28 E) 35 2Q 10 BS 4200-A

BİYOİSTATİSTİK Uygulama 7 Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

BİYOİSTATİSTİK. Ödev Çözümleri. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

BİYOİSTATİSTİK. Uygulama 6. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Üretim Süreci: Girdi İşlem Ürün (Sonuç) Araştırma Süreci: Hangi alanda olursa olsun araştırma bir BİLGİ ye ulaşma sürecidir.

Hipotez. Hipotez Testleri. Y. Doç. Dr. İbrahim Turan Nisan 2011

Yrd. Doç. Dr. Neşet Demirci, Balıkesir Üniversitesi NEF Fizik Eğitimi. Parametrik Olmayan Testler. Ki-kare (Chi-Square) Testi

TOBB Ekonomi ve Teknoloji Üniversitesi İKT351 Ekonometri I, Dönem Sonu Sınavı

Regresyon. Regresyon korelasyon ile yakından ilişkilidir

OLASILIK ve KURAMSAL DAĞILIMLAR

Korelasyon ve Regresyon

1.58 arasındaki her bir değeri alabileceği için sürekli bir

TABLO ve GRAFİKLER. Epidemiyoloji Konferansları Serisi Prof. Dr. Bahar GÜÇİZ DOĞAN, HÜTF Halk Sağlığı AD.

Deneysel Araştırmalarda Biyoistatistik. Prof. Dr. İsmet DOĞAN AFYON KOCATEPE ÜNİVERSİTESİ. Biyoistatistik ve Tıbbi Bilişim Anabilim Dalı

Adım Adım SPSS. 1- Data Girişi ve Düzenlemesi 2- Hızlı Menü. Y. Doç. Dr. İbrahim Turan Nisan 2011

rasgele değişkeninin olasılık yoğunluk fonksiyonu,

T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ LOJİSTİK REGRESYON VE BANKACILIK VERİLERİ ÜZERİNE BİR UYGULAMA ELMİRA KOCABAŞ

T TESTİ: ORTALAMALAR ARASI FARKLARIN TEST EDİLMESİ. Yrd. Doç. Dr. C. Deha DOĞAN

Transkript:

LOJİSTİK REGRESYON ANALİZİ

Lojistik Regresyon Analizini daha kolay izleyebilmek için bazı terimleri tanımlayalım: 1. Değişken (incelenen özellik): Bireyden bireye farklı değerler alabilen özellik, fenomen ya da olay 2. Değişkenlerin Ölçüm biçimi: Ölçüm biçimi yönünden değişkenler iki gruba ayrılır: Nitel (nitelik,kategorik) değişkenler Sayısal değişkenler

Nitel değişkenler Ölçülemez, sadece nitelendirilebilir. Örneğin; Cinsiyet : Erkek kadın Hast.sonucu: İyileşti iyileşmedi, Eğitim : İlk orta lise yüksek gibi. Sayısal değişkenler: 1. Kesikli sayısal 2. Sürekli sayısal olarak iki gruba ayrılır.

Kesikli sayısal değişkenler: Belirli bir aralıktaki tam sayıları (10, 74, 187 gibi) alabilen değişkendir: Nabız sayısı, Ölen sayısı, Çocuk sayısı gibi. Sürekli sayısal değişkenler: Ölçümle belirtilen ve bir aralıkta bütün desimal değerleri (12.8, 140.6, 60.7 gibi) alabilen değişkendir. Kan basıncı ölçümü, Biyokimyasal ölçümler, Boy uzunluğu, ağırlık, yaş gibi.

3. Bağımlı değişken: Diğer değişkenler tarafından etkilenen değişkendir. 4. Bağımsız değişken: Bağımlı değişkeni etkileyen değişkendir. Örnek: Bağımlı değişken : Hipertansiyon Bağımsız değişkenler : Yaş, cinsiyet, biyokimyasal ve diğer sosyal değişkenler

LOJİSTİK REGRESYON

Bilinen doğrusal regresyon analizinde bağımlı değişken ve bağımsız değişken(ler) sayısal (ölçümle belirtilen sürekli ya da kesikli sayısal) olarak belirtilir. Örneğin, yaş ile kan basıncı arasında bir ilişki aranacaksa; hem yaş, hem de kan basıncı sayısal olarak belirtilmelidir. Nitelik olarak belirtilemezler.

Bağımlı değişken nitelik olarak belirtilirse, bağımsız değişken ya da değişkenlerle arasındaki ilişki lojistik regresyon yöntemiyle aranır. İzleyen tabloda doğrusal ve lojistik regresyon yöntemleri karşılaştırılmıştır:

DEĞİŞKENLER BAĞIMLI BAĞIMSIZ DOĞRUSAL REGRESYON ANALİZİ SÜREKLİ SAYISAL KESİKLİ SAYISAL SÜREKLİ SAYISAL KESİKLİ SAYISAL LOJİSTİK REGRESYON ANALİZİ NİTELİK SÜREKLİ SAYISAL KESİKLİ SAYISAL NİTELİK (Her bağımsız değişken başka bir ölçüm biçimine de sahip olabilir)

Nitelik bağımlı değişken: 2 Kategorili olabilir : İyileşti iyileşmedi, yaşıyor (Binominal) öldü, etkili etkisiz gibi. 2+ Kategorili sırasız olabilir: Çalışıyor, çalışmıyor, emekli (Multinominal) gibi 2+ Kategorili sıralı olabilir : Çok etkili orta derecede etkili (Ordinal) etkisiz gibi Her durumda lojistik regresyon analizi uygulanabilir.

Lojistik regresyonun uygulandığı durumlar: Bağımlı değişkenin kategori sayısına göre uygulanacak yöntem farklıdır. En çok uygulandığı durum bağımlı değişkenin iki kategorili (iyileşti iyileşmedi gibi) olduğu durumdur. İzleyen tabloyu inceleyelim:

Bağımlı Değişken Kategori Sayısı Bağımsız Değişken Sayısı Bağımsız Değişkenin Kategori Sayısı Uygulanacak Yöntem 2 1 2 2 1 2+ 2 2+ Çeşitli 2+ sırasız Tek/çok Çeşitli 2+ sıralı Tek/çok Çeşitli Binominal lojistik regresyon Binominal lojistik regresyon Çok değişkenli lojistik regresyon Multinominal lojistik regresyon Ordinal lojistik regresyon

Lojistik regresyon yönteminin hedefi, bağımlı değişkenin sonucunu tahmin edebilecek en sade modeli bulmaktır. Lojistik regresyon analizi sonucunda elde edilen modelin uygun olup olmadığı model ki kare testi ile, Her bir bağımsız değişkenin modelde varlığının anlamlı olup olmadığı ise Wald istatistiği ile test edilir.

TANIMLAR Lojistik Regresyon ile ilgili bazı terimleri tanımlayalım:

Odds, odds ratio ve lojit Bu terimler, lojistik regresyonda önemli temel terimlerdir. Odds Odds başarı ya da görülme olasılığının p, başarısızlık ya da görülmeme olasılığına 1 p oranıdır. Odds ratio (OR) İki odds un birbirine oranıdır. İki değişken arasındaki ilişkinin özet bir ölçüsüdür. İzleyen tabloyu inceleyelim:

Risk Hastalık Var Yok Toplam Var 35 16 51 Yok 25 61 86 Toplam 60 77 137 Riskli olanlarda hastalığa yakalanma odds u: 35/16= 2.18, Risksiz olanlarda hastalığa yakalanma odds u: 25/61= 0.41 dir.

Bu iki odds un birbirine oranı odds ratio yu verir: Odds ratio=2.18/ 0.41 = 5.3 Yorum: Risk altında olanların hastalığa yakalanma riski, risk altında olmayanlara göre 5.3 kat daha fazladır.

Lojit Odds ratio nun doğal logaritmasıdır. Odds ratio asimetriktir. Doğal logaritması alınarak simetrik hale dönüştürülür. Lojit katsayıları (lojit) doğrusal regresyon analizindeki β katsayısının karşılığıdır. Paket programlar β katsayısının standart hatasını, anlamlılık için Wald istatistiğini, odds ratio ve odds ratio nun güven aralığını vermektedir.

VARSAYIMLAR Lojistik regresyon yönteminde doğrusal regresyon analizindeki varsayımların hiçbirisi aranmaz. Bu nedenle araştırıcılara önemli esneklik sağlamaktadır ve daha fazla tercih edilen bir yöntem haline gelmiştir. Ancak, aşağıda belirtilen noktalar lojistik regresyon analizi kullanılarak yapılacak araştırmalarda dikkate alınmalıdır:

Uygun Tüm Bağımsız Değişkenler Modele Dahil Edilmelidir Bazı değişkenlerin modele dahil edilmemesi hata teriminin büyümesine ve modelin yetersizliğine neden olabilir. Uygun Olmayan Tüm Bağımsız Değişkenler Dışlanmalıdır Nedensel olarak uygun olmayan değişkenlerin modele dahil edilmesi; modeli komplike yapabilir, modelin yorumlanmasının zorlaştırabilir, bu değişkenlerin bağımlı değişken üzerinde pay sahibi imiş gibi yanlış izlenim vermesine neden olabilir.

Aynı birey üzerinde bir kez gözlem yapılmalı, tekrarlayan ölçümler olmamalıdır. Bağımsız Değişkenlerde Ölçüm Hatası Küçük Olmalıdır Ölçüm hataları küçük olmalı, kayıp (eksik) veri olmamalıdır. Hatalar, katsayıların tahmininde yanlılığa ve modelin yetersizliğine neden olur.

Bağımsız Değişkenler Arasında Çoklu Bağlantı (Multicollinearity) Olmamalıdır Bağımsız değişkenler birbirleriyle ilişkili olmamalıdır. Aşırı Değerler Olmamalıdır Doğrusal regresyonda olduğu gibi, aşırı değerler sonucu önemli derecede etkileyebilir.

Örneklem Büyüklüğü Yeterli Olmalıdır Az sayıda birey içeren örneklemde tahmin edilen değerlerin güvenilirliği azalır. Kural olarak, modeldeki her bağımsız değişken için en az 10 birey önerilmektedir.

Beklenen ve Gözlenen Varyanslar Arasındaki Fark Bağımlı değişkenin beklenen varyansı ile gözlenen varyansı arasında büyük bir fark varsa modelin yetersiz olduğu ve yeniden tanımlanması gerekir. Olası nedenler; ya örneklem rastgele yöntemle seçilmemiştir ya da araştırma düzeninde ciddi sorun vardır.

LOJİSTİK REGRESYON YÖNTEMLERİ İÇİN ÖRNEKLER

Örnek 1. Hastalığa yakalanma ile Yaş ile arasındaki ilişkiyi lojistik regresyonla inceleyelim: Bağımlı değişken : Hastalığa yakalanma: Bağımsız değişken: Yaş 1.1. Bağımlı ve bağımsız değişkenlerin her ikisi de iki kategorili olarak incelenmek istenirse aşağıdaki Tabloda verilen düzeni elde ederiz.

Risk (yaş) Hastalık Var Yok 50+ 21 6 27 <50 22 51 73 Toplam 43 57 100 Toplam Katsayı (β) SH β/sh YAŞ 2.094 0.529 3.96 Sabit ( ) 0.841 0.255 3.30

Regresyon eşitliği y= 0.841+2.094 yaş Odds Ratio = 8.1 Wald testi = 3.96 1 serbestlik derecesinde P<0.05 % 95 GA(OR)= e = 2.9 22.9 Yorum: Yukarıdaki bulgulara göre yaşı ileri olanların hastalığa yakalanma riski, yaşı ileri olmayanlara göre 8.1 kat daha fazladır. Bununla birlikte, %95 güven aralığı oldukça geniştir (2.9 22.9).

1.2. Bağımlı Değişken : İki Kategorili Bağımsız Değişken : İkiden Çok Kategorili Yukarıdaki örnekte yaşı risk faktörü olarak iki kategorili (<50 ve 50+) düzenlemiştik. Bu örnekte yaşı dört kategorili olarak inceleyelim:

Risk Grubu Kod Hastalık Var Yok Toplam Odds İlk gruba karşı odds Ratio 30 39 0 4 26 30 4/26=0.154 1 40 49 1 9 21 30 9/21=0.429 2.79 50 59 2 16 14 30 16/14=1.143 7.42 60+ 3 22 8 30 22/8=2.750 17.86 Toplam 51 69 120

Bu analizde, 30 39 yaş grubu risksiz ya da referans grubu olarak alınmış ve 0 kodu verilmiştir. Referans grubuna (30 39 yaş) göre; 40 49 yaş grubu 2.79 kat, 50 59 yaş grubu 7.42 kat, 60+ yaş grubu 17.86 kat daha risklidir.

Örnek 2. Demans geliştirmeyi önlemede ya da gidişatını iyileştirmede antihipertansif ilaçların etkisini çok değişkenli lojistik regresyon ile incelemek için bir çalışma planlayalım:

Bu amaçla üç grup oluşturulacaktır: Sistolik kan basıncı 140+ olup ilaç alanlar Sistolik kan basıncı 140+ olup ilaç almayanlar Sistolik kan basıncı normal olanlar Her hasta grubunda 25 erkek, 25 kadın olmak üzere 50 hasta bulunacaktır. Gruplardaki bireyler yaş, cinsiyet ve eğitim düzeyi yönünden benzer olacaktır.

Tüm bireylere başlangıçta MMSE (Mini Mental State Examination) testi uygulanacak ve 25+ puan alarak demans negatif (normal) bulunanlar araştırmaya dahil edilecektir. Tüm bireyler 5 yıl süreyle her yıl bir kez olmak üzere sürekli izlenecek ve her izlemde MMSE testi uygulanacak ve değerlendirilecektir. Çalışmada kullanılması düşünülen değişkenler şunlardır:

Bağımlı değişken:mmse puanı: 9: Ciddi düzeyde demans 10 20 : Orta düzeyde 21 24 : Hafif düzeyde 25+: Demans yok (Normal) Bağımsız değişkenler: Yaş: 65 69, 70 74 Cinsiyet: Erkek,Kadın Eğitim: Düşük, orta, yüksek Antihipertansif ilaç: Almıyor, Alıyor Hasta grubu: Sistolik kan basıncı 140+ olup ilaç alanlar Sistolik kan basıncı 140+ olup ilaç almayanlar Sistolik kan basıncı normal olanlar

BİR SORU: ARAŞTIRICILAR BİYOİSTATİSTİK UZMANINA NE ZAMAN BAŞVURMALIDIR? YANIT: İZLEYEN SLAYTA BAKINIZ

Araştırma yapıldıktan sonra Biyoistatistikçiye başvurmak; ölüye otopsi yapmasını istemekten başka bir şey değildir. Çünkü, Bu aşamada biyoistatistikçi sadece, araştırmanın neden öldüğünü söyleyebilir. R.A. Fisher