REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

REGRESYON ANALİZİ VE UYGULAMA Yrd. Doç. Dr. Hidayet Takcı htakci@cumhuriyet.edu.tr

Sunum içeriği Bu sunumda; Lojistik regresyon konu anlatımı Basit doğrusal regresyon problem çözümleme Excel yardımıyla çözümleme Tanagra yardımıyla çözümleme Konuları yer alacaktır.

LOGİSTİC REGRESSİON

Lojistik Regresyon Lojistik regresyon veya diğer adıyla Logit model, son yıllarda kullanımı artan ileri düzey bir regresyon yöntemidir. Doğrusal regresyon gibi amacı bir veya birden çok bağımsız değişken ile bir bağımlı değişken arasındaki ilişkiyi modellemektir. Lojistik regresyonun doğrusal regresyondan farkı ise bağımlı değişkeninin sürekli değil kategorik türde olmasıdır. LOJİSTİK 4 REGRESYON ANALİZİ

Lojistik Regresyon Lojistik modelin parametreleri kolaylıkla yorumlanabilir ve matematiksel olarak kullanımı kolay fonksiyonlar üretilebilir. Lojistik modele dayalı analizleri yapabilmeyi sağlayan çok sayıda bilgisayar paket programı (SPSS, SAS, Tanagra vb.) mevcuttur. LOJİSTİK 5 REGRESYON ANALİZİ

Lojistik Regresyon & Doğrusal Regresyon Doğrusal-doğrusal olmama durumu Doğrusal regresyon bağımsız değişken(ler) ile bağımlı değişken arasında doğrusal bir ilişkinin bilindiği durumlar için uygundur. Lojistik regresyon ise bağımlı değişken ile bağımsız değişken(ler) arasındaki ilişkinin doğrusal olmadığı durumlar için uygundur. Değer-olasılık durumu Doğrusal regresyon denkleminde hedef bağımlı değişkenin değerinin tahminidir. Lojistik regresyonda ise hedef bağımlı değişkenin olasılığıdır. LOJİSTİK 6 REGRESYON ANALİZİ

Lojistik regresyon türleri Regresyon modelinde kullanılacak değişken sayısına göre iki türü vardır: İkili lojistik regresyon (bir bağımsız giriş değişkeni ile bir bağımlı kategorik tipli çıkış değişkeni) Çoklu lojistik regresyon (birden çok sayıda bağımsız giriş değişkeni ile bir bağımlı kategorik tipli çıkış değişkeni)

İkili lojistik regresyon P ( Y ) ( b 0 b 1 X 1 i ) 1 e X1 için bir y değeri tahmin etmek yerine X1 değerinin bir sınıfa atanıp atanmayacağının olasılığı bulunur. Örneğin, kandaki CK değeri ile kalp krizi arasındaki ilişkiyi inceliyor olalım. X1 değişkeninin değeri 75 olsun. Pozitif sınıf kalp krizi durumunu ve negatif sınıf Normal durumu ifade etmek üzere; P(Y)>0,5 ise CK=75 iken kalp krizi olacaktır şeklinde sınıflama yapılır. P(Y)<0,5 ise CK=75 için Normal şeklinde sınıflama yapılır. 1 Slide 8

Çoklu lojistik regresyon P ( Y ) ( b 0 b 1 X 1 b 2 X 2... bnxn i ) 1 e 1 İkili lojistik regresyon gibidir. Farkı ise tek değişken yerine çok değişken ile çalışma yapılır. Sadece tek bir enzim değeri yerine daha fazla sayıda kan değeri üzerine çalışma yapıldığını ve bu değerler ile kalp krizi arasında ilişki bulmaya çalışıldığı düşünülebilir. Slide 9

Model değerlendirme log likelihood N Y i ln P Yi 1 Yi ln 1 PYi i 1 Log-benzerliği (Log-likelihood) istatistiği Çoklu regresyondaki kareler farkı toplamına karşılık gelir Model uydurulduktan sonra açıklanamayan ne kadar bilgi olduğunun bir göstergesidir. Zayıf uydurma (fitting) modelleri yüksek hata değerlerine neden olur.

Modeldeki değişimleri değerlendirme Farklı modelleri birbiriyle karşılaştırırken o modellerin log benzerliği bilgisi kullanılır. 2 2 LL( New) LL( Baseline) df k new k baseline

Tahmincilerin değerlendirilmesi: Wald istatistiği Wald b SE b Regresyondaki t-istatistiğine benzer. Null hipotezi test eder (b = 0 durumu). b büyükse sapma gösterir. Benzerlik oranı (Likelihood-ratio) istatistiği daha iyi görülür. Slide 12

Tahmincilerin değerlendirilmesi: Odds oranı veya Exp(b) Exp Odds after a unit change in the predictor ( b ) Odds before a unit change in the predictor Tahmincideki bir birimlik değişime neden olan değişimi belirtir. Odds oranı> 1: Tahminci, hedef çıktı olasılığı. Odds oranı< 1: Tahminci, hedef çıktı olasılığı. Slide 13

Çok terimli (Multinomial) lojistik regresyon İkiden daha fazla sayıda kategori olduğu durumda kullanılan lojistik regresyon türüdür. Temel olarak ikili lojistik regresyon gibi davranır. Analiz iki kategori arasındaki karşılaştırmaların bir dizisi olarak görülebilir. Örn. Eğer üç çıkış kategorisine sahipseniz (A, B ve C), o zaman analiz şunlar arasındaki karşılaştırmalar şeklinde gerçekleşir: Seçilen ilk kategori ile diğerlerinin karşılaştırılması (Örn. A ile B ve A ile C gibi), Veya son kategori ile (Örn. A ile C ve B ile C), Veya özel kategori eşleştirme (Örn. B ile A ve B ile C). Analizin önemli parçaları ve çıktı ikili lojistik regresyonda görülenden fazlasıdır.

REGRESYON ANALİZİ UYGULAMA

Açıklama Bu derste, bazı hayali değerlere regresyon analizi uygulayacak ve analiz sonuçlarını nasıl yorumlayacağımızı göstereceğiz. Not: Regresyon hesaplamaları genellikle bir yazılım paketi veya bir grafik hesaplayıcı tarafından gerçekleştirilir. Bununla birlikte, bu örnek için, hesaplamaları "manuel" olarak yapacağız, zira detaylar değerlidir.

Problem tanımı Geçen yıl rastgele seçilen beş öğrenci, istatistik derslerine başlamadan önce matematik yetenek testine tabi tutulmuştur. Konuyla ilgili üç soru şöyledir: Matematik yetenek puanlarına dayanarak, hangi doğrusal regresyon denklemi en iyi istatistik dersi performansını öngörür? Eğer öğrenci matematik yetenek testinden 80 puan alırsa istatistik dersi için kaç puan almasını bekleriz? Regresyon denklemi verilerle ne kadar uyum içerisindedir?

Regresyon denklemi Aşağıdaki tabloda, xi sütunu yetenek testinde alınan puanları, yi sütunu istatistik dersinden alınan puanları gösterir. Son iki satır, regresyon analizini yapmak için kullanacağımız toplamları ve ortalama puanı göstermektedir.

Regresyon denklemi Regresyon denklemi ŷ = b 0 + b 1 x formunda doğrusal bir eşitliktir. Bir regresyon analizini yönetebilmek için b 0 ve b 1 değerlerini çözmeye ihtiyacımız vardır. hesaplamalar aşağıdaki gibidir. Yapılan hesaplamaların ardından denklem ŷ = 26.768 + 0.644x olarak elde edilir.

Regresyon denklemi nasıl kullanılır? Regresyon denklemini elde ettikten sonra onu kullanmak kolaydır. Bağımsız değişken (x) için bir değer seçersiniz, hesaplamayı yerine getirirsiniz ve bağımlı değişken için tahmin değerini (ŷ) elde edersiniz. Örneğimizde, yetenek testinden 80 puan alanın istatistik dersinden alacağı not sorulduğuna göre; x değeri olarak 80 veririz ve ŷ değerini hesap ederiz. ŷ = 26.768 + 0.644x = 26.768 + 0.644 * 80 = 26.768 + 51.52 = 78.288 Tahmin yapılacak değer konusunda bağımsız değişken için uç değerler verilmemelidir. Verildiği takdirde extrapolasyon durumu meydana gelecektir. Bu örnek için x değerleri 60-95 aralığında olduğu için 60 dan küçük veya 95 den büyük değerlerin x için verilmesi uygun olmayacaktır.

Determinasyon katsayısını nasıl buluruz? Elde edilen regresyon denkleminin veriye ne kadar uygun olduğunu test etmenin bir yöntemi determinasyon katsayısı hesabıdır. Determinasyon katsayısı aşağıdaki şekilde hesap edilir: Denklemde N gözlem sayısı, σ x x değerlerinin σ y y değerlerinin standart sapmasıdır. Hesaplamalar bir sonraki sayfadadır >>>

Determinasyon katsayısı Elde edilen 0.48 değeri matematik yetenek testi ile istatistik sınavı arasında %48 lik bir ilişki olduğunu gösterir. Bu değer 1 e yaklaştıkça ilişki derecesi artacaktır.

Excel yardımıyla regresyon analizi Verileri aşağıda görüldüğü gibi bir excel sayfasına A2:A6 ve B2:B6 arasına gireriz. Daha sonra sırayla; KESMENOKTASI ve EĞİM İşlevleri yardımıyla b0 ve b1 değerlerini elde ederek y_pred=b0+b1x denklemine ulaşırız.

Excel yardımıyla regresyon analizi İlgili işlevler aşağıdaki gibi kullanılmış ve sonuçlar elde edilmiştir: =KESMENOKTASI(B2:B6;A2:A6) ile b0 değeri yani 26,78082 ve =EĞİM(B2:B6;A2:A6) ile b1 değeri yani 0,643836 elde edilmiştir. Hata oranı yok sayılarak; Y_pred= 26,78082+ 0,643836X denklemi ortaya çıkmıştır. X yerine 80 değeri konunca da; Y_pred= 26,78082+ 0,643836*(80)= 78,28767 elde edilmiştir. Tahmin değerini daha hızlı elde etmek için bir işlev daha vardır, TAHMİN işlevi, işlev şöyle kullanılarak da sonuç elde edilir. =TAHMİN(80;B2:B6;A2:A6)

Tanagra yardımıyla regresyon analizi Tanagra, oldukça küçük boyutlu fakat çok sayıda istatistik ve makine öğrenmesi tekniği içeren bir makine öğrenmesi aracıdır. Birçok makine öğrenmesi tekniğinin yer aldığı Tanagra da Regresyon analizi hem denetimli öğrenim (Supervised Learning) teknikleri sekmesinde hem de kendi başına bir ayrı sekmede yer alır. Yazılıma http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra adresinden erişim mümkündür.

Tanagra ile dış ortamdan veri alma

Alınan verilerin görünümü Veri alma ekranında; Verinin yolu Veriyi alma süresi Özellik adedi (2) Örnek adedi (5) Değişken adları ve Değişken kategorileri Görülmektedir.

Değişkenlerin seçimi Bunun için öncelikle; Feature selection sekmesinde yer alan Define Status işlevi seçilir ve Dataset Nesnesine bağlanır. Açılan pencerede değişkenlerden biri (matematik) Input olarak diğeri (istatistik) de Target olarak seçilir. Zaten en baştaki kurgumuz da Matematik Yetenek testindeki başarısına bakarak İstatistik sınavındaki sonucunu görmekti. Yani, bağımsız değişken Input olarak bağımlı Değişken Target olarak sunulur.

Regresyon analizi uygulanması Regression sekmesinde yer alan Multiple Linear Regression nesnesi seçilerek Define Status işlevine bağlanır ve çift tıklanarak sonuçlar elde edilir. Buna göre elde edilen değerler şöyledir. Daha önce hesap edildiği gibi determinasyon katsayısı burada da 0.48 olarak elde edilmiştir.

Tanagra ile elde edilen katsayılar Multiple linear regression çalıştırıldığında sonuçlar kısmında yer alan Coefficients (katsayılar) kısmındaki değer aşağıdaki gibi elde edilmiştir. Dolayısıyla, her üç yöntemle de aynı sonuca ulaşılmıştır.

Excel ile Nüfus Tahmini örneği Bir kasabanın son yedi yılına ait veriler aşağıdaki gibidir. Buna göre bundan 10 yıl sonra nüfusun kaç olması beklenebilir. yıllar nüfus 1 3000 2 3110 3 3120 4 3000 5 2900 6 2750 7 2500

Regresyon denkleminin elde edilmesi Verilerin A2:A8 (yıllar) ve B2:B8 (nüfus) arasında yer aldığı kabul edilerek; b0=kesmenoktasi(b2:b8;a2:a8)=3260 intercept değeri b1=eğim(b2:b8;a2:a8)=-87.14 yıl değişkeni için katsayı Olarak elde edilmiştir. B1 değerinin negatif işaretli olması yıllara göre nüfusun azaldığını bize söylemektedir. 10 yıl sonrası için hesap yapmak istediğimize göre aşağıdaki işlem yapılmalıdır. (10 yıl sonrası dediğine göre 7+10=17 değeriyle çalışacağız) Y_pred=3260+(-87.14)*17=1779 olacaktır.

Uygulama özeti Regresyon analizi ile bağımlı ve bağımsız değişken(ler) arasındaki ilişkiler ölçülebilir. Bu işlem farklı uygulamalar ile veya yeniden kodlama ile yapılabilir. Eğim değerinin pozitif olması bağımsız değişken ile bağımlı değişken arasında artan bir ilişkiyi, negatif olması ise azalan bir ilişkiyi ifade eder. Determinasyon katsayısı ise artı veya eksi yönlü olarak ilişkinin derecesini verir. Regresyon analiziyle ilgili konulardan birisi korelasyon olup korelasyon sadece iki değişken arasındaki ilişkiyi ölçer regresyon analizi ise hem daha fazla sayıda değişken arası ilişkiyi ölçer hem de tahmin yeteneği vardır.