REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

Benzer belgeler
İstatistik ve Olasılık

Korelasyon, Korelasyon Türleri ve Regresyon

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

Korelasyon ve Regresyon

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT

H.Ü. Bilgi ve Belge Yönetimi Bölümü BBY 208 Sosyal Bilimlerde Araştırma Yöntemleri II (Bahar 2012) SPSS Ders Notları II (19 Nisan 2012)

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

KORELASYON VE REGRESYON ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

Kategorik Veri Analizi

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

İçindekiler. Ön Söz... xiii

MAK 210 SAYISAL ANALİZ

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

İÇİNDEKİLER ÖNSÖZ... Örneklem Genişliğinin Elde edilmesi... 1

Parametrik Olmayan Testler. İşaret Testi-The Sign Test Mann-Whiney U Testi Wilcoxon Testi Kruskal-Wallis Testi

BİYOİSTATİSTİK Korelasyon Analizi Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Akdeniz Üniversitesi

Matris Cebiriyle Çoklu Regresyon Modeli

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005

PARAMETRİK TESTLER. Tek Örneklem t-testi. 200 öğrencinin matematik dersinden aldıkları notların ortalamasının 70 e eşit olup olmadığını test ediniz.

İÇİNDEKİLER ÖN SÖZ...

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

1: DENEYLERİN TASARIMI VE ANALİZİ...

2. BASİT DOĞRUSAL REGRESYON 12

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

19. BÖLÜM BİRBİRİYLE İLİŞKİLİ OLAN İKİ DEĞİŞKENDEN BİRİSİNDEKİ DEĞİŞİME GÖRE DİĞERİNİN ALACAĞI DEĞERİ YORDAMA (KESTİRME) UYGULAMA-I

KSUY 5117 KENTSEL SEYAHAT TALEBİ MODELLEMESİ. Doç.Dr. Darçın AKIN

GAZİ ÜNİVERSİTESİ, İ.İ.B.F, İSTATİSTİK VE OLASILIĞA GİRİŞ I, UYGULAMA SORULARI. Prof. Dr. Nezir KÖSE

ISTATISTIK VE OLASILIK SINAVI EKİM 2016 WEB SORULARI

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

TOBB Ekonomi ve Teknoloji Üniversitesi İKT351 Ekonometri I, Ara Sınavı

BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

MATE 211 BİYOİSTATİSTİK DÖNEM SONU SINAVI

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

2018 YILI BİRİNCİ SEVİYE AKTÜERLİK SINAVLARI İSTATİSTİK VE OLASILIK 29 NİSAN 2018

VERİ KÜMELERİNİ BETİMLEME

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

Prof. Dr. Özkan ÜNVER Prof. Dr. Hamza GAMGAM Doç. Dr. Bülent ALTUNKAYNAK SPSS UYGULAMALI TEMEL İSTATİSTİK YÖNTEMLER

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

KSUY 5117 KENTSEL SEYAHAT TALEBİ MODELLEMESİ. Doç.Dr. Darçın AKIN

İSTATİSTİK ÖRNEK SORULARI

BÖLÜM 12 STUDENT T DAĞILIMI

CHAPTER 6 SIMPLE LINEAR REGRESSION

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2

DENKLEM SİSTEMLERİ. ifadesinde a sayısı bilinmeyenin katsayısı ve b ise sabit sayıdır.

17 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

ANADOLU ÜNİVERSİTESİ REGRESYON KATSAYILARININ GÜVEN ARALIĞI = + REGRESYON KATSAYILARININ GÜVEN ARALIĞI

7.Sunum. Yrd. Doç. Dr. Sedat ŞEN 1

REGRESYON ANALĐZĐ. 1

LOJİSTİK REGRESYON ANALİZİ

Regresyon. Regresyon korelasyon ile yakından ilişkilidir

DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Çok Değişkenli İstatistik EKO428 Bahar Ön Koşul Dersin Dili

1

CEVAPLAR. n = n 1 + n 2 + n 3 + n 4 + n 5 + n 6 + n 7 = = 11 dir.

DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Deneysel Tasarım EKO60 Bahar Ön Koşul Dersin Dili. Zorunlu

MATH Ýþletme Ýstatistiði II

Hatalar Bilgisi ve İstatistik Ders Kodu: Kredi: 3 / ECTS: 5

SPSS UYGULAMALARI-II Dr. Seher Yalçın 1

Pazarlama Araştırması Grup Projeleri

İLERİ ARAŞTIRMA SORU HAVUZU

8.Hafta. Değişkenlik Ölçüleri. Öğr.Gör.Muhsin ÇELİK. Uygun değişkenlik ölçüsünü hesaplayıp yorumlayabilecek,

Excel dosyasından verileri aktarmak için Proc/Import/Read Text-Lotus-Excel menüsüne tıklanır.

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU

Ekonometri I VARSAYIMLARI

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

K-S Testi hipotezde ileri sürülen dağılımla örnek yığılmalı dağılım fonksiyonunun karşılaştırılması ile yapılır.

13. Olasılık Dağılımlar


Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

TOBB Ekonomi ve Teknoloji Üniversitesi İKT351 Ekonometri I, Dönem Sonu Sınavı

İÇİNDEKİLER BASİT EŞİTSİZLİKLER. HARFLİ İFADELER Harfli İfadeler ve Elemanları Eşitsizlik Sembolleri ve İşaretin Eşitsizlik İfadesi...

Sık kullanılan istatistiksel yöntemler ve yorumlama. Doç. Dr. Seval KUL Gaziantep Üniversitesi Tıp Fakültesi

KONULAR. 14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Nitel Tepki Bağlanım Modelleri

Kalitatif Veri. 1. Kalitatif random değişkenler sınıflanabilen yanıtlar vermektedir. Örnek: cinsiyet (Erkek, Kız)

Korelasyon ve Regresyon


Korelasyon ve Regresyon

Korelasyon katsayısı (r)

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın.

Normallik Varsayımı ve Ençok Olabilirlik Yöntemi

REGRESYON. 9.Sunum. Yrd. Doç. Dr. Sedat ŞEN

Kategorik Veri Analizi

10.Sunum. Yrd. Doç. Dr. Sedat ŞEN 1

Ölçme ve Değerlendirme

Varyans Analizi (ANOVA) Kruskal-Wallis H Testi. Doç. Dr. Ertuğrul ÇOLAK. Eskişehir Osmangazi Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

Appendix B: Olasılık ve Dağılım Teorisi

UYGULAMA 1 SPSS E GİRİŞ. SPSS; File, Edit, View, Data, Transform, Analyze, Graphs, Utilities, Window, Help adlı 10 adet program menüsü içermektedir.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

ZAMAN SERİLERİNDE REGRESYON ANALİZİ

ARALIK TAHMİNİ (INTERVAL ESTIMATION):

Transkript:

REGRESYON ANALİZİ VE UYGULAMA Yrd. Doç. Dr. Hidayet Takcı htakci@cumhuriyet.edu.tr

Sunum içeriği Bu sunumda; Lojistik regresyon konu anlatımı Basit doğrusal regresyon problem çözümleme Excel yardımıyla çözümleme Tanagra yardımıyla çözümleme Konuları yer alacaktır.

LOGİSTİC REGRESSİON

Lojistik Regresyon Lojistik regresyon veya diğer adıyla Logit model, son yıllarda kullanımı artan ileri düzey bir regresyon yöntemidir. Doğrusal regresyon gibi amacı bir veya birden çok bağımsız değişken ile bir bağımlı değişken arasındaki ilişkiyi modellemektir. Lojistik regresyonun doğrusal regresyondan farkı ise bağımlı değişkeninin sürekli değil kategorik türde olmasıdır. LOJİSTİK 4 REGRESYON ANALİZİ

Lojistik Regresyon Lojistik modelin parametreleri kolaylıkla yorumlanabilir ve matematiksel olarak kullanımı kolay fonksiyonlar üretilebilir. Lojistik modele dayalı analizleri yapabilmeyi sağlayan çok sayıda bilgisayar paket programı (SPSS, SAS, Tanagra vb.) mevcuttur. LOJİSTİK 5 REGRESYON ANALİZİ

Lojistik Regresyon & Doğrusal Regresyon Doğrusal-doğrusal olmama durumu Doğrusal regresyon bağımsız değişken(ler) ile bağımlı değişken arasında doğrusal bir ilişkinin bilindiği durumlar için uygundur. Lojistik regresyon ise bağımlı değişken ile bağımsız değişken(ler) arasındaki ilişkinin doğrusal olmadığı durumlar için uygundur. Değer-olasılık durumu Doğrusal regresyon denkleminde hedef bağımlı değişkenin değerinin tahminidir. Lojistik regresyonda ise hedef bağımlı değişkenin olasılığıdır. LOJİSTİK 6 REGRESYON ANALİZİ

Lojistik regresyon türleri Regresyon modelinde kullanılacak değişken sayısına göre iki türü vardır: İkili lojistik regresyon (bir bağımsız giriş değişkeni ile bir bağımlı kategorik tipli çıkış değişkeni) Çoklu lojistik regresyon (birden çok sayıda bağımsız giriş değişkeni ile bir bağımlı kategorik tipli çıkış değişkeni)

İkili lojistik regresyon P ( Y ) ( b 0 b 1 X 1 i ) 1 e X1 için bir y değeri tahmin etmek yerine X1 değerinin bir sınıfa atanıp atanmayacağının olasılığı bulunur. Örneğin, kandaki CK değeri ile kalp krizi arasındaki ilişkiyi inceliyor olalım. X1 değişkeninin değeri 75 olsun. Pozitif sınıf kalp krizi durumunu ve negatif sınıf Normal durumu ifade etmek üzere; P(Y)>0,5 ise CK=75 iken kalp krizi olacaktır şeklinde sınıflama yapılır. P(Y)<0,5 ise CK=75 için Normal şeklinde sınıflama yapılır. 1 Slide 8

Çoklu lojistik regresyon P ( Y ) ( b 0 b 1 X 1 b 2 X 2... bnxn i ) 1 e 1 İkili lojistik regresyon gibidir. Farkı ise tek değişken yerine çok değişken ile çalışma yapılır. Sadece tek bir enzim değeri yerine daha fazla sayıda kan değeri üzerine çalışma yapıldığını ve bu değerler ile kalp krizi arasında ilişki bulmaya çalışıldığı düşünülebilir. Slide 9

Model değerlendirme log likelihood N Y i ln P Yi 1 Yi ln 1 PYi i 1 Log-benzerliği (Log-likelihood) istatistiği Çoklu regresyondaki kareler farkı toplamına karşılık gelir Model uydurulduktan sonra açıklanamayan ne kadar bilgi olduğunun bir göstergesidir. Zayıf uydurma (fitting) modelleri yüksek hata değerlerine neden olur.

Modeldeki değişimleri değerlendirme Farklı modelleri birbiriyle karşılaştırırken o modellerin log benzerliği bilgisi kullanılır. 2 2 LL( New) LL( Baseline) df k new k baseline

Tahmincilerin değerlendirilmesi: Wald istatistiği Wald b SE b Regresyondaki t-istatistiğine benzer. Null hipotezi test eder (b = 0 durumu). b büyükse sapma gösterir. Benzerlik oranı (Likelihood-ratio) istatistiği daha iyi görülür. Slide 12

Tahmincilerin değerlendirilmesi: Odds oranı veya Exp(b) Exp Odds after a unit change in the predictor ( b ) Odds before a unit change in the predictor Tahmincideki bir birimlik değişime neden olan değişimi belirtir. Odds oranı> 1: Tahminci, hedef çıktı olasılığı. Odds oranı< 1: Tahminci, hedef çıktı olasılığı. Slide 13

Çok terimli (Multinomial) lojistik regresyon İkiden daha fazla sayıda kategori olduğu durumda kullanılan lojistik regresyon türüdür. Temel olarak ikili lojistik regresyon gibi davranır. Analiz iki kategori arasındaki karşılaştırmaların bir dizisi olarak görülebilir. Örn. Eğer üç çıkış kategorisine sahipseniz (A, B ve C), o zaman analiz şunlar arasındaki karşılaştırmalar şeklinde gerçekleşir: Seçilen ilk kategori ile diğerlerinin karşılaştırılması (Örn. A ile B ve A ile C gibi), Veya son kategori ile (Örn. A ile C ve B ile C), Veya özel kategori eşleştirme (Örn. B ile A ve B ile C). Analizin önemli parçaları ve çıktı ikili lojistik regresyonda görülenden fazlasıdır.

REGRESYON ANALİZİ UYGULAMA

Açıklama Bu derste, bazı hayali değerlere regresyon analizi uygulayacak ve analiz sonuçlarını nasıl yorumlayacağımızı göstereceğiz. Not: Regresyon hesaplamaları genellikle bir yazılım paketi veya bir grafik hesaplayıcı tarafından gerçekleştirilir. Bununla birlikte, bu örnek için, hesaplamaları "manuel" olarak yapacağız, zira detaylar değerlidir.

Problem tanımı Geçen yıl rastgele seçilen beş öğrenci, istatistik derslerine başlamadan önce matematik yetenek testine tabi tutulmuştur. Konuyla ilgili üç soru şöyledir: Matematik yetenek puanlarına dayanarak, hangi doğrusal regresyon denklemi en iyi istatistik dersi performansını öngörür? Eğer öğrenci matematik yetenek testinden 80 puan alırsa istatistik dersi için kaç puan almasını bekleriz? Regresyon denklemi verilerle ne kadar uyum içerisindedir?

Regresyon denklemi Aşağıdaki tabloda, xi sütunu yetenek testinde alınan puanları, yi sütunu istatistik dersinden alınan puanları gösterir. Son iki satır, regresyon analizini yapmak için kullanacağımız toplamları ve ortalama puanı göstermektedir.

Regresyon denklemi Regresyon denklemi ŷ = b 0 + b 1 x formunda doğrusal bir eşitliktir. Bir regresyon analizini yönetebilmek için b 0 ve b 1 değerlerini çözmeye ihtiyacımız vardır. hesaplamalar aşağıdaki gibidir. Yapılan hesaplamaların ardından denklem ŷ = 26.768 + 0.644x olarak elde edilir.

Regresyon denklemi nasıl kullanılır? Regresyon denklemini elde ettikten sonra onu kullanmak kolaydır. Bağımsız değişken (x) için bir değer seçersiniz, hesaplamayı yerine getirirsiniz ve bağımlı değişken için tahmin değerini (ŷ) elde edersiniz. Örneğimizde, yetenek testinden 80 puan alanın istatistik dersinden alacağı not sorulduğuna göre; x değeri olarak 80 veririz ve ŷ değerini hesap ederiz. ŷ = 26.768 + 0.644x = 26.768 + 0.644 * 80 = 26.768 + 51.52 = 78.288 Tahmin yapılacak değer konusunda bağımsız değişken için uç değerler verilmemelidir. Verildiği takdirde extrapolasyon durumu meydana gelecektir. Bu örnek için x değerleri 60-95 aralığında olduğu için 60 dan küçük veya 95 den büyük değerlerin x için verilmesi uygun olmayacaktır.

Determinasyon katsayısını nasıl buluruz? Elde edilen regresyon denkleminin veriye ne kadar uygun olduğunu test etmenin bir yöntemi determinasyon katsayısı hesabıdır. Determinasyon katsayısı aşağıdaki şekilde hesap edilir: Denklemde N gözlem sayısı, σ x x değerlerinin σ y y değerlerinin standart sapmasıdır. Hesaplamalar bir sonraki sayfadadır >>>

Determinasyon katsayısı Elde edilen 0.48 değeri matematik yetenek testi ile istatistik sınavı arasında %48 lik bir ilişki olduğunu gösterir. Bu değer 1 e yaklaştıkça ilişki derecesi artacaktır.

Excel yardımıyla regresyon analizi Verileri aşağıda görüldüğü gibi bir excel sayfasına A2:A6 ve B2:B6 arasına gireriz. Daha sonra sırayla; KESMENOKTASI ve EĞİM İşlevleri yardımıyla b0 ve b1 değerlerini elde ederek y_pred=b0+b1x denklemine ulaşırız.

Excel yardımıyla regresyon analizi İlgili işlevler aşağıdaki gibi kullanılmış ve sonuçlar elde edilmiştir: =KESMENOKTASI(B2:B6;A2:A6) ile b0 değeri yani 26,78082 ve =EĞİM(B2:B6;A2:A6) ile b1 değeri yani 0,643836 elde edilmiştir. Hata oranı yok sayılarak; Y_pred= 26,78082+ 0,643836X denklemi ortaya çıkmıştır. X yerine 80 değeri konunca da; Y_pred= 26,78082+ 0,643836*(80)= 78,28767 elde edilmiştir. Tahmin değerini daha hızlı elde etmek için bir işlev daha vardır, TAHMİN işlevi, işlev şöyle kullanılarak da sonuç elde edilir. =TAHMİN(80;B2:B6;A2:A6)

Tanagra yardımıyla regresyon analizi Tanagra, oldukça küçük boyutlu fakat çok sayıda istatistik ve makine öğrenmesi tekniği içeren bir makine öğrenmesi aracıdır. Birçok makine öğrenmesi tekniğinin yer aldığı Tanagra da Regresyon analizi hem denetimli öğrenim (Supervised Learning) teknikleri sekmesinde hem de kendi başına bir ayrı sekmede yer alır. Yazılıma http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra adresinden erişim mümkündür.

Tanagra ile dış ortamdan veri alma

Alınan verilerin görünümü Veri alma ekranında; Verinin yolu Veriyi alma süresi Özellik adedi (2) Örnek adedi (5) Değişken adları ve Değişken kategorileri Görülmektedir.

Değişkenlerin seçimi Bunun için öncelikle; Feature selection sekmesinde yer alan Define Status işlevi seçilir ve Dataset Nesnesine bağlanır. Açılan pencerede değişkenlerden biri (matematik) Input olarak diğeri (istatistik) de Target olarak seçilir. Zaten en baştaki kurgumuz da Matematik Yetenek testindeki başarısına bakarak İstatistik sınavındaki sonucunu görmekti. Yani, bağımsız değişken Input olarak bağımlı Değişken Target olarak sunulur.

Regresyon analizi uygulanması Regression sekmesinde yer alan Multiple Linear Regression nesnesi seçilerek Define Status işlevine bağlanır ve çift tıklanarak sonuçlar elde edilir. Buna göre elde edilen değerler şöyledir. Daha önce hesap edildiği gibi determinasyon katsayısı burada da 0.48 olarak elde edilmiştir.

Tanagra ile elde edilen katsayılar Multiple linear regression çalıştırıldığında sonuçlar kısmında yer alan Coefficients (katsayılar) kısmındaki değer aşağıdaki gibi elde edilmiştir. Dolayısıyla, her üç yöntemle de aynı sonuca ulaşılmıştır.

Excel ile Nüfus Tahmini örneği Bir kasabanın son yedi yılına ait veriler aşağıdaki gibidir. Buna göre bundan 10 yıl sonra nüfusun kaç olması beklenebilir. yıllar nüfus 1 3000 2 3110 3 3120 4 3000 5 2900 6 2750 7 2500

Regresyon denkleminin elde edilmesi Verilerin A2:A8 (yıllar) ve B2:B8 (nüfus) arasında yer aldığı kabul edilerek; b0=kesmenoktasi(b2:b8;a2:a8)=3260 intercept değeri b1=eğim(b2:b8;a2:a8)=-87.14 yıl değişkeni için katsayı Olarak elde edilmiştir. B1 değerinin negatif işaretli olması yıllara göre nüfusun azaldığını bize söylemektedir. 10 yıl sonrası için hesap yapmak istediğimize göre aşağıdaki işlem yapılmalıdır. (10 yıl sonrası dediğine göre 7+10=17 değeriyle çalışacağız) Y_pred=3260+(-87.14)*17=1779 olacaktır.

Uygulama özeti Regresyon analizi ile bağımlı ve bağımsız değişken(ler) arasındaki ilişkiler ölçülebilir. Bu işlem farklı uygulamalar ile veya yeniden kodlama ile yapılabilir. Eğim değerinin pozitif olması bağımsız değişken ile bağımlı değişken arasında artan bir ilişkiyi, negatif olması ise azalan bir ilişkiyi ifade eder. Determinasyon katsayısı ise artı veya eksi yönlü olarak ilişkinin derecesini verir. Regresyon analiziyle ilgili konulardan birisi korelasyon olup korelasyon sadece iki değişken arasındaki ilişkiyi ölçer regresyon analizi ise hem daha fazla sayıda değişken arası ilişkiyi ölçer hem de tahmin yeteneği vardır.