REGRESYON. 8.Sunum. Yrd. Doç. Dr. Sedat ŞEN

Benzer belgeler
8.Sunum. Yrd. Doç. Dr. Sedat ŞEN 1

REGRESYON. 10.Sunum. Dr. Sedat ŞEN

REGRESYON. 9.Sunum. Yrd. Doç. Dr. Sedat ŞEN

Regresyon. Regresyon korelasyon ile yakından ilişkilidir

Multivariate ANOVA (MANOVA) 11.Sunum

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

Basit ve Çoklu Doğrusal Regresyon

YILLARI ARASINDA GÜNEY CAROLINA DA OKUL İÇİ ŞİDDET İSTATİSKLERİ ANALİZİ (Bir Önceki Projeden Devam Edilecektir)

Pazarlama Araştırması Grup Projeleri

19. BÖLÜM BİRBİRİYLE İLİŞKİLİ OLAN İKİ DEĞİŞKENDEN BİRİSİNDEKİ DEĞİŞİME GÖRE DİĞERİNİN ALACAĞI DEĞERİ YORDAMA (KESTİRME) UYGULAMA-I

Yrd. Doç. Dr. Sedat ŞEN

Kategorik Veri Analizi

ALIŞTIRMA 2 GSYİH. Toplamsal Ayrıştırma Yöntemi

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

Yrd. Doç. Dr. Sedat ŞEN 2

Ch. 12: Zaman Serisi Regresyonlarında Ardışık Bağıntı (Serial Correlation) ve Değişen Varyans

Korelasyon ve Regresyon

İÇİNDEKİLER ÖNSÖZ... Örneklem Genişliğinin Elde edilmesi... 1

5.HAFTA. Yrd. Doç. Dr. Sedat ŞEN Harran Üniversitesi

Bağımsız Örneklemler İçin Tek Faktörlü ANOVA

Tekrarlı Ölçümler ANOVA

ÖNGÖRÜ TEKNĐKLERĐ ÖDEV 5 (KEY)

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

Ekonometri I VARSAYIMLARI

İÇİNDEKİLER 1. GİRİŞ...

İstatistik ve Olasılık

Korelasyon. Korelasyon. Merkezi eğilim ve değişim ölçüleri bir defada sadece bir değişkenin özelliklerini incelememize imkan tanır.

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

H.Ü. Bilgi ve Belge Yönetimi Bölümü BBY 208 Sosyal Bilimlerde Araştırma Yöntemleri II (Bahar 2012) SPSS Ders Notları II (19 Nisan 2012)

PARAMETRİK TESTLER. Tek Örneklem t-testi. 200 öğrencinin matematik dersinden aldıkları notların ortalamasının 70 e eşit olup olmadığını test ediniz.

SANAYİ İŞÇİLERİNİN DİNİ YÖNELİMLERİ VE ÇALIŞMA TUTUMLARI ARASINDAKİ İLİŞKİ - ÇORUM ÖRNEĞİ

BİYOİSTATİSTİK PARAMETRİK TESTLER

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

UYGULAMA 4 TANIMLAYICI İSTATİSTİK DEĞERLERİNİN HESAPLANMASI

REPEATED MEASURES ANOVA (Tekrarlı Ölçümler ANOVA )

10.Sunum. Yrd. Doç. Dr. Sedat ŞEN 1

CHAPTER 6 SIMPLE LINEAR REGRESSION

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Korelasyon, Korelasyon Türleri ve Regresyon

Çalıştığı kurumun prestij kaynağı olup olmaması KIZ 2,85 ERKEK 4,18

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

Regresyon Analizi. Yaşar Tonta H.Ü. BBY yunus.hacettepe.edu.tr/~tonta/courses/fall2008/sb5002/ SLIDE 1

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

7.Sunum. Yrd. Doç. Dr. Sedat ŞEN 1

Çoklu Regresyon Korelasyon Analizinde Varsayımdan Sapmalar ve Çimento Sektörü Üzerine Uygulama *

KONULAR. 14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Matris Cebiriyle Çoklu Regresyon Modeli

LOJİSTİK REGRESYON ANALİZİ

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın.

Tek Yönlü Varyans Analizi (ANOVA) Kruskal Wallis H Testi

Ch. 5: SEKK (OLS) nin Asimptotik Özellikleri

OLS Klasik Varsayımlar. Çoklu Regresyon. Çoklu Regresyon Modellemesi. Çoklu Regresyon Modeli. Multiple Regression

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

ZAMAN SERİLERİNDE REGRESYON ANALİZİ

7.Ders Bazı Ekonometrik Modeller. Đktisat (ekonomi) biliminin bir kavramı: gayrisafi milli hasıla.

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

8.Hafta. Değişkenlik Ölçüleri. Öğr.Gör.Muhsin ÇELİK. Uygun değişkenlik ölçüsünü hesaplayıp yorumlayabilecek,

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

3.SUNUM. Yrd. Doç. Dr. Sedat Şen

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

Statistical Package for the Social Sciences

OPTIMIZASYON Bir Değişkenli Fonksiyonların Maksimizasyonu...2

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT

ISTATISTIK VE OLASILIK SINAVI EKİM 2016 WEB SORULARI

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

İSTATİSTİK MHN3120 Malzeme Mühendisliği

Hipotezlerin test edilip onaylanması için çeşitli istatistiksel testler kullanılmaktadır. Fakat...

KORELASYON. 7.Sunum. Yrd. Doç. Dr. Sedat ŞEN

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005

Kazanımlar. Z puanları yerine T istatistiğini ne. zaman kullanacağını bilmek. t istatistiği ile hipotez test etmek

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır.

BİYOİSTATİSTİK Korelasyon Analizi Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Copyright 2004 Pearson Education, Inc. Slide 1

H.Ü. Bilgi ve Belge Yönetimi Bölümü BBY 208 Sosyal Bilimlerde Araştırma Yöntemleri II (Bahar 2012) SPSS DERS NOTLARI I 5 Nisan 2012

GÜVEN ARALIKLARI ve İSTATİSTİKSEL ANLAMLILIK. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

İki Ortalama Arasındaki Farkın Önemlilik Testi (Student s t Test) Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

Kategorik Veri Analizi

Temel İstatistik. Y.Doç.Dr. İbrahim Turan Mart Tanımlayıcı İstatistik. Dağılımları Tanımlayıcı Ölçüler Dağılış Ölçüleri

BİR ÖRNEKLEM İÇİN T TESTİ İLİŞKİSİZ ÖRNEKLEMLER İÇİN T-TESTİ

17 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

İLİŞKİSEL ARAŞTIRMA YÖNTEMİ. Özlem Kaya

VERİ KÜMELERİNİ BETİMLEME

Verilerin Özetlenmesinde Kullanılan Sayısal Yöntemler

TAŞINMAZ DEĞERLEMEDE İSTATİSTİKSEL ANALİZ

Appendix B: Olasılık ve Dağılım Teorisi

Yrd. Doç. Dr. Sedat ŞEN 2

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

TEMEL İSTATİSTİK BİLGİSİ. İstatistiksel verileri tasnif etme Verilerin grafiklerle ifade edilmesi Vasat ölçüleri Standart puanlar

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...


Korelasyon ve Regresyon

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

SIRADAN EN KÜÇÜK KARELER (OLS)

MATH Ýþletme Ýstatistiði II

TÜRKİYE DENGELEME GÜÇ PİYASASI TALİMAT MİKTARLARI ÜZERİNE İSTATİSTİKSEL BİR ÇALIŞMA 1. Gökhan Ceyhan Yazılım ARGE Uzmanı, EPİAŞ

Çan eğrisi biçimindeki simetrik dağılımdır.

Korelasyon ve Regresyon

TABLO I: Bağımlı değişken; Tüketim,- bağımsız değişkenler; gelir ve fiyat olmak üzere değişkenlere ait veriler verilmiştir.

Transkript:

REGRESYON 8.Sunum 1

Regresyon Bir önceki sunumda korelasyon kullanarak iki değişken arasındaki ilişkiyi tespit etmeye çalıştık. Bu sunumda iki değişken arasında ilişkiyi göstermenin yanında bir değişkeni kullanarak diğer değişken hakkında tahminlerde bulunacağız. Örneğin ders çalışma saati ile sınav puanı arasında pozitif bir ilişki olduğunu düşünelim. Bir sınava 5 saat çalışırsak kaç puan alabiliriz gibi bir soru sormak istersek bunun cevabını regresyon analizi ile bulabiliriz. Genel olarak regresyon tahmin etme (prediction) ya da açıklama (explanation) amacıyla kullanılır. 2

Regresyon Regresyon analizinde tahmin yapılırken bağımsız değişken (predictor variable) değerleri kullanılarak bağımlı değişken (outcome variable) hakkında tahminde bulunulur. Bu durumu şu eşitlikle gösterebiliriz: BAĞIMLI_DEĞİŞKEN_i = (MODEL) + HATA_i Buradaki model kısmı bağımsız değişken sayısına göre değişen doğrusal (düz bir çizgiyi gösteren ilişki içeren) bir modeldir. 3

Regresyon Doğrusal regresyon çizgisi sabit (intercept) ve eğim (slope) elemanlarına sahiptir. Sabit (b0) değeri çizginin y-aksisini kestiği başlangıç noktasını gösterirken eğim (b1) değeri de çizginin eğimini göstermektedir. b0 ve b1 değerleri regresyon katsayıları olarak bilinmektedir. Bağımlı değişkene Y, bağımsız değişkene de X dersek bir regresyon denklemini şu şekilde yazabiliriz: 4

Regresyon Çizgileri Regresyon model tahminindeki amaç bağımlı değişken ve tahmin değişkenleri arasındaki ilişkiyi en iyi temsil eden regresyon çizgisini bulmaktır. Aynı sabit farklı eğimler Farklı sabitler aynı eğimler 5

Regresyon Regresyon modelini kurarken her zaman bir bağımlı değişkenden ve bir ya da birçok bağımsız (tahmin değişkeni) değişkenden bahsedeceğiz. Eğer tahmin değişkenimiz bir tane ise bu regresyona basit doğrusal regresyon diyeceğiz. Eğer tahmin değişkenimiz birden fazla ise bu regresyona çoklu doğrusal regresyon diyeceğiz. 6

SPSS te Basit Regresyon Bir veri kullanılarak önce basit regresyon daha sonra da çoklu regresyon uygulaması gösterilecektir. Verideki değişkenlerden bir sınıftaki öğrencilere ait olup bir sonraki slaytta açıklanmıştır. 7

Veri Bu sunumda kullanılan verimizde bulunan değişkenler: NO İSİM CİNSİYET KİTAP YAŞ VİZE VİZE2 FİNAL CİNSİYETKOD DERS SAATİ DEVAMSIZLIK 8

Veri 9

SPSS te Regresyon İlk olarak bu verideki final sınavından alınan puanlar ile devamsızlık arasında basit regresyon analizi yapılacak. İkinci olarak final sınavı ile ders çalışma saati arasında basit regresyon analizi yapılacaktır. Son olarak da bu iki bağımsız değişkenin aynı anda modele girdiği ve final sınavını nasıl etkilediklerini gösteren çoklu regresyon analizi yapılacaktır. Bu analizlere geçmeden önce korelasyon kullanarak bu 3 değişken arası ilişkiye bir göz atalım. 10

Korelasyon Tablosu 11

Regresyon Analizi Regresyon analizi de diğer analizler gibi SPSS menülerinden Analyze altında yer almaktadır. 12

Analyze>Regressio n>linear alt menülerini tıkladığınızda karşınıza çıkan ekran yan taraftaki gibidir. Regresyon Analizi 13

Regresyon Analizi Bu ekranda dependent kısmına bağımlı değişkenimizi independent(s) kısmına da bağımsız değişkenlerimi zi eklememiz gerekiyor. 14

Regresyon Analizi Regresyon analizi genel olarak bir değişken üzerinde başka bir değişkenin etkisinin olup olmadığını araştırdığımız durumlarda tercih edilir. Burada bağımlı değişken bir tane iken onu etkileyen değişkenler (bağımsız değişkenler) birden fazla olabilir. Tek bağımsız içeren regresyon modeline basit doğrusal regresyon birden fazla bağımsız değişken içeren regresyon modeline de çoklu doğrusal regresyon adı verilir. 15

Eğer öğrencilerin final puanı üzerinde bazı değişkenlerin etkisini merak ediyorsak bağımlı değişken kısmına FİNAL değişkenini girmemiz gerekiyor. Regresyon Analizi 16

Basit Doğrusal Regresyon Bağımlı değişken olarak FİNAL değişkenini girdikten sonra bağımsız değişken olarak DERSSAATİ değişkenini girerek ders çalışma saatinin final notu üzerindeki etkisini yordayabiliriz. 17

Basit Doğrusal Regresyon-Sonuç Basit regresyon çıktısında regresyon katsayılarını içeren 3. Tablonun yanında R, R-kare ve düzeltilmiş R- kare değerlerinin olduğu 1. Tablo ve regresyon modelinin anlamlı bulunup bulunmadığını gösteren ANOVA tablosu (2.Tablo) bulunmaktadır. 18

Basit Doğrusal Regresyon-Sonuç R değeri DERSSAATİ ile FİNAL değişkeni arasındaki korelasyon değerini, R-kare ise bu korelasyon değerinin karesini göstermektedir..613 değerindeki R-kare bize FİNAL değişkeni içindeki varyasyonun (çeşitliliğin) %63.1 inin DERSSAATİ değişkenine atfedilebileceğini söylemektedir. 19

Basit Doğrusal Regresyon-Sonuç Basit regresyon çıktısındaki ANOVA tablosu bize regresyon modelimizin genel olarak anlamlı bulunup bulunmadığını gösterir. Burada F-değerine ve p-değerine (p<0.001) bakarak regresyon modelimizin anlamlı bulunduğunu söyleyebiliriz. Yani DERSSAATİ değişkeni FİNAL değişkeninin anlamlı bir tahmin edicisidir (predictor). ANOVA genel olarak modelin anlamlılığından bahsetse de her bir değişkenin anlamlılığından bahsetmez. Burada tek bir değişken olduğu için bunu söyleyebilsek de birden fazla değişkenin olduğu durumlarda her bir değişkenin anlamlı olup olmadığını öğrenmek için bir sonraki tabloya bakmamız gerekmektedir. 20

Basit Doğrusal Regresyon-Tablo Önceki slaytlarda bahsedildiği üzere bir regresyon modelinde bir sabit (b0) ve bağımsız değişken sayısı adedince b değeri (regresyon yükü) elde edilir. Coefficients adlı tabloda DERSSAATİ değişkenine ait regresyon yükü (4.069) ve standartlaştırılmış regresyon yükü (0.783) rapor edilmektedir. Modele girilen DERSSAATİ değişkeninin yanı sıra her modelde olduğu üzere sabit (constant) bir değer de rapor edilir. Bu modelde sabit değer 46.668 olarak rapor edilmiştir. YORUM: Burada her bir ders çalışma saatinin final notunu 4.069 puan artırdığını söyleyebiliriz. Hiç ders çalışmayan bir öğrencinin de finalden ortalama 46.668 alabileceği yorumu yapılabilir. 21

Basit Doğrusal Regresyon-Tablo YORUM: Bir regresyon modelinde sabit değişken bağımsız değişkeninlerin sıfır olduğu durumda bağımlı değişkenin alacağı değeri temsil etmektedir. Buradaki modelde hiç ders çalışmayan bir öğrencinin finalden 46.668 alabileceği yorumu yapılabilir. Bu tablodaki diğer önemli sayı da regresyon eğimine ait olan sayıdır. Bu eğim değeri için hem standartlaştırılmamış (b) hem de standartlaştırılmış (BETA) değerler sunulmaktadır. Genelde b değeri üzerinden yorum yapılabilir. Regresyon eğrisi bağımsız değişkenin 1 birim arttığında bağımlı değişkenin ne kadar değişeceğini gösteren değerdir. YORUM: Bu tabloda DERSSAATİ değişkenine ait b değerinin 4.069 çıktığı görülmektedir (pozitif değer). Her bir ders çalışma saatinin final notunu 4.069 22 puan artırdığını söyleyebiliriz. İki değer de anlamlı bulunmuştur (p<0.001)

Basit Doğrusal Regresyon-Tablo Bu tabloda Sig. değeri bağımsız değişkenin sıfırdan faklı bir değer alıp almadığını yani bağımlı değişken üzerinde etkisinin (artı ya da eksi yönde) anlamlı olup olmadığını gösterir. Bu tabloda iki değer de anlamlı bulunmuştur (p<0.001). Genelde sabit değerin anlamlılığı merak ettiğimiz bir durum değildir. Daha çok bağımsız değişkenden üretilen eğim değerinin anlamlı bulunup bulunmadığı önemlidir. YORUM: DERSSAATİ değişkeni FİNAL değişkenini anlamlı bir şekilde yordamaktadır. Bu durum genel ANOVA sonucu ile örtüşmekedir. 23

Regresyon Modeli Önceki tablodaki değerlere göre regresyon modelimiz aşağıdaki gibi yazılabilir. Bu model eşitliğini kullanarak tahmin/yordama yapabiliriz. Örneğin 4 saat çalışan bir öğrenci kaç puan alabilir gibi. 24

Basit Doğrusal Regresyon Yanda da FİNAL değişkeninin bağımlı değişken ve DEVAMSIZLIK değişkeninin bağımsız değişken olduğu bir basit regresyon analizi girişi görüyorsunuz. 25

Basit Doğrusal Regresyon-Sonuç DEVAMSIZLIK değişkeninin FİNAL değişkeni üzerindeki etkisini yan tarafta bulunan tabloların en altta yer alanında görebilirsiniz. 26

Basit Doğrusal Regresyon-Tablo Coefficients adlı tabloda DEVAMSIZLIK değişkenine ait regresyon yükü (-8,472) ve standart regresyon yükü (-,674) rapor edilmektedir. Modele girilen DEVAMSIZLIK değişkeninin yanı sıra her modelde olduğu üzere sabit (constant) bir değer de rapor edilir. Bu modelde sabit değer 99,458 olarak rapor edilmiştir. YORUM: Burada her bir devamsızlık haftasının final notunu 8,472 puan düşürdüğünü söyleyebiliriz. 27

Korelasyon ve Basit Regresyon İlişkisi 28

Çoklu Doğrusal Regresyon Yan tarafta olduğu gibi birden fazla değişkenin aynı anda bir bağımlı değişken üzerinde etkisini gözlemlemek istediğimiz durumlarda çoklu regresyon modelini kullanabiliriz. 29

Çoklu Doğrusal Regresyon Basit regresyonda olduğu gibi çoklu regresyonda da 3 tane tablo elde ederiz. En alttaki Coefficients isimli tabloda regresyon yükleri görülebilir. 30

Çoklu Doğrusal Regresyon Modelimizde 2 bağımsız değişken olduğu için 2 adet regresyon yükü ve bir sabit değer görebiliriz. 31

Çoklu Regresyon Modeli Eşitliği Önceki tabloda sunulan değerlere göre çoklu regresyon modeli aşağıdaki gibi yazılabilir: 32

Regresyon Metotları Araştırmacı birçok bağımsız değişkene sahip ise ve kompleks bir model kuracaksa hangi değişkenleri modele ekleyeceğine üç metot vasıtasıyla karar verebilir. Bu üç yöntem: Hiyerarşik, Forced entry ve Stepwise metotlarıdır. Genelde hangi değişkenlerin modele eklenmesi gerektiği literatüre ya da araştırmacının önceki araştırmalarına göre belirlenmelidir. Bazen istatsitiksel yöntemler de bu konuda yardımcı olabilmektedir. 33

Regresyon Metotları Hiyerarşik regresyon: Hangi değişkenlerin modele hangi sırayla eklenmesi gerektiğine araştırmacının (literatüre ya da önceki araştırmalarına göre) belirlediği analiz türüdür. Forced entry: Eldeki tüm değişkenlerin zorla modele eklendiği regresyon analizidir. Bunu yapmada da dayanak noktamız iyi bir alanyazın bilgisi olmalıdır. Stepwise regresyon: Hangi değişkenlerin hangi sırayla modele gireceğine matematiksel bir kritere bakarak karar verilir. Ya bir değişken eklenip sonra 2. ve 3. eklenerek ileri (forward) doğru yapılır ya da önce tüm değişkenler modele atılır ve birer birer eksiltilerek geriye doğru (backward) yapılır. Eklenen ya da çıkarılan değişkenlerin bağımlı değişken üzerinde anlamlılığına göre son modele karar verilir. Backward forward yöntemine göre daha çok önerilen bir yöntemdir. 34

SPSS te Regresyon Metotları 35

Regresyon Modelim Ne Kadar Doğru? Bir regresyon modeli oluşturduğumuzda bu modelin doğruluğu hakkında fikir edinmek isteriz. Bu durumda şu soruları sormakta ve cevap aramakta fayda vardır: Modelim toplanan veriye ne kadar uyum (fit) göstermektedir? Modelim verideki bazı değerlerden (uç değerler) etkilenmekte midir? Eldeki veriden elde edilen model diğer örneklemlere genellenebilir mi? 36

Regresyon Tanılayıcıları (Diagnostics) Uç değerler Artık değerler Etkili değerler Vasıtasıyla verideki sorunlu noktaları incelediğimiz istatistiklerin incelemesi 37

Uç Değerler ve Artık Değerler Uç değerler (Outliers): Verideki diğer değerlerden çok büyük farklılık gösteren değerlere denir. Artık değerler (Residuals): Verideki gerçek değerler ile model belirlendikten sonraki tahmin edilen değerlerin farkına artık değer denir. Regresyon modelindeki hata kısmını temsil eder. Eğer model iyi uyum göstermezse artık değerler büyük çıkacaktır. Artık değerlerin büyük çıkması uç değere sahip olduğumuzu da işaret eder. 38

Artık Değerler (Residuals) Artık değerler standartlaştırılmamış (unstandardized) ve standartlaştırılmış (standardized) şekilde hesaplanabilir. Standartlaştırılmamış artık değerler bağımlı değişkenle aynı birime sahiptir fakat hangi değer ve üzeri yüksek artık değerine (hataya) sahiptir söylemek mümkün değildir. Bu tarz bir tespit yapabilmek için standartlaştırılmış artık değerler ya da studentleştirilmiş (studentized) artık değer kullanılır. Standartlaştırılmış artık değerlerde gerçek değer ile tahmini değerlerin farkı onların standart sapma tahmini değerine bölünmekte iken studentleştirilmiş artık değerler her bir nokta için ayrı ayrı standart sapma tahmini değerine bölünerek elde edilir. 39

Standartlaştırılmış Artık Değerler Standartlaştırılmış Artık Değerlerin dağılımı 0 ortalama ve 1 standart sapma değerine sahip olduğu için problemli veri noktalarını da bu dağılıma göre belirleyebilir +-3.29 sınırı dışında kalan değerler genelde büyük artık değerleri olarak yorumlanır ve model uyumunu çok etkileyeceği söylenir. +-2.58 sınırı dışında kalan değerler genelde orta düzey artık değerleri olarak yorumlanır ve model uyumunu az da olsa olumsuz yönde etkileyeceği söylenir. +-2 (1.96) sınırı dışında kalan değerler genelde orta düzey artık değerleri olarak yorumlanır ve model uyumunu çok az da olsa olumsuz yönde etkileyeceği söylenir. Bu sınırı aşan artık değere sahip veri noktalarının gözden geçirilmesinde fayda vardır. 40

Etkili Noktalar (Influential) Verideki bir noktayı sildiğimizde regresyon modelimizin katsayıları çok fazla değişiyorsa bu noktalara Etkili noktalar denir. Bu etkili noktaları belirlemek için birçok istatistik önerilmiştir. Bunlar: Düzeltilmiş tahmin değeri (adjusted predicted value) DFFit Silinen artık değer (deleted residual) Studentleştirilmiş silinen artık değer (Studentized deleted residual) Cook s uzaklığı (Cook s distance) 41

Etkili Noktalar (Influential) Eğer bir veri noktasını çıkarıp regresyon analizimi tekrar yaparsak bu sefer elde edilen değerler ile gerçek değerler arasındaki farkı alıyorsak düzeltilmiş tahmin değeri hesaplıyoruz demektir. Düzeltilmiş tahmin değeri çıkarılan verinin regresyon modelini ne kadar etkilediğini gösterir. Orijinal tahmin değeri ile düzeltilmiş tahmin değeri arasındaki farka da DFFit denir. Düzeltilmiş tahmin değeri ile gerçek değer arasındaki farka da silinen artık değer denir. Eğer bu silinen artık değer kendi standart sapması ile bölünürse buna da studentleştirilmiş silinen artık değer denir. Cook s D değeri de bir veri noktasının tüm model üzerindeki genel etkisini göstermeye yarar. 42

Etkili Noktalar (Influential) Buraya kadarki değerlerin hepsi bağımsız değişkendeki etkili noktalar için hesaplanırken bağımlı değişkenin etkili noktalarını bulmak için de 0 ile 1 arasında değişen leverage (kaldıraç/baskı) değeri hesaplanabilir. Mahalanobis uzaklıkları (Mahalanobis distances) her bir veri noktasının tahmin edilen değişkenlerin ortalamasından uzeklığını göstermektedir. Etkili noktaları tespit etmek için büyük Mahalanobis değerlerine bakmamız gerekmektedir. Hangi değerlerin sıkıntılı olduğu örneklem büyüklüğü ve bağımsız değişken sayısına göre değişmektedir. 43

LEVERAGE: COOK s D: Diğer veri noktalarından çok büyük olan Cook s D değerleri sorunlu sayılır. DFFit üzeri değerler sorunlu DFBETA ile Standartlıştırılmış ve studentleştirilmiş artık değerler için 2 den büyük değerler sorunlu sayılmakta. COVRATIO 1+3k/N üzeri değerler sorunlu sayılmakta 44

Varsayımlar Homoscedasticity (eşvaryanslılık): her bir bağımsız değişken düzeyinde hataların varyansı sabit olmalı. Multicollinearity (coklu bağlantı; coklu doğrudaşlık): İki veya daha fazla bağımsız değişken arasında doğrusal bir ilişki bulunmamalıdır. variance inflation factor (VIF) değeri 10 ve üzerinde ise çoklu bağlantı problemi var demektir. Independent errors (Bağımsız hatalar): Herhangi iki veri noktası için artık değerlerin bağımlı/ilişkili (korelasyonlu) olmaması gerekir. 0 ile 4 arasında değişen Durbin Watson testi ile test edilebilir. 2 değeri korelasyonsuz olma durumunu gösterirken 2den büyük ve küçük değerler negatif ya da pozitif korelasyonu gösterir. 45

Varsayımlar Normal dağılıma sahip hata değerleri (Normally distributed errors): Modeldeki artık değerlerin rastgele ve normal dağılım gösterdiği varsayılır. Bağımsızlık (Independence): Bağımlı değişkenin her bir değerinin birbirinden bağımsız olduğu varsayılır. Doğrusallık (linearity): İlişkinin doğrusal olduğu varsayılır. Örneklem büyüklüğü bir varsayım olmamakla beraber bazı kaynaklar her bağımsız değişkenin en az 10 (ya da 15) veri noktasına sahip olması gerktiğini bazı kaynaklarda k bağımsız değişken sayısı olmak üzer minimum örneklem büyüklüğünün 50+8k adedince olması gerektiğini söylemektedir. 46

İstatistikler 47

Grafikler DEPENDNT (the outcome variable). *ZPRED (the standardized predicted values of the dependent variable based on the model). These values are standardized forms of the values predicted by the model. *ZRESID (the standardized residuals, or errors). These values are the standardized differences between the observed data and the values that the model predicts). *DRESID (the deleted residuals). See section 7.6.1.1 for details. *ADJPRED (the adjusted predicted values). See section 7.6.1.1 for details. *SRESID (the Studentized residual). See section 7.6.1.1 for details. *SDRESID (the Studentized deleted residual). This value is the deleted residual divided by its standard deviation. 48

Grafikler Grafiklerde ZRESID olanı y-aksisine *ZPRED olanı da x-aksisine ekleyerek elde edeceğimiz grafik rastgele hatalar ve eş-varyanslılık varsayımlarını kontrol etmemize yardımcı olacaktır. *SRESID (y-axis) ile *ZPRED (x-axis) arasında oluşturulan grafik de eş-varyanslılık ihlalini göstermek için kullanılabilir. 49

Grafikler 50

Save (Kaydet) Menüsü Save menüsü içerisinde artık değerleri ve regresyon tanılayıcı değerlerini kaydedebiliyoruz: pre_1: unstandardized predicted value. zpr_1: standardized predicted value. adj_1: adjusted predicted value. sep_1: standard error of predicted value. res_1: unstandardized residual. zre_1: standardized residual. sre_1: Studentized residual. dre_1: deleted residual. sdr_1: Studentized deleted residual. mah_1: Mahalanobis distance. coo_1: Cook s distance. lev_1: centred leverage value. sdb0_1: standardized DFBETA (intercept). sdb1_1: standardized DFBETA (predictor 1). sdb2_1: standardized DFBETA (predictor 2). sdf_1: standardized DFFIT. cov_1: covariance ratio. 51

Regresyon Çıktısı 52

Regresyon Çıktısı 1den küçük ve 3 ten büyük Durbin-watson değerleri ilişkili hata değerleri olduğunu gösterir. Bizim 1.969 değerimiz bu değerler arasında olmadığı için sorun gözükmemektedir. Modelimiz anlamlı bulunmuştur. 53

Regresyon Çıktısı Bu kısmı daha önce yorumlamıştık. 2 regresyon yükü de sabit değer de 0.05 alfa düzeyinde anlamlı bulunmuştur. Burada VIF değerleri de sunulmakta olup herhangi bir çok-doğrusallık problemi bulunmadığını işaret etmektedir. 54

Regresyon Çıktısı 55

Artık değerler SPSS Statistics ekranında +-2den büyük artık değerleri rapor etmesini istersek aşağıdaki tabloyu elde ederiz. Eğer verinin %10 unu geçmeyecek sayıda bu sınırı aşan artık değer varsa genelde problem olarak görülmez. Kontrol etmekte fayda vardır. 56

Regresyon Tanılayıcıları SPSS te Analyze>Reports>Case summaries kısmına girip 57

Regresyon Tanılayıcıları Regresyon tanılayıcılarından bazılarını seçerek her bir veri noktasını inceleyebiliriz. 58

Regresyon Tanılayıcıları çıktı 59

Regresyon Tanılayıcıları Cook s D değerlerinin hiç biri 1den büyük değil (OK) Mahalanobis için 15 ten büyük değerler problemlidir. Bizim verimizde sorunlu değer gözükmüyor. DFBeta için 1 den büyük değerler sorun oluşturur. Bütün veri noktalarımız +-1 sınırı içerisinde. CVR > 1 + [3(k + 1)/n] olmamalı 1+0.16=1.16 (+- 1.16 sınır içinde olmalı). Bu değere göre de sorunlu veri noktası yok gibi. 60

Regresyon Tanılayıcıları Özet Tablo 61

Varsayımların Kontrolü Çoklu doğrudaşlık ve Hata bağımsızlığı varsayımlarını kontrol ettik ve sorun olmadığını daha önce göstermiştik. *ZRESID ile *ZPRED grafiğine bakarak hataların rastgele dağıldığını ve eş-varyanslılık varsayımlarını kontrol edebiliriz. 62

Eşvaryanslılık Grafikleri (Farklı Durumlar) 63

Eşvaryanslılık Grafikleri 64

Hataların Normalliği 65

Hataların Normalliği 66

Kısmi Grafikler Bu grafiklere ek olarak kısmi grafiklere (partial plot lara) bakabiliriz. Kısmi grafikler bağımlı değişkenin artık değerleri ile her bir değişkenin değerleri arasındaki ilişkiyi gösteren saçılım grafikleridir. Veride uç değer olup olmadığını tespit etmemize ve eşvaryanslılık varsayımının ihlal edilip edilmediği hakkında ipucu verir. 67

Kısmi Grafikler 68

Kısmi Grafikler 69

Varsayım İhlali ve Uç Dğerlerin olduğu Durumlarda Ne Yapmalı? Eğer verideki uç değerleri ve etkili noktaları çıkarmamanız gerekiyorsa onlarla ve onlarsız yaptığınız analizlerin sonuçlarını rapor ediniz. Dönüştürme yapınız (log X) Ya da Robust regression (dirençli regresyon) yöntemini kullanınız. 70

Sonraki Sunumda Regresyona Kategorik değişken eklenmesi ANOVA ve ANCOVA nın regresyon modeli olarak gösterilmesi Stepwise ve Hiyerarşik regresyon yöntemleri Lojistik Regresyon yöntemi gösterilecektir. 71