OLS Klasik Varsayımlar. Çoklu Regresyon. Çoklu Regresyon Modellemesi. Çoklu Regresyon Modeli. Multiple Regression



Benzer belgeler
Regresyon. Regresyon korelasyon ile yakından ilişkilidir

Korelasyon ve Regresyon

19. BÖLÜM BİRBİRİYLE İLİŞKİLİ OLAN İKİ DEĞİŞKENDEN BİRİSİNDEKİ DEĞİŞİME GÖRE DİĞERİNİN ALACAĞI DEĞERİ YORDAMA (KESTİRME) UYGULAMA-I

ÖNGÖRÜ TEKNĐKLERĐ ÖDEV 5 (KEY)

Ekonometri I VARSAYIMLARI

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

ANADOLU ÜNİVERSİTESİ REGRESYON KATSAYILARININ GÜVEN ARALIĞI = + REGRESYON KATSAYILARININ GÜVEN ARALIĞI

İstatistik ve Olasılık

CHAPTER 6 SIMPLE LINEAR REGRESSION

Pazarlama Araştırması Grup Projeleri

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

İÇİNDEKİLER 1. GİRİŞ...

KUKLA DEĞİŞKENLİ MODELLER

İSTATİSTİK II MINITAB

YILLARI ARASINDA GÜNEY CAROLINA DA OKUL İÇİ ŞİDDET İSTATİSKLERİ ANALİZİ (Bir Önceki Projeden Devam Edilecektir)

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

KUKLA DEĞİŞKENLİ MODELLER. Kukla değişkenlerin diğer kantitatif değişkenlerle alındığı modeller (Kovaryans Analizi Modeller)

Kukla Değişken Nedir?

Bağımsız Örneklemler İçin Tek Faktörlü ANOVA

KUKLA DEĞİŞKENLİ MODELLER

BASİT REGRESYON MODELİ

Matris Cebiriyle Çoklu Regresyon Modeli

Ch. 12: Zaman Serisi Regresyonlarında Ardışık Bağıntı (Serial Correlation) ve Değişen Varyans

TABLO I: Bağımlı değişken; Tüketim,- bağımsız değişkenler; gelir ve fiyat olmak üzere değişkenlere ait veriler verilmiştir.

Korelasyon, Korelasyon Türleri ve Regresyon

7.Ders Bazı Ekonometrik Modeller. Đktisat (ekonomi) biliminin bir kavramı: gayrisafi milli hasıla.

Basit ve Çoklu Doğrusal Regresyon

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın.

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005

İki Ortalama Arasındaki Farkın Önemlilik Testi (Student s t Test) Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

KONULAR. 14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Normal Dağılımlılık. EKK tahmincilerinin ihtimal dağılımları u i nin ihtimal dağılımı hakkında yapılan varsayıma bağlıdır.

Korelasyon ve Regresyon

Korelasyon ve Regresyon

A. Regresyon Katsayılarında Yapısal Kırılma Testleri

Appendix B: Olasılık ve Dağılım Teorisi

İÇİNDEKİLER ÖN SÖZ...

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

ISTATISTIK VE OLASILIK SINAVI EKİM 2016 WEB SORULARI

17 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

İÇİNDEKİLER ÖNSÖZ... Örneklem Genişliğinin Elde edilmesi... 1

Bu örnekte kullanılan veri 200 gözleme sahiptir ve örnek için özel olarak oluşturulmuştur.

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

SIRADAN EN KÜÇÜK KARELER (OLS)

Ch. 5: SEKK (OLS) nin Asimptotik Özellikleri

8.Sunum. Yrd. Doç. Dr. Sedat ŞEN 1

Normal Dağılımlılık. EKK tahmincilerinin ihtimal dağılımları u i nin ihtimal dağılımı hakkında yapılan varsayıma bağlıdır.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

UYGULAMALAR. Normal Dağılımlılık

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

QUANTILE REGRESYON * Quantile Regression

KUKLA DEĞİŞKENLİ MODELLER

MAK 210 SAYISAL ANALİZ

İSTATİSTİK MHN3120 Malzeme Mühendisliği

Dependent Variable: Y Method: Least Squares Date: 03/23/11 Time: 16:51 Sample: Included observations: 20

BİYOİSTATİSTİK PARAMETRİK TESTLER

KUKLA DEĞİŞKENLİ MODELLERDE KANTİTATİF DEĞİŞKEN SAYISININ İKİ SINIF İÇİN FARKLI OLMASI DURUMU

İyi Bir Modelin Özellikleri

1. YAPISAL KIRILMA TESTLERİ

İSTATİSTİK-II. Korelasyon ve Regresyon

İki Varyansın Karşılaştırılması

Koşullu Öngörümleme. Bu nedenle koşullu öngörümleme gerçekleştirilmelidir.

Regresyon Analizi. Yaşar Tonta H.Ü. BBY yunus.hacettepe.edu.tr/~tonta/courses/fall2008/sb5002/ SLIDE 1

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

Tekrarlı Ölçümler ANOVA

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

ÇOKLU REGRESYON ANALİZİNDE VARSAYIMLARDAN SAPMALARIN İNCELENMESİ

TAŞINMAZ DEĞERLEMEDE İSTATİSTİKSEL ANALİZ

BİRDEN ÇOK BAĞIMLI DEĞİŞKENİ OLAN MODELLER

YARI LOGARİTMİK MODELLERDE KUKLA DECİşKENLERİN KA TSA YıLARıNIN YORUMU

PARAMETRİK TESTLER. Tek Örneklem t-testi. 200 öğrencinin matematik dersinden aldıkları notların ortalamasının 70 e eşit olup olmadığını test ediniz.

ALIŞTIRMA 2 GSYİH. Toplamsal Ayrıştırma Yöntemi

4.2 Sayfa 159. Uygulama II Sayfa Sayfa 161

1. Basitlik 2. Belirlenmişlik Y t = b 1 (1-r)+b 2 X t -rb 2 X t-1 +ry t-1 +e t 3. R 2 ölçüsü 4. Teorik tutarlılık 5. Doğru Fonksiyonel Biçim

K-S Testi hipotezde ileri sürülen dağılımla örnek yığılmalı dağılım fonksiyonunun karşılaştırılması ile yapılır.

İSTATİSTİKSEL VERİ ANALİZİ

İstatistik ve Olasılık

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

Statistical Package for the Social Sciences

EKONOMETRİ. GRETL Uygulamaları. Prof. Dr. Bülent Miran

Çalıştığı kurumun prestij kaynağı olup olmaması KIZ 2,85 ERKEK 4,18

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

Basit Regresyon Modeli BASİT REGRESYON MODELİ. Basit Regresyon Modeli. Basit Regresyon Modeli: y = β 0 + β 1 x + u

Mühendislikte İstatistik Yöntemler

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

Ch. 3: Çok Değişkenli Regresyon Analizi: Tahmin

REGRESYON. 8.Sunum. Yrd. Doç. Dr. Sedat ŞEN

ÇOKLU REGRESYON MODELİ. Bir bağımlı değişkene etki eden çok sayıda bağımsız değişkeni analize dahil ederek çoklu regresyon modeli uygulanabilir.

Akdeniz Üniversitesi

SANAYİ İŞÇİLERİNİN DİNİ YÖNELİMLERİ VE ÇALIŞMA TUTUMLARI ARASINDAKİ İLİŞKİ - ÇORUM ÖRNEĞİ

Kalitatif Veri. 1. Kalitatif random değişkenler sınıflanabilen yanıtlar vermektedir. Örnek: cinsiyet (Erkek, Kız)

Konu 3 Niceliksel Talep Analizi

istatistik El 10 1_ ve 2_ sorular a Ş3 gldakl bilgilere göre Al 4 Bl 6 cı 7 Dl 8 Al 5 B) 12 CL 27 D) 28 E) 35 2Q 10 BS 4200-A

4. TAHMİN SONUÇLARININ DEĞERLENDİRİLMESİ Katsayıların Yorumu

İLERİ ARAŞTIRMA SORU HAVUZU

Çok Değişkenli Regresyon Analizi (Multiple Regression Analysis) Çoklu Regresyon Modeli Örnekler. Sınav başarı notu ve aile geliri

UYGULAMA 4 TANIMLAYICI İSTATİSTİK DEĞERLERİNİN HESAPLANMASI

Transkript:

OLS Klasik Varsayımlar Çoklu Regresyon Multiple Regression. Lineer regresyon modeli. E(e i )=, ortalama hata sıfırdır. E(X i e i )=, bağımsız değişkenlerle hatalar arasında korelasyon mevcut değildir 4. E(e i e j )=, hataların birbiri ile korelasyonu yoktur (otokorelasyon sıfır). E(e i -)=E(e i )=σ e, hatanın varyansı sabittir. 6. Hata normal dağılımı sahiptir 7. Bağımsız değişkenler arasında tam doğrusallık yoktur. Çoklu Regresyon Modellemesi Çoklu Regresyon Modeli Çoklu regresyon modeli katsayıları örnek veri kullanılarak tahmin edilir. Tahmin edilen çoklu regresyon modeli: Tahmin edilen Y değeri Tahmin edilen Regresyon kesim noktası Tahmin edilen eğim katsayıaları Ŷ = b K + + bx + bx + bkxk

Çoklu Regresyon Modeli Kek Satış Modeli İki değişkenli model Y Ŷ = b + + bx bx Hafta 4 Kek satışı 46 4 Fiyat ($). 7. 8. 8. 6.8 Reklam ($s)... 4.. Çoklu regresyon modeli: Satış = b + b (Fiyat) + b (Reklam) X değişkeni için eğim X değişkeni için eğim X 6 7 8 9 8 4 47 4 49 4 44 7. 4. 6.4 7.. 7. 7.9.9 4...7. 4... 4. X 4 4. 7...7 Örnek: Bağımsız değişken Parametrelerin Hesabı Dondurulmuş kek satan bir firma kek talebini etkilediğini düşündüğü faktörleri değerlendirmek istemektedir. Bağımlı değişken: Kek satış miktarı (adet/hafta) Bağımsız değişken: Fiyat ($) haftalık veri toplanmış Reklam ($ s) Too complicated by hand! Ouch!

Çoklu Lineer Regresyon Eşitliğinin Tahmini Regresyon katsayılarının ve determinasyon katsayısının belirlenmesinde her hangi bir istatistik paketi veya Excelkullanılabilir Excel: Tools / Data Analysis... / Regression Çoklu Lineer Regresyon Eşitliği Satış = 6.6-4.97(Fiyat) + 74.(Reklam) Burada satışlar (adet/hafta) Fiyat ($) Reklam $ s. b = -4.97:fiyatın $ artması durumunda satışlar haftada ortalama 4.97 adet düşüş göstermekte b = 74.: reklam harcamalarının $ artması durumunda satışlar haftada ortalama 74. adet artış göstermekte Çoklu Lineer Regresyon Çıktısı Tahmin için modelin kullanımı Regression Statistics Multiple R.7 R Square.48 Adjusted R Square.447 47.464 Observations ANOVA df Regression Residual Total 4 Satış = 6.6-4.97(Fiyat) + 74.(Reklam) SS 946.7 7.6 649. MS 47..776 F 6.86 Significance F. Satış fiyatı $. ve reklam harcaması $ haftalık satış miktarının tahmin edilmesi Satış = 6.6-4.97(Fiyat) + 74.(Reklam) = 6.6-4.97 (.) + 74. (.) = 48.6 Intercept Price Advertising Coefficients 6.69-4.979 74.96 4.89.8.967 t Stat.688 -.6.8478 P-value.99.979.449 Lower 9% 7.88-48.766 7. Upper 9%.4644 -.79.7888 Tahmin edilen satış miktarı: 48.6 adet Reklam harcamalarının birimi $ olduğundan $ için X =.

Determinasyon Katsayısı Bağımlı değişken Y deki toplam varyasyonun tüm X değişkenleri tarafından açıklanan oranını ifade eder. SSR SST r Y... k = = regression sum of squares total sum of squares Adjusted r r modele yeni X eklendikçe artma eğilimindedir (kesinlikle aşağı düşmez) Bu özellik modellerin birbirleri ile kıyaslanmasında bir dezavantaj oluşturur Modele yeni değişken (X) eklemenin net etkisi nedir? Modelde serbestlik derecesi düşer Yeni değişkenin eklenmesi yok olan serbestlik derecesini denkleştirecek bir açıklama gücü var mıdır? Multiple R R Square Adjusted R Square Observations ANOVA Regression Residual Total Intercept Price Advertising Regression Statistics Determinasyon Katsayısı.7.48.447 47.464 df 4 Coefficients 6.69-4.979 74.96 SSR 946. r Y. = = =. SST 649. Kek satışlarındaki toplam değişimin.% i fiyatlardaki ve reklam harcamalarındaki değişimle açıklana bilmiştir. SS 946.7 7.6 649. 4.89.8.967 MS 47..776 t Stat.688 -.6.8478 F 6.86 P-value.99.979.449 Significance F. Lower 9% 7.88-48.766 7. Upper 9%.4644 -.79.7888 Adjusted r Bağımlı değişken Y deki toplam varyasyonun tüm X değişkenleri tarafından açıklanan oranını modelde kullanılan X değişken sayısı ile ayarlayarak ifade eder r adj = ( r Y...k n ) n k (Burada n = örnek sayısı, k = bağımsız değişken sayısı) Önemli olmayan bağımsız değişkenin Fazladan kullanımını cezalandırır. R daha küçüktür Modellerin birbiri ile kıyaslanmasında oldukça kullanışlı

Multiple R R Square ANOVA Regression Residual Total Intercept Price Advertising Regression Statistics Adjusted R Square Observations Determinasyon Katsayısı.7.48.447 47.464 df 4 Coefficients 6.69-4.979 74.96 r adj = SS 946.7 7.6 649. 4.89.8.967.447 Örnek sayısı ve modelde kullanılan bağımsız değişken sayısı dikkate alındığında Kek satışlarındaki toplam değişimin 44.% i fiyatlardaki ve reklam harcamalarındaki değişimle açıklana bilmiştir. MS 47..776 t Stat.688 -.6.8478 F 6.86 P-value.99.979.449 Significance F. Lower 9% 7.88-48.766 7. Upper 9%.4644 -.79.7888 Sonuç Y ˆ = 6. -.47 X -. X Regression Statistics Multiple R.98 R Square.966 Adjusted R Square.96 6. Observations yakıt sıcaklık yalıtım Durbin-Watson statistic =.874 ANOVA df SS MS FSignificance F Regression 84.6 E+ 68. E-9 Residual 8.6 676.7 Total 4 6. Coefficients t Stat P-valueLower 9% Upper 9% Intercept 6..9 6.6 E- 6. 68. X Variable -.47.4-6.7 E-9-6.69-4.74 X Variable -..4-8.4 E-6 -. -4.9 Multiple Regression Model: Example Pozitif otokorelasyon testi Develop a model for estimating heating oil used for a single family home in the month of January based on average temperature and amount of insulation in inches. Oil (Gal) Temp ( F) Insulation 7. 4 6.8 7 64. 4 4.8 7 6 94. 64 6.9 4 6 66.7 9 6.6 8 7.8.4 6.4 6. 4 6 44.. 8. 8 H : ρ= pozitif oto-korelasyon mevcut değil H : ρ pozitif oto-korelasyon mevcut d<d L H ret d>4-d L R ret 4-d U >d>d U H kabul Diğer durumlar yetersiz Burada, n = örnek ve k = bağımsız değişken var Karar: Otokorelasyon yok Ret H yetersiz Karar: H reddedilemez.6>d =.8>.4 H reddedilmez d L =.8 d U =.4

Model Hatası Kek Örneğinde-Residual Plots Use Tools Data Analysis Regression Percent Frequency Normal Probability Plot of the Residuals 99 9 - - Residual Histogram of the Residuals -4-4 Residual Residual Plots for Yakit Residual Residual Residuals Versus the Fitted Values - - 4 Fitted Value Residuals Versus the Order of the Data - - 4 6 7 8 9 4 Observation Order Residuals R esidua ls Price Residual Plot - 4 6 7 8 9 Price Advertising Residual Plot -.. 4 4. Advertising Residual Plots Çoklu regresyonda hatayla ilgili aşağıda belirtilen grafikler çizilebilir: < Residuals vs. Y i Residuals vs. X i Residuals vs. X i etc. Kek Örneğinde-Residual Plots Use Tools Data Analysis Regression Pie Sales Normal Probability Plot 4 4 4 6 8 Sample Percentile

Model Anlamlı mı? F-Testi modelin genel olarak anlamlılığını test etmede kullanılır. Y ve X değişkenleri arasında ilişki olup olmadığını gösterir F test istatistiği Hipotez: H : β = β = = β k = (lineer ilişki mevcut değil) H : en az bir β i (en azından bir değişken Y i etkilemektedir) H : β = β = H : β ve β her ikisi sıfır değil α =. df = df = H kabul F-Testi - genel anlamlılık testi α =. H Ret F Test istatistiği: MSR F = = 6.86 MSE Karar: Sonuç: p-value=. Reject H at a =. En azından bir bağımsız değişkenin Y i etkilediği konusunda deliller mevcut Multiple R R Square Adjusted R Square Observations ANOVA Regression Residual Total Intercept Price Advertising F-Testi - genel anlamlılık testi Regression Statistics.7.48.447 47.464 df 4 Coefficients 6.69-4.979 74.96 MSR 47. F = = = 6.86 MSE.8 ve serbestlik derecesi ile SS 946.7 7.6 649. 4.89.8.967 MS 47..776 t Stat.688 -.6.8478 F 6.86 P-value.99.979.449 Significance F. Lower 9% 7.88-48.766 7. F-Testi için P-değeri Upper 9%.4644 -.79.7888 Değişkenler tek başına anlamlı mı? t-testi her bir değişkenin eğimlerinin anlamlılıklarını test etmede kullanılır. Y ve X i değişkeni arasında ilişki olup olmadığını gösterir Hipotez: H : β i = (lineer ilişki mevcut değil) H : β i (Y ve X i değişkeni arasında lineer ilişki mevcut) Test istatistiği bi t = S b i p-value=tdist(t n-k- ) (df = n k )

Değişkenler tek başına anlamlı mı? Regression Statistics Multiple R.7 R Square.48 Adjusted R Square.447 47.464 Observations Fiyat için t-değeri t = -.6, p:.98 Reklam için t-değeri t =.8, p:.4 Eğim katsayıları için güven aralığı tahmini Kitle eğimleri β i için güven aralığı (Confidence interval) b i ± t n k S b i t için serbestlik derecesi (n k ) d.f. ( ) = d.f. ANOVA Regression Residual Total df 4 SS 946.7 7.6 649. MS 47..776 F 6.86 Significance F. Intercept Price Advertising Coefficients 6.69-4.979 74.96 4.89.8.967 Lower 9% 7.88-48.766 7. Upper 9%.4644 -.79.7888 Intercept Price Advertising Coefficients 6.69-4.979 74.96 4.89.8.967 t Stat.688 -.6.8478 P-value.99.979.449 Lower 9% 7.88-48.766 7. Upper 9%.4644 -.79.7888 Örnek: Excel çıktısı güven aralıklarını da verir Kek satış fiyatının $ artması durumunda haftalık satış miktarı.7-48.8 kek arasında düşüş gösterir. H : β = H : β H : β = H : β d.f. = -- = α =. Eğimler hakkında çıkarılan sonuçlar : t Testi Kek Örneği Excel çıktısından: Fiyat Reklam Coefficients -4.979 74.96.8.967 t Stat -.6.8478 P-value.979.449 Burada verilen t-test istatistikleri H hipotezinin ret edildiği bölgeye karşılık gelmektedirler (p-values <.) Karar: Her bir değişken için H ret Sonuç: Fiyat ve Reklamın kek satışını etkilemesi konusunda a =. anlamlılık düzeyinde yeterince delil vardır. r K değişkenli modelde kısmi determinasyon katsayısı Yj.(j hariç tüm değişkenler) SSR (X j j hariç tüm değişkenler) = SST- SSR(tüm değişkenler) + SSR(X j hariç tüm değişkenler) Diğer bağımsız değişkenler sabit tutulurken X j değişkeni tarafından açıklanan değişim oranı ifade eder. j

Kukla değişken kullanımı (Dummy Variables) Kukla değişken iki seviyeli bir nicel bağımsız değişken türüdür: Evet yada hayır, açık yada kapalı, erkek yada kadın yada şeklinde kotlanır Değişkenin anlamlı olması durumunda regresyon kesim noktası değişir. Diğer değişkenler için eşit eğim varsayımı vardır. Eğer seviye sayısı ikiden fazla ise gerekli olan kukla değişken sayısı =(seviye sayısı -) Ŷ b Y (Satış) b + b b Kukla değişken Modeli Örnek ( seviyeli) = + + = + + Tatil Ŷ = b b X + b X b () + b () = Tatil (X = ) (b Tatil yok (X = ) b b Farklı kesim noktası ) b X + b X Aynı eğim Tatil yok Eğer H : β = ret ise, tatilin kek satışları üzerinde anlamlı bir etkisi vardır. X (Fiyat) Y = kek satışı X = fiyat Kukla değişken Modeli Örnek ( seviyeli) Ŷ = b + b X + b X X = tatil (X = hafta içerisinde tatil varsa) (X = hafta içerisinde tatil yoksa) Örnek: Satış: adet/hafta Fiyat: $ Tatil: Kukla değişken Modeli Örnek ( seviyeli) Satış = - (Fiyat) + (Tatil) eğer hafta içerisinde tatil varsa eğer hafta içerisinde tatil yoksa b = : ortalama, aynı fiyat seviyesi için hafta içerisinde tatil olduğu dönemlerde ortalama kek satışları tatil olmadığı dönemlere göre ortalama fazlalık göstermektedir.

Kukla değişken Modeli Örnek ( seviyeden fazla) Kukla değişken sayısı seviye sayısı - Örnek: Y = evin fiyatı ; X = evin alanı (ft ) Evin türünün de etkili olduğu düşünülürse: Türü = ranch, split level, condo Üç seviyeli nicel değişken: bu nedenle kukla değişken gerekli Etkileşimli Regresyon modeli Çalışma tablosu Item, i 4 Y i 4 X ve X yi birbiri ile çarparak X *X oluşturulur. Regresyon analizi çalıştırılır Y, X, X, X X X i 8 X i 6 X i *X i 4 6 Açıklayıcı değişkenlerin etkileşimi Hipotez X değişkenleri arası etkileşim var Bir X değişkeninin değeri diğer bir X değerinin aldığı değere göre değişebilir (tepki) Değişkenlerin birbirleri ile çarpımları da modele dahil edilir Ŷ = b = b + b X + b X + b + b + b (X X Hipotez: H : β = (X ve X arası etkileşim yok) H : β (X ve X arası etkileşim mevcut) X X + b X ) Çoklu Regresyon Model İnşası Multiple Regression Model Building

Nonlinear (lineer olmayan) İlişki Residual Analizi Bağımlı ve bağımsız değişken arasındaki ilişki lineer olmaya bilir. Scater grafiği inceleyerek doğrusal olmayan ilişkinin mevcudiyeti araştırılır. Doğrusal olmayan ilişki polinoma uyarlanarak modellenebilir. X ve X li Çoklu regresyon Ŷ = b + + bx bx X Residual plot random Doğrusal olmayan bir ilişki X Residual Plot 4 6 8 Y i. Derece Polinom Regresyon Modellemesi Y = β + β X + β X + ε Scater grafiği aşağıda verilen şekillere benzediğinde. Derece polinom regresyon modeli seçilebilir. X Y i i i X Y β < β > β < β > X β > β > β < β < Yi = β + β X X Y + β X i i + ε i Polinom Modellemesi Çalışma Sayfası Item, i 4 Y i 4 8 6 X i X i : X i nin karesi Y i, X i, X i verileri kullanılarak regresyon analizi yapılır X i X i 9 4 6

Modelin Genel Olarak Testi Polinom modeli için Excel kullanımı: Ŷ = b + İlişki için genel test H : β = β = (X ve Y arasında genel olarak ilişki yok) H : β (X ve Y arasında bir ilişki mevcut) F test istatistiği = + bx bx MSR MSE Kareli Terim için Test Kareli terim hakkında ikinci test: Basit regresyonun adjusted r ile polinom modellemesinin adjusted r kıyaslanması Eğer adjusted r (polinom) > adjusted r (Basit) polinom modeli basit modelden daha fazla değişkenliği açıklamıştır. Burada: Hipotez Kareli Terim için Test H : β = (karesinin eklenmesi modeli geliştirmez) H : β (karesinin eklenmesi modeli geliştirir) Test istatistiği b β t = S b b = kareli terimin katsayısı β = hipotez edilecek değer (sıfır) S b = eğim için standart hata d.f. = n Duruluk 7 8 4 4 67 7 78 8 87 99 Filtreleme zamanı 7 8 4 6 7 Örnek: Quatratik Model Filtreleme zamanı arttıkça duruluk artar : Purity Purity vs. Time 8 6 4 Time

Example: Quadratik Model Klasik Doğrusal Regresyon Modelinden Sapmalar Intercept Time R Square Basit regresyon sonucu: ^ Y = -.8 +.98 Zaman Regression Statistics Adjusted R Square Coefficients -.867.98.96888.9668 6.997 Standard Error.468.966 F 7.794 t Stat -. 9.89 P-value.69.78E- Significance F.778E- R e s i d u a l s T, Fve r istatistikleri yüksek fakat hata random değil : - Time Residual Plot - Time Spesifikasyon Hataları Çoklu Doğrusal Bağıntı (Collinearity) Sabit Olmayan (Hata) Varyans (Heteroskedasticity) Otokorelasyon (serialcorrelation) Intercept Time Time-squared R Square Coefficients.87.6496.46 Regression Statistics Adjusted R Square Example: Quadratik Model Quadratik regresyon sonucu: ^ Y =.9 +.6 Zaman +.4 (Zaman).99494.994.9 Standard Error.446.679.8 F 8.7 t Stat.68.6 7.46 P-value.7.467.6E- Significance F.68E- Kareli terim anlamlı ve modelin adj. r ni yükseltiyor; hata random Residuals Residuals Time Residual Plot - Time Time-squared Residual Plot - 4 Time-squared Spesifikasyon Hataları Gerekli bir değişkenin modele konmamış olması Gereksiz bir değişkenin modele konmuş olması Yanlış fonksiyon tipinin seçilmesi Değişkenlerde ölçme hatalarının bulunması

Spesifikasyon Hatalarının Etkileri Model parametreleri sapmalı ve tutarsız olacağından bu parametrelerle yapılacak güven aralığı ve hipotez testleri yanıltıcı sonuçlar verebilir. Otokorelasyonun oluşmasına sebebiyet verebilir Standart sapmalar daha yüksek çıkacağında güven aralıkları büyür Yüksek Collinearity Göstergeleri Katsayıların işaretlerinin yanlış olması Modele yeni bir değişken eklendiğinde daha önce tahmin edilmiş katsayılarda büyük değişiklik Modelde daha önce anlamlı olan değişkenin yeni bir değişken katılması durumunda anlamsız olması Modele yeni değişken eklendikçe model hatasının artış göstermesi Doğrusallık - Collinearity Collinearity: iki bağımsız değişken arasında mevcut olan yüksek korelasyon Bunun anlamı; çoklu regresyon modelinde iki değişken benzer bilgiyle katkı sağlar İstikrarsız katsayıların elde edilmesine neden olur (çok büyük hatalar ve düşük t skorları) Regresyon katsayıları beklenen işaretleri vermez Collinearity Belirlenmesi (Variance Inflationary Factor) VIF j collinearity ölçmede kullanılır : VIF j = R Burada R j : X j ve diğer bütün X lerle birlikte determinasyon katsayısı Eğer VIF j >, ise X j ile diğer bağımsız değişkenler arasında yüksek doğrusal korelasyon vardır. j

Örnek: Kek satış modeli Sabit Olmayan Varyans Week 4 6 7 8 9 4 Pie Sales 46 4 8 4 47 4 49 4 44 4 Price ($). 7. 8. 8. 6.8 7. 4. 6.4 7.. 7. 7.9.9. Advertising ($s)... 4.. 4...7. 4... 4.. Satış = b + b (Fiyat) + b (Reklam) Değişen varyans durumunda parametrelerin tahmin değerleri sapmasız olacaktır ancak tahmin değerlerinin standart hataları büyür. Bunun neticesinde t ve f dağılımları yolu ile aralık tahmini ve hipotez testlerine güvenilmez Sabit olmayan varyansın testi konusunda aşağıdaki yöntemlerden biri kullanılabilir. Park testi Breusch ve Pagan Testi White testi Goldfeld ve Quandt testi 7..7 Collinearity Belirlenmesi Otokorelasyon Regression Analysis Price and all other X Multiple R R Square Adjusted R Square Observations VIF Regression Statistics.48.96 -.79.7.97 Kek satış örneği çıktısı: Modelde sadece iki değişken olduğundan sadece bir tane VIF sonucu verilmiştir. VIF <? evet Fiyat ve Reklam arasında doğrusallığın olduğuna ilişkin delil yoktur. Otokorelasyon parametrelerin tahmin değerlerinin sapmasız oluşunu etkilemez; fakat standart hataları küçültür. Standart hatalar küçülünce t ve F testleri güvenilirliğini kaybeder Durbin-Whatson d testi ile test edilir. Otokorelasyonu giderme yolları: Model spesifikasyon hatası için kontrol edilir varsa düzeltilir. Otokorelasyonu elemine edebileceği bir şekilde regresyon modelini yeniden düzenlemek

Model İnşası En iyi alt grup Regresyonu Model inşasında amaç bağımsız değişkenlerin en iyi takımı oluşturmaktır. Önemsiz değişkenlerin modelden çıkarılması yorumlamayı kolaylaştırır Collinearity ihtimalini düşürür Stepwise regresyon yöntemi Yeni değişkenlerin eklemesi ile oluşturulan alternatif modellerin değerlendirilmesi yöntemi En iyi alt grup yaklaşımı Eldeki değişkenleri kullanarak bütün kombinasyonlarda model elde edilir ve adjusted r en yüksek olan kullanılır (standart hatası en az olan model) Fikir: bağımsız değişkenlerin bütün kombinasyonu kullanılarak her kombinasyonun regresyon eşitliğinin tahmin edilmesi En iyi uyan model yüksek adjusted r veen düşük standart hataya sahip olan alternatiftir Stepwise Regresyon Alternatif en iyi alt grup kriteri Fikir: adımlar halinde OLS regresyon eşitliğinin oluşturulması, her seferde bir değişken ekleyip eklenen değişkenin model de kalması veya gitmesi konusunda değerlendirme yapılması Kısmi determinasyon katsayısı: model de diğer değişkenlerin olması durumunda her bağımsız değişkenin marjinal katkısını ölçer Her bir alternatif regresyon modeli için C p tahmin edilir C p değeri k + yakın yada daha düşük olan modeli dikkate al k ilgilenilen modeldeki bağımsız değişken sayısı

Alternatif en iyi alt grup kriteri C p istatistiği ( R k )(n T ) R C p = (n (k + T Burada )) k = ilgili regresyondaki bağımsız değişken sayısı T = tam regresyon modelinde tahmin edilmesi gereken parametre sayısı R k R T = k bağımsız değişkenli modelin determinasyon katsayısı = Tam regresyon modelinin determinasyon katsayısı Steps in Model Building 6. C p <(k + ) olan tüm modelleri listele 7. En iyi modeli seç Tutumlu olmayı göz önünde bulundur İlave değişken anlamlı bir katkı sağlamakta mı? 8. Model sonuçlarını tam analize tabi tut 9. Doğrusallık yada diğer model varsayımlarının ihlal edilmesi durumunda model dönüşümü yap. Tahmin için modeli kullan Model İnşasında Adım Model Building Flowchart. Modele eklenecek açıklayıcı değişkenlerin seçimi. Tam modelin tahmin edilmesi ve VIF kontrolü. VIF> olan değişkenlerin tespiti 4. Eğer hiçbir değişkenin VIF > değilse, adıma git Eğer değişkenin VIF > ise, değişkeni modelden çıkar Eğer birden fazla değişkenin VIF > ise, en büyük değerli olan değişkeni modelden çıkar ve adım ye dön. Kalan değişkenlerle en iyi modeli belirlemeye çalış Değişken seç X,X,X k Regresyonu çalıştır VIF bul En yüksek VIF değerli değişkeni çıkart Evet herhangi VIF>? Evet Birden Fazla mı? Hayır X i çıkart Hayır Alt modeller içerisinden en iyisini belirlemek için regresyon analizi yap C p Sonuçların tam analizini yap Kareli terim ekle ve/veya değişken(leri) dönüştür Tahmin için kullan

Tuzaklar Tuzaklardan kaçınmak için : Tahmin edilen regresyon katsayılarının yorumlanmasında diğer değişkenlerin sabit tutulduğunu unutma Her bir bağımsız değişken için residual plots değerlendir Etkileşim terimini değerlendir (interaction terms) Tuzaklar Hangi değişkenin modele dahil edileceği sorusuna geçmeden her bir bağımsız değişken için VIF hesapla Stepwise ve en iyi alt grup regresyon yöntemlerini kullanarak bir çok alternatif modelin incelemesini yap OLS varsayımları ciddi bir şekilde ihlal edildiğinde diğer regresyon yöntemlerini kullan