YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 3: Çok Değişkenli Regresyon Analizi: Tahmin Doç. Dr. Hüseyin Taştan 1 1 Yıldız Teknik Üniversitesi, İktisat Bölümü, Yıldız Kampüsü H Blok, Oda no. 124, Beşiktaş, İstanbul. Email: tastan@yildiz.edu.tr Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. ed., 2002, Thomson Learning. Çoklu Regresyon Analizi (Multiple Regression Analysis) Basit regresyonda kilit varsayım olan SLR.3 varsayımı çoğu zaman gerçekçi olmayan bir varsayımdır. SLR.3: y yi etkileyen tüm diğer faktörler x ile ilişkisizdir (ceteris paribus). Çoklu regresyon analizinde bağımlı değişkeni (y) eşanlı (simultaneously) olarak etkileyen pek çok etkeni kontrol edebiliriz. Zira, çok sayıda açıklayıcı değişken (x) kullanabileceğiz. Modele yeni değişkenler ekleyerek y deki değişmenin daha büyük bir kısmını açıklayabiliriz. Yani, y nin tahmini için daha üstün modeller geliştirebiliriz. Çoklu regresyonda regresyonun biçimini (functional form) belirlemede çok daha geniş olanaklara sahip olacağız. Örnek 1: İki bağımsız değişkene sahip model Örnek 2 : avgscore: ortalama test skoru, expend : öğrencinin harcamaları, avginc : ortalama aile geliri Burada, β 1, ücretleri etkileyen diğer tüm faktörleri sabit tuttuğumuzda, eğitimin ücretlere etkisini ölçer. β 2 ise, benzer şekilde tecrübenin ücretlere ceteris paribus etkisini gösterecektir. Bu regresyonda tecrübeyi sabit (fixed) tutarak eğitimin ücretlere katkısını ölçebiliyoruz. Basit regresyonda bu olanak yoktu. Sadece educ ile u ilişkisizdir diye varsayıyorduk. Bu da güçlü olmayan Eğer aile gelirini (avginc) regresyona doğrudan sokmaz isek, onu, u nun içinde ele almış olacağız. Aile geliri öğrencinin harcaması (expend) ile yakından ilişkili olduğundan, bu halde, x (harcama) ile u ilişkili olacak ve kilit varsayımımız, SLR.3, ihlal edilecekti. Bu ise β 1 in sapmalı (biased) olmasına yol açacaktı. Avginc değişkenini modele sokarak onu doğrudan bir varsayımdı. 3 4 kontrol etme olanağına kavuştuk. Çoklu regresyon, regresyonun fonksiyonel biçimini genelleştirmeye izin verir. Ailelerin tüketimini (consumption) gelirlerinin (income) karesel (quadratic) bir fonksiyonu olarak ifade edelim : Demek ki, marjinal tüketim eğilimi, β 1 e olduğu kadar β 2 ye de bağlıdır. İki bağımsız değişken durumunda u nun x lerle ilişkisiz olması varsayımını şöyle formüle edeceğiz : Burada x 1 = inc, x 2 = inc 2 dir. Bu regresyonda β 1 in yorumu farklı olacaktır. Zira, inc 2 yi sabit tutarak inc ın cons üzerindeki etkisini ölçemeyiz. inc ile karesi inc 2 birlikte değişir. Gelirdeki değişmenin tüketime etkisi, yani, marjinal tüketim eğilimi (marginal propensity to consume) regresyonda şuna eşittir : 5 Yani, x 1 ve x 2 nin kitledeki (population) tüm kombinezonları için u nun beklenen değeri sıfırdır. Örneğin, (3.1) deki regresyonda, E(u educ, exper) = 0, ücretleri etkileyen diğer faktörlerin (u) ortalama olarak educ ve exper ile ilişkisiz olduğu anlamına gelir. Örneğin, ability u nun bir parçası ise, ortalama ability düzeyi, çalışanlar kesiminde educ ve exper in tüm kombinezonlarında aynıdır (sabittir). 6 Econometrics 1

(3.2) deki regresyonda bu varsayım : E(u expend, avginc)=0 olur. Yani, test skorlarını etkileyen diğer faktörler (okula ya da öğrenciye özgü karakteristikler vs.), ortalama olarak, expend ve avginc değişkenleriyle ilişkisizdir. (3.4) deki quadratic regresyonda bu varsayım : E(u inc, inc2)= E (u inc)=0 olur. inc biliniyorken inc 2 otomatik olarak bilineceği için parantezin içine ayrıca inc 2 yazmaya gerek yoktur. k tane bağımsız değişkene sahip model Genel çoklu doğrusal regresyon modeli : Bu modelde k tane x, k+1 tane bilinmeyen (tahmin edilecek olan) parametre (beta) vardır. Hata terimi (error term, disturbance) u ; x 1, x 2,, x k dışında y yi etkileyen tüm diğer faktörleri temsil eder. Modele ne kadar çok sayıda x eklersek ekleyelim, yine de dışarıda kalmış olan etkenler ya da gözlenemeyen faktörler var olacaktır. 7 8 Çoklu regresyonda betaların yorumu Herhangi bir beta, β 3 diyelim, diğer x ler ve u da içerilen faktörler sabitken (ceteris paribus varsayımı), x 3 deki bir birimlik değişmenin y de yaratacağı değişmeyi gösterir. Ancak, x lerde doğrusal-olmayan özellik varsa bu yorum değişir. Örneğin şu regresyonu ele alalım: Ceoten: CEO nun kıdemi (tenure) (yıl). Burada, β 1, diğer her şey sabitken, satışlarda %1 lik bir artışın CEO maaşlarında yaratacağı % artışdır. Yani, maaşların satış esnekliğidir. Buna karşılık, β 2, β 3 0 olduğu sürece, kıdemde 1 yıl artış olduğunda maaşdaki % artışı göstermez. Zira, x 3 =ceoten 2 yi sabit tutup x 2 yi bir birim artıramıyoruz, kareli terim de artıyor. Bu yüzden, kıdemdeki bir birim (1 yıl) değişmenin maaşa etkisini şu kısmi türevden bulacağız : δlog(salary) / δceoten = β 2 + 2 β 3 ceoten 9 x lerle u nun ilişkisizliği varsayımı burada şöyle formüle edilir : x lerden biriyle u arasında ilişki olması EKK (OLS) tahmin edicilerin sapmalı (biased) olmasına yol açar. İhmal edilmiş, yani dışarıda bırakılmış önemli bir değişken varsa, bu da sapmaya yol açacaktır. Bu aynı zamanda fonksiyon kalıbının da doğru kurulduğu anlamına gelir. 10 SEKK (OLS) tahmin edicileri İki bağımsız değişkenli durumda tahmin edilen regresyon şöyle olacaktır : k bağımsız değişkenli model: Tahmin edilen regresyon (sample regression function, SRF) şu olacaktır : Sıradan en küçük kareler, SEKK (ordinary least squares, OLS) beta parametrelerini aşağıdaki artıklar kareler toplamını (AKT / SSR) minimize edecek şekilde belirler : k+1 adet beta şu KKT (SSR) yi minimum edecek şekilde seçilecektir : Örnek (sample), y ve x lerin n sayıdaki gözlemlerinden oluşur : 11 Bu minimizasyon problemi aşağıdaki k+1 adet doğrusal denklemin çözümüdür: 12 Econometrics 2

k+1 adet doğrusal denklem k+1 adet bilinmeyen beta parametresi için çözülecektir. Bunlara, SEK birinci sıra koşullar denir (OLS first order conditions). Method of moments (3.13) deki denklemler momentler yöntemi (method of moments) ile de ifade edilebilirdi. (3.8) deki x lerle u ilişkisizdir varsayımdan : (3.13) deki denklemler bu kitle (population) momentlerinin örneklemdeki karşılığıdır. (3.13) ün betalar için tek bir (unique) çözüm vermesinin koşullarını aşağıda göreceğiz. 13 14 SEK regresyonunun yorumu İki bağımsız değişkenli durumu ele alalım: Örnek 3.1: GRETL, gpa1.gdt Üniversite GPA (grade point average) notunun açıklanması ve tahmini. Bağımsız değişkenler, high school GPA ve achievement test score (ACT), n=141 öğrenci : Eğim parametre tahminleri açıklayıcı değişkenlerin y üzerindeki ceteris paribus ya da kısmi etkilerini verir. in yorumu: x 2 sabitken yani Benzer şekilde, x 1 sabitken nın yorumu 15 Bu regresyonda β 0 ın yorumu anlamsız olduğu için yapılmaz. Lise GPA sı=0 ve başarı test notu ACT=0 konduğunda üniversite GPA sı=1.29 oluyor, ancak anlamsız. ACT ı sabit tutarak lise GPA sını 1 puan artırdığımızda üniversite GPA sı yarım puana yakın (0.453) artıyor. ACT notu aynı olan iki öğrenciden lise GPA sı yüksek olanın üniversite GPA sı da yüksek olacaktır. ACT ın işareti + dır, yani, başarı testinden yüksek alanların üniversite GPA puanlarının daha yüksek olması beklenebilir. 16 Ancak, katsayısı çok küçük olduğu için etkisi fazla değil. k değişkenli modelde yorum: Sadece ACT notunu alarak basit regresyon tahmin etseydik şöyle olacaktı : Bu modeli değişimler cinsinden şöyle yazabiliriz: ACT ın katsayısı (3.15) deki çoklu regresyonda bulunandan 3 kat daha yüksek çıktı. Ancak, bu regresyon, bize, lise GPA sı aynı iki öğrenciyi karşılaştırma olanağı vermiyor. Önceki regresyon veriyordu. x 1 in katsayısının yorumu şöyledir: Tüm diğer açıklayıcı değişkenler sabit tutulduğunda, x 1 deki bir birimlik değişimin y de meydana getireceği (ortalama) değişim (y nin birimi cinsinden) 17 18 Econometrics 3

Örnek 3.2 : Saat ücretleri denklemi, GRETL wage1.gdt n=526 çalışan kapsanıyor. Tenure: O işyerinde çalışılan yıl sayısı (kıdem) Regresyon : Çoklu regresyon söz konusu olduğu için katsayı tahminleri (betaşapkalar) ceteris paribus koşuluyla yorumlanmalı. Bağımlı değişken log(=ln) cinsinden olduğu için, x lerdeki bir birimlik değişme, y de, betalar kadar % değişme yaratacaktır. Örneğin, exper ve tenure sabit tutarak educ u 1 yıl artırmak ücretlerde 0.092 (=%9.2) kadar bir artış sağlayacaktır. Başka bir ifadeyle, iş tecrübesi ve kıdemleri aynı olan iki işçiden biri eğer diğerinden 1 yıl fazla okumuşsa, onun ücreti diğerininkinden %9.2 fazla olacaktır (somut iki işçiden değil ortalama durumdan söz ediliyor). 19 Regresyonda Diğer Faktörleri Sabit Tutma nın Anlamı Çoklu regresyonda beta katsayılarını ceteris paribus koşulu altında bağımsız değişkenlerin y üzerindeki kısmi etki leri (partial effects) olarak yorumluyoruz. Örneğin, yukarıdaki regresyonda, β 1 =0.092, tecrübe ve kıdemi aynı olan iki işçiden eğitimi 1 yıl fazla olanının %9.2 daha yüksek ücret alacağı şeklinde yorumlandı. Bu yorum, verinin bu şekilde toplandığı anlamına gelmez. Veri (data) rasgele seçilmiş 526 işçiye ait ücret, eğitim ve kıdem bilgilerinden oluşuyor. Kıdemi ve tecrübesi aynı olan işçileri ayrıca gruplandırmıyoruz. Aslında kıdemleri aynı olan işçilerden oluşan bir örneklem olsaydı kıdem değişkenini modele koymaya gerek kalmazdı. Ancak uygulamada çoğunlukla bu mümkün değildir. Çoklu regresyon analizinde zaten buna gerek yoktur. 20 Birden fazla bağımsız değişkeni aynı anda değiştirmek Bazen x lerden bir kaçını birden birer birim artırarak bunların y deki toplam etkisini bilmek isteriz, ya da, x lerden birini 1 birim artırdığımızda diğeri de otomatik olarak artar. Örneğin, (3.19) daki regresyonda, kıdemi (tenure) 1 yıl artırdığımızda tecrübe (exper) de otomatik olarak 1 yıl artar. Böylece, ikisinin ücret üzerindeki etkisi %2.61 olmuş olur: 21 EKK (OLS) den bulunan tahmini değer ve artıklar (kalıntılar) (3.11) deki EKK (OLS) regresyonu her bir i.nci gözlem için bir tahmini değer (fitted or predicted value) verecektir : Yani, söz konusu i.nci gözleme denk gelen x değerlerini regresyonda yerine koyup tahmini değeri bulacağız. i.nci gözleme ait gerçek (actual) değerle regresyondan bulunan tahmini değerin farkı ise artık terimi (residual) verir : 22 SEK (OLS) den bulunan tahmini değerlerin ve artık terimlerin özellikleri Her bir gözlem için bir artık terim vardır. 1. Artıkların örnek ortalaması (sample average) sıfırdır. 2. Her bir x ile EKK (OLS) artıklarının örnekten bulunan kovaryansı sıfırdır (ilişkisizler). Bu, tahmini değerlerle artıkların örnek kovaryanslarının da sıfır olması anlamına gelir. Bu özelliklerden ilk ikisi (3.13) deki SEKK (OLS) denklemlerinden çıkan sonuçlardır. (3.13) deki ilk denklem artıkların toplamının sıfır olacağını söyler. Diğer denklemler şeklindedir. Bunlar ise, her bir x in ile örnek kovaryansının sıfır olmasını zorunlu kılar. 3.cü özellik 1.ci özelliğin bir sonucu olarak ortaya çıkar. 23 24 Econometrics 4

x leri birbirlerinin etkilerinden arındırarak da betaşapkaları bulabiliriz İki bağımsız değişkenli, k=2, regresyonu ele alalım: x 1 in eğim katsayı tahmin edicisi, Basit ve çoklu regresyon tahminlerinin karşılaştırılması y nin x 1 üzerine regresyonu ile y nin x 1 ve x 2 üzerine regresyonu genel olarak farklı beta tahminleri verir. olarak yazılabilir. Burada x 1 in x 2 üzerine regresyonundan elde edilen kalıntılardır. (3.22) basitçe y nin bu kalıntılar üzerine regresyonundan elde edilen eğim parametresi olarak bulunabilir. Bu aslında ceteris paribus yorumunun başka bir versiyonudur. Bu iki adımlı regresyonla x 2 nin etkisi arındırılmıştır (partialled out, netted out) 25 Ancak, şu iki özel durumda iki regresyon da aynı β 1 tahminini verir : 1. x 2 nin y üzerindeki kısmi etkisi sıfırdır, 2. Örneklemde x 1 ve x 2 ilişkisizdir. 26 Uyumun başarı derecesi ya da iyiliği (Goodness of fit) Bütün kareler toplamı (total sum of squares): BKT (SST) R 2 : determinasyon katsayısı Son ifadenin her iki tarafını SST ye bölersek Açıklanan kareler toplamı (explained sum of squares: AKT (SSE) Kalıntı (artık) kareler toplamı(residual sum of squares):kkt (SSR) Determinasyon katsayısı olarak tanımlanır. R 2 nin y nin tahmin değerleri ile gözlenen değerleri arasındaki korelasyon katsayısının karesi olduğu gösterilebilir: 27 28 Tahmini değerlerin ortalaması gerçek (gözlenen, actual) y değerlerinin ortalamasına eşittir : =. Bunu, u ların toplamının sıfır olduğunu ve olduğunu dikkate alarak gösterebiliriz (son eşitlikte her iki tarafın 1 den n e kadar toplamını alınız, sonra her bir terimi n e bölünüz). 29 Regresyona yeni bir değişken eklendiğinde R 2 daima artış yönünde hareket eder, hiçbir zaman azalmaz. Zira, yeni değişkenler eklendikçe SSR (sum of squared residuals) azalma yönünde değişir, asla artmaz. Dolayısıyla, eklenen değişkenin katkısını ölçmede R 2 fazla iyi bir kriter değildir. Bu amaç için düzeltilmiş (adjusted) R 2 tanımlayacağız. 30 Econometrics 5

() Örnek, Gretl gpa1.gdt Orijinden geçen regresyon (regression through the origin) Bazen iktisat teorisi regresyon sabitinin, β 0, sıfır olması gerektiğini telkin eder. Bu halde regresyon şöyle olur : 31 32 Orijinden geçen regresyonda SEKK (OLS) yine SSR yi minimize eder, ancak sabit terim (intercept) sıfıra eşit kılınarak bu yapılır. Orijinden geçen regresyonda 1- SSR/SST şeklinde tanımlanmış R 2 negatif çıkabilir. Negatif R 2 sıfır olarak kabul edilebilir ya da sabit konarak yeniden regresyon tahmini yapılır. R 2 nin negatif çıkması, y nin örneklem ortalamasının (ybar) y deki değişkenliği açıklamada modeldeki değişkenlerden daha başarılı olduğu anlamına gelir. Eğer PRF da β 0 sıfırdan farklı ise orijinden geçen regresyonun beta tahminleri sapmalı olacaktır. β 0 gerçekte sıfır iken sıfır değilmiş gibi regresyona koymak betaların varyanslarının daha büyük olarak tahmin edilmesine yol açar. 33 SEK (OLS) tahmin edicilerin sapmasızlığını (kitle parametreleri için) sağlayan varsayımlar VARSAYIM MLR.1: Parametrelerde Doğrusallık Bu varsayıma göre populasyon regresyon modeli parametrelerde doğrusaldır: 34 Varsayımlar () VARSAYIM MLR.2: Rassal Örnekleme Varsayımlar () VARSAYIM MLR.3: Sıfır Koşullu Ortalama 35 Varsayım MLR.3 ün sağlanamadığı bir durum regresyonun fonksiyonel biçiminin yanlış seçildiği (misspecification) durumdur. Önemli bir değişkenin regresyon dışında bırakılması (omitted variable) da yine bu varsayımın ihlaline yol açar. Değişkenlerin ölçülmesinde yapılan hatalar (measurement errors) yine varsayımın ihlalini doğurur. Varsayım MLR.3 sağlandığında, yani, x lerle u lar ilişkisiz ise, açıklayıcı değişkenlerimiz dışsaldır (exogenous) deriz. Aksi 36 halde, içsel (endogenous) x ler söz konusudur. Econometrics 6

Varsayımlar () VARSAYIM MLR.4: Çoklu bağıntı olmaması varsayımı : Regresyona, aynı bağımsız değişkenin değişik doğrusal-olmayan (nonlinear) fonksiyonları sokulabilir. Bu çoklu- bağıntıya yol açmaz. Örneğin : x ler bu varsayıma göre ilişkili olabilirler, ancak, tam çoklubağıntı olmaması gerekir. x ler tam ilişkili olurlarsa katsayılar tahmin edilemez. Bu varsayıma göre açıklayıcı değişkenler ilişkili (correlated) olabilirler. x ler arasında korelasyona izin vermezsek çoklu regresyondan istediğimiz faydayı alamayız. Örneğin, öğrenci notları, harcamaları ve aile geliri regresyonunda aile geliri (avginc) ile harcama (expend) arasında ilişki olduğunu bilerek bu değişkenleri modele 37 sokuyoruz. Amaç geliri kontrol etmek. Oysa, şu örnekte çoklu-bağıntı vardır : 38 x lerden birisi diğer x lerin doğrusal kombinezonu ise çoklu-bağıntı durumu gerçekleşir. Örneğin, regresyona x 1 ve x 2 nin yanında x 3 (=x 1 +x 2 ) şeklinde, ya da, x 3 =ax 1 +bx 2 şeklinde (a, b sabit) başka bir değişken sokamayız. Gözlem sayısının (n) tahmin edilecek parametre (k+1) sayısından küçük olması da çoklu-bağıntıya yol açar : n<k+1. Pratikte tam çoklu-bağıntı durumu ile çok seyrek karşılaşılır. Daha çok x ler arasında yüksek bağıntı söz konusudur. Tam çoklu-bağıntı durumunda SEK tahmin edicilerini hesaplayamayız. 39 Yukarıdaki dört varsayım altında EKK (OLS) tahmin edicileri sapmasızdır (unbiased) SEKK (OLS) tahmin edicileri sapmasızdır derken örnekten bulunan tahminlerini (estimates) kastetmiyoruz. Örnekten bulunan tahmin sabit bir sayıdır ve sapmasız (unbiased) olamaz. Sapmasız olan SEKK (OLS) tahmin edicilerinin elde edildiği süreçtir (procedure). 40 Dört varsayım : 1. Parametreler bakımından doğrusallık, 2. Rasgele örnekleme, 3. Sıfır koşullu ortalama (zero conditional mean), yani, u ile x lerin ilişkisiz olması ve 4. Tam çoklu-bağıntı olmaması. En kritiği 3.cü varsayım. Modelde spesifikasyon hatası ve ihmal edilmiş önemli değişken(ler) yoksa bu varsayım sağlanabilir. Diğer 3 varsayımın sağlanması zor değil. Modele gereksiz (irrelevant) bağımsız değişken sokulması Çoklu regresyona kitle bakımından y üzerindeki kısmi (partial) etkisi sıfır olan değişken ya da değişkenlerin sokulması.yani, PRF da beta katsayısı sıfır olan değişkenin sokulması. Bu duruma modelin overspecifying i denir. (3.38) deki PRF da x 3 ün kısmi katkısının sıfır olduğunu varsayalım. 41 42 Econometrics 7

X 3 ün kısmi katkısının sıfır olduğunu (PRF da β 3 =0 ) bilmediğimiz için onu SRF a dahil edeceğiz : Bunun regresyona etkisi ne olur? Diğer betalar yine sapmasızdır, β 3 ise SRF da belli bir değer alacak, ancak, değişik tekrarlanan örneklerdeki ortalama değeri (beklenen değeri) sıfır olacaktır. Modele gereksiz x lerin sokulması tahmin edicilerin varyanslarının yüksek çıkmasına yol açar. 43 İhmal edilmiş değişkenin yol açtığı sapma (Omitted variable bias) Yukarıdakinin tersine, PRF da sıfır olmayan bir beta katsayısına sahip geçerli bir değişkeni dışarıda bırakalım. Bu duruma modelin eksik spesifikasyonu (underspecifying the model) veya geçerli değişkenin dışarıda bırakılması (excluding a relevant variable) denir. Bu sorun EKK (OLS) tahmin edicilerin sapmalı olmasına yol açar. 44 PRF iki tane x içersin ve MLR1-MLR4 varsayımlarını sağlasın : Örnek : Veri olmadığı için ability değişkenini dışarıda bırakıyoruz: y : ücretler, x 1 : eğitim (educ), x 2 : ölçemediğimiz doğuştan gelen yetenek ability olsun. Asıl ilgilendiğimiz katsayı β 1 olsun. Veri olmadığı için x 2 yi zorunlu olarak dışlayacağız. SRF : 45 46 (2.49) dan: Sapmanın miktarı (3.46) da β 2 nin sağındaki oran, dikkat edileceği üzere, x 2 nin x 1 üzerine regresyonunun eğim katsayısıdır : (3.43) de y i yerine gerçek modeldeki değerini koyalım: Böylece sapma miktarı : 47 Eğer ise (yani, x 1 ve x 2 ilişkisiz ise) ya da β 2 =0 ise (x 2 geçersiz bir değişken ise), bu halde,, 48 β 1 in sapmasız bir tahmin edicisidir. Econometrics 8

Sapmanın işareti X 1 ve x 2 ilişkili iken, x 2 nin dışarıda bırakılmasının yol açacağı sapmanın işareti nin her ikisine de bağlıdır. Aşağıdaki tablo durumu özetliyor : Sapmanın büyüklüğü de önemlidir.β 1 in büyüklüğüne kıyasla küçük bir sapma ciddi bir sorun oluşturmazken, görece olarak büyük bir sapma arzu edilir bir şey değildir. Pratikte β 2 nin büyüklüğünü çoğu kez bilemeyiz. Ancak, x 2 nin, x 1 ile ilişkisinin ve y üzerindeki etkisinin yönünü tahmin edebiliriz. Örneğin, ability, educ ile muhtemelen doğru orantılıdır ve ücretler üzerinde + etki yapmaktadır. Demek ki, ability nin dışarıda bırakılması educ katsayısının tahmininde pozitif bir sapmaya yol açacaktır. Yani, > β 1 olacaktır. Ability nin katkısı yinelenen örneklerde educ un katkısı gibi görülecek. 49 50 Dışarıda bırakılan değişkenin etkisi u içinde yer alacağı için, dışlanan x ile ilişkili olan diğer x ler u ile ilişkili çıkacak, bu ise, tüm katsayıların sapmalı olmasına yol açacaktır. x 3 dışarıda bırakılsın. x 3, x 1 ile ilişkili, x 2 ile ilişkisiz olsun. Gerçek (true) ve tahmin edilen modeller şunlardır: Örneğin, aşağıdaki regresyonda abil in dışarıda bırakılması β 1 ve β 2 nin her ikisinin de sapmalı olmasına yol açacaktır. Exper in abil ile ilişkisiz olduğunu varsaysak bile bu değişmiyor. Bu durumda, nin her ikisi de sapmalı olacaktır. Ancak, x 1 ve x 2 ilişkisiz ise, o zaman, β 2 sapmasız olacaktır. 51 52 SEK (OLS) tahmin edicilerin varyansı Regresyondan tahmin edilen betalar bize ortalama hakkında bilgi verecektir. Ayrıca, betaşapkaların nasıl dağıldıklarını bilmek için onların varyanslarına da ihtiyacımız vardır. Artık terimlerin varyansının sabit olduğunu (homoskedasticity) varsayacağız : iki nedenle, 1.varyans formüleri daha basit hale gelir, 2. Tahmin ediciler etkinlik (efficiency) özelliği kazanır. Sabit varyans varsayımı sapmasızlık (unbiasedness) için gerekli değildir. VARSAYIM MLR.5: SABİT VARYANS Örnek : Aşağıdaki regresyonda homoskedasticity, gözlenemeyen hata terimleri u nun varyansının eğitim, tecrübe ve kıdem seviyesine bağlı olmaksızın sabit bir değer almasını gerektirir : 53 54 Econometrics 9

Gauss-Markov varsayımları Yukarıdaki MLR.1 - MLR.5 deki beş varsayım kesitler-arası (cross-section) regresyon için Gauss-Markov varsayımları adını alır. Bu varsayımlar şunlardı: 1.parametreler bakımından doğrusallık, 2.rasgele örnekleme, 3. u ların koşullu beklenen değerinin sıfıra eşitliği, 4. tam çoklu-bağıntı olmaması, 5. homoskedasticity. Kesitler-arası verinin rasgele örnekleme (random sampling) ile elde edildiğini varsayıyoruz. Zaman serilerinde bu varsayımları yeniden formüle edeceğiz. 55 Varsayım MLR.3 ve MLR.5 i y cinsinden de ifade edebiliriz x kümesi, x 1, x 2,.,x k bağımsız değişkenlerini ifade etsin. (3.32) nin sağ ve sol tarafının x e göre koşullu beklenen değerini alır ve E(u x)=0 (Varsayım MLR.3) yerine koyarsak şu eşitliğe ulaşırız: Bu, varsayım MLR.3 ün başka bir ifadesidir. Yine,(3.32) nin her iki tarafının x e göre koşullu varyansını alırsak, Var (y x) = Var (u x)=σ 2 buluruz. Bu ise varsayım MLR.5 in iki farklı şekilde ifadesidir. 56 Eğim katsayıları betaşapka ların örnekten bulunan varyansları Yukarıdaki beş Gauss-Markov varsayımlarının tümünü kullanarak betaşapkaların varyansını şöyle bulacağız : SEK (OLS) varyanslarının bileşenleri (components) (3.51) den, betaların varyansının üç faktöre bağlı olduğunu görüyoruz : 57 σ 2 : Kitlenin hata terimleri varyansı ne kadar büyük ise, yani, PRF da gözlemler regresyon çizgisinden ne denli uzak dağılmışsa (veride noise var diyoruz), betaların varyansı o denli büyük olur. Bu ise, tahminin kesinlikten uzak olmasına yol açar. Kurulan güven aralıkları çok geniş olur. σ 2 yi düşürmek için regresyona yeni güçlü açıklayıcı değişkenler (bulabiliyorsak) eklememiz gerek. 58 x j deki toplam değişme, SST j, büyüdükçe betanın varyansı düşer. Yani, bağımsız değişkenlerde değişme ne kadar çoksa o kadar daha kesin tahminler yapabileceğiz. Tersine, değişmenin azlığı varyansın büyük olmasına, o da tahminin muğlaklığına yol açacaktır. OLS t.e.nin varyansı x lerin birbirleriyle doğrusal ilişkilerinin gücüne de bağlıdır. R j2 bu ilişkiyi gösterir. R 2 j bire yaklaştıkça yani x ler arasında güçlü bir doğrusal ilişki varsa varyans büyür. Tek bir tane x in olduğu basit regresyonda β 1 in varyansını veren formülde bu terim yer almaz. İki bağımsız değişkenli durumu, k=2, ele alalım: x j deki toplam değişmeyi artırmanın tek yolu örnek hacmini (n) artırmaktır. Dolayısıyla, n arttıkça SST j sınırsız olarak artacak, bu ise, betaşapkaların varyansını düşürecek, daha kesin tahminler yapmamız mümkün olacaktır. 59 60 Econometrics 10

, x j nin örnek değerlerindeki toplam değişmenin diğer x ler tarafından açıklanan % kısmıdır, yani, şu regresyonun determinasyon katsayısıdır : x j = β 0 + β 1 x 1 +... + β k x k + u x j, diğer x lerle ne kadar az ilişkili ise β j nin (3.51) den hesaplanacak varyansı da o denli küçük olacaktır.aksine,, ne kadar 1 e doğru yaklaşırsa varyans o kadar büyük olacaktır. Yani, x ler arasında yüksek çoklu-bağıntı (multicolinearity) olması tahminin kesinliğine zarar verir. Tam çoklu-bağıntı halinde, =1, zaten betaları hesaplayamıyorduk (Varsayım MLR.4 ün ihlali). 61 Örnek hacminin (n) küçüklüğü ve yüksek çoklubağıntının her ikisi de betaların varyanslarının yüksek olmasına yol açtığı için, yüksek çoklu bağıntı sorununu bir küçük örnek hacmi sorunu olarak görebiliriz. Arthur Goldberger buna micronumerosity diyor. x lerin bazıları arasında (x 2 ile x 3 diyelim) yüksek ilişki var, bazıları arasında (x 1 ile x 2 ve x 1 ile x 3 arasında diyelim) ilişki yoksa, ilişkisiz olan x e (x 1 burada) ait betaşapkanın varyansı, Var(β^1), ilişkili x ler arasındaki korelasyondan etkilenmez. Yani, Var(β^1) formülüne sadece girecektir. 62 Varyans ve sapmasızlık arasında seçim Gerçek kitle modeli şu olsun : Bu modeli önce iki bağımsız değişkenle (x 1 ve x 2 ), sonra sadece x 1 ile tahmin edelim: Var (β^1) ilk ve ikinci modelde şunlara eşittir : 63 64 Tahmin edilen iki beta nın varyans ve sapmasızlık mukayesesi şöyledir : 65 ise seçim daha zor. x 2 yi dışarıda bırakmak β 1 in tahmininin sapmalı olmasına yol açacak. Dahil etmek ise β 1 in varyansını yükseltecek. İkilem (trade-off) durumu. Ekonometrisyen bu iki zıt yönlü etkiyi ölçüp tartacak ve x 2 yi denkleme sokup sokmayacağına karar verecek. Ancak, x 2 yi dahil etme yönünde işleyen iki etken var : 1. Sapma (bias) örnek hacmi n arttıkça azalmaz, oysa, çoklubağıntı (ve onun yol açtığı vayans artışı) azalır. Dolayısıyla, x 2 yi denkleme dahil edip mümkün olduğu kadar büyük örnek bulmalıyız. 2. Formül (3.54) ve (3.55) deki σ 2, x 2 nin dışlanmasını dikkate almadan hesaplanan hata terimleri (u) varyansıdır. x 2 yi dışladığımızda u nun varyansı artacaktır. Dolayısıyla (3.55) deki σ 2 orada gözükenden daha büyüktür. Yani, x 2 yi dışlamanın getireceği düşük varyans avantajı formüllerde gözükenden daha azdır. 66 Econometrics 11

σ 2 nin tahmini: OLS t.e.nin standart hataları PRF daki u ları gözlemleyemeyiz. Onların yerine, tahmin edilen regresyondan hesaplayacağımız artık terimleri vardır : Çoklu-regresyonda σ2 nin sapmasız bir tahmin edicisi şudur : 67 Serbestlik derecesi (df) =n-(k+1) eşitliği şuradan gelmektedir: Birinci sıra (first order) SEKK (OLS) koşulları k+1 tane idi : Böylece SEKK (OLS) artıkları (residuals) üzerine k+1 tane kısıt koyuyoruz. Yani n tane artık tan n-(k+1) tanesi verilince geriye kalan k+1 artığı otomatik olarak biliyoruz. Demek ki, artıklardaki serbestlik derecesi n-(k+1) dir. Kitleye ait hata terimleri (errors), u(i), için df ise n dir. 68 σ 2 nin sapmasız tahmin edicisi Betaşapkaların standart sapmaları (ispatı Appendix E de verilmektedir). Betalarla ilgili hipotez testleri yapmak ve güven aralıkları oluşturmak (buna inference denir) için onların standart sapmalarına ihtiyacımız vardır : Regresyona yeni bir açıklayıcı değişken eklendiğinde SER düşebilir de artabilir de. Zira, yeni bir x eklenince SSR düşer, ancak df de 1 azalır. (3.56), net etkinin hangi yönde olacağını gösterecektir. 69 70 Standart hataların hesaplandığı (3.51) u ların varyansının sabit olduğu (homoskedasticity) varsayımına, MLR.5, dayanıyordu. Artıklar değişken-varyansa sahipse (heteroskedasticity) (3.58) doğru sonuç vermeyecektir. Yani, değişken-varyans betaların sapmasızlığını etkilemediği halde, betaların varyans formüllerini geçersiz kılmaktadır. Değişken-varyans durumunda ne yapılabilceğini ch. 8 de göreceğiz. SEK (OLS) nin etkinliği: Gauss-Markov Teoremi Neden SEKK (OLS) tahmin edicileri diğer tahmin edicilere tercih ediyoruz? Gauss-Markov teoremi SEKK (OLS) i tercih etmemizin gerekçelerini sunar. 1. Varsayım MLR.1-MLR.4 altında SEKK (OLS) sapmasız tahmin ediciler verir. 2. Varsayım MLR.1-MLR.5 altında SEKK (OLS) tahmin edicileri, minimum varyanslı, doğrusal ve sapmasızdırlar : 71 72 Econometrics 12

BLUE Gauss-Markov teoremi Gauss-Markov teoreminin önemi şuradan gelmektedir: Eğer varsayım MLR.1-MLR.5 sağlanıyorsa, bu durumda artık (3.59) daki türde başka doğrusal ve sapmasız tahmin ediciler aramamıza gerek yoktur. En küçük varyanslı tahmin edici SEKK (OLS) dir. 5 varsayımdan birisi ihlal edilirse teorem geçersiz olur. MLR.3 sağlanamazsa sapmasızlık, MLR.5 sağlanamazsa minimum varyanslılık özelliği kaybolur. 73 74 Appendix : Sapmasızlık teoreminin (Th. 3.1) ispatı 76 Teorem 3.2 (sh.93) nin ispatı: Gauss-Markov teoreminin (Th. 3.4) ispatı 77 78 Econometrics 13

79 80 Econometrics 14