YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. ed., 2002, Thomson Learning. Ch. 3: Çok Değişkenli Regresyon Analizi: Tahmin Doç. Dr. Hüseyin Taştan 1 1 Yıldız Teknik Üniversitesi, İktisat Bölümü, Yıldız Kampüsü H Blok, Oda no. 124, Beşiktaş, İstanbul. Email: tastan@yildiz.edu.tr Çoklu Regresyon Analizi (Multiple Regression Analysis) Basit regresyonda kilit varsayım olan SLR.3 varsayımı çoğu zaman gerçekçi olmayan bir varsayımdır. SLR.3: y yi etkileyen tüm diğer faktörler x ile ilişkisizdir (ceteris paribus). Çoklu regresyon analizinde bağımlı değişkeni (y) eşanlı (simultaneously) olarak etkileyen pek çok etkeni kontrol edebiliriz. Zira, çok sayıda açıklayıcı değişken (x) kullanabileceğiz. Modele yeni değişkenler ekleyerek y deki değişmenin daha büyük bir kısmını açıklayabiliriz. Yani, y nin tahmini için daha üstün modeller geliştirebiliriz. Çoklu regresyonda regresyonun biçimini (functional form) belirlemede çok daha geniş olanaklara sahip olacağız. Örnek 1: İki bağımsız değişkene sahip model Burada, β 1, ücretleri etkileyen diğer tüm faktörleri sabit tuttuğumuzda, eğitimin ücretlere etkisini ölçer. β 2 ise, benzer şekilde tecrübenin ücretlere ceteris paribus etkisini gösterecektir. Bu regresyonda tecrübeyi sabit (fixed) tutarak eğitimin ücretlere katkısını ölçebiliyoruz. Basit regresyonda bu olanak yoktu. Sadece educ ile u ilişkisizdir diye varsayıyorduk. Bu da güçlü olmayan bir varsayımdı. 3 Econometrics 1

Örnek 2 : avgscore: ortalama test skoru, expend : öğrencinin harcamaları, avginc : ortalama aile geliri Eğer aile gelirini (avginc) regresyona doğrudan sokmaz isek, onu, u nun içinde ele almış olacağız. Aile geliri öğrencinin harcaması (expend) ile yakından ilişkili olduğundan, bu halde, x (harcama) ile u ilişkili olacak ve kilit varsayımımız, SLR.3, ihlal edilecekti. Bu ise β 1 in sapmalı (biased) olmasına yol açacaktı. Avginc değişkenini modele sokarak onu doğrudan kontrol etme olanağına kavuştuk. 4 Çoklu regresyon, regresyonun fonksiyonel biçimini genelleştirmeye izin verir. Ailelerin tüketimini (consumption) gelirlerinin (income) karesel (quadratic) bir fonksiyonu olarak ifade edelim : Burada x 1 = inc, x 2 = inc 2 dir. Bu regresyonda β 1 in yorumu farklı olacaktır. Zira, inc 2 yi sabit tutarak inc ın cons üzerindeki etkisini ölçemeyiz. inc ile karesi inc 2 birlikte değişir. Gelirdeki değişmenin tüketime etkisi, yani, marjinal tüketim eğilimi (marginal propensity to consume) regresyonda şuna eşittir : 5 Demek ki, marjinal tüketim eğilimi, β 1 e olduğu kadar β 2 ye de bağlıdır. İki bağımsız değişken durumunda u nun x lerle ilişkisiz olması varsayımını şöyle formüle edeceğiz : Yani, x 1 ve x 2 nin kitledeki (population) tüm kombinezonları için u nun beklenen değeri sıfırdır. Örneğin, (3.1) deki regresyonda, E(u educ, exper) = 0, ücretleri etkileyen diğer faktörlerin (u) ortalama olarak educ ve exper ile ilişkisiz olduğu anlamına gelir. Örneğin, ability u nun bir parçası ise, ortalama ability düzeyi, çalışanlar kesiminde educ ve exper in tüm kombinezonlarında aynıdır (sabittir). 6 Econometrics 2

(3.2) deki regresyonda bu varsayım : E(u expend, avginc)=0 olur. Yani, test skorlarını etkileyen diğer faktörler (okula ya da öğrenciye özgü karakteristikler vs.), ortalama olarak, expend ve avginc değişkenleriyle ilişkisizdir. (3.4) deki quadratic regresyonda bu varsayım : E(u inc, inc2)= E (u inc)=0 olur. inc biliniyorken inc 2 otomatik olarak bilineceği için parantezin içine ayrıca inc 2 yazmaya gerek yoktur. 7 k tane bağımsız değişkene sahip model Genel çoklu doğrusal regresyon modeli : Bu modelde k tane x, k+1 tane bilinmeyen (tahmin edilecek olan) parametre (beta) vardır. Hata terimi (error term, disturbance) u ; x 1, x 2,, x k dışında y yi etkileyen tüm diğer faktörleri temsil eder. Modele ne kadar çok sayıda x eklersek ekleyelim, yine de dışarıda kalmış olan etkenler ya da gözlenemeyen faktörler var olacaktır. 8 Çoklu regresyonda betaların yorumu Herhangi bir beta, β 3 diyelim, diğer x ler ve u da içerilen faktörler sabitken (ceteris paribus varsayımı), x 3 deki bir birimlik değişmenin y de yaratacağı değişmeyi gösterir. Ancak, x lerde doğrusal-olmayan özellik varsa bu yorum değişir. Örneğin şu regresyonu ele alalım: Ceoten: CEO nun kıdemi (tenure) (yıl). Burada, β 1, diğer her şey sabitken, satışlarda %1 lik bir artışın CEO maaşlarında yaratacağı % artışdır. Yani, maaşların satış esnekliğidir. Buna karşılık, β 2, β 3 0 olduğu sürece, kıdemde 1 yıl artış olduğunda maaşdaki % artışı göstermez. Zira, x 3 =ceoten 2 yi sabit tutup x 2 yi bir birim artıramıyoruz, kareli terim de artıyor. Bu yüzden, kıdemdeki bir birim (1 yıl) değişmenin maaşa etkisini şu kısmi türevden bulacağız : δlog(salary) / δceoten = β 2 + 2 β 3 ceoten 9 Econometrics 3

x lerle u nun ilişkisizliği varsayımı burada şöyle formüle edilir : x lerden biriyle u arasında ilişki olması EKK (OLS) tahmin edicilerin sapmalı (biased) olmasına yol açar. İhmal edilmiş, yani dışarıda bırakılmış önemli bir değişken varsa, bu da sapmaya yol açacaktır. Bu aynı zamanda fonksiyon kalıbının da doğru kurulduğu anlamına gelir. 10 SEKK (OLS) tahmin edicileri İki bağımsız değişkenli durumda tahmin edilen regresyon şöyle olacaktır : Sıradan en küçük kareler, SEKK (ordinary least squares, OLS) beta parametrelerini aşağıdaki artıklar kareler toplamını (AKT / SSR) minimize edecek şekilde belirler : Örnek (sample), y ve x lerin n sayıdaki gözlemlerinden oluşur : 11 k bağımsız değişkenli model: Tahmin edilen regresyon (sample regression function, SRF) şu olacaktır : k+1 adet beta şu KKT (SSR) yi minimum edecek şekilde seçilecektir : Bu minimizasyon problemi aşağıdaki k+1 adet doğrusal denklemin çözümüdür: 12 Econometrics 4

k+1 adet doğrusal denklem k+1 adet bilinmeyen beta parametresi için çözülecektir. Bunlara, SEK birinci sıra koşullar denir (OLS first order conditions). 13 Method of moments (3.13) deki denklemler momentler yöntemi (method of moments) ile de ifade edilebilirdi. (3.8) deki x lerle u ilişkisizdir varsayımdan : (3.13) deki denklemler bu kitle (population) momentlerinin örneklemdeki karşılığıdır. (3.13) ün betalar için tek bir (unique) çözüm vermesinin koşullarını aşağıda göreceğiz. 14 SEK regresyonunun yorumu İki bağımsız değişkenli durumu ele alalım: Eğim parametre tahminleri açıklayıcı değişkenlerin y üzerindeki ceteris paribus ya da kısmi etkilerini verir. in yorumu: x 2 sabitken yani Benzer şekilde, x 1 sabitken nın yorumu 15 Econometrics 5

Örnek 3.1: GRETL, gpa1.gdt Üniversite GPA (grade point average) notunun açıklanması ve tahmini. Bağımsız değişkenler, high school GPA ve achievement test score (ACT), n=141 öğrenci : Bu regresyonda β 0 ın yorumu anlamsız olduğu için yapılmaz. Lise GPA sı=0 ve başarı test notu ACT=0 konduğunda üniversite GPA sı=1.29 oluyor, ancak anlamsız. ACT ı sabit tutarak lise GPA sını 1 puan artırdığımızda üniversite GPA sı yarım puana yakın (0.453) artıyor. ACT notu aynı olan iki öğrenciden lise GPA sı yüksek olanın üniversite GPA sı da yüksek olacaktır. ACT ın işareti + dır, yani, başarı testinden yüksek alanların üniversite GPA puanlarının daha yüksek olması beklenebilir. 16 Ancak, katsayısı çok küçük olduğu için etkisi fazla değil. Sadece ACT notunu alarak basit regresyon tahmin etseydik şöyle olacaktı : ACT ın katsayısı (3.15) deki çoklu regresyonda bulunandan 3 kat daha yüksek çıktı. Ancak, bu regresyon, bize, lise GPA sı aynı iki öğrenciyi karşılaştırma olanağı vermiyor. Önceki regresyon veriyordu. 17 k değişkenli modelde yorum: Bu modeli değişimler cinsinden şöyle yazabiliriz: x 1 in katsayısının yorumu şöyledir: Tüm diğer açıklayıcı değişkenler sabit tutulduğunda, x 1 deki bir birimlik değişimin y de meydana getireceği (ortalama) değişim (y nin birimi cinsinden) 18 Econometrics 6

Örnek 3.2 : Saat ücretleri denklemi, GRETL wage1.gdt n=526 çalışan kapsanıyor. Tenure: O işyerinde çalışılan yıl sayısı (kıdem) Regresyon : Çoklu regresyon söz konusu olduğu için katsayı tahminleri (betaşapkalar) ceteris paribus koşuluyla yorumlanmalı. Bağımlı değişken log(=ln) cinsinden olduğu için, x lerdeki bir birimlik değişme, y de, betalar kadar % değişme yaratacaktır. Örneğin, exper ve tenure sabit tutarak educ u 1 yıl artırmak ücretlerde 0.092 (=%9.2) kadar bir artış sağlayacaktır. Başka bir ifadeyle, iş tecrübesi ve kıdemleri aynı olan iki işçiden biri eğer diğerinden 1 yıl fazla okumuşsa, onun ücreti diğerininkinden %9.2 fazla olacaktır (somut iki işçiden değil ortalama durumdan söz ediliyor). 19 Regresyonda Diğer Faktörleri Sabit Tutma nın Anlamı Çoklu regresyonda beta katsayılarını ceteris paribus koşulu altında bağımsız değişkenlerin y üzerindeki kısmi etki leri (partial effects) olarak yorumluyoruz. Örneğin, yukarıdaki regresyonda, β 1 =0.092, tecrübe ve kıdemi aynı olan iki işçiden eğitimi 1 yıl fazla olanının %9.2 daha yüksek ücret alacağı şeklinde yorumlandı. Bu yorum, verinin bu şekilde toplandığı anlamına gelmez. Veri (data) rasgele seçilmiş 526 işçiye ait ücret, eğitim ve kıdem bilgilerinden oluşuyor. Kıdemi ve tecrübesi aynı olan işçileri ayrıca gruplandırmıyoruz. Aslında kıdemleri aynı olan işçilerden oluşan bir örneklem olsaydı kıdem değişkenini modele koymaya gerek kalmazdı. Ancak uygulamada çoğunlukla bu mümkün değildir. Çoklu regresyon analizinde zaten buna gerek yoktur. 20 Birden fazla bağımsız değişkeni aynı anda değiştirmek Bazen x lerden bir kaçını birden birer birim artırarak bunların y deki toplam etkisini bilmek isteriz, ya da, x lerden birini 1 birim artırdığımızda diğeri de otomatik olarak artar. Örneğin, (3.19) daki regresyonda, kıdemi (tenure) 1 yıl artırdığımızda tecrübe (exper) de otomatik olarak 1 yıl artar. Böylece, ikisinin ücret üzerindeki etkisi %2.61 olmuş olur: 21 Econometrics 7

EKK (OLS) den bulunan tahmini değer ve artıklar (kalıntılar) (3.11) deki EKK (OLS) regresyonu her bir i.nci gözlem için bir tahmini değer (fitted or predicted value) verecektir : Yani, söz konusu i.nci gözleme denk gelen x değerlerini regresyonda yerine koyup tahmini değeri bulacağız. i.nci gözleme ait gerçek (actual) değerle regresyondan bulunan tahmini değerin farkı ise artık terimi (residual) verir : 22 SEK (OLS) den bulunan tahmini değerlerin ve artık terimlerin özellikleri Her bir gözlem için bir artık terim vardır. 1. Artıkların örnek ortalaması (sample average) sıfırdır. 2. Her bir x ile EKK (OLS) artıklarının örnekten bulunan kovaryansı sıfırdır (ilişkisizler). Bu, tahmini değerlerle artıkların örnek kovaryanslarının da sıfır olması anlamına gelir. 23 Bu özelliklerden ilk ikisi (3.13) deki SEKK (OLS) denklemlerinden çıkan sonuçlardır. (3.13) deki ilk denklem artıkların toplamının sıfır olacağını söyler. Diğer denklemler şeklindedir. Bunlar ise, her bir x in ile örnek kovaryansının sıfır olmasını zorunlu kılar. 3.cü özellik 1.ci özelliğin bir sonucu olarak ortaya çıkar. 24 Econometrics 8

x leri birbirlerinin etkilerinden arındırarak da betaşapkaları bulabiliriz İki bağımsız değişkenli, k=2, regresyonu ele alalım: x 1 in eğim katsayı tahmin edicisi, olarak yazılabilir. Burada x 1 in x 2 üzerine regresyonundan elde edilen kalıntılardır. (3.22) basitçe y nin bu kalıntılar üzerine regresyonundan elde edilen eğim parametresi olarak bulunabilir. Bu aslında ceteris paribus yorumunun başka bir versiyonudur. Bu iki adımlı regresyonla x 2 nin etkisi arındırılmıştır (partialled out, netted out) 25 Basit ve çoklu regresyon tahminlerinin karşılaştırılması y nin x 1 üzerine regresyonu ile y nin x 1 ve x 2 üzerine regresyonu genel olarak farklı beta tahminleri verir. Ancak, şu iki özel durumda iki regresyon da aynı β 1 tahminini verir : 1. x 2 nin y üzerindeki kısmi etkisi sıfırdır, 2. Örneklemde x 1 ve x 2 ilişkisizdir. 26 Uyumun başarı derecesi ya da iyiliği (Goodness of fit) Bütün kareler toplamı (total sum of squares): BKT (SST) Açıklanan kareler toplamı (explained sum of squares: AKT (SSE) Kalıntı (artık) kareler toplamı(residual sum of squares):kkt (SSR) 27 Econometrics 9

R 2 : determinasyon katsayısı Son ifadenin her iki tarafını SST ye bölersek Determinasyon katsayısı olarak tanımlanır. R 2 nin y nin tahmin değerleri ile gözlenen değerleri arasındaki korelasyon katsayısının karesi olduğu gösterilebilir: 28 Tahmini değerlerin ortalaması gerçek (gözlenen, actual) y değerlerinin ortalamasına eşittir : =. Bunu, u ların toplamının sıfır olduğunu ve olduğunu dikkate alarak gösterebiliriz (son eşitlikte her iki tarafın 1 den n e kadar toplamını alınız, sonra her bir terimi n e bölünüz). 29 Regresyona yeni bir değişken eklendiğinde R 2 daima artış yönünde hareket eder, hiçbir zaman azalmaz. Zira, yeni değişkenler eklendikçe SSR (sum of squared residuals) azalma yönünde değişir, asla artmaz. Dolayısıyla, eklenen değişkenin katkısını ölçmede R 2 fazla iyi bir kriter değildir. Bu amaç için düzeltilmiş (adjusted) R 2 tanımlayacağız. 30 Econometrics 10

() Örnek, Gretl gpa1.gdt 31 Orijinden geçen regresyon (regression through the origin) Bazen iktisat teorisi regresyon sabitinin, β 0, sıfır olması gerektiğini telkin eder. Bu halde regresyon şöyle olur : 32 Orijinden geçen regresyonda SEKK (OLS) yine SSR yi minimize eder, ancak sabit terim (intercept) sıfıra eşit kılınarak bu yapılır. Orijinden geçen regresyonda 1- SSR/SST şeklinde tanımlanmış R 2 negatif çıkabilir. Negatif R 2 sıfır olarak kabul edilebilir ya da sabit konarak yeniden regresyon tahmini yapılır. R 2 nin negatif çıkması, y nin örneklem ortalamasının (ybar) y deki değişkenliği açıklamada modeldeki değişkenlerden daha başarılı olduğu anlamına gelir. Eğer PRF da β 0 sıfırdan farklı ise orijinden geçen regresyonun beta tahminleri sapmalı olacaktır. β 0 gerçekte sıfır iken sıfır değilmiş gibi regresyona koymak betaların varyanslarının daha büyük olarak tahmin edilmesine yol açar. 33 Econometrics 11

SEK (OLS) tahmin edicilerin sapmasızlığını (kitle parametreleri için) sağlayan varsayımlar VARSAYIM MLR.1: Parametrelerde Doğrusallık Bu varsayıma göre populasyon regresyon modeli parametrelerde doğrusaldır: 34 Varsayımlar () VARSAYIM MLR.2: Rassal Örnekleme 35 Varsayımlar () VARSAYIM MLR.3: Sıfır Koşullu Ortalama Varsayım MLR.3 ün sağlanamadığı bir durum regresyonun fonksiyonel biçiminin yanlış seçildiği (misspecification) durumdur. Önemli bir değişkenin regresyon dışında bırakılması (omitted variable) da yine bu varsayımın ihlaline yol açar. Değişkenlerin ölçülmesinde yapılan hatalar (measurement errors) yine varsayımın ihlalini doğurur. Varsayım MLR.3 sağlandığında, yani, x lerle u lar ilişkisiz ise, açıklayıcı değişkenlerimiz dışsaldır (exogenous) deriz. Aksi 36 halde, içsel (endogenous) x ler söz konusudur. Econometrics 12

Varsayımlar () VARSAYIM MLR.4: Çoklu bağıntı olmaması varsayımı : x ler bu varsayıma göre ilişkili olabilirler, ancak, tam çoklubağıntı olmaması gerekir. x ler tam ilişkili olurlarsa katsayılar tahmin edilemez. Bu varsayıma göre açıklayıcı değişkenler ilişkili (correlated) olabilirler. x ler arasında korelasyona izin vermezsek çoklu regresyondan istediğimiz faydayı alamayız. Örneğin, öğrenci notları, harcamaları ve aile geliri regresyonunda aile geliri (avginc) ile harcama (expend) arasında ilişki olduğunu bilerek bu değişkenleri modele 37 sokuyoruz. Amaç geliri kontrol etmek. Regresyona, aynı bağımsız değişkenin değişik doğrusal-olmayan (nonlinear) fonksiyonları sokulabilir. Bu çoklu- bağıntıya yol açmaz. Örneğin : Oysa, şu örnekte çoklu-bağıntı vardır : 38 x lerden birisi diğer x lerin doğrusal kombinezonu ise çoklu-bağıntı durumu gerçekleşir. Örneğin, regresyona x 1 ve x 2 nin yanında x 3 (=x 1 +x 2 ) şeklinde, ya da, x 3 =ax 1 +bx 2 şeklinde (a, b sabit) başka bir değişken sokamayız. Gözlem sayısının (n) tahmin edilecek parametre (k+1) sayısından küçük olması da çoklu-bağıntıya yol açar : n<k+1. Pratikte tam çoklu-bağıntı durumu ile çok seyrek karşılaşılır. Daha çok x ler arasında yüksek bağıntı söz konusudur. Tam çoklu-bağıntı durumunda SEK tahmin edicilerini hesaplayamayız. 39 Econometrics 13

Yukarıdaki dört varsayım altında EKK (OLS) tahmin edicileri sapmasızdır (unbiased) SEKK (OLS) tahmin edicileri sapmasızdır derken örnekten bulunan tahminlerini (estimates) kastetmiyoruz. Örnekten bulunan tahmin sabit bir sayıdır ve sapmasız (unbiased) olamaz. Sapmasız olan SEKK (OLS) tahmin edicilerinin elde edildiği süreçtir (procedure). 40 Dört varsayım : 1. Parametreler bakımından doğrusallık, 2. Rasgele örnekleme, 3. Sıfır koşullu ortalama (zero conditional mean), yani, u ile x lerin ilişkisiz olması ve 4. Tam çoklu-bağıntı olmaması. En kritiği 3.cü varsayım. Modelde spesifikasyon hatası ve ihmal edilmiş önemli değişken(ler) yoksa bu varsayım sağlanabilir. Diğer 3 varsayımın sağlanması zor değil. 41 Modele gereksiz (irrelevant) bağımsız değişken sokulması Çoklu regresyona kitle bakımından y üzerindeki kısmi (partial) etkisi sıfır olan değişken ya da değişkenlerin sokulması.yani, PRF da beta katsayısı sıfır olan değişkenin sokulması. Bu duruma modelin overspecifying i denir. (3.38) deki PRF da x 3 ün kısmi katkısının sıfır olduğunu varsayalım. 42 Econometrics 14

X 3 ün kısmi katkısının sıfır olduğunu (PRF da β 3 =0 ) bilmediğimiz için onu SRF a dahil edeceğiz : Bunun regresyona etkisi ne olur? Diğer betalar yine sapmasızdır, β 3 ise SRF da belli bir değer alacak, ancak, değişik tekrarlanan örneklerdeki ortalama değeri (beklenen değeri) sıfır olacaktır. Modele gereksiz x lerin sokulması tahmin edicilerin varyanslarının yüksek çıkmasına yol açar. 43 İhmal edilmiş değişkenin yol açtığı sapma (Omitted variable bias) Yukarıdakinin tersine, PRF da sıfır olmayan bir beta katsayısına sahip geçerli bir değişkeni dışarıda bırakalım. Bu duruma modelin eksik spesifikasyonu (underspecifying the model) veya geçerli değişkenin dışarıda bırakılması (excluding a relevant variable) denir. Bu sorun EKK (OLS) tahmin edicilerin sapmalı olmasına yol açar. 44 PRF iki tane x içersin ve MLR1-MLR4 varsayımlarını sağlasın : y : ücretler, x 1 : eğitim (educ), x 2 : ölçemediğimiz doğuştan gelen yetenek ability olsun. Asıl ilgilendiğimiz katsayı β 1 olsun. Veri olmadığı için x 2 yi zorunlu olarak dışlayacağız. SRF : 45 Econometrics 15

Örnek : Veri olmadığı için ability değişkenini dışarıda bırakıyoruz: 46 (2.49) dan: Sapmanın miktarı (3.43) de y i yerine gerçek modeldeki değerini koyalım: 47 (3.46) da β 2 nin sağındaki oran, dikkat edileceği üzere, x 2 nin x 1 üzerine regresyonunun eğim katsayısıdır : Böylece sapma miktarı : Eğer ise (yani, x 1 ve x 2 ilişkisiz ise) ya da β 2 =0 ise (x 2 geçersiz bir değişken ise), bu halde,, 48 β 1 in sapmasız bir tahmin edicisidir. Econometrics 16

Sapmanın işareti X 1 ve x 2 ilişkili iken, x 2 nin dışarıda bırakılmasının yol açacağı sapmanın işareti nin her ikisine de bağlıdır. Aşağıdaki tablo durumu özetliyor : 49 Sapmanın büyüklüğü de önemlidir.β 1 in büyüklüğüne kıyasla küçük bir sapma ciddi bir sorun oluşturmazken, görece olarak büyük bir sapma arzu edilir bir şey değildir. Pratikte β 2 nin büyüklüğünü çoğu kez bilemeyiz. Ancak, x 2 nin, x 1 ile ilişkisinin ve y üzerindeki etkisinin yönünü tahmin edebiliriz. Örneğin, ability, educ ile muhtemelen doğru orantılıdır ve ücretler üzerinde + etki yapmaktadır. Demek ki, ability nin dışarıda bırakılması educ katsayısının tahmininde pozitif bir sapmaya yol açacaktır. Yani, > β 1 olacaktır. Ability nin katkısı yinelenen örneklerde educ un katkısı gibi görülecek. 50 Dışarıda bırakılan değişkenin etkisi u içinde yer alacağı için, dışlanan x ile ilişkili olan diğer x ler u ile ilişkili çıkacak, bu ise, tüm katsayıların sapmalı olmasına yol açacaktır. x 3 dışarıda bırakılsın. x 3, x 1 ile ilişkili, x 2 ile ilişkisiz olsun. Gerçek (true) ve tahmin edilen modeller şunlardır: Bu durumda, nin her ikisi de sapmalı olacaktır. Ancak, x 1 ve x 2 ilişkisiz ise, o zaman, β 2 sapmasız olacaktır. 51 Econometrics 17

Örneğin, aşağıdaki regresyonda abil in dışarıda bırakılması β 1 ve β 2 nin her ikisinin de sapmalı olmasına yol açacaktır. Exper in abil ile ilişkisiz olduğunu varsaysak bile bu değişmiyor. 52 SEK (OLS) tahmin edicilerin varyansı Regresyondan tahmin edilen betalar bize ortalama hakkında bilgi verecektir. Ayrıca, betaşapkaların nasıl dağıldıklarını bilmek için onların varyanslarına da ihtiyacımız vardır. Artık terimlerin varyansının sabit olduğunu (homoskedasticity) varsayacağız : iki nedenle, 1.varyans formüleri daha basit hale gelir, 2. Tahmin ediciler etkinlik (efficiency) özelliği kazanır. Sabit varyans varsayımı sapmasızlık (unbiasedness) için gerekli değildir. VARSAYIM MLR.5: SABİT VARYANS 53 Örnek : Aşağıdaki regresyonda homoskedasticity, gözlenemeyen hata terimleri u nun varyansının eğitim, tecrübe ve kıdem seviyesine bağlı olmaksızın sabit bir değer almasını gerektirir : 54 Econometrics 18

Gauss-Markov varsayımları Yukarıdaki MLR.1 - MLR.5 deki beş varsayım kesitler-arası (cross-section) regresyon için Gauss-Markov varsayımları adını alır. Bu varsayımlar şunlardı: 1.parametreler bakımından doğrusallık, 2.rasgele örnekleme, 3. u ların koşullu beklenen değerinin sıfıra eşitliği, 4. tam çoklu-bağıntı olmaması, 5. homoskedasticity. Kesitler-arası verinin rasgele örnekleme (random sampling) ile elde edildiğini varsayıyoruz. Zaman serilerinde bu varsayımları yeniden formüle edeceğiz. 55 Varsayım MLR.3 ve MLR.5 i y cinsinden de ifade edebiliriz x kümesi, x 1, x 2,.,x k bağımsız değişkenlerini ifade etsin. (3.32) nin sağ ve sol tarafının x e göre koşullu beklenen değerini alır ve E(u x)=0 (Varsayım MLR.3) yerine koyarsak şu eşitliğe ulaşırız: Bu, varsayım MLR.3 ün başka bir ifadesidir. Yine,(3.32) nin her iki tarafının x e göre koşullu varyansını alırsak, Var (y x) = Var (u x)=σ 2 buluruz. Bu ise varsayım MLR.5 in iki farklı şekilde ifadesidir. 56 Eğim katsayıları betaşapka ların örnekten bulunan varyansları Yukarıdaki beş Gauss-Markov varsayımlarının tümünü kullanarak betaşapkaların varyansını şöyle bulacağız : 57 Econometrics 19

SEK (OLS) varyanslarının bileşenleri (components) (3.51) den, betaların varyansının üç faktöre bağlı olduğunu görüyoruz : σ 2 : Kitlenin hata terimleri varyansı ne kadar büyük ise, yani, PRF da gözlemler regresyon çizgisinden ne denli uzak dağılmışsa (veride noise var diyoruz), betaların varyansı o denli büyük olur. Bu ise, tahminin kesinlikten uzak olmasına yol açar. Kurulan güven aralıkları çok geniş olur. σ 2 yi düşürmek için regresyona yeni güçlü açıklayıcı değişkenler (bulabiliyorsak) eklememiz gerek. 58 x j deki toplam değişme, SST j, büyüdükçe betanın varyansı düşer. Yani, bağımsız değişkenlerde değişme ne kadar çoksa o kadar daha kesin tahminler yapabileceğiz. Tersine, değişmenin azlığı varyansın büyük olmasına, o da tahminin muğlaklığına yol açacaktır. x j deki toplam değişmeyi artırmanın tek yolu örnek hacmini (n) artırmaktır. Dolayısıyla, n arttıkça SST j sınırsız olarak artacak, bu ise, betaşapkaların varyansını düşürecek, daha kesin tahminler yapmamız mümkün olacaktır. 59 OLS t.e.nin varyansı x lerin birbirleriyle doğrusal ilişkilerinin gücüne de bağlıdır. R j2 bu ilişkiyi gösterir. R 2 j bire yaklaştıkça yani x ler arasında güçlü bir doğrusal ilişki varsa varyans büyür. Tek bir tane x in olduğu basit regresyonda β 1 in varyansını veren formülde bu terim yer almaz. İki bağımsız değişkenli durumu, k=2, ele alalım: 60 Econometrics 20

, x j nin örnek değerlerindeki toplam değişmenin diğer x ler tarafından açıklanan % kısmıdır, yani, şu regresyonun determinasyon katsayısıdır : x j = β 0 + β 1 x 1 +... + β k x k + u x j, diğer x lerle ne kadar az ilişkili ise β j nin (3.51) den hesaplanacak varyansı da o denli küçük olacaktır.aksine,, ne kadar 1 e doğru yaklaşırsa varyans o kadar büyük olacaktır. Yani, x ler arasında yüksek çoklu-bağıntı (multicolinearity) olması tahminin kesinliğine zarar verir. Tam çoklu-bağıntı halinde, =1, zaten betaları hesaplayamıyorduk (Varsayım MLR.4 ün ihlali). 61 Örnek hacminin (n) küçüklüğü ve yüksek çoklubağıntının her ikisi de betaların varyanslarının yüksek olmasına yol açtığı için, yüksek çoklu bağıntı sorununu bir küçük örnek hacmi sorunu olarak görebiliriz. Arthur Goldberger buna micronumerosity diyor. x lerin bazıları arasında (x 2 ile x 3 diyelim) yüksek ilişki var, bazıları arasında (x 1 ile x 2 ve x 1 ile x 3 arasında diyelim) ilişki yoksa, ilişkisiz olan x e (x 1 burada) ait betaşapkanın varyansı, Var(β^1), ilişkili x ler arasındaki korelasyondan etkilenmez. Yani, Var(β^1) formülüne sadece girecektir. 62 63 Econometrics 21

Varyans ve sapmasızlık arasında seçim Gerçek kitle modeli şu olsun : Bu modeli önce iki bağımsız değişkenle (x 1 ve x 2 ), sonra sadece x 1 ile tahmin edelim: Var (β^1) ilk ve ikinci modelde şunlara eşittir : 64 Tahmin edilen iki beta nın varyans ve sapmasızlık mukayesesi şöyledir : 65 ise seçim daha zor. x 2 yi dışarıda bırakmak β 1 in tahmininin sapmalı olmasına yol açacak. Dahil etmek ise β 1 in varyansını yükseltecek. İkilem (trade-off) durumu. Ekonometrisyen bu iki zıt yönlü etkiyi ölçüp tartacak ve x 2 yi denkleme sokup sokmayacağına karar verecek. Ancak, x 2 yi dahil etme yönünde işleyen iki etken var : 1. Sapma (bias) örnek hacmi n arttıkça azalmaz, oysa, çoklubağıntı (ve onun yol açtığı vayans artışı) azalır. Dolayısıyla, x 2 yi denkleme dahil edip mümkün olduğu kadar büyük örnek bulmalıyız. 2. Formül (3.54) ve (3.55) deki σ 2, x 2 nin dışlanmasını dikkate almadan hesaplanan hata terimleri (u) varyansıdır. x 2 yi dışladığımızda u nun varyansı artacaktır. Dolayısıyla (3.55) deki σ 2 orada gözükenden daha büyüktür. Yani, x 2 yi dışlamanın getireceği düşük varyans avantajı formüllerde gözükenden daha azdır. 66 Econometrics 22

σ 2 nin tahmini: OLS t.e.nin standart hataları PRF daki u ları gözlemleyemeyiz. Onların yerine, tahmin edilen regresyondan hesaplayacağımız artık terimleri vardır : Çoklu-regresyonda σ2 nin sapmasız bir tahmin edicisi şudur : 67 Serbestlik derecesi (df) =n-(k+1) eşitliği şuradan gelmektedir: Birinci sıra (first order) SEKK (OLS) koşulları k+1 tane idi : Böylece SEKK (OLS) artıkları (residuals) üzerine k+1 tane kısıt koyuyoruz. Yani n tane artık tan n-(k+1) tanesi verilince geriye kalan k+1 artığı otomatik olarak biliyoruz. Demek ki, artıklardaki serbestlik derecesi n-(k+1) dir. Kitleye ait hata terimleri (errors), u(i), için df ise n dir. 68 σ 2 nin sapmasız tahmin edicisi (ispatı Appendix E de verilmektedir). Regresyona yeni bir açıklayıcı değişken eklendiğinde SER düşebilir de artabilir de. Zira, yeni bir x eklenince SSR düşer, ancak df de 1 azalır. (3.56), net etkinin hangi yönde olacağını gösterecektir. 69 Econometrics 23

Betaşapkaların standart sapmaları Betalarla ilgili hipotez testleri yapmak ve güven aralıkları oluşturmak (buna inference denir) için onların standart sapmalarına ihtiyacımız vardır : 70 Standart hataların hesaplandığı (3.51) u ların varyansının sabit olduğu (homoskedasticity) varsayımına, MLR.5, dayanıyordu. Artıklar değişken-varyansa sahipse (heteroskedasticity) (3.58) doğru sonuç vermeyecektir. Yani, değişken-varyans betaların sapmasızlığını etkilemediği halde, betaların varyans formüllerini geçersiz kılmaktadır. Değişken-varyans durumunda ne yapılabilceğini ch. 8 de göreceğiz. 71 SEK (OLS) nin etkinliği: Gauss-Markov Teoremi Neden SEKK (OLS) tahmin edicileri diğer tahmin edicilere tercih ediyoruz? Gauss-Markov teoremi SEKK (OLS) i tercih etmemizin gerekçelerini sunar. 1. Varsayım MLR.1-MLR.4 altında SEKK (OLS) sapmasız tahmin ediciler verir. 2. Varsayım MLR.1-MLR.5 altında SEKK (OLS) tahmin edicileri, minimum varyanslı, doğrusal ve sapmasızdırlar : 72 Econometrics 24

BLUE 73 Gauss-Markov teoremi Gauss-Markov teoreminin önemi şuradan gelmektedir: Eğer varsayım MLR.1-MLR.5 sağlanıyorsa, bu durumda artık (3.59) daki türde başka doğrusal ve sapmasız tahmin ediciler aramamıza gerek yoktur. En küçük varyanslı tahmin edici SEKK (OLS) dir. 5 varsayımdan birisi ihlal edilirse teorem geçersiz olur. MLR.3 sağlanamazsa sapmasızlık, MLR.5 sağlanamazsa minimum varyanslılık özelliği kaybolur. 74 Appendix : Sapmasızlık teoreminin (Th. 3.1) ispatı Econometrics 25

76 Teorem 3.2 (sh.93) nin ispatı: 77 Gauss-Markov teoreminin (Th. 3.4) ispatı 78 Econometrics 26

79 80 Econometrics 27