Ekonometri I ÇOK DEĞİŞKENLİ REGRESYON MODELİNİN VARSAYIMLARI Hüseyin Taştan Temmuz 23, 2006 İçindekiler 1 Varsayım MLR.1: Parametrelerde Doğrusallık 1 2 Varsayım MLR.2: Rassal Örnekleme 1 3 Varsayım MLR.3: Sıfır Koşullu Ortalama 2 4 Varsayım MLR.4: Tam Çoklu-Doğrusallığın Olmaması (No Perfect Collinearity) 2 4.1 Sapmasızlık................................... 3 4.2 Dışlanmış Değişken Sapması (Omitted Variable Bias):............ 3 5 Varsayım MLR.5: Sabit Varyans (Homoskedasticity) 5 5.1 Etkinlik ve Gauss-Markov Teoremi...................... 5 6 Varsayım MLR.6: Normallik 5 1 Varsayım MLR.1: Parametrelerde Doğrusallık Popülasyon (anakütle) regresyon fonksiyonunda (PRF) bağımlı değişken y, bağımsız değişkenler ve hata terimiyle şu şekilde ilişkilidir: y = β 0 + β 1 x 1 + β 2 x 2 +... + β k x k + u PRF parametrelerde doğrusaldır. Bağımsız değişkenlerin herhangi bir dönüştürmesi OLS mekaniğini değiştirmez. 2 Varsayım MLR.2: Rassal Örnekleme Bu varsayıma göre PRF yi tahmin etmek için yukarıda ifade edilen anakütleden n boyutlu, {(x i1, x i2,..., x ik, y i ) : i = 1, 2,..., n}, rassal bir örneklem çekilir. Anakütle regresyon 1
fonksiyonunu örneklem değerlerini kullanarak aşağıdaki gibi yazabiliriz: y i = β 0 + β 1 x i1 + β 2 x i2 +... + β k x ik + u i, i = 1, 2,..., n İki değişkenli basit modelde olduğu gibi burada u i inci gözleme ait gözlemlenemeyen fakat y i yi etkileyen hata (error) ya da bozucu (disturbance) terimidir. x değişkenindeki i gözlemleri, ikinci altim (subscript) değişkenin numarasını ifade etmektedir. 3 Varsayım MLR.3: Sıfır Koşullu Ortalama Bu varsayıma göre açıklayıcı değişkenler veriyken hata teriminin koşullu beklenen değeri sıfırdır: E[u x 1, x 2,..., x k ] = 0. E[u i x i1, x i2,..., x ik ] = 0, her i = 1, 2,..., n için İkinci varsayımda belirtilen rassal örnekleme ile birlikte bu varsayım kullanılarak OLS tahmin edicilerinin istatistiksel özellikleri x i değerlerine koşullu olarak belirlenebilir. Bu iki varsayım x i nin yinelenen örneklemlerde sabit olması anlamına gelmektedir. x i değerlerinin yinelenen örneklemlerde sabit olması, bu değerlerin sabit tutularak yeni y değerlerinin rassal olarak seçildiği anlamına gelir. Bu varsayım x i ve u i nin her zaman ilişkisiz olduğu anlamına gelmektedir. Bağımsız değişkenler ile bağımlı değişken arasındaki fonksiyonel ilişki yanlış kurulursa MLR.3 varsayımı geçerli olmaz. İlk olarak modelde olması gerektiği halde modelde yer almayan bağımsız değişkenler varsa hata terimi bağımsız değişkenlerle ilişkili olur ve varsayım sağlanmaz. İkinci olarak modelin fonksiyon kalıbı yanlış kurulursa MLR.3 varsayımı geçerli olmaz. Örneğin, bağımlı değişkenin doğal logaritması yerine seviyesi (level) kullanılırsa EKK (OLS) tahmin edicileri sapmalı olur. Ayrıca, x i1, x i2,..., x ik değişkenleri ile ilişkili olduğu halde önemli bir faktörün modele katılmaması da bu varsayımın sağlanamaması anlamına gelir (omitted variables problem). MLR.3 varsayımının sağlandığı durumlarda elimizde dışsal açıklayıcı değişkenler (exogenous explanatory variables) olduğunu söyleriz. Eğer x j hata terimi u ile herhangi bir şekilde ilişkili ise o zaman x j ye içsel açıklayıcı değişken (endogenous explanatory variable) denir. Hata teriminin bağımsız değişkenlerle ilişkili olduğu başka durumlarda vardır. Bunlardan en önemlisi bağımsız değişkenlerdeki ölçme hatalarıdır. 4 Varsayım MLR.4: Tam Çoklu-Doğrusallığın Olmaması (No Perfect Collinearity) Bu varsayım sadece bağımsız değişkenlerle ilişkilidir. Önce tam doğrusallığın tanımını verelim: eğer bir bağımsız değişken diğer bağımsız değişkenlerin tam doğrusal kombinasyonu olarak yazılabiliyorsa tam doğrusallıktan bahsederiz. MLR.4 bunun olmadığını söylemektedir. Eğer bir bağımsız değişken diğerlerinin tam doğrusal kombinasyonu şeklinde yazılabiliyorsa o zaman OLS tahmini (matematiksel olarak) mümkün olmaz. 2
Bunu görmek için iki açıklayıcı değişkenli şu modeli düşünelim: y = β 0 + β 1 x 1 + β 2 x 2 + u MLR.4 varsayımı λ 1 x 1 + λ 2 x 2 = 0 eşitliğini sağlayan sıfırdan farklı λ 1 ve λ 2 sayılarının olmadığını söylemektedir. Yukarıdaki iki açıklayıcı değişkenli modelde x 1 = λ 2 x 2 olduğunu düşünelim. Bu durumda y = β 0 + β 1 λ 2 x 2 + β 2 x 2 + u = β 0 + (β 1 λ 2 + β 2 )x 2 + u = β 0 + αx 2 + u Burada α = β 1 λ 2 + β 2 dir. Bunu sağlayan sonsuz sayıda β 1 ve β 2 katsayısı bulunabilir. Bir başka deyişle, OLS tahmin edicilerinin ayrı ayrı tahmin edilmesi imkansız olur. Bu varsayım x lerin birbirleriyle kesinlikle ilişkisiz olduğunu söylememektedir. Sadece aralarında tam doğrusal ilişki olmaması anlamına gelmektedir. 4.1 Sapmasızlık Şimdiye kadar bahsedilen bu dört varsayım (MLR1-MLR4) kullanılarak, SEK/OLS tahmin edicilerinin sapmasız (unbiased) olduğu gösterilebilir. TEOREM 4.1 SEK/OLS Tahmin Edicilerinin Sapmasızlığı: MLR.1-MLR.4 varsayımları geçerliyse OLS tahmin edicileri populasyon parametrelerinin sapmasız birer tahmin edicileridir. E( ˆβ j ) = β j, j = 0, 1, 2,..., k SEK yönteminin sapmasızlığını anlayabilmek için (istatistik derslerinde öğrendiğimiz) tahmin edici (estimator) ile tahmin (estimate) arasındaki ayırımı tekrar vurgulamak gerekir. Herhangi bir modeli tahmin ettiğimizde populasyon katsayıları β lar için birer sayı elde ederiz. Bu sayılar ya da tahminler için sapmalı ya da sapmasız diyemeyiz. Elde ettiğimiz tahminin doğru populasyon katsayısına eşit olup olmadığını bilemeyiz (çoğunlukla eşit olmadığını düşünürüz). Burada ifade edilen SEK yönteminin kullandığı sürecin sapmasızlığıdır. Olanaklı tüm örneklemler seçilebilse ve bunlar için ayrı ayrı tahmin değerleri elde edilse bunların ortalaması (beklenen değeri) doğru değere eşit olur (Örneklem ortalaması x nın örnekleme dağılımını nasıl elde ettiğimizi hatırlayın). 4.2 Dışlanmış Değişken Sapması (Omitted Variable Bias): Doğru popülasyon modelinin bir parçası olduğu halde bir değişkenin modele dahil edilmemesine gerekli bir değişkenin dışlanması denir. Gerekli bir değişkenin dışlanması model kurma hatasına (misspecification) bir örnektir ve SEK tahmin edicilerinin sapmasızlık özelliğini yitirmesine yol açar. Bunu daha iyi anlayabilmek için doğru populasyon modelinin sadece iki açıklayıcı değişken içerdiğini düşünelim: y = β 0 + β 1 x 1 + β 2 x 2 + u Model D 3
Yukarıdaki doğru model yerine araştırıcının aşağıdaki modeli tahmin ettiğini düşünelim. y = β 0 + β 1 x 1 + ν Model Y Burada ν = β 2 x 2 + u olduğu açıktır. Şu aşamada yanlış modelin (Model Y) hata terimi ν modelde yer alması gereken x 2 değişkeninin etkisini de içerdiğinden MLR.3 varsayımını sağlamadığını söyleyebiliriz. Bunun yaratacağı sapmayı görmek amacıyla önce Model Y nin örneklem regresyon fonksiyonunu yazalım: ỹ = β 0 + β 1 x 1 Daha önceki tartışmalarımızdan (bkz. iki değişkenli basit regresyon modeli) Model Y deki eğim parametresinin OLS tahmin edicisini kolayca bulabiliriz: β 1 = i=1 (x i1 x 1 )y i y i yerine Model D deki doğru değeri yazıp yeniden düzenlersek β 1 = i=1 (x i1 x 1 )(β 0 + β 1 x i1 + β 2 x i2 + u i ) = β 0 i=1 (x i1 x 1 ) + β n 1 i=1 (x i1 x 1 )x i1 + β n 2 i=1 (x i1 x 1 )x i2 + i=1 (x i1 x 1 )u i n i=1 = β 1 + β (x i1 x 1 )x i2 2 i=1 (x + i1 x 1 ) 2 i=1 (x i1 x 1 )u i elde edilir. Bunun beklenen değerini (koşullu) alırsak E( β i=1 1 ) = β 1 + β (x i1 x 1 )x i2 2 i=1 (x + i1 x 1 ) 2 ( i=1 = β 1 + β (x ) i1 x 1 )x i2 2 i=1 (x i1 x 1 )E(u i ) olduğunu buluruz. Buradan da görüldüğü gibi β1 doğru parametre değerine β 1 eşit değildir, yani sapmalıdır (biased). Yukarıdaki eşitlikte β 2 nin yanında yer alan parantez içindeki terime dikkatli bakıldığında bunun x 2 nin x 1 üzerine regresyonundan elde edilecek eğim parametresi olduğu görülür. Bunu örneklem değerlerini kullanarak şöyle yazabiliriz: x 2 = δ 0 + δ 1 x 1 Buradan β 1 in beklenen değeri olarak yazılabilir. Yani sapma E( β 1 ) = β 1 + β 2 δ1 sapma( β 1 ) = E( β 1 ) β 1 = β 2 δ1 dır. Buna dışlanmış değişken sapması denir. 4
5 Varsayım MLR.5: Sabit Varyans (Homoskedasticity) x veriyken hata terimi u nun koşullu varyansı pozitif ve sonlu bir sabit sayıya eşittir: V ar(u x 1, x 2,..., x k ) = σ 2 OLS tahmin edicilerinin sapmasız olmaları için bu varsayıma ihtiyaç yoktur. Ancak bu tahmin edicilerin varyanslarının elde edilmesinde (ve örnekleme dağılımlarının bulunmasında) sabit varyans varsayımına ihtiyaç vardır. OLS tahmin edicilerinin etkinlik özelliklerinin ortaya çıkarılması için bu varsayım gereklidir. σ 2 ye hata varyansı, bunun kare köküne de, σ, hatanın standart sapması denir. σ ne kadar büyükse y yi etkileyen gözlemlenemeyen faktörlerin dağılımı o kadar yayık (ya da değişken) olur. Bu varsayımın sağlanamadığı, yani hata varyansının her gözlem için farklı olduğu duruma değişen varyans (heteroskedasticity) denir. MLR.1-MLR.5 varsayımlarına Gauss-Markov varsayımları (kesit veri analizi için) denir. 5.1 Etkinlik ve Gauss-Markov Teoremi TEOREM 5.1 SEK/OLS Tahmin Edicilerinin Örneklem Varyansları: MLR.1-MLR.5 varsayımları geçerliyse eğim parametrelerinin OLS tahmin edicilerinin varyansları V ar( ˆβ j ) = σ 2 SST j (1 R 2 j ), j = 1, 2,..., k olarak yazılabilir. Burada SST j = n (x ij x j ) 2 i=1 x j deki örneklem değişkenliği, R 2 j ise x j nin diğer tüm x değişkenlerine (sabit terim içeren) regresyonundan elde edilen belirlilik katsayısıdır. TEOREM 5.2 Gauss-Markov Teoremi: MLR.1-MLR.5 varsayımları altında SEK tahmin edicileri ˆβ 0, ˆβ 1, ˆβ 2,..., ˆβ k populasyon parametreleri β 0, β 1, β 2,..., β k, nin Doğrusal En İyi Sapmasız Tahmin Edicileridir (kısaca, DESTE ya da BLUE-Best Linear Unbiased Estimators). 6 Varsayım MLR.6: Normallik Hata terimi u açıklayıcı değişkenlerden bağımsızdır ve ortalaması 0 ve varyansı σ 2 olan bir normal dağılıma uymaktadır: u N(0, σ 2 ) SEK/OLS tahmin edicilerinin sapmasızlık ve etkinlik özellikleri için bu varsayıma gerek yoktur. Ancak, istatistiksel çıkarsama (inference) yapılabilmesi için hata teriminin normal dağılıma uyduğu varsayımı yapılır. 5
MLR.6 varsayımı diğer varsayımlardan daha güçlüdür. Hata teriminin, x j lerden bağımsız olması ve ortalaması sıfır, varyansı sabit bir normal dağılıma uyması E(u x 1, x 2,..., x k ) = E(u) = 0 ve V ar(u x 1, x 2,..., x k ) = V ar(u) = σ 2 olduğu anlamına gelir. Aslında bu varsayım MLR.3 ve MLR.5 varsayımlarını kapsamaktadır. Kesit-veri regresyon analizi için MLR.1-MLR.6 varsayımlarına Klasik Doğrusal Regresyon Modeli (KDRM, -CLRM, Classical Linear Regression Model) varsayımları denir. Bu varsayımlar altında OLS tahmin edicileri sapmasız en küçük varyanslı (minimum variance unbiased) tahmin edicilerdir. Yani SEK tahmin edicileri doğrusal olsun ya da olmasın tüm tahmin ediciler içinde en küçük varyanslı ve sapmasız olanlarıdır (daha güçlü etkinlik özelliği). 6