Ekonometri II

Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri II Ders Notları Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. ed., 2002, Thomson Learning. Ch. 9: Model Spesifikasyonu ve Veri Sorunları Ch 9 : Model spesifikasyonu ve veri sorunları CH 8 de Gauss-Markov varsayımlarından birisinin (homoscedasticity) ihlalini ele aldık. Hata terimleri varyansının değişken olması bir model misspecification olarak ele alınabilir, ancak heteroscedasticity, görece olarak çok büyük olmayan bir spesifikasyon hatasıdır. Heteroscedasticity, sapma ve tutarsızlığa yol açmadığı için ciddi sorun oluşturmuyordu. Robust se ler kullanarak ya da WLS tahmini yaparak geçerli t ve F testleri yapabiliyoruz. Bu Bölüm de daha ciddi bir soruna, u larla x lerden birinin ya da bazılarının ilişkili olması durumunu ele alacağız. u larla ilişki olan bir x içsel (endogenous) bir bağımsız değişkendir (bkz. Ch.3). Yine CH.3 ve 5 de, regresyonda önemli bir değişkenin ihmal edilmiş (dışarıda bırakılmış) olmasının, tüm parametrelerin sapmalı ve tutarsız olmasına yol açabildiğini görmüştük. İhmal edilen değişken eğer x lerden birinin bir fonksiyonu ise, modelimiz, fonksiyonel biçim spesifikasyon hatası (functional form misspecification) içerecektir. 3 2nd ed. 1

Section 9.2 de ihmal edilmiş değişkenin yol açtığı sapmayı (omitted variable bias) azaltıcı yöntemleri (temsili değişkenlerin-proxykullanılması )göreceğiz. Ölçme hataları (measurement error) da belli bir sapmaya yol açmaktadır. Bu konuyu Section 9.3 de ele alacağız. CH 9 da sadece OLS tahminlerini ele almaktayız. Oysa, u larla x lerin ilişkili olmasının yarattığı bazı sorunlar OLS ile çözülemez. Bu konuları CH.13 de inceleyeceğiz. 4 Fonksiyon Kalıbının Yanlış Kurulması Bir regresyonda y ile x lerin ilişkisi doğru formüle edilmediği taktirde fonksiyonel biçim hatası (functional form misspecification) ortaya çıkar. Örneğin, log-log model yerine level-level model kullanılması, ya da olması gereken bir karesel terimin dışlanması fonksiyonel biçim hatasına, bu ise, betaların sapmalı ve tutarsız olmasına yol açacaktır. Örneğin, ilave bir yıl eğitimin ücrete katkısı cinsiyete göre değişiyorsa ücret regresyonunda female*educ karşılıklı etkileşim (interaction) terimini kullanmak zorundayız. 5 Regresyona eklemek istediğimiz yeni değişken gruplarının (karesel terimler vb) gerekli olup olmadığına F testi (ortak anlamlılık joint significance-testi) yaparak karar verebiliriz. Böylece, regresyonumuzun fonksiyonel biçimini daha az hatasız hale getirebiliriz. Pek çok ekonomik seride log kullanılması düzey (level) değişken kullanılmasına göre daha iyi sonuç vermektedir. Log kullanarak biçim hatalarını azaltabiliriz. Yine, karesel terim eklemek de doğrusalolmayan (nonlinear) ilişkilerin yakalanmasında önemli bir çözüm oluşturmaktadır. 6 2nd ed. 2

7 8 2.ci sütundaki regresyonda kareli terimler eklendi.tümü hem tek tek anlamlı (t testi) hem de ortak olarak anlamlı (F testi). Dolayısıyla, modelimiz daha iyi bir hal aldı. Kareli terimlerin tümü birden anlamlı mıdır? sorusunun yanıtını F testi yaparak verelim : cal F=31.37, df (3 ve 2713). Tab F =2.605< Cal F, Ho red. Kareli terimler eklenince parametrelerin yorumları da bunları dikkate alarak yapılmalı. d(narr86)/d(pcnv cet.paribus)=0.533-0.73(2)pcnv pcnv=0.365 dönüm noktası.narr86 ile pcnv ilişkisi bu noktaya kadar pozitif, bu noktadan sonra negatif hale geliyor. 9 2nd ed. 3

Fonksiyonel biçim hatası ile ilgili genel bir test: RESET TESTİ Regresyonda genel fonksiyonel biçim hatası (misspecification) olup olmadığını teşhise yönelik bir çok test mevcuttur. Ancak, bunlardan en çok kullanılanı Ramsey(1969) in regression specification error test (RESET) idir. Orijinal regresyonumuz : MLR.3 (doğrusallık) varsayımımız sağlanmış olsun. 10 (9.2) de eğer doğrusl-olmayan ilişkiler ihmal edilmişse bu regresyonda x lerin karesi, küpü, 4.cü kuvveti vs. kullanılarak bu ilişkiler yakalanabilir. Genellikle kare ve küp yeterli olmaktadır. White testinde olduğu gibi, (9.2) ye x lerin kare ve küplerini eklemek serbestlik derecesi kaybına yol açacaktır. Bunun yerine, (9.2) den elde edeceğimiz yhat lerin kare ve küpünü tekrar aynı regresyonda açıklayıcı değişken olarak kullanıp F testiyle katsayılarının anlamlı olup olmadığına bakabiliriz : 11 RESET testinde Ho hipotezinde (9.2) nin spesifikasyonun doğru olarak yapıldığı vardır. Yani, Büyük örneklerde ve Gauss-Markov varsayımları geçerli iken,ho doğru ise F istaistiği~ F(2, n-k-3) dağılacaktır. (9.3) deki genişletilmiş regresyonda serbestlik derecesi n-k-2-1= n-k-3 olmaktadır. RESET testi LM ile de yapılabilir. Ki kare dağılımının serbestlik derecesi 2 olacaktır. Test, heteroscedasticity den etkilenmeyecek (robust) şekilde de (Section 8.2) yapılabilir. 12 2nd ed. 4

13 RESET testinin bir yetersizliği, Ho ın reddi halinde ne yapacağımız konusunda bize hiçbir şey söylememesidir. Bazıları RESET testinin ihmal edilmiş değişken ve heteroscedasticity den ileri gelen biçim hatalarını (misspecification) da yakaladığı, dolayısıyla çok genel bir misspecification testi olduğunu iddia ederler. Bu doğru değildir. İhmal edilmiş değişkenin y ile ilişkisi doğrusal ise RESET testi bunu yakalayamaz. Yine, fonksiyonel biçim doğru yapılmışsa RESET testi heteroscedasticity yi belirlemede de başarısızdır. RESET testi sadece bir fonksiyonel biçim testidir, genel bir misspecfication testi değildir. 14 İçiçe geçmemiş-yuvalanmamış (unnested) almaşıklara karşı test İki içiçe geçmemiş (nonnested) modelden hangisini tercih edeceğiz? Burada standart F testi yapamayız, modellerden biri ötekisinin özel bir hali değil. Bu durumda iki yaklaşım önerilmektedir : (1) Mizon-Richard (1986) yöntemi: Her iki modeli de özel hal olarak içine alan genel kapsamlı (comprehensive) bir model kurabilir ve sonra bu model üzerinde F testi ile iki almaşık modeli test edebiliriz. 15 2nd ed. 5

(9.6) ve (9.7) deki iki alternatif modeli de içine alan genel model şudur : (2) Diğer yaklaşım, Davidson-MacKinnon (1981) testidir. Bu yaklaşıma göre, eğer (9.6) doğru model ise, (9.7) den elde edilen yhat (9.6) da bağımsız değişken olarak kullanıldığında katsayısının anlamsız çıkması (t testi) gerekir. Anlamlı çıkarsa (9.6) doğru fonksiyonel biçim değildir. Aynı şekilde (9.7) yi de test 16 edebiliriz. (9.7) yi OLS ile tahmin edelim ve buradan elde ettiğimiz tahmini y değerlerine (fitted values) diyelim. Bu yhat i (9.6) da bağımsız değişken olarak koyup yeniden tahmin edeceğiz : Ө 1 in t istatistiği anlamlı ise (9.6) yanlış demektir, vice versa. 17 Bu nonnested testlerle ilgili çeşitli sorunlar mevcuttur : i) test, alternatiflerden hangisinin doğru olduğuna her zaman karar veremeyebilir.iki model de yanlış ya da doğru biçime sahip olarak gözükebilir. ii) Alternatiflerden birinin reddi diğer alternatifin doğru olduğu anlamına gelmez. Doğru model çok farklı bir şey olabilir. iii) Almaşık modellerde bağımlı değişken aynı değilse ciddi sorun ortaya çıkacaktır. Örneğin, modelin birinde y diğerinde log y varsa ne olacak? CH 6 da bu durumda R 2 leri nasıl karşılaştıracağımızı görmüştük. Bu konuda geliştirilen karmaşık testlere burada girmeyeceğiz. 18 2nd ed. 6

Gözlenemeyen (unobserved) açıklayıcı değişkenler yerine temsili (proxy) değişken kullanılması Ölçülemeyen, veri bulunamayan önemli bir değişken varsa ne yapacağız? Örneğin, ücret denkleminde kişinin doğuştan gelen kabiliyetinin (ability) büyük bir açıklama gücüne sahip olduğunu biliyoruz, ama bunu ölçemediğimiz için regresyonda kullanamıyoruz. Abil in regresyonda yer almaması etkisinin u ile birleşmesi anlamına gelir. Eğer educ ve abil ilişkili ise, educ ile u da ilişkili olacak 19 bu ise β1 (ve β2) nin sapmalı olmasına yol açacaktır. (9.9) da, abil yer alamayacağı için, ihmal edilmiş değişken sapması (omitted variable bias) söz konusu olacaktır. Bu sapmanın hafifletilmesine yönelik bir çare gözlenemeyen değişken yerine herhangi bir temsili (proxy) değişken kullanmaktır. Temsili değişkenin gözlenemeyen değişkenle ilişkili (correlated) olması gerekir. Örneğin, bu örnekte ability yerine kişilerin IQ test sonuçlarını kullanmak akla gelebilir. İki değişkenin aynı şeyi ifade etmesi gerekmemekte, sadece ilişkili (correlated) olmaları yeterli olmaktadır. 20 y=log(wage), x1=educ, x2=exper, x3*=abil, x3=proxy (abil için).regresyonumuz : Temsili değişkenin ölçülemeyen değişkenle ilişkisi şöyle olsun: Hata terimi v3, x3* ile x3 ün tam (yüzde yüz) ilişkili olmamalarından doğan hata terimleridir. X3* ile x3 aynı yönde ilişkili oldukları için (aksi halde x3 proxy olamaz) δ3 >0 olacaktır. 21 2nd ed. 7

Soru, (9.10) da x3* yerine onunla ilişkili x3 ü kullanarak β1 ve β2 katsayılarını sapmasız (ya da en azından tutarlı) olarak tahmin edip edemeyeceğimizdir. Bir yöntem, (9.10) da x3* yerine doğrudan x3 (proxy) ü koyarak tahmin yapmaktır. Buna, ihmal edilmiş değişken sorununun yerine koyma (ikame) yöntemiyle çözümü (plug-in solution to the omitted variables problem) denir. Bu yöntemin tutarlı β1 ve β2 verebilmesi için u ve v3 artıklarıyla ilgili bazı varsayımlar yapmamız gerekir. 22 (9.10) da, standart varsayım gereği,u; x1, x2 ve x3* ile ilişkisiz olmalıdır. Buna ek olarak u, proxy x3 ile de ilişkisiz olmalıdır. Bu şu demektir : populasyon modelinde x1, x2 ve x3* yer alıyor iken x3 ün yer alması artık gereksizdir (irrelevant). Bu varsayımı şöyle de ifade edebiliriz : u nun x1, x2 ve x3* e koşullu beklenen değeri sıfırdır. v3 ile ilgili varsayım ise şudur : v3; x1, x2 ve x3 ile ilişkisizdir. v3 ün x1 ve x2 ile ilişkisiz olması, proxy x3 ün iyi bir temsili değişken olduğu (x3* ı iyi temsil ettiği) anlamına gelir. 23 Bunu koşullu beklenen değerle şöyle ifade edebiliriz : İlk eşitlik şunu söylüyor : x3 kontrol ediliyor iken (etkisi dikkate alınıyor iken) x3* ın beklenen değeri, x1 ve x2 ye bağlı değildir. Başka bir ifadeyle, x3 ün etkisi arındırıldığında, x3*, artık x1 ve x2 ile sıfır korelasyona sahiptir. Ücret örneğinde (9.13) koşulu şu hali alacaktır : Yani, ability nin ortalaması, educ ve exper ile değişmemekte, sadece IQ ile değişmektedir. 24 2nd ed. 8

(9.11) i (9.10) da yerine koyup gerekli düzenlemeleri yaparsak şu regresyonu elde ederiz : Yeni denklemin hata terimi (e ile gösterelim) iki hata terimin bir bileşkesidir : e = u + β3.v3 u ve v3 ün her ikisi de sıfır ortalamaya sahip ve x1, x2 ve x3 ile ilişkisiz olduğundan, e de sıfır ortalamaya sahip olacak ve x1, x2 ve x3 ile ilişkisiz olacaktır. Denklemi şöyle yazalım : 25 Proxy (x3) değişkeni kullanarak yaptığımız tahminde katsayılarının sapmasız (en azından tutarlı) tahminlerini yapmış olacağız. Ücret denkleminde α3, kişinin IQ puanında 1 puanlık bir artışın ücrette yaratacağı % artışı verecektir. Ayrıca, ability yi temsilen IQ değişkeninin denkleme girmasi, educ ve exper değişkenlerinin gerçek katkılarının saptanmasını sağlayacaktır. IQ olmadığında muhtemelen bu değişkenlerin katkıları abartılarak ölçülmektedir. 26 27 2nd ed. 9

28 IQ değişkeninin katsayısı anlamlı çıkmıştır. IQ de 10 puanlık bir artış ücrette %3.6 artış sağlıyor. IQ dağılımının ABD için standart sapması 15 olduğuna göre, IQ de 1 st.sapmalık artış ücrette %5.4 lük artış sağlıyor. Bu, 1 yıllık ilave eğitimin katkısına eşittir. IQ nün eklenmesi siyah-beyaz ücret farkını biraz azalttı, ancak fark hala çok büyük. Aynı IQ ye, eğitime vs sahip bir siyahla beyazın ücret farkı %14.3 siyahın aleyhinedir. 29 Ability si yüksek olan kişilerde educ un ücrete katkısı daha yüksek olabilir diye düşünerek educ*iq karşılıklı etkileşim (interaction) terimini ekledik (Sütun 3). Ancak anlamsız çıktı. Ability ye temsili değişken olarak IQ yerine (veya onunla birlikte) KWW (Knowledge of the World of Work) test sonuçları da kullanılabilir (bkz. Exercise 9.7). Yukarıdaki varsayımlar sağlanmazsa proxy değişken kulanılması da sapmaya yol açacaktır.örneğin, x3* ın sadece x3 ile değil [(9.11) deki gibi] x1 ve x2 ile de ilişkili olduğunu varsayalım. Bu durumda x1 ve x2 nin katsayıları sapmalı olacaktır. 30 2nd ed. 10

Bağımlı değişkenin hatalı ölçülmesi durumu y* : Açıklamak istediğimiz (kitleye ait) değişken, örneğin ailelerin yıllık tasarrufları. y : y* ın gözlenen ölçümü olsun. Regresyonumuz Gauss-Markov koşullarını sağlasın: En azından bazı ailelerin yıllık tasarruflarını doğru bildirmeme olasılığı çok yüksektir. Bu durumda ölçme hatası (measurement error): 31 (9.18) den y*=y e(o) i regresyonda yerine koyarsak : Yeni regresyonun hata terimi u + e (o) dır. Peki, y* yerine onun hatalı ölçümünü (y) kullandığımız (9.19) dan OLS ile bulacağımız betalar tutarlı olacak mıdır? (9.17) Gauss-Markov varsayımlarını sağlıyordu. Dolayısıyla, u sıfır ortalamaya sahiptir ve her bir x le ilişkisizdir. Hatanın iki yönlü yapıldığını düşünerek, ölçme hatalarının,e(o), da sıfır ortalamaya sahip olduğunu varsayabiliriz. Eğer değilse, bu, sabit terim β(o) ın sapmalı olmasına yol açar ki bu da önemli değildir. Asıl önemli olan, ölçme hatası, e(o), ile x lerin ilişkili olup olmadığıdır. 32 Genellikle yapılan varsayım, ölçme hatalarının istatistiksel olarak x lerle ilişkisiz olduğu şeklindedir. Eğer bu varsayım doğru ise, (9.19) dan OLS ile bulacağımız tahminler sapmasız ve tutarlıdırlar. Ayrıca, t, F, LM istatistikleri geçerlidir. Eğer e(o) ile u ilişkisiz ise (ki, genellikle öyle varsayılır): Yani, bağımlı değişkende ölçme hatası varsa hata terimlerinin varyansı daha yüksek çıkacaktr. Bu ise, OLS tahmin edicilerinin daha yüksek varyansa sahip olmaları demektir. Sonuç olarak, bağımlı değişkendeki ölçme hataları x lerle ilişkisiz ise OLS tahmin edicileri iyi özelliklere sahip olacaktır. 33 2nd ed. 11

34 Bağımlı değişken y* yerine log(y*) ise, ölçme hatası çarpım şeklinde olacaktır : Bağımlı değişkendeki ölçme hataları tamamen rasgele (random) ise, sistematik değilse ve x lerle ilişkisiz ise OLS tahmin edicilerinde sorun çıkarmaz. Ancak, sistematik ise ve bazı x lerle ilişkili ise sapmaya yol açar. 35 Açıklayıcı değişkenlerde (x lerde) ölçme hataları Genellikle x lerdeki ölçme hataları y deki ölçme hatasından daha ciddi sorunlara yol açar. Basit regresyonda konuyu ele alalım : Bu regresyon Gauss-Markov varsayımlarının en azından ilk 4 ünü sağlasın. Yani, β(o) ve β1 in OLS tahminleri sapmasız ve tutarlı olacaktır. X1* (gelir) hatalı ölçülsün ve ölçülen geliri x1 ile gösterelim. Kitledeki ölçme hatası : 36 2nd ed. 12

Ölçme hatası, e1, pozitif, negatif ya da 0 olabilir. Ölçme hatasının kitledeki ortalamasının sıfır olduğunu varsayacağız : E(e1) = 0. Diğer bir varsayım, u nun x1* ve x1 ile ilişkisiz olduğudur. Bunu koşullu beklenen değerle şöyle ifade edebiliriz : Yani, x1* ın y üzerindeki etkisi dikkate alındığında, x1 in artık y üzerinde bir etkisi yoktur. Bu gerçekçi bir varsayımdır. (9.21)i, gerçek x1* yerine onun hatalı ölçümü x1 ile tahmin ettiğimizde ne olur? Yanıt, ölçme hatası ile ilgili varsayımlarımıza bağlı. 37 Ekonometri yazınında bu konuda birbirinin tam zıddı olan iki varsayım yapılmaktadır : 1) e1, ölçüm değişkeni x1 ile ilişkisizdir. Eğer (9.23) deki varsayım doğru ise, (9.22) den, e1 ile x1* ın ilişkili olacağını görüyoruz. x1* =x1 e1 eşitliğini, ( 9.21) de yerine koyalım : Burada, u ve e1, sıfır ortalamaya sahip ve x1 ile ilişkisiz oldukları için, yeni artık terim (u-β1e1) de sıfır ortalamaya sahip olacak ve x1 ile ilişkisiz olacak. 38 Bu durumda (9.24) ün x1 ile tahmini tutarlı beta katsayıları verecektir. (9.24) ün varyansı : Demek ki, x deki ölçme hatası hata terimi varyansını artıracaktır. Dolayısıyla, βhat lerin se leri daha yüksek olacaktır. Bunun dışında ölçme hatası OLS özelliklerine zarar vermeyecektir. 39 2nd ed. 13

The classical errors-inivariable assumption e1 in x1 ile ilişkisizdir varsayımı Section 9.2 deki temsili (proxy) değişkenle ilgili olarak yapılan varsayıma benzemektedir. Ekonometri yazınında bu varsayımın yerine daha çok e1, x1* ile ilişkisizdir varsayımı yapılmaktadır. Ölçme hatalarının gözlenemeyen açıklayıcı değişkenlerle ilişkisiz olduğu varsayımına The classical errors-in-variables (CEV) varsayımı denir: Varsayım şuradan gelmektedir : Ölçülen büyüklüğü, gerçek değişkenle ölçme hatasının toplamı şeklinde yazalım : Eğer (9.25) deki varsayım doğru ise, yani, x1* ile e1 ilişkisiz ise, o zman x1 ile e1 ilişkili olmak zorundadır : Demek ki, CEV varsayımı altında x1 ile e1 in kovaryansı, e1 in varyansına eşit olacaktır. 41 (9.24) deki regresyondan görüleceği gibi, x1 ile e1 in ilişkili olması sorun yaratacaktır. u ile x1 ilişkisiz olduğundan, x1 ile bileşik hata terimi arasındaki kovaryansşuna eşittir : Demek ki, CEV varsayımı altında OLS tahmin edicileri sapmalı ve tutarsız olacaktır. CH_5 deki asimtotik özelliklerden yararlanarak bu tutarsızlığın (inconsistency) büyüklüğünü belirleyebiliriz : 42 2nd ed. 14

β1 in sağındaki çarpan terimi Var (x1*) / Var (x1) oranıdır. CEV varsayımı gereği bu oran daima 1 den küçüktür. Dolayısıyla, β1>0 iken, CEV varsayımı altında, OLS tahmin edicisi β1hat daima β1 den daha küçük (underestimation) olacaktır. 43 Buna OLS de CEV varsayımının küçültme sapması (attenuation bias) denir. Eğer x1* ın varyansı ölçme hataları (e1) varyansına kıyasla büyükse, Var(x1*) / Var (x1) oranı 1 e yakın çıkacağı için, OLS deki tutarsızlığın büyüklüğü önemsiz olacaktır. u ana kadar tek bir x (basit regresyon) söz konusu idi. Birden çok x in yer aldığı çoklu regresyonda durum daha karmaşık hal alacaktır. Örneğin, üç tane x değişkeninin olduğu bir regresyonda x1* hatalı ölçülmüş olsun : 44 Her zamanki u, x1*, x2 ve x3 ile ilişkisizdir varsayımını yapacağız. Kritik varsayım e1 ile ilgili olanıdır. Ama her durumda e1 in doğru ölçülen x2 ve x3 değişkenleriyle ilişkisiz olduğunu varsayıyoruz. Eğer e1, x1 ile ilişkisiz ise OLS tutarlı olacaktır. Bu şuradan kolayca görülebilir : Burada, u ve e1, tüm açıklayıcı değişkenlerle ilişkisizdir. 45 2nd ed. 15

(9.25) deki CEV varsayımı altında OLS sapmalı ve tutarsız olacaktır. Zira, (9.29) da e1 ile x1 ilişkili olacaktır. Üstelik, daha önce gördüğümüz gibi, sadece β1hat değil tüm betahat ler sapmalı ve tutarsız olmaktadır. Çoklu regresyon durumunda küçültme sapması (attenuation bias) şöyle olacaktır : 46 47 üphesiz, ölçme hataları sadece bir değişkende değil bir çok değişkende olabilecektir. Pratikte gerçek durum çoğu kez bu iki zıt varsayımın, (9.23) ve (9.25), ortasında bir yere denk düşmektedir. Yani, ölçme hataları hem x1* hem de x1 ile ilişkili olabilmektedir. Bu halde OLS tutarsız tahmin ediciler verecektir. Ancak, bu, OLS yi terk etmemiz anlamına gelmez. CH_15 de, bazı varsayımlar altında genel ölçme hatalarının varlığı alında da tutarlı olabilen tahmin ediciler bulabileceğiz. 48 2nd ed. 16

Verilerde boşluk (missing data), rasgeleolmayan örnekleme (nonrandom sampling) ve aşırı uç değerler (outliers) Verilerle ilgili şu ana kadar karşılaştığımız sorunlar çoklu-bağıntı (multicollinearity) ve ölçme hataları (measurement errors) idi. MLR.2 varsayımını ihlal eden bir veri sorunu rasgeleolmayan örneklemedir (nonrandom sampling). Bazı durumlar dışında rasgele-olmayan örnekleme OLS tahmin edicilerinin sapmalı ve tutarsız olmasına yol açmaktadır. Bu konu ayrıntılı biçimde CH_17 de işlenecektir. Veride boşluklar (missing data) çok çeşitli şekillerde karşımıza çıkar. En yaygın biçimi, bazı deneklerin anket sorularının bir kısmını yanıtlamaması halidir. 49 Ekonometri paket programları veri boşluğu olan serilerde boşluğa denk gelen gözlemleri otomatik olarak dışlamaktadır. Dolayısıyla, veri boşluğu örnek hacmini küçültmektedir. Veri boşluğunun daha ciddi istatistiki sorunlara yol açıp açmayacağı boşluğun nedeni ile ilgilidir. Eğer boşluklar rasgele oluşmuşsa, bu, örnek hacmini küçültmenin dışında sapma ve tutarsızlık sorunları doğurmaz, MLR.2 varsayımı hala geçerlidir. Boşluklar, rasgele değil de sistematik ise sorun ciddidir. Veride boşluklar rasgele-olmayan örneklemede daha ciddi sorun yaratır. Örneğin, doğumda bebek ağırlıkları veri setinde EDUC değişkenindeki boşluklar eğitim düzeyi ortalamanın altında olan anne-babalarda daha yaygın ise, bu sistematik bir olaydır. 50 Bazı tür rasgele-olmayan örneklemeler sapma veya tutarsızlığa yol açmaz. MLR.2 (random sampling) dışındaki Gauss-Markov varsayımları sağlandığı taktirde, örnek (sample) dışsal (exogenous) bağımsız değişkenlere dayanılarak seçildiğinde sapma ve tutarsızlık ortaya çıkmaz. Buna dışsal örnek seçimi (exogenous sample selection) denir. Örnek : 35 yaşın üzerinde olan kişileri içeren şu regresyon : 51 2nd ed. 17

Yaş dağılımı açısından rasgele olmamasına karşılık bu regresyondan hala nüfusun tümü için geçerli tahminler elde edebiliriz. Zira, örnek x e dayanılarak seçilmiştir. Seçilen örneğin rasgele olmamasına rağmen sapmasız tahmin ediciler elde edebilmemizin nedeni, income, age ve size değişkenleri kontrol edildiğinde ortalama tasarrufların nüfusun her kesiminde aynı olmasıdır. 52 Eğer örnek x lere göre değil de bağımlı değişkene (y) bağlı olarak seçiliyorsa sapma ortaya çıkacaktır. Buna içsel örnek seçimi (endogenous sample selection) denir. Örneğin, aşağıdaki regresyona sadece serveti 75,000$ ı aşan kişileri dahil edelim (9.32) de sapmanın ortaya çıkmasının nedeni, nin serveti 75,000$ dan az olanlarda aynı olmamasıdır. 53 Özellikle küçük örnek hacimlerinde regresyon sonuçları uç değerlerden (outliers) çok fazla etkilenirler. Eğer herhangi bir gözlemi örnekten çıkardığımızda regresyon sonuçları belirgin bir şekilde değişiyorsa o gözlem bir uç değerdir. OLS, artık kareler toplamını minimize ettiği için mutlak olarak büyük artıklar (eksi ya da artı ) kareleri alındıklarında daha da büyümekte ve tahmine egemen olmaktadırlar. Başka bir ifadeyle, uç değerler örnekte çok büyük ağırlık almaktadır. Uç değerler maddi bir hatadan ya da populasyonun dağılımından kaynaklanır. Regresyon uç değerlerle ve onlarsız iki kez tahmin edilerek kıyaslama yapılabilir ve sonuçlar bir arada verilebilir. 54 2nd ed. 18

55 56 Log kullanmak uç değer sorununu hafifletir 57 2nd ed. 19