Ch. 6: Çok Değişkenli Regresyon Analizinde Ek Konular

Benzer belgeler
YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

KONULAR. 14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Regresyon Analizi: Ek Konular KONULAR. Ölçü Birimlerinin Tahmin Sonuçlarına Etkisi. Veri ölçeğinin (data scaling) tahminlere etkisi

17 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 5: SEKK (OLS) nin Asimptotik Özellikleri

Ch. 12: Zaman Serisi Regresyonlarında Ardışık Bağıntı (Serial Correlation) ve Değişen Varyans

A. Regresyon Katsayılarında Yapısal Kırılma Testleri

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

TABLO I: Bağımlı değişken; Tüketim,- bağımsız değişkenler; gelir ve fiyat olmak üzere değişkenlere ait veriler verilmiştir.

KUKLA DEĞİŞKENLİ MODELLERDE KANTİTATİF DEĞİŞKEN SAYISININ İKİ SINIF İÇİN FARKLI OLMASI DURUMU

OLS Yönteminin Asimptotik (Büyük Örneklem) Özellikleri SIRADAN EN KÜÇÜK KARELER (OLS) Asimptotik Özellikler: Tutarlılık. Asimptotik Özellikler

SIRADAN EN KÜÇÜK KARELER (OLS)

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

BASİT REGRESYON MODELİ

ADMIT: Öğrencinin yüksek lisans programına kabul edilip edilmediğini göstermektedir. Eğer kabul edildi ise 1, edilmedi ise 0 değerini almaktadır.

Dependent Variable: Y Method: Least Squares Date: 03/23/11 Time: 16:51 Sample: Included observations: 20

0, model 3 doğruysa a3. Variable Coefficient Std. Error t-statistic Prob.

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Ekonometri I VARSAYIMLARI

Matris Cebiriyle Çoklu Regresyon Modeli

KUKLA DEĞİŞKENLİ MODELLER

ÇOKLU REGRESYON MODELİ. Bir bağımlı değişkene etki eden çok sayıda bağımsız değişkeni analize dahil ederek çoklu regresyon modeli uygulanabilir.

Normal Dağılımlılık. EKK tahmincilerinin ihtimal dağılımları u i nin ihtimal dağılımı hakkında yapılan varsayıma bağlıdır.

Appendix B: Olasılık ve Dağılım Teorisi

Kukla Değişken Nedir?

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Normal Dağılımlılık. EKK tahmincilerinin ihtimal dağılımları u i nin ihtimal dağılımı hakkında yapılan varsayıma bağlıdır.

İÇİNDEKİLER 1. GİRİŞ...

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

BİRDEN ÇOK BAĞIMLI DEĞİŞKENİ OLAN MODELLER

KUKLA DEĞİŞKENLİ MODELLER

Bağımlı Kukla Değişkenler

Ch. 3: Çok Değişkenli Regresyon Analizi: Tahmin

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

T.C. TRAKYA ÜNİVERSİTESİ İKTİSADİ VE İDARİ BİLİMLER FAKÜLTESİ İKTİSAT BÖLÜMÜ GENEL EKONOMİK SORUNLAR TÜFE NİN İŞSİZLİK ÜZERİNE ETKİSİ HAZIRLAYANLAR:

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

Yuvalanmamış F testi- Davidson- MacKinnon J sınaması

MODEL KURMA HATALARI ve VERİ SORUNLARI

Appendix C: İstatistiksel Çıkarsama

İyi Bir Modelin Özellikleri

Çok Değişkenli Regresyon Analizi (Multiple Regression Analysis) Çoklu Regresyon Modeli Örnekler. Sınav başarı notu ve aile geliri

Basit Regresyon Modeli BASİT REGRESYON MODELİ. Basit Regresyon Modeli. Basit Regresyon Modeli: y = β 0 + β 1 x + u

4.2 Sayfa 159. Uygulama II Sayfa Sayfa 161

Regresyon. Regresyon korelasyon ile yakından ilişkilidir

1. YAPISAL KIRILMA TESTLERİ

7.Ders Bazı Ekonometrik Modeller. Đktisat (ekonomi) biliminin bir kavramı: gayrisafi milli hasıla.

9. ARDIŞIK BAĞIMLILIK SORUNU (AUTOCORRELATION) 9.1. Ardışık Bağımlılık Sorunu Nedir?

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

Korelasyon ve Regresyon

Çok Değişkenli Regresyon Analizi: Çıkarsama. OLS Tahmincilerinin Örnekleme Dağılımları (Sampling Distributions) Distributions)

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

1. Basitlik 2. Belirlenmişlik Y t = b 1 (1-r)+b 2 X t -rb 2 X t-1 +ry t-1 +e t 3. R 2 ölçüsü 4. Teorik tutarlılık 5. Doğru Fonksiyonel Biçim

CHAPTER 6 SIMPLE LINEAR REGRESSION

Y = 29,6324 X 2 = 29,0871 X 3 = 28,4473 y 2 = 2,04 x 2 2 = 0,94 x 2 3 = 2,29 yx 2 = 0,19 yx 3 = 1,60 x 2 x 3 = 1,06 e 2 = 0,2554 X + 28,47 X 3-0,53

Model Spesifikasyonu ve Veri Sorunları. MODEL KURMA HATALARI ve VERİ SORUNLARI

KUKLA DEĞİŞKENLİ MODELLER

Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

Bağımlı Kukla Değişkenler

500 BÜYÜK SANAYİ KURULUŞUNDA ÜRETİM, KÂRLILIK VE İSTİHDAM İLİŞKİLERİ. YÜKSEK LİSANS TEZİ Müh. Özlem KÖSTEKLİ. Anabilim Dalı: İşletme Mühendisliği

Bağımlı Kukla Değişkenler

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın.

OLS Klasik Varsayımlar. Çoklu Regresyon. Çoklu Regresyon Modellemesi. Çoklu Regresyon Modeli. Multiple Regression

Korelasyon, Korelasyon Türleri ve Regresyon

Regresyon Analizinde Nitel Bilgi. Nitel Değişkenler: Ders Planı. Nitel Bilgi

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Değişen Varyans (Heteroscedasticity) Sabit Varyans (Homoscedasticity) Varsayımı Altında Basit Regresyon Modeli

19. BÖLÜM BİRBİRİYLE İLİŞKİLİ OLAN İKİ DEĞİŞKENDEN BİRİSİNDEKİ DEĞİŞİME GÖRE DİĞERİNİN ALACAĞI DEĞERİ YORDAMA (KESTİRME) UYGULAMA-I

İstatistik ve Olasılık

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

Ch. 2: Basit Regresyon Modeli

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 8: Değişen Varyans

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Temel İstatistik. Y.Doç.Dr. İbrahim Turan Mart Tanımlayıcı İstatistik. Dağılımları Tanımlayıcı Ölçüler Dağılış Ölçüleri

EKONOMETRİ. GRETL Uygulamaları. Prof. Dr. Bülent Miran

Koşullu Öngörümleme. Bu nedenle koşullu öngörümleme gerçekleştirilmelidir.

4. TAHMİN SONUÇLARININ DEĞERLENDİRİLMESİ Katsayıların Yorumu

Yatırım Analizi ve Portföy Yönetimi 6. Hafta

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT

ÖNGÖRÜ TEKNĐKLERĐ ÖDEV 5 (KEY)

GÜVEN ARALIKLARI ve İSTATİSTİKSEL ANLAMLILIK. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ

Örneklem Dağılımları & Hipotez Testleri Örneklem Dağılımı

EVIEWS KULLANIMI (EVIEWS 8)

İçindekiler. Ön Söz... xiii

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

MAK 210 SAYISAL ANALİZ

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

KUKLA DEĞİŞKENLİ MODELLER. Kukla değişkenlerin diğer kantitatif değişkenlerle alındığı modeller (Kovaryans Analizi Modeller)

Ch. 9: Model Spesifikasyonu ve Veri Sorunları

Ekonometri II

Konum ve Dağılım Ölçüleri. BBY606 Araştırma Yöntemleri Güleda Doğan

Transkript:

Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Notları Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. ed., 2002, Thomson Learning. Ch. 6: Çok Değişkenli Regresyon Analizinde Ek Konular

Çok Değişkenli Regresyon Analizinde Ek Konular Bu bölümde aşağıdaki konuları inceleyeceğiz: Veri ölçeğinin (data scaling) tahminlere etkisi Fonksiyonel kalıp ile ilgili ek konular Karesel (quadratic) modeller Etkileşim terimli (interaction term) modeller Regresyonda uyumun iyiliği ölçüleri ve değişkenlerin seçimi Düzeltilmiş R 2 Kestirim ve kalıntı analizi

Veri ölçeğinin (data scaling) tahminlere etkisi Modelde yer alan değişkenlerin ölçü birimlerini değiştirdiğimizde bunun sabit (intercept) ve eğim (slope) katsayıları üzerinde nasıl etki yarattığını daha önce (CH.2) görmüştük. imdi, ölçü birimi değiştirmenin standart hatalar (SE), t istatistiği, F istatistiği ve güven aralıkları üzerinde meydana getireceği etkileri görelim.

Data scaling (devam) Değişkenlerin ölçü birimlerini değiştirmek, katsayılardaki fazla sıfırları yok etmek gibi regresyonun görünümünü iyileştirmek ve yorumunu kolaylaştırmak amacıyla yapılır. Regresyonun özünü değiştirmez, tüm test sonuçları ve bulgular aynı kalır. Ölçü birimlerinin regresyon parametrelerine etkisini bir örnek üzerinde görelim. Örnek: yeni doğan bebeklerin ağırlıklarını belirleyen faktörler

Data scaling: örnek Birimler : Bwght: ounces (1 ounce=28.35 gr), Bwghtlbs: pounds (lbs), 1 pound=16 ounces= 454 gr Faminc : bin $ (000$)

Bwght Model Tahmin Sonuçları

Bağımlı değişkenin birimini 16 ya bölerek ounce dan pound a çevirelim : (6.1) deki regresyonun her iki tarafını 16 ya bölelim: Görüldüğü gibi, pound cinsinden yeni regresyonun (Tabloda 2.ci sütun) tüm katsayıları ounce cinsinden olan regresyonun (Sütun 1) katsayılarının 1/16 sına eşittir. Ancak, beta katsayıları aynı enformasyonu vermektedir. Örneğin, annenin bir günde içtiği sigara sayısı bir birim (bir adet) artığında, bebeğin ağırlığı ilk regresyonda 0.4634 ounces, ikinci regresyonda 0.0289 pound azalmaktadır. Bunlar aynı şeydir.

devam Değişkenlerin ölçü birimini değiştirmek betaların anlamlılık düzeyini etkilemez. Tablodan görüldüğü gibi, ounce dan pound a geçildiğinde betaların standart hataları da 16 ya bölünmekte ve böylece t değerleri aynı kalmaktadır. se(cigs) ilk regresyonda 0.0916, ikinci regresyonda 0.0916/16=0.0057 dir. t(cigs)=-0.4634/0.0916= -0.0289/0.0057=-5.05

devam 2.ci regresyonda güven aralığının alt ve üst limitleri 1.ci regresyondakinin 1/16 katıdır : Değişkenlerin ölçü biriminin değişmesi determinasyon katsayısı R 2 yi etkilemez. Buna karşılık SSR ve SER [(standard error of the regression,σ(u)] ölçü birimine göre değişmektedir: Diğer her şey aynı iken, y yi c sayısı ile bölmüşsek (burada c=16), SSR c 2 (ckare) ye, SER ise c ye bölünecektir.tablo 6.1 in ilk iki sütunundan bunu görebiliriz.

devam y, c ile (c=16) bölündüğünde, artık terimler (u hat) de c ile bölünmüş olacak, böylece ukare ler (SSR) ckare ye (256) bölünmüş olacaktır: SER ise, SSR nin kare kökünden bulunduğu için, c ile bölünecektir : y yi pound ile ölçtüğümüzde uhat lerin st.sapması y nin ounce ile ölçüldüğü duruma göre 16 kat daha küçük olmaktadır. Ancak, bu azalma tamamen ölçü birimi değişikliğiyle ilgilidir. Yoksa, uhat lerin varyansında gerçek bir azalma olduğu anlamına gelmez.

x lerden birinin birimini değiştirelim :içilen sigarayı önce adet ve sonra paket olarak ölçelim. Tablo 6.1 de 1.ci ve 3.cü sütunları karşılaştıracağız. cigs değişkeni ilk regresyonda adet, 2.ci regresyonda paket (packs) ile ölçülmektedir. Packs=cigs/20 oldu. y, her iki regresyonda da ounce ile ölçülmektedir. Görüldüğü gibi, packs in betası(=-9.268) cigs in betasının (=-0.4634) 20 katıdır. Standart hata da (se) benzer şekilde 20 ile çarpılmıştır. Dolayısıyla, t istatistiği ölçü birimi değişiminden etkilenmedi.

Yukarıda görüldüğü gibi, x lerden birinin ölçü birimini değiştirmek diğer x lerin betalarını ve regresyon sabitini (intercept) etkilememektedir. Eğer, bağımlı değişken y LOG(=Ln) cinsinden verilmişse, y nin biriminin değiştirilmesi betalarda bir değişikliğe yol açmaz (zira betalar bu halde % değişmeleri gösterecektir). Sadece sabit (intercept) değişir : Log(y/c)=log(y)-log(c) yeni sabit = eski sabit Log(c)

devam Benzer şekilde, log cinsinden ifade edilmiş herhangi bir x in ölçü biriminin değiştirilmesi sadece sabit i değiştirir. Çünkü, betalar bu halde yüzde değişme ve esneklikleri gösterecektir, ki, onlar da ölçü biriminden bağımsızdırlar. Örnek 1: y nin ölçü birimi değişsin: Log(bwght)=4.74-0.00403cigs+0.00084faminc Log(bwghtlbs)=1.97-0.00403cigs+0.00084faminc 1.97 = 4.74 Log(16) = 4.74-2.77=1.97

Örnek 2: x in ölçü birimi değişsin : faminc ı 1000 ile çarpalım ($ olarak alalım) Bwght=113.9-0.4672cigs+1.85Log(faminc) Bwght=101.2-0.4672cigs+1.85Log(faminc*1000) 101.2=113.9-1.85*Log(1000)=113.9-1.85*6.907=101.2 Yani, yeni sabit=eski sabit-1.85*log(1000)

Standartlaştırılmış değişkenler Bazen, x j, 1 birim değil de 1 standart sapma değişseydi y ne kadar değişirdi? diye sormak ve yanıtını bilmek isteyebiliriz. Bu soruyu yanıtlayabilmek için regresyondaki tüm değişkenleri(y ve x ler) standart hale getirip sonra bu standartlaştırılmış değişkenlerle regresyon tahmin etmemiz gerekir. Bir değişkeni, kendi ortalamasından farkını alıp standart sapmasına bölersek, o değişeni standartlaştırmış oluruz : z(y)=(y-ybar)/σ(y), z(x1)=(x1-x1bar)/ σ(x1),.

Devam Örnek : x1 :orijinal seri, z(x1): standardize edilmiş seri, xbar=26, σ(x1)=21.78 X1 z(x1) 7-0.872360 9-0.780533 12-0.642792 23-0.137741 45 0.872360 60 1.561065 z(x1) = (x1-xbar) / σ(x1) = (x1 26) / 21.78

(6.2) deki orijinal SEKK (OLS) regresyonunu standart hale getirmek için,tüm gözlemler itibariyle (6.2) nin ortalamasını alalım ve kendisinden çıkaralım (uhat lerin ortalaması sıfır idi):

Devam Standardize edilmiş regresyonda, (6.3), standardize edilmiş x 1 değişkeninin beta katsayısı ye eşittir. Ortalamadan sapmalar alındığı için regresyonda sabit yoktur.

devam b1hat in yorumu : eğer x1 bir standart sapma artarsa, y, b1hat kadar standart sapma değişecektir. Böylece, x in y üzerindeki etkisini değişkenlerin orijinal ölçü birimleriyle değil standart sapma cinsinden ölçüyoruz. Bu, kısmi etkilerin ölçü birimlerinden bağımsız olarak görülebilmesini ve karşılaştırılmasını sağlıyor.

Orijinal değişkenlerle regresyon Dependent Variable: PRICE Method: Least Squares Date: 02/02/06 Time: 10:37 Sample (adjusted): 1 506 Included observations: 506 after adjustments Variable Coefficient Std. Error t-statistic Prob. C 20871.13 5054.599 4.129136 0.0000 NOX -2706.433 354.0869-7.643413 0.0000 CRIME -153.6010 32.92883-4.664636 0.0000 ROOMS 6735.498 393.6037 17.11239 0.0000 DIST -1026.806 188.1079-5.458603 0.0000 STRATIO -1149.204 127.4287-9.018408 0.0000 R-squared 0.635666 Mean dependent var 22511.51 Adjusted R-squared 0.632022 S.D. dependent var 9208.856 S.E. of regression 5586.198 Akaike info criterion 20.10577 Sum squared resid 1.56E+10 Schwarz criterion 20.15589 Log likelihood -5080.760 F-statistic 174.4733 Durbin-Watson stat 0.864650 Prob(F-statistic) 0.000000

Regresyonun fonksiyonel biçimi (functional form) Daha önce, bağımlı ve/veya bağımsız değişkenleri doğal logaritma cinsinden ifade ederek regresyonda doğrusalolmayan (nonlinear) ilişkilerin yakalanabileceğini görmüştük. Örnek : Burada, β1 : fiyatın, nox (hava kirliliği) esnekliğidir. β2: Oda sayısı 1 birim ( 1 oda) artınca, log(price) da meydana gelen değişmedir. Yani, rooms =1 Log (price) daki değişme. 100xβ2, bize, fiyattaki % değişmeyi (percentage change) verecektir. 100xβ2 ye bazen yarı-esneklik (semi-elasticity) denir.

(6.6) nın HPRICE2.RAW veri setinden tahmini yukarıda görülüyor. Oda sayısını sabit tuttuğumuzda, hava kirliliği ölçüsü nox da %1 artış olduğunda ev fiyatları %0.718 azalmaktadır.yani, fiyatların kava kirliliği esnekliği - 0.718 dir (birim esneklikten daha küçük). Hava kirliliği aynı kalmak koşuluyla, oda sayısında 1 odalık artış ev fiyatlarını 100x0.306 = %30.6 artırmaktadır. Log(y) deki değişme büyüdükçe % y 100x Log(y) eşitliği bozulur ve önemli miktarda bir yakınsama hatası (approximation error) ortaya çıkar. Bu durumda, y deki % değişmeyi tam olarak şöyle hesaplayabiliriz:

devam Modelimiz şöyleydi : X1 i sabitlediğimizde şunu elde ederiz: x2=1 iken, Bu son formülde, β2hat = 0.306 konursa, % price=100x [exp(0.306)-1]=%35.8 bulunur. Exp( ) bir doğrusal-olmayan (nonlinear) fonksiyon olduğu için bulunan 0.358 katsayısı sapmasız (unbiased) değildir. Ancak, tutarlı (consistent) bir tahmin edicidir. Zira,olasılık limiti (probability limit) sürekli fonksiyonlarda geçerliliğini korurken, beklenen değer (E) koruyamaz.

LOG kullanmanın avantajları Negatif-olmayan değerler alan bir bağımlı değişkeni (y>0) logaritmik olarak ifade etmek pek çok avantaj sağlar : Betalar, bu halde, x lerin ölçü birimlerinden bağımsız olarak, esneklik ya da yarı-esneklik şeklinde tahmin edilir. y>0 iken, Log (y), CLM varsayımlarının sağlanması açısından, y serisine kıyasla çok daha elverişlidir. y>0 düzey (level) değişkeni genellikle heteroscedastic ve çarpık (skewed) bir koşullu dağılıma sahiptir. Logaritma alınması çarpıklığı azaltır ve varyansdaki değişmeyi yumuşatır.

devam Log alınması değişkenin aralığını (range) büyük ölçüde düşürür. Bu ise, tahmin edicilerin aşırı uç değerlerden (outliers) fazla etkilenmemesini sağlar. Ücret, gelir, nüfus, üretim, satışlar vb gibi pozitif sayılar şeklindeki değişkenleri regresyona genellikle düzey (level) olarak değil logaritmik olarak sokarız. İşsizlik oranı, faiz oranı, herhangi bir projeye vs katılma oranı gibi oranları genellikle düzey olarak regresyona dahil ederiz. Ancak, her gözlemi >0 olan oranların bazen Log biçiminde regresyona sokulduğu da görülmektedir.

devam Oranlar (işsizlik oranı, örneğin) düzey olarak alınmışsa, yorum yaparken, işsizlik oranında bir birimlik (= yüzde 1 puanlık, a percentage point increase) artış olduğunda deriz. Oran Log olarak (Log(işsizlik oranı)) alınmışsa, işsizlik oranında %1 lik (a percentage increase) artış olduğunda diye yorumlarız. İşsizlik oranı düzey olarak %8 den %9 a yükselmişse, artış %1 puandır. Ama yüzde artış olarak Log(9)-Log(8)=0.1177=%11.77 lik bir artış olmuştur. İkisinin birbirine karıştırılmaması gerek.

devam Seri 0 şeklinde ise, yani pozitif sayıların yanında bazı gözlemler sıfır değerini de alıyorsa Log kullanamayız, zira Log(0) tanımlanamaz. Bu halde, y serisini Log (y) ye çeviremeyiz, ancak, Log(1+y) serisini Log(y) yerine kullanabiliriz. Eğer seride 0 değeri seyrek ise bu yola başvurabiliriz. Bu durumda betaların yorumu yine Log (y) kullanıldığındaki gibidir. Büyük bir fark oluşmamaktadır. Bağımlı değişkenleri Log(y) ve y olan iki regresyonun R 2 leri doğrudan karşılaştırılamaz. Gerekli dönüşürme işlemlerini yapmamız gerek.

Karesel (quadratic) modeller Değişkenlerin marjinal etkileri sabit değil de artan ya da azalan türde ise karesel modeller kullanmalıyız. Bu durumda, eğim, y/ x, sabit değil, x in düzeyine bağlıdır:

devam Ekonomik değişkenlerde genellikle β 1 >0, β 2 <0 çıkar. örnek: Bu regresyon, tecrübenin ücretler üzerinde azalan (diminishing) bir etki yarattığını gösteriyor. Türevi : d(wage)/d(exper) = 0.298-0.0122exper İlk 1 yıllık tecrübe 0.298$=30 cent lik bir ücret artışı (saat başına ücretlerde) getirirken, 2.ci yıldaki tecrübe(x=1 konacak), 0.298-0.0122(1)=0.286$ lık artış yaratıyor. Tecrübe 10.cu yıldan 11 e geçerken 0.298-0.0122(10)=0.176 $ lık artış sağlıyor.

β 1 >0 ve β 2 <0 iken karesel fonksiyon parabol şeklindedir. Eğimin (katkının) negatife geçişi β 1 / 2β 2 noktasına rastlar.

β 1 <0 ve β 2 >0 iken karesel fonksiyon U şeklindedir

devam Ev fiyatları regresyonunda oda sayısının katkısının negatiften pozitife geçtiği nokta 0.545 / (2x0.062) = 4.4 odadır. Rooms değişkeninin 4.4 den küçük değer aldığı gözlemler görece olarak az sayıda ise eğrinin negatif eğilimli ilk kısmı ihmal edilebilir, sadece ikinci kısmı kullanılır. N=506 evden sadece 4 ünde oda sayısı 4.4 ün altındadır. Dolayısıyla eğrinin negatif eğimli ilk kısmını atabiliriz.

devam İlave bir odanın fiyatlarda yaratacağı % değişme :

Değişken esneklik Log-Log regresyona [Log(x)]2 terimini ekleyerek x in düzeyine bağlı (değişken) esneklik tanımlayabiliriz. Örnek :

Kübik fonksiyonlar Toplam maliyet (total cost) için şu model kullanılabilir :

Karşılıklı etkileşim (interaction) terimi içeren modeller : Bazen y nin x 1 e göre esnekliği ya da yarıesnekliği bir başka x e (x 2 diyelim) bağlı olabilir. Örnek :

devam Eğer β 3 >0 ise, ilave bir odanın ev fiyatlarına katkısı evin büyüklüğüne (sqrft) bağlı olacaktır. Büyük evlerde bu katkı daha büyük, küçük evlerde daha küçük olacaktır. Yani, oda sayısı ile ev alanı değişkenleri arasında bir karşılıklı etkileşme (interaction effect) söz konusudur. (6.17) de oda sayısının fiyatlara katkısı sqrft yerine bu değişkenin çeşitli değerleri (ortalaması, medyan ya da birinci ve sonuncu çeyrek yüzde değerleri vb. gibi) konarak somutlaştırılabilinir..

(6.18) in tahmini : veri seti attend.gdt Stndfnl : standardize edilmiş öğrenci final notu { (xbar-µ) / σ}; atndrte :devamlılık oranı (%) ; prigpa : önceki sınıfların ortalama notu (4 üzerinden); ACT: genel yetenek notu, Atndrte nin katsayısı (-0.0067), denklemde interaction terimi olduğu için prigpa=0 iken geçerli olan etkiyi ölçüyor. PriGPA serisinde ise sıfır bulunmamaktadır, dolayısıyla, β 1 in negatif işaretli olması önemli değildir. Bu katsayı tek başına devamlılığın etkisini ölçmüyor.

Derse devamın finale etkisini β 6 veriyor. β 1 ve β 6 tek tek t testini geçemedikleri halde ikisinin aynı anda sıfır olduğu testi (Ho: β 1 =β 6 =0, F testi) reddedilmektedir. Bu regresyonda atndrte nin stndfnl üzerindeki kısmi etkisini (partial effect) nasıl ölçeceğiz? Bunun için interaction terimindeki 2.ci değişken olan prigpa yerine somut bir değer koymamız gerek. Genellikle söz konusu değişkenin ortalama ya da medyan değeri kullanılır. prigpa nın ortalaması 2.59 dur. Regresyonun atndrte e göre kısmi türevini alır ve prigpa=2.59 koyarsak devam oranının final notu üzerindeki etkisini bulmuş oluruz: -0.0067+0.0056(2.59)=0.0078 Yani, devam oranında yüzde 10 puanlık bir artış stndfnl değişkeninde 0.078 standart sapma kadar bir artış yaratır.

Peki, bu 0.0078 lik kısmi etkinin istatistiksel olarak anlamlı olup olmadığını nasıl bileceğiz? İnteraction değişkenini (prigpa-2.59)*atndrte ile değiştirip regresyonu yeniden tahmin edeceğiz. Bu yeni regresyonda atndrte nin katsayısı (β 1 ), devam oranının, prigpa=2.59 iken, final notuna ne kadar kısmi etki yaptığını (ki bu 0.0078 idi) verecektir. Yeni regresyonda β 1 in t değeri devam oranının kısmi etkisinin sıfırdan farklı olup olmayacağını verecektir.

(6.19) u interaction terimini değiştirerek yeniden tahmin edelim: Dependent Variable: STNDFNL Included observations: 680 after adjustments Variable Coefficient Std. Error t-statistic Prob. C 2.050293 1.360319 1.507215 0.1322 ATNDRTE 0.007755 0.002639 2.938125 0.0034 PRIGPA -1.62854 0.481002-3.385720 0.0008 PRIGPA^2 0.295905 0.101049 2.928314 0.0035 ACT -0.12803 0.098492-1.299998 0.1940 ACT^2 0.004533 0.002176 2.082939 0.0376 (PRIGPA-2.59)*ATNDRTE0.005586 0.004317 1.293817 0.1962 R-squared 0.228654 Mean dependent var 0.029659

Değişkenlerin ortalamaları düzeyinde prigpa nın kısmi etkisinin bulunması prigpa kare ve interaction değişkenlerini şöyle değiştireceğiz:

Dependent Variable: STNDFNL Sample (adjusted): 1 680 Included observations: 680 after adjustments Variable Coefficient Std. Error t-statistic Prob. C 0.065335 1.446060 0.045182 0.9640 ATNDRTE -0.006713 0.010232-0.656067 0.5120 PRIGPA -0.091174 0.363261-0.250987 0.8019 (PRIGPA-2.59)^2 0.295905 0.101049 2.928314 0.0035 ACT -0.128039 0.098492-1.299998 0.1940 ACT^2 0.004533 0.002176 2.082939 0.0376 (PRIGPA)*(ATNDRTE-0.82) 0.005586 0.004317 1.293817 0.1962 R-squared 0.228654 Mean dependent var 0.029659

Uyumun derecesinin ölçüsü: R 2 (kare) R 2, ana kitlede, y deki değişimin, x 1, x 2,, x k tarafından açıklanan yüzdesinin bir tahmini dir. Dolayısıyla, R 2 nin düşük çıkması SEKK (OLS) varsayımlarının ihlal edildiği vb gibi anlamlara gelmez. Bağımsız değişken sayısı (x) arttıkça R 2 yükselir. Dolayısıyla, uygun regresyonu seçerken R 2 nin kullanımı sınırlı olacaktır. Ancak, F testinden hatırlanacağı üzere, yeni bir değişken eklerken R 2 deki görece artış karar kriterimizi oluşturmaktadır.

Düzeltilmiş R 2 (adjusted R kare) R 2 yi şöyle tanımlıyorduk : R 2 = 1- (SSR / SST) (3.28) Son terimin pay ve paydasını n e bölelim : R 2 = 1 {(SSR/n) / (SST/n)} = Demek ki, R 2, ana kitlede y deki değişmenin x lerce açıklanan kısmıdır. Ancak, SSR/n ve SST/n nin sapmalı (biased) tahmin ediciler olduğunu biliyoruz. Onların yerine şu sapmasız tahmin edicileri kullanacağız : SSR / (n-k-1) ve SST / (n-1)

devam Bu sapmasız tahmin edicileri kullanarak düzeltilmiş R 2 yi şöyle tanımlayacağız : Düzeltilmiş R 2, R-bar kare olarak da adlandırılır. Çoğu kez R-bar karenin, ana kitle R 2 sinin sapmasını düzelttiği sanılır. Oysa R-bar kare R 2 nin sapmasız tahmin edicisi değildir. İki sapmasız tahmin edicinin oranı sapmasız bir tahmin edici değildir. Yeni bir değişken eklendiğinde, SSR düşerken serbestlik derecesi n-k-1 de düşer (k arttığı için).

Dolayısıyla, yeni bir değişken eklendiğinde R 2 daima arttığı halde (SSR düştüğü için), R-bar kare artabilir de azalabilir de. Bu yüzden, yeni değişkeni regresyona dahil edip etmemeye karar verirken R 2 yi değil, R-bar kareyi kullanacağız. Yeni bir x değişkeni eklendiğinde R-bar kare, ancak ve ancak, bu yeni değişkenin katsayısının t değeri mutlak olarak 1 den büyükse artar. Bunu genelleştirirsek, bir gurup x değişkenleri regresyona eklendiğinde, eğer bu yeni değişkenlerin ortak (joint) anlamlılık testinde F istatistiği 1 den büyükse R-bar kare artacaktır, aksi halde artmayacaktır.

Örnek Dependent Variable: LPRICE Included observations: 506 after adjustments Variable Coefficient Std. Error t-statistic Prob. C 8.953481 0.181147 49.42664 0.0000 LNOX -0.304841 0.082164-3.710157 0.0002 PROBTAX -0.007607 0.000978-7.780075 0.0000 ROOMS 0.288707 0.018119 15.93432 0.0000 R-squared 0.566042 Mean dependent var 9.941057 Adjusted R-squared 0.56344 S.D. dependent var 0.409255

Dependent Variable: LPRICE (CRIME eklendi) Included observations: 506 after adjustments Variable Coefficient Std. Error t-statistic Prob. C 8.855318 0.172131 51.44515 0.0000 LNOX -0.275421 0.077951-3.533245 0.0004 PROBTAX -0.004222 0.001027-4.109041 0.0000 ROOMS 0.281587 0.017194 16.37713 0.0000 CRIME -0.012489 0.001639-7.621883 0.0000 R-squared 0.611133 Mean dependent var 9.941057 Adjusted R-squared 0.608028 S.D. dependent var 0.409255 S.E. of regression 0.256225 Sum squared resid 32.89123

Dependent Variable: LPRICE(CRIME ve STRATIO eklendi) Included observations: 506 after adjustments Variable Coefficient Std. Error t-statistic Prob. C 9.767490 0.222071 43.98365 0.0000 LNOX -0.355701 0.076315-4.660952 0.0000 PROBTAX -0.001852 0.001063-1.742785 0.0820 ROOMS 0.251409 0.017290 14.54053 0.0000 CRIME -0.012232 0.001581-7.735139 0.0000 STRATIO -0.037070 0.005992-6.186787 0.0000 R-squared 0.638785 Mean dependent var 9.941057 Adjusted R-squared 0.63517 S.D. dependent var 0.409255 S.E. of regression 0.24719 Sum squared resid 30.55237 Wald Test: Ortak anlamlılık testi (joint significance test) Test Statistic Value df Probability F-statistic 50.34589 (2, 500) 0.0000 Chi-square 100.6918 2 0.0000

R-bar karenin R 2 cinsinden ifadesi (6.22) verilmektedir. Bir önceki regresyonda R 2 =0.6387, n=506, k=5 konursa; R-bar kare=0.6351 olarak bulunur. R 2 nin sıfıra yakın değerleri için R-bar kare negatif çıkabilir. Bu durumda R-bar kareyi sıfır olarak alabiliriz. F testi yaparken kullandığımız (4.41) nolu formülde R 2 yi kullanmaktayız. R-bar kare kullanılmaz burada.

Birbirinin içerisine yuvalanmış(nested) ve yuvalanmamış (nonnested) modeller Yuvalanmış (nested) modeller : y = β o + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + u y= β o + β 1 x 1 + β 2 x 2 2.ci model 1.cinin özel bir halidir ve onun içinde yuvalanmıştır. Ortak anlamlılık (joint significance) F testinde bu tür modellerle çalışıyorduk.

Yuvalanmamış (nonnested) modeller : y = β o + β 1 x 1 + β 2 x 2 + β 3 x 3 + u y = β o + β 1 x 1 + β 2 x 2 + β 4 x 4 + u Bu regresyonlar birbirlerinin özel hali değildir. Farklı x içermektedirler. Bu tür yuvalanmamış regresyonlar arasında seçim yaparken R-bar karelerini kıyaslayarak karar verebiliriz. Bağımlı değişkenleri aynı (y) olan iki regresyondan birisi az, diğeri çok sayıda x ihtiva etsin. Her şey aynı iken kısa (basit)model daha üstündür. Buna parsimonious principle denir. Bu tür modellerin R-bar karelerini kıyaslayarak model seçebiliriz.

Bağımlı değişkenin farklı fonksiyonel biçimde yer aldığı (birinde y, diğerinde log (y) gibi) regresyonların R 2 ve R-bar karelerini kıyaslayamayız. Çünkü, R 2, bağımlı değişkendeki toplam değişmenin açıklanan kısmıdır ve bu değişme y nin ele alınış biçimine göre değişecektir.

Kontrol etmemiz gereken x ler Nasıl önemli bir değişkeni regresyon dışında bırakmak bir hata ise, bazı durumlarda belirli değişkenleri regresyona sokmak da hatadır. Örneğin, ABD de eyaletlerde bira tüketimi üzerine konan vergilerin trafik kazalarına etkisi olup olmadığını araştıralım. Bu durumda tax değişkenini regresyona alırken bira tüketimi değişkenini (beercons) almamamız gerek. Zira, beercons ını kontrol ettiğimizde tax değişkeninin katsayısı bira tüketimi aynı olan iki eyalette tax i %1 puan artırdığımızda kazalar ne kadar artar? sorusunun yanıtını verecektir. Oysa bizi ilgilendiren bu değildir.

Bizim ilgilendiğimiz şey, tax de %1 puan artışın kazaları nasıl etkilediğidir.onun için bira tüketimini kontrol etmememiz gerek. Hangi etkenleri (faktörleri) kontrol etmemiz, hangilerini etmememiz gerektiği konusu her zaman açık değildir. Örneğin, okul kalitesi (Scqual) ve alınan eğitim süresi (EDUC) aynı regresyona x olarak giriyor. Eğer, iyi okul kalitesi zaten zorunlu olarak eğitim süresinin uzun olmasını gerektiriyorsa ve aralarında böyle bir ilişki varsa bizim EDUC değişkenini regresyona sokmamamız lazım.

Yeni açıklayıcı değişkenler eklenmesi Var (u) yu azaltır. Yeni bir açıklayıcı değişken bir yandan artıkların varyansını, σ 2 (u), azaltırken, diğer yandan eğer mevcut x lerle ilişkili ise çoklu-bağıntıyı artırabilir. Bu nedenle yeni değişken eklerken çoklu-bağıntı yaratılıp yaratılmadığına dikkat etmek gerekir. y ile ilişkili, dolayısıyla da, Var(u) yu düşüren yeni bir değişken eğer diğer x lerle ilişkisiz ise mutlaka regresyona alınmalıdır. Örneğin, bira tüketiminin fiyat esnekliğini tahmin etmek isteyelim. Log(beercons)=β o + β 1 Log(price) + u Bu regresyona tüketicilerin bireysel karekteristikleriyle ilgili değişkenler eklersek (yaş, eğitim vs.) bu değişkenler hem bira talebiyle ilişkili hem de fiyatla ilişkisiz oldukları için hata terimlerinin varyansını büyük ölçüde düşürebilecektir.

SEKK(OLS) regresyonundan elde edilen tahminler için güven aralığı oluşturmak (confidence intervals for predictions of E(y x 1,, x k )): Regresyonda x değişkenlerinin belli somut değerlerine (c 1, c 2,., c k ) karşılık gelen tahmini y değeri olsun :

Teta (o) için bir güven aralığı oluşturabilmemiz için onun standart sapmasını bilmemiz gerektir. Bu takdirde, %95 lik bir güven aralığı şöyle olacaktır: tetahat ± 2*se(tetahat). (6.28) dan, β(o) ı çekip şu denklemde yerine koyalım :

(6.31) deki regresyonda sabit terim teta(o) a eşittir ve dolayısıyla onun standart hatası da teta(o) ın st hatasıdır.örnek: (6.32) deki regresyonda sat=1200, hsperc=30, hsize=5 değerleri için bağımlı değişkenin değerini tahmin edelim ve %95 lik güven aralığı kuralım:(hsrank:rank in class; hsize:size of class; hsper:100*(hsrank/hssize)

x leri verilen değerlerden çıkararak yeni değişkenler elde edeceğiz ve regresyonu bu yeni değişkenlerle tekrar tahmin edeceğiz : colgpa nın verilen x değerleri için tahmini bu regresyonun sabitidir : 2.700 %95 Güv Aralığı: 2.70 ± 1.96 (0.020)={2.66, 2.74}.

Tahminin (tetahat) varyansı en düşük noktasına x değişkenlerini kendi ortalamalarına eşitlediğimizde ( ) ulaşacaktır. c(j) ler, x ortalamalarından ne kadar çok uzak değerleri alırsa bulunan tetahat tahminlerinin varyansı da o kadar büyük olacaktır. Yukarıda, verilen belli x değerleri için bağımlı değişkenin koşullu beklenen değeri-ortalaması- için güven aralığı oluşturduk. imdi ise, orijinal örnekte yer almayan yeni bireysel y ler için güven aralığı oluşturalım. Bireysel tahminler için güven aralığında hem yhat(o) ın varyansı hem de artık terim u ların varyansı rol oynayacaktır.

orijinal örnekte yer almayan yeni bir bireyi (kişi, firma vb.) temsil etsin. Onun belli x değerleri için OLS regresyonundan elde edilen tahmini : Tahmin hatası (prediction error): Sapmasızlık özelliğinden dolayı bhat lerin beklenen değerleri betalara eşit olduğu için son denklemden tahmin hatasının beklenen değerini sıfır olarak elde ederiz :

(6.34) den, tahmin hatasının varyansını şöyle buluruz ( ): örnek hacmi ile ters orantılı olduğu için, n büyüdükçe küçülür. Oysa σ2, ana kitle artıklarının varyansıdır ve n arttıkça azalmaz. Dolayısıyla, tahmin hatasının varyansını büyük ölçüde σ2 belirler. Tahmin hatasının standart hatası ve %95 lik güven aralığı şöyle olacaktır:

Bireysel tahminler için bulduğumuz güven aralıkları ortalama yhat için bulduklarımızdan çok daha geniş olacaktır. Zira, (6.36) da σ2hat, Var (yhat(o)) dan çok daha büyüktür. Örnek : sat=1200, hsperc=30 ve hsize=5 olan bir lise öğrencisinin gelecekteki colgpa sı için %95 lik bir güven aralığı kuralım. Yukarıdaki regresyondan se(yhat(o))=0.02, σhat=0.56. Bunları (6.36) yerine koyarsak: se(ehat(o))=0.56 Güven aralığı: 2.70±1.96(0.56)={1.6, 3.8} Bu oldukça geniş bir güven aralığıdır ve muğlaklık uhat lerin varyansının büyüklüğünden ileri gelmektedir.

ÖRNEK: HPRICE2.DATA yı kullanarak değişkenlerin ortalama değerine denk gelen yhat=log(price) için %95 lik bir güven aralığı oluşturalım. Ortalamalar : lnox=1.69309, proptax=40.8237, crime=3.6115 Regresyon: Lprice = 11.18-0.504 lnox - 0.0056 proptax - 0.0095 crime. Buradan, x ortalamaları için lpricehat = 9.94 bulunur. Dönüştürülmüş regresyon: Lprice = 9.94 0.46(lnox-1.69309)- 0.0056(proptax-40.8237)-0.0139(crime-3.6115). Se(βo)=Se(yhat)=0.0147; σhat=0.3314, G.Aralığı: 9.94±1.96(0.0147) = {9.91, 9.968} Antilog larını alırsak {20,131$; 21,332$}

Bireysel tahmin için güven aralığı: imdi, x ortalama değerlerine sahip herhangi bir bölgede ev fiyatları tahmini için %95 lik bir güven aralığı oluşturalım: Dönüştürülmüş regresyondan, se(yhat)=0.0147, σhat=0.3314 değerleri burada konursa, Se(ehat)= SQRT[0.0147*0.0147)+(0.3314*0.3314)] =0.3317 Logprice için güven aralığı : 9.94 ± 1.96 (0.3317)= {9.289; 10.59}. Antilog larını alırsak, price için G.A.: {10,818$; 39,735$}

Artıkların analizi (residual analysis) Ev fiyatları regresyonunda artıkları inceleyerek hangi evlerin regresyonun öngördüğü fiyattan daha yüksek (overvalued), hangi evlerin daha düşük (undervalued) fiyatlandırıldığını görebiliriz. Burada, y : istenen fiyat, yhat: regresyondan elde edilen tahmini fiyat. Mutlak olarak en yüksek negatif uhat e sahip evler düşük değerlendirilmiş (undervalued), en yüksek pozitif uhat e sahip evler ise en fazla aşırı değerlendirilmiş (overvalued) olan evlerdir. uhat =y-yhat =Log(Y)-Log(Yhat) =Log (Y / Yhat)

obs Actual Fitted Residual obs Actual Fitted Residual (log) en düşük 10 en yüksek 10 400 8.74831 9.56705-0.81874 369 10.8198 9.49062 1.32918 490 8.85367 9.66379-0.81012 373 10.8198 9.63374 1.18606 401 8.63052 9.40469-0.77416 366 10.2219 9.0516 1.1703 402 8.88184 9.62784-0.746 372 10.8198 9.74455 1.07525 416 8.88184 9.60437-0.72253 368 10.0476 9.10481 0.94278 420 9.03599 9.74106-0.70507 370 10.8198 9.89351 0.92629 399 8.51719 9.10865-0.59146 371 10.8198 9.97127 0.84853 491 8.99962 9.58358-0.58396 408 10.2364 9.52692 0.7095 430 9.15905 9.6979-0.53885 367 9.99424 9.39573 0.59851 413 9.79256 9.26113 0.53143

Dependent Variable: LPRICE Included observations: 506 Variable Coefficient Std. Error t-statistic Prob. C 10.98524 0.299231 36.71153 0.0000 LPROBTAX -0.073268 0.042150-1.738238 0.0828 LNOX -0.701876 0.107804-6.510657 0.0000 CRIME -0.012730 0.001521-8.369419 0.0000 ROOMS 0.242073 0.017006 14.23496 0.0000 STRATIO -0.040195 0.005787-6.945320 0.0000 DIST -0.040705 0.008835-4.607353 0.0000 R-squared 0.654918 Mean dependent var 9.941057 Adjusted R-squared 0.650769 S.D. dependent var 0.409255 S.E. of regression 0.241852

obs Actual Fitted Residual obs Actual Fitted Residual (log) en düşük 10 en yüksek 10 400 8.74831 9.56705-0.81874 369 10.8198 9.49062 1.32918 490 8.85367 9.66379-0.81012 373 10.8198 9.63374 1.18606 401 8.63052 9.40469-0.77416 366 10.2219 9.0516 1.1703 402 8.88184 9.62784-0.746 372 10.8198 9.74455 1.07525 416 8.88184 9.60437-0.72253 368 10.0476 9.10481 0.94278 420 9.03599 9.74106-0.70507 370 10.8198 9.89351 0.92629 399 8.51719 9.10865-0.59146 371 10.8198 9.97127 0.84853 491 8.99962 9.58358-0.58396 408 10.2364 9.52692 0.7095 430 9.15905 9.6979-0.53885 367 9.99424 9.39573 0.59851 413 9.79256 9.26113 0.53143

obs actual ($) fitted difference obs actual ($) fitted difference 400 6300.0 14286.2-7986.2 369 50001.1 13235.0 36766.1 490 7000.0 15737.3-8737.3 373 50001.1 15271.4 34729.6 401 5600.0 12145.2-6545.2 366 27498.9 8532.2 18966.7 402 7200.0 15181.6-7981.6 372 50001.1 17061.0 32940.1 416 7200.0 14829.4-7629.4 368 23100.3 8998.5 14101.8 420 8400.0 17001.6-8601.5 370 50001.1 19801.4 30199.6 399 5000.0 9033.1-4033.1 371 50001.1 21402.6 28598.4 491 8100.0 14524.3-6424.3 408 27900.5 13724.3 14176.2 430 9500.0 16283.4-6783.3 367 21900.0 12036.9 9863.1 413 17900.1 10521.0 7379.1

Log(y) bağımlı değişken iken y yi (ki, bu yhat dir) nasıl tahmin ederiz? (6.38) de verilen modelin tahmini (6.39) olsun: (6.39) dan, şeklinde bulursak y nin beklenen değerini sistematik olarak noksan tahmin (underestimate) etmiş oluruz. Eğer (6.38) deki model klasik doğrusal model (CLM) varsayımlarını, yani, MLR.1-MLR.6, sağlıyorsa, şunu yazabiliriz:

Eğer, u~ N(0, σ 2 ) ise, exp(u) = exp(σ 2 /2). Dolayısıyla, logyhat den hareketle yhat i bulurken ufak bir düzeltme yapmamız gerekecek : σ 2 >0 olduğu için exp(σ 2 /2)>1 olacak her zaman. u ların varyansı σ 2 büyüdükçe bu düzeltme faktörü 1 den önemli ölçüde büyük olabilecektir. (6.40) daki yhat in tahmini, sapmalı fakat tutarlıdır. u ların normal dağıldığı varsayımına dayanır. Örnek büyüdükçe bu sorun olmaktan çıkar.

Düzeltme faktörünün N dağılım varsayımına dayanmayan diğer bir tahmini u nun açıklayıcı değişkenlerden (x ler) bağımsız olduğunu varsayarsak, y nin koşullu beklenen değerini şöyle yazabiliriz: Burada, α(o) = E{exp(u)} dur ve y nin, exp(logyhat) üzerine sabit terim olmaksızın regress edilmesi suretiyle bulunur : y = α(o) exp(logyhat) + e(t). Demek ki,önce (6.39) dan logyhat i, sonra y = α(o) exp(logyhat) + e(t) regresyonundan α(o) ı ve nihayet (6.42) den y nin tahminini (yhat) elde edeceğiz.

Örnek: CEO maaşları Bağımlı değişkenin log(salary) olduğu CEO maaşları denkleminin tahmini şöyledir:lmktval=log(market value), Bu denklemden, x lerin değerlerini yerlerine koyarak lsalaryhat i hesaplayacağız. Sonra, sabit terim kullanmaksızın salary = α(o) lsalaryhat + e regresyonundan α(o)hat= 1.117 olarak bulacağız. (6.42) de bu düzeltme faktörünü kullanarak verilen herhangi belli x değerleri için maaş tahminleri (yhat) yapabileceğiz.

Örneğin, sales=5000 million$, mktval=10,000 million$, ceoten=10 için ceo maaşlarını tahmin edelim. Bunları (4.43) de kullanırsak: Lsalaryhat=4.504+0.163*log(5,000)+0.109* log(10,000)+0.0117*10 = 7.013 Düzeltme faktörünü uygulayarak maaş tahminini şöyle buluruz : 1.117*exp(7.013) =1,240.967 bin $=1,240,967$. Düzeltme faktörü kullanmasaydık, salaryhat=1,110,983$ bulacaktık. %11.7 daha düşük tahmin yapmış olacaktık.

Bağımlı değişkenleri log(y) ve y olan iki regresyonun R 2 lerini nasıl mukayese edeceğiz? Çoklu bir regresyonda R 2 = corr(y,yhat) 2 idi. Adımlar : i) logy regresyonundan logyhat i bulunuz. ii) serisini hesaplayınız. iii) Sabit terim kullanmaksızın (orijinden geçen regresyon) y = α(o)mhat +e regresyonunu tahmin ediniz. iv) Bu regresyondan bulduğunuz yhat ile verilen y serisi arasındaki korelasyonu hesaplayınız. v) Bulduğunuz katsayının karesi R 2 dir : R 2 = [corr(y, yhat)] 2. Bu R 2 yi bağımlı değişkeni y olan ikinci regresyonun R 2 si ile karşılaştırabilirsiniz.

Örnek Yukarıdaki CEO maaşları örneğinde tahmin etmiştik. Aktüel salary serisi ile buradan bulunan salaryhat serisi arasındaki korelasyon 0.493 olarak hesaplanmaktadır. Bunun karesi, R 2 =0.243 değerini vermektedir. Demek ki, log modelinde açıklayıcı değişkenler maaşlardaki değişmelerinin %24.3 ünü izah edebilmektedir. Oysa, (6.43)deki log modelin R 2 si 0.318 dir ve bundan farklıdır. 0.318 değeri, logsalary serisindeki değişkenliğin açıklanan yüzdesini göstermektedir.

Dependent Variable: SALARY Included observations: 177 after adjustments Variable Coefficient Std. Error t-statistic Prob. C 613.4361 65.23685 9.403214 0.0000 SALES 0.019019 0.010056 1.891290 0.0603 MKTVAL 0.023400 0.009483 2.467719 0.0146 CEOTEN 12.70337 5.618052 2.261169 0.0250 R-squared 0.201274 Mean dependent var 865.8644 Adjusted R-squared 0.187424 S.D. dependent var 587.5893 S.E. of regression 529.6707 Akaike info criterion 15.40473 Sum squared resid 48535332 Schwarz criterion 15.47651 Log likelihood -1359.318 F-statistic 14.53168 Durbin-Watson stat 2.166043 Prob(F-statistic) 0.000000 (6.43) deki LOG model y deki değişmelerin %24.3 ünü açıkladığı halde, level model %20.12 sini açıklayabiliyor. Yani, Log model daha başarılıdır. Ayrıca, Log modelin katsayıları (esneklikler) daha kolay youmlanabilir türdendir.